科技| AI智能耳机自动锁定对话对象 嘈杂环境中提升聆听清晰度
[星岛综合报道] 在多人同时交谈的嘈杂环境中,听力受限人士往往最为吃力。即使配戴助听器,亦难以在众声喧哗中清楚分辨对话对象的声音。美国华盛顿大学研究团队近日展示一项新型智能耳机技术,透过人工智能分析对话节奏,自动判断用家正在交谈的对象,并即时加强该名说话者的声音,尝试解决长期困扰助听设备的“鸡尾酒会效应”。
所谓“鸡尾酒会效应”,是指助听器在放大声音时,难以只强化单一说话者的声音,往往会把周围所有声音一并放大。当多人在同一空间同时交谈、插话,对用家而言反而更混乱,对话体验大打折扣。
过去数年,华盛顿大学研究人员曾开发多项技术,包括透过头部朝向锁定说话者,或建立“声音气泡”,只接收一定距离内的声音。不过,这类方案仍需要用家刻意转头,或在多名说话者位于同一距离时失效。
最新展示的技术,则尝试从“对话本身”入手。研究团队在一副市售降噪罩耳式耳机上,加入双耳(binaural)收音咪及两套AI系统。
第一套AI会先把用家的声音设定为“锚点”,再辨识周边其他说话者的声音特征。系统会分析谁与用家存在“轮流说话”的节奏——换言之,两者说话重叠极少,符合自然对话的模式,从而推断出真正的对话对象。
当目标说话者被锁定后,第二套AI系统便会把该人的声音从背景中分离出来,并即时加强播放至耳机中。整个过程毋须用家作出任何手动选择,属于主动式运作。
研究指出,系统在播放时虽然存在轻微延迟,但实际感受并不明显,对对话流畅度影响有限。现阶段技术可同时应付最多四名说话者(不包括用家)的群组对话,显示其在小型社交场合具一定实用潜力。
目前该技术仍以罩耳式耳机作示范平台,研究团队期望日后可缩小至真无线耳塞,甚至整合至助听器产品之中。系统已在英语、普通话及日语对话中完成测试,至于其他语言及不同语速、语调的适应能力,仍有待进一步验证。
论文第一作者、华盛顿大学博士生胡桂林(Guilin Hu)表示,过往相关技术多要求用家自行选择收听对象或距离,实际使用体验并不理想。“我们这次展示的是一种更主动的技术,系统能在非侵入式情况下,自动推断用家的对话意图。”
该研究由Gollakota教授带领,论文已于中国苏州举行的“自然语言处理实证方法国际会议(EMNLP)”上发表。研究团队亦已公开示范影片,展示技术在真实嘈杂环境中的运作效果。
图片:Hu et al./EMNLP
T10
>>>星岛网WhatsApp爆料热线(416)6775679,爆料一经录用,薄酬致意。
>>>立即浏览【移民百答】栏目:新移民抵埗攻略,老华侨也未必知道的事,移民、工作、居住、食玩买、交通、报税、银行、福利、生育、教育。
