科技| AI机械人「会说话、懂表情」自学像人类般对嘴发声

[星岛综合报道] 电影《Westworld》中近乎真人的机械人，一大关键在于嘴唇与语音几乎零延迟同步，令「不像机械」成为可能。现实世界中，这一步正逐步逼近。由美国Columbia University创意机器实验室（Creative Machines Lab）研发的 EMO 机械人头部，近日展示一项新能力——不单止能对嘴说话，更能透过观察人类，自行学习如何「像你一样」开口发声。

EMO 并非完整人形机械人，而是一个覆蓋柔软矽胶「皮肤」的机械头部，面部下方藏有 26 个微型马达。研究团队透过不同组合启动这些马达，令面部肌肉产生细致变化，从表情到嘴形都可高度还原人类说话时的动作。

研究第一步，科研人员将 EMO 放在镜子前，让它随机做出成千上万种面部动作，并即时「观察自己」。透过这种自我观察，系统逐渐建立起「哪一组马达动作，会对应哪一种视觉表情」的关系模型，属于一种称为「视觉到动作」（Vision-to-Action，VLA）的学习方式。换言之，机械人并非被预先写好表情对照表，而是靠自己试错学会控制脸部。

完成自我学习后，EMO 再进入第二阶段：长时间观看 YouTube 上大量人类说话及唱歌影片，理解不同语音与嘴形之间的关联。其人工智能系统其后把这些观察结果，与自身的 VLA 模型结合，最终在播放合成声音时，能即时生成相应的唇部动作，达至近似人类的对嘴效果。

研究由哥伦比亚大学博士生Yuhang Hu、教授Hod Lipson等人主导。团队指出，现阶段 EMO 对某些发音（如「B」、「W」）仍掌握不足，但随着训练时间增加，准确度有望持续提升，甚至发展出更自然的对话时面部反应。

研究人员亦提到，若未来把这种对嘴系统，与 ChatGPT、Gemini 等对话式人工智能结合，机械人与人类之间的互动将不再只限于「有声音的回答」，而是加入能引发情感连结的微表情与口型变化，对陪伴型机械人或服务型机械人发展，具潜在影响。

相关研究论文已刊登于国际期刊《Science Robotics》，研究仍属实验阶段，但已为「会说话、懂表情」的高度仿真人机互动，提供一个可行方向。

图片：Creative Machines Lab

T10

科技| AI机械人「会说话、懂表情」 自学像人类般对嘴发声

科技| AI机械人「会说话、懂表情」自学像人类般对嘴发声