阿里推出及开源ThinkSound 可用AI自动为影片加音效

2025年07月16日 02:16

阿里巴巴（9988）近日正式推出及开源其首款支援链式推理（Chain-of-Thought，CoT）的音讯产生模型ThinkSound，该模型基于视讯、文字或音讯输入，透过思维链技术，能够分析视讯画面的场景、动作与情感，实现高保真、强同步的空间音讯生成，标志着AI音讯从“看图配音”到“结构化理解画面”的跨越，犹如专业AI音效师。

核心在于多模态AI架构

据内媒报道，ThinkSound的核心优势在于其多模态AI架构，融合了电脑视觉、自然语言处理与音讯生成技术，其中电脑视觉算法能够逐格分析影片内容，理解物体互动、环境背景及人物行为，进而产生高度契合的音效与音景，例如在自然场景中，可产生流水或鸟鸣声；在都市场景中，则能还原车辆鸣笛与人群喧闹。

此外，ThinkSound的算法亦确保音讯与视讯精准对齐，支援包括MP4、MOV、AVI和MKV在内的多种视讯格式，相容于从标清到4K分辨率，满足不同创作需求。根据官方数据显示，ThinkSound在视讯及音讯生成基准测试中位居业界前列，展现了其强大的技术实力。

大幅降低AI音效产生门槛

报道又提到，ThinkSound大幅降低了AI音效产生的技术门槛，使中小型创作者、独立开发者及学术研究人员能够轻松接触专业级音效产生工具。同时，该模型也提供交互式编辑功能，支援透过点击或语言指令对特定音效进行精细调整，大大提升创作弹性。

---------------------------------------------

>>>星岛网WhatsApp爆料热线(416)6775679，爆料一经录用，薄酬致意。

>>>立即浏览【生活百答】栏目：新移民抵埗攻略，老华侨也未必知道的事，移民、工作、居住、食玩买、交通、报税、银行、福利、生育、教育。

点击以下6大平台接收加拿大新闻及生活资讯