阿里推出及开源ThinkSound 可用AI自动为影片加音效
阿里巴巴(9988)近日正式推出及开源其首款支援链式推理(Chain-of-Thought,CoT)的音讯产生模型ThinkSound,该模型基于视讯、文字或音讯输入,透过思维链技术,能够分析视讯画面的场景、动作与情感,实现高保真、强同步的空间音讯生成,标志着AI音讯从“看图配音”到“结构化理解画面”的跨越,犹如专业AI音效师。
核心在于多模态AI架构
据内媒报道,ThinkSound的核心优势在于其多模态AI架构,融合了电脑视觉、自然语言处理与音讯生成技术,其中电脑视觉算法能够逐格分析影片内容,理解物体互动、环境背景及人物行为,进而产生高度契合的音效与音景,例如在自然场景中,可产生流水或鸟鸣声;在都市场景中,则能还原车辆鸣笛与人群喧闹。
此外,ThinkSound的算法亦确保音讯与视讯精准对齐,支援包括MP4、MOV、AVI和MKV在内的多种视讯格式,相容于从标清到4K分辨率,满足不同创作需求。根据官方数据显示,ThinkSound在视讯及音讯生成基准测试中位居业界前列,展现了其强大的技术实力。
大幅降低AI音效产生门槛
报道又提到,ThinkSound大幅降低了AI音效产生的技术门槛,使中小型创作者、独立开发者及学术研究人员能够轻松接触专业级音效产生工具。 同时,该模型也提供交互式编辑功能,支援透过点击或语言指令对特定音效进行精细调整,大大提升创作弹性。
---------------------------------------------
>>>星岛网WhatsApp爆料热线(416)6775679,爆料一经录用,薄酬致意。
>>>立即浏览【生活百答】栏目:新移民抵埗攻略,老华侨也未必知道的事,移民、工作、居住、食玩买、交通、报税、银行、福利、生育、教育。
>>>星岛网WhatsApp爆料热线(416)6775679,爆料一经录用,薄酬致意。
>>>立即浏览【生活百答】栏目:新移民抵埗攻略,老华侨也未必知道的事,移民、工作、居住、食玩买、交通、报税、银行、福利、生育、教育。
