作者 | 金碧輝
編輯 | 程茜
智東西 7 月 1 日消息,阿里通義實驗室全球首個應用思維鏈(CoT)技術的音頻生成模型 ThinkSound 今天開源,該模型首次將 CoT 引入音頻生成領域,通過多階段推理框架解決傳統視頻轉音頻(V2A)技術的音畫錯位問題,并開源配套數據集 AudioCoT。
ThinkSound 模型可直接應用于影視后期制作,為 AI 生成的視頻自動匹配精準的環境噪音與爆炸聲效;服務于游戲開發領域,實時生成雨勢變化等動態場景的自適應音效;同時可以無障礙視頻生產,為視障用戶同步生成畫面描述與環境音效。
ThinkSound 模型生成的視頻內容
目前,ThinkSound 一共有 ThinkSound-1.3B、ThinkSound-724M、ThinkSound-533M,開發者可按需調用適配。開發者可通過 GitHub、Hugging Face、魔搭社區免費調用 Apache 2.0 協議的開源代碼。
性能驗證顯示,在 VGGSound 測試集上,ThinkSound 的 Fréchet 音頻距離降至 34.56,較此前主流模型 MMAudio 顯著提升 20.1%;時序對齊誤差率僅 9.8%,同比降低 37.2%;聲音事件判別指標 KLPaSST 與 KLPaNNs 分別達到 1.52 和 1.32,均為當前同類模型最佳結果。在面向影視場景的 MovieGen Audio Bench 測試中,其表現大幅領先 Meta 的 Movie Gen Audio 模型。
技術主頁:
https://thinksound-project.github.io/
開源地址:
https://huggingface.co/FunAudioLLM
GitHub:https://github.com/liuhuadai/ThinkSound
體驗地址:
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
一、三階段流程完成推理,模擬人類音效師創作流程
ThinkSound 模型的突破性在于其成功模擬了專業音效師的核心工作邏輯,通過三階段推理流程實現自動化音效生成。
首先,模型執行視覺事件解析,逐幀分析視頻內容,精準識別關鍵物理事件如玻璃碎裂軌跡或腳步移動速度,并同時判斷畫面中物體的材質屬性,例如金屬、木材或液體,輸出帶時間戳的結構化事件與屬性數據。
然后模型進入聲學屬性推導階段,基于解析出的視覺特征,運用物理規則進行映射:依據材質類型推導聲音的頻譜特性,金屬材質會產生高頻共振;根據運動強度計算聲波能量,雨滴高度直接影響混響強度;同時模擬環境空間如密閉房間或開放廣場對聲場反射的影響,最終生成物理特性準確的聲學參數矩陣。
最后是時序對齊合成階段,模型通過動態對齊引擎將聲學參數與視頻幀精確綁定,利用時間編碼器自適應補償畫面跳幀或慢動作變化以確保聲波連續性,并采用分層渲染技術實時合成音頻流,包含基礎音色層、環境反射層及運動特效層。
這一流程實現了與畫面幀的精準同步,其時序誤差率低至僅 9.8%,較傳統模型大幅降低 37.2%,從而將傳統手工音效制作中耗時數小時的音畫對齊工作壓縮至分鐘級完成。
在生物聲學場景中,ThinkSound 模型生成的嬰兒哭聲音頻嚴格匹配表情動作變化,其音高動態范圍與呼吸節奏波動精準遵循嬰幼兒生理發聲模式,通過時序對齊算法確保哭聲強度峰值與面部扭曲程度實現幀級同步。
ThinkSound-1.3B 的參數量為 13 億,是當前開源版本中規模最大的模型,適合專業級音效生成任務;ThinkSound-724M 的參數量為 7.24 億,該模型平衡了生成質量與計算效率。適合需要較高音效質量但資源受限的場景;ThinkSound-533M 的參數量為 5.33 億),定位為輕量級入門模型。在保證基礎音效生成能力的同時,顯著降低硬件門檻,適用于快速原型開發和教育研究用途。
二、整合總計 2531.8 小時音頻,構建全球首個 AudioCoT 數據集
為突破傳統音頻生成模型 " 黑箱操作 "、缺乏可解釋設計邏輯的瓶頸,阿里團隊構建了業界首個且規模最大的帶思維鏈標注音頻數據集 AudioCoT。
該數據集整合了總計 2531.8 小時的音頻、視覺素材,涵蓋影視片段庫、高保真自然聲場采集及國際知名專業音效庫。
AudioCoT 的核心突破在于其思維鏈標注體系:每條數據均由專業團隊深度標注出完整的邏輯鏈條。標注團隊從視覺事件分析識別畫面中的關鍵觸發元素,到聲學特性推理推導聲音應有的物理和感知屬性,再到音效合成策略明確實現目標聲音的技術路徑。這種從視覺輸入到聲音輸出的完整邏輯映射,為模型構建了理解聲音設計 " 為什么 " 和 " 怎么做 " 的知識圖譜。
ThinkSound 在訓練中不僅學習生成聲音,還能夠基于畫面元素自動推理并調整生成聲音的屬性,改變了依賴預設標簽的黑箱生成模式,實現了生成高質量音頻的同時 " 知其所以然 ",增強 AI 生成音效的真實感和同步性。
三、關鍵指標超越主流方案,時序對齊誤差率降低 37%
在權威測試集 VGGSound 上,ThinkSound 的 Fréchet 音頻距離(FD)降至 34.56(對比 MMAudio 的 43.26),逼近真實音效分布;聲音事件判別精度 KLPaSST/KLPaNNs 達 1.52/1.32,ThinkSound 超越 MMAudio 等標桿模型。
在影視場景測試集 MovieGen Audio Bench 中,ThinkSound 以 20% 優勢超越 Meta 的 Movie Gen Audio 模型,尤其在爆炸、金屬摩擦等復雜聲效的時序對齊誤差率降低 37%。
為驗證 ThinkSound 核心技術設計的必要性,阿里團隊展開消融實驗。
當前視頻生成音頻(V2A)技術長期面臨的核心痛點,是模型難以捕捉視覺事件與聲音之間的物理關聯。例如,玻璃碎裂的畫面本應觸發高頻清脆聲,但傳統模型常輸出模糊的 " 破碎聲 " 或與畫面時序錯位的音效。其根源在于數據與建模的局限性,主流方案依賴文本、音頻的淺層匹配,缺乏對聲學物理規律的推理能力。例如,早期模型 Make-An-Audio 雖通過 CLAP 文本編碼器和頻譜自編碼器提升可控性,但仍無法解析 " 物體材質如何影響聲音頻率 " 這類邏輯鏈。
同時,傳統模型還存在時序錯位問題,通用模型如 Meta 的 Movie Gen Audio 在復雜場景中常出現音畫不同步,例如爆炸聲滯后于火光畫面,因模型未建立事件因果鏈。
團隊將視頻的 CLIP 視覺特征與 T5 文本推理特征在時間軸上對齊融合,相比單獨輸入音頻特征,音畫同步精度提升 23%。
門控融合機制通過動態分配權重,例如會優先處理視覺事件聲效而非環境背景音,在 KLPaSST 指標上實現 17% 的提升,Fréchet 音頻距離降低 12%,超越常規的拼接融合與加法融合策略。
結語:ThinkSound 開源,阿里三大模型補全音頻工具鏈
ThinkSound 的發布標志著音頻生成從 " 能發聲 " 邁向 " 懂畫面 " 的智能階段。其技術價值不僅在于性能提升,更在于將專業音效設計流程標準化、自動化,把傳統需數小時的手工音畫對齊工作壓縮至分鐘級完成。
對產業而言,ThinkSound 與阿里此前開源 CosyVoice 2.0(語音合成)、Qwen2.5-Omni(全模態交互)形成技術矩陣,覆蓋從語音到環境音效的全場景音頻生成需求。開發者可基于此構建影視配音、游戲實時音效、無障礙視頻制作等低成本工具,尤其為中小創作者提供接近專業工作室的音頻生產能力。