通义实验室开源首款思维链音频生成模型ThinkSound，实现AI“听懂画面”

2025-07-06 07:59

7月5日，阿里巴巴旗下的“通义大模型”公众号宣布，通义实验室推出了首个音频生成模型ThinkSound，并已正式开源。该模型打破了传统图像无法发声的局限，首次在音频生成领域引入CoT（思维链）技术，使AI能逐步理解画面与声音之间的关系，从而生成高质量、高度同步的空间音频。这不仅是简单的“看图配音”，而是实现了真正意义上的“听懂画面”。