阿里通义实验室突破空间音频新纪元!OmniAudio让360°全景视频“声”临其境

article/2025/8/26 7:20:02

在虚拟现实和沉浸式娱乐快速发展的今天,视觉体验已经远远不够,声音的沉浸感成为打动用户的关键。然而,传统的视频配音技术往往停留在“平面”的音频层面,难以提供真正的空间感。阿里巴巴通义实验室(Qwen Lab)旗下的语音团队最近取得了一个重大突破 —— OmniAudio 技术,能够直接从360°视频中生成空间音频(FOA),真正实现了“所见即所听”,大幅提升虚拟现实中的沉浸感。


为什么空间音频如此重要?

想象一下你戴着VR头显,站在一个繁忙的城市广场。如果你只听到“立体声”,你可能只能感受到声音的左右方向;但如果你听到一个小贩从你后方推车经过、前方的街头艺人正在唱歌、右上方的钟楼敲响,你的身体会自然转向声音来源——这正是**空间音频(Spatial Audio)**带来的沉浸感。

**FOA(First-order Ambisonics)**是一种主流的空间音频格式,它用4个声道(W, X, Y, Z)来描述声音的位置和方向。简单来说,如果你把听觉比作摄影,这种格式就像是“全景相机”,可以捕捉整个空间的声音场景,而不仅仅是某一个角度。


现有技术的痛点:角度太“死板”

虽然空间音频的技术已存在一段时间,但目前很多视频生成音频的方法都存在明显的缺陷:

  • 只处理固定视角的视频,无法真正体现“环绕”音效;

  • 生成的是“普通”音频,缺乏声音方向感;

  • 忽视了360°视频本身蕴含的丰富视觉线索。

而随着360°相机的普及和VR内容的兴起,观众越来越期待音画一致的沉浸体验——而这正是OmniAudio所要解决的难题。


Qwen Lab 的解法:360V2SA 任务 + Sphere360 数据集

为了解决这个痛点,研究团队提出了一个全新的任务定义:360V2SA(360-degree Video to Spatial Audio)。意思就是:让360°视频配上真正匹配其空间结构的音频

但这里面有一个大难题——数据匮乏。

训练AI模型需要大量的视频+空间音频配对数据,而现实中360°视频和FOA音频的组合极其稀缺。为此,团队构建了一个超大规模数据集 Sphere360

  • 包含 103,000+ 真实视频片段

  • 覆盖 288类音频事件(如掌声、引擎声、鸟叫等);

  • 总时长达到 288小时

  • 所有数据都经过严格清洗和对齐,确保“看得见”的画面与“听得见”的声音严格对应。


OmniAudio 是如何学习“空间感”的?

OmniAudio 的训练分为两个阶段,可以类比为“先学基础,再练精细”:

✅ 阶段一:自学成才(Self-Supervised)

团队利用海量的普通立体声数据,先“伪造”出假FOA(称为“伪FOA”),让模型通过一种叫“流匹配(flow-matching)”的方法,自己摸索声音的时间结构和空间规律。

类比一下:就像你用模糊地图自学城市布局,虽然不精确,但能掌握大致方位和路线感。

为了让模型更强健,团队还故意“打码”音频片段(即随机遮住部分时间段),让模型学会“脑补”缺失的信息。这一步帮助它打下了很好的“声音空间感”基础。

✅ 阶段二:精雕细琢(Supervised Fine-tuning)

接着,团队拿出真实的FOA音频数据,结合视频的“双分支视觉编码器”(可以同时提取场景信息和运动信息),进一步精细训练模型,让它能够根据画面“雕刻”出精准的空间音轨。

最终,OmniAudio 能够根据画面中的视觉线索,比如“汽车从左边开过来”,输出与之完美匹配的空间音频。


效果如何?超越所有对手!

在测试阶段,研究团队使用了两个测试集:Sphere360-BenchYT360-Test,并使用了客观指标(如 FD、KL、ΔAngular)和主观评测(人类听感打分)来对比性能。

结果非常惊艳:

  • OmniAudio 在所有指标上全面超越现有所有方法

  • 人类主观评分中,OmniAudio 的空间感、清晰度、画面与声音的同步度均高于最佳对比模型

  • 消融实验也验证了:预训练策略、双分支视觉建模、模型规模等设计对提升性能缺一不可。


虚拟世界的声音革命

OmniAudio 的出现,意味着我们离真正“沉浸式音画合一”的虚拟现实更近了一步。未来,无论是VR游戏、线上展览、虚拟旅游,还是影视制作,都将有机会用更真实、更细腻的声音打动用户。

空间音频,不再是“高端专属”,而是即将走入大众视野的“听觉革命”。


http://www.hkcw.cn/article/TXGlEXkfHk.shtml

相关文章

汽车制造场景下Profibus转Profinet网关核心功能与应用解析

在当今工业自动化的浪潮中,各种通讯协议层出不穷,而其中PROFIBUS与PROFINET作为两种主流的工业通信标准,它们之间的转换需求日益增长。特别是对于那些希望实现老旧设备与现代化网络无缝对接的企业来说,一个高效、稳定的网关产品显…

JavaWeb

目录 1. 基本概念1.1 基本概念1.2 web应用程序1.3 静态web1.4 动态web 2. web服务器3. tomcat详解3.1 安装3.2 启动3.3 配置3.3.1 配置启动的端口号3.3.2 配置主机的名称3.3.3 其他常用配置项日志配置数据源配置安全配置 3.4 发布一个网站 4. Http协议4.1 什么是http4.2 http的…

CodeTop之K个一组翻转链表

题目链接 25. K 个一组翻转链表 - 力扣(LeetCode) 题目解析 算法原理 1> 计算出有多少个结点 2> 计算出我们需要翻转多少组: 结点数/k 组数 3> 每一组都进行k个数的头插 细节 1>使用newHead来组装反转后的结点组成的链表 2>使用…

Window Server 2019--07 PKI、SSL网站与邮件安全

了解PKI、SSL技术的核心原理掌握PKI架构服务器配置掌握证书管理与应用 公钥基础设施(Public Key Infrastructure,PKI)是一个完整的颁发、吊销、管理数字证书的系统,是支持认证、加密、完整性和可追究性服务的基础设施。PKI通过第…

BigemapPro 数据坐标转度分秒格式教程

有用户在使用BigemapPro时遇到这种情况:尽管已将坐标格式设置为度分秒,但数据属性表中的经纬度却依旧显示为十进制,这是什么原因呢? 遇到这种情况不要慌,只需通过新增字段并赋值为度分秒格式就可以解决。 操作步骤 1…

逻辑回归知识点

一、逻辑回归概念 逻辑回归(Logistic Regression)是一种广泛应用于分类问题的统计方法,尤其适用于二分类问题。 注意: 尽管名称中有"回归"二字,但它实际上是一种分类算法。 解决二分类的问题。 API:sklearn.linear_model.Logis…

【excel宏基础】“在第一格按下ctrl+下箭头跳到最后一格的过程没有被记录在代码中,导致录入信息的时,不能实现自动找到最后一格录入信息”问题解决方法之一

一、问题描述 需求:在“信息录入”表中输入姓名、部门、身份证,点击“确认”,使信息自动录入到信息汇总的“引用表”中。 问题:录制宏时,按照三的视频教程,在第一格按下ctrl下箭头跳到最后一格的过程没有…

《智能医学》征稿通知:7天可见刊,专科及以上可发表

香港科学出版社(Hong Kong Scientific Publishers Journals)是一家全球独立高质量的学术出版机构,遵循国际开放获取的出版(OA)原则。现已与科检易学术携手共同征集高质量文章。目前可出版来自高等学校、科研院所和企业的先进科技成果。包括理、工、农、医、经、管、…

2025.05.29【Network】多组学分析:网络互作图绘制

Customization Explore all the parameters offered by the igraph package to customize chart appearance. Layout algorithm Several layout algorithm are offered by the igraph package. Learn how to use them and what are the possibilities. 文章目录 Customizatio…

如何选择适合团队的项目管理工具

选择适合团队的项目管理工具需综合考虑团队规模、项目类型、使用便捷性、功能丰富性、成本预算等因素,其中团队规模的匹配度尤为重要,不同规模团队适用的项目管理工具也不尽相同,合适的工具能够有效提高团队协作效率。 一、团队规模与工具匹配…

基于ubuntu安装hadoop

前言 提起大数据,就会觉得很厉害,将众多的数据整合在一起,在有条理的呈现在屏幕前的我们。有时候可能会想到底是什么在支撑着大数据,大数据的出现,方便了我们日常生活中的方方面面。那这些海量的数据计算机是怎么存储和…

如何在线免费将音乐伴奏提取

一键分离人声与伴奏!让音乐创作再无边界!有时我们想要学习某首歌曲,需要将人声和伴奏进行分离,如何将音乐人声提取出来呢。 音乐分离工具:在线音乐人声提取 - 分离音频人声与伴奏 - iLoveOFD在线 在线音乐人声提取工…

使用SCSS实现随机大小的方块在页面滚动

目录 一、scss中的插值语法 二、方块在界面上滚动的动画 一、scss中的插值语法 插值语法 #{}‌ 是一种动态注入变量或表达式到选择器、属性名、属性值等位置的机制 .类名:nth-child(n) 表示需同时满足为父元素的第n个元素且类名为给定条件 效果图&#xff1a; <div class…

超高频 RFID 读写器(三格电子)

一、 功能概述 本文档是 SG-UHF80 系列超高频 RFID 读写器产品说明书&#xff0c;包含 SG-UHF80-485、 SG-UHF80-TCP &#xff0c;共两个产品。使用框图如下图所示。 1.1 产品功能 本系列产品用来读写超高频 RFID 标签&#xff0c;支持 Modbus_RTU/ModbusTCP 从站功能。 可实…

Java 微服务架构设计:服务拆分与服务发现的策略

Java 微服务架构设计&#xff1a;服务拆分与服务发现的策略 微服务架构作为一种热门的软件架构风格&#xff0c;在 Java 领域有着广泛的应用。它通过将系统拆分为一组小型服务来实现更灵活、可扩展的系统设计。在微服务架构中&#xff0c;服务拆分和服务发现是两个关键环节。本…

信号量的应用:利用信号量实现进程互斥

设置互斥信号量 下面进行详细解释 1. 信号量定义与初始化 semaphore mutex; mutex 1; // 初始化为1信号量定义&#xff1a;semaphore 是定义信号量的类型 &#xff0c;这里定义了一个名为 mutex 的信号量。信号量是一种用于实现进程同步与互斥的机制&#xff0c;本质上是一个…

多模态大模型:开启智能决策的新时代

想要掌握如何将大模型的力量发挥到极致吗&#xff1f;叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。 1小时实战课程&#xff0c;您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型&#xff0c;以发挥其最大潜力。 CSDN教学平台录播地址…

python模块和包

模块 Python模块(Module) 是一个Python文件&#xff0c;以.py结尾&#xff0c;模块能定义函数、类和变量&#xff0c;模块里也能包含可执行的的代码 每一个模块都能帮助我们快速的实现一些功能&#xff0c;比如实现和时间相关的功能就可以使用time模块&#xff0c;我们可以认…

《仿盒马》app开发技术分享-- 订单列表页(端云一体)

开发准备 上一节我们实现了订单详情的展示&#xff0c;但是我们的确认订单页面只在下单成功后才会出现供用户查看&#xff0c;现在我们要有一个常驻的入口让用户去随时查看自己的订单以及订单状态&#xff0c;订单状态分为多个&#xff0c;还需要给用户提供切换的功能 功能分…

【第3章 文本】3.3 文本的定位

文章目录 水平与垂直定位示例textAligntextBaseline 将文本居中文本的度量绘制坐标轴旁边的文本标签在圆弧周围绘制文本 水平与垂直定位 在canvas中使用 strokeText() 或 fillText() 绘制文本时&#xff0c;需要指定所绘文本的 X 和 Y 的坐标&#xff0c;然而&#xff0c;浏览…