DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

article/2025/7/28 17:29:31
  • kaiming 文章的code
  • paper

abstract

LLM 预测连续embedding,直接接DiT。和kaiming-Autoregressive Image Generation without Vector Quantization的文章思路一样。- LLM是casual attention,和diffusion 一起训练,相比于full attention会有性能的降低。因此采用【分而治之】的方法——长序列的连续tokens被分成多个patches;只有diffusion loss+stop loss;
离散token 更适用于文本任务,图片/视频/音频等高清生成更适合连续向量。过往的方法要么效果不好(casual attention),要么计算开销很大。

method

在这里插入图片描述

model

  • VAE 训练得到连续embedding;decoder 用bigVAGN 重建得到音频;24k 音频编码成40hz,dim=64

  • LocDiT 输入AR’s output 生成下一个patch对应的speech,但是diffusion 在这些条件下很难预测下一个patch的信息;为了解决这一问题,如图1右,之前的patch 作为prefix,因此让任务和outpaiting & context-learning potential 更相关,也改善了生成性能。(4.4 详述)

  • 也隐含了一个coarse-to-fine 的过程;

  • CFG 需要两次计算,如果对LLM 算两次,开销很大,本文提出一次LM 计算和两次diffusion 计算。

# infer的时候,with_condition & wo_condition 推理两次
# train的时候,0.1的概率将LM的输出置为0,模拟wo_condition的状态,loss 函数正常计算
# pred = diffusion(zero, z) loss = mse(pre, target)
def cfg_guidance(z, hi, h∅, w):# 无条件输出uncond_output = diffusion_model(z, h∅)# 有条件输出cond_output = diffusion_model(z, hi)# CFG 调整, w控制向文本/LM condition偏移的程度final_output = (1 + w) * cond_output - w * uncond_outputreturn final_output# 温度系数,温度 τ 调整噪声引入的时间点,影响生成结果的多样性
if τ == 1:noise = normal_distribution()  # 纯噪声
elif 0 < τ < 1:noise = apply_diffusion(z0, τ)  # 基于温度的噪声

experiment

patch size

在这里插入图片描述
在这里插入图片描述

  • 当补丁大小太大或太小时,性能会下降。过小的补丁会降低模型的双向注意力能力,迫使依赖因果注意力 AR 并降低性能。相反,过大的补丁会使 LocDiT 成为瓶颈,需要增加参数。
  • The Number of Historical Patches of LocDiT

temperature

较高的温度会产生略高的 SIM 分数,而较低的温度会产生更好的 WER 分数。根本原因可能是,模拟看不见的说话者的声音需要模型具有更大的多样性,而发音稳健性需要模型具有更多的确定性和稳定性。


http://www.hkcw.cn/article/BhPegLXlYh.shtml

相关文章

AC220V整流滤波电路Multisim仿真

一、仿真电路&#xff1a; 二、遇到的问题 1、仿真运行保险丝会熔断&#xff0c;然后输出电压不对。 解&#xff1a;这里可能是整流桥的模型不对&#xff0c;更换了一个新的模型&#xff0c;仿真就可以正常运行了。 2、整流桥的电流方向和问题 正半周&#xff1a; 负半周&a…

【后端高阶面经:架构篇】50、数据存储架构:如何改善系统的数据存储能力?

一、数据存储架构设计核心原则 (一)分层存储架构:让数据各得其所 根据数据访问频率和价值,将数据划分为热、温、冷三层,匹配不同存储介质,实现性能与成本的平衡。 热数据层:访问频率>100次/秒。采用Redis集群存储高频访问数据(如用户登录态、实时交易数据),配合…

安卓逆向篇Smail 语法反编译签名重打包Activity 周期Hook 模块

常见安卓逆向工具及环境&#xff1a; 1 、安卓模拟器&#xff08;最好 root 的真机&#xff09; 2 、 Magisk&XP&LSP 框架 HOOK 环境 安装参考&#xff1a; https://blog.csdn.net/danran550/article/details/132256027 3 、 Jadx-Gui 反编译 Java 代码查看…

AWS云创建安全审计用户组

目标 创建一个安全审计的用户组。 解决

拉深工艺模块——回转体拉深件毛坯尺寸的确定(一)

回转体拉深件毛坯尺寸的确定 一、 坯料形状和尺寸确定的依据 体积不变原则&#xff1a;若拉深前后料厚不变&#xff08;体积表面积厚度&#xff09;&#xff0c;拉伸前坯料表面积与拉伸后冲件表面积近似相等&#xff0c;得到坯料尺寸。 相似原则&#xff1a;拉深前坯料的形状…

最佳实践|互联网行业软件供应链安全建设的SCA纵深实践方案

在数字化转型的浪潮中&#xff0c;开源组件已成为企业构建云服务与应用的基石&#xff0c;但其引入的安全风险也日益凸显。某互联网大厂的核心安全研究团队&#xff0c;通过深度应用软件成分分析&#xff08;SCA&#xff09;技术&#xff0c;构建了一套覆盖开源组件全生命周期管…

【软件安装那些事 3 】CAD(2026 V60.7z) 安装教程(中文简体版)步骤完整不跳步 { 附软件提取下载链接,永久有效---------百度网盘 }

通过网盘分享的文件&#xff1a;CAD2026 V60.7z 安装包 中文 &#xff08;永久有效&#xff09; 链接: https://pan.baidu.com/s/122UXbOK9iGsD5Ld-lzrfAA?pwdneqd 提取码: neqd 1、解压完成后&#xff0c;打开【Setup】文件夹 2、鼠标右击【Setup】…

智能柜I立控信息I产品介绍

在数字化浪潮席卷各行各业的今天&#xff0c;智能存储解决方案正成为企业提升运营效率、优化资产管理的重要工具。LKONE品牌推出的智能柜产品&#xff0c;凭借其创新的技术配置和人性化的功能设计&#xff0c;为用户带来了全新的智能存储体验。 一、特殊勤务单位装备管理面临的…

特伦斯 S75 电钢琴:奏响音乐新时代的华章

当今音乐市场中&#xff0c;电钢琴领域蓬勃发展。随着生活水平提升和音乐教育普及&#xff0c;它成众多音乐爱好者与家庭的首选。当下电钢琴市场走向显著&#xff0c;技术创新、消费升级推动发展&#xff0c;应用场景不断拓展&#xff0c;日益多元化。 在这样的市场大环境下&a…

【Linux】权限相关指令

前言&#xff1a; 上两篇文章我们讲到了&#xff0c;关于Linux中的基础指令。 【Linux】初见&#xff0c;基础指令-CSDN博客【Linux】初见&#xff0c;基础指令-CSDN博客 本文我们来讲Linux中关于权限中的一些指令 shell命令 Linux严格来说是一个操作系统&#xff0c;我们称之…

day14 leetcode-hot100-26(链表5)

142. 环形链表 II - 力扣&#xff08;LeetCode&#xff09; 1.哈希表 思路 与上一个一模一样&#xff0c;基本上没有区别&#xff0c;就是寻找是否存储过该节点。具体思路如下 day14 leetcode-hot100-25&#xff08;链表4&#xff09;-CSDN博客 具体代码 /*** Definition…

新能源汽车与油车销量

中国油车与新能源车销量对比&#xff08;2022-2025年&#xff09; ‌1. 市场份额演化&#xff08;2022-2025年&#xff09;‌ ‌年份‌ ‌新能源车销量 &#xff08;渗透率&#xff09;‌ ‌燃油车销量 &#xff08;渗透率&#xff09;‌ ‌关键事件‌ ‌2022‌ 688.7万辆…

大语言模型 23 - MCP 自动操作 自动进行联网检索 扩展MCP能力

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; Java篇&#xff1a; MyBatis 更新完毕目前开始更新 Spring&#xff0c;一起深入浅出&#xff01; 大数据篇 300&#xff1a; Hadoop&…

通用的防御框架,用于抵御(多模态)大型语言模型的越狱攻击

大家读完觉得有帮助记得关注&#xff01;&#xff01;&#xff01; 摘要 尽管&#xff08;多模态&#xff09;大型语言模型&#xff08;LLMs&#xff09;因其卓越的能力而受到广泛关注&#xff0c;但它们仍然容易受到越狱攻击。已经提出了各种防御方法来防御越狱攻击&#xff…

Docker 笔记 -- 借助AI工具强势辅助

常用命令 镜像管理命令&#xff1a; docker images&#xff08;列出镜像&#xff09; docker pull&#xff08;拉取镜像&#xff09; docker build&#xff08;构建镜像&#xff09; docker save/load&#xff08;保存/加载镜像&#xff09; 容器操作命令 docker run&#…

《汇编语言》第12章 内中断

任何一个通用的 CPU&#xff0c;比如8086&#xff0c;都具备一种能力&#xff0c;可以在执行完当前正在执行的指令之后&#xff0c;检测到从CPU外部发送过来的或内部产生的一种特殊信息&#xff0c;并且可以立即对所接收到的信息进行处理。这种特殊的信息&#xff0c;我们可以称…

相机--双目立体相机

教程 链接1 教程汇总 两个镜头。 双目相机也叫立体相机--Stereo Camera&#xff0c;属于深度相机。 作用 1&#xff0c;获取图像特征&#xff1b; 2&#xff0c;获取图像深度信息&#xff1b; 原理 原理和标定 优点 直接获取深度信息&#xff1a;通过视差计算&#xff08;…

使用 Zabbix 监控 MySQL 存储空间和性能指标的完整实践指南

目录 引言 一、最终目标支持功能 二、监控方案设计 2.1 技术选型 2.2 设计思路 三、实现步骤 3.1 准备工作 3.11 创建 MySQL 监控账号 3.12 配置 .my.cnf 文件 3.2 编写统一脚本 3.3 配置 Zabbix Agent UserParameter 3.4 Zabbix 前端配置建议 四、总结 引言 MySQL …

大模型-attention汇总解析之-NSA

NSA(Native Sparse Attention)是一种新型的稀疏注意力机制&#xff0c;于2025年2月16日由DeepSeek发布。旨在解决长上下文建模中的效率问题&#xff0c;同时保持模型能力。通过结合算法创新和硬件适配优化&#xff0c;实现了高效的长上下文建模。 算法核心优化点&#xff1a; 动…

Mac使用快捷键及操作

Mac 删除字符的用法   第一种&#xff1a;按 delete 键&#xff0c;删除光标之前的一个字符; 第二种&#xff1a;按 fndelete 键&#xff0c;删除光标之后的一个字符; 第三种&#xff1a;按 commanddelete 键&#xff0c;删除光标之前整行内容; 第四种&#xff1a;按 contr…