ICASSP2025丨融合语音停顿信息与语言模型的阿尔兹海默病检测

article/2025/8/21 12:01:28

阿尔兹海默病(Alzheimer's Disease, AD)是一种以认知能力下降和记忆丧失为特征的渐进性神经退行性疾病,及早发现对于其干预和治疗至关重要。近期,清华大学语音与音频技术实验室(SATLab)提出了一种将停顿信息进行编码,并与语言模型中的文本嵌入融合的方法,可以有效提升基于自发语音的AD检测效果。该论文已发表于ICASSP 2025。

图片

论文链接:https://arxiv.org/abs/2501.06727

背景介绍

阿尔兹海默病(Alzheimer's Disease, AD)是一种神经退行性疾病。患上阿尔兹海默病后,患者的大脑会发生病理变化,导致认知能力下降、表达能力退化等现象。临床研究表明,早期治疗可以有效延缓阿尔兹海默病的恶化。因此,AD检测方法的开发对于该疾病的及早诊治至关重要。

阿尔兹海默病对患者自发语音内容的影响促使人们探索自然语言处理技术,以实现可靠的AD检测。而AD检测中另一个关键指标是语音中的停顿,而通过语音停顿检测阿尔兹海默病在最近的文献中得到了广泛关注。

虽然目前已有一些将停顿信息与语言特征相结合的尝试,但还没有一种方法能将停顿信息深度融合到语言模型中。在本文中,我们提出了一种方法,在语言模型的编码阶段将停顿与文本内容相结合,以捕捉语音中的语义和副语言特征,从而提高 AD 检测的性能。

工作原理

在我们的方法中,我们利用预训练的 BERT 模型作为基础模型来捕捉语义信息。而停顿信息在被编码后与现有的词嵌入一起集成到 BERT 模型架构中。我们采用可学习的嵌入映射方法, 将每一个单词的持续时间和停顿时间分别编码为嵌入。然后,将这两个嵌入在特征维度上拼接起来,并将其添加到词嵌入中,从而在 BERT 模型的编码阶段将停顿信息与文本信息融合在一起。

在停顿信息的编码过程中,我们引入了一种将时间特征编码到嵌入中的新方法。使用WhisperX语音识别模型转录自发语音后,我们提取转录文本中每个单词的持续时间和停顿时间,将它们结合为一个停顿标记,并在一定区间内进行均匀量化,得到一个停顿标记的码本,之后对其进行可学习的嵌入映射。

图片

实验结果

在ADReSS数据集上,所提出的模型取得了81.2%的准确率,优于之前结合停顿与文本特征的模型BERT3p;在ADReSSo数据集上,所提出的模型展现了更好的泛化性,83.1%的准确率优于BERT3p及其他使用停顿特征的模型。该结果证明了所提出方法的有效性。

图片

图片

结 论

本文研究表明,将停顿信息融入语言模型能够有效提升阿尔兹海默病的检测性能。通过捕捉自发语音中的时间特征,模型在区分AD患者与健康个体方面表现出更强的判别能力,验证了停顿作为潜在生物标志物在AD早期检测中的应用价值。本研究为构建更精准、非侵入性、低成本的AD检测手段提供了新思路,对推动神经退行性疾病的早期诊断和治疗具有重要意义。

学生作者信息

图片

蒲钰,清华大学电子系二年级硕士生,研究方向为阿尔兹海默病检测和端到端语音交互。

点击下面【阅读原文】跳转arXiv获取全文:


http://www.hkcw.cn/article/ZecmJIYtyT.shtml

相关文章

吴艳妮获亚锦赛季军 妈妈:希望她恢复最佳状态 带伤参赛展现坚韧

因当地暴雨天气,原本计划于5月29日下午5时进行的亚洲田径锦标赛女子100米栏决赛延迟至当晚9时开赛。中国选手吴艳妮以13秒068的成绩获得季军。5月28日上午,吴艳妮以13秒07的成绩晋级决赛。赛后,她的母亲熊艳表示,比赛结果并不重要,只希望她尽快恢复,以最佳状态迎接未来的…

AMBA-AHB仲裁机制

前文 仲裁机制保证了任意时刻只有一个 master 可以接入总线。Arbiter 决定了哪个向其发出接入请求的 master 可以接入总线,这通过优先级算法实现。AHB规范并没有给出优先级算法,需要设计者根据具体的系统要求定义。一般情况下 arbiter 不会中断一…

长期口臭可能是你的身体在求救 三步教你自救

有些人表面光鲜亮丽一张嘴却让人“退避三舍”尤其在晨起、空腹时口臭问题更明显不仅尴尬还可能暗藏健康隐患科学应对口臭还你清新口气!先对号入座你的口臭是临时客串还是疾病信号?1、生理性口臭:临时“小插曲”饮食作祟:大蒜、洋葱、韭菜等含硫化合物的食物,会通过血液循环…

辰亦儒老婆曾之乔回应二胎计划 随缘就好

5月29日,女演员曾之乔出席活动时分享了她的产后生活,表示生完宝宝后感到非常幸福,并透露怀孕期间给儿子取的小名叫“甜蜜”。她还提到与丈夫辰亦儒采取“责任制”方式照顾宝宝,两人会排班负责。对于是否计划要二胎,她表示一切随缘。曾之乔和辰亦儒在2009年合作《爱似百汇》…

kafka学习笔记(三、消费者Consumer使用教程——从指定位置消费)

1.简介 Kafka的poll()方法消费无法精准的掌握其消费的起始位置,auto.offset.reset参数也只能在比较粗粒度的指定消费方式。更细粒度的消费方式kafka提供了seek()方法可以指定位移消费允许消费者从特定位置(如固定偏移量、时间戳或分区首尾)开…

旅客私自携带230万美元现金入境 折合人民币超1600万元

近日,皇岗海关在福田口岸旅检渠道查获一名旅客违规携带未申报的230万美元现金入境,折合人民币超过1600万元。皇岗海关关员在福田口岸旅检进境大厅对旅客及行李物品进行监管时,发现一名经“无申报通道”通关的旅客携带的行李机检图像异常。随后,该旅客被引导至查验区进一步检…

精度更高、速度更快!从RT-DETR到RF-DETR全面突破实时检测瓶颈

【导读】 YOLO虽快,但其依赖的非最大抑制(NMS)后处理拖累速度与精度。DETR架构首次实现无需NMS的“一对一”预测,却受限于计算成本。如今,RT-DETR 通过混合编码器、不确定性查询选择等创新突破实时瓶颈;RF…

提升搜索效率:深入了解Amazon Kendra的强大功能

从智能文档搜索到精准的自然语言处理,Amazon Kendra为企业提供了一个强大的解决方案,帮助我们突破传统搜索引擎的局限,快速实现信息的高效整合与检索,接下来让我们一起探索Amazon Kendra如何成为工作中的得力助手,提升…

社群营销:信任比流量值钱

你肯定见过那种群里天天甩链接的,动不动就所有人,点进去全是促销信息——这种玩意儿不叫社群营销,顶多是广告轰炸。 搞社群得先把自己当人,也把别人当人。别整那些机器人自动回复,谁半夜两点发消息都秒回,…

嵌入式工作项目中的线程管理(监控线程和重启线程的具体实现)

嵌入式工作项目中的线程管理(监控线程和重启线程的具体实现) 1. 背景 环境:ARMv7,Linux; 软件所处位置:应用层; 问题出现概率:偶先,概率极小; 问题描述: 一个负责校时的进程,里面有一个是网络校时的线程和一个 GPS 校时的线程,还有处理其他一些业务的线程;出现…

【图像处理基石】立体匹配的经典算法有哪些?

1. 立体匹配的经典算法有哪些? 立体匹配是计算机视觉中从双目图像中获取深度信息的关键技术,其经典算法按技术路线可分为以下几类,每类包含若干代表性方法: 1.1 基于区域的匹配算法(Local Methods) 通过…

Unity QFramework 简介

目录 什么是MVC模式? QFramework 架构提供了 Model 的概念 QFramework 架构引入 Command 的方式 QFramework 架构引入 Event事件机制 四个层:表现层、系统层、数据层、工具层 委托和回调函数的关系 命令和事件的区别 工具篇 QFramework整体基于M…

非线性声学计算与强化学习融合框架:突破复杂环境人机交互的新技术

随着人工智能的快速发展,尤其是在深度学习和强化学习领域,声学计算和人机交互进入前所未有的扩展和创新阶段。尽管传统声学方法取得了显著成功,但这些线性或准线性方法在实际环境中往往存在关键的不足,尤其在动态、复杂或混响环境…

广东河源再发3.0级地震 近期无大震风险

广东河源再发3.0级地震 近期无大震风险!中国地震台网正式测定,5月30日2时21分在广东河源市源城区(北纬23.72度,东经114.68度)发生3.0级地震,震源深度10千米。河源市地震局表示,目前未收到人员伤亡和财产损失报告。该局会商研判认为,本次地震是前一天5月29日13时17分发生…

极致视频压缩日记 - 1.2GB=>200MB - 低码率高画质 - 批量多目录自动转换脚本

效果图 格式av10.3M的码率,跟格式h.2645M的码率,画质竟然差不多! GPU拉满全速编码! 目标 1.视频瘦身储存,画质不变 2.自动批量压缩视频,多层目录递归处理 (脚本https://www.amjun.com/2327.html) 3.免费 (…

媒体:升学不再只有“独木桥” 职教贯通培养拓宽道路

媒体:升学不再只有“独木桥” 职教贯通培养拓宽道路!随着职教贯通培养模式的不断推进,我国学生的升学选择已经更加多元。高考不再是唯一的出路。5月28日,教育部公布2025年全国高考报名人数为1335万人,比2024年的1342万人减少7万人。这是自2017年以来高考报名人数首次减少。…

多地曝“谷子店”闭店消息 “谷子经济”面临转型挑战

手办模玩生产车间里,年轻人正在参与“谷子”涂装工作。消费者正在挑选“谷子”。“谷子经济”还能像过去那样“丰收”吗?挣“二次元”的钱,难不难?不只是做单一的“谷子”销售,还自主开发产品,做IP代运营,一步一步介入“谷子经济”全链条。自己开发App,为平台用户建立“…

我国入境游出境游持续升温 双向奔赴激发市场活力

走进2025上海国际旅游交易博览会现场,可以感受到入境和出境旅游市场的繁荣。中外客商、展商根据满满的时间表,听宣讲、看项目、谈合作,为世界旅游市场注入动力。今年的上海国际旅游交易博览会于5月27日至29日举行,吸引了来自全球80多个国家和地区的700多家展商参展,展会规…

白宫称美国法院“叫停”关税是司法越权

美国联邦巡回上诉法院当地时间29日批准特朗普政府的请求,暂时中止美国国际贸易法院此前做出的禁止执行特朗普政府对多国加征关税措施的行政令的裁决。自美国国际贸易法院28日裁定禁止执行美政府多个关税行政令后,特朗普政府多名官员就指责这一裁决,提起了上诉。△白宫新闻秘…

运镜决定节奏:AI视频创作中的动态叙事法则

在AI视频创作工具日益普及的今天,如何通过镜头语言精准掌控节奏,成为创作者的核心竞争力。运镜——即镜头的移动方式(如推、拉、摇、移)与视角选择(如仰拍、俯拍、主观视角)——不仅是技术操作,…