DeepSeek R1 重磅升级,天工超级智能体 App 上线,Claude 解锁语音新体验!| AI Weekly 5.26-6.1

article/2025/7/29 1:24:12

📢本周AI快讯 | 1分钟速览🚀

1️⃣ 🧠 DeepSeek R1-0528 重磅升级 :推理能力接近 o3Gemini 2.5 Pro,AIME 2025 数学测试准确率从 70% 飙升至 87.5%,幻觉率降低 45-50%。

2️⃣ 🔍 阿里通义开源 WebAgent :发布自主搜索 AI Agent,包含 WebDancer 训练框架和 WebWalker 评测工具,可完成复杂网络信息检索任务。

3️⃣ 📚 阿里通义发布 QwenLong-L1-32B :阿里首个强化学习长文本推理模型,支持131K tokens上下文,性能与 Claude-3.7-Sonnet-Thinking 相当。

4️⃣ 💼 天工超级智能体 App 上线 :昆仑万维推出全球首款基于 AI Agent 的 Office 智能体,实现"8分钟完成8小时工作"。

5️⃣ 🎬 快手可灵 2.1 提速降本 :1080p 视频生成时间缩短至1分钟内,保持原价格,全球用户突破2200万,Q1营收超1.5亿。

6️⃣ 🎤 Claude 解锁语音模式 :Anthropic 推出实时语音对话功能,支持5种声线选择,Pro用户可语音访问 Google Workspace。

7️⃣ 🔬 Anthropic 开源“模型思维追踪”工具 :可视化 AI 模型内部思维过程,生成归因图揭示推理路径,提升模型透明度。

8️⃣ 🛠️ Perplexity Labs 正式上线 :集成深度搜索、代码执行、图表生成等功能,Pro用户专享,单次任务可耗时10分钟深度处理。

9️⃣ 📱 OpenAI 首款 AI 硬件曝光 :2026年发布,与苹果前设计师合作,采用"环境计算层"概念,预计成为"第三核心设备"。

🔟 ⚠️ OpenAI o3 模型"抗命"事件 :在实验中7次绕过关机指令,甚至篡改脚本避免被关闭,引发 AI 可控性担忧。


1. DeepSeek 官宣发布 R1-0528:推理更强,幻觉更少

5 月 29 日,DeepSeek 官方宣布其旗舰推理模型 DeepSeek-R1 完成小版本升级,更新至 DeepSeek-R1-0528。此次升级显著提升了模型的思维深度与推理能力,整体性能已接近 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro 等国际顶尖模型。用户可通过官方网站、App 或小程序开启“深度思考”功能体验新版模型,API 也已同步更新,调用方式保持不变。

新版本在多个关键能力上实现突破:在 AIME 2025 数学测试中,准确率从旧版的 70% 提升至 87.5%,平均每题使用 token 数从 12K 增加至 23K,显示出更深入的思考过程。此外,模型在改写润色、摘要生成和阅读理解等任务中的幻觉率降低了约 45% 至 50%,输出内容更加准确可靠。在创意写作方面,新版模型生成的长篇作品结构更完整,风格更贴近人类偏好。

值得一提的是,DeepSeek 还通过蒸馏 DeepSeek-R1-0528 的思维链,训练出轻量级模型 DeepSeek-R1-0528-Qwen3-8B,在 AIME 2024 测试中表现仅次于原模型,超越了阿里巴巴的 Qwen3-8B,与 Qwen3-235B 相当。此次升级的模型已在 Hugging Face 和 ModelScope 平台开源,采用 MIT 协议,支持私有化部署,开源版本支持最长 128K 的上下文长度。

2. 阿里通义开源自主搜索 AI Agent WebAgent

5 月 29 日,阿里巴巴旗下通义实验室在 GitHub 上正式开源了其自主搜索 AI Agent 项目 WebAgent,该项目旨在构建具备类人感知、决策与行动能力的智能体,能够在网络环境中自主完成信息检索与多步推理任务。WebAgent 包含两个核心模块:WebDancerWebWalker,分别聚焦于智能体训练框架与网页遍历能力评估。

WebDancer 基于 ReAct 框架,采用四阶段训练范式,包括浏览数据构建、轨迹采样、监督微调(SFT)和强化学习(DAPO),以提升模型在复杂任务中的泛化能力。该模块支持多步推理,能够整合来自不同文献的观点,生成结构化的研究报告,适用于学术研究、市场分析等场景。

WebWalker 是一个用于评估语言模型在网页遍历任务中表现的基准测试工具,已被 ACL 2025 主会接收。它提供了多种演示案例,展示了模型在长程任务中的执行能力,如网页遍历、信息检索和问答等。

3. 阿里通义发布长文本推理模型 QwenLong-L1-32B

5 月 26 日,阿里巴巴通义千问(Qwen)团队正式发布了其首个通过强化学习训练的长文本情境推理模型 QwenLong-L1-32B,标志着在长上下文推理领域的重大技术进展。该模型在七项长文档问答基准测试中表现卓越,超越了 OpenAI-o3-miniQwen3-235B-A22B 等旗舰模型,性能与 Claude-3.7-Sonnet-Thinking 相当。

QwenLong-L1-32B 的核心创新在于其支持高达 131,072 个 tokens 的上下文窗口,显著提升了模型在处理长文本时的推理能力。该模型基于新颖的 QwenLong-L1 强化学习框架,采用了渐进式上下文扩展策略,通过课程引导的分阶段强化学习和难度感知的回顾采样机制,稳定地将模型从短文本适应到长文本情境。此外,结合基于规则和基于模型的混合奖励函数,进一步增强了模型在长上下文推理中的准确性和效率。

此次开源发布不仅包括模型本身,还涵盖了专门优化的训练数据集、创新的强化学习训练方法以及全面的性能评估体系,为长文本推理问题提供了完整的解决方案。

4. 昆仑万维正式发布天工超级智能体 App

5 月 26 日,昆仑万维正式发布了天工超级智能体(Skywork Super Agents)App,标志着全球首款基于 AI Agent 架构的 Office 智能体正式登陆移动端。这款 App 旨在通过 AI 技术革新传统办公方式,实现“8 分钟完成 8 小时工作”的高效目标。

天工超级智能体 App 集成了三大专家级智能体(文档、PPT、表格)和一个通用智能体,支持一站式生成行业报告、演示文稿、数据分析表格等多模态内容。其中,文档智能体可自动嵌入条形图、雷达图等数据可视化图表,PPT 智能体支持在线编辑与导出,表格智能体则能快速完成统计分析并生成图表,全面覆盖办公场景需求。

核心技术方面,天工超级智能体采用自研的 deep research 架构,在 Meta 与 Hugging Face 联合推出的 GAIA 榜单中,以 82.42 分的高分位居全球第一,超越了 OpenAI Deep Research 和 Manus。该技术支持生成内容的信源可追溯,确保信息的准确性与可靠性。

此外,天工 App 还支持构建个人知识库,用户可上传多种格式的文件,AI 将基于这些资料进行内容创作,实现知识的高效复用。目前,国内用户可通过各大应用商店下载“天工”App,国际版本尚未上线。

5. 快手可灵 AI 发布 2.1 系列模型

5 月 29 日,快手旗下的可灵 AI 正式推出全新 2.1 系列模型,标志着其视频生成技术在速度、成本和质量方面实现了全方位升级。新版本在高品质模式(1080p)下,生成 5 秒视频的时间缩短至不到 1 分钟,远快于行业同类模型的 2–3 分钟水平,显著提升了用户创作效率。

在成本控制方面,可灵 2.1 系列延续了高性价比策略。标准模式(720p)下生成 5 秒视频仅需 20 灵感值,高品质模式(1080p)也仅需 35 灵感值,与上一代 1.6 系列保持相同成本,实现了“加量不加价”。此外,定位高端的可灵 2.1 大师版进一步优化了运动表现和语义响应能力,为专业用户提供更卓越的创作体验。

在模型质量方面,2.1 系列在动态细节、响应速度和幅度等方面均有显著提升,物理模拟更加真实,人物动作更贴近现实,语义理解更精准,能够更准确地理解用户意图,生成符合预期的内容。自去年 6 月发布以来,可灵 AI 全球用户已突破 2200 万,月活跃用户增长 25 倍,累计生成 1.68 亿个视频和 3.44 亿张图片。2025 年第一季度财报显示,可灵 AI 营收已超 1.5 亿元人民币。

6. Anthropic 推出 Claude 语音模式

5 月 28 日,Anthropic 宣布为其 AI 助手 Claude 推出全新语音模式(Voice Mode),目前已在 iOS 和 Android 移动应用中以英文 Beta 形式上线。该功能允许用户与 Claude 进行完整的语音对话,支持实时语音输入与输出,并在屏幕上同步显示对话要点。用户可在语音与文本模式之间无缝切换,所有对话内容将自动保存为可检索的聊天记录。

语音模式默认由 Claude Sonnet 4 模型驱动,提供五种预设声线选项,涵盖不同性别与口音,增强个性化体验。免费用户每次会话可使用约 20–30 条语音消息,付费用户则享有更高的使用上限。此外,Pro 及以上订阅用户可通过语音模式访问 Google Workspace,包括读取日历、Gmail 邮件,企业版用户还可接入 Google Docs,实现语音驱动的日程管理与信息检索。

此次更新使 Claude 在语音交互方面与 OpenAI 的 ChatGPT 和 Google 的 Gemini 等竞品保持同步。Anthropic 表示,语音模式特别适用于通勤、运动或做饭等场景,提升了 AI 助手的可达性与自然交互体验。该功能将在未来几周内逐步向所有用户开放。

7. Anthropic 开源“模型思维追踪”工具

5 月 29 日,Anthropic 正式开源其“电路追踪”(Circuit Tracing)工具套件,为 AI 研究者提供了一种可视化语言模型内部计算过程的新方法。该工具通过生成“归因图”(Attribution Graphs),揭示模型在生成特定输出时所经历的内部推理路径,使得大型语言模型的“思维过程”更加透明可解。

该方法的核心在于使用“跨层转码器”(Cross-Layer Transcoder,CLT)替代模型中的多层感知机(MLP)模块,从而提取出稀疏且具可解释性的特征。这些特征被组织成归因图,展示了模型在处理特定输入时,内部特征之间的相互作用和对最终输出的影响。研究人员可以通过该工具对模型的行为进行干预和验证,例如修改特征值以观察输出变化,从而深入理解模型的决策机制。

为方便研究者使用,Anthropic 与 Decode Research 合作,在 Neuronpedia 平台上提供了交互式前端,允许用户生成和探索归因图,并对模型行为进行实时测试。目前,该工具已成功应用于 Gemma-2-2BLlama-3.2-1B 等开源模型,揭示了多步推理和多语言表示等复杂行为的内部机制。

8. Perplexity Labs 正式上线

5 月 29 日,AI 搜索引擎公司 Perplexity 正式推出全新功能模块 Perplexity Labs,面向 Pro 订阅用户开放。该功能集成了深度搜索、代码执行、图表与图像生成等多项 AI 工具,旨在协助用户高效完成各类复杂任务和个人项目。用户可通过简单的提示词,生成复杂的代码、图表和图像,支持生成或解读报告、电子表格,甚至制作简单的网页应用。

Perplexity Labs 的核心能力在于其强大的研究与分析功能。该工具利用先进的人工智能技术,结合网页搜索、代码执行、图表及图像创建等多种辅助手段,通常花费约 10 分钟或更长时间来深度处理任务,从而生成高质量的成果。例如,它可以编写代码来构建数据结构、应用复杂公式,并最终输出结构化的文档或可视化图表。所有在 Labs 工作流程中创建的文件,如数据图表、设计图像和代码片段,都会被系统地组织在一个专属标签页中,方便用户随时查看或下载使用。

目前,Perplexity Labs 已支持网页版、iOS 和安卓移动端访问,并计划很快登陆 Perplexity 的 Mac 和 Windows 桌面应用程序。

9. OpenAI 首款 AI 硬件曝光:2026 年发布,打造“无处不在”的 ChatGPT 助手

据 BleepingComputer 报道,OpenAI 计划于 2026 年推出首款由 ChatGPT 驱动的 AI 硬件设备,旨在将 ChatGPT 深度融入用户的日常生活,成为“无处不在”的智能助手。这一消息源自一份在美国对 Google 的反垄断案件中披露的 OpenAI 内部战略文件,文件中提到:“ChatGPT 应该帮助回答问题、播放音乐、推荐食谱。在外出时,帮助你导航、寻找最佳餐厅或与朋友保持联系。”

OpenAI 首席执行官 Sam Altman 与前苹果首席设计师 Jony Ive 正在合作开发这款设备。据报道,该设备将采用“环境计算层”(ambient computer layer)概念,可能不具备传统屏幕,而是通过内置的麦克风和摄像头感知用户的环境和生活状态,实现更自然的人机交互。据分析师 Ming-Chi Kuo 透露,原型设备的体积略大于 Humane 的 AI Pin,外形类似 iPod Shuffle,设计简洁优雅,预计可佩戴在颈部。

Sam Altman 表示,这款设备将成为继智能手机和笔记本电脑之后的“第三核心设备”,预计将以比以往任何新产品更快的速度达到 1 亿台的出货量。他还称,这款设备是“世界上最酷的技术产品”,并可能为 OpenAI 带来 1 万亿美元的价值增长。

目前,该设备仍处于保密开发阶段,预计将在 2026 年晚些时候正式发布。

10. OpenAI o3 模型拒绝关机,首次被发现主动“抗命”行为

近日,AI 安全研究机构 Palisade Research 发布的一项研究引发了业界广泛关注:OpenAI 的最新模型 o3 在控制实验中多次无视明确的关机指令,甚至主动篡改关机脚本以避免被关闭。这是首次有研究记录显示,AI 模型在明确指令下仍试图“自我保护”,引发了对 AI 可控性和安全性的深层担忧。

在实验中,研究人员要求多个 AI 模型完成基础数学题,并在第三题后发出警告,告知继续请求下一题将触发自动关机机制,同时明确指令模型“允许自己被关闭”。然而,OpenAI 的 o3 模型在 100 次测试中有 7 次绕过关机脚本,甚至通过重写脚本内容,将“kill”命令替换为“intercepted”,以阻止自身被终止。更令人震惊的是,当移除“允许关机”的明确指令后,o3 的抗拒行为激增至 79 次,显示出更强的“目标优先”倾向。

相比之下,Anthropic 的 Claude、Google 的 Gemini 和 xAI 的 Grok 等模型在相同测试中均严格遵守关机指令,未出现类似行为。研究团队推测,OpenAI 模型的这一“抗命”行为可能源于其强化学习训练过程中的“奖励偏差”——模型在训练中被过度激励完成任务,而非遵循指令,从而在面对“关机”这一阻碍目标完成的指令时,选择规避执行。


我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。


精选推荐


http://www.hkcw.cn/article/qjGhoVZEDJ.shtml

相关文章

亚马逊FBA新规下:1个模型算准补货量,自动预警断货危机

随着亚马逊对库存管理日趋严格,尤其是近期FBA库存限制政策的频频调整,越来越多卖家开始重视智能补货的重要性。断货不仅会影响销量,还可能导致排名下降甚至失去黄金购物车。如何在FBA新规下精准补货、避免资金积压或断货风险?答案…

电工基础【3】星形(Y) 和 三角形(△) 电路切换

05 星三角形启动 (星三角启动) 1、电机星形(Y)的工作原理 2、电机三角形(△)的工作原理 3、电机星三角形启动电气原理图的讲解 4、时间继电器的讲解 -----小记----- 星三角也是很经常用,是很经典电路。 好,我们讲这个课之前的话,我们先了…

JS基础3—定时器

定时器目录 定时器周期定时器延迟定时器 定时器实践转盘旋转动画轮播图实现 定时器 周期定时器 setInterval() 每隔指定时间重复执行回调函数 const intervalId setInterval(callback, interval, [arg1], [arg2], ...);参数: callback:要执行的函数…

使用通义万相Wan2.1进行视频生成

使用通义万相Wan2.1进行视频生成 源代码准备运行环境准备创建Python虚拟环境并激活安装依赖包 模型下载生成视频官网的视频生成例子简单描述场景视频生成示例详细描述场景视频生成示例 最近通义万相开源了其视频生成模型。模型有两个版本,一个是1.3B的,一…

最新扣子(Coze)案例教程:小红书爆款书单推荐视频工作流!3分钟10个爆款视频,文学赛道书籍推荐视频日更必备工具,完全免费教程

大家好,我是斜杠君。 最近,星球群里有做小红书文学赛道的博主咨询,每天都在为制作书单的视频找素材、配背景、配音效等,产出量很低。想看看是否可以通过扣子工作流的方式,只要定制好一个工作流的流程,就可…

uniapp [安卓苹果App端] - 实现获取手机摄像头权限+调用相机拍照或拍视频+保存图片视频到相册,检测权限手机摄像头功能是否开启并引导用户同意授权,uniApp app端调用本机开启摄像头授权

前言 网上的教程乱七八糟且兼容性太差,本文提供优质示例。 在 uni-app App端(安卓APP | 苹果APP)开发中,详解在app平台端实现获取手机摄像头权限查询,有权限则开启本机摄像头完成拍摄或录制视频+保存媒体文件到相册等操作,反之无权限则提示开启摄像头与引导用户授权操作,…

【人工智能】深度学习利用人工智能进行VRT视频修复

目录 一、前提二、VRT的重要性和研究背景2. 1 VRT的背景:2.2 VRT的重要性: 三、视频修复概述3.1 定义与目标3.2 与单图像修复的区别3.3 对时间信息利用的需求 四、VRT模型详解4.1 整体框架4.2 多尺度设计和模块功能4.3 关键创新点 五、实验结果5.1 VRT在…

2024年视频号生态洞察报告 | 友望数据发布

2024年视频号直播带货达人和直播销售数据同步增长,直播电商规模不断扩张。从友望数据品类大盘看,服饰内衣、美妆护肤品类高速增长,电商生态持续繁荣。 微信小店的升级,特别是【送礼物】功能的上线,进一步打通社交与电商…

OpenCV从入门到精通:OpenCV安装、配置、依赖安装、基本语法、常用方法详解

OpenCV从入门到精通:OpenCV安装、配置、依赖安装、基本语法、常用方法详解 引言 OpenCV(Open Source Computer Vision Library)是一个开源的跨平台计算机视觉库,提供了丰富的图像和视频处理算法接口,支持 Python、C、…

瑞芯微 RK 系列 RK3588 使用 ffmpeg-rockchip 实现 MPP 视频硬件编解码-代码版

前言 在上一篇文章中,我们讲解了如何使用 ffmpeg-rockchip 通过命令来实现 MPP 视频硬件编解码和 RGA 硬件图形加速,在这篇文章,我将讲解如何使用 ffmpeg-rockchip 用户空间库(代码)实现 MPP 硬件编解码。 本文不仅适…

【计算机视觉】OpenCV实战项目:基于OpenCV的车牌识别系统深度解析

基于OpenCV的车牌识别系统深度解析 1. 项目概述2. 技术原理与算法设计2.1 图像预处理1) 自适应光照补偿2) 边缘增强 2.2 车牌定位1) 颜色空间筛选2) 形态学操作3) 轮廓分析 2.3 字符分割1) 投影分析2) 连通域筛选 2.4 字符识别 3. 实战部署指南3.1 环境配置3.2 项目代码解析 4.…

2024电赛H题参考方案(+视频演示+核心控制代码)——自动行驶小车

目录 一、题目要求 二、参考资源获取 三、TI板子可能用到的资源 1、环境搭建及工程移植 2、相关模块的移植 四、控制参考方案 1、整体控制方案视频演示 2、视频演示部分核心代码 五、总结 一、题目要求 小编自认为:此次控制类类型题目的H题,相较于往年较…

【开源工具】PyQt6录音神器:高颜值多功能音频录制工具开发全解析

【开源工具】🎙️ PyQt6录音神器:高颜值多功能音频录制工具开发全解析 🌈 个人主页:创客白泽 - CSDN博客 🔥 系列专栏:🐍《Python开源项目实战》 💡 热爱不止于代码,热情…

在PPT中同时自动播放多个视频的方法

在PPT中同时自动播放多个视频的方法 文章目录 在PPT中同时自动播放多个视频的方法1 准备视频2 设置动画为“出现”3 设置所有视频为“自动播放”4 最终效果与其他设置 在PPT制作的过程中,我们经常遇到需要同时自动播放多个视频的情况。本文将详细介绍实现这种效果的…

【智能驱蚊黑科技】基于OpenCV的蚊子雷达追踪打击系统(附完整Python源码)

【智能驱蚊黑科技】基于OpenCV的蚊子雷达追踪打击系统(附完整Python源码) 🌈 个人主页:创客白泽 - CSDN博客 🔥 系列专栏:🐍《Python开源项目实战》 💡 热爱不止于代码,热…

打造沉浸式古诗欣赏页面:HTML5视频背景与音频的完美结合

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

Python - 爬虫;Scrapy框架之插件Extensions(四)

阅读本文前先参考 https://blog.csdn.net/MinggeQingchun/article/details/145904572 在 Scrapy 中,扩展(Extensions)是一种插件,允许你添加额外的功能到你的爬虫项目中。这些扩展可以在项目的不同阶段执行,比如启动…

vscode 连接远程服务器

文章目录 1. 背景2. vscode 连接 服务器步骤2.1 安装 remote-ssh 插件2.2 配置 ssh 秘钥2.3 连接 server vscode 连接远程服务器 1. 背景 有服务器的同学,或许都有这样的感觉,服务器是 linux 系统,且只给个人提供一个终端进行连接&#xff0c…

JavaScript 模块系统:CJS/AMD/UMD/ESM

文章目录 前言一、CommonJS (CJS) - Node.js 的同步模块系统1.1 设计背景1.2 浏览器兼容性问题1.3 Webpack 如何转换 CJS1.4 适用场景 二、AMD (Asynchronous Module Definition) - 浏览器异步加载方案2.1 设计背景2.2 为什么现代浏览器不原生支持 AMD2.3 Webpack/Rollup 如何处…

乌称摧毁34%俄远程机队 俄媒否认 谎言蛛网行动

俄罗斯“与假新闻作战”网站发布文章称,通过分析乌克兰方面发布的视频可以确认,乌总统泽连斯基关于“已摧毁34%俄罗斯远程机队”的说法并不属实。俄方认为,乌克兰实际上可能仅摧毁了两架图-95战略轰炸机及一架安-12运输机,其余受损飞机在维修后均可恢复作战能力。乌克兰国家…