【AI News | 20250529】每日AI进展

article/2025/8/27 7:20:31

AI Repos

1、WebAgent
阿里巴巴通义实验室近日发布了WebDancer,一款旨在实现自主信息搜索的原生智能体搜索推理模型。WebDancer采用ReAct框架,通过分阶段训练范式,包括浏览数据构建、轨迹采样、监督微调和强化学习,赋予智能体自主搜索和推理能力。该模型在GAIA和WebWalkerQA等基准测试中表现出色,Pass@3分数分别达到61.1%和54.6%,展现了其执行多步骤、复杂推理任务的强大潜力,有望在未来的Web 4.0时代中发挥关键作用。
在这里插入图片描述

2、OpenDerisk
OpenDeRisk 是一个AI原生风险智能系统,致力于为应用系统提供7x24小时全面深入的风险防护。该系统采用多智能体架构,通过SRE-Agent、Code-Agent、ReportAgent、Vis-Agent和Data-Agent之间的协作,实现DeepResearch RCA(根因分析),能够快速定位问题根源。OpenDeRisk具有可视化证据链和完全开源架构,基于大规模OpenRCA数据集进行训练,提升了风险诊断的透明度和准确性,为开发者和企业提供了强大的风险管理解决方案。
在这里插入图片描述

AI News

1、DeepSeek-R1-0528正式开源:性能媲美OpenAI o3,免费API已上线
中国AI初创公司DeepSeek正式开源了其大语言模型DeepSeek-R1-0528,其在LiveCodeBench测试中性能表现直逼OpenAI的o3高级版。该模型支持128K上下文,代码生成与推理能力显著提升,并有效减少了模型幻觉。DeepSeek-R1-0528已通过HuggingFace平台开源,并提供免费API服务,通过OpenRouter上线,极大地降低了开发者使用门槛。此举不仅展示了DeepSeek的技术实力,也加速了AI技术的普及和开源AI生态的发展。

2、新神器LocAgent发布:代码定位准确率高达92.7%,程序员福音!
OpenHands、耶鲁大学、南加州大学和斯坦福大学团队联合推出了创新性的图索引大语言模型(LLM)代理框架——LocAgent,旨在解决程序员难以定位代码问题的痛点。LocAgent能将代码库解析成包含文件、类和函数关系的图结构,并采用分层稀疏索引和工具接口,使LLM能高效地在复杂代码库中进行推理和搜索。这一新工具的代码定位准确率高达92.7%,显著提升了开发效率,是程序员的巨大福音,并将于2025年ACL会议上正式亮相。

3、Resemble AI开源TTS Chatterbox,性能直逼并超越ElevenLabs
Resemble AI开源了其文本转语音(TTS)模型Chatterbox,该模型基于0.5B规模的LLaMA架构,训练数据超过50万小时,在盲测中表现出惊人的真实感和流畅度,甚至超越了ElevenLabs。Chatterbox支持零样本语音克隆和情感夸张控制,具备超低延迟的实时合成能力。为防止滥用,每段生成音频均嵌入Perth神经水印技术。Chatterbox的开源将极大地降低TTS技术门槛,推动更多创新应用,同时Resemble AI也提供付费服务,实行开源与商业化双轨战略。

4、Opera 发布全球首款AI代理浏览器Neon:智能聊天与自动化任务引领Web4.0
Opera公司正式推出全球首款AI代理浏览器Opera Neon的Alpha版,标志着Web4.0时代的开启。Neon通过集成Neon Chat(智能上下文交互)、Neon Do(任务自动化)和Neon Make(AI内容创作)三大核心模块,将浏览器从被动工具转变为主动智能助手。它支持离线任务执行,注重本地隐私保护,并提供邀请制体验。Neon的发布重新定义了用户与网络的交互方式,在日益激烈的AI浏览器市场中展现出独特的竞争优势。

5、全栈智能体Lemon AI重磅发布:一键解锁多领域复杂任务自动化
创新型全栈通用AI Agent——Lemon AI近日正式亮相,以其强大的自主性和工具调用能力,实现了从任务需求到成果交付的全流程自动化。Lemon AI集成了自然语言处理、代码生成、网页浏览、API调用等多种功能,能够智能识别目标、规划步骤并执行任务。其应用场景广泛,覆盖市场调研、金融分析、数据分析、代码编程和生活规划等多个领域。Lemon AI的推出预示着AI Agent技术迈向新高度,有望重塑多行业智能化格局。

6、字节跳动发布AI剪辑应用“剪小映”,赋能生活瞬间创作
字节跳动最新推出AI剪辑应用“剪小映”,旨在通过“捕捉美好,智创影片”的口号,为用户提供便捷高效的视频创作体验。该应用延续了剪映的易用性,并深度整合了火山引擎豆包大模型技术,让用户无需专业技能也能轻松制作高质量视频。剪小映的发布大大降低了视频创作门槛,鼓励更多人记录和分享生活瞬间,也标志着字节跳动在AI视频编辑领域的又一创新力作。

7、字节跳动推出图像Agent“小云雀AI”,赋能一键爆款创作
字节跳动发布了全新的图像Agent“小云雀AI”,旨在成为“一键爆款创作神器”。这款智能工具功能类似于Lovart,用户只需简单指令,即可智能生成高质量视频和图片,极大地降低了内容创作门槛。小云雀AI依托字节自主研发的“云雀”大模型,融合了深度学习和多模态技术,具备强大的图像生成与视频编辑能力。目前已上线安卓客户端,iOS版本预计6月发布。此举标志着字节跳动在AI Agent领域迈出重要一步,有望重塑AI创作格局,推动生成式AI向更广泛场景渗透。

8、Meta发布Multi-SpatialMLLM:引领多模态AI空间理解新范式
Meta与香港中文大学联合发布了Multi-SpatialMLLM模型,该模型通过整合深度感知、视觉对应和动态感知三大组件,显著提升了多模态大语言模型(MLLMs)的空间理解能力。为解决现有模型在空间推理方面的局限性,研究团队构建了包含2700万样本的MultiSPA数据集并设计了五项训练任务。Multi-SpatialMLLM在各项基准测试中表现优异,平均准确率大幅提升,展现了其在机器人、自动驾驶等领域应用的巨大潜力,推动了AI视觉内容创作和空间理解技术的发展。

9、可灵2.1重磅上线:性能显著提升,价格骤降65%
AI视频生成工具可灵2.1现已正式上线,在性能显著提升的同时,价格大幅降低了65%,极大地提高了性价比。新版本引入了标准版、高品质版和大师版三种质量体系,分别提供720P和1080P画质选择,以满足不同用户的需求。可灵2.1在生成效果和速度上均超越了前版本,即使目前仅支持图生视频,但其卓越的表现使其成为短视频和广告制作的理想选择,显著改善了用户的创作体验。

10、蚂蚁集团开源Ming-lite-omni:媲美GPT-4o的首个开源多模态模型
蚂蚁集团百灵大模型团队宣布全面开源Ming-lite-omni,这是首个在模态支持方面能与GPT-4o媲美的开源多模态大模型。该模型基于MoE架构,拥有220亿总参数和30亿激活参数,其模型权重和推理代码已开放,后续将发布训练代码和数据。此举延续了蚂蚁集团的开源战略,并通过在非高端算力平台上训练,证明了国产GPU的强大能力,为全球开发者提供了顶级的多模态AI技术选择。

11、OpenAI图像生成API升级:实时流式预览、多轮编辑与MCP集成赋能无限创作
OpenAI大幅升级其图像生成API,引入实时流式预览,让用户在生成过程中即时查看,提升创作效率。新增的多轮编辑功能支持对已生成图像进行高保真修改,节省计算资源。更重要的是,API集成了模型上下文协议(MCP),可连接Cloudflare、Stripe等多种外部工具和实时网络数据,极大地拓展了图像生成的使用场景,从实时数据可视化到个性化营销素材,为AI驱动的视觉内容创作带来无限可能。

12、百度上线AI高考系列产品,助力考生备考与志愿填报
为迎接2025年高考,百度推出系列AI产品,全方位助力考生。其中包括“高考高频考点库”,汇集近三年核心考点,提供针对性复习;升级后的“AI志愿助手”,能根据分数快速生成“冲稳保”志愿表,并提供个性化建议。此外,还设立了24小时在线的“外援团”直播间,由高校智能体、老师和学长学姐为考生提供实时答疑。这些AI工具旨在帮助考生高效备考、科学填报志愿,缓解高考压力。

13、Ollama v0.8 发布:本地AI迈向智能助手新纪元
Ollama v0.8的发布为本地大型语言模型带来了革命性升级,新增了流式传输响应和工具调用功能,使其能够实现实时交互和连接外部世界,例如进行实时网络搜索。新版本还修复了内存泄漏、优化了模型加载速度和长上下文推理,并增强了对AMD显卡的支持。Ollama v0.8通过开源和提升本地AI能力,降低了开发门槛,预示着本地AI在隐私敏感和离线场景下将扮演越来越重要的角色,成为更实用、更灵活的智能助手。

13、通义实验室发布OmniAudio:360°视频生成空间音频里程碑
通义实验室近日推出OmniAudio技术,成功实现从360°视频直接生成FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来革新。该技术解决了现有方法对360°全景视频空间信息利用不足的问题,并通过构建大规模Sphere360数据集和采用两阶段训练方法,显著提升了生成音频的质量和与视频的对齐度。实验结果表明,OmniAudio在各项指标上均优于现有基线,开启了360°视频与高质量空间音频结合的新纪元。


http://www.hkcw.cn/article/sVtcSoYPrx.shtml

相关文章

【Python】3.函数与列表

文章目录 一、函数1、函数是什么?2、语法格式3、函数参数4、函数返回值5、变量作用域6、函数执行过程7、链式调用8、嵌套调用9、函数递归10、参数默认值11、关键字参数小结 二、列表和元组1、列表是什么,元组是什么?2、创建列表3、访问下标4、…

Arduino LCD 1602液晶显示器2(I2C总线)

LCD 1602液晶显示器2(I2C总线) 上一小节中我们学习了LCD1602的标准连接,但因为线太多,在实际的工作中会占用太多的Arduino的针脚,所以不是很实用。为了解决这个问题,下面我们介绍一种总线控制IIC&#xff0…

⚽【足球数据全维度解析】从基础统计到高阶分析,数据如何重塑现代足球?

足球世界正在经历一场深刻的数据革命。本文将系统介绍足球数据统计的完整体系,并揭示数据如何改变这项运动的训练、比赛和决策方式。 📊 一、核心数据统计维度 1. 比赛基础数据 射门数据:场均射门/射正(哈兰德5.2次/场&#xff0…

【C++项目】:仿 muduo 库 One-Thread-One-Loop 式并发服务器

🌈 个人主页:Zfox_ 🔥 系列专栏:C从入门到精通 目录 🔥 前言 一:🔥 项目储备知识 🦋 HTTP 服务器🦋 Reactor 模型🎀 单 Reactor 单线程:单I/O多路…

MaaS(模型即服务)是什么?

模型即服务(Model as a Service,MaaS)是近年来随着人工智能和云计算技术发展而兴起的一种服务模式。以下是对模型即服务的详细展开: 1.概念与定义 ​ ​模型即服务(MaaS)是一种将机器学习模型作为云服务…

AI编程报错 API流式传输失败解决方案

引言 如果大家在AI编程过程中遇到以下问题,可参考本文的解决方案。 大家好,我是逍遥小欢。昨天在我的老的win10电脑上,安装搭建AI编程vscode和roocode环境时,运行提示词遇到一个错误。 报错提示:API流式传输失败 Command failed…

龙虎榜——20250529

上证指数放量收阳线,个股涨多跌少,汽车主线方向凸显。 深证指数放量收阳线,可以围绕主线方向做。 2025年5月29日龙虎榜行业方向分析 1. 智能驾驶(政策落地场景延伸) 代表标的:云内动力、信邦智能。 …

R3GAN训练自己的数据集

简介 简介:这篇论文挑战了"GANs难以训练"的广泛观点,通过提出一个更稳定的损失函数和现代化的网络架构,构建了一个简洁而高效的GAN基线模型R3GAN。作者证明了通过合适的理论基础和架构设计,GANs可以稳定训练并达到优异…

HackMyVM-Dejavu

信息搜集 主机发现 ┌──(root㉿kali)-[~] └─# arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:39:60:4c, IPv4: 192.168.43.126 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.43.1 c6:45:66:05:91:88 …

vue-seamless-scroll 结束从头开始,加延时后滚动

今天遇到一个大屏需求: 1️⃣初始进入页面停留5秒,然后开始滚动 2️⃣最后一条数据出现在最后一行时候暂停5秒,然后返回1️⃣ 依次循环,发现vue-seamless-scroll的方法 ScrollEnd是监测最后一条数据消失在第一行才回调&#xff…

【实证分析】上市公司全要素生产率+5种测算方式(1999-2024年)

上市公司的全要素生产率(TFP)衡量企业在资本、劳动及中间投入之外,通过技术进步、管理效率和规模效应等因素提升产出的能力。与单纯的劳动生产率或资本生产率不同,TFP综合反映了企业创新能力、资源配置效率和组织优化水平&#xf…

在 Ubuntu 上安装 NVM (Node Version Manager) 的步骤

NVM (Node Version Manager) 是一个用于管理多个 Node.js 版本的工具,它允许您在同一台设备上安装、切换和管理不同版本的 Node.js。以下是在 Ubuntu 上安装 NVM 的详细步骤: 安装前准备 可先在windows上安装ubuntu 参考链接:https://blog.…

4. Observer / Event(观察者模式) C++

4. Observer / Event(观察者模式) C++ 1. 动机(场景) 适用于观察者对象(可以有多个)在观察某个对象(目标对象)的状态,如果该对象的状态发生改变,观察者对象都将收到通知。 举个例子,当我们要做一个文件分割器(就是将一个大文件分割成指定大小的小文件),这时还需…

多模态融合新方向:光学+AI如何智能分拣,提升塑料回收率?

【导读】 面对触目惊心的全球塑料污染(每分钟百万瓶、年耗五万亿袋)以及较低的塑料回收率,本研究聚焦提升回收效率的核心环节——自动分拣技术。尽管AMP Robotics等公司利用结合现代机器学习(如R-CNN、YOLO系列)的光学…

GlobalExceptionHandler 自定义异常类 + 处理validation的异常

在 Spring Boot 项目中,​自定义异常通常用于处理特定的业务逻辑错误,并结合全局异常处理器(ControllerAdvice)统一返回结构化的错误信息。 一.全局异常处理器: 1. 自定义异常类​ 定义一个继承自 RuntimeExceptio…

零基础设计模式——结构型模式 - 代理模式

第三部分:结构型模式 - 代理模式 (Proxy Pattern) 在学习了享元模式如何通过共享对象来优化资源使用后,我们来探讨结构型模式的最后一个模式——代理模式。代理模式为另一个对象提供一个替身或占位符以控制对这个对象的访问。 核心思想:为其…

从 0 到 1 的显示革命:九天画芯张锦解码铁电液晶技术进化史

一、显示技术困局:传统液晶的天花板在哪里? 在消费电子与工业显示高速发展的今天,传统液晶技术正遭遇物理极限挑战。受 “边缘场效应” 制约,液晶分子因粘附像素格电极边框,仅中心区域可自由旋转,边缘分子的…

MySql(六)

插入数据 对mysql的表中的数据进行插入数据操作 语法格式: insert into 表名 (字段名1,字段名2..) values (字段值1,字段值2...) 这个有点类似键值对的关系。 一对一 1)首先准备一张表 /* Navicat Pre…

leetcode:372. 超级次方(python3解法,数学相关算法题)

难度:中等 你的任务是计算 ab 对 1337 取模,a 是一个正整数,b 是一个非常大的正整数且会以数组形式给出。 示例 1: 输入:a 2, b [3] 输出:8示例 2: 输入:a 2, b [1,0] 输出&…

C++ —(详述c++特性)

一 namespeace(命名空间) namespace是一个自定义的空间,这个空间相当于一个总文件夹,总文件可以有好多个,里面的小文件夹或者其他文件,也可以有其他各种各样的文件, 定义:命名空间是…