【AI News | 20250603】每日AI进展-海口c网

AI Repos

1、dgm
是一个创新的自改进系统，通过迭代修改自身代码并利用编码基准验证每次更改，实现开放式进化。该系统旨在提升 AI 代理的代码修改能力。DGM 支持 OpenAI 和 Anthropic API，依赖 Docker 环境，并集成了 SWE-bench 和 Polyglot 等评估框架。开发者需注意，运行 DGM 涉及执行不受信任的模型生成代码，存在潜在安全风险。该项目为自改进 AI 代理的开发提供了重要工具和研究方向。
在这里插入图片描述

2、DeeplxFile
DeeplxFile 是一款基于 Deeplx/Playwright 的免费、无文件大小限制且支持超长文本翻译的文件翻译工具。它解决了传统工具在处理大型或复杂 Excel 文档时的不足，并支持 LLM 大模型沉浸式翻译，可指定翻译风格和语境。该工具提供 Windows 和 macOS 编译版本，支持 PDF 转换为可编辑 Docx，并提供 Playwright 模式以规避请求频繁错误。最新版本还支持 macOS 上的 Playwright 模式，并优化了 GUI。

3、deepseek-engineer
DeepSeek Engineer v2 正式发布，作为一款强大的 AI 驱动编程助手，其核心亮点在于引入了原生函数调用架构，取代了结构化 JSON 输出。这使得 AI 能进行自然对话、自动文件操作和实时链式思考（CoT）。它具备精英级软件工程能力、代码分析与优化建议，并能自动执行文件读写、创建、编辑等操作。通过智能文件读取和丰富的终端界面，DeepSeek Engineer v2 提供高效、安全的编程体验，助力开发者提升效率。

4、VRAG
通义实验室近日开源了 VRAG-RL 框架，这是一个视觉感知驱动的多模态 RAG 推理框架，旨在通过强化学习训练 VLM（视觉语言模型），使其能够从粗粒度到细粒度逐步理解和检索视觉信息。该框架支持多轮多模态训练，集成了先进的视觉嵌入模型，并已发布 7B 模型和交互式 Demo。VRAG-RL 提供了快速启动指南，并支持用户构建自己的视觉搜索引擎和定制化 VRAG，为未来 AI 代理处理视觉丰富信息提供了强大工具。

5、gemini-fullstack-langgraph-quickstart
Gemini Fullstack LangGraph Quickstart 项目提供了一个全栈应用范例，通过 React 前端和 LangGraph 后端代理，实现智能研究型会话式 AI。该代理利用 Google Gemini 模型动态生成搜索查询，通过 Google Search API 执行网页研究，并反思结果、迭代优化搜索，最终提供带引用的可靠答案。项目包含详细的开发与部署指南，支持本地测试和 Docker 部署，展示了 LangGraph 与 Gemini 模型在构建高级 AI 应用中的强大潜力。

6、onlook
Onlook 是一款专为设计师打造的开源、可视化优先的代码编辑器，旨在简化 Next.js + TailwindCSS 网站、原型和设计开发。它提供AI 辅助创作（通过文本或图像）、Figma 导入、GitHub 仓库导入等功能，并允许用户直接在浏览器 DOM 中进行可视化编辑，实现实时设计与代码同步。Onlook 支持团队协作、版本控制和快速部署，目前 Web 版本正在积极开发中，致力于成为 AI 驱动的“所见即所得”代码创作工具。
在这里插入图片描述

7、throttled-py
Throttled-py 是一款高性能的 Python 限流库，支持同步和异步模式，并提供 Redis 和内存（In-Memory）两种线程安全存储后端。它实现了固定窗口、滑动窗口、令牌桶、漏桶和 GCRA 等多种限流算法，支持灵活的配额配置、即时响应和等待重试模式，以及函数调用、装饰器和上下文管理器三种使用方式。Throttled-py 性能卓越，In-Memory 模式下速度约为 dict[key] += 1 操作的 2.5-4.5 倍，Redis 模式下约为 INCRBY 操作的 1.06-1.37 倍，同时还支持与 MCP Python SDK 集成。

8、autobe
AutoBE 是一款创新的后端 vibe 编程 AI 代理，利用 TypeScript、NestJS 和 Prisma（Postgres）技术栈，通过编译器和 OpenAPI 验证器反馈机制，确保生成 100% 可运行的代码。该代理融合瀑布模型与螺旋模型的优势，通过需求分析、Prisma 数据库设计、API 接口定义、代码实现和端到端测试五个核心代理，实现持续迭代优化。AutoBE 可与 **Agentica（AI 聊天机器人框架）和 AutoView（前端编码代理）**无缝集成，旨在实现全栈 vibe 编程，让用户仅通过对话即可自动化完成后端、AI 聊天机器人和前端应用的开发与部署。

AI News

1、NVIDIA 联合 MIT 与港大推出 Fast-dLLM 框架，大幅提升扩散模型推理速度
英伟达携手麻省理工学院和香港大学，共同发布了创新的 Fast-dLLM 框架，旨在显著提升扩散模型（Diffusion-based LLMs）的推理速度。该框架通过引入块状近似 KV 缓存机制和置信度感知并行解码策略，有效解决了扩散模型在推理速度上的瓶颈，最高实现了惊人的 27.6 倍加速。Fast-dLLM 在多项基准测试中表现出色，在大幅提速的同时，仍能保持高准确率，为扩散模型在语言生成任务中的广泛应用开辟了新的可能性，使其在与自回归模型的竞争中更具优势。

2、智源研究院开源Video-XL-2，轻量级模型实现超长视频理解新突破
智源研究院与上海交通大学等机构联合发布了Video-XL-2，一款开源的新一代超长视频理解模型。该模型采用创新的视觉编码器、动态Token合成模块（DTS）和大语言模型（LLM）架构，并通过四阶段渐进式训练和多项效率优化策略，实现了在单张消费级显卡上处理千帧、甚至万帧级视频的能力。Video-XL-2在多项长视频评测基准上超越现有轻量级模型，甚至接近或超越了部分720亿参数规模的大模型，展现出卓越的理解能力、处理速度和实用性，为长视频内容分析、监控和直播分析等应用提供了强大支持。

3、Character.AI 推出 AvatarFX 功能，赋能用户创建个性化动画视频
Character.AI 近日发布了 AvatarFX 工具，允许用户利用其 AI 聊天角色制作个性化动画视频，并新增**“场景”和“流”功能**，以便用户在平台新社交动态中分享创作。这一举措丰富了用户体验，使 AI 聊天角色不再局限于文本互动。尽管平台此前曾面临滥用争议，Character.AI 表示将采取措施限制真实人物照片上传，并对视频进行水印处理，力求在提供创意空间的同时确保用户安全。

4、Cerebras 推理 API 全面开放，每日百万免费 Token 加速 AI 开发
人工智能芯片公司 Cerebras Systems 全面开放其推理 API，取消了等待名单限制，并为开发者提供每日百万免费 Token。Cerebras 宣称其推理速度可达 GPU 的 20 倍，尤其在实时处理和复杂推理场景中表现卓越，支持主流开源模型如 Llama4 和 Qwen3-32B，并已无缝集成至 Hugging Face 等平台。此次开放旨在加速生成式 AI 应用开发，并可能重塑 AI 推理市场格局。

5、新加坡国立大学推出 OmniConsistency，低成本实现图像风格化一致性
新加坡国立大学（NUS）团队发布了 OmniConsistency 项目，旨在以极低成本复现 OpenAI GPT-4o 在图像风格化上的一致性。该创新技术通过独特的学习框架，利用 2600 对高质量图像，仅用 500 小时 GPU 算力训练，便在风格化效果和内容一致性之间取得平衡。OmniConsistency 采用模块化架构，支持即插即用，兼容现有风格化 LoRA 模块，为开源社区提供了高性价比的解决方案，有望推动 AI 艺术创作发展。

6、微软必应推出 Bing Video Creator，免费生成 AI 视频
微软必应（Microsoft Bing）正式推出“Bing 视频创作器”，首次免费开放基于 OpenAI Sora 模型的视频生成能力，用户可通过文本提示轻松创建短视频。该功能目前仅支持移动设备，免费生成 10 段视频后需消耗微软积分。每次可排队生成三段 5 秒竖屏视频，未来将支持横屏。此举旨在降低视频创作门槛，丰富社交媒体内容，为微软服务增添新吸引力。

7、通义实验室开源 VRAG-RL：视觉感知多模态 RAG 推理框架
近日，通义实验室自然语言智能团队发布并开源了 VRAG-RL，这是一款视觉感知驱动的多模态 RAG 推理框架。该框架旨在解决 AI 在图像、表格、设计稿等视觉语言中检索关键信息并进行精细化推理的难题。VRAG-RL 引入多样化视觉感知动作、多专家采样策略和细粒度奖励机制，并通过 GRPO 算法实现高效训练。实验结果表明，VRAG-RL 在多项视觉语言基准测试中表现优异，显著提升了模型在视觉任务上的性能和效率，支持多轮交互。

8、阿里云通义灵码 AI IDE 正式上线，开启智能编程新纪元
阿里云正式发布并免费上线通义灵码 AI IDE，这是一款深度适配千问3模型、原生集成人工智能的开发环境。该 IDE 凭借强大的编程智能体模式、长期记忆和行间建议预测（NES）功能，显著提升开发效率。其行间对话（Inline Chat）功能进一步增强了互动性。通义灵码插件下载量已超 1500 万，累计生成 30 亿行代码，被众多知名企业采用，标志着阿里云在智能编程领域的重大突破，为开发者带来高效智能的编程新体验。

9、Anthropic Claude 新增应用开发功能，赋能 AI Studio 生态
Anthropic 近日宣布，其旗舰模型 Claude 现已支持开发者直接构建与模型对话的 AI 应用程序。此项更新被视为与 AI Studio 的应用开发理念高度契合，通过 API 和 SDK 提供丰富的接口支持，开发者可利用 Claude 的对话和多模态生成能力，快速构建智能助手、自动化客服、内容生成工具等。这一突破性进展降低了 AI 应用开发门槛，有望加速 AI Studio 成为 AI 应用开发的“枢纽”，推动 AI 技术在各行业的广泛普及和创新。

10、小米开源多模态大模型 Xiaomi MiMo-VL，性能超越同类及部分闭源模型
小米公司近日开源了其研发的多模态大模型 Xiaomi MiMo-VL，该模型在图片、视频、语言的通用问答和理解推理等任务上，大幅超越同尺寸标杆模型 Qwen2.5-VL-7B，并在 GUI Grounding 任务上媲美专用模型。尽管参数规模仅 7B，Xiaomi MiMo-VL 在多模态推理竞赛中表现优异，甚至超越部分大型模型及闭源模型 GPT-4o。其强大性能得益于高质量预训练数据和创新的混合在线强化学习算法，有望为 Agent 时代奠定基础。