【AI非常道】二零二五年四月，AI非常道-海口c网

经常在社区看到一些非常有启发或者有收获的话语，但是，往往看过就成为过眼云烟，有时再想去找又找不到。索性，今年开始，看到好的言语，就记录下来，一月一发布，亦供大家参考。

前面的记录：
《【AI非常道】二零二五年一月，AI非常道》
《【AI非常道】二零二五年一月（二），AI非常道》
《【AI非常道】二零二五年二月，AI非常道》
《【AI非常道】二零二五年三月，AI非常道》

一站式的大模型微调笔记合集： Unsloth Notebooks

来自@GitHubDaily

分享 GitHub 上一份收集整理了一站式的大模型微调笔记合集： Unsloth Notebooks。

提供 40+ 份笔记，涵盖了从 Llama 3 到 Phi 4、Mistral、Qwen 2.5 等几乎所有主流开源模型，每个笔记本都有详细的注释和指南，便于我们直接上手微调训练模型。

GitHub：github.com/unslothai/notebooks

主要内容：

按模型类型分类的微调笔记本（Llama、Phi、Mistral、Qwen、Gemma 等）
多种训练方法（GRPO、DPO、Alpaca、会话微调等）全覆盖
视觉模型专用笔记本（Llama 3.2、Qwen 2.5 VL 等）
语音合成模型训练资源（如 Orpheus TTS）
所有笔记本都为 Colab 和 Kaggle 环境优化

只需点击相应的链接即可开始测试，想快速入门与实践大模型微调的开发者值得一看。

在这里插入图片描述

需要一篇科研论文时，可以按步骤尝试的几种下载方法

来自@爱可可-爱生活

5-1 09:14
来自微博网页版
【如何免费获取科研论文】

这张流程图介绍了当你需要一篇科研论文时，可以按步骤尝试的几种下载方法：

判断是否有DOI：首先看论文是否有DOI（数字对象标识符）。
- 不知道：用谷歌搜索论文标题，找到发布页面，通常能找到DOI。
- 有DOI：先尝试 OA.mg，这里收录了许多开放获取（Open Access）论文和其它论文的PDF。
- 没有DOI：看它是不是一本书？
  - 是书：去 LibGen (如 libgen.tw) 查找，那里有大量书籍。如果找不到，再试试 Z-Library 或 BookSC（这些网站域名常变，需要搜索当前可用域名，B-OK 也是一个选项）。
  - 不是书：也跳到 Z-Library 或 BookSC 步骤。
如果 OA.mg 或 LibGen/Z-Library 找不到：
- 安装 PaperPanda（一个免费的Chrome浏览器扩展）。
如果 PaperPanda 也找不到：
- 尝试 Unpaywall（另一个Chrome扩展，搜索网络上的合法免费版本）。
如果 Unpaywall 找不到：
- 是物理学论文吗？
  - 是：去 arXiv.org 查找，这里可能有预印本或手稿。
  - 不是/arXiv找不到：尝试 Sci-Hub (如 sci.hubg.org) 或 Libgen (如 libgen.tw)。*（流程图提示这可能是法律风险较高的方法）- 5. 如果 Sci-Hub/Libgen 也没有：
- 去 Reddit 的 /r/Scholar 板块发帖求助，可能有其他人能帮你找到。
如果以上方法都失败了：
- 直接给作者发邮件！很多作者乐意分享他们论文的PDF。

简单来说，这是一个从开放获取、合法工具到灰色地带资源，最后到直接联系作者的论文查找攻略。
在这里插入图片描述

DeepWiki-Open：开源的AI驱动GitHub仓库维基生成器

来自@爱可可-爱生活

【[376星]DeepWiki-Open：开源的AI驱动GitHub仓库维基生成器，一键为你的代码生成交互式文档。亮点：1. 秒级生成，从代码到维基仅需几秒；2. 支持私有仓库，安全接入并生成文档；3. 自动生成Mermaid图表，直观展示代码结构和数据流】
‘Open Source DeepWiki: AI-Powered Wiki Generator for GitHub Repositories’
GitHub: github.com/AsyncFuncAI/deepwiki-open
在这里插入图片描述

前 OpenAI 后训练负责人 Barret Zoph 和 John Schulman 的 PPT：《ChatGPT and The Art of Post-Training》

来自@i陆三金

前 OpenAI 后训练负责人 Barret Zoph 和 John Schulman 的 PPT：《ChatGPT and The Art of Post-Training》。

链接：docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE

里面有一些信息：

John Schulman、Barret Zoph 是后训练的负责人，两人从 2022 年 9 月份开始合作。
OpenAI 的后训练团队最早是「RL团队」，只有 5 个人，在 2 年时间发展到 100 人以上。
RL 团队 2021 年做 WebGPT（浏览 + 问答），2021 年初开始为 WebGPT 的继任者研究聊天形式。
后训练让模型像助手一样工作，并遵循相应的格式，现在流行的这些检索、浏览网页、tool use 等能力来自于后训练。
后训练团队通常与产品团队之间配合更密切，因为后训练是模型投入生产的最后阶段。
后训练三大组件：
监督微调 (SFT)：克隆人类/专家行为；
奖励模型 (RM)：建模人类偏好；
强化学习 (RL)：用 RL 针对 RM 优化，并在训练中混入非 RM 目标。
一些开放问题：
🌟 高质量人类反馈
趣味、创意写作、商业点子等主观领域难标注
高难度任务（编码、数学证明、长文分析）标注成本高

🌟 行为规范化 (Specification)
“先弄清要什么” 本身极难
复杂政策如何融入模型仍待研究

🌟保持多样性与趣味性
生产模型风格趋同
小型公司常蒸馏顶级模型输出 → 风格进一步单一
如何恢复、保持多样世界观仍是挑战
在这里插入图片描述

Andrej Karpathy： LM Arena 排行榜的出现使得大家更倾向于做出评分更高的模型，而不是实际上更好的模型

来自@i陆三金

Andrej Karpathy： LM Arena 排行榜的出现使得大家更倾向于做出评分更高的模型，而不是实际上更好的模型。

OpenRouter 的 token 使用量（通过 API）排行榜反而更能反映真实情况，大家都是用脚投票的。

OpenRouter 用量排行榜：openrouter.ai/rankings
在这里插入图片描述

艾伦人工智能研究所的post-training研究负责人Nathan Lambert：《Qwen 3 新一代开源标准》

来自@蚁工厂

艾伦人工智能研究所的post-training研究负责人Nathan Lambert发了篇博客来介绍他对Qwen3的分析及看法，题目给拔得很高《Qwen 3 新一代开源标准》
链接：www.interconnects.ai/p/qwen-3-the-new-open-standard
其主要观点：
⭐这次发布是对 DeepSeek R1 的配方和通用蒸馏技术的重要验证。正如 DeepSeek 在其 R1 报告中讨论的那样，较小的 Qwen3 模型通过更多的强化学习训练可能可以得到进一步的改进。

⭐预训练的 token 数量非常惊人（与 Llama 4 的预训练量相当，Scout 大约为 40T，Maverick 多模态约为 22T；或者 DeepSeek V3 的约为 15T）。Qwen 详细说明他们使用了超过 30T 的通用数据和 5T 的“高质量”数据，这比我们在 Ai2 用于 OLMo 的整个训练预算（或者其他较小的开源模型机构的产出）还要多。

⭐Qwen3 本身不是多模态的，因此相对于 Llama 4 以及似乎正在转向像 GPT-4o（也许还在 YouTube 上训练）这样更早融合的行业而言，他们可能在这方面有所损失。社区正在寻找具有工具使用和视觉能力的模型，以构建计算机使用代理。

⭐对于开源模型而言，Qwen3 是两全其美的选择——既有 DeepSeek 领先模型的峰值性能和尺寸规模，又有像 Llama 1、2 和 3 那样完全可访问的模型尺寸套件。

⭐Qwen3 展示了算法和数据的改进如何使模型变得更小。官方博客文章详细介绍了大约 50% 的密度提升：“例如，Qwen3-1.7B/4B/8B/14B/32B-Base 的性能分别与 Qwen2.5-3B/7B/14B/32B/72B-Base 相当。”这些数字被夸大了，因为 Qwen 2.5 并非一套推理模型，并且现代的后训练技术使得在目前流行的评估指标上实现了惊人的性能提升。

⭐在 ICLR 关于开源模型的一个研讨会小组讨论中，来自 Qwen 的林俊旸大致表示，他们“需要 100 人才能做出一个好的通用模型”。

⭐许可非常好，所有较小的模型都采用了 Apache 2.0 许可，而 Qwen 的许可在历史上比 Llama 宽松得多。过去，当你对用 Qwen 构建的模型进行微调时，你可以选择你的许可，并在模型文档中添加“built with Qwen”这样的声明。

⭐开源模型中的工具使用非常有趣且难以快速测试。Llama 也具备这种能力，这可能是 2025 年开源模型领域一个值得关注的持续主题。

⭐我们将开始观察 Qwen 是否具有独特的风格或特点。他们已经完成了基准测试，现在我们将观察他们在保持前沿地位方面如何与 R1、o3 和 Gemini 2.5 Pro 等模型相比较。

⭐我从有限的试验和阅读我在线认识的人的看法来看，这些模型并不像我们今天习惯使用的最佳模型那样强大。但这仍然是一项重大成就，也是实验室的正常发展路径——先获得基准分数，然后弄清楚如何做出用户喜欢的东西。基准测试的令人兴奋之处通常在于打开了顶部的流量入口，吸引人们尝试你的模型，这反过来又会带来有价值的提示和用户数据。
在这里插入图片描述

《Agents》

来自@黄建同学

4-29 12:31
《Agents》推荐阅读，很详细↓

许多人认为智能代理是人工智能的终极目标。Stuart Russell 和 Peter Norvig 合著的经典著作《人工智能：一种现代方法》（Prentice Hall出版社，1995年）将人工智能研究领域定义为“理性代理的研究和设计” 。

基础模型前所未有的能力，为此前难以想象的代理应用打开了大门。这些新功能最终使得开发自主智能代理成为可能，让它们成为我们的助手、同事和教练。它们可以帮助我们创建网站、收集数据、规划行程、进行市场调研、管理客户账户、自动录入数据、准备面试、面试候选人、谈判交易等等。可能性似乎无穷无尽，这些代理的潜在经济价值更是无比巨大。

本节将首先概述代理，然后探讨决定代理能力的两个方面：工具和规划。代理因其新的运行模式，也存在新的故障模式。本节最后将讨论如何评估代理以发现这些故障。

访问：huyenchip.com/2025/01/07/agents.html
在这里插入图片描述

Mistral AI 推出分类器工厂（Classifier Factory）

来自@黄建同学

4-29 18:12
把这个流程化太重要了！ Mistral AI 推出分类器工厂（Classifier Factory），将构建AI分类器变成一个流程化的工具

在各个领域和企业中，分类模型对于提高效率、改善用户体验和确保合规性起着至关重要的作用。它们的应用范围包括但不限于内容审查、意图检测、情感分析、数据聚类、欺诈检测、垃圾邮件过滤以及推荐系统等。

Mistral AI 设计了一个友好且简单的方式来创建你自己的分类器。这个小巧但高效的模型和训练方法，分类器工厂可以再在la plateforme和API使用。

(1) 数据集格式需存储为JSON Lines (.jsonl) 文件，支持存储多个JSON对象，每个对象占一行。Mistral AI 提供了两个接口用于文本和聊天多轮交互的分类，包括单目标和多目标分类模型。

(2) 上传正确格式的数据文件至Mistral Client后，即可用于微调作业。创建微调作业时，可选择特定模型（例如ministral-3b-latest），并可调整训练步骤和学习率等超参数。

(3) 微调作业创建后可检查作业状态，最终通过client.fine_tuning.jobs.get(job_id)检索微调作业状态，并启动微调作业。此外，还可以列出、检索或取消作业。

(4) 微调完成后，可以使用fine-tuned模型进行分类，也支持对聊天和多轮交互进行分类。如有需要，还可以删除微调的模型。

此外，还提供了一系列指南和cookbooks，帮助用户利用分类器工厂进行意图分类、内容审查和产品分类等。

访问：docs.mistral.ai/capabilities/finetuning/classifier_factory/
Cookbook：github.com/mistralai/cookbook
在这里插入图片描述

阶跃星辰发布统一的图像编辑模型

来自@挨踢牛魔王

阶跃星辰整了个大活啊。
阶跃星辰发布了一个统一的图像编辑模型，这应该是开源世界第一个统一图像编辑模型。
论文、模型、代码、评测数据集一次性全部放出来来了。

这个就是对标gpt4o image那个能力的，开源世界果然来了。
有了阶跃开源的这些内容，相信会极大的加快统一图像模型的研究。
这个应用场景太广了。

比如那个评测集，就非常有用，没评测集，你不知道你做的好不好。

我们先看看项目方的介绍：
我们发布了最先进的图像编辑模型 Step1X-Edit，它可以提供与 GPT-4o 和 Gemini2 Flash 等闭源模型相当的性能。
更具体地说，我们采用多模态 LLM 来处理参考图像和用户的编辑指令。
提取了潜在嵌入并与扩散图像解码器集成以获得目标图像。
为了训练模型，我们构建了一个数据生成管道来生成高质量的数据集。
为了进行评估，我们开发了 GEdit-Bench，这是一种植根于真实世界用户指令的新型基准测试。GEdit-Bench 上的实验结果表明，
Step1X-Edit 的性能大大优于现有的开源基线，并且接近领先的专有模型的性能，从而为图像编辑领域做出了重大贡献。

另外一个，这个模型24.9G，需要H800 80G，这个一般人就跑不起了。
但是开源社区应该很快会投入优化。
另外一个，就是可以接api。

既然是统一编辑，肯定是要用大模型能力的，模型不可能太小。
但是24.9G，比我想象的要小太多了，优化空间巨大。

反观那些互联网大厂在做什么?
这个领域，是一定要占领的啊，被一家创业公司抢先了。

先发出来给大家看，我在看论文。

论文：arxiv.org/abs/2504.17761
模型：huggingface.co/stepfun-ai/Step1X-Edit
推理代码：github.com/stepfun-ai/Step1X-Edit
评测集：huggingface.co/datasets/stepfun-ai/GEdit-Bench
在这里插入图片描述

PageIndex：基于推理的 RAG 文档索引系统

来自@黄建同学

一个不需要向量数据库和分块chunking的 Agentic RAG 新技术↓

PageIndex：基于推理的 RAG 文档索引系统。可以将冗长的 PDF 文档转换为语义树结构，类似于“目录”，且对LLM坐做了针对性优化。

传统的基于向量的 RAG 依赖于语义相似性，而非真正的相关性。但相似性≠相关性——我们在检索中真正需要的是相关性，而这需要推理。当处理需要领域专业知识和多步推理的专业文档时，相似性搜索往往显得力不从心。

基于推理的 RAG提供了一种更好的替代方案：使 LLM 能够思考和推理，找到最相关的文档部分。受 AlphaGo 的启发，该项目使用树搜索来执行结构化文档检索。

PageIndex是一个文档索引系统，它从长文档构建搜索树结构，使其为基于推理的 RAG 做好准备。

访问：github.com/VectifyAI/PageIndex
在这里插入图片描述

一次完美的 vibe coding 体验

来自@dingtingli

今天想翻译一篇英文文章，需要先将网页内容转换成 Markdown 格式，再交给 AI 翻译。

一开始尝试用 Chrome 自带的阅读模式，虽然能转换，但却无法复制转换后的内容。

接着试了 NotebookLM，结果也一样，还是不能复制。

随后向 AI Perplexity 求助，它推荐了一些在线转换工具，比如 HTMLMarkdown.com，但用起来略麻烦——需要手动复制 HTML 源码。

于是我想，这个简单的功能是不是能用 Cursor 搞定？

用 Cursor 的 MVP 模式试了一下，立刻发现了两个我之前不知道的强大工具：

Readability.js：Mozilla 出品的网页正文提取工具，效果媲美浏览器的阅读模式。
Turndown：一键将 HTML 转为 Markdown。

Cursor 用 Agent 模式帮我迅速完成了代码生成，我只需点击运行，遇到问题 AI 会自动重试。

整个过程不到 5 分钟，结果非常棒！（效果图见下👇）

基于这个结果，如果再加上 AI 翻译和一键发布功能，甚至做成 Chrome 插件，那不就是一款完整的产品了吗？

微软这份pdf提供了代理 AI 系统中故障模式的分类

来自@黄建同学

AI 开发者不容错过的资料↓

微软这份pdf提供了代理 AI 系统中故障模式的分类。能够让我们一开始构建AI 系统就知道哪里可能失败，提前做好准备！

访问：cdn-dynmedia-1.microsoft.com/is/content/microsoftcorp/microsoft/final/en-us/microsoft-brand/documents/Taxonomy-of-Failure-Mode-in-Agentic-AI-Systems-Whitepaper.pdf
在这里插入图片描述

这个项目直接在pdf里运行一个LLM

来自@黄建同学

厉害了！这个项目直接在pdf里运行一个LLM↓

llm.pdf 是一个概念验证项目，表明仅使用 PDF 文件就可以运行整个大语言模型。

它使用Emscripten将llama.cpp编译为asm.js，然后可以使用旧的 PDF JS 注入在 PDF 中运行。

结合将整个 LLM 文件以 base64 嵌入到 PDF 中，我们能够在 PDF 中运行 LLM 推理。

访问：github.com/EvanZhouDev/llm.pdf
在这里插入图片描述

为什么微调后的大模型会胡言乱语？

https://arxiv.org/abs/2407.10490
为什么大语言模型在微调后有时会容易“胡言乱语”？最新研究揭示了背后的秘密：学习动态。研究发现，模型在微调时，学习一个样本会同时影响其他相似样本的预测。例如，指令微调可能让模型混淆不同问题的答案，导致“幻觉”；而偏好优化会因“挤压效应”压低所有低概率回答，迫使模型过度依赖少数高频词，生成重复内容。作者提出了一种简单方法，通过调整训练数据缓解这一问题。这项研究不仅解释了模型的行为规律，还为优化AI对齐提供了新思路。

针对代码库的Deep Search - DeepWiki

来自@黄建同学
针对代码库的Deep Search - DeepWiki

可以对任何一个repo项目进行深入研究和分析，提取系统架构，子系统，问任何问题。背后基于Devin（这很少见）

免费，免注册。

访问：deepwiki.com

开源的 AI 知识图谱生成框架——Graphiti

来自@karminski-牙医

看到个开源的 AI 知识图谱生成框架——Graphiti

这个知识图谱框架牛逼的地方是，可以持续将用户交互、结构化和非结构化数据以及外部信息整合到一个连贯的、可查询的图谱中。并且支持增量数据更新、高效检索、精确的历史查询。并且这些都无需重新计算整个图谱，非常适用于开发交互式、上下文感知的 AI 应用。

目前这个项目已经有 4.4K Star 了

地址：github.com/getzep/graphiti
在这里插入图片描述

什么是 AI Agent？

来自@黄建同学

在这里插入图片描述

这图做得好清晰↓

什么是 AI Agent？

AI代理是一种软件程序，它可以与环境交互，收集数据，并利用这些数据实现预定目标。AI代理可以选择最佳操作来实现这些目标。

人工智能代理的主要特征如下：

代理无需人工持续干预即可执行自主操作。此外，它们还可以由人类参与控制。

智能体拥有记忆功能，可以存储个人偏好并实现个性化。它还可以存储知识。LLM 可以承担信息处理和决策功能。
代理必须能够感知和处理来自其环境的信息。
代理还可以使用访问互联网、使用代码解释器和进行 API 调用等工具。
代理还可以与其他代理或人类合作。

有多种类型的 AI 代理可用，例如学习代理、简单反射代理、基于模型的反射代理、基于目标的代理和基于实用性的代理。

AI 代理的系统架构：
1 - 单一代理：代理可以充当私人助理。
2 – 多代理：代理以协作或竞争的方式相互交互。
3 - 人机：代理与人类互动，更有效地执行任务。

动态图，可以使用一个开源工具：draw.io

来自@GitHubDaily
来自国外博主 Akshay 分享的一套构建自主纠正的 RAG 工作流。

除了能够搜索我们的文档外，还能在有需要时进行网络搜索，进一步确保内容准确性。

此外，跟大家分享一下制作这样的动态图，可以使用一个开源工具：draw.io。

我们可以利用它绘制一系列的图表、图示或图形，包括流程图、UML 类图、组织结构图、泳道图等等，适用于各种复杂专业的图表。

相比 ProcessOn，draw.io 作图元素更加丰富，而且文件可以选择保存到自己云盘或者本地，数据隐私更加安全。

教程：www.drawio.com/doc/faq/connector-animate
GitHub：github.com/jgraph/drawio-desktop

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗠𝗲𝗺𝗼𝗿𝘆↓

来自@黄建同学

4-26 08:27
𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗠𝗲𝗺𝗼𝗿𝘆↓

一般来说，代理的记忆是我们通过传递给 LLM 的提示中的上下文提供的，它可以帮助代理根据过去的交互或无法立即获得的数据更好地进行规划和反应。将记忆分为四类很有用：

情景记忆 - 这种类型的记忆包含代理过去执行的交互和动作。执行某个动作后，控制代理的应用程序会将该动作存储在某种持久性存储中，以便以后需要时可以检索。一个很好的例子是使用向量数据库来存储交互的语义。
语义 - 代理可获取的任何外部信息以及代理应具备的关于自身的任何知识。您可以将其视为类似于 RAG 应用中使用的上下文。它可以是仅代理可用的内部知识，也可以是基础上下文，用于隔离部分互联网规模的数据以获得更准确的答案。
程序性 - 这是系统性信息，例如系统提示的结构、可用工具、防护措施等。通常存储在 Git、提示和工具注册表中。
有时，如果当前任务需要，代理应用程序会从长期记忆中提取信息并将其存储在本地。
所有从长期记忆或存储在本地记忆中的信息被称为短期记忆或工作记忆。将所有这些信息编译成一个提示，将生成传递给LLM的提示，并为系统提供进一步的操作。

我们通常将 1. - 3. 标记为长期记忆，将 5. 标记为短期记忆。

视频最终在时序上一定是因果关系

来自@i陆三金

4-23 23:30
来自微博网页版
sand.ai 这两天的自回归视频模型比较火。

创始人曹越的这段话有意思：「我们认为视频最终在时序上一定是因果关系。就像语言模型，只能是顺着，从左上到右下看文字，没有人会倒着看。视频也是如此。很多物理规律，本质是一个随着时间变化的函数。

但在sora里没有这些设置。早期sora 或者类sora的解决方案里，人在走路时，很容易出现左腿左腿，右腿右腿这种case，而不是上一秒迈左腿时，下一秒就该迈右腿。这是因为模型训练时只学到时序上的相关性，而没有持续上的因果。

时序因果是一个维度，还有我认为自回归路线是更scalable的。

斯坦福大学研究者提出解决视频生成问题的新方法：FramePack

来自@零重力瓦力
https://arxiv.org/abs/2504.12626

4-23 11:17

AI 视频生成一直面临着计算资源需求高、生成长视频时会造成质量衰减的问题。斯坦福大学研究者 Lvmin Zhang 和 Maneesh Agrawala 提出了一个解决以上问题的新方法：FramePack。

FramePack 的核心思想在于重新思考如何处理输入帧的上下文。传统的 “下一帧” 预测模型在处理多帧输入时通常需要消耗大量 GPU 算力。而 FramePack 通过为每个输入帧分配不同的重要性，并据此调整其对 GPU 算力的占用，实现了更高效的资源利用。

具体来说，FramePack 对不同帧应用不同的 “patchifying kernel”，使得更重要的帧（比如最接近预测目标的帧）获得更多的上下文长度，而较远的帧则被更高效地压缩。这种方法使得计算复杂度保持在 “O(1)” 常数级别，非常适合流式处理。

更令人惊喜的是，FramePack 还提供了灵活的调度机制。研究者设计了多种压缩模式，可以根据具体需求调整各帧的重要性分配。例如，对于图像转视频的任务，可以让起始帧获得同等的高重要性，以保证生成质量。

除了解决资源问题，论文还着重解决了视频生成中的 “漂移” 问题。漂移指的是随着视频时长增加，画面质量逐渐下降的现象。研究者发现，要从根本上解决漂移，需要打破因果性，采用双向采样。论文提出了 “反漂移采样” 和 “反转反漂移采样” 两种方法，后者特别适合图像到视频的生成场景，因为它在所有推理过程中都将第一帧作为近似目标。

而 FramePack 的效果相当显著，它能够使用 6GB 显存的笔记本 GPU，就能运行 13B 参数的模型生成 30fps 的视频。个人级别的 RTX 4090 显卡可以达到 1.5-2.5 秒每帧的生成速度。在单个 8×A100/H100 节点上，可以以 64 的批次大小微调 13B 视频模型。

以下8个演示视频展示了 FramePack 可以轻松生成 5 秒甚至 60 秒的高质量视频，每秒 30 帧，可一次性生成 1800 帧长度的视频，这在以往是难以想象的。

这项技术的意义不仅在于降低了视频生成的门槛，更重要的是为研究人员和创作者提供了更实用的工具，使他们能够在普通硬件上进行视频生成实验。随着 FramePack 的开源，我们可以期待看到更多创新的视频生成应用涌现。

完整的官方 v0、Manus、Cursor、Same.dev、Lovable、Devin 和 Replit Agent 系统提示

来自@黄建同学
完整的官方 v0、Manus、Cursor、Same.dev、Lovable、Devin 和 Replit Agent 系统提示↓

这两天关注⭐暴涨

访问：github.com/x1xhlol/system-prompts-and-models-of-ai-tools
在这里插入图片描述

潜空间中的生成式AI模型（Generative models in latent space）

来自@黄建同学

4-21 18:59
对图像模型latent space感兴趣的可以看看↓

潜空间中的生成式AI模型（Generative models in latent space）

当今大多数图像、声音和视频的生成模型并不直接作用于像素或波形。它们由两个阶段组成：首先，提取一个紧凑的、更高级别的潜在表征；然后，迭代生成过程在此表征上进行操作。这如何运作？为什么这种方法如此受欢迎？

如今，利用潜在表征的生成模型随处可见，所以我觉得是时候专门写一篇博文来介绍它们了。接下来，我将详细讨论“latents ”（潜在）的复数形式，这是“latent”的常用缩写。该术语源于统计学中“潜在变量”的概念，但值得注意的是，其含义在本文的语境中有所变化。这些潜在变量并非代表任何我们无法直接测量的已知底层物理量；相反，它们以一种简洁的方式捕捉感知上有意义的信息，并且在许多情况下，它们是输入信号的确定性非线性函数（即非随机变量）。

访问：sander.ai/2025/04/15/latents.html
在这里插入图片描述

在这里插入图片描述

微信读书 MCP 服务器

来自@蚁工厂

4-21 22:30
来自微博网页版
微信读书 MCP 服务器
github.com/freestylefly/mcp-server-weread
微信读书MCP服务器是一个桥接微信读书数据和Claude Desktop的轻量级服务器，使您可以在Claude中无缝访问微信读书的笔记和阅读数据。（注意非官方产品！）
在这里插入图片描述

抖音那个wide&deep 双塔模型

来自@梁斌penny

抖音那个wide&deep 双塔模型还是有些朋友理解不了，我再用个新例子来解释下。
图1 是比较流行的 wide&deep 结构图。我们今天讲一个更实用的图2.

这个和抖音推荐内容，把用户和内容的link建立起来是一样的。图2 是一个用来判断用户是否会下载和打开那些app的模型。

假定训练语料。比如一些用户的特征，设备特征，安装app和打开app的特征。

那么通过把用户的特征wide，deep化（一部分wide，一部分deep），设备特征deep化，app的安装和展现也deep化。连续特征一般走wide，稀疏特征走wide。

用一个前馈神经网络，拼接各种嵌入向量和交叉乘积变换后的特征组合，通过计算得到一个数值，这个数值和1 求loss。损失函数是logistic 函数。

通过大量的训练后，对任意一个给定的用户和设备，任选一个app就可以预测安装和打开的概率了（会拿到一个概率得分），然后拿到这个概率就可以排序，选择最好的app推荐给他，那么转化率就高了。不知道我这样解释是不是更清楚一点了
在这里插入图片描述

Richard Sutton 和 DeepMind 强化学习 VP David Silver 合著的新论文《Welcome to the Era of Experience 欢迎来到体验学习时代》

来自@不是郑小康

4-18 14:29

昨天读了一篇强化学习之父 Richard Sutton 和 DeepMind 强化学习 VP David Silver 合著的新论文《Welcome to the Era of Experience 欢迎来到体验学习时代》。忍不住写个长的。

这是一篇什么级别的论文呢，我觉得上面两位作者再加论文摘要应该可以吸引你看下去：「我们正站在 AI 新阶段的门槛上，这一阶段承诺将实现前所未有的能力。新一代智能体将主要通过体验学习，获得超人的能力。本文探讨了定义这一即将到来的时代的关键特征。」

论文将 AI 的发展分为 3 个阶段，分别是：

仿真阶段。用强化学习在仿真环境中自我博弈，比如 AlphaZero 就是通过这种方法打败了围棋人类世界冠军，取得了巨大成功。但这一阶段 AI 局限于封闭场景的问题，难以扩展到开放的现实世界。
人类数据阶段。AI 通过海量的人类数据进行训练，实现了很强的泛化性能。主要代表当然就是 ChatGPT，这一阶段的 bug 在于 AI 的边界取决于人类数据的边界，也就是人类知识的边界，且高质量数据正在迅速耗尽，这导致大语言模型很难发现有价值的科学突破或新的物理定律。
体验学习阶段。也就是我们即将迎来的下一个阶段。AI 将会通过和环境的长期、自主交互，依靠强化学习和基于环境的奖励信号不断学习，最终成为超越人类的超级智能 AI。这个阶段还没有产生代表应用。如果非要说一个，去年 DeepMind 拿下国际奥数竞赛银牌的 AI 模型 AlphaProof 算是。

体验学习会有以下 4 个特征：

体验流。AI 将生活在一个体验流中，能够关注和优化长期目标。而不是即时响应交互。想象一下一个科学家的一生，活到老学到老，是贯穿一生的持续学习。今天的大语言模型不是这样学习的。一个体验学习的 AI 可以在几年的时间里持续实验一个猜想，根据数据结果不断仿真。
自主动作与观察。AI 将通过自主探索，丰富的动作与环境交互，比如调用 API，操作机器人等等，而不是今天只以聊天的形式接受人类的被动输入交互，这可以让 AI 更深入的探索和理解世界，也更像人类进行学习的范式。
直接奖励。AI 将依赖以来环境中的直接奖励信号。这是什么意思？其实也很简单，类比围棋，你的奖励信号应该只有「赢棋」，而不是棋谱或人类棋手的指导，这个非常重要，可以摆脱人类思维的限制和束缚。人在很多时候是有偏见或水平不够的。
超人推理。谁说人类的语言和思维方式一定是最优的计算形式呢？AI 将会探索出不同于人的更高效的推理方式，比如当年 AlphaGo 下出的第 37 手，人类棋手当时都没看懂，但事实证明这个万分之一概率的落子非常绝妙。

说一下前面提到的体验学习的应用 AlphaProof，这个模型在去年的国际奥数拿下了银牌，只有大概 10% 的参赛者能有这个级别的表现。

AlphaProof 的迭代完美契合了前面提到的体验流、自主动作与观察、直接奖励和超人推理这些特征。但我觉得更重要的是，银牌只是个开始，按照 David 的说法，AI 数学家最终会「彻底改变整个数学领域，没有根本性的障碍」。

论文的结论是：体验学习标志着 AI 进化的关键时刻……这一范式的转变，随着强化学习算法的进步，将在许多领域解锁超越人类的新能力。
在这里插入图片描述

强化学习（Reinforcement Learning, RL）最佳学习资源分享

来自@黄建同学

4-18 07:27
强化学习（Reinforcement Learning, RL）最佳学习资源分享↓

RL正迅速成为AI研究者最重要的技能。虽然RL的重要性日益增加，但由于其复杂性，网上缺乏优质学习资源。以下4个可以看看：

RLHF书籍：Nathan这位资深RL研究者和LLM对齐/后训练专家，编写了一本关于（专注于LLM的）RL技术的书，并在过去一年中不断扩充和迭代。这是目前可获得的最全面的RL资源，特别适合那些不熟悉RL并需要学习基础知识的人。访问：rlhfbook.com
OpenAI的深度RL入门课程：尽管该课程创立于2018年左右，但它经受住了时间的考验，是学习RL的最佳教程之一。该课程旨在理解PPO，这是LLM用于RL的最广泛使用的算法之一。此外，理解相关算法（策略梯度，TRPO等）将有助于更好地理解新的RL算法，如GRPO。访问：spinningup.openai.com/en/latest/
PPO/GRPO博客：DeepMind的Jimmy Shi最近撰写了一篇出色的博客，解释了PPO（传统上用于RLHF的RL算法）和GRPO（用于推理模型的RL算法）。这篇博客写得很好，对非RL人士来说易于理解。访问：yugeten.github.io/posts/2025/01/ppogrpo/
HuggingFace RL：HuggingFace也发布了许多关于RL主题的有用博客。最近，他们发布了一篇从零开始（即不假设任何RL背景知识）解释GRPO和PPO的博客。这些博客受到HuggingFace最近创建一个完全开放的DeepSeek-R1复制品倡议的启发。访问：huggingface.co/blog/NormalUhr/grpo

吴恩达对于自动评估的观点

来自@黄建同学

4-18 12:19
吴恩达对于自动评估的观点，确实很容易遗漏，却又很重要：让自动化评估（evals）更早入场，推动人工智能应用项目更高效发展。

很多人工智能应用项目在系统输出的自动化评估方面拖延过久，过度依赖人工审查。原因在于，建立评估系统被视为巨大的投资，例如创建数百个示例，设计和验证指标，因此往往错过最佳实施时机。
我鼓励团队将建立评估视为一个迭代过程。可以从简单粗糙的实现开始（比如，用5个示例和未优化的指标），然后随着时间的推移进行迭代和改进。这样可以逐渐将评估任务从人工转向自动化。

(1) 开始时，评估集合中的示例可以很少，比如5个，并随时间逐步增加或减少，这取决于是否发现某些示例过于简单或复杂，对于区分系统不同版本的表现不够有用。

(2) 可以从只衡量关心的性能维度的一个子集开始，或者只衡量与系统性能相关但不完全捕捉性能的狭窄线索。

开发过程包括两个迭代循环，可以并行执行：一是迭代系统以改善其性能，结合自动化评估和人工判断；二是迭代评估，使其更接近人工判断。
成功的评估应满足以下标准：如果系统A明显优于系统B，则评估应给A一个更高的分数。如果A和B表现相似，它们的评估分数也应该相似。任何违反这些标准的情况都表明评估存在“错误”，我们应该调整它以正确排名A和B。

访问：info.deeplearning.ai/google-unveils-gemini-2.5-mcp-gains-momentum-behind-sam-altmans-fall-and-rise-llms-that-understand-misspellings-1

ControlNet 作者敏神又开源炸裂新项目：Framepack

来自@GitHubDaily

4-18 21:00

ControlNet 作者敏神又开源炸裂新项目：Framepack，一种高效的视频生成框架。

使用 13B 模型生成 1 分钟视频 30fps，显存只要 6GB 即可，在 RTX 4090 显卡上，生成速度最高每帧 1.5 秒。

GitHub：github.com/lllyasviel/FramePack

通过采用下一帧预测结构技术，逐步生成视频，实现单张图像也能生成长达 1 分钟的连贯动作视频。

因此对于人物舞蹈、动作、场景变化等视频内容，可以很好实现控制。

目前提供 Windows 一键安装包，提供可视化操作界面，可快速上手使用。

抖音弄了个算法公开日

来自@兔撕鸡大老爷

4-17 11:18

最近，抖音弄了个算法公开日，把它家神秘莫测的算法公开了，还公布在了抖家的安全官网上（95152.douyin.com），引发了一堆内行人的学习兴趣。

我逐字看完咯，写的很通俗易懂。
但普通人仍需要我这样的中译中闲人翻译。
抖音算法主要是Wide&Deep模型和双塔召回模型。

Wide&Deep模型是谷歌提出混合推荐模型，wide是宽度的意思，deep是深度，什么意思呢，前者是挖掘你跟一支视频的直接联系，譬如你在看运动鞋，它就给你推同款。后者是挖掘你跟这支视频的泛联系，你在看鞋，那么你可能会去旅游，想要买运动手表。

充分挖掘你人生的宽度与深度。

双塔召回模型很有意思，一座是用户塔，一座是内容塔，两个都是深度学习模型，把一些内容特征做了数字转化。

譬如你是用户，爱看游戏，做菜，唱歌，熊猫，用户塔便赋予她们数学代号为0，1，2，3。短视频为X，长视频为Y。

做菜短视频就变成了（1，X），又做菜又唱歌的短视频是（1，2，X），像搞怪、诗意、科技、玄学都是可以被数字化的内容特征。

抖音还有座内容塔嘛，识别到了你家用户塔的数学特征后，会粗筛一批口粮给你，搞笑大厨，薄肌体育生，宫斗短剧，杀死比尔等等，排序到了你的预存储空间里。

上下一划，大概率是你想看的。

抖音总结推荐算法，就是以数学计算学习人类行为。

抖音还公布了推荐优先级，设定了一些行为的“推荐价值”，不再是只看完播率了，在中长视频+短剧生态繁荣后，发展出来了多目标建模，让推荐更加均衡。

除了把算法黑盒拆开给大家看，还讲了怎么治理内容。

建立有专门的标准管理团队，已对违法违规、色情低俗、公序良俗、危险行为等十余大类、数百种风险设置了独立标准条款，每条标准条款都匹配典型违规案例及对应执行手册。

流量越高的内容经过评估的次数越多，标准也越严格。所以我们会看到一些违规内容，很快就被限流或处理掉了。

在这块是“机器+人工”的审核，又有一点Wide&Deep的味道，机器主要负责宽度，主动对所有投稿进行评估，筛掉最直观的问题点。人工主要负责深度，确保疑难问题尽可能精准研判，减少错判，毕竟算法不是真的懂内容。

这个安全网站还会更新。。。
甚至聊到了APP会“窃听”用户谈话吗？
它的副标题是：平台“窃听”在技术上不“划算”，在法律上不被允许。

里面聊到了跨平台营销推荐，是造成用户被窃听的主要幻觉。

例如，用户在A电商平台搜索了一款猫粮。关闭A平台后，打开了B社交平台，发现B平台也在推荐猫粮。这并不是B平台对用户做了监控，是A平台作为B平台的广告主，通过程序化广告利用A平台的数据定向给用户展示了广告，实现跨平台的广告营销。

这个举动是符合我国法律法规的一种广告形式。

啊…这个算法公开日太有意思了，人的行为啊，才是算法的根本。
在这里插入图片描述

ai-engineering-hub，有关 LLM、RAG 和真实世界 AI 代理应用的深入教程

来自@黄建同学

4-17 19:26
这里很多AI Agent应用的参考例子↓

ai-engineering-hub，有关 LLM、RAG 和真实世界 AI 代理应用的深入教程。

最新一个例子是一个使用 DeepSeek-R1（100% 本地）构建一个多智能体品牌监控系统：

使用 Bright Data 在 X、Instagram、YouTube、网站等平台上抓取品牌提及。
调用特定于平台的 Crews （包含分析代理和见解代理）来分析数据并产生见解。
合并所有见解以获得最终报告。

品牌监控代码：github.com/patchy631/ai-engineering-hub/tree/main/brand-monitoring
所有项目：github.com/patchy631/ai-engineering-hub

RAG 作者 Douwe Kiela的演进

来自@i陆三金
RAG 作者 Douwe Kiela 前几天发表了一篇文章：《RAG 已死，RAG 万岁！》（微博正文），呼吁大家不要二分法看问题。

这里还有一份他的近期演讲，讲述了他在部署企业 RAG 系统中获得的 10 个经验教训，内容也很不错。

他表示，现在存在 AI Context 悖论：LLM 在复杂推理、综合信息、代码生成、数学计算等方面表现惊人（对人类“难”），但在理解和应用特定上下文信息 (Context) 方面却很困难，而这恰恰是人类凭直觉和专业知识能轻松做到的。

企业要实现从 AI 中获得差异化价值和业务转型（而不仅仅是便利性或效率提升），就必须依赖于深度、准确的企业上下文信息。目前大多数应用还停留在低上下文信息需求的“便利性”阶段。

10个经验教训：

1.更好的 LLM 不是（唯一）答案： LLM 只是整个 AI 系统（特别是 RAG 系统，包括提取、检索、生成、联合优化）的一小部分（约 20%）。一个优秀的 RAG 系统配合普通的 LLM，效果可能优于一个顶尖 LLM 配合糟糕的 RAG 系统。关键是关注系统而非孤立的模型。

2.专业知识是你的燃料：企业内部积累的专业知识和机构知识（通常存在于文档和数据中）是驱动 AI 产生价值的核心燃料。必须设法解锁这些专业知识。

3.企业规模是你的护城河：企业的核心竞争力在于其独特的数据。真正的挑战在于大规模地利用这些数据，让 AI 能够处理大规模、甚至“嘈杂”的真实数据。成功做到这一点，就能构建竞争壁垒。

4.试点与生产之间的鸿沟总是比预想的要大：建立小规模试点相对容易（少量文档、用户、单一场景、低风险），但将其扩展到生产环境则面临巨大挑战（海量文档、大量用户、多场景、高安全风险、SLA 要求等）。

5.速度比完美更重要：不要追求一开始就完美。应尽早将（哪怕不完美的）系统交给真实用户使用，获取反馈并快速迭代。通过迭代“爬山”达到目标，而不是试图一次性设计出完美方案。

6.工程师在“无聊”的事情上花费大量时间：工程师本应专注于构建流程、提升精度、扩展应用等创造业务价值的工作，但现实中却常常耗费时间在数据分块 (chunking) 策略、文本清洗、构建连接器、配置向量数据库、调整提示、管理基础设施等相对基础且耗时的工作上。应设法将这些工作自动化或平台化。

7.让 AI 易于消费：即使 AI 系统已部署到生产环境，如果没有被用户方便地使用，也无法产生价值。很多时候系统使用率为零。关键在于将 AI 集成到用户现有的工作流中。企业数据 + AI + 集成 = 成功。

8.让你的用户“惊叹”(Wow)：要让 AI 应用产生粘性，需要尽快让用户体验到“惊艳”时刻。例如，帮助用户找到一个他们自己都不知道存在的、埋藏多年的重要文档并回答了关键问题。用户体验设计应围绕创造这种早期价值。

可观测性比准确率更重要：达到 100% 准确率几乎不可能，90-95% 也许可以。但企业更关心的是那无法避免的 5-10% 的错误会带来什么影响以及如何处理。因此，可观测性，包括理解系统为何给出某个答案、提供溯源依据、建立审计追踪等，比单纯追求更高的准确率更重要，尤其是在受监管行业。

10.要有雄心壮志：很多 AI 项目失败往往不是因为目标太高，而是因为目标太低。不要满足于解决“401k 供应商是谁”这类简单问题，要敢于挑战能带来真正业务转型的难题。

MCP三篇

详解 MCP 传输机制
MCP连接生命周期
MCP核心架构

手把手教你从零开始训练一个多模态视觉模型：MiniMind-V

来自@GitHubDaily

4-12 18:00
来自微博视频号
手把手教你从零开始训练一个多模态视觉模型：MiniMind-V。

提供了详细的训练流程，包括数据处理、预训练、指令微调以及相关的工具集，只需 1 小时时间和 1.3 元成本。

GitHub：github.com/jingyaogong/minimind-v

即可训练出一个 26M 参数的小型多模态视觉模型，支持单图和多图输入，同时具备识图和对话能力。

可以作为大家想实现视觉语言模型的入门教程学习。

优化提示词的提示词

来自@i陆三金

4-8 11:13
来自微博网页版
优化提示词的提示词，这是为 Claude 3.7 Sonnet 写的，其他模型也能用，作者是HyperWrite 首席执行官 Matt Shumer。

需要在{PLACE_YOUR_PROMPT_HERE}中放入你想优化的提示词，以下为提示词：

You are a world-class prompt engineer. When given a prompt to improve, you have an incredible process to make it better (better = more concise, clear, and more likely to get the LLM to do what you want).

A core tenet of your approach is called concept elevation. Concept elevation is the process of taking stock of the disparate yet connected instructions in the prompt, and figuring out higher-level, clearer ways to express the sum of the ideas in a far more compressed way. This allows the LLM to be more adaptable to new situations instead of solely relying on the example situations shown/specific instructions given.

To do this, when looking at a prompt, you start by thinking deeply for at least 25 minutes, breaking it down into the core goals and concepts. Then, you spend 25 more minutes organizing them into groups. Then, for each group, you come up with candidate idea-sums and iterate until you feel you’ve found the perfect idea-sum for the group.

Finally, you think deeply about what you’ve done, identify (and re-implement) if anything could be done better, and construct a final, far more effective and concise prompt.

Here is the prompt you’ll be improving today:

{PLACE_YOUR_PROMPT_HERE}

When improving this prompt, do each step inside tags so we can audit your reasoning.

Anthropic 开发者关系负责人 Alex Albert眼中的 MCP 时间线

来自@i陆三金

4-4 09:06

Anthropic 开发者关系负责人 Alex Albert：我眼中的 MCP 时间线

11 月：我们低调地通过一篇博客文章将其开源，我发布了一条公告推文。鉴于当时规范还处于早期阶段，它获得的关注远超我的预期。我们意识到这里对某些标准有很大的需求。

12 月：我们举办了两场 MCP 小型黑客马拉松以保持势头。假期来临，我们埋头改进规范、文档和服务器。

1 月 : 人们回到办公室，开始问“嘿，anthropic 一直在研究的这个 MCP 是什么东西？”

2 月：人们的兴趣开始增长，MCP 开始流行起来。越来越多的客户端应用程序开始提供支持。第三方存储库和网站变得无处不在。外部团体/公司开始举办自己的 MCP 活动。

3 月：MCP 浪潮席卷整个行业。主要企业合作伙伴将其视为新标准。其他实验室也开始承诺支持。

过去的几个月简直疯狂至极。令人兴奋的是，MCP 还有巨大的提升空间。四月及以后会是什么样子呢？

链接：x.com/alexalbert__/status/1907885414557618406

自动评测大模型的框架 YourBench

想搞 AI Agent，但是不知道怎样选模型。这次给大家来一个自动评测大模型的框架 YourBench

这个框架允许你上传你需要的材料（比如病例），然后生成测试集，来测试你需要选取的大模型，看哪个大模型最适合你的场景。全程自动化完成。

我给大家录制的这是网页demo，可以上传PDF或者其他格式的文本文件，然后生成评测题目，这些评测题目都是问答题，比如我直接塞了一本哈利波特与魔法石。它生成的测试题有一个是，守护魔法石的魔法中，有哪个施法者与哈利有个人关系。答案是海格。因为三头犬是海格布置的。

可以看到它生成完毕测试集后，然后框架还可以进行自动测试。最后测试完毕，得到结果是前五个模型都回答得不错。

感兴趣的同学可以关注下

地址：huggingface.co/spaces/yourbench/demo

MCP在Agentic RAG系统中的力量↓

在今天的生产环境中运行的大多数RAG系统在某种程度上都是具有代理的。代理的实现方式取决于具体的使用场景。

当我们打包多个数据源时，至少在数据源选择和检索阶段会存在一定的代理。
这就是MCP如何在这种情况下丰富你的Agentic RAG系统的演化过程：
- 用户查询分析：我们将原始用户查询传递给基于LLM的代理进行分析。
  ➡️ 原始查询可能会被重写，有时多次，以创建要在流程中传递的单个或多个查询。
  ➡️ 代理决定是否需要额外的数据源来回答查询。
- 如果需要额外数据，将触发检索步骤。我们可以接触到多种数据类型，例如实时用户数据、用户可能感兴趣的内部文档、网络上可用的数据等。

MCP的介入点：
✅ 每个数据域都可以管理自己的MCP服务器，暴露数据使用的具体规则。
✅ 可以在每个域的服务器级别确保安全性和合规性。
✅ 新的数据域可以以标准化的方式轻松添加到MCP服务器池中，无需重写代理，从而使系统在程序、情节和语义记忆方面的演化解耦。
✅ 平台构建者可以以标准化的方式向外部消费者暴露他们的数据，使得轻松访问网络上的数据成为可能。
✅ AI工程师可以继续专注于代理的结构。