字节开源BAGEL可文生图、图像理解、图像编辑

article/2025/8/22 13:42:31

BAGEL是由字节跳动开源的通用多模态大模型,一个原生支持多模态输入输出 + 思维链推理 + MoE 架构优化的跨模态超级 AI。

话不多说,咱们今天来试着复现下。

1、下载代码,创建环境

git clone https://github.com/bytedance-seed/BAGEL.gitcd BAGELconda create -n bagel python=3.10conda activate bagel

2、安装环境

pip install -r requirements.txt

这时候报错了,如图

说没没有安装torch,好,那我先去官方安装torch。推荐安装2.5.1版本,因为环境文件中写着2.5.1版本。

安装好torch后再去安装requirements.txt中的各个包,这次顺利安装。

3、下载模型文件

from huggingface_hub import snapshot_downloadsave_dir = "/path/to/save/BAGEL-7B-MoT"repo_id = "ByteDance-Seed/BAGEL-7B-MoT"cache_dir = save_dir + "/cache"snapshot_download(cache_dir=cache_dir,  local_dir=save_dir,  repo_id=repo_id,  local_dir_use_symlinks=False,  resume_download=True,  allow_patterns=["*.json", "*.safetensors", "*.bin", "*.py", "*.md", "*.txt"],)

需要修改下第三行的安装路径。

如果无法访问huggingface的话可使用hf镜像

export HF_ENDPOINT=https://hf-mirror.com

下载速度还是很快的,但是就是模型文件太大了。

4、运行

下载完成后就可以试着跑下了

python app.py

报错了,看着是flash-attn

摸索了半天,直接降低版本就可以了。

pip install flash-attn==2.7.5

接着再跑下试试。又报错了,但是这次是显存不够,我的24G显存竟然带不起来,尴尬了

。但是应该环境是搭建的没问题的。

大家有大显存的话可以搭建下跑下试一下。

写了这么半天不是白写了,这不相当于没实现吗?

没关系,咱们来看看其他方法。试试comfyui版的能不能跑起来。

comfyui的安装参考 Ubuntu源码版comfyui的安装,也可直接安装win桌面版的。

5、安装节点

当然也可以手动安装。

git clone https://github.com/neverbiasu/ComfyUI-BAGEL

安装好后将上面下载好的模型文件复制到comfyui的models/bagel下面。

这个里面带了三个工作流,咱们可以下载下来导入试试。

重启comfyui。

导入工作流试下。咱们就用最近比较火的吉普力风格试下。

提示词 "change the style into Ghibli"

哈哈,灭霸一下子没霸气了


http://www.hkcw.cn/article/rYdfDxGrkU.shtml

相关文章

PaddleOCR本地部署 (Python+Flask)

查看配置: win10系统Python 3.9.13 NVIDIA GeForce RTX 3080 Ti 安装环境: 1)下载 CUDA Toolkit 12.6 2)安装 CUDA Toolkit 查看是否安装成功 nvcc --version3)安装 PaddlePaddle GPU 版本(配合 CU…

CSformer:结合通道独立性和混合的稳健多变量时间序列预测

原文地址:2312.06220 发表会议:AAAI 2025 代码地址:暂无 作者:王浩鑫 团队:四川大学 本博客内容主要介绍了此论文到底做了什么?以及我阅读中遇到的一些问题。 因为我本人就是时序预测方向的所以我直接借用AI助手对…

springcloud openfeign 请求报错 java.net.UnknownHostException:

现象 背景 项目内部服务之间使用openfeign通过eureka注册中心进行服务间调用,与外部通过http直接调用。外部调用某个业务方提供的接口需要证书校验,因对方未提供证书故设置了忽略证书校验代码如下 Configuration public class IgnoreHttpsSSLClient {B…

深度学习核心网络架构详解:从 CNN 到 LSTM

深度学习领域中,不同的网络架构适用于处理各种复杂的任务。本文将深入探讨几种必须掌握的核心网络架构,包括卷积神经网络 (CNN)、循环神经网络 (RNN) 及其变体长短时记忆网络 (LSTM) 和门控循环单元 (GRU),并结合具体案例和代码实现进行详细讲解。 一、卷积神经网络 (CNN) …

美国上诉法院暂时恢复实施特朗普政府关税政策

当地时间5月29日,美国联邦巡回上诉法院批准特朗普政府的请求,暂时搁置美国国际贸易法院此前做出的禁止执行特朗普政府依据《国际紧急经济权力法》对多国加征关税措施的行政令的裁决。联邦巡回上诉法院在裁决书中说,美国政府的请求已获批准,在本法院审议相关动议文件期间,美…

全球最大医院原院长涉嫌严重违纪违法 医疗界震动

全球最大医院原院长涉嫌严重违纪违法!今日,河南省纪委监委发布消息,河南省政协人口资源环境委员会主任阚全程因涉嫌严重违纪违法,正接受纪律审查和监察调查。此消息在医疗领域引发广泛关注。阚全程曾长期执掌“亚洲最大医院”郑大一附院,使得该事件备受瞩目。阚全程1963年…

“亚洲最大医院”原院长被查 医疗反腐再掀波澜

“亚洲最大医院”原院长被查 医疗反腐再掀波澜!河南省纪委监委今日发布消息,河南省政协人口资源环境委员会主任阚全程因涉嫌严重违纪违法,正接受纪律审查和监察调查。这一消息在医疗领域引起广泛关注。阚全程曾长期担任“亚洲最大医院”郑大一附院的院长,使得该事件更加引人…

设计模式:观察者模式 - 实战

一、观察者模式场景 1.1 什么是观察者模式? 观察者模式(Observer Pattern)观察者模式是一种行为型设计模式,用于定义一种一对多的依赖关系,当对象的状态发生变化时,所有依赖于它的对象都会自动收到通知并更…

首发!PPIO派欧云上线DeepSeek-R1-0528

今天凌晨,“小版本试升级”的 DeepSeek-R1-0528 在 Hugging Face 正式开源。 经 PPIO派欧云工程师测试,这个所谓的“小版本”更新在代码领域大幅增强,凭借简单朴素的提示词就能生成小游戏、图片、精美的网页,生成效果可媲美 Claud…

国务院任免21名干部 涉及多个重要职位调整

国务院任免21名干部 涉及多个重要职位调整!据人社部网站5月29日消息,国务院任免了21名国家工作人员。郭彩云(女)被任命为审计署副审计长,王军为海关总署副署长,蔡自力为国家税务总局副局长,邹晓东为国务院参事室主任,赵世通为国务院台湾事务办公室副主任,李长喜为国家…

【STM32开发板】电源设计(电压基准、滤波电容)

一、基准电压源 基准电压源是一种能提供稳定、精确、不随温度、负载、电源电压变化而波动的电压源。它广泛应用于电子电路中,尤其是在需要高精度和稳定性的场合,如模数转换(ADC)、 数模转换(DAC)、稳压电路…

男大学生正在批量减少:教育竞争中的性别差异显现

男大学生正在批量减少:教育竞争中的性别差异显现!毕业季即将来临,校园里随处可见穿着学位服的毕业生在草坪上拍照。她们对着镜头比出剪刀手,或是抱着鲜花和室友笑成一团。图书馆前台阶上,三五成群的学生捧着论文材料匆匆走过,教室里答辩结束的学生红着眼眶与导师拥抱。仔…

K8S StatefulSet 快速开始

其实这篇文章的梗概已经写了很久了,中间我小孩出生了,从此人间多了一份牵挂。抽出一些时间去办理新生儿相关手续。初为人父确实艰辛,就像学技术一样,都需要有极大的耐心,付出很多的时间。 一、引子 1.1、独立的存储 …

【笔记】suna部署之获取 Daytona API key 及 Daytona Sandbox 设置

#工作记录 Daytona 注册 Daytona 账户 访问Daytona 官方网站。点击注册按钮,按照提示填写相关信息完成注册。 获取 Daytona API 密钥 登录 Daytona 账户。进入账户设置页面,查找生成 API 密钥的选项,生成并复制 API 密钥,用于 S…

昇腾首发支持,阶跃星辰 “改图大师” Step1X-Edit开源并上线魔乐社区

4月27日,阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit ,性能达到开源 SOTA 。该模型总参数量为19B (7B MLLM 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持11类高频图像编辑任务类型&…

int和Integer的区别

Java是面向对象的语言,一切操作都以对象为基础,像集合里面也只支持存储Object类型数据,普通类型无法通过集合存储, 在Java中,int和Integer是两种不同的类型,它们有以下主要区别: 一、类型分类…

Oracle/openGauss中,DATE/TIMESTAMP与数字日期/字符日期比较

ORACLE 运行环境 openGauss 运行环境 0、前置知识 ORACLE:DUMP()函数用于返回指定表达式的数据类型、字节长度及内部存储表示的详细信息 SELECT DUMP(123) FROM DUAL; -- Typ2 Len3: 194,2,24 SELECT DUMP(123) FROM DUAL;-- Typ96 Len3: 49,50,51 -- ASCII值&am…

应用于公路路面破损状况检测的视觉系统

随着公路交通的日益发展,公路交通也是经济命脉,路面病害检测直接关系到交通安全,公路路面检测是养护管理的核心环节,及时识别裂缝、坑槽、车辙等病害,避免因路面损坏引发交通事故。 公路路面基病害检测系统是基于数字图…

ZeroSearch: 无需搜索即可激发LLM的搜索能力

论文地址:https://arxiv.org/abs/2505.04588v2 摘要 有效的的信息搜索对于增强大型语言模型 (LLM) 的推理和生成能力至关重要。 最近的研究探索了使用强化学习 (RL) 通过与现实世界环境中的实时搜索引擎交互来提高 LLM 的搜索能力。 虽然这些方法显示出可喜的结果&…

Linux实操篇-进程管理

目录 传送门前言一、进程管理概念二、进程管理实战1. **查看进程**ps 命令top 命令htop 命令 2. **进程的启动和终止**启动进程停止进程使用 pkill 或 killall 3. **进程优先级管理**nice 和 renice 命令top 中调整进程优先级 4. **进程的查看与控制**pgrep 命令pstree 命令str…