昇腾首发支持,阶跃星辰 “改图大师” Step1X-Edit开源并上线魔乐社区

article/2025/8/22 14:31:33

4月27日,阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit ,性能达到开源 SOTA 。该模型总参数量为19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持11类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
 

一句话总结:Step1X-Edit,不只能“改图”,更能“听得懂、改得准、保得住”


昇腾首发支持该模型,开箱即用。该模型已上线魔乐社区,欢迎下载体验!

🔗模型链接:
https://modelers.cn/models/StepFun/Step1X-Edit-npu

01 模型介绍

Step1X-Edit 首次在开源体系中实现 MLLM 与 DiT 的深度融合,在编辑精度与图像保真度上实现大幅提升。在最新发布的图像编辑基准 GEdit-Bench 中,Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型,比肩 GPT-4o 与 Gemini 2.0 Flash。

Step1X-Edit 针对自然语言图像编辑任务,具备以下核心能力:

语义精准解析

支持自然语言描述的复杂组合指令,指令无需模板,能够灵活应对多轮、多任务编辑需求,同时支持对图像中文字进行识别、替换与重构;

身份一致性保持

编辑后能稳定保留人脸、姿态与身份特征,适用于虚拟人、电商模特、社交图像等高一致性场景;

高精度区域级控制

支持对指定区域进行文字、材质、色彩等定向编辑,保持图像风格统一,控制能力更精细。

Image

编辑任务效果对比:Step1X-Edit 实现最佳编辑效果与原图一致性

Step1X-Edit 采用 MLLM(Multimodal LLM)+ Diffusion 的解耦式架构,分别负责自然语言理解与高保真图像生成,相比现有图像编辑模型,该架构在指令泛化能力与图像可控性上更具优势。

为了支持广泛、复杂的图像编辑任务,Step1X-Edit 构建了业内规模领先的图像编辑训练数据集,共生成 2000 万条图文指令三元组,最终保留超过 100 万高质量样本。数据覆盖 11 类核心任务类型,包括文字替换、动作生成、风格迁移、背景调整等高频需求,任务类型分布均衡,指令语言自然真实。

接下来,让我们来体验一下模型的强大效果。

案例一:一句话P图

提示词:给小姐姐脖子上增加一条适合她的项链

原图编辑后

Image

案例二:物体/背景/材质,统统都能换

提示词:将月饼替换为包子

原图编辑后

Image

Image

案例三:玩转不同风格

提示词:以融合超现实主义、表现主义和天真艺术的风格重绘这幅图片,以近乎民俗的方式捕捉抽象人类情感和互动的简单性和复杂性。原始而有机的感觉,以孩子般的方式勾勒主体轮廓。采用原生艺术风格,使用对比和分层来创造混乱但有凝聚力的视觉冲击。俏皮地使用线条和颜色,主体元素既简单又富有象征意义。

原图编辑后

Image

Image

接下来,手把手教你基于昇腾部署Step1X-Edit。

02 准备环境

1. 获取CANN安装包&环境准备

版本支持列表

软件包

版本

CANN

8.0.0

PTA

6.0.0

HDK

24.1.0

pytorch

2.3.1

Python

3.11

2. Pytorch & CANN安装

•Pytorch & Ascend Extension for PyTorch安装(https://www.hiascend.com/document/detail/zh/Pytorch/600/configandinstg/instg/insg_0001.html)》 以下是python3.11,pytorch2.3.1,PTA插件版本6.0.0,系统架构是AArch64,CANN版本是8.0.0的安装信息:

# 下载PyTorch安装包wget https://download.pytorch.org/whl/cpu/torch-2.3.1-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl# 下载torch_npu插件包wget https://gitee.com/ascend/pytorch/releases/download/v6.0.0-pytorch2.3.1/torch_npu-2.3.1.post4-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl# 安装命令pip3 install torch-2.3.1-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whlpip3 install torch_npu-2.3.1.post4-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl

•软件包下载Atlas 800I A2:

https://www.hiascend.com/developer/download/commercial/result?module=cann 

•CANN包安装:

https://www.hiascend.com/document/detail/zh/canncommercial/800/softwareinst/instg/instg_0000.html?Mode=PmIns&OS=Ubuntu&Software=cannToolKit 以下是CANN包中需要安装的run包信息:

# 增加软件包可执行权限,{version}表示软件版本号,{arch}表示CPU架构,{soc}表示昇腾AI处理器的版本。chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.runchmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run# 校验软件包安装文件的一致性和完整性./Ascend-cann-toolkit_{version}_linux-{arch}.run --check./Ascend-cann-kernels-{soc}_{version}_linux.run --check# 安装./Ascend-cann-toolkit_{version}_linux-{arch}.run --install./Ascend-cann-kernels-{soc}_{version}_linux.run --install # 设置环境变量source /usr/local/Ascend/ascend-toolkit/set_env.sh

3. 安装依赖包

由于NPU下当前对Triton的inductor后端支持并不完备,请注释requirements.txt中的liger_kernel依赖信息,具体如下:

liger_kernel -> # liger_kernel

然后执行如下命令安装依赖:

pip install -r requirements.txt

注意:NPU上有单独的flash_attn算子实现,可以不用安装。

2.2 硬件要求

部署Qwen2.5-VL-32B-Instruct模型至少需要1台Atlas 800I A2(8*32G)。

03 下载模型

从魔乐社区或者HuggingFace下载模型权重。

魔乐社区(享加速下载):

https://modelers.cn/models/Modelers_Park/Step1X-Edit

Huggingface:https://huggingface.co/stepfun-ai/Step1X-Edit/tree/main

04 执行推理

获取Step1X-Edit的源码:

  git clone https://modelers.cn/StepFun/Step1X-Edit-npu.git

修改scripts/run_examples.sh种的model_path参数的值为模型下载的路径。

执行如下命令进行推理:

bash scripts/run_examples.sh

执行成功后,会在当前目录下生成2个文件夹,分别是output_cn和output_en.对应examples目录下2种prompt(中文和英文)。结果如下: 

Image

Prompt(中文):给这个女生的脖子上戴一个带有红宝石的吊坠

Image

Prompt(英文):Change the outerwear to be made of top-grain calfskin

欢迎体验

欢迎大家下载体验Step1X-Edit,也欢迎广大开发者在模型评论区留言交流!


http://www.hkcw.cn/article/nMbsPMbHuE.shtml

相关文章

int和Integer的区别

Java是面向对象的语言,一切操作都以对象为基础,像集合里面也只支持存储Object类型数据,普通类型无法通过集合存储, 在Java中,int和Integer是两种不同的类型,它们有以下主要区别: 一、类型分类…

Oracle/openGauss中,DATE/TIMESTAMP与数字日期/字符日期比较

ORACLE 运行环境 openGauss 运行环境 0、前置知识 ORACLE:DUMP()函数用于返回指定表达式的数据类型、字节长度及内部存储表示的详细信息 SELECT DUMP(123) FROM DUAL; -- Typ2 Len3: 194,2,24 SELECT DUMP(123) FROM DUAL;-- Typ96 Len3: 49,50,51 -- ASCII值&am…

应用于公路路面破损状况检测的视觉系统

随着公路交通的日益发展,公路交通也是经济命脉,路面病害检测直接关系到交通安全,公路路面检测是养护管理的核心环节,及时识别裂缝、坑槽、车辙等病害,避免因路面损坏引发交通事故。 公路路面基病害检测系统是基于数字图…

ZeroSearch: 无需搜索即可激发LLM的搜索能力

论文地址:https://arxiv.org/abs/2505.04588v2 摘要 有效的的信息搜索对于增强大型语言模型 (LLM) 的推理和生成能力至关重要。 最近的研究探索了使用强化学习 (RL) 通过与现实世界环境中的实时搜索引擎交互来提高 LLM 的搜索能力。 虽然这些方法显示出可喜的结果&…

Linux实操篇-进程管理

目录 传送门前言一、进程管理概念二、进程管理实战1. **查看进程**ps 命令top 命令htop 命令 2. **进程的启动和终止**启动进程停止进程使用 pkill 或 killall 3. **进程优先级管理**nice 和 renice 命令top 中调整进程优先级 4. **进程的查看与控制**pgrep 命令pstree 命令str…

DAY 14 SHAP库的绘制

上面这个图就是一个比较直观的解释。机器学习模型一般都是一个黑盒。比如某个模型要进行一些预测任务,首先对模型输入一些已知条件(Age65,SexF,BP180,BMI40),然后模型根据输入进行训练,最终训练完的模型可以对该条件输…

如何避免客户频繁更换对接人

避免客户频繁更换对接人的关键措施包括建立稳定的客户关系、提高客户对接人的专业素养、建立高效的沟通机制、增强客户满意度等。其中,建立稳定的客户关系是避免客户频繁更换对接人的核心,只有当客户信任你的对接人并认可其专业性,才会持续稳…

5.29打卡

浙大疏锦行 DAY 38 Dataset和Dataloader类 知识点回顾: 1. Dataset类的__getitem__和__len__方法(本质是python的特殊方法) 2. Dataloader类 3. minist手写数据集的了解 作业:了解下cifar数据集,尝试获取其中一张图…

【芯片设计中的交通网络革命:Crossbar与NoC架构的博弈C架构的博弈】

在芯片设计领域,总线架构如同城市交通网,决定了数据流的通行效率。随着AI芯片、车载芯片等复杂场景的爆发式增长,传统总线架构正面临前所未有的挑战。本文将深入解析两大主流互连架构——Crossbar与NoC的优劣,揭示芯片"交通网…

官方将调查小车坠桥事故车道设计 四车道突收窄引关注

官方将调查小车坠桥事故车道设计 四车道突收窄引关注!近日,广东东莞环莞快速路虎门段发生了一起严重的交通事故。5月19日,一名网友称其侄儿驾车经过该路段时,由于四车道突然收窄为三车道,车辆失控从高架冲出路面,造成车上5人伤亡。5月29日,广东虎门镇“519”事故工作专班…

中国航天史上最长任务开启 谁来接力“天问”?

5月29日,天问二号任务发射圆满成功,我国开启小行星探测与采样返回之旅。天问二号任务设计周期10年左右,如此长的任务周期,是否拉开了太空探索新的序幕?此次任务的“双目标探测”探什么?有多难?天问二号的十年之约对于我们的航天人才储备意味着什么?中国航天史上最长太空…

雪龙2号将面向公众开放:极地科考成果展示

5月28日,“雪龙2”号极地科考破冰船抵达海南海口,标志着中国第41次南极考察队顺利完成全部考察任务。“雪龙2”号计划近期举办公众开放日活动,这是该船首次抵琼并面向公众开放。“雪龙2”号于2024年11月1日从广州出发,历时208天,总航程超过4万海里。此次考察的最大亮点在于…

Kubernetes 中部署 kube-state-metrics 及 Prometheus 监控配置实战

文章目录 Kubernetes 中部署 kube-state-metrics 及 Prometheus 监控配置实战环境准备创建监控命名空间准备配置文件创建 ServiceAccount配置 RBAC 权限部署 kube-state-metrics部署node_exporter(可选)验证服务账号 TokenPrometheus 配置示例小结验证增加Grafana面板增加prome…

【大模型02】Deepseek使用和prompt工程

文章目录 DeepSeekDeepseek 的创新MLA (低秩近似) MOE 混合专家混合精度框架总结DeepSeek-V3 与 DeepSeek R1 DeepSeek 私有化部署算例市场: autoDLVllM 使用Ollma复习 API 调用deepseek-r1Prompt 提示词工程Prompt 实战设置API Keycot 示例p…

价格暴跌近50%!“榴莲自由”要来了?进口水果降价潮

对于水果爱好者来说,今年是个特别“甜蜜”的年份。从年初开始,车厘子、蓝莓等曾经价格较高的水果纷纷降价。最近,“水果之王”榴莲也大量上市了,价格持续下降,“榴莲自由”似乎近在眼前。初夏时节,菠萝蜜、山竹、荔枝、桃子等各种水果相继上市。在浙江,记者观察到榴莲的…

我国科学家揭示青藏高原“幽灵祖先”遗传起源之谜

记者从中国科学院古脊椎动物与古人类研究所获悉,该研究所付巧妹研究团队和云南省文物考古研究所,联合四川大学、兰州大学、西北大学等机构,历经9年成功捕获和测序了来自17个遗址的127例距今7100年以来的云南古代人类基因组。该研究不仅填补了东亚和东南亚史前人群遗传数据的…

中央巡视组进驻后 “亚洲最大医院”原院长被查 医疗巨无霸掌门人落马

5月29日上午,河南省纪委监委通报了河南省政协人口资源环境委员会主任阚全程涉嫌严重违纪违法的消息。目前,他正接受纪律审查和监察调查。阚全程这个名字对很多人来说并不陌生。他曾担任河南省卫生健康委主任长达五年,并长期执掌郑州大学第一附属医院。在他的领导下,该医院启…

UniApp X:鸿蒙原生开发的机会与DCloud的崛起之路·优雅草卓伊凡

UniApp X:鸿蒙原生开发的机会与DCloud的崛起之路优雅草卓伊凡 有句话至少先说,混开框架中目前uniapp x是率先支持了鸿蒙next的开发的,这点来说 先进了很多,也懂得审时度势。 一、UniApp X如何支持鸿蒙原生应用? UniAp…

FreeRTOS---任务创建与删除

FreeRTOS—任务创建与删除 1 基本概念 在多任务系统里面,任务有以下三大要素: 做何事:函数栈和TCB优先级 对于每个任务我们得确定它做何事,这个可以通过函数去实现。每个任务需要设置不同的栈,同时还需要设置TCB结构…

梅花鹿遭野狗追逐坠落死亡 流浪狗围猎问题频发

梅花鹿遭野狗追逐坠落死亡 流浪狗围猎问题频发!近日,有网友称近一周来,辽宁大连有数只梅花鹿遭流浪狗撕咬死亡,还有梅花鹿在被狗群追逐时从高处坠落死亡。5月27日凌晨,一只母鹿遭狗群追逐从土墙上坠落摔伤,全身多处撕咬伤,后经抢救无效死亡。据大连野境自然保护中心介绍…