sglang0.4.3参数说明

article/2025/6/9 13:18:28

执行命令:

Python3 -m sglang.launch_server --model-path /mnt/data/models/DeepSeek-R1-Distill-Qwen-32B  --host 172.26.*.* --port 9300    --tp 4  --trust-remote-code    --served-model-name  qwen32b

运行结果

响应速度

参数说明

model_path: 模型文件所在的路径。

tokenizer_path: 分词器文件所在的路径。这里与模型路径相同。

tokenizer_mode: 分词器的加载模式,'auto'表示自动检测合适的分词器。

skip_tokenizer_init: 是否跳过分词器初始化,默认为False。

load_format: 加载模型的格式,'gguf'表示使用GGUF格式。

trust_remote_code: 是否信任远程代码,默认为False。这涉及到安全性和潜在风险。

dtype: 数据类型,'auto'表示自动选择合适的数据类型。

kv_cache_dtype: 键值缓存的数据类型,'auto'表示自动选择。

quantization: 量化策略,None表示不进行量化。

quantization_param_path: 量化的参数文件路径,未指定时为None。

context_length: 上下文长度,未指定时为None。

device: 设备类型,'cuda'表示使用GPU。

served_model_name: 服务中使用的模型名称,这里直接使用了模型路径作为名称。

chat_template: 聊天模板,未指定时为None。

is_embedding: 是否以嵌入模式运行,默认为False。

revision: 版本控制标识,未指定时为None。

host: 服务器监听的IP地址,这里是本地回环地址。

port: 服务器监听的端口号。

mem_fraction_static: 静态分配给进程的内存比例。

max_running_requests: 最大并发请求数,未指定时为None。

max_total_tokens: 最大总token数,未指定时为None。

chunked_prefill_size: 填充块大小。

max_prefill_tokens: 最大预填充token数。

schedule_policy: 调度策略,'fcfs'表示先来先服务。

schedule_conservativeness: 调度保守性程度。

cpu_offload_gb: CPU卸载的GB数。

tp_size: 张量并行度大小。

stream_interval: 流式输出间隔。

stream_output: 是否启用流式输出,默认为False。

random_seed: 随机种子,用于结果的可重复性。

constrained_json_whitespace_pattern: 约束JSON空白字符模式,未指定时为None。

watchdog_timeout: 监视器超时时间。

dist_timeout: 分布式超时设置,未指定时为None。

download_dir: 下载目录,未指定时为None。

base_gpu_id: 基础GPU ID。

gpu_id_step: GPU ID步长。

log_level: 日志级别,'info'表示信息级别日志。

log_level_http: HTTP请求的日志级别,未指定时为None。

log_requests: 是否记录请求,默认为False。

log_requests_level: 请求日志级别。

show_time_cost: 是否显示时间成本,默认为False。

enable_metrics: 是否启用指标收集,默认为False。

decode_log_interval: 解码日志间隔。

api_key: API密钥,未指定时为None。

file_storage_path: 文件存储路径。

enable_cache_report: 是否启用缓存报告,默认为False。

reasoning_parser: 推理解析器,未指定时为None。

dp_size: 数据并行度大小。

load_balance_method: 负载均衡方法,'round_robin'表示轮询方式。

ep_size: 专家并行度大小。

dist_init_addr: 分布式初始化地址,未指定时为None。

nnodes: 节点数量。

node_rank: 当前节点的排名。

json_model_override_args: JSON格式的模型覆盖参数,为空字符串表示没有覆盖。

lora_paths: LoRA路径集合,未指定时为None。

max_loras_per_batch: 每批次最大LoRA数。

lora_backend: LoRA后端,'triton'表示使用Triton。

attention_backend: 注意力机制后端,'flashinfer'表示使用FlashInfer。

sampling_backend: 抽样后端,'flashinfer'表示使用FlashInfer。

grammar_backend: 语法后端,'outlines'表示使用Outlines。

speculative_algorithm: 投机算法,未指定时为None。

speculative_draft_model_path: 投机草稿模型路径,未指定时为None。

speculative_num_steps: 投机步骤数。

speculative_eagle_topk: 投机TopK值。

speculative_num_draft_tokens: 投机草稿token数。

speculative_accept_threshold_single: 单一投机接受阈值。

speculative_accept_threshold_acc: 累积投机接受阈值。

speculative_token_map: 投机token映射,未指定时为None。

enable_double_sparsity: 是否启用双重稀疏性,默认为False。

ds_channel_config_path: 双重稀疏通道配置文件路径,未指定时为None。

ds_heavy_channel_num: 双重稀疏重型通道数。

ds_heavy_token_num: 双重稀疏重型token数。

ds_heavy_channel_type: 双重稀疏重型通道类型。

ds_sparse_decode_threshold: 双重稀疏解码阈值。

disable_radix_cache: 是否禁用基数缓存,默认为False。

disable_cuda_graph: 是否禁用CUDA图,默认为False。

disable_cuda_graph_padding: 是否禁用CUDA图填充,默认为False。

enable_nccl_nvls: 是否启用NCCL NVLS,默认为False。

disable_outlines_disk_cache: 是否禁用大纲磁盘缓存,默认为False。

disable_custom_all_reduce: 是否禁用自定义All Reduce,默认为False。

disable_mla: 是否禁用MLA,默认为False。

disable_overlap_schedule: 是否禁用重叠调度,默认为False。

enable_mixed_chunk: 是否启用混合块,默认为False。

enable_dp_attention: 是否启用数据并行注意力,默认为False。

enable_ep_moe: 是否启用专家并行Mixture of Experts,默认为False。

enable_torch_compile: 是否启用Torch编译,默认为False。

torch_compile_max_bs: Torch编译最大批量大小。

cuda_graph_max_bs: CUDA图最大批量大小。

cuda_graph_bs: CUDA图批量大小,未指定时为None。

torchao_config: TorchAO配置,为空字符串表示无特殊配置。

enable_nan_detection: 是否启用NaN检测,默认为False。

enable_p2p_check: 是否启用P2P检查,默认为False。

triton_attention_reduce_in_fp32: 是否在FP32中减少Triton注意力,默认为False。

triton_attention_num_kv_splits: Triton注意力KV分割数量。

num_continuous_decode_steps: 连续解码步骤数。

delete_ckpt_after_loading: 加载后是否删除checkpoint,默认为False。

enable_memory_saver: 是否启用内存节省,默认为False。

allow_auto_truncate: 是否允许自动截断,默认为False。

enable_custom_logit_processor: 是否启用自定义logit处理器,默认为False。

tool_call_parser: 工具调用解析器,未指定时为None。

enable_hierarchical_cache: 是否启用层次缓存,默认为False。

enable_flashinfer_mla: 是否启用FlashInfer MLA,默认为False。

flashinfer_mla_disable_ragged: 是否禁用FlashInfer MLA中的ragged,默认为False。

warmups: 预热次数,未指定时为None。

debug_tensor_dump_output_folder: 调试张量转储输出文件夹,未指定时为None。

debug_tensor_dump_input_file: 调试张量转储输入文件,未指定时为None。

debug_tensor_dump_inject: 是否注入调试张量转储,默认为False。


http://www.hkcw.cn/article/yBpYeJRfhJ.shtml

相关文章

DeepSeek-R1-0528,官方的端午节特别献礼

DeepSeek:端午安康!刻在国人骨子里的浪漫 2025 年 05 月 28 日 | DeepSeek 端午特别献礼 当粽叶飘香时,DeepSeek 悄然带来一份节日惊喜 版本号 DeepSeek-R1-0528 正式上线 官方赋予它的灵魂是: 思考更深 推理更强 用户通过官网…

莫雷加德说很荣幸成为樊振东队友 共同征战TTBL

当地时间5月31日,萨尔布吕肯乒乓球俱乐部宣布,乒乓球大满贯选手、巴黎奥运会乒乓球男单金牌得主樊振东将在下个赛季代表俱乐部参加德国乒乓球甲级联赛(TTBL)。目前效力于萨尔布吕肯俱乐部的乒乓球运动员、巴黎奥运会乒乓球男单银牌得主莫雷加德在社交媒体上表达了欢迎之情,…

人民日报:有车企说反内卷却打价格战 行业协会与工信部齐发声反对

中国汽车工业协会发布《关于维护公平竞争秩序,促进行业健康发展的倡议》,明确表示反对近期车企掀起的新一轮“价格战”。工信部也表态支持该倡议,强调“价格战”没有赢家。这一信号和态度有助于及时遏制无序的价格竞争。近年来,一些车企虽然口头上反对“内卷式”竞争,但实…

深入剖析Java类加载机制:双亲委派模型的突破与实战应用

引言:一个诡异的NoClassDefFoundError 某金融系统在迁移到微服务架构后,突然出现了一个诡异问题:在调用核心交易模块时,频繁抛出NoClassDefFoundError,但类明明存在于classpath中。经过排查,发现是由于不同…

在屈原的家乡端午节是什么样 三次端午持续近一月

端午节作为中国最古老的节日之一,其中以纪念屈原的习俗影响最为广泛。屈原出生于战国时期的湖北秭归,这里不仅保留着典型的屈原故里端午习俗,还有“端午比年大”的说法。在屈原的家乡湖北秭归乐平里,四面群山环抱,不远处是长江支流香溪河。据古籍记载,秭归“县北一百六十…

两条大鲵觅食迷路 警民接力救助 携手护送“水中熊猫”

5月29日10时许,湖北省襄阳市保康县的李先生和朋友在后坪镇五道峡附近的小河钓鱼时,意外发现了两条娃娃鱼。考虑到它们是野生保护动物,李先生立即报警求助。十分钟后,保康县公安局后坪派出所民警赶到现场。李先生激动地告诉民警:“我一看像是‘娃娃鱼’,就赶紧报了警,还是…

梨形身材是基因彩票 更长寿的体型密码

身材与健康息息相关,涉及体能、代谢和疾病风险等多个方面。科学家认为,“细腰肥臀”的梨型身材患代谢相关慢性病的风险较低,寿命更长。近日,“梨形身材是基因彩票”的话题在社交平台引发热议。研究发现,大腿粗、臀部大的“梨形身材”可能比肚子大的人长寿。《欧洲心脏杂志…

STL之vector

1 vector初识 1 动态扩展 并不是在原有的空间里面之后续接新的空间&#xff0c;而是找更到的空间&#xff0c;然后将原有的数据拷贝到新的空间&#xff0c;释放原有空间 vector容器的迭代器是支持随机访问的迭代器 2 功能描述和函数原型 //默认构造 vector<int> v1;f…

巴黎圣日耳曼5比0国际米兰 创造队史新篇章

当地时间5月31日晚,2024-2025赛季欧洲冠军联赛决赛在德国慕尼黑落幕。巴黎圣日耳曼以5比0战胜国际米兰,首次夺得欧冠奖杯,书写了队史新篇章。这是巴黎圣日耳曼第三次闯入欧冠决赛,前两次均未能夺冠。此次胜利使巴黎圣日耳曼实现了赛季三冠王的壮举,包括法甲、法国杯和欧冠…

《高级架构师》------- 考后感想

笔者来聊一下架构师考后的感想 复习备考 考前过了很多知识点&#xff0c;只是蜻蜓点水&#xff0c;没有起到复习的作用&#xff0c;即使考出来也不会&#xff0c;下次复习注意这个&#xff0c;复习到了&#xff0c;就记住&#xff0c;或者画出来&#xff0c;或者文件总结&…

Python实现P-PSO优化算法优化Catboost分类模型项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档&#xff09;&#xff0c;如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 随着机器学习技术的快速发展&#xff0c;分类问题在金融风控、医疗诊断、推荐系统等领域的重要性日益凸显。CatBoost…

中使馆驳斥马克龙将台湾类比乌克兰 本质区别不可比

当地时间5月31日,法国总统马克龙在香格里拉对话会上表示,如果允许俄罗斯不受约束地占领乌克兰的任何部分,那么台湾也可能面临类似情况。对此,中国驻新加坡大使馆在社交平台脸书上回应称,将台湾问题与乌克兰问题相提并论是不可接受的。中国驻新加坡大使馆指出,台湾问题与乌…

步行者时隔25年第2次总决赛战雷霆 决战在即

北京时间6月1日上午,NBA东部决赛进行了第6场比赛,印第安纳步行者在主场以125比108击败纽约尼克斯,最终以4比2的大比分晋级NBA总决赛。他们的对手将是雷霆队。这是步行者自1999-2000赛季以来首次闯入NBA总决赛。比赛过程中,上半场双方比分紧咬。第三节比赛中,步行者逐渐发力…

如何解读印度宣布将自研隐形战斗机 挑战与前景

印度国防部宣布启动国产隐形战斗机的研制项目,标志着印度在自研和进口隐形战斗机之间做出了选择。隐形战斗机的研制难度极大,全球仅有少数国家具备此能力。外界对印度是否具备自主研发隐形战斗机的能力表示关注。印度防长辛格批准了一项建造先进中型隐形战斗机(AMCA)的框架…

姆巴佩祝贺巴黎夺冠 荣光属于整个俱乐部

北京时间6月1日凌晨,2024-2025赛季欧冠决赛落幕。巴黎圣日耳曼在最终决战中表现出色,上半场杜埃一传一射帮助球队以2-0领先,下半场杜埃完成梅开二度,科瓦拉茨赫利亚单刀扩大比分,马尤卢锁定胜局,最终巴黎圣日耳曼以5-0战胜国际米兰,首次夺得欧冠奖杯。赛后姆巴佩发文祝贺…

巴黎夺得欧冠冠军 创决赛最大分差纪录

北京时间6月1日,欧冠决赛在安联球场举行,巴黎圣日耳曼对阵国际米兰。上半场阿什拉夫破门,19岁的杜埃贡献一传一射。下半场杜埃再入一球,克瓦拉茨赫利亚锁定胜局,马尤卢替补登场后也取得进球,登贝莱则送出两次助攻。最终,巴黎圣日耳曼以5-0大胜国际米兰,创造了欧冠决赛的…

雷军:诋毁 本身就是一种仰望 小米汽车备受期待

6月1日,雷军在微博上宣布,2025年5月小米SU7的交付量将超过28,000台。他表示,公司正在全力为小米YU7的大规模量产做准备,预计7月份开始量产。同一天,小米集团总裁卢伟冰也在微博上表示,无论是SU7的热销还是YU7获得更高的关注和期待,都基于强大的产品力。他强调,小米汽车…

Labubu冲破关税打压美国卖断货 中国智造引领潮流

摩根大通CEO杰米戴蒙访问中国后表示,面对美国的关税打压,中国人并不害怕,想让中国对美国卑躬屈膝的想法是不现实的。中国能够昂首挺胸,因为越来越多的中国公司能生产出让美国消费者喜欢的“中国智造”产品。近期,一个来自中国的娃娃Labubu成为世界顶流。尽管最初被部分人认…

巴啦啦小魔仙凌妈妈扮演者自曝片酬 1500元一天引发热议

5月31日,话题#巴啦啦小魔仙凌妈妈扮演者自曝片酬 登上热搜第一。《巴啦啦小魔仙》中的凌妈妈和凌爸爸在时隔17年后重聚,他们在剧中曾被誉为“理想父母”。凌妈妈的扮演者左左表示,已经17年没有见面,感觉恍如隔世。尽管多年未拍戏,但能留下这样一个经典角色,她感到非常知足…

被童年的回旋镖击中了 旧时光里的小美好

转个不停的小风车、写着“勿忘我”的同学录,“分你一半”的碎碎冰……那些被窝里悄悄许下的愿望,那些拉钩说好一百年不许变的誓言,总会在不经意间窜进思绪,打开尘封的旧时光。寄存童年,让小时候的自己抱抱长大了的自己,愿你童心永葆、快乐相随。责任编辑:zhangxiaohua