执行命令:
Python3 -m sglang.launch_server --model-path /mnt/data/models/DeepSeek-R1-Distill-Qwen-32B --host 172.26.*.* --port 9300 --tp 4 --trust-remote-code --served-model-name qwen32b
运行结果
响应速度
参数说明
model_path: 模型文件所在的路径。
tokenizer_path: 分词器文件所在的路径。这里与模型路径相同。
tokenizer_mode: 分词器的加载模式,'auto'表示自动检测合适的分词器。
skip_tokenizer_init: 是否跳过分词器初始化,默认为False。
load_format: 加载模型的格式,'gguf'表示使用GGUF格式。
trust_remote_code: 是否信任远程代码,默认为False。这涉及到安全性和潜在风险。
dtype: 数据类型,'auto'表示自动选择合适的数据类型。
kv_cache_dtype: 键值缓存的数据类型,'auto'表示自动选择。
quantization: 量化策略,None表示不进行量化。
quantization_param_path: 量化的参数文件路径,未指定时为None。
context_length: 上下文长度,未指定时为None。
device: 设备类型,'cuda'表示使用GPU。
served_model_name: 服务中使用的模型名称,这里直接使用了模型路径作为名称。
chat_template: 聊天模板,未指定时为None。
is_embedding: 是否以嵌入模式运行,默认为False。
revision: 版本控制标识,未指定时为None。
host: 服务器监听的IP地址,这里是本地回环地址。
port: 服务器监听的端口号。
mem_fraction_static: 静态分配给进程的内存比例。
max_running_requests: 最大并发请求数,未指定时为None。
max_total_tokens: 最大总token数,未指定时为None。
chunked_prefill_size: 填充块大小。
max_prefill_tokens: 最大预填充token数。
schedule_policy: 调度策略,'fcfs'表示先来先服务。
schedule_conservativeness: 调度保守性程度。
cpu_offload_gb: CPU卸载的GB数。
tp_size: 张量并行度大小。
stream_interval: 流式输出间隔。
stream_output: 是否启用流式输出,默认为False。
random_seed: 随机种子,用于结果的可重复性。
constrained_json_whitespace_pattern: 约束JSON空白字符模式,未指定时为None。
watchdog_timeout: 监视器超时时间。
dist_timeout: 分布式超时设置,未指定时为None。
download_dir: 下载目录,未指定时为None。
base_gpu_id: 基础GPU ID。
gpu_id_step: GPU ID步长。
log_level: 日志级别,'info'表示信息级别日志。
log_level_http: HTTP请求的日志级别,未指定时为None。
log_requests: 是否记录请求,默认为False。
log_requests_level: 请求日志级别。
show_time_cost: 是否显示时间成本,默认为False。
enable_metrics: 是否启用指标收集,默认为False。
decode_log_interval: 解码日志间隔。
api_key: API密钥,未指定时为None。
file_storage_path: 文件存储路径。
enable_cache_report: 是否启用缓存报告,默认为False。
reasoning_parser: 推理解析器,未指定时为None。
dp_size: 数据并行度大小。
load_balance_method: 负载均衡方法,'round_robin'表示轮询方式。
ep_size: 专家并行度大小。
dist_init_addr: 分布式初始化地址,未指定时为None。
nnodes: 节点数量。
node_rank: 当前节点的排名。
json_model_override_args: JSON格式的模型覆盖参数,为空字符串表示没有覆盖。
lora_paths: LoRA路径集合,未指定时为None。
max_loras_per_batch: 每批次最大LoRA数。
lora_backend: LoRA后端,'triton'表示使用Triton。
attention_backend: 注意力机制后端,'flashinfer'表示使用FlashInfer。
sampling_backend: 抽样后端,'flashinfer'表示使用FlashInfer。
grammar_backend: 语法后端,'outlines'表示使用Outlines。
speculative_algorithm: 投机算法,未指定时为None。
speculative_draft_model_path: 投机草稿模型路径,未指定时为None。
speculative_num_steps: 投机步骤数。
speculative_eagle_topk: 投机TopK值。
speculative_num_draft_tokens: 投机草稿token数。
speculative_accept_threshold_single: 单一投机接受阈值。
speculative_accept_threshold_acc: 累积投机接受阈值。
speculative_token_map: 投机token映射,未指定时为None。
enable_double_sparsity: 是否启用双重稀疏性,默认为False。
ds_channel_config_path: 双重稀疏通道配置文件路径,未指定时为None。
ds_heavy_channel_num: 双重稀疏重型通道数。
ds_heavy_token_num: 双重稀疏重型token数。
ds_heavy_channel_type: 双重稀疏重型通道类型。
ds_sparse_decode_threshold: 双重稀疏解码阈值。
disable_radix_cache: 是否禁用基数缓存,默认为False。
disable_cuda_graph: 是否禁用CUDA图,默认为False。
disable_cuda_graph_padding: 是否禁用CUDA图填充,默认为False。
enable_nccl_nvls: 是否启用NCCL NVLS,默认为False。
disable_outlines_disk_cache: 是否禁用大纲磁盘缓存,默认为False。
disable_custom_all_reduce: 是否禁用自定义All Reduce,默认为False。
disable_mla: 是否禁用MLA,默认为False。
disable_overlap_schedule: 是否禁用重叠调度,默认为False。
enable_mixed_chunk: 是否启用混合块,默认为False。
enable_dp_attention: 是否启用数据并行注意力,默认为False。
enable_ep_moe: 是否启用专家并行Mixture of Experts,默认为False。
enable_torch_compile: 是否启用Torch编译,默认为False。
torch_compile_max_bs: Torch编译最大批量大小。
cuda_graph_max_bs: CUDA图最大批量大小。
cuda_graph_bs: CUDA图批量大小,未指定时为None。
torchao_config: TorchAO配置,为空字符串表示无特殊配置。
enable_nan_detection: 是否启用NaN检测,默认为False。
enable_p2p_check: 是否启用P2P检查,默认为False。
triton_attention_reduce_in_fp32: 是否在FP32中减少Triton注意力,默认为False。
triton_attention_num_kv_splits: Triton注意力KV分割数量。
num_continuous_decode_steps: 连续解码步骤数。
delete_ckpt_after_loading: 加载后是否删除checkpoint,默认为False。
enable_memory_saver: 是否启用内存节省,默认为False。
allow_auto_truncate: 是否允许自动截断,默认为False。
enable_custom_logit_processor: 是否启用自定义logit处理器,默认为False。
tool_call_parser: 工具调用解析器,未指定时为None。
enable_hierarchical_cache: 是否启用层次缓存,默认为False。
enable_flashinfer_mla: 是否启用FlashInfer MLA,默认为False。
flashinfer_mla_disable_ragged: 是否禁用FlashInfer MLA中的ragged,默认为False。
warmups: 预热次数,未指定时为None。
debug_tensor_dump_output_folder: 调试张量转储输出文件夹,未指定时为None。
debug_tensor_dump_input_file: 调试张量转储输入文件,未指定时为None。
debug_tensor_dump_inject: 是否注入调试张量转储,默认为False。