高性能DeepSeek V3上线星辰MaaS平台,更快、更稳定

article/2025/8/22 1:51:39

以DeepSeek模型为代表的MoE技术路线,正不断突破通用大模型的效果上限。其创新的PD优化与大EP推理方案,推动大模型迈向“高性能、低成本、强普惠”的新阶段。

事实上,早在1991年,两位人工智能界的泰斗Michael Jordan与Geoffrey Hinton在论文《Adaptive Mixture of Local Experts》中,就首次提出了MoE框架。随着大模型应用场景愈加复杂和垂直,大模型参数增大的同时,消耗的算力资源和时间成本也随之增加。凭借“稀疏激活、低资源消耗、高模型容量”的优势,MoE逐渐成为大模型开发者的新宠。

DeepSeek模型的成功实践,为MaaS平台厂商指明了方向,也带来了挑战:如何在提供高性能大模型推理服务的同时,实现对成本的极致控制?四月份,科大讯飞技术团队通过深度解析DeepSeek-V3 / R1 推理系统成本,发现除了极致的推理性能及吞吐优化外,大模型成本与算力资源有效利用率、首响用户体验等体系化的综合策略紧密关联。


基于以上洞察,讯飞星辰MaaS平台成功复现了生产级PD(生产部署优化)+大EP(大规模跨节点专家并行),实现了高性能的DeepSeek V3上线

💻 万路并发保障:大规模并发场景下,系统稳定、延迟低,用户体验更流畅;

🚀 请求级指标提升 :TTFT(首Token延迟)性能提升30%,TPOT(单Token生成时间)性能提升35%,显著减少延迟,降低用户「等候感」;


☁  弹性混合云架构:支持多源异构算力调度,灵活应对流量波峰波谷。


高性能DeepSeek V3上线:万路并发无压力,批量处理享半价


讯飞星辰 MaaS 平台始终致力于打造高效、稳定、低成本的大模型推理服务。目前平台上提供星火全系列,以及DeepSeek、Qwen3等共50+个行业主流模型。在对DeepSeek V3推理系统成本进行深度分析基础上,实现了DeepSeek V3推理性能的阶跃:

关键指标对齐官网,万路并发流畅响应

实现生产级PD+大EP复现,极致压榨硬件性能,TTFT、TPOT等关键指标对齐DeepSeek官网,其中,TTFT性能提升30%,TPOT性能提升35%。大规模生产集群吞吐再翻倍,即使在万级并发压力下,依然能保持低延迟与流畅响应。

Batch API升级,高效低价数据处理

重点升级了支持DeepSeek V3的Batch API,为需要处理大规模数据且非实时场景的任务,如:企业级数据分析、内容生产、客户反馈处理等,提供高性价比推理服务且无并发限制,可实现价格比传统调用降低50%,并在24小时内完成任务处理。

弹性混合云架构,流量洪峰更有保障

星辰MaaS平台自研了弹性多源异构混合云架构,以自建算力为中心扩展接入多个混合算力,提供稳定可靠的算力保障用户的流量洪峰,确保服务的稳定性。


针对有大量调用需求的开发者和企业,讯飞星辰MaaS平台提供了专人对接的定制化方案,咨询入口:https://www.xfyun.cn/botIm


模型工具升级:精调方案随心用,500+开源模型自主托管


为进一步降低模型定制门槛,助力开发者快速创新,在提供高性能开源模型的同时,近期,讯飞星辰MaaS平台实现了多项功能上新:


精调方案共享:开放数据分类、表格问答、剧本生成等多个精调方案,零门槛上手,开箱即用,可快速落地在真实业务场景中。


 

以营销创作脚本为例,用户只需输入推广场景、产品卖点、脚本风格、面向人群等资料,即可实现从「创意构思」到「爆款脚本」的全链路智能化生产。


Qwen3全系上线:继率先支持Qwen3旗舰模型Qwen3-235B-A22B和Qwen3-30B-A3B推理之后,目前Qwen3全系模型均已在星辰MaaS平台上线,支持推理/训练,为开发者提供了更为多元的模型选择空间。


开放自主托管渠道:支持开发者自主托管开源模型,包括HuggingFace提供的开源模型(500+)及平台预置模型,均可一键部署,即用即销,进一步降低了开发成本,使开发者和企业得以专注于业务逻辑创新,推动AI创新应用落地。

秉承开放开源理念,下一步,星辰MaaS平台将开源面向大规模生产级的支持PD调度的集群镜像方案,实现拓扑感知调度,兼容SGlang、自研等多种推理框架、自带多源异构弹性混合云调度,支持训推一体潮汐调度,进一步降低多模型、多算力、高并发的大模型集群部署复杂度。


PC端访问讯飞星辰MaaS平台官网:https://maas.xfyun.cn/,即刻体验高性能DeepSeek V3。



关于讯飞星辰MaaS平台

低门槛一站式大模型精调训练平台,助力企业高效构建专属大模型。

开箱即用,上手快:覆盖数据工程、精调训练、推理服务等全生命周期工具链,提供开箱即用、即用即销的平台服务能力。

模型丰富,应用快:支持星火全系列并兼容DeepSeek、Qwen3等,共50+行业主流大模型版本的微调与服务,微调到应用的工期从几天降低到小时级。

成熟训推框架,高可用:构建开箱即用的训推工具与框架,支持lora、full sft等多种训练方式,定制模型按需托管,服务可用性99.95%。

算力利用率高,成本低:实现基于弹性混合云训推算力的潮汐调度,支持即用即销的大模型自主托管推理模式,持续提升算力资源利用率,实现大模型推理成本持续降低。


http://www.hkcw.cn/article/WhoVUCDtWg.shtml

相关文章

github双重验证密码忘记或者获取不了了怎么办

背景 近期由于换了新手机,之前配置好的Authenticator这个App无法使用,导致获取不到二次验证的Authenticator code,登陆不上GitHub,不知道有没有人和我遇到同样的问题? 当我们配置2FA双重验证后,每次登陆gi…

Spring框架学习day4--Spring集成Mybatis(IOC)

Spring集成Mybatis1.添加jar包(pom.xml)2.配置sqlSessionFactiory(spring.xml)3.再service类中注入Dao代理接口4.测试类5文件结构 Spring集成Mybatis Spring集成Mybatis其核心是将SqlSessionFactory交由Spring管理,并由 Spring管理…

Nexus仓库数据高可用备份与恢复方案(上)

#作者:闫乾苓 文章目录 1、要解决的问题2、解决方案方案说明 3、方案验证部署nexus pvc部署nexus deployment部署nexus svc查看部署状态访问UI页面创建基于minio 的Blob Store 库准备测试数据 1、要解决的问题 Nexus使用容器化部署并使用NFS或者HostPath作为数据持…

今天北京最高气温32℃,午后阵风明显 出行注意防暑防风

今天白天多云,北风一级转南风三级,阵风六级,最高气温32℃;夜间多云,南转北风一二级,最低气温22℃。今天云量增多,气温仍较高,午后阵风明显,出行注意防暑防风勤补水。温红征 摄责任编辑:0882

工具识别系统Python+深度学习+人工智能+卷积神经网络算法+TensorFlow+图像识别

一、介绍 工具识别系统,使用Python作为主要编程语言,基于TensorFlow搭建卷积神经网络算法,通过收集了8种常见的日常工具图片(“汽油罐(Gasoline Can)”, “锤子(Hammer)”, “钳子&…

歌手终于炒出新菜了!

歌手终于炒出新菜了!《歌手2025》迎来了一位新面孔,原创歌手兼音乐剧演员湛嘉丽。她凭借代表作《海鸥》展现了不俗的实力,网友们对这位新人充满期待,并评论说:“歌手终于炒出新菜了。”今年的《歌手》节目给了音乐剧很大的舞台,不仅打破了以往依赖“回锅肉”的模式,还注…

机器学习-线性回归基础

一、什么是回归 依据输入x写出一个目标值y的计算方程,求回归系数的过程就叫回归。简言之:根据题意列出方程,求出系数的过程就叫做回归。 回归的目的是预测数值型的目标值y,分类的目的预测标称型的目标值y。 二、线性回归 2.1线性…

什么是MSBC

mSBC(Modified SubBand Coding)是蓝牙协议中用于语音通话的一种音频编码格式,专为HFP/HSP(蓝牙免提/耳机规范)设计。它是对SBC(SubBand Coding)的改进版本,核心目标是在有限带宽下保…

2024长春全国邀请赛CCPC

文章目录 G - Platform GameI - The Easiest ProblemL - Recharge G - Platform Game 题目来源:G - Platform Game 解题思路 可以先对每个平台的高度从大到小排序,高度相同再根据横坐标从左往右排序,依次遍历每个平台,如果高…

王树森推荐系统公开课 排序06:粗排模型

shared bottom 表示神经网络被所有特征共享。精排模型主要开销在神经网络,神经网络很大且很复杂。 每做一次推荐,用户塔只做一次推理。物品塔存放入向量数据库。 后期融合模型常用于召回,前期融合模型常用于精排。 物品塔短时间内比较稳…

中国车企经营状况几何 高负债背后的研发投入

近日,“车圈恒大”这一话题在舆论界引起广泛关注,资本市场因此出现连续震荡,汽车股集体下跌。恒大的问题主要在于其“高负债、高周转、高风险”的扩张模式,最终导致资金链断裂。汽车行业是否存在类似现象?这种论调能否作为行业洞察?从可收集到的上市整车公司公开财务数据…

RPG16.重攻击

1.创建GA_HeavyAttackMaster 2.打开,然后设置实例化策略为每个实例化Actor 设置标签 创建子类GA_HeavyAttack_Axe,设置子类的标签 父类里添加print输出用于调试 3.添加输入,复制LightAttack,重命名 打开DA_InputConfig,添加输入…

Dify中 SYSTEM, USER, ASSISTANT 的关系、职责与使用方法

在Dify这类对话式AI应用构建平台中,SYSTEM, USER, ASSISTANT 这三种消息类型共同定义了与大型语言模型(LLM)交互的结构和上下文。它们的关系可以理解为: SYSTEM: 扮演着“导演”或“场景设定者”的角色。USER: 扮演着“提问者”或“任务发起者”的角色。ASSISTANT: 扮演着“…

藏海传全面登顶 肖战演技获肯定

藏海传全面登顶 肖战演技获肯定!《藏海传》全面登顶,肖战用实力证明了自己不仅仅是流量,也打破了很多人对流量的偏见,肖战演技值得被肯定藏海传全面登顶 肖战演技获肯定。责任编辑:0882

DFS:从入门到进阶的刷题指南

目录 一、基础DFS:递归实现、状态标记、回溯 全排列问题 组合问题 子集问题 二、网格DFS:二维矩阵遍历、连通块计数、方向数组 岛屿数量 单词搜索 被围绕的区域 三、 记忆化DFS:动态规划DFS,缓存中间结果 斐波那契数列&a…

《P2324 [SCOI2005] 骑士精神》

题目描述 输入格式 第一行有一个正整数 T(T≤10),表示一共有 T 组数据。 接下来有 T 个 55 的矩阵,0 表示白色骑士,1 表示黑色骑士,* 表示空位。两组数据之间没有空行。 输出格式 对于每组数据都输出一行。如果能在…

XMOS以全新智能音频及边缘AI技术亮相广州国际专业灯光音响展

全球领先的边缘AI和智能音频解决方案提供商XMOS于5月27-30日亮相第23届广州国际专业灯光、音响展览会(prolight sound Guangzhou,以下简称“广州展”,XMOS展位号:5.2A66)。在本届展会上,XMOS将展出先进的音…

吉林大学操作系统上级实验四(hash存储讲解及顺序存储文件管理实现)

此章节书上内容既包括文件操作,又包括hash存储的实现,较复杂。 先讲解一下涉及的文件操作: 文件操作: 一.creat系统调用 图一 create函数原型(图中pachname应为pathname) 当调用creat函数时,它会尝试创建一个名为p…

消息队列-kafka为例

目录 消息队列应用场景和基础知识MQ常见的应用场景MQ消息队列的两种消息模式如何保证消息队列的高可用?如何保证消息不丢失?如何保证消息不被重复消费?如何保证消息消费的幂等性?重复消费的原因解决方案 如何保证消息被消费的顺序…

基于Docker和YARN的大数据环境部署实践最新版

基于Docker和YARN的大数据环境部署实践 目的 本操作手册旨在指导用户通过Docker容器技术,快速搭建一个完整的大数据环境。该环境包含以下核心组件: Hadoop HDFS/YARN(分布式存储与资源调度)Spark on YARN(分布式计算…