Triton推理服务器部署YOLOv8(onnxruntime后端和TensorRT后端)

article/2025/8/21 3:15:44

文章目录

    • 一、Trition推理服务器基础知识
      • 1)推理服务器设计概述
      • 2)Trition推理服务器quickstart
        • (1)创建模型仓库(Create a model Repository)
        • (2)启动Triton (launching triton)并验证是否正常运行
        • (3)发送推理请求(send a inference request)
      • 3)Trition推理服务器架构
      • 4)Trition推理服务器模型配置(最小、最大模型配置,最大批处理次数,模型维度形状,数据类型)
    • 二、YOLOv8安装
      • 1)安装网络环境
      • 2)安装pytorch
      • 3)安装和克隆YOLOv8
    • 三、TensorRT补充
      • 1)简介
      • 2)TRT引擎构建
      • 3)TRT API基本用法
      • 4)plugin加速推理
    • 四、onnx补充
      • 1)onnx概述+模型网络结构+数据结构
      • 2)onnx模型搭建+dump信息+推理
      • 3)onnx_graphsurgeon
      • 4)onnx_Simplifier
    • 五、Trion推理服务器部署(onnxruntime后端)
      • 1)安装docker和NVIDIA Container toolkit
        • (1)安装docker
        • (2)安装NVIDIA Container toolkit
      • 2)导出onnx模型
      • 3)组织模型仓库布局文件
      • 4)构建Triton推理docker容器
      • 5)运行和测试Triton服务器
    • 六、Trion推理服务器部署(TensorRT后端)
      • 1)构建TensorRT引擎
      • 2)组织模型仓库布局
      • 3)构建Triton推理的docker容器
      • 4)运行和测试Triton服务器
      • 5)前处理说明

一、Trition推理服务器基础知识

1)推理服务器设计概述

在这里插入图片描述

  • 设计思想和特点
    1、支持多种机器学习框架
    在这里插入图片描述
    2、支持多种部署场景

在这里插入图片描述
3、高性能推理
在这里插入图片描述
4、灵活的模型管理
在这里插入图片描述
5、可扩展性
在这里插入图片描述
6、强大的客户端支持
在这里插入图片描述

2)Trition推理服务器quickstart

(1)创建模型仓库(Create a model Repository)

在这里插入图片描述

(2)启动Triton (launching triton)并验证是否正常运行

cpu运行

$ docker run --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

在这里插入图片描述
GPU运行
在这里插入图片描述
命令

$ docker run --gpus=1 --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

输出

+----------------------+---------+--------+
| Model                | Version | Status |
+----------------------+---------+--------+
| <model_name>         | <v>     | READY  |
| ..                   | .       | ..     |
| ..                   | .       | ..     |
+----------------------+---------+--------+
...
...
...
I1002 21:58:57.891440 62 grpc_server.cc:3914] Started GRPCInferenceService at 0.0.0.0:8001
I1002 21:58:57.893177 62 http_server.cc:2717] Started HTTPService at 0.0.0.0:8000
I1002 21:58:57.935518 62 http_server.cc:2736] Started Metrics Service at 0.0.0.0:8002

在这里插入图片描述

  • 验证是否正常运行
    在这里插入图片描述
$ curl -v localhost:8000/v2/health/ready
...
< HTTP/1.1 200 OK
< Content-Length: 

http://www.hkcw.cn/article/NcAxyPNJAu.shtml

相关文章

端午连休3天高速收费 假期出行需注意

根据国务院办公厅《关于2025年部分节假日安排的通知》,端午节放假时间为5月31日(周六)至6月2日,共3天。此次端午节放假不调休。责任编辑:zx0176

6月北方旱区旱情将有所缓和 降水增多缓解干旱

5月29日,中国气象局举行新闻发布会,会上回顾了5月全国天气气候特征,并发布了“端午”假期天气预报及6月气候趋势预测。5月全国天气气候特征包括:今年首次高温过程影响华北、华中、西北等地;陕甘宁晋豫等地气象干旱阶段性发展;有6次强对流天气过程和4次沙尘天气过程影响我…

Git 全平台安装指南:从 Linux 到 Windows 的详细教程

目录 一、Git 简介 二、Linux 系统安装指南 1、CentOS/RHEL 系统安装 2、Ubuntu/Debian 系统安装 3、Windows 系统安装 四、安装后配置&#xff08;后面会详细讲解&#xff0c;现在了解即可&#xff09; 五、视频教程参考 一、Git 简介 Git 是一个开源的分布式版本控制系…

Spring:从青铜到王者,你的Java修炼手册

一、Spring家族宇宙&#xff1a;原来你是这样的框架&#xff08;青铜段位&#xff09; 1.1 Spring的"前世今生"&#xff1a;从泡面到满汉全席 ​​2002年的泡面哲学​​&#xff1a;Rod Johnson在厨房煮泡面时突然顿悟&#xff1a;"Java开发为什么不能像泡面一…

SpringSecurity

SpringSecurity 一&#xff1a;快速入门&#xff1a; 创建好一个springboot-maven项目&#xff0c;写好启动类&#xff0c;并且编写简单的controller&#xff0c;加上以下依赖&#xff1a; </dependency><dependency><groupId>org.springframework.boot&l…

SQL Server 代理作业故障排查:关键任务失败的根因分析

关键词:SQL Server 代理作业故障,MessageBox_Message_ManageRefCountLog_BizTalkMsgBoxDb,BizTalk Server,数据库维护,关键任务失败,作业异常,根因分析,死锁,事务日志,磁盘空间,权限问题,SQL Server Agent,故障排查 SQL Server 代理作业(SQL Server Agent Jobs)…

业内:董宇辉拒绝“孙东旭”!

业内:董宇辉拒绝“孙东旭”!短短一年半时间,董宇辉将与辉同行团队从70人扩张至300余人,核心主播不足十人,却创造出百亿元的年销售额。董宇辉是核心主播,也是老板、是CEO。今年4月的一次访谈中,新浪财经CEO邓庆旭问董宇辉“你有一个职业经理人,帮你打点这一切吗?”董宇…

俄罗斯无人机自主任务规划!UAV-CodeAgents:基于多智能体ReAct和视觉语言推理的可扩展无人机任务规划

作者&#xff1a;Oleg Sautenkov 1 ^{1} 1, Yasheerah Yaqoot 1 ^{1} 1, Muhammad Ahsan Mustafa 1 ^{1} 1, Faryal Batool 1 ^{1} 1, Jeffrin Sam 1 ^{1} 1, Artem Lykov 1 ^{1} 1, Chih-Yung Wen 2 ^{2} 2, and Dzmitry Tsetserukou 1 ^{1} 1单位&#xff1a; 1 ^{1} 1斯科尔…

杀人嫌犯潜逃27年终落网 乡音破解身份密码

27年前,时年21岁的外省小伙阿亮在当地与一猪肉摊摊主发生口角,一时冲动持刀将其杀害后隐姓埋名潜逃。由于当时技术条件有限,追凶工作一度陷入困境。27年后,阿亮辗转多地来到扬州仪征。仪征警方凭借一句乡音破解了他的“身份密码”,成功将其抓获归案。这起尘封多年的命案积…

贵州58岁产妇产下一名男婴 高龄母亲的奇迹

5月27日17点10分左右,在遵义市妇幼保健院内,一名体重2600克的健康男婴顺利降生。这位男婴的母亲是58岁的李女士,她是该院截至目前妊娠年龄第二大的产妇。作为李女士的手术大夫,遵义市妇幼保健院产科主任马玲玲介绍,尽管李女士身体条件尚可,没有基础性疾病,但因其高龄且此…

vue3 el-upload实现上传图片为base64格式并存储进表单

一、template <el-form-item label"图片" prop"images"><el-uploadaction"#":accept"[image/jpeg, image/png, image/gif].join(,)"list-type"picture-card":auto-upload"true":on-change"handleU…

DMBOK对比知识点对比(3)

1.数据仓库建设方法(Inmon、Kimball) 数据仓库建设方法(Inmon、Kimball)P293方法

制造业的未来图景:超自动化与劳动力转型的双重革命

市场现状&#xff1a;传统制造业的转型阵痛 当前全球制造业正站在历史性变革的十字路口。埃森哲对552位工厂经理的全球调研显示&#xff0c;60%的受访者将劳动力转型视为首要战略任务​​&#xff0c;而63%的工厂正在加速部署自动化技术[1]。超过​75%的工厂经理​​认为&…

上传图片转成3D VR效果 / 用photo-sphere-viewer实现图片VR效果 / VR效果在项目中落地实践

系统简介 : 该系统为 react TS tailwindcss photo-sphere-viewer 的响应式 VR360 项目, 上传图片后可实现手动旋转 3D 图片,还包含了 6 贴图立方体展示和 6 贴图动态展示 目前为单图切换模式 全部页面概览 这是单面VR页面的代码(gif展示页面) import React, { useRef, u…

【论文精读】2024 ECCV--MGLD-VSR现实世界视频超分辨率(RealWorld VSR)

文章目录 一、摘要二、问题三、Method3.1 Latent Diffusion Model3.2 Motion-guided Diffusion Sampling3.3 Temporal-aware Decoder Fine-tuning 四、实验设置4.1 训练阶段4.2 训练数据 贡献总结 论文全称&#xff1a; Motion-Guided Latent Diffusion for Temporally Consis…

Linux安装mysql5.7详细教程

&#x1f353; 简介&#xff1a;java系列技术分享(&#x1f449;持续更新中…&#x1f525;) &#x1f353; 初衷:一起学习、一起进步、坚持不懈 &#x1f353; 如果文章内容有误与您的想法不一致,欢迎大家在评论区指正&#x1f64f; &#x1f353; 希望这篇文章对你有所帮助,欢…

@高考考生和家长 别带违禁物品、勿信“押题”

2025年高考临近,一些不法分子受利益驱使,散布高考相关虚假信息,制造贩卖焦虑,组织实施诈骗,甚至诱导考生作弊,严重损害考生和家长切身利益,严重扰乱考试招生秩序。为此,教育部会同相关部门梳理汇总了近年来出现的一些典型案例,提醒广大考生和家长切勿相信谣言,谨防上…

Linux文件管理

1 查看文件内容 在 Linux 操作系统中&#xff0c;绝大多数的配置文件是以普通文本格式保存的&#xff0c;这些配置文件决定着系统及相关服务、程序的运行特性。查看及检索文本文件的内容&#xff0c;能够快速了解相关配置信息&#xff0c;以便为管理、维护操作系统提供有效的参…

法国回应“阵风”疑被击落说明什么 首次实战损毁引关注

法国军方首次对“阵风”战机疑似被击落事件作出回应,称如果情况属实,这将是该机型服役以来首次在实战中损毁。印度空军引进了这款战斗机。据媒体报道,法国国防部军方发言人5月27日在例行记者会上表示,若相关信息准确无误,这将是“阵风”战斗机自服役20年来首次在实战中受损…