NVIDIA TensorRT
NVIDIA TensorRT 是一款用于高性能深度学习推理的 SDK,包含深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量。
NVIDIA TensorRT 的优势
推理速度提高 36 倍
基于 NVIDIA TensorRT 的应用程序在推理过程中的执行速度比纯 CPU 平台快达 36 倍,使您能够优化在所有主要框架上训练的神经网络模型,以高精度校准较低精度,并部署到超大规模数据中心、嵌入式平台或汽车产品平台。
优化推理性能
TensorRT 基于 NVIDIA CUDA® 并行编程模型构建,使您能够在 NVIDIA GPU 上使用量化、层和张量融合、内核调整等技术来优化推理。
加速每项工作负载
TensorRT 使用量化感知训练和训练后量化和浮点 16 (FP16) 优化来提供 INT8,用于部署深度学习推理应用程序,例如视频流、推荐、欺诈检测和自然语言处理。降低精度的推理可显着减少延迟,这是许多实时服务以及自主和嵌入式应用程序所必需的。
使用 Triton 进行部署、运行和扩展
TensorRT 优化的模型可以使用 NVIDIA Triton™ 进行部署、运行和扩展,这是一种开源推理服务软件,其中包含 TensorRT 作为其后端之一。使用 Triton 的优势包括动态批处理和并发模型执行的高吞吐量,以及模型集成、流式音频/视频输入等功能。
NVIDIA TensorRT-LLM推理
NVIDIA TensorRT-LLM 是一个开源库,可加速和优化 NVIDIA AI 平台上最新大型语言模型 (LLM) 的推理性能。它让开发人员可以尝试新的 LLM,提供高性能和快速定制,而无需深入了解 C++ 或 CUDA。
开发人员现在可以 通过同一工作流程无缝工作 ,将 NVIDIA 数据中心系统上的LLM性能加速到本地台式机和笔记本电脑 GPU(包括本机 Windows 上的 NVIDIA RTX 系统)。
TensorRT-LLM 将 TensorRT 的深度学习编译器(包括 FasterTransformer 的优化内核、预处理和后处理以及多 GPU 和多节点通信)包装在一个简单的开源 Python API 中,用于定义、优化和执行LLM生产中的推理。
NVIDIA TensorRT下载地址:NVIDIA TensorRT | NVIDIA 开发者