01 这是什么?
NVIDIA Triton 是面向各类模型框架的高性能推理服务,支持 PyTorch、TensorFlow、ONNX、TensorRT、OpenVINO 与 vLLM,可在 CPU 或 GPU 上运行,具备动态批处理、模型版本管理与集成模型能力。Triton 是规模化生产推理的主力引擎。
多框架、多设备的生产级推理服务。
NVIDIA Triton 是面向各类模型框架的高性能推理服务,支持 PyTorch、TensorFlow、ONNX、TensorRT、OpenVINO 与 vLLM,可在 CPU 或 GPU 上运行,具备动态批处理、模型版本管理与集成模型能力。Triton 是规模化生产推理的主力引擎。
我设计兼顾时延、吞吐与成本的 Triton 部署,支持滚动更新的模型管理、多租户隔离、GPU 调度以及模型与租户之间的安全边界。我把 Triton 接入更广义的可观测性与安全栈。