Posts by Jatin Gangani
        
                    代理式 AI/生成式 AI
        
        
        2025年 8月 26日
      
      TensorRT-LLM 中的分离式服务
                  
            在之前的技术博客中,我们介绍了低延迟和高吞吐场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。
                
          
            3 MIN READ
          
        
      
    
        
                    代理式 AI/生成式 AI
        
        
        2025年 2月 14日
      
      使用 NVIDIA TensorRT-LLM 前瞻性解码优化 Qwen2.5-Coder 吞吐量
                  
            专注于编码的 大语言模型(LLMs) 已稳步应用于开发者工作流程。从配对编程到自我改进的 AI 智能体 ,这些模型可帮助开发者完成各种任务,
                
          
            3 MIN READ
          
        
      
    
        
                    代理式 AI/生成式 AI
        
        
        2024年 12月 17日
      
      借助 NVIDIA TensorRT-LLM 预测解码,将 Llama 3.3 的推理吞吐量提升 3 倍
                  
            随着近期新增的 Llama 3.3 70B (一种纯文本指令调整模型),Meta 的开放 大语言模型 (LLMs) 集合将继续增长。
                
          
            4 MIN READ