Posts by 申意
生成式人工智能/大语言模型
2025年 10月 13日
使用 NVIDIA Dynamo 部署 72B 模型提升 PD 分离性能
在生产环境部署大模型推理服务时,技术团队往往会遇到诸多挑战,例如缺乏成熟的 PD 分离方案、自动扩缩容机制不够灵活、缺乏动态路由,
2 MIN READ
生成式人工智能/大语言模型
2025年 1月 20日
NVIDIA TensorRT-LLM 在推荐广告及搜索广告的生成式召回的加速实践
推荐系统的主要任务是根据用户的历史行为预测其兴趣点,并向其推荐相应的商品。传统的推荐系统在处理用户请求时,
2 MIN READ