网络/通讯

2025年 9月 18日
如何使用 NVIDIA Dynamo 减少 KV 缓存瓶颈
随着 AI 模型变得更大、更复杂,推理,即模型生成响应的过程,正成为一项重大挑战。像 GPT-OSS 和 DeepSeek-R1…
4 MIN READ

2025年 9月 10日
借助 NVIDIA Rivermax 和 NEIO FastSocket,更大限度地提高金融服务的低延迟网络性能
超低延迟与可靠的数据包传输是金融服务、云游戏以及媒体和娱乐等现代应用的关键需求。在这些领域中,
2 MIN READ

2025年 9月 9日
如何利用跨区域 (Scale-Across) 网络将分布式数据中心连接成大型 AI 工厂
AI 技术日益复杂,训练与推理领域的新进展对数据中心提出了更高的要求。尽管数据中心的功能正在迅速扩展,但其基础设施受限于基本的物理条件,
1 MIN READ

2025年 9月 3日
南北向网络:加速企业 AI 工作负载的关键
在 AI 基础架构中,数据为计算引擎提供关键燃料。随着代理式 AI 系统的持续演进,多个模型与服务相互协作,需要获取外部上下文并实时做出决策,
2 MIN READ

2025年 8月 26日
行业协作共推 NVIDIA CPO 技术
NVIDIA 通过光、电组件的无缝集成,重塑数据中心互连新格局。这一突破的关键在于与整个行业的合作伙伴的紧密合作。
1 MIN READ

2025年 8月 22日
揭秘 NVIDIA Blackwell Ultra:推动 AI 工厂时代的芯片动力
作为 NVIDIA Blackwell 架构系列的最新成员,NVIDIA Blackwell Ultra GPU 依托核心创新,
5 MIN READ

2025年 8月 21日
借助 NVIDIA NVLink 和 NVLink Fusion 扩展 AI 推理性能和灵活性
AI 模型复杂性的指数级增长驱动参数规模从数百万迅速扩展到数万亿,对计算资源提出了前所未有的需求,必须依赖大规模 GPU 集群才能满足。
2 MIN READ

2025年 8月 18日
利用 CPO 技术扩展 AI 工厂,提高能效
随着 AI 重新定义计算格局,网络已成为构建未来数据中心发展的关键支柱。大语言模型的训练性能不仅取决于计算资源,更受到底层网络敏捷性、
2 MIN READ

2025年 7月 30日
使用 CI/CD 自动化网络配置和部署
持续集成和持续交付/部署 (CI/CD) 是一套现代软件开发实践,用于更可靠、更频繁地交付代码更改。虽然 CI/CD 在软件领域得到广泛采用,
1 MIN READ

2025年 7月 22日
了解 NCCL 调优以加速 GPU 之间的通信
NVIDIA 集合通信库 (NCCL) 对于 AI 工作负载中的快速 GPU 到 GPU 通信至关重要,可使用各种优化和调优来提升性能。但是,
3 MIN READ

2025年 7月 18日
使用 Ansible 和 Git 实现 NVIDIA Air 网络设计自动化
NVIDIA Air 的核心是实现自动化。您可以对网络的每个部分进行编码和版本控制,并将其设置为自动触发。这包括创建拓扑、
2 MIN READ

2025年 7月 14日
NCCL 深度解析:跨数据中心通信与网络拓扑感知
随着 AI 训练规模的扩大,单个数据中心 (DC) 不足以提供所需的计算能力。
2 MIN READ

2025年 7月 14日
借助 NCCL 2.27 实现快速推理和弹性训练
随着 AI 工作负载的扩展,快速可靠的 GPU 通信变得至关重要,这不仅适用于训练,而且越来越适用于大规模推理。
3 MIN READ

2025年 7月 10日
InfiniBand 多层安全保护数据中心和 AI 工作负载
在当今数据驱动的世界中,安全性不仅仅是一项功能,更是基础。随着 AI、HPC 和超大规模云计算的指数级增长,
1 MIN READ

2025年 7月 7日
使用 DPU 加速的 Kubernetes 服务代理增强 AI 工厂
随着 AI 借助代理式 AI 向规划、研究和推理发展,工作流变得越来越复杂。为了高效部署代理式 AI 应用,AI 云需要软件定义、
2 MIN READ

2025年 6月 25日
NVIDIA DOCA 3.0 助力 AI 平台开启网络新纪元
NVIDIA DOCA 框架已发展成为新一代 AI 基础设施的重要组成部分。从初始版本到备受期待的 NVIDIA DOCA 3.0 发布,
3 MIN READ