Stephen Jones 是杰出的专家,也是杰出的 NVIDIA CUDA 架构师。他提供指导和见解,深入探讨将应用程序映射到大规模并行机器的复杂性。除了探索 GPU 编程复杂性的基础知识之外,他还专注于实用技术,例如并行程序设计和 GPU 优化的具体细节,以提高应用程序的效率和性能。
作为正在进行的系列讲座的一部分,本会议基于之前的讲座。虽然不要求您看过之前的讲座,但您可以探索 GPU 计算的工作原理、CUDA 编程的工作原理以及如何编写 CUDA 程序等基础主题。
无论您是刚接触 CUDA,还是希望提高 GPU 编程技能,本课程都会提供在高性能计算方面取得出色表现所需的理论知识和可行策略。
欢迎阅读会议的 PDF 格式,您将掌握编写高效 CUDA 程序所需的高级技能和见解,从而充分发挥您的 GPU 的效用。您将深入了解:
- GPU 架构:CPU 和 GPU 方法的主要区别,重点介绍 NVIDIA Hopper H100 GPU 及其对并行处理的影响。
- 并行性:在 CUDA 编程中区分并有效利用数据和任务并行性。
- CUDA 执行模型:了解 CUDA 如何管理线程和块,以最大限度地提高性能。
- 优化数据并行:运行批量数据并行并缓解波形量化问题的策略。
- 单波内核:将数据映射到线程的优势,可以实现更好的负载平衡和效率。
- 任务并行:使用 CUDA 流提高效率,并管理流之间的依赖项。
- 工作流并行:通过数据分割和依赖项管理优化复杂算法,如排序算法。
- 缓存优化:用于在缓存中平铺执行和串联运行任务以提升性能的技术。
- 高级 CUDA 技术:避免缓存抖动、基于任务的缓存平铺,并尽可能减少任务间依赖项。
观看有关如何编写 CUDA 程序的高级演讲,探索 NVIDIA On-Demand 的更多视频,并加入 NVIDIA 开发者计划,从行业专家那里获得宝贵的技能和见解。
此内容部分在生成式 AI 和 LLM 的协助下制作而成,并经过 NVIDIA 技术博客团队的仔细审查和编辑,以确保精准性、准确性和质量。