网站地图官方微信:
网站首页 留光镇 桶车乡 太原镇 新哨镇 安乐区 wl

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 有哪些外行看起来很陋(low),但是内行人却觉得很高大上的东西? |

    网管。 十几年前,在大学宿舍里面天天啃着十几厘米厚的cis...

    查看详情>>
  • | Linux 下有没有类似 Everything 的搜索工具? |

  • | 30马赫的导弹,近防炮能挡住吗? |

  • | 如何看待 Rust 写的 PNG 解码器比 C 实现更快? |

  • | 两军交战为什么打一炮就要几十万,炮弹都很值钱吗? |

  • | Golang 为何没孕育出一个具有社区统治力的框架? |

  • | iPad Pro大概可以使用多久呢? |

  • | 5 月 28 日 DeepSeek R1 模型完成小版本试升级并开源,具体有哪些提升?使用体验如何? |

  • | 各位父亲支点招,一个大专生要怎么样才能找到坐办公室、五天八小时很少加班、月薪一万左右的工作?? |

  • | ant-design-vue 社区为什么不维护了? |

  • | 胸大的女孩会自卑 吗? |

  • 我问了deepseek,2024年出生人口480万-580万...

    2025-06-21
  • 如何看待 Rust 写的 PNG 解码器比 C 实现更快?×...

    2025-06-21
  • 王力宏,林俊杰应该没什么问题,陈奕迅有概率会跪。 其他人,...

    2025-06-21
  • 先问是不是再问为什么。 之所以感觉服务器互联都靠网络是因为...

    2025-06-21

关注我们

添加微信好友,关注最新动态