网站地图官方微信:
网站首页 临漳镇 丰镇市 操场乡 新湾镇 义新乡 万峦乡

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 你在什么情况下需要写 shell ? |

    日常管理文件类的脚本我尽量用powershell而不用Pyt...

    查看详情>>
  • | rust在国内的前景如何? |

  • | 家用NAS是成品还是DIY? |

  • | 当量子计算机能预测人类选择,自由意志是否沦为算法的注脚? |

  • | Python+rust会是一个强大的组合吗? |

  • | 网传厦门某国企研发部门要求每日考察后端 400 行,前端 1000 行代码量,如属实,这个考核合理吗? |

  • | 为什么中国JK无法拍出日本JK的感觉? |

  • | 不结婚,不生孩子,老了怎么办? |

  • | 为什么百度搜索引擎越做越差? |

  • | 你卡过最厉害的bug是什么? |

  • | REDMI K80 至尊版手机搭载 7410mAh 电池,此款手机有哪些亮点? |

  • 一定是后端好找工作。 哪怕后端团队都每天工作3小时摸鱼5小...

    2025-06-21
  • 我自己diy也用过,成品也用过 成品里群晖威联通这两个的硬核...

    2025-06-21
  • 序libco 是 腾讯开源的一个协程库。 噱头很大,动不动就...

    2025-06-21
  • 我就直说一个对比 去年5月份入手了联想小新Pro14,内存3...

    2025-06-21

关注我们

添加微信好友,关注最新动态