世界是个巨大的草台班子

刚编的故事,如有雷同纯属巧合

所以CUDA 12.8 到底能不能在 545 驱动上运行?

0x01

事情是这样的。

公司里刚开始学 vLLM 的老师,拉了官方镜像(官方镜像只有CUDA 12.8)在平台上跑,结果挂了。平台开发跑过来找我。
我已经明确的跟平台说过无数遍了,driver 545 最高用 CUDA 12.3

平台开发不信,说有的镜像是 12.8,也能用。
我又跟他们说那是运气好,恰好没用到不兼容算子,平台不信,说要找人验证一下。
我当时就气笑了:所以找谁验证啊,平台有人会验证吗?
并且,官方文档那么大个表格写的明明白白 545 最高用 12.3,为啥还要扯皮啊。真的服了。

0x02

过了几天,不同的人、同样的问题、同样的报错,又反馈给我。
不是,相同的问题平台看都不看就直接甩给我是吗?
后来种子班也碰到这个问题了,解决不了,捅到了公司上层。我心想,这回总该有个识货的出来拍板升级驱动了吧?

结果,炸裂的来了。

上层领导在会议上宣布:“A100 出厂配的 450(好像是这个版本) 驱动已经是完全适配的了,目前的 545 完全够用了,甚至都太高了,为了稳定,不允许升级驱动版本。”
果然高层考虑的角度不一样。
即使是够用了,但那只针对于大厂稳定的服务。我们这种教学为目的的,当然是应该是怎么方便怎么来呀。
那也没招了,心疼孩子们,我就一边听航天种子班他们吐槽一边帮他们编个低版本的镜像用。
我感觉公司同事的工作重点都是如何甩锅。直到碰到一个心软的,就把活干了。

0xFF

其实上面都不是重点。重点是:

售前跟我说:“帮平台打镜像那是打黑工,不属于咱们本职工作,别理他们。”
平台跟我说:“那俩售前就是大傻逼,只会 PUA 别人,然后自己独享成果。”

给平台是不是打黑工我不知道。那俩售前确实是大傻逼。之前他们说我去给种子班讲课就给我讲师资质,还有补助。现在讲完以后屁都没有

其实我看到那些满屏 CUDA_ERROR 的新手,好像看到了自己小时候到处问问题但是无人回复的样子。想尽力帮他们。
并且每次被说谢谢,都可以开心半天。(可能是太缺乏认可了)
可现在,特别是听完售前和平台那两波人说的话。我突然开始怀疑,“谢谢”是不是一种控制工具。
一句谢谢就可以白嫖我干活一整天。

真没招了。写代码写傻了,想不清楚。