气笑了
刚编的故事,如有雷同纯属巧合
作为组里唯一一个跟厂商对接的牛马,最近这段时间,我真的快被某国产卡搞死了。
0x01
事情是这样的。
有一个 OCR 组在赶 DDL 需要很多算力,公司 A100 肯定不够用了,但是闲置了一千多张xx芯和x曦。
结果全公司没有 PyTorch 和 Paddle 在xx芯的运行环境。
我当时的需求特别简单:找他们技术支持“王老师”给我 PyTorch 和 Paddle 的镜像和安装包,我把环境跑起来,简单的测一下benchmark 给他们用就可以了。
我从 16 号开始问,已读不回;17 号再问,还是已读不回。后面打电话催,好不容易回我了,直接甩过来两个镜像。其中一个是 33GB 的超大镜像,告诉我这是基础镜像,大的原因是有完整的编译环境和调试环境,但 PyTorch 之类的要自己安装;另一个是Paddle的镜像。
他们整个公司连个包含 Pytorch 的镜像都没有吗?感觉像在故意搞我。但暂时不用 Pytorch,并且这个镜像太大了,就先没管它。
Paddle的镜像在公司的环境跑不了多节点,找那个“王老师”,已读不回。打电话,在忙。过了好几天找领导催了一下,他们拉了个视频会议才解决。
0x02
我把Paddle的单卡、多卡、多节点测完以后告诉 OCR 组怎么用。他们纠结了很久,说这个镜像不方便,他们用 uv 安装环境,最好能给个 whl 集成进去。
好笑的开始了。
xx芯对接人“王老师”说不能提供 Paddle 的 whl 安装包和源代码,说包含商业机密。
我信了。然后就想办法弄个软链接之类的尽量给他们跑起来。
直到有一天。
我发现他们镜像的某个文件夹里有一个 .run 文件。然后我手欠解压了一下,几个 whl 安装包就躺在里面。
当时我就炸了,这不纯折腾人么。
还有那个所谓的“空镜像”,我费劲拉下来跑起来一看,里面明明就带着 PyTorch,并且没有调试环境,甚至连xpu-smi都没有。
感觉完全就是被厂商当傻子耍。
我就在群里at了那个傻逼王老师,说了下面的聊天记录:
1 | > @王x 你给的这个镜像面有 torch 啊,并且为什么没有xpu-smi? |
然后,最绝的是:
他没回我,直接给我领导打电话了。说:
他那么努力的配合我们,我却说这样的话,让他“心寒”了,觉得委屈。
我也没人身攻击,就摆了几个事实,问了几个问题,他就直接心寒了,委屈了。太好笑了。
真的这个职场的语言的艺术,得跟那些脸皮厚的人好好学一下了。
0x03
x曦这边体验非常好。他们直接拉了几个人跟OCR组对接了。还老问我们进展如何,有没有需要帮忙的 >_<
0xFF
找到原因了。
后续是领导跟我说公司没给x曦钱;
但是xx芯已经给钱了,并且又采购了3000张卡。
所以欠钱的是大爷,给钱的就不管了对吗?
另外,公司里真的没有一个人懂吗?我不信。