AI专家李牧的安装视频来了！100亿也可以练个大模型

时间：2023-03-12 00:00:17 科技观察

在装机视频放出前，李牧老师发起了一个小问卷调查，趁着显卡降价，看看童鞋们对装机和装机的兴趣如何运行变压器。当时就连华为的天才少年“智慧君”都来点赞了，可见大家还是很期待的。这不，木神带着他的安装视频来了。如何以最低成本训练出百亿级模型？而就在最近，币圈降温，GPU的价格也明显下调。例如，Nvidia3090TI现在售价1600美元（原价2000美元）。本项目一开始先安装了两台样机，每台都是双卡RTX3090TI，采用水冷散热系统降低噪音。安装一台机器的费用是5000多美元，约合人民币35000元。话不多说，一起来看看木神是怎么安装机器的吧~安装清单机器的需求首先要足够安静。否则，如果太吵，它就无法工作。第二个要求是更好的散热。否则温度过高会导致GPU节流。第三个是重点。因为需要跑一个比较大的Transformer模型，GPU的带宽一定要够好。如果之前安装过GPU服务器运行CNN，运行Transformer模型的要求会有所不同。因为Transformer模型比CNN模型大，所以内存占用会更高。所以GPU的显存大小非常重要。木神之前也说过，要把这么大的Transformer模型放到多块GPU上训练，谷歌、微软等的工程师都是用DGAX100这样的机器跑的。即使在这样的机器上，GPU带宽仍然是一个瓶颈。购买这种服务器GPU和游戏GPU的区别在于，前者不是单张卡能跑多快，而是卡连起来能多快。因此，安装概念的重点是尽可能增加GPU内存和GPU之间互连的带宽。如果一台机器要放很多卡，就必须要买涡轮散热。如果想安静一点，可以买个水冷的散热器。牧神买了4块3090TI。水冷的优点是比较安静，缺点是比较占地方。所以，如果你想放四张卡的话，就不要买水冷版，要买只有一个涡轮风扇的版本。而风在机箱内的流向是一个特别重要的问题。如果买3个风扇的显卡，风从机箱正面进入，然后从四面八方散热。如果卡靠得很近，机箱内的温度会很高。牧神还说，很多年前，他用两个大风扇买了四张卡放在一起，结果一张卡温度太高，烧焦了。GPU选好后（华硕ROG），剩下的配置就比较简单了。CPU采用AMD的12核CPU，主板为某品牌号称PCIE4.016，硬盘为2TBM.2硬盘，风扇为120mm水冷风扇，全尺寸机箱被添加。安装步骤安装清单完成后，接下来就是具体的安装过程了。步骤如下：先放GPU。注意在贴装过程中不能用手触摸金属。如果有静电，很容易导致GPU导电。GPU放入后，拧上螺丝。然后把风扇放进去。插上电源后，将电源线和水线系在一起。然后连接NVLink网桥。最后接通电源，机器就可以运行了。压力测试安装完成后，接下来的任务就是继续安装操作系统。牧神安装了ubuntu22，安装好后远程连接。当然，牧神也将各种情况描述的更加详细。除了ubuntu22之外，windows和linux也可以根据不同的需求使用。这里木神使用SSH进行远程连接。木神的系统已经装好驱动了。同时他也指出，如果没有驱动，也可以使用apt-get来安装nvidia-driver-515。安装好后，运行nvidia-smi就可以看到系统了。您可以从中看到各种信息。比如GPU的个数，温度，瓦数，内存占用等。接下来也可以通过nvidia-smi的topo-m矩阵查看nv-link是否正常。可以看出两块GPU是通过NV4连接起来的。4表示4个通道，表示连接正常。下一个问题是测试系统在满载情况下的温度。木神说GPU是通过一个叫gpu-burn的小程序测试的，可以在github上下载。这里木神模拟跑了十分钟，也看到了两个GPU的温度。木神还开玩笑说，他能感觉到GPU在吹热风。同理，CPU也可以这样测试温度，使用cpu-burn。最终两块GPU的温度分别保持在58度和55度，功耗也被拉到了440多瓦（满载功耗480瓦），表现相当不错。最后一个参数是机器的功耗。牧神的测试用了大约1240瓦，也就是每小时1.5度电。从目前的数据来看，稳定性还可以。至于在本机上运行Transformer的性能如何，还得等下一个视频了。视频发布后，b站网友也表现出了极大的兴趣。有一堂课代表同学满分，列出了视频中提到的配置的完整列表。有网友抢着围观，“跟李牧学装机”。牧神自己说，感觉3090ti卡不是很好。随即，有网友表示，做不到就送人吧。当然，这种硬核装机视频下的评论一定是幽默风趣的。我只能说，太真实了。

上一篇：CloudOps：优化云运维的新兴框架_0

下一篇：三分钟回顾，2021年12月纵览无人机领域

AI专家李牧的安装视频来了！100亿也可以练个大模型相关文章