当前位置: 首页 > 科技观察

AI专家李牧的安装视频来了!100亿也可以练个大模型

时间:2023-03-12 00:00:17 科技观察

在装机视频放出前,李牧老师发起了一个小问卷调查,趁着显卡降价,看看童鞋们对装机和装机的兴趣如何运行变压器。当时就连华为的天才少年“智慧君”都来点赞了,可见大家还是很期待的。这不,木神带着他的安装视频来了。如何以最低成本训练出百亿级模型?而就在最近,币圈降温,GPU的价格也明显下调。例如,Nvidia3090TI现在售价1600美元(原价2000美元)。本项目一开始先安装了两台样机,每台都是双卡RTX3090TI,采用水冷散热系统降低噪音。安装一台机器的费用是5000多美元,约合人民币35000元。话不多说,一起来看看木神是怎么安装机器的吧~安装清单机器的需求首先要足够安静。否则,如果太吵,它就无法工作。第二个要求是更好的散热。否则温度过高会导致GPU节流。第三个是重点。因为需要跑一个比较大的Transformer模型,GPU的带宽一定要够好。如果之前安装过GPU服务器运行CNN,运行Transformer模型的要求会有所不同。因为Transformer模型比CNN模型大,所以内存占用会更高。所以GPU的显存大小非常重要。木神之前也说过,要把这么大的Transformer模型放到多块GPU上训练,谷歌、微软等的工程师都是用DGAX100这样的机器跑的。即使在这样的机器上,GPU带宽仍然是一个瓶颈。购买这种服务器GPU和游戏GPU的区别在于,前者不是单张卡能跑多快,而是卡连起来能多快。因此,安装概念的重点是尽可能增加GPU内存和GPU之间互连的带宽。如果一台机器要放很多卡,就必须要买涡轮散热。如果想安静一点,可以买个水冷的散热器。牧神买了4块3090TI。水冷的优点是比较安静,缺点是比较占地方。所以,如果你想放四张卡的话,就不要买水冷版,要买只有一个涡轮风扇的版本。而风在机箱内的流向是一个特别重要的问题。如果买3个风扇的显卡,风从机箱正面进入,然后从四面八方散热。如果卡靠得很近,机箱内的温度会很高。牧神还说,很多年前,他用两个大风扇买了四张卡放在一起,结果一张卡温度太高,烧焦了。GPU选好后(华硕ROG),剩下的配置就比较简单了。CPU采用AMD的12核CPU,主板为某品牌号称PCIE4.016,硬盘为2TBM.2硬盘,风扇为120mm水冷风扇,全尺寸机箱被添加。安装步骤安装清单完成后,接下来就是具体的安装过程了。步骤如下:先放GPU。注意在贴装过程中不能用手触摸金属。如果有静电,很容易导致GPU导电。GPU放入后,拧上螺丝。然后把风扇放进去。插上电源后,将电源线和水线系在一起。然后连接NVLink网桥。最后接通电源,机器就可以运行了。压力测试安装完成后,接下来的任务就是继续安装操作系统。牧神安装了ubuntu22,安装好后远程连接。当然,牧神也将各种情况描述的更加详细。除了ubuntu22之外,windows和linux也可以根据不同的需求使用。这里木神使用SSH进行远程连接。木神的系统已经装好驱动了。同时他也指出,如果没有驱动,也可以使用apt-get来安装nvidia-driver-515。安装好后,运行nvidia-smi就可以看到系统了。您可以从中看到各种信息。比如GPU的个数,温度,瓦数,内存占用等。接下来也可以通过nvidia-smi的topo-m矩阵查看nv-link是否正常。可以看出两块GPU是通过NV4连接起来的。4表示4个通道,表示连接正常。下一个问题是测试系统在满载情况下的温度。木神说GPU是通过一个叫gpu-burn的小程序测试的,可以在github上下载。这里木神模拟跑了十分钟,也看到了两个GPU的温度。木神还开玩笑说,他能感觉到GPU在吹热风。同理,CPU也可以这样测试温度,使用cpu-burn。最终两块GPU的温度分别保持在58度和55度,功耗也被拉到了440多瓦(满载功耗480瓦),表现相当不错。最后一个参数是机器的功耗。牧神的测试用了大约1240瓦,也就是每小时1.5度电。从目前的数据来看,稳定性还可以。至于在本机上运行Transformer的性能如何,还得等下一个视频了。视频发布后,b站网友也表现出了极大的兴趣。有一堂课代表同学满分,列出了视频中提到的配置的完整列表。有网友抢着围观,“跟李牧学装机”。牧神自己说,感觉3090ti卡不是很好。随即,有网友表示,做不到就送人吧。当然,这种硬核装机视频下的评论一定是幽默风趣的。我只能说,太真实了。