TransFormer模型来自谷歌团队2017年发表的论文《Attention is all you need》。该论文提出了使用Attention替代Seq2Seq的概念模型循环结构首先被提出。给NLP领域带来了巨大的影响。并且随着近年来研究的不断推进,Transformer相关技术也逐渐从自然语言处理流向其他领域。截至目前,Transformer系列模型已经成为NLP、CV、ASR等领域的主流模型。因此,如何更快地训练和推理Transformer模型成为业界重要的研究方向。低精度量化技术可以通过减小数据的宽度来加速计算和通信过程,是现阶段加速模型训练和推理的重要手段。但美中不足的是,量化会造成精度和效果的损失,需要通过量化感知和训练的方式来降低。针对以上痛点,字节跳动研发并开源了LightSeq训练加速引擎,首次同时实现了Transformer模型的量化训练、量化推理和精度无损。LightSeq通过int8GEMM实现真正的量化训练过程,而不是使用业界广泛使用的伪量化方法,可以达到10倍以上的模型训练速度。但是,通过PACT等量化策略,可以最大限度地减少量化训练的损失。将量化模型导出为LightSeq支持的格式后,可以进一步使用LightSeq量化推理引擎实现快速推理,在T4显卡上加速可达70%。在7月21日的【TTALK】技术分享活动中,我们特别邀请了字节跳动高级算法工程师、LightSeq核心开发者熊颖老师做客直播间,为大家揭秘高-字节跳动的性能训练和推理引擎,为观众讲解LightSeq的技术原理和实用细节。无论你是算法行业的从业者,还是热衷于研究AI技术的开发者,相信都能从本次分享中获得一些技术经验和创新灵感。欢迎大家参加7月21日20:00【T·TALK】第十二期技术分享活动,扫描海报下方二维码预约观看
