当前位置: 首页 > 科技观察

一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新:涵盖140种语言组合

时间:2023-03-17 23:30:50 科技观察

一口气发布1008个机器翻译模型,GitHub上最火的NLP项目更新:覆盖140种语言组合现在你可以用GitHub上最火的NLP项目做机器翻译了。没错,就是拥有26.9k星的HuggingFace(抱脸)的Transformer项目。在最新的更新版本中,宝宝联发布了1008个模型,正式进军机器翻译领域。该模型涵盖140种不同的语言组合,中译英、英译法、法译阿拉伯……以及一对多翻译。就像这样:HuggingFace的创始人ClementDelangue说:全世界有这么多人在使用我们的开源项目,越来越多使用不同语言的人聚集在NLP社区。这让我们意识到应该在模型中提供更多其他语言的访问,同时也应该提供翻译。1008个机器翻译模型据霍宝莲介绍,这1000多个模型是由研究人员使用无监督学习和OPUS数据集训练的。赫尔辛基大学及其全球合作伙伴的OPUS项目旨在收集和开源各种语言数据集,尤其是低资源(小语种)语言数据集。△部分模型和,HuggingFace也将流行的Seq2Seq模型加入到Transformer项目中。比如GoogleAI的T5,Facebook的BART。使用方法一如既往的简单。例如,使用opus-mt-en-ROMANCE模型同时将英语翻译成法语、英语翻译成葡萄牙语以及英语翻译成西班牙语,所有这些都通过一个API完成。有网友评价:省时利器。关于HuggingFaceTransformerHuggingFaceTransformerPython库目前pip安装量超过50万,SQuAD排行榜上最好的语言模型全部收录。比如GoogleAI的BERT、XLNet,FacebookAI的RoBERTa,OpenAI的GPT-2。使用简单,只需一次导入。支持TensorFlow2.0和PyTorch之间的深度互操作。还有一个在线演示供您实时播放。这么万星的项目,NLPer用起来还是不错的。这是用的?传送门GitHub项目:https://github.com/huggingface/transformers