当前位置: 首页 > 网络应用技术

基于[Paddlenlp]中文新闻文本标题分类

时间:2023-03-06 00:02:55 网络应用技术

  文本分类是使用计算机根据某个分类系统或标准自动对文本(或其他实体或对象)进行分类。这项竞赛是新闻标题文本的分类。玩家需要根据提供的新闻标题文本和类别标签来训练新闻分类模型,然后对测试集的新闻标题文本进行分类。Quantity.quantity.quantity.quantity.sife,在同一时间,参赛者需要使用飞行式桨式框架和核心飞行桨文本字段paddlenlp的开发库。Paddlenlp具有简单易用的 - 使用文本字段完整 - 程序API,多scenario应用程序示例和非常丰富的预培训模型。

  Thucnews基于SINA News RSS订阅频道2005?2011,其中包括740,000个新闻文件(2.19 GB),所有这些都是UTF-8纯文本格式。基于原始的Sina新闻分类系统,该竞赛的数据集中重新融合14个候选分类类别:金融,彩票,房地产,股票,家庭,教育,科学和技术,时尚,现任政府,体育,体育,星座,游戏,游戏,游戏,总共提供83,2471培训数据。

  数据集的格式:训练集和验证集:原始标题 + +标签,测试集格式:原始标题。

  竞争是一项更常规的短文本多分类任务。该项目主要基于paddlenlp,以罚款 - 对Paddlenlp提供的培训数据的新闻14分类模型的培训和优化。最后,预测并生成提交结果文件。

  请注意,该项目的操作需要极端版的GPU环境!如果您的内存不足,请注意适当的批次更改!

  伯特前知识补充:[原理]经典培训模型 - 伯特

  Paddlenlp不仅支持Roberta Pre -Training模型,而且还支持Ernie,Bert,Electra。

  下表总结了Paddlenlp.users支持的各种预训练模型,可以使用Paddlenlp提供的模型来完成诸如询问和答案,序列分类,令牌分类等任务。在同一时间,还提供了22个预培训参数权重为了使用用户,其中包含11种汉语模型的预培训重量。

  

  变压器模型(例如Berter)的学习率是热身的动态学习率。

  PS:在模型培训期间,您可以通过输入NVIDIA-SMI命令或单击底部的“性能监视”选项来适当调整批次化,以防止暂停内存内存的内存不足。

  PS:在模型培训期间,您可以在终端输入NVIDIA-SMI命令,或通过底部底部右下角的性能监视选项查看内存职业状态。如果视频存储器不足,则应适当调整批处理的值。

  留在这里或在这里发布缓存

  应当指出的是,将格式提交为zip的请求,并找到生成的提交。zip文件将下载到本地和竞争页面,以在主目录中提交提交!