17行代码也能运行最新的NLP模型?你也可以!本次测评作者需要什么(防止被吓跑)一台可以上网,有基本python代码阅读能力的电脑可以修改几个模型参数对百度中文NLP训练模型的最新成果很感兴趣:Senta情感分析模型基本介绍Senta是百度NLP开放的中文情感分析模型,可用于中文句子的情感分析,输出结果为{positive/neutral/negativeOneofXiang},模型结构细节请查看Senta----github.com/PaddlePaddle/Paddlehub/demo/senta本示例代码选择Senta-BiLSTM模型。模型来源:Paddlehub简介PaddleHub是基于PaddlePaddle开发的预训练模型管理工具,可以借助预训练模型更方便的进行迁移学习。本次评测只使用预训练模型,没有微调代码运行环境:百度AI工作室实验代码来自paddlehub/senta_demo.pygithub:https://github.com/PaddlePaddle/PaddleHub/blob/release/v0。5.0/demo/senta/senta_demo.pyfrom__future__importprint_functionimportjsonimportosimportsiximportpaddlehubashubif__name__=="__main__":#加载senta模型senta=hub.Module(name="senta_bilstm")#将要测试的短文本以str格式放入此listtest_text=["Thisrestaurantisnotverytasty","Thismovieisnotsatisfaction",]#指定模型inputinput_dict={"text":test_text}#将数据喂给senta模型的文本分类函数results=senta.sentiment_classify(data=input_dict)#遍历分析每个短文本forindex,textinenumerate(test_text):results[index]["text"]=textforindex,resultinenumerate(results):ifsix.PY2:print(json.dumps(results[index],encoding="utf8",ensure_ascii=False))else:print('text:{},predict:{}'.format(results[index]['text'],results[index]['sentiment_key']))详细成语评价情感分析inputtest_text=['长海桑田',#中型,世界变了很多'下利巴人',#赞义,流行文艺'好-know',#赞义,一致表扬优秀好人好事'危言耸听',#赞义,说诚实话,做诚实事'鬼斧神工',#表扬,指的是自然之美'不称赞',#赞义,不能再加一句,表示文笔很好'文字不加分',#赢义,指的是文笔精湛skills'不尽人意',#赞义,一般OK满意'一丝不苟',#评价,指细心周到'事半功倍',#评价,指不费吹灰之力'事半功倍'事倍功半',#谁义,指白费力气却没有好结果'刚要动',#谁义,指做坏事'面目全非',#臭义,指大破坏‘江河已衰’#至义,指事物日趋衰落‘脚下的评论’,#至义,指对小细节的过分挑剔‘生命在炭中’,#而义,指极度苦难的人'始作俑者',#Derogatory,第一个做坏事的人'无所不能',#Derogatory,做所有坏事'无所不能',#Derogatory,做所有坏事'白阳春xue',#贬义,不易理解的高等艺术]输出运行消耗时间:4秒480毫秒text:沧桑,positive_prob:0.3838,predict:negative#errortext:夏利巴人,positive_prob:0.7957,predict:positivetext:众所周知,positive_prob:0.906,predict:positivetext:dangerouswords,positive_prob:0.588,predict:positivetext:鬼斧神工,positive_prob:0.657,predict:positivetext:一个不喜欢的词,positive_prob:0.9698,predict:positivetext:文中没有重点,positive_prob:0.1284,predict:negative#errortext:unsatisfactory,positive_prob:0.0429,predict:negative#Errortext:healthy,positive_prob:0.8997,predict:positivetext:事半功倍,positive_prob:0.6181,predict:positivetext:事半功倍,positive_prob:0.8558,predict:positive#errortext:readytomove,positive_prob:0.7353,predict:positive#textUnrecognizable,positive_prob:0.2186,p预测:negativetext:下降,positive_prob:0.2753,预测:negativetext:评论,positive_prob:0.6737,预测:positive#errortext:生命损失,positive_prob:0.4661,预测:neutral#errortext:煽动者,positive_prob:0.247,预测:negativetext:万能,positive_prob:0.5948,预测阳性#errortext:omnipresent,positive_prob:0.553,predict:positive#errortext:YangchunBaixue,positive_prob:0.7552,predict:positive#error准确率:10/20=50%转复句情感分析inputtest_text=['小明通过了testfirst,buthedoesnotpride',#positive'你不是不聪明,而是不认真',#negative'虽然小明很努力,但他还是考不到100分',#negative'虽然小明有时很调皮,但他很懂事',#Active'虽然桥已经建了很多年,但她还是很坚强',#Active'虽然他很调皮,但他学习很好',#Active'Learningisnotboring,butInteresting',#Active'虽然很难,但我会我不会退缩',#Active'虽然小姐姐只有5岁,但她可以倒着背乘法口诀',#Active'虽然我过分,但都是为了你好',#positive'小明的成绩不好,不是因为他不聪明,而是因为他不努力',#negative'虽然这样不合适,但已经是最好的选择',#positive'虽然这次失败了,但是成功的开始',#Active'虽然这道题很难,但我相信我会做',#Active'虽然爷爷年纪大了,但他仍然坚持每天锻炼',#Active'不是没有没有美,只是我们缺乏发现美的眼光',#negative'虽然生活条件很好,但浪费资源迟早会带来坏结果',#negative'他不是我们的敌人,而是我们的朋友',#positive'不是他做不到,而是他不想做',#negative'虽然那个梦想对我来说似乎遥不可及,但我相信它会实现ometrueaftermyefforts',#positive]输出耗时:2秒667毫秒text:小明虽然考了第一,但一点也不骄傲,positive_prob:0.9598,predict:positivetext:你不是不聪明,但不认真,positive_prob:0.0275、predict:negativetext:虽然小明很努力,但还是没能考到100分,positive_prob:0.7188,predict:positive#errortext:小明虽然有时调皮,但很懂事,positive_prob:0.8776,predict:positivetext:虽然这个桥已经建了很多年了,但是她还是很强的,positive_prob:0.9782,predict:positivetext:虽然很调皮,但是学习很好,positive_prob:0.9181,predict:positivetext:Learning不枯燥,但有趣,positive_prob:0.3279,predict:negative#Errortext:虽然很难,但是我不会退缩,positive_prob:0.3974,predict:negative#Errortext:虽然小姐姐只有5岁老了,她可以倒着背乘法公式,positive_prob:0.5124,predict:neutraltext:虽然我过分了,但都是为了你好,positive_prob:0.399,predict:negative#Errortext:小明成绩不好,不是因为他不是聪明,但是因为自己不努力,positive_prob:0.1881,predict:negativetext:虽然这个不合适,但是已经是最好的选择了,positive_prob:0.806,predict:positivetext:虽然这次失败了,但是是一个成功的开始,positive_prob:0.4862,predict:neutral#Errortext:虽然这道题很难,但是我相信我会做的,positive_prob:0.3959,predict:negative#Errortext:爷爷虽然年纪大了,但还是坚持每天锻炼,positive_prob:0.9178,predict:positivetext:No没有美,只是我们缺乏发现美的眼光,positive_prob:0.5614,predict:positivetext:虽然他们的生活条件很好,但浪费资源迟早会带来不好的结果,positive_prob:0.1086,预测:负文本:他不是我们的敌人,而是我们的朋友,positive_prob:0.3749,predict:negative#Errortext:不是他做不到,而是他不想做,positive_prob:0.1247,predict:negativetext:虽然那个梦想似乎离我很遥远遥不可及,但我相信经过我的努力一定会实现,positive_prob:0.957,predict:positiveaccuracyrate:13/20=65%具体场景情感分析inputtest_text=['这辆车耗油很快','这辆车开得很快','这个房间闻起来像死老鼠','这个房间闻起来像烟味','他的发型看起来像个杀手','这件衣服可以机洗','这件衣服穿太多了Ball','这个软件很容易崩溃','他打得像蔡徐坤','这个是20','这个可以玩','他投篮像科比','这个房间的布置很有情调','这酒勾起回忆','衣服很酷','侧脸像林峰','五星好评','以后还会回购','物超所值ney','优价廉','Thisgirlmakesmyheartbeat']输出运行时间:2秒676毫秒text:这辆车耗油很快,positive_prob:0.2926,predict:negativetext:这辆车开得很快,positive_prob:0.8478,预测:positivetext:这个房间闻起来像一只死老鼠,positive_prob:0.0071,预测:negativetext:这个房间闻起来像烟,positive_prob:0.2071,预测:negativetext:他的发型看起来像Shamat,positive_prob:0.3445,预测:negativetext:Thisclothesmachinewashable,positive_prob:0.3912,predict:negativetext:衣服穿多了起球,positive_prob:0.679,predict:positive#Errortext:这个软件很容易崩溃,positive_prob:0.0051,predict:negativetext:他打球的方式像蔡徐坤,positive_prob:0.8684,predict:positive#errortext:thisis20,positive_prob:0.1695,predict:negativeext:这个可以玩,positive_prob:0.3503,predict:negative#Errortext:HesholeslikeKobe,positive_prob:0.7263,predict:positivetext:这个房间的布置很情绪化,positive_prob:0.9519,predict:positivetext:This酒让人回味,positive_prob:0.7431,predict:positivetext:这件衣服很酷,positive_prob:0.9817,predict:positivetext:侧面像林峰,positive_prob:0.5621,predict:positivetext:五星级好评,positive_prob:0.9971,predict:positivetext:以后会回购,positive_prob:0.6903,predict:positivetext:性价比很高,positive_prob:0.9799,predict:positivetext:物美价廉,positive_prob:0.9542,predict:positivetext:这个妹子让我心动,positive_prob:0.956,predict:positivecorrectrate:17/20=85%总结,三个不同类别的评价如下:总结1.模型计算耗时少,用户体验好2.在成语情感分析方面,我特意挑选了一些字面意思比较难理解,容易混淆情感的成语(比如不满意判断为否定),这些也是高考的内容。虽然最终模型的准确率只是一般,但我觉得还是可以接受的。适当加入成语句子作为训练语料,会让模型更好地“理解”中文。如果你有兴趣,可以尝试一些从字面上更容易理解情绪的成语。我觉得分数会比这次评测的结果好。3.转句的情感分析也是对模型的挑战。实际测试成绩为65分。我个人觉得模型对于“但是”和“虽然”这样的词没有足够的重视,因为这些转词背后的语义往往是最能影响整个句子的情感的,最终得分是65分。我个人认为该模型在这方面表现一般。4.最佳成绩为特定场景的情感分析。预训练语料库里大概有很多淘宝评论吧?像杀马特20科比这样的小词是判断情绪的关键,模型确实捕捉到了并判断出来了。这让我很惊讶。
