当前位置: 首页 > 编程语言 > C#

测试相似的字符串内容Share

时间:2023-04-10 23:57:50 C#

测试相似的字符串内容我正在编写一个机器人,它将解析帖子并使用数据库中不明确相关的字符串进行回复。我的目标不是连贯性,只是为了模糊的相似之处,可能是因为有人对主题一无所知(但知识足以尝试回复)。有哪些方法可以帮助我选择正确答案?我想到的一件事是创建一个词汇表,检查列表中的哪些元素在帖子中,并根据这些结果从数据库中获得回复。这种原始方法大约有10%的成功率(基于对随机帖子的100个回复)。我可能会用更多的词来扩展列表,但这种方法有其局限性。有更好的吗?(PS数据库非常大-约500000个响应)首先,我认为除非你准备好编写大量代码,否则你可以希望的最好答案是50%左右。如果您愿意接受一些统计数据,请查看术语频率-反向文档频率。基本上,您将使用不常用词的频率来确定哪些关键字对文档至关重要,并将其用作tf-idf算法的输入以提取具有相同关键字的其他响应。然后,您可以将其与白名单和黑名单技术进一步结合,以忽略常用词并优先处理某些关键字。然后,您可以继续调整这些列表以增强您认为有效的算法。您还可以使用更简单的字符串指标来测试基本相似性。查看此字符串指标列表。您可能想研究向量空间映射和相似性。“模糊相关”的问题最有可能通过相似性统计分析来处理。看看这本小说类似的用法:http://www.cromwell-intl.com/security/attack-study/有一个名为“similar_text()”的PHP函数,(例如:$percent_similar=similar_text($str1,$str2);)这工作得很好,但我还没有在C#中想出类似的东西。如果你能拿到PHP函数的源代码,你可能会尝试翻译它。我认为也可能有Java版本。以上就是C#学习教程:测试相似字符串内容分享所有内容。如果对你有用,需要进一步了解C#学习教程,希望大家多多关注。本文收集自网络,不代表立场。如涉及侵权请点击右侧联系管理员删除。如需转载请注明出处: