当前位置: 首页 > 科技观察

一文搞懂模糊匹配:定义、过程与技术_0

时间:2023-03-12 04:04:40 科技观察

一篇了解模糊匹配的文章:定义、流程和技术去哪里购物,如果无法为消费者提供个性化体验,52%的零售商可能会转向竞争对手。因此,品牌每天收集数百万数据来识别和建立客户档案,这是大多数公司面临的最大挑战之一。当公司使用多种工具收集数据时,他们经常会遇到拼写错误的客户名称或格式混乱的电子邮件地址。此外,当不同的应用程序拥有关于同一客户的不同信息时,由于信息分散,无法洞察客户的行为和偏好。为了解决上述问题,我们引入了模糊匹配。接下来,我们将介绍什么是模糊匹配,它是如何实现的,有哪些常用的技术,以及它面临的挑战。开始吧。什么是模糊匹配?模糊匹配是一种数据匹配技术,它比较两个或多个记录并计算它们属于同一实体的可能性。模糊匹配得到的不是匹配或不匹配,而是一个百分比(通常在0-100%之间),它描述记录属于同一客户、产品或员工的可能性。有效的模糊匹配算法可以处理一系列数据歧义,例如名字/姓氏颠倒、首字母缩写词、缩写词、拼音和故意拼写错误、缩写词、添加/删除标点符号等。模糊匹配过程模糊匹配包括以下几个过程:1。创建基本标准化错误的摘要记录。这包括为跨记录的统一和标准化视图而修复的错误。2.根据将要发生的模糊匹配来选择和映射属性。由于属性的标题可能不同,因此必须跨数据源进行映射。3.为每个属性选择一种模糊匹配技术。例如,姓名可以根据键盘距离或姓名变体进行匹配,而电话号码可以根据数字相似性指标进行匹配。4.为每个属性选择一个权重,例如与低权重字段相比,高权重属性对整体匹配置信度的影响更大。5.定义阈值级别——只要模糊匹配得分高于这个级别,就认为匹配,低于这个级别就认为不匹配。6.运行模糊匹配算法,分析匹配结果。7.掩盖任何可能的误报。8.合并、删除重复或简单地消除重复记录。模糊匹配参数从上面定义的过程可以看出,模糊匹配算法有多个技术参数,包括属性权重、模糊匹配技术、得分阈值等。为了获得最好的结果,需要用不同的参数进行模糊匹配,找到最适合数据的值。许多供应商将这些功能封装到模糊匹配解决方案中,允许自动调整参数,但也可以根据需要进行定制。什么是模糊匹配技术?当今使用的大多数模糊匹配技术都不同于比较和匹配字段的公式算法。根据数据的性质,可以选择适当的技术。下面列出了常见的模糊匹配技术:1.基于字符的相似性度量(最适合匹配字符串):a)编辑距离:逐个字符地计算两个字符串之间的距离。b)仿射间隙距离:通过同时考虑字符串之间的间隙或空间来计算两个字符串之间的距离。c)Smith-Waterman距离:通过考虑是否存在前缀和后缀来计算两个字符串之间的距离。d)Jaro距离:用于匹配名字和姓氏。2.基于标记的相似性度量(最适合匹配字符串中的完整单词):a)原子字符串:将长字符串分成由标点符号分隔的单词,并在单词上进行比较。b)WHIRL:类似于原子字符串,但是WHIRL为每个单词分配了权重。3.语音相似度指数(最适合发音相似但字符不同的单词):a)Soundex:比较拼写不同但发音相似的姓氏。b)NYSIIS:与Soundex类似,只是它保留了有关元音位置的详细信息。c)Metaphone:比较发音相似的单词、美国常用的单词以及美国常用的名字和姓氏。4.数字相似度指数、数字之间的距离、数字数据的分布等。模糊匹配的挑战虽然模糊匹配的整个过程提供了意想不到的帮助,但其实现难度很大。以下是企业面临的一些挑战:1.高误报率许多模糊匹配解决方案的误报率都很高。当算法对匹配和不匹配进行错误分类时,就会发生这种情况,反之亦然。通过配置匹配定义和模糊参数,可以尽可能减少不正确的结果。2.计算复杂度在匹配过程中,每条记录都与同一数据集中的所有记录进行比较。在处理多个数据集的情况下,比较的次数呈指数增长。值得注意的是,随着数据库容量的增长,对比呈现出二次增长的趋势。因此,必须使用资源密集型计算系统。3.验证测试的匹配记录合并在一起,形成完整的实体模型,可以通过360度视角观察。在此过程中犯的任何错误都会增加业务运营的风险。这就是为什么需要进行详细的验证测试以确保经过调整的算法始终如一地产生高度准确的结果的原因。总结企业通常将模糊匹配解决方案视为长期运行、执行复杂、耗费资源和资金的项目。事实上,投资于能够产生快速准确结果的解决方案是关键。组织在选择模糊匹配工具时需要考虑很多因素,例如时间和金钱的投入、可扩展性设计以及数据集的性质。这些将帮助他们选择解决方案,充分利用数据产生价值。译者介绍崔浩,社区编辑,资深架构师。他拥有18年的软件开发和架构经验,以及10年的分布式架构经验。原标题:思想领袖模糊匹配——定义、过程和技术,作者ZaraZiad