今天,企业开始意识到分析算法的好坏取决于它们设计的数据。以下是一些提高数据质量以获得最佳见解的方法。在KathyO'Neill的书《数学毁灭的武器》中,解释了大数据算法如果不以高质量运行,可能会产生错误的结果。奥尼尔引用了一个学区的例子,该学区运行一种算法来识别其200名表现最差的教师。其中一位被选中的老师实际上是表现最好的,但她班上的许多学生来自表现不佳的学校。结果,这位老师所教的学生考试成绩很差,因此对这位老师的评价不高。奥尼尔认为,其他形式的输入,例如来自管理员、学生和同行老师的精彩评论,应该包括在与算法相关的数据处理中,或许可以防止此类事件的发生。这提醒每一位大数据从业者,分析算法的好坏取决于它所操作的数据。企业如何确保数据质量能够优化算法的性能,并最终从算法中获得洞察力?关键在于数据准备和匹配企业想要应用算法的业务用例。以下是开发高质量数据和算法的六个最佳实践:1.“真实”算法企业必须仔细构建适合它们的算法的业务案例。如果您是医疗保健提供者并且想要识别您服务区域中心脏病风险高的人,您可能想要构建一个算法来询问“65岁以上的人是否已经接受过心脏手术?”而不仅仅是“谁超过65岁?”2.标准化数据应将重复记录标准化为单个数据事件,以避免获得重复数据并可能影响分析结果。3.修复损坏的数据在某些情况下,需要人员手动参与在算法检查损坏的数据之前纠正损坏的数据。损坏的数据可能包含拼写错误(例如缅因州居民使用MN而不是ME),或者它可能是某人的姓氏拼写错误,导致额外的记录不应包含在数据集。数据的准确性越好,分析结果就越准确。4.剔除无关数据,算法将提供企业正在寻找的洞察力越多,就越有可能5.获得用户的同意不要单方面决定企业要使用哪些数据xclude没有首先与用户核实,因为他们可能知道一些业务不知道的事情6.检查结果大数据算法和查询的趋势是根据需要修改和重新运行它们,但不一定要记录结果。相反,人们应该始终对结果进行基准测试并对其进行衡量。例如,如果您的第一个数据算法仅从产品的潜在买家那里获得3%的响应率(并最终购买了您产品的1%),那么您需要知道修改后的查询是否比这更好。
