当前位置: 首页 > 科技观察

探索性数据分析:决定人工智能和机器学习有效性的第一步

时间:2023-03-19 13:14:24 科技观察

糟糕的数据质量正在严重损害人工智能(AI)和机器学习(ML)技术的实际性能。这个问题困扰着各种规模的企业,从小型初创公司到像谷歌这样的科技巨头。但为什么数据质量总是不可靠?人为因素可能是关键。如今,企业手中的数据量远超以往,但要将这些数据转化为真正的价值仍然困难重重。AI和ML带来的自动化功能已被广泛认为是解决真实数据复杂问题的有效手段;许多公司也渴望使用它们来增强业务。然而,这股热潮本身也让一大批上游数据分析项目仓促上马。自动化管道建成后,其中的算法已经完成了大部分工作,几乎不需要更新数据收集过程。但是请注意,仅仅因为构建了管道并不意味着它会一劳永逸。随着时间的推移,我们需要不断探索和分析底层数据,以关注哪些漂移模式正在侵蚀管道性能。好消息是,数据团队完全有能力减轻这种侵蚀风险,但需要付出必要的时间和精力。为了保持自动化流水线的执行效率,我们必须定期进行探索性数据分析(EDA),以确保整个系统始终准确运行。什么是探索性数据分析?EDA是迈向成功的AI和ML的第一步。在分析算法本体之前,我们首先需要了解数据内容。数据质量将最终决定下游分析管道的实际性能。正确工作后,EDA将帮助用户识别数据中不必要的模式和噪音,同时指导企业更准确地选择合适的算法。在EDA阶段,我们需要主动查询数据以确保其行为符合预期。首先,从以下十个需要综合分析的重要问题入手:1.数据点是否足够?2.数据中心和离散措施是否符合预期?3.有多少数据点质量好,可以用于实际分析?4.是否有缺失值?这些不好的值是否构成了数据的重要组成部分?5.数据的经验分布是怎样的?数据是否符合正态分布?6.值中是否有任何特殊的集群或分组?7.有异常值吗?应该如何处理这些异常值?8、不同维度之间是否存在相关性?9.是否需要重新格式化数据以供下游分析和解释?10、如果数据是高维形式,能否在不丢失太多信息的情况下降维?某些尺寸是否有噪声?这些问题会引出更多的问题。这不是一个完整的问题列表,而只是一个思考的开始。最后,希望大家能够建立对现有数据模式的更好理解,进而正确地处理数据,选择最合适的处理算法。底层数据是不断变化的,这就需要我们在EDA上引入更多的时间来保证算法接收到的输入特征始终是稳定的。例如,Airbnb发现,数据科学家将模型开发周期中近70%的时间花在数据收集和特征工程上,并通过大量的分析工作确定数据结构和模式。简而言之,如果不花时间理解这些数据,人工智能和机器学习计划很容易失控。唯一不变,只有变化目前,数字服务最重要的应用集中在网络安全和欺诈检测上,这部分市场的总价值已超过300亿美元。预计到2030年左右,总市值有望突破1000亿美元。虽然AmazonFraudDetector和PayPalFraudManagementFilters等工具已经在帮助打击在线欺诈,但欺诈检测中唯一不变的是变化本身。企业需要不断为新的欺诈行为做好准备,而欺诈者也在努力“创新”以确保其攻击能力。每种新型欺诈通常都包含前所未有的数据模式。例如,新用户注册和交易时,往往对应的是AI系统从未见过的邮政编码。虽然新用户可能来自各地,但如果注册地点真的很偏僻,我们最好要小心。这类计算最困难的部分是让AI模型准确地区分欺诈交易和合法交易。作为数据科学家,我们需要引导底层算法初步了解正常交易和欺诈交易的特征,然后让它慢慢探索更多的欺诈检测方法。后续的学习离不开通过统计技术搜索到的大量数据。用户可以对客户群体进行分析,以确定普通客户和欺诈者之间的区别;然后提取有助于准确分类的信息,包括注册信息、交易内容、客户年龄、收入水平、姓名等。重要的是要注意,将合法交易标记为欺诈交易通常会对客户体验和产品声誉造成比欺诈本身更大的损害。比较“有意思”的一点是,EDA是一个需要在整个产品生命周期中不断重复的过程。新的欺诈活动必然对应于新的数据模式。最终,公司需要在EDA上投入大量时间和精力,以保持最佳的欺诈检测能力,以保持AI和ML管道的运行。总之,AI和ML的成功来自于对数据的深刻理解,而不是大量算法的盲目堆砌。AI和ML管道应该适应数据,而不是期望数据适应用户现有的管道。只有具备这些条件,才能有望AI和ML支撑的新业务勇往直前,一路前行。