当前位置: 首页 > 科技观察

真正的大数据问题以及为什么只有机器学习才能解决它

时间:2023-03-17 20:45:34 科技观察

真正的大数据问题以及为什么只有机器学习才能解决它进行业务预测。但是,不可避免地,他们应该意识到算法并不是魔法:如果他们输入的是垃圾数据,那么由此产生的洞察力就不会是一流的。所以,他们聘请了一些数据科学家,但通常他们将90%的时间花在数据清理上,只剩下10%的时间来做分析工作。这个过程的缺点也是企业喜欢用终端算法进行机器学习。Tamr的联合创始人兼CEOAndyPalmer表示,他们应该在早期的数据清理阶段尽可能多地应用机器学习,而不是依靠人类工作者来处理庞大的数据集。该公司使用机器学习帮助组织打破数据孤岛。许多公司在大数据收集系统上花费了大量资金。他们对数据数量而不是质量的重视是显而易见的。“在大公司工作的任何人都可以告诉你,他们从大多数内部系统获得的数据都是简单、直接的,”Tamr和AndyPalmer的联合创始人兼首席技术官Palmer说,他与SiliconSLEMedia合作进行移动直播.RoomCUBE主持人MichaelStonebraker与DaveVellante和PaulGillin讨论了会议,他们最近参加了在马萨诸塞州剑桥举行的麻省理工学院CDOIQ研讨会。他们探索了大数据机器学习的采用,以及为什么Tamr相信初创公司将提供比传统公司更好、更具可扩展性的大数据解决方案。清理和组织大数据Palmer和Stonebraker多年来一直专注于大数据技术。早在2007年,他们就预测ApacheHadoop大数据框架不会带来许多人预期的结果。帕默说,“有人说大数据将是一场灾难,这有点过于激进了。”他说,这并不是说大数据集不好,显然大数据是训练分析模型和人工智能的必要工具。有些人认为,只要有足够的数据,其余的分析或人工智能方面就会水到渠成,但这让许多公司感到失望。企业现在意识到数据质量不容忽视。他们还知道,数据科学家必须采用更好、更快的AI方法来分析数据,而不是花费80%到90%或更多的时间来清理数据。Palmer说,答案是将机器学习视为执行这些笨重、无趣的任务的非常实用的工具。许多供应商使用机器学习来使预测和推荐引擎等软件的营销更具吸引力。Tamr将其用于最没有吸引力的事情:在任何人分析、预测、营销或销售任何东西之前清理和组织大数据。机器学习可以大规模处理数据如今,不乏针对数据沼泽问题的建议解决方案。许多科技公司正在推出或更新他们的原始产品。然而,Stonebraker指出,这些系统通常使用的主要技术存在关键缺陷。这些传统技术包括ETL(提取、转换、加载)系统和主数据管理系统。但它的缺点是不能扩展。ETL的前提是,一个明智的企业会为用户想要的所有数据源提供一个全局的数据模型。然后让每个业务部门查看他们获得的数据、他们如何在全局数据模型中获得数据、将其加载到数据仓库等。Stonebraker说手动密集型流程通常无法扩展。他们通常在数据仓库中集成10或20个数据源。那么这个数据够吗?以现实世界中的一家公司为例。TAMR的客户ToyotaMotorEurope(TME)在多个国家/地区设有经销商。如果有人在西班牙购买一辆丰田汽车并将其开到法国,其法国经销商对此一无所知。ToyotaMotorEurope(TME)总共维护着250个独立的客户数据库,其中包含50种语言的4000万条记录。该公司正在将它们集成到一个客户数据库中,以解决该客户的服务问题。机器学习提供了一种合理的方法来做到这一点。“我从未见过能够处理这种规模的ETL系统,”Stonebraker说。Stonebraker解释说,主数据管理(MDM)无法扩展的原因主要是因为它是基于规则的。Tamr的另一位客户通用电气希望对其交易支出进行分析。该公司去年有2000万笔交易支出,并希望将所有这些支出分类到基于规则的层次结构中。“所以GE制定了500条规则,只用了18条就对2000万笔交易中的200万条进行了分类,但其余400多条规则不会像这18条规则那样快。”他指出这是收益递减的规律。“公司将不得不写很多他们无法理解的规则,如果你不使用机器学习,你就会不知所措,”Stonebraker承认机器学习不是灵丹妙药。真正的数据驱动需要技术和文化调整。事实上,根据NewVantagePartners的一项研究,77%的受访企业高管表示,尽管新软件大量涌入市场,但他们的组织仍在努力采用大数据/人工智能计划。但这比去年的调查有所增加。这些高管列举了采用机器学习的许多障碍,其中95%是文化或组织而非技术障碍。Gartner分析师NickHeudecker表示:“企业需要对此有计划,但大多数企业不会计划和处理大数据技术。”该案例展示了GE数据科学家如何将高达90%的时间用于筛选和分类,而不是致力于混合动力汽车或燃气轮机的开发和维护。如果大数据对现实世界的业务具有实用性,那么机器学习就是前进的方向。“人类必须被机器学习取代,因为人们明白传统的大规模数据集成技术根本行不通,”他说。许多公司正在考虑这一点,并将机器学习构建到其产品的核心中。“总的来说,传统供应商落后于时代10年,而初创公司可以提供尖端产品,”Stonebraker说。这种“前沿”的东西是否为数据货币化提供了一条简单的途径?可以?弥补在数据沼泽中浪费的时间?Palmer指出,“我们正在进入一个数据消耗速度更快的阶段。这个阶段最终会满足企业数据仓库的高期望吗?我不知道。但肯定会越来越近。”关了。”