在《哈利波特》的世界里,分院帽是一种算法,可以获取学生的行为历史、喜好和性格等数据,然后根据哪些学生应该进入霍格沃茨的哪个分院进行决策。如果现实世界中存在这样的分类帽,那将是一种机器学习应用程序,可以根据复杂的数据集自主做出决策。如今,机器学习正在为医疗保健、安全和农业等数万亿个全球行业提供动力。如果机器学习有望创造实质性价值,那么问题是:该价值将在哪里产生?在本文中,我将描述三种类型的公司如何创造和获取价值:应用特定行业机器学习工具的传统公司和构建垂直集成机器学习应用程序的公司。机器学习不仅仅是科技巨头的游戏Facebook、亚马逊、苹果、Netflix和谷歌以其在机器学习方面的创新而闻名,从新闻提要到推荐引擎,但大多数人还没有意识到传统行业对机器学习的需求与日俱增。到2023年,全球在人工智能系统上的支出预计将达到980亿美元,是2019年支出规模的2.5倍以上,其中金融服务、零售和汽车行业处于领先地位。例如,管理资产超过7万亿美元的投资管理公司贝莱德(Blackrock)在2018年推出了多款机器学习驱动的ETF产品。目前,机器学习在医疗保健行业也受到广泛关注,机器学习的预算未来三年,涉及医学影像、诊断和药物发现的解决方案预计将达到100亿美元。在这些企业客户中,出现了三大客户群:软件工程师、数据科学家和业务分析师,有时也被称为“公民数据科学家”。尽管他们的技术培训水平较低,但业务分析师构成了一个庞大且不断增长的用户群,他们正在应用机器学习来帮助他们的组织利用他们不断增长的数据存储库。机器学习工具已经渗透到各个行业。为了适应这些客户群,希望在这次淘金热中出售选秀权的公司数量激增。特斯拉和Snap前工程副总裁StuartBowers表示:“挑战不在于让机器学习变得透明,而是让痛苦的部分(例如日志记录、数据管理、部署和可再现性)变得简单,然后使模型训练高效且可调试。“作为销售更多基础设施服务战略的一部分,现有供应商——尤其是公共云中的供应商——采用了“端到端平台”方法。例如,AWS的机器学习平台Sagemaker最初是开发对于专家开发人员和数据科学家,它最近推出了SagemakerStudio以将其受众扩展到技术背景较少的用户。对于像AWS这样的技术巨头来说,销售机器学习工具是一种推动其客户群的方式。他们在设施上的支出方式意味着他们有能力以极低的成本提供这些工具。独角兽也经常与云服务提供商合作创造价值。例如,Databricks是一个机器学习平台,它以强大的数据工程能力着称,该平台建立在ApacheSpark的顶端。该公司成立于2013年,目前估值为62亿美元。DataBricks与微软的合作让微软的Azure能够处理更多的数据和计算,同时也极大地帮助DataBricks拓展了市场。然而,企业从业者开始需要“一流”的解决方案,而不是旨在吸引他们购买更多基础设施的工具。为了解决这个问题,下一代的初创公司将寻求更有针对性的方法。与目前主要现有平台广泛采用的模式相反,初创企业可以选择特定问题并开发专用工具,可以更有效地解决这些问题。在机器学习工具领域,目前存在三大问题给用户带来了重大挑战。数据集管理虽然机器学习的结果可能看起来很优雅,但实际上,从业者大部分时间都花在清洗、组织和转换数据上。因为数据越来越多地以各种不同的格式分散在多台机器和云中,将数据转化为团队可以轻松使用和用于协作的单一消费格式是一件困难的事情为了解决这个问题,Tecton联合创始人兼首席执行官MikeDelBalso正在使用他的新创业公司将他在优步开创的最佳实践民主化。他说:“损坏的数据是导致生产机器学习系统出现问题的最常见原因。建模人员大部分时间都在训练时选择和转换特征,然后构建管道以将这些特征传递到生产模型中。Tecton构建了一个平台来管理这些“功能”,并以这种方式简化了数据层的复杂性。从企业原始数据收集的智能实时信号对于优化机器学习至关重要。在更上游,正在为数据库构建LiquidataOpensourceGitHub等价物。在我与Liquidata联合创始人兼首席执行官TimSehn(前Snap工程副总裁)的谈话中,他强调“就像开源软件一样,我们需要在开放数据上进行协作——在互联网层面。这就是我们创建DoltHub的原因,Internet上存储、托管和协作数据的免费场所。实验跟踪和版本控制的另一个常见问题是结果之间缺乏可重复性。机器学习模型缺乏版本控制使得难以重现实验。作为Lukas,WeightsandBiases的联合创始人兼首席执行官正如Biewald在我们的采访中分享的那样,“如今最大的痛苦是缺乏基本的软件和最佳实践来管理新的编码风格。你不能用坏刷子画好,你无法在糟糕的IDE(集成开发环境)中编写好代码,也无法使用我们今天拥有的工具构建和部署出色的深度学习模型。”他的公司在20年推出了实验跟踪解决方案18,使OpenAI等客户能够将单个研究人员的见解传播到整个团队。缩放模型部署和监控结果是另一个重要问题。Anyscale是开源框架Ray背后的公司。这家初创公司为可扩展的机器学习抽象了分布式应用程序和基础设施。在我与创始人兼首席执行官罗伯特西原的谈话中,他分享了他的想法,“正如微软的操作系统为开发人员工具和应用程序创建了一个生态系统一样,我们也在创建基础设施来支持应用程序。一个丰富的程序和库生态系统,从模型训练到部署,允许开发人员轻松扩展机器学习应用程序。可扩展性在自然语言处理或NLP领域也在飞速增长。HuggingFace构建了一个开源库来构建、训练和共享NLP模型。“过去三年发生了范式转变,NLP中的变革性学习开始显着改变将NLP集成到业务应用程序中的可用性和准确性,”该公司联合创始人兼首席执行官ClémentDelangue说。他说:“我们正在使公司能够在一周而不是几个月内将NLP模型的最新研究投入生产。”其他有前途的初创公司包括Streamlit,它允许开发人员仅使用几行Python来创建机器。了解应用程序并立即部署。OctoML将额外的智能层应用于机器学习,使系统更易于优化和部署。FiddlerLabs建立了ExplainableAIPlatform(可解释的人工智能平台),可以持续解释和监控生产结果。面对现有企业的激烈竞争,要想建立一家长期的公司,初创企业必须问自己两个问题:我们对哪些客户至关重要?接触这些客户的最佳方式是什么?许多初创公司提出了占领大市场1%的想法,但通常这些大市场即使不是过于拥挤,也能得到很好的服务。专注于赢得核心客户群的公司必须表现出强大的早期吸引力,这会转化为长期的扩张潜力。为了吸引这些客户,Databricks和Datarobot等大多数老牌企业都采用了自上而下的企业销售方式。与我们在开发工具领域看到的类似,我预计机器学习初创公司最终会从纯粹的企业销售发展为推动自下而上的采用,并在当今以企业为中心的中心成型公司中获得优势。垂直集成的机器学习应用程序正在颠覆现状机器学习领域一些最令人兴奋的公司正在开拓新的商业模式,以颠覆整个行业。汽车行业是最明显的例子。仅在2019年,该行业的投资就达100亿美元。机器学习也将彻底改变的下一代垂直市场包括医疗保健、工业、安全和农业。“机器学习在‘机器学习+X’模型中最为有效,”Salesforce首席科学家RichardSocher说。“最好的机器学习公司都有明确的垂直重点。他们甚至不为机器学习公司定义自己。他认为医疗保健是一个非常独特且前景广阔的领域:Athelas已将机器学习应用于免疫监测,通过收集患者白细胞计数数据帮助患者优化药物摄入。Curai使用机器学习来提高医生推荐的效率和质量,让他们有更多的时间来治疗病人。Zebra和AIdoc通过训练数据集更快地识别医疗状况来提高放射科医生的能力。在工业和物流领域,一家结合了强化学习和神经网络的初创公司Covariant使机器人能够管理大型仓库设施中的物品;AgilityandDexterity也在构建以越来越复杂的方式适应不可预测情况的机器人。情况;Interos应用机器学习技术来评估全球供应链网络,帮助公司围绕供应商管理、业务连续性和风险做出关键决策。在安防领域,Verkada通过对视频直播的智能分析和学习,重新构想企业物理安全;Anduril建立了一个机器学习骨干网,可以整合来自传感器塔的数据,以增强国家安全情报;ShieldAI的软件允许无人系统在战场上解释信号并智能地行动。农业是另一个从机器学习技术中获得巨大收益的垂直领域。约翰迪尔收购了BlueRiverTechnology,这是一家开发智能作物喷洒设备的初创公司。合并后公司智能解决方案集团的首席科学家LeeRedden表示:“我们通过引入计算机视觉来识别单个植物并对其采取行动,从而改变了农业世界。“其他著名的农业科技公司包括Indigo,它将机器学习用于“精准农业”,利用数据以更有利可图和可持续的方式生产食物。我们从这里何去何从?总而言之,机器学习已经悄然成为农业的一部分我们的日常生活,为我们的汽车提供动力,经营我们的医院并保护我们吃的食物。大公司已经孵化了迄今为止最先进的技术,但真正的希望在于下一波机器学习应用程序和工具,这些应用程序和工具可以改变周围浮华的炒作机器智能从哈利波特式的幻想到有形的社会价值。有很多理由看好机器学习在未来几年可以创造的价值。传统企业将培训数百万公民数据科学家,将破碎的行业重塑为更高效的行业.机器学习工具将降低构建智能应用程序的门槛,将数以百万计的新创意转化为产品。垂直机器学习商业模式将使健康食品、可靠的个人安全和负担得起的医疗保健的获取民主化。这些是我们将发现机器学习真正价值的地方。
