【.com原稿】数据可以说是时下最火的东西。当年,有“洛阳纸贵”的景象;放眼当下,数据已经成为天下大佬的必备品,热度堪比“洛阳纸”。随着大数据浪潮的到来,大数据公司如雨后春笋般涌现。我身边几乎每个人都在谈论大数据,仿佛大数据就像是一剂“灵丹妙药”,不仅对大公司有需求,对小公司也有“好处”。然而,当越来越多的企业以加速的速度涌入大数据的洪流中时,往往很容易忽略的是,无论是初创企业还是大公司都声称收集了大量数据:有的是TB级别的数据,有的是TB级别的数据,还有有些比美国国会图书馆收集的所有信息都多,但光靠数量往往无法筑起“数据护城河”。首先,原始数据不如用于解决问题的数据有价值。我们在公开市场上看到了这一点:作为数据聚合商和销售商的公司(如尼尔森和Acxiom)的估值远低于开发由数据、算法和机器学习支持的产品的公司(如Netflix或Facebook)许多。当前一代的AI初创公司已经认识到这种差异,它们使用机器学习模型从他们收集的数据中获取价值。但即使在使用数据为基于机器学习的解决方案提供动力时,数据集大小也只是一方面。一些应用程序需要模型经过高度准确的训练才能为客户提供价值,而另一些应用程序则只需要很少的数据;一些数据集是真正专有的,而另一些则很容易复制;数据的价值衰减缓慢,而其他数据集则具有持久的价值。定义“数据需求”机器学习应用程序可能需要大量不同的数据才能为最终用户提供有价值的功能。MAP门槛在云时代,最小可行产品(MinimumViableProduct,MVP)的概念已经深入人心:具有足够价值来吸引初始客户的软件功能。在智能时代,我们也看到了数据和模型的类似场景:证明采用合理性所需的最高准确智能水平就是我们所说的最佳算法性能(MAP)。大多数应用不需要绝对的准确性来创造价值。例如,医生的生产力工具最初可能会简化将数据输入电子健康记录系统的过程,但随着时间的推移,可以通过了解医生如何将数据输入系统来实现数据输入的自动化。在这种情况下,MAP为零,因为应用程序具有仅基于软件功能的价值。然而,人工智能作为产品核心的解决方案(例如从CT扫描中发现中风的工具)可能需要与现有(基于人类的)解决方案相当的准确性。在这种情况下,MAP的性能必须与放射科医生一样好,并且可能需要大量数据才能投放市场。性能阈值并非每个问题都能以近乎绝对的精度解决。鉴于目前的技术水平,一些问题太复杂而无法完全建模。在这种情况下,增加数据可能会逐渐提升模型的性能,但很快就会出现边际效应递减的现象。在另一个极端,一些问题可以用非常小的训练集以接近最大的准确度来解决,因为被建模的问题相对简单,需要跟踪的维度很少,而且结果变化不大。简而言之,有效解决问题所需的数据量差异很大。我们将达到可行精度水平所需的训练数据量称为性能阈值。AI驱动的合同处理是具有低性能门槛的应用程序的一个很好的例子。合同类型有数千种,但大多数都具有共同的主要方面:涉及的各方、交换的价值项目、时间框架等。抵押贷款申请或租赁协议等特定文件高度标准化以符合法规。我们在几家初创公司看到,自动处理文档的算法只需要几百个例子来训练就可以达到可接受的准确性。企业家需要仔细权衡。如果性能门槛很高,你就会遇到启动问题:获取足够的数据来构建产品,推动客户采用,收集更多数据;太低了,你就无法建立数据护城河!稳定性阈值机器学习模型是根据取自它们所代表的真实环境的示例进行训练的。如果条件随着时间的推移逐渐或突然发生变化,而模型没有遵循,模型就会衰减。换句话说,模型的预测将不再可靠。例如,Constructor.io,这是一家使用机器学习对电子商务网站的搜索结果进行排名的初创公司。该系统会观察客户何时点击搜索结果,并使用该数据来预测未来搜索结果的排名顺序。但是电子商务产品目录在不断变化。如果模型对所有的点击一视同仁,或者只拿某个时间段的数据集去训练,可能会高估老产品的价值,而低估新推出的和当前流行产品的价值。保持模型稳定需要以与环境变化相同的速度接收新的训练数据。我们将此数据采集率称为稳定性阈值。容易过时的数据无法构建非常稳定的数据护城河。另一方面,如果稳定性门槛较低,长期获取丰富的新鲜数据可能会成为较高的进入壁垒。寻找长期可防御的机会MAP、性能阈值和稳定性阈值是找到坚实数据护城河的几个核心要素。先行者进入新产品品类的MAP可能较低,但一旦他们创造了一个品类并成为领导者,未来进入者的门槛就不能低于先行者。需要较少数据才能达到性能阈值并保持该性能(稳定性阈值)的区域防御性较差。新进入者可以随时积累足够的数据来匹配或超越您的解决方案。另一方面,利用低性能阈值(不需要太多数据)和低稳定性阈值(数据快速衰减)的公司仍然可以通过比竞争对手更快地获取新数据来建立护城河。稳固数据护城河的更多要素人工智能投资者往往通过“公共数据”和“专有数据”之间的热议来对数据集进行分类,但数据护城河的稳定性涉及更多方面,包括以下方面:?可访问性。?时间——数据在模型中积累和使用的速度有多快?数据是否可以立即访问?还是要花很多时间来获取和处理??成本——获取这些数据需要多少成本?数据用户是否需要为许可权付费,或者花钱请人标记数据??独特性——类似的数据是否广泛可供其他人随后建模并获得相同的结果?这种所谓的专有数据可能更恰当地称为“商品化数据”——例如工作列表、各种现成的文件(例如保密协议或贷款申请)以及人脸图像。?维度——数据集描述了多少不同的属性?这些属性中有许多与解决问题相关吗??广度——属性值的变化范围有多大?数据集是否允许个案和罕见的例外情况?是否可以汇集来自许多客户的数据或知识,以提供比仅来自一个客户的数据更广泛的覆盖范围??易腐烂性——随着时间的推移,数据的适用范围有多广?基于此数据训练的模型是否会随着时间的推移而持久存在,或者是否需要定期更新??良性循环——性能反馈或预测准确度等结果能否作为改进算法的输入?性能会随着时间的推移而提高吗?***软件定义时代使数据护城河对于建立长期竞争优势的公司而言比以往任何时候都更加重要。随着科技巨头推广人工智能工具包以吸引云计算客户,数据集是提供差异化??的最重要方式之一。真正可防御的数据护城河并非来自简单地收集最大量的数据,而是与特定问题领域相关联的独特、新颖的数据在为客户解决问题时变得越来越有价值。【原创稿件,合作网站转载请注明原作者和出处.com】【编者推荐】从技术、战略到管理:让我们了解CIO知识世界的演化战略,将金融欺诈扼杀在摇篮里!看人工智能在反欺诈领域的应用场景从新零售的角度定义新服务:技术是最大的生产力MES实施最可怕的是需求变化!制造产能共享将成为制造业发展的重要趋势?
