StephenLaster是纽约McGraw-HillEducationGroup的首席数字官。他的主要工作是基于数据改进业务。Laster领导一个由数据科学家和工程师组成的团队,负责开发和实施公司的电子学习和教育技术战略。也就是说,该团队负责麦格劳-希尔教育的数字学习产品。Laster团队的一项重要工作就是为学生提供高效便捷的系统交互界面。近年来,该系统已处理多达40亿次交互。“对于一个具体的学生,我们可以知道他们对概念的理解程度,知道他们还需要努力,然后灵活调整自己的学习路径,最终让学生形成对知识的整体把握。”拉斯特说。正因为如此,拉斯特并不喜欢大数据这个词。相反,他更注重小数据的作用。为了给学生提供个性化的应用,团队对数据进行实时分析,预测客户行为,并构建具有自学习能力的小算法。当Laster面临购买或内部建造的问题时,他首先明白了市场差异化的机会,而不是基于项目本身——否则结论就是自己从头开始建造。例如,对于关系数据库管理系统的IT战略,拉斯特是这样考虑的:“虽然看起来没有问题,但为了差异化服务,我们决定发展人工智能和算法。”Laster和他的团队一直是从业务产品开始思考:“首先,我们在对客户的教学和学习方面的目标是什么?然后,我们回到技术层面来做决策。”“一旦确定了目标,我们再进一步细分,然后一一考察,看看市场上有没有现成的解决方案?”Laster说:“如果有现有产品,我们就购买或引入开源解决方案。如果没有现有解决方案,我们就自己构建。”最终,基于多年的学术和工程研究成果,McGraw-Hill开发了一个名为LearnSmart的API。Laster认为这是真正能够推动企业前进的解决方案。帕洛阿尔托市首席信息官JonathanReichental认为,麦格劳希尔通过自建而非收购,在应用层形成了差异化的市场优势,这是本文选题的关键灵感来源。“如果你是CTO并为市场提供服务,通常你会自己构建而不是购买。”Reichental说:“不过,如果你为企业提供服务,可能更适合使用SAP或第三方产品。”构建面向用户的应用程序有助于消除和集成我们在过去十年中构建的各种失败系统。购买也可以成为差异化因素,但根据Tagged.com的联合创始人兼首席技术官JohannSchleier-Smith的说法,总部位于旧金山的社交媒体网站,有时购买是正确的做法。他和联合创始人GregTseng于10年前(与Facebook同时)创立了Tagged.com,当时大数据尚未流行。“我们使用同一个数据库,同时支持在线交易处理和业务分析。”Schleier-Smith认为,如今的技术领域更加细分,比如NoSQL数据库、分析平台和开源的Apache社区。市场的扩大影响了技术架构的发展Tagged,每月收集1000亿个数据事件,导致超过50TB的数据被添加到其PB级存储集群中。其工程师团队致力于各种开源技术,例如slinux、ApacheKafka、ApacheSpark和内存数据分析引擎。同时,Tagged也使用了商业技术,如EMC的Greeplum和Vertica。对于那些可以针对特定类型查询(尤其是交互式查询)的高性能数据库技术,施莱尔-史密斯认为:“我们认为值得购买,因为它可以形成我们差异化的竞争优势。”自建还是买进?为什么不租呢?另一家位于旧金山的初创公司ContextLogic采用了十年前不存在的方法。既不是购买也不是构建,ContextLogic从云计算供应商处租用一项服务来管理其日志文件。ContextLogic是社交购物推荐引擎Wish.com的技术提供商,该公司声称拥有110万日活跃用户,其中96%的用户通过移动设备访问。在这种模式下,线上事件的抓取和记录是非常重要的,主要是针对用户的点击流,比如用户是如何找到在线购物车的。所有这些数据(每天需要记录大约40到5500万个事件)都被保存以供以后分析。“数据的规模及其时间序列使日志分析变得非常有趣。”ContextLogic联合创始人兼工程运维负责人DannyZhang表示:“这就是我眼中的大数据。”随着公司的发展,日志数据的规模和重要性也与日俱增。“日志记录和分析对我来说是最基础的工作,也是大数据分析中最重要的一步。”张说。这些数据包含客户的购物偏好,是搜索引擎算法开发和ContextLogic业务决策的基础。由于发展速度太快,外部解决方案难以跟上,所以小张更倾向于自主发展的路线。不过他也选择了大数据服务商TreasureData来管理日志数据,为客户提供基于亚马逊AWS的Hadoop平台。对此,张某解释道:“日志跟我们的开发速度没有关系,不管怎样,我们都按照同样的方式来做这部分工作。”而且,张还表示,租用云端数据管理服务其实是个大问题。成本优化。工程师再也不用担心数据的规模,可以专注于数据的分析。“我们没有等到天上掉下来完美的解决方案,问题还是问题,会一直存在。”张说:“我们恰好选择了宝数据作为处理问题的方式。”
