您需要了解数据科学团队“Thumbsdown”(不喜欢)简单评级系统中的这些角色。该系统可以根据匹配百分比推荐电影,但有些人觉得这很反感。那么,如何将电影艺术中的所有细微差别减少为原始的二元反应呢?事实上,Netflix发现人们对他们认为好的电影给予高分,但不一定是他们真正喜欢看的电影。的电影。至少数据是这么说的。那么数据分析在像Netflix这样的公司中是如何运作的呢?数据科学团队的作用是什么?Netflix反馈系统GibsonBiddle是Netflix的前副总裁兼首席产品官。在谈到消费者洞察时,他解释了导致整个评级系统发生变化的意外客户行为。当转换为百分比匹配时,Netflix表示,虽然观众可能喜欢看亚当桑德勒主演的喜剧,但他们可能只会给它三颗星;五星级评价并不能增加其整体乐趣,让订阅者满意对Netflix来说至关重要。因此,他们简化了反馈系统以避免偏见。但这些对客户的洞察力本身就令人印象深刻,如果没有促进数据使用的文化和强大的数据基础设施,它们是不可能实现的。用技术术语来说,这称为数据驱动型组织。数据驱动的组织您可能经常听到“数据驱动”这个流行语,但它的真正含义是什么?仅Netflix每天就记录超过7000亿次事件,从登录和点击电影缩略图到暂停视频和打开字幕。所有这些数据都可供用户使用。任何人都可以使用Tableau或Jupiter等可视化工具访问它,或者他们可以通过大数据门户访问它——一个允许用户检查报告、生成报告或查询他们需要的任何信息的环境。然后,这些数据将用于制定业务决策,从较小的缩略图(例如要显示哪些缩略图)到公司决策(例如Netflix应该投资并下一步推出哪些节目)。Netflix在数据驱动型组织中并不孤单。据估计,约有97%的财富1000强企业投资于人工智能和大数据等项目。在下面了解真正的数据基础设施技术和使它们运行的??数据工程师。数据基础设施技术为了描述数据基础设施的工作原理,技术人员借用了通常用于输送液体或气体的术语“管道”。数据管道有自己的起点、终点和中间站。所以这是一个非常贴切的比喻。数据的来源可以是任何东西,从按下保持按钮和刷新页面到与客户支持的对话记录,从车辆跟踪设备到发电厂的涡轮振动传感器。当今世界,其实很难说什么数据不能产生,甚至没有数据也能告诉人们一些事情。生成数据项后,它会沿着管道传输到暂存区。这是保存所有原始数据的地方。原始数据尚未准备好使用。你必须做好准备。如果不这样做,则必须填补空白,更改格式或合并来自不同来源的数据以获得更细致的视图。一旦完成这些操作,就可以获得结构化和干净的数据。所有这些操作都是自动进行的。他们用两个词来描述。Fetch:从数据源中获取数据并发送到暂存区。转换:为消费和加载准备数据将准备好的数据进一步推入ETL。所有准备好的数据都进入另一个存储,即数据仓库。数据仓库与暂存区不同,数据仓库是所有存储记录结构化并随时可用的地方。就像图书馆的分类系统一样,可以查询、可视化和下载仓库的信息。为此,必须拥有商业智能(BI)软件。它将数据呈现给最终用户。数据列表和业务分析师数据列表和业务分析师是执行基本任务的人。他们访问数据、探索数据、可视化数据,并尝试使其具有商业意义。例如,公司的营销活动是否成功?表现最差的频道是什么?它们就像一个感官系统,用历史数据支持业务,并为管理层和最终的决策者提供见解。数据工程师数据工程师负责构建整个管道。大多数技术人员都精通所谓的“管道”。通过管道将数据从源移动到目的地,并沿途对其进行转换。他们设计管道架构、设置ETL流程、配置仓库并将其与报告工具连接。例如,Airbnb拥有大约50名数据工程师。公司有时可能会遇到涉及一些额外规则的更精细的方法。例如,数据质量工程师确保正确捕获和转换数据。试图从中得出决策时,拥有有偏见或不正确的数据的成本太高。可能会有单独的工程师只负责ETL。此外,BI开发人员只专注于集成报告和可视化工具。然而,报告工具不会成为头条新闻,数据工程也不是21世纪最好的工作,但机器学习和数据科学家可能是。机器学习和数据科学家众所周知,数据科学家特别擅长收集数据并回答有关数据的复杂问题,例如企业下个季度的收入是多少?优步预订什么时候到达?喜欢《辛德勒名单》和《原钻》的可能性有多大?实际上有两种方法可以回答这些问题。数据科学家就像业务分析师和数据分析师一样使用商业智能工具和仓库数据。因此,他们将从仓库中获取数据。有时数据科学家使用数据湖:另一种存储非结构化欺诈数据的存储方式。他们将创建一个预测模型并提出可供管理层使用的预测。这对收入估算的一次性报告很有用,但对预测Uber预约的到达时间没有帮助。机器学习的真正价值在于,生产模型可以自主工作并定期生成复杂问题的答案,有时每秒生成数千次,以处理更复杂的事情。生成机器学习模型为了让模型发挥作用,还需要基础设施。有时这是一个大问题。数据科学家探索数据仓库和数据湖中的数据,对其进行试验,选择算法并训练模型以生成最终的机器学习代码。这需要对统计数据库、机器学习算法和学科领域有深入的了解。SLAC前数据工程负责人JoshWills在推特上表示,“数据科学家是比任何软件工程都更擅长统计的人。”例如,点餐者使用ubereats软件点餐。一旦用户确认订单,应用程序必须估计交货时间、订购者的位置、餐厅和订单数据,以发送到部署有交付预测机器学习模型的服务器。但这些数据还不够。该模型还从一个单独的数据库中提取额外数据,该数据库包含平均餐厅准备时间和其他详细信息。一旦所有数据可用,模型就会将预测返回给排序者。然而,这个过程并没有就此结束。预测本身保存在一个单独的数据库中。它将旨在监控模型性能并通过分析工具探索模型,以便以后可以对其进行更新。所有这些数据最终都在数据湖和数据仓库中。事实上,单是ubereats的订餐服务就使用了数百种不同的模型,它们同时工作以对推荐进行评分、对搜索的餐厅进行排名并估算送货时间。结论Foursquare核心技术负责人AdamWaxman认为,未来将不再有数据科学家或机器学习工程师的职位,因为随着模型训练自动化和生产环境的不断构建,许多数据科学家的工作将变得司空见惯。软件开发。功能。原标题:数据科学团队中的角色,作者:AnomiRagendran
