日前在伦敦举行的GartnerCRM高峰论坛上,eBay全球业务分析负责人DavidStephenson发表了演讲。成功。作为一个市场,eBay的首要任务是为卖家和消费者提供满意的体验。处理大数据首先要提出正确的问题,eBay使用分析软件更好地了解客户。斯蒂芬森希望将小店的个性化推荐成功应用到全球eBay网站上。“在小商店里,了解顾客很重要,”他说。“店主需要提供个性化推荐,了解顾客喜好,向顾客学习。”Web测量数据对于Stephenson来说仍然是一种新的数据类型。eBay生成大量网站分析数据,斯蒂芬森称之为“客户足迹”。它可以清楚地告诉工作人员谁访问过他们的网站,做了什么。斯蒂芬森说:“网站可以提供和在实体店购物一样的体验,顾客可以比较不同的产品。我们也可以了解顾客的意图。”这些正在慢慢改变eBay。eBay的网站分析是无所不在的,就像在每个客户面前安装了一个摄像头。详细的网站分析也使数据管理变得困难。整个网站平均每月产生1亿小时的视频,客户数据量之大难以想象。斯蒂芬森坦言:“没有人能够每月处理1亿小时的数据。”“我们只能尽力去了解客户,应用数据科学技术来使用更多的数据和更新类型的数据。”eBay面对1亿用户,3万多种商品,每秒几千美元的交易量。斯蒂芬森说,交易数据只是所有数据的“冰山一角”。eBay开始处理所有客户行为数据。大数据给eBay带来的挑战始于提出正确的问题。斯蒂芬森表示,要回答一个简单的问题,比如“昨天你搜索某个关键字时,显示在顶部的产品是什么?”,系统需要处理50亿次页面浏览量。因此,最重要的问题是提出关键业务问题。三个平台实现全面的用户行为分析除了提问,Stephenson还希望站点能够运行情感分析、Web分析和图像分析,这在传统的事务型数据库中很难实现。eBay将其数据分析业务分布到三个平台,第一个是Teradata提供的传统企业数据仓库(EDW)。斯蒂芬森说:“核心交易系统必须具有极高的稳定性。我们每天要处理50TB的数据,系统不能停止。”2002年,eBay构建了13TB的Teradata企业数据仓库,提供高效的大规模并行关系数据库。截至目前,该系统已搭建在数千个节点上,数据量已增长至14PB。在用户行为数据方面,过去eBay只能保留1%的样本,其他的全部扔掉。斯蒂芬森说:“很多问题我们事先不知道,我们根据客户行为数据来决定问什么问题。大约85%的问题是新问题。如果只关注结构而不关心数据,你不能提出新的问题,但如果你想存储所有数据,数据量会太大,无法分析。这其实是企业面临的两难选择,是丢掉一部分数据,还是保留所有数据。为了解决这个问题,eBay开始打造第二个平台。七年前,该公司着手打造一个能够存储所有客户数据。斯蒂芬森说:“对于客户行为数据,我们希望通过大数据的方法来保留它。”eBay需要一个产品,可以管理数百PB的各类数据,只需要5个人就可以维护,而分析师可以很容易地访问它。该公司与Teradata合作开发了一个具有数百个用户定义函数的自定义应用程序。该系统在商品硬件上运行,应用自己的软件,能够处理所有客户数据,并以低廉的价格存储数据。这是著名的eBay开发的客户数据仓库Singularity。该系统可以在32秒内运行临时查询。Stephenson说,Hadoop处理类似的查询需要30秒。Stephenson说Singularity发挥了重要作用蚂蚁在该网站的“A/B测试”中扮演的角色,比较不同的产品组合,看看哪些产品最受欢迎。eBay用它来测试很多东西,比如测试网站消费者是否喜欢网站展示产品的大图片。该技术还可以用于搜索提示,斯蒂芬森称之为“搜索栏中的经济学家”。eBay可以根据用户选择的主题或提出的问题提供搜索查询建议。因为在整个系统中,基本上每一个问题都被问过了。通过此类查询,eBay卖家可以了解他们是否需要降价、免费送货或其他优惠。除了企业数据仓库和Singularity,eBay还使用Hadoop,这是它的第三个平台。eBay部署了两个20,000个节点的Hadoop集群,可以处理80PB的数据。借助这三个平台,eBay终于可以实现对所有用户行为数据的存储和分析。
