当前位置: 首页 > 科技观察

美国癌症协会拥抱大数据技术

时间:2023-03-18 02:08:24 科技观察

美国癌症协会很快发现,在这个调整过程中,其IT组织也需要升级。新的中央Siebel数据库包含4,000个对象和150组表格,但托管在已有八年历史的HPUX硬件上。整理一份报告平均需要四个小时,这意味着用户需要在处理报告的同时使用另一台计算机执行其他任务,以免浪费时间。2013年3月,美国癌症协会聘请BlakeSanders加入,他当然不负众望,带来了他在业务分析和数据仓库方面二十年的经验。作为癌症协会新头衔架构和数据管理副总裁的第一位候选人,他的工作是帮助协会为即将到来的大数据未来做好准备。他决定从数据仓库设备入手,先解决速度和数据延迟问题,并以此为基础,逐步以不给糖就捣蛋的方式处理数据复杂度问题。“我们经历了一个非常标准的投标过程,”桑德斯回忆道。“我们制定了一系列以刚性为中心的计划。所有相关方都收到了我们发来的模板,里面有描述目前的情况和需要解决的问题,请他们根据实际情况填写。”Sanders和他的团队在收集到足够的信息后,将投标发送给了四个供应商:Oracle/Exadata、Microsoft、IBM/Netezza和Teradata。提交的问题包括“您的平台是否允许用户集成这些特定的ETL(即提取、转换和加载)工具?”等。这些问题与其他系统、数据建模软件、维护能力和机??制、人员需求以及与ETL之外的其他工具集的集成密切相关。经过几个月的调研,桑德斯和他的团队对各个厂商提供的解决方案进行了全面评估和比较。最后,他们将概念验证供应商的候选范围缩小到两个:Teradata和Netezza。“我们很清楚,我们不能同时进行四套概念验证项目,”桑德斯说。“事实上,没有一家供应商可以完全解决我们所有的问题,而这正是我们需要验证的:最终解决方案必须能够显着改善我们的运营状况。”这包括硬件、软件、安装和服务,整个项目的预算接近100万美元。“整理一份报告平均需要四个小时,这意味着用户需要在处理报告的同时使用另一台计算机来处理其他任务,以免浪费时间。”Sanders在2006年的最后一份工作中安装了Netezza(现已正式更名为IBMPureDataSystemforAnalytics),当时的实际结果让他非常满意。不过,出于谨慎的工作态度,他仍然全心全意地监督实际表现美国癌症协会的Netezza系统。#p#重要的概念验证工作虽然美国癌症协会的捐助者了解技术解决方案在研究支持领域的重要性,但在他们的固有印象中,技术机构的桑德斯说,癌症协会应该是医生和生物实验室,而不是计算机设备。“要成为一名优秀的管理者,他需要证明计算机能够带来比前期投资更丰厚的回报,因此跟踪总体拥有成本和投资回报率非常重要。此外,他希望帮助研究人员获得摆脱等待数据结果的旧噩梦,而是帮助他们随时轻松使用他们需要的数据。桑德斯提出了他的概念验证过程和目标:1.明确支持业务需求2.建立并跟踪成功指标3.充分利用产品特性4.区分炒作(营销炒作)与现实5.检查“特殊用例”6.尝试证明ROISanders需要在快速解决现有问题的同时,为下一个预期需求打下坚实的基础三到五年。对于生产效率提升等模糊的概念,我们往往很难给出一个具体的量化数字,但桑德斯已经从实践中得出结论,比如工作时间提高多少小时n每周被整个机构保存。效率的提高可能允许管理层减少员工数量,或者在不增加人员的情况下建立新的研究项目。这些详细信息将汇总到一组图表中,以显示累计成本节省和特殊用例。比赛还在继续。同一周内,Netezza和Teradata在美国癌症协会的数据中心各自构建了自己的系统。Sanders不希望将任何数据传输到本地环境之外,因此他无法利用云服务和远程测试。否则,所有调整都是由他的团队而不是供应商进行的。美国癌症协会目前管理的数据来自7600万个来源(包括捐助者、志愿者、工作人员等),每年从6000多个慈善活动中收集。按照桑德斯的说法,其整体数据集规模“出乎意料的小,目前的数据只有2.5TB”。Sanders从全部150组表中提取了大约20组(包含4000个对象)来构建测试数据集,并将这组数据集同时交付给两个供应商。同时,数据准备过程相当于为以后所有数据迁移到新系统的预演。与其将现有的内部IT团队拆分成Netezza组和Teradata组,Sanders更愿意引导所有团队成员同时使用两个系统,让每个人在后期评估过程中亲身体验两者的差异之间的区别。这两个系统在评估过程的每一步都是相同的,因此桑德斯可以确保以公平和公正的方式对两个系统进行比较。整个概念验证过程持续了大约六周。这两个系统需要加载数据、提供功能和管理细节,并分别执行查询优化。双方共跑5组小、中、大查询任务,监控哪些表在用。桑德斯为评估项目想出了一个颇为“快餐”的标语:“更快、更新、更好”。桑德斯和他的癌症协会技术团队构建了一套脚本来完成日常工作,包括建立数据库。、导入数据集、评估管理工具可用性、测试响应时间等。在测试时,脚本会针对索引和聚合任务对系统进行调整。除了现有任务外,他们还额外花了一周时间测试一些目前不存在但将来可能需要的用例。生产效率的提升可谓立竿见影。查询时间从旧系统的平均四小时减少到新系统的大约四十秒。没错,速度比之前快了370倍。他们现在能够在同一个周期内运行4990个报告,而不是每周运行1000个报告。仅此一项,就员工时间节省而言,每周可为癌症协会节省119,700美元。用户突然发现使用报表内容比以往任何时候都更容易——就像使用普通电子表格一样。各种从未出现过的简便方式,让用户可以随意查看数据内容。桑德斯指出,这种速度的提高甚至带来了行为上的转变。用户现在可以在几秒钟内从多个角度查询数据。此外,用户还要求新系统能够消除部分原有的硬性使用成本。当报告需要数小时才能处理时,用户需要另一个系统来执行其他任务以避免空闲时间。有些用户甚至需要在办公桌上部署三个系统。降低新系统硬成本和确保投资回报率的其他方法包括降低旧HPUX设备的Oracle许可和维护费用。新系统的购买价格将完全被几年内累积的成本节省所抵消,并且节省的费用将持续到那个点之后。Sanders认为Netezza在这方面的表现更胜一筹。事实证明,Netezza在2006年的成本节约性能在今天仍然可靠。#p#功能比较概念验证的第二阶段旨在规划未来需求的实施基础。他基本上是用目前的数据仓库执行任务来测试设备,但他希望在未来三到五年内建立一个真正的大数据系统。美国癌症协会需要采用Hadoop并监控实时数据移动,例如为RelayforLife慈善机构的志愿者和参与者个性化网站。Netezza拥有更新的硬件,并且比桑德斯在2006年使用的模型更快,但软件仍然与多年前处于同一水平。相比之下,Teredata的14.10操作系统比原来的版本有了明显的改进。“他们似乎比Netezza更积极地进行软件创新,”桑德斯说。“Netezza已经占据领先地位,但从软件创新的角度,我可能更倾向于选择Teradata。”整个项目的最终造价确定在75万美元左右。Sanders研究得出的“节点算力”规模方案平衡了不同的硬件需求,Netezza和Teradata的价格甚至是一致的。到目前为止,一切进展顺利。整个招投标过程持续了大约六个月,Teradata硬件于2013年10月中旬正式安装。到当年12月,美国癌症协会开始每周更新其生产管道中的Siebel报告系统。到次年1月,这个更新周期进一步缩短为每天一次。据桑德斯说,从那以后,美国癌症协会增加了财务、规划和会计部门,并为营销团队提供数据资源,用于基本的活动分析。“一年后,我们仍然保持了原有数据架构350到370倍的查询性能,并进一步简化了整个数据模型,以确保更适合ad-hoc查询操作。维护工作不再是难于管理一年来,我们从未出现过任何系统宕机的情况,所有维护任务都轻松完成。我们的下一步是改变Siebel应用程序数据的捕获方式,以便可以近乎实时地将其加载到Teradata系统中,这将进一步改善数据处理流程并最终减少我们的批处理隔离加载窗口。我们将有能力直接从应用程序加载数据,并在数据内容发生变化时生成报告,这将以前所未有的方式为业务带来出色的主动监控能力,”桑德斯说。原文链接:http://www.networkworld.com/article/2895379/big-data-business-intelligence/american-cancer-society-embraces-big-data.html原标题:美国癌症协会拥抱大数据