当前位置: 首页 > 科技观察

CTO眼中的WOT2015大数据技术峰会:干货爆棚_0

时间:2023-03-16 02:02:53 科技观察

上半篇文章推荐:资深粉丝眼中的WOT2015大数据技术峰会:干货爆棚9.《京东搜索和618实战》刘尚昆京东商城推荐搜索部总监  强烈推荐本次分享!现场反馈非常好。分享结束后,分享者刘尚昆被众多同学围住,提出各种问题。直到会议主办方需要分享者拍摄采访视频,热情的同学们才离开。  详情请自行下载PPT。  10.《AB测试高效实现全数据驱动产品优化》王烨,北京瑶瑶科技有限公司CEO  本次分享是典型的技术科普,会详细讲解AB测试。顺便也说说他们的产品,集成了灰度在线,小流量,一键回滚,一键发布,支持定向实验。我个人觉得这是一个非常好的产品,一群敬业的人在一起做一件敬业的事。  但是我也有一个疑问:这个产品是否有检测流量中高度模拟的爬虫流量的能力。我之前做电商的经历,以及京东刘尚坤前天提到的问题,AB测试的结果中总会有一些模拟用户行为的爬虫;如果无法排除,将直接影响检测结果的结论。11.《云计算企业服务创业感悟》王璞,树人科技创始人兼CEO  王璞,技术出身,现在是创业公司CEO。几个重点记下来了:  CEO一定要有很强的融资能力  B方向的投资人有几百个,每个投资人都有自己的气质、投资风格和方法。像拜访客户一样拜访投资者。  从A轮到B轮用不了一年多1:炫耀技术。技术是手段,不是目的。  画面太生动了。  杀人有那么麻烦吗?像这张图,把你见过的武器都堆起来。  还是上图一样,直接来!  共同减分2:完美主义:在合适的时间推出产品80分。  软技能:生动的“拉”字:会做会说。  销售能力:  #p#13.《大数据挖掘下的在线教育创新价值》学院技术部主任李明晓  整个分享没听完,后半段才进来。  据我所知,学校的业务做得很好,无论是学生人数还是讲师人数都在高速增长。今年,在51学院的平台上,已经有年收入过百万的讲师。不是讲师自己的年薪,而是讲师在学院这个平台上的收入!有没有磨拳头的朋友:)  当学生没有按时参加活动时,系统会自动感知,并将相应信息通知辅导员,由辅导员跟进沟通了解原因,引导学生学习,给予指导反馈给讲师,提高教学质量。  以前听说过,这次听了李明孝的分享,不得不佩服51学院超强的运营能力。14.《大数据时代的数据资产管理》新居网络常务副总裁程永新  目前主要客户是国有企业  有一个图,数据规划、开发、整合、运营、归档站起来。在这一点上,非常赞同!  数据资产-管理平台架构图  增值:对内强化能力  变现:对外呈现价值合作。  案例:航空、电信、保险、银行等企业互通数据,脱敏主营业务合作。  干经验:区域跨境数据交换,找三五个合作伙伴,比理想化的全球化有用多了。#p#  15.《大数据点燃营销---百分点精准营销实践》百分比数据挖掘部研发总监苏海波  目前,大数据在行业中的实际应用已经相当充分:推荐/营销/征信。  Percent推出营销管家,营销管家业务流程图见这里。  打通多用户触点,跨屏投放,将企业侧积累的数据梳理成用户群体,丰富营销模型,应用微观用户画像,用户建模后形成数据闭环。  目前日活UV50-6000万,用户画像3.5亿,商品记录1亿。分类系统比较准确,准确率为95%。  给出了一个用户年龄的例子:  填写了真实年龄的用户数据,预测准确率达到85%后,所有用户都被打上了年龄标签。  消费等级分为9级。之前试过3层,但是发现聚类之后,某一层,比如低价区间的快消品,会收敛到很厚的一层。分为9层后,类之间的区别就更加明显了。  因为市面上各个DSP的能力不同,Percent搭建了一个DSP,可以自动连接所有DSP媒体,拉回分钟级的数据报表。因为之前有百分百的用户画像积累,在转化为营销的时候,有几个实际案例,大大提升了投放效果。  Percent目前正在与各大公司进行数据“聚合”,某种意义上也算是数据流通和数据交换。比如我们最近合作的公司包括华为这样的大公司。  在为传统企业收集第一批数据时打磨了一套数据集成工具。  百分率不愧为业内大数据领域的先行者之一。2011年获得A轮融资,2014年获得D轮融资,发布BDOS-大数据操作系统。它发展迅速。尤其是2014年,借政企大数据之势,发展势头迅猛。#p#  16.《广告大数据核心技术剖析》AdMaster副总裁卢一磊  广告系统大数据运营的几个难点:可靠性、可用性、可扩展性、高性能、安全性、性价比、监控和维护。  建议关注Flink  目前Spark故障率较高。如果是小时报表,推荐MR。  ElasticSearch/Druid(pinot)  也试了100个MongoDB,最后还是去掉了。最后,SSD用于解决复杂查询的问题。  解决多值列问题,推荐使用Pinot/ES,用于区分多个“行业”的用户画像场景数据。  大家可以看看ADMaster的数据处理流程,应该很有参考价值。近年来有一些改进,但幸运的是今年没有太大变化。  今年广告作弊金额高达63亿!75%的作弊流量是机器人。  目前,ADMaster已与70%在中国开展业务的世界500强企业合作,监控广告展示。  卢一磊,科技达人,大概是中国互联网圈分享大数据技术频率最高的人之一。几乎所有大数据相关的论坛都离不开他,他也是业内知名的社交名媛之一。  曾经在北京五号线的地铁里和路哥聊技术和工业,聊了2个多小时,站得腿都酸了,舍不得走。  17.《大数据质量保障》钱承军,百度测试经理  个人简介:500人的打搜团队中,有100人负责质量保证。  目前各种开源技术都难以解决百度遇到的问题。例如,几万到几十万台机器在同一个机房??,大数据量的集群很可能跨越机房。开源技术几乎不考虑跨机房问题。  上百台服务器有闲置资源也没什么大不了的;但是如果在几十万台服务器上有闲置资源就太可惜了。#p#  5分钟级防作弊系统。  复杂系统中超过50%的代码是容错代码。  比如磁盘缺油,某个地方的磁道访问会变慢,从而导致上层应用代码出现问题。还需要在离线环境下,比如30分钟内重现问题,定位问题根源,解决问题,再上线。  可以定量回放和重现问题。在百度的大规模数据集群中,肯定会发生各种低频事件。  Google的做法是线上线下一模一样,物理上也是一致的。比如100台在线机器,100台离线机器。这样就大大减少了测试/线上环境不同导致的异常。  Facebook也遇到有状态和无状态的回滚。对于状态回滚,还是比较头疼的。我曾经问过Facebook的技术大师如何解决这类问题。沉思片刻,上师给出了一个更惊人的答案:你要非常非常小心!  百度的做法是多方位测试,而不是单独测试。  程序发散后,必须是一个唯一的日志标识来表示路径的选择。  数据质量保证:  数据日志规则细化:按比例,某一天某个规则下的流量异常时,进行监控报警。并且报警系统是逐步自动升级的,从负责的工程师到管理者。  钱承骏分享精彩结局:“我在做测试,今天把技术分享给正在开发的同学们,大家还在听sohi,我很开心。”  钱成俊分享的时候语速很快,风格也很搞笑,是我整个周末听到的所有分享中最有趣的。听着这场比赛,在大开眼界的同时,人也精神了许多。没想到听钱承骏的分享竟然有这样的效果:)可惜他最快的语速只说了PPT的一半内容;更令人遗憾的是,他现场说的80%没有上PPT,没有现场听的同学很难从PPT中推出他分享的干货。  18.《实时竞价(RTB)广告中的数据和算法》赵林拼友互动数据部总监  拼友林赵的分享是典型的RTB科普分享,很多高科技细节显然不能在45分钟内分享展开,我主要记录本次分享中的一些有指导意义的数据。  QPS:300,000个请求/秒,2015年9月。每个请求处理时间在100ms以内。  每天200亿请求/10亿页面,20万个网站,60万个主流APP  Redis集群30T  PC人口400亿,APP200亿  至此,我们看到品优DSP的数据是有点“大”。这种数据访问规模,每秒30万次访问,每天200亿次请求,显然远远超出了非广告领域的大多数公司所能访问的数据量。国内DSP龙头如果对比国内广告龙头百度大搜、百度网梦、360、腾讯广点通的数据量,可能在数据量和数据访问量上存在较大差距。  广告时间:基于拼友DMP的CTR/CPA效果有了很大的提升,本质上是依赖于拼友获取更多的跨站用户行为。  #p#算法包括:LR、logitboost、BPR(贝叶斯概率回归)FTRLDL。  算法基本没有开发出来,有点可惜。毕竟CTR和用户标签是DSP的核心技术。  全局最优规则,DSP流量不是自己的,所以和百度不一样。  遇到的挑战:冷启动、脏数据  后记  深圳短暂的周末过得很愉快,深圳的天气也很好。痛苦的是,星期天晚上回到大雾之都北京,赶上大雾弥漫的雾霾,整个人都不好了。现在天气还不错。12月1日晚,狂风吹散了北京的浓雾,让北京在经历了几乎整个11月之后重见阳光。  还有一个收获就是在这次WOT大会上和3位曾经的“黄金一代”成员聚在一起,微博推荐广告技术总监王传鹏,百分店技术总监苏海波,推荐搜索总监刘尚坤京东。你能想象这些大技术人员在2010年左右在一个团队中编写代码吗?你能想象曾经的“黄金一代”团队的战斗力吗:)  最后一个,娱乐一下:  作者简介:  傅强,2015年年中加入九枝蓝,成为技术合伙人,为企业提供在线营销整合与交付SaaS服务。2006年至2015年就职于当当网,从工程师、架构师、高级总监到技术副总裁,从技术角度见证了中国电商时代的风起云涌。