最近了解到百度视频在升级迭代中用大数据做了很多事情,让我真正感受到了大数据的价值。其中,我将大数据的应用决策拆解为两个层次。第一种是用个体数据为个体做决策,第二种是用群体数据为群体做决策。下面结合百度视频已经实现和即将实现的案例,看看大数据和人工智能是如何应用的。大数据个性化决策个性化决策无疑是最难的,因为个性化决策是根据用户行为记录为用户做出相应的推荐。百度在无线端拥有大量产品,其中用户过亿的APP多达14款。百度有专门的团队分析用户在这些应用程序中的行为,并使用算法来估计用户的年龄、性别、职业和兴趣等特征。这种技术被百度工程师称为用户建模。这些数据来源于用户手机中安装的百度应用,如“百度地图”、“百度贴吧”、“百度魔图”,以及一些使用百度开放接口的应用,如“尴尬百科”等,百度可以利用这些数据为用户建立动态模型,百度视频的个性化推送就是利用群体智慧解决个性化需求的典型例子。相同的消息内容,无法满足用户的个性化需求,百度视频的做法是分析用户的历史观看记录,同时结合用户的性别、年龄、地域等特征,为用户构建兴趣模型,并将用户可能感兴趣但没看过的视频推送给用户,比如一个经常去动漫贴吧的用户,百度判断他是20多岁的大学生后收集大数据。个性化推送不同于其他人群,可能会推送一些在大学生中流行的动漫。和韩剧。总之,用户使用的百度系列和带有百度接口的产品越多,百度就越能为用户建立个人模型。然后画出一个人的画像,然后百度会根据这个画像对每个应用进行大数据决策推送,再根据用户反馈的结果进行迭代试错。当然,这是机器学习的一部分,不必深入讨论。我画了一个简单的百度个性化推荐原理。基于大数据的群体决策对个人和群体的价值之前我质疑百度个性化推送的缺陷,一旦用户换了手机,百度就无法再为他们建立个人画像模型,从而失去个人身份意味着百度要重新建立个人资料,非常麻烦。深入了解了百度大数据后,感觉更深入了。百度大数据不仅仅针对个人用户,更重要的是建立群体宏观行为模型。决策部分的重要战略意义远大于个人意义。我对此的理解是:如果我们把人类的整体行为看作个体行为,那么同一个个体总会有一些误操作,一些随机的非主流边缘操作,而这些边缘操作对于机器学习来说只是噪声而不是信号,需要过滤,所以机器需要过滤掉这些没有价值的数据,沉淀和固定有价值的信号数据,对整体行为进行决策。所以某种程度上,我们都陷入了个性化优先的错觉,而忽略了群体数据决策的价值。回到百度之前的个性化推送功能,这些推送肯定是事先经过群过滤的信号,再推送给用户才会更受欢迎。比如百度从数据上判断最火的韩剧是《来自星星的你》,而不是过时的《大长今》,然后向用户推荐《星星》。这些都不是人工的,而是完全自动生成的。也就是说,在这次思辨中,我得出了一个关于大数据的重要结论。机器提供的个人数据具有小范围的个人偏好,而群体大数据决策的结果则为个人扩大了范围。个性化提要为个人提供了确定性,为群体提供了不确定性。群体决策为个人提供不确定性,为群体提供确定性。两者的噪声是彼此的价值,两者的信号是彼此的干扰。人工智能可能永远无法超越人类。上次在3W咖啡和赵云峰、刘峰老师讨论人工智能的未来,我们聊到了图灵测试,我们分析图灵测试的程序越来越强大了,但是这个还是只是一个工具。它本质上是人与人之间的游戏。没有人类,机器将永远无法学习。那么让我们回到百度视频。百度目前每个视频平均有数百个标签,这些标签会根据时间不断更新迭代。不仅如此,这些标签还不断地与自身相关联。所以百度视频可以做到。搜索“高智商电影”之类的,会出现《盗梦空间》、《禁闭岛》、《源代码》等联想,有人会问,这成百上千的标签是人工匹配的吗?如果是这样,百度需要大量的人力。事实上,标签是由机器自动完成的。然而,仍然需要人类来制定标签。机器首先应该由用户搜索一个关键词,然后通过一系列的行为来判断关键词与某部电影的关系。然后机器通过大量用户的重复数据建立这些关联。.如果有一天机器可以完全自主学习,并且在没有人类帮助的情况下,自己将这些标签词与电影联系起来。只有在那一刻,人工智能才能真正实现。这只能说明我和赵云峰、刘总在3W咖啡的对话有多无聊。对于机器来说,人类就像它们的引擎。问万物的起源,0和1的结构。是啊,人类是多么的孤独,因为只有人类才知道自己的孤独,机器不会。但也许我们正在共同创造机器意识,即未来将成为我们的超有机体。***这里是根据理论,在大数据未来的群体与个人结合的私人定制地图。【小编推荐】ApacheWicket6.9.0发布,Web开发框架大数据生态环境搭建——离线计算和实时计算环境(CDH)
