每个人都在谈论大数据,但并不是每个场景都适合大规模数据存储和处理,因为处理大数据集意味着更多并不是每个客户都有这样的能力,在一些细分场景下,小数据可能更有效。为什么要了解数据账户?全球互联网用户每天发送2940亿封电子邮件、5亿条推文,并在Facebook上创建多达4PB的数据。同时,每天发送650亿条WhatsApp消息。报告还预测,明年全球数据总量将增长10倍,达到44ZB。互联网的快速发展所带来的数据爆炸可谓是一把“双刃剑”。在带来经济效益、促进社会发展的同时,也使数据隐私面临更大的风险。基于大数据的个性化推荐并不少见。似乎只要数据维度和量级足够丰富,AI的价值挖掘就会取之不尽。数据让人工智能具有应用价值。例如,Facebook将使用AI来预测用户未来的行为,以此作为投放广告的依据。参考信息包括:位置、设备信息、图片/视频浏览历史、WiFi连接状态、好友关系、聊天内容等。再比如智能音箱对用户语音语义的采集,无人驾驶系统对出行路线的采集等。除了在数据合规的基础上开放更多的数据源,人们还需要借助区块链等新技术或者说要对这些数据建立完善的审核机制。也就是说,大数据在提供数据画像的同时,除了成本之外,还面临着更大的监管因素。而且,有时标签上的大数据识别会忽略个体的差异性。这是关于小数据,记录了用户通过各种终端产生的数据,比如日常运动产生的卡路里,每次上网的阅读习惯和推荐,每次去超市的消费行为等等。智能决策-对数据的制作更加精细。小数据虽然没有大数据那么宏大,但它对个人的价值却不容忽视。例如,对于从事体育行业的人来说,身上佩戴的传感器有很多种,可以监测运动员的转向、加减速、运动指标等因素,然后可以根据这数百个数据点分析运动特征,从而获得有针对性的科学训练效果。同样的例子也会出现在工业场景中。物联网总是和大数据一起出现,但本地应用中的数据总是从小到大。又如,对于销售人员来说,他们对广告播出时间、效果转化、促销时间等信息的要求通常要精确到分钟,这样才能掌握用户行为。但是,对于这种数据的训练,机器学习只能在大数据上有更好的效果,一旦遇到小数据集,就会事半功倍。如果没有这么大的数据集,在设计深度学习网络时需要特别注意每一层的神经元数量和层数。如果是无监督学习,也可以通过自动编码避免未标注数据,但是这种自监督的预训练能力不是每个业务人员都能掌握的。因此,大数据和小数据的结合是否能甩锅呢?大数据可以找到顶层的宏观数据,并对其进行分层定位。这种调查会让小数据开始发挥作用。即分析样本粒度,即小数据使“大数据”变小。比如大数据关注性别、年龄、职业、消费能力,而小数据更关注背后的原因,这更适合塑造人的画像。相应的,通过小数据对人像的精细化,也能让大数据更加精准。与大数据相比,小数据的场景和算法范围更窄。这样做的好处是数据类型的选择更加明确。比如大数据的场景是工厂的智能温控系统,小数据的场景是温度检测。设备收集的数据的算法应用。也就是说,电子商务公司在网页上检索用户交易记录,向用户推荐感兴趣的书籍。这个分析过程是小数据。如果只关注大数据而忽视小数据,那么当大数据出了问题,可能就是罪魁祸首。把大数据变小,把小数据变大,才是真正的数据智能。
