今天准备写一篇文章,谈谈大数据、人工智能与事物认知解决问题的关系逻辑。因此,本文不谈底层实现技术,更多的是思考整个信息技术革命下思维逻辑的发展演变,并进一步思考它们之间的关系。大数据的概念及其发展大数据的概念在5、6年的时候还挺火的,但是最近几年整体热度明显下降。数据湖、数据中心等类似的概念也应运而生。然而,数据中心和数据湖很难体现大数据的一些关键特征。比如我们说大数据核,一般都会说到它的4V特性。数据量足够大,PB级以上数据类型多样化。结构化和非结构化的时效性需要很高的价值创造,而大数据最终实现了价值。在过去的几年里,大数据应用更多地集中在数据的收集、集成和存储上。东西,但对数据本身的应用和分析很少。如果大数据的应用和分析做得好,可以看出主要是在电子商务行业,或者直接面向客户的电信、金融等大集团行业。应用点是比较有针对性的营销、推荐引擎、客户画像。etc.也就是说,理想的应用场景很多,但是大规模的实现场景并不多。许多企业建设大数据平台,投入了大量的资源、时间和成本。虽然他们已经完成了数据的统一采集和存储,但是数据本身产生的价值并没有体现出来。类似于现在的数据中台,我们其实是在讲一个点。大数据平台不仅可以做OLAP分析,做出分析决策,还可以考虑数据能力的实时开放,反馈业务,服务业务。当你搭建好大数据平台之后,你会看到后续的数据运维、数据管理与治理、数据分析都需要大量持续的人员投入。如果数据本身不能产生价值,平台最终被抛弃是一个合理的选择。大数据与传统BI对于大多数企业来说,企业信息化的发展本身也有一个过程。前期的数据分析更侧重于结构化数据。PB级别收集这些数据并不容易,而且都是结构化数据。这时候,传统的BI系统建设思路依然适用,唯有数据。量大之后,可能需要切换到类似于MPP的分布式数据分析库来解决性能问题。如果完全使用Hadoop搭建大数据技术平台来解决上述问题,其实完全没有必要,而且会发现引入了更多的技术复杂度和业务建模复杂度。为什么这么说?对于传统BI分析中的维度分析,上钻下钻、切片等基于维度建模的分析能力不适合Hadoop存储和处理。Hadoop显着提高了数据存储扩展和分析SQL运行效率,但许多BI不需要实时或临时查询功能。换句话说,如果企业没有实时数据分析结果反馈业务的需求,那么你不需要马上搭建这种大数据平台来解决你的问题。相关性与因果关系早期的《大数据时代》是一本很热闹的书。作者在书中提出“大数据三原则”:全部而不是抽样、效率而不是绝对准确、相关而不是因果关系。再次提到,大数据更注重数据之间的相关性,而不是因果逻辑。这就是众所周知的啤酒和尿布的故事。这个故事发生在1990年代的美国沃尔玛超市。沃尔玛的超市经理在分析销售数据时,发现了一个令人费解的现象:在某些特定情况下,“啤酒”和“尿布”这两种看似无关的商品,往往会出现在同一个购物篮中。这种独特的销售现象引起了管理层的注意。后续调查发现,这种现象出现在年轻的父亲身上。如果这位年轻的父亲只能在商店购买两件商品中的一件,他很可能会放弃购物而去另一家商店,直到他能同时买到啤酒和尿布。沃尔玛发现了这一独特现象,开始尝试将啤酒和尿布放在店内同一区域,让年轻爸爸们可以同时找到这两种物品,快速完成购物;顾客一次买两件而不是一件,商品销售收入不错,这就是“啤酒和尿布”故事的由来。认知逻辑——从机械思维到信息论今天回顾这个案例时,事实本身是我们感知世界的方式正在发生重大变化。我们传统的思维方式是机械思维。牛顿的一大贡献很简单,自然界中发生的现象和事件必须有其内在的规律和原因。同时,我们可以用抽象的公式或模型来理解这个道理。表达。那么当我们遇到同样的现象时,我们就可以使用公式来解决问题。但是,机械思维的发展存在两个问题,就是有时我们不能做到精确建模,这本身有两个原因。一是影响目标Y的X因素太多,无法穷尽和认知;二是我们的测量系统有问题。简单地说,就是采集不全,测量不准确。这些都在挑战我们的确定性思维。解决这个问题有两种方法:一种是概率和统计学,另一种是信息不确定性的量化表达——信息论和信息熵(香农),而信息论则完全相反,基于不确定性(假设)上另一方面,必须引入信息才能获得新闻的不确定性。于是,我们的思维逻辑发生了进一步的变化,即从机械思维向大数据思维转变。复杂时间很难找到确定性和因果关系——《所以用不确定性看世界》——把智能问题转化为消除不确定性的问题——找到消除相应不确定性的信息(或者大量的相关数据可以帮助我们去除这种不确定性)。比如上面大数据的例子。通过数据的相关性分析,我们找到了啤酒和尿布一起卖的方法,但是我们不知道为什么年轻的父亲会买几个买尿布时喝瓶啤酒。在大数据时代,我们会有一种错觉,因果关系不再重要,重要的是大数据相关性分析。让我们回到上面的例子,假设一个可能的因果关系。对于例如,最多的调查结果可能是年轻父亲买了纸尿裤后,孩子换了新纸尿裤后很快就睡着了,这时候年轻父亲可以有空闲时间进行娱乐,而能够产生休闲娱乐时间是促进购买啤酒的关键原因。当你明白了其中的因果关系,你就会发现,年轻父亲的消遣可不仅仅是喝啤酒。在家看电影或打球、玩游戏、抽烟都可能是潜在的消遣方式。其实,把香烟、口香糖、游戏卡等和纸尿裤放在一起,也能达到同样的畅销效果。简单概括一句重要的话就是:如果只了解一件事的相关性,就只能迎合或追随,只有了解相关性背后的因果关系,才能破局或引领变革。人工智能和大数据人工智能,简单地说,就是计算机必须模拟人脑来思考和解决问题。可以看看百度百科对人工智能的解释。人工智能是研究如何使计算机模拟人的某些思维过程和智能行为(如学习、推理、思考、计划等)的学科,主要包括计算机智能原理,制造类似于人类智能的计算机。人脑,使计算机可以实现更高层次的应用。人工智能涉及计算机科学、心理学、哲学和语言学等学科。可以说,几乎所有的自然科学和社会科学学科都已经远远超出了计算机科学的范畴。人工智能与思维科学的关系是实践与理论的关系。人工智能处于思维科学的技术应用层面。是它的一个应用分支。从思维的角度来看,人工智能不局限于逻辑思维,可以考虑形象思维和励志思维来推动人工智能的突破性发展。数学常被视为各学科的基础科学。智力学科也必须借用数学工具。数学不仅在标准逻辑和模糊数学的范围内发挥作用,数学进入人工智能学科,它们将相互促进,发展得更快。计算机具有人类智能。那么人类的智能能力包括识别、定义、归纳、抽象、推理、决策等诸多方面的能力。我已经提到了一种思考和解决问题的方式:即问题输入-“现有算法模型-”问题解决。在很久以前的人工智能研究中,大多是想模仿人脑的思维和推理。过程。通过提供不同的输入方式供计算机学习,生成算法模型。然后该模型可用于解决新问题。类似人工神经网络、遗传算法等都是这种思路。但是当你没有提供足够的输入时,这个模型很难快速收敛,也很难得到一个准确的、确定性的模型。大数据出现后,形成了计算机解决问题的新思路。深度学习+大数据=人工智能,就是从传统的学习和建模推理转向基于统计的思维。李开复在其中确实立下了汗马功劳。二是在统计学的基础上引入深度学习的概念,深度学习依赖于海量大数据作为样本输入。在李开复的《人工智能》一书中,提到深度学习+大数据引领了AI的第三次浪潮。简单的说,你不需要搞清楚人工神经网络的精确模型是如何形成的?你只需要通过大量的样本输入来训练模型,最终得到你需要的输出即可。简单来说,计算机可以识别一张动物图片是猫。并不是计算机能准确描述出猫应有的身体特征,而是图片中动物的特征矩阵与数据库中的动物猫相匹配。谷歌的阿尔法狗战胜李世石也在2017年引起了轰动,再次展示了深度学习算法和人工智能的强大。就人工智能而言,计算机本身CPU??的并行计算能力远远超过人脑。通过适当的深度学习方法,计算机程序所带来的人工智能的力量是巨大的。也就是说,大数据时代推动了人工智能的快速发展。什么是真正的智慧?我们在做IT系统或者应用的时候,一定要搞清楚什么是真正的智能或者智慧。当计算机解决问题时,最简单的就是计算或解决类似于公式的问题。这样可以充分发挥计算机强大的计算能力,完全超越人类。二是基于固有场景制定规则的模式匹配。我们可以举一个智能家居的例子作为参考。当门禁监测到主人回来时,空调温度自动设置为24度,并拉开窗帘。监控到女主人回来时,把空调调到26度,拉上窗帘。这是典型的基于场景的规则设置和执行动作。在这种情况下,计算机的能力在于人脸识别、语音识别等方面,而不在于最终的决策执行。因为决策完全是根据预先设定的规则做出的。真正的人工智能应该是基于大量的数据采集和分析,形成自己的规则,然后根据规则进行相关操作。并根据新数据的输入不断调整和优化自身的规则。类似于完全意义上的自动驾驶,是人工智能要攻克的典型场景,也就是非本征模式,不需要预先给定规则就可以快速解决问题和做出判断。为此,您必须收集大量数据并快速分析。没有大数据的底层技术,海量大数据的输入就无法实现智能化。包括之前的AlphaGo,如果没有大量历史棋谱的输入和训练,计算机是打不过人类的。计算机以计算能力为基础,采用统计学的思想,找到了使机器智能化的新途径。但正如我之前所说,如果计算机不了解因果关系,那么计算机只能跟随而不能引领。和围棋类似,如果我们修改围棋的一些规则,不给AlphaGo新的输入训练,那么计算机也会变成白痴。人之所以能打败计算机,重要的一点之一就是不放弃对因果和起源的探索。Information->Digitalization->Intelligence在谈数字化转型的时候,其实我们一直在谈三个重点:Connection:万物互联,解决人与人、人与物、物与物的连接问题Data:后连接产生整合和协同,协同过程自然会产生数据智能:数据经过处理和提炼,形成智能分析应用。对于连接,可以看到首先解决了最基本的业务协同问题。但连接更重要的作用是产生和沉淀数据。传统连接主要由人完成,他们手动输入电子表格等数据。在数字化阶段,要解决连接多样性和数据生成多样性的问题。类似于各种物联网传感器设备的使用,你会看到你可以连续自动地生成大量你需要的输入。或者通过会议语音的录制,视频录制也产生了更多你没有注意的数据。只是到了万物互联阶段,数据本身才发生了数量和类型的巨大变化,产生了大数据。数字时代,不得不再次提到大数据。这个大数据的积累需要产生两个效果,一个是直接应用到业务协同上,另一个是真正提升智能和智慧的能力。目前大部分企业还处于第一阶段,人工智能的全感还在探索中。企业信息化领域也是如此,即计算机可以自动生成规则并应用规则,是完全意义上的人工智能。否则,计算机只是既定规则的执行者。包括我们常说的大数据推荐引擎,都是计算机根据已有的推荐算法进行推荐,而不是大数据本身形成推荐算法。这是关键的区别。类似于我举的一个智慧交通的例子:现在的智慧交通应用往往能够监控整个大城市环境的交通状况,并发布相应的路况信息。在GPS导航中,往往可以实时看到相应的交通拥堵等信息,方便司机选择新的路线。但这仍然是一种事后分析处理机制。一个好的智能导航和车流引导系统,一定是基于大量的实时数据分析,给每辆车最佳的导航路线,而不是事后处理。智能交通中的交通分布和归纳模型非常复杂,面对大量的实时数据采集,基于模型进行实时分析和计算才能给出有价值的结果,这在原来的情况下确实很难信息技术。解决。因此,要达到完全的智能或智慧,并不是一件容易的事。真正的智慧一定是能够在新事物面前自我学习、自我适应调整、自我优化。而不是基于预设的规则。只要规则是人类预设的,只要我们不断探索事物的因果关系和起源,计算机就不可能在短期内完全取代人类。模型的建立仍然是人,但机器的强项是应用模型或规则,根据收集和整合的大数据进行快速分析和决策。这是数字化转型第一阶段要解决的智能化问题。
