当前位置: 首页 > 科技观察

区块链和大数据的共同关键词:分布式

时间:2023-03-15 16:40:46 科技观察

大数据和区块链有一个共同的关键词:分布式。分布式思维使大数据技术能够实现分布式计算和分布式协同工作,技术手段也从权威垄断转向去中心化。作为分布式数据库的典型代表,区块链技术也具有分布式的特点。两者在这一点上的统一带来了融合发展的可能。1、分布式:让大数据和区块链从技术权威向去中心化转变从历史发展来看,IT技术的发展呈现出中心化与分布式交替的螺旋形态。IT技术呈螺旋式上升在计算的早期,技术是集中的,因为技术限制导致了一对一的使用模型。为了提高计算机的利用率,行业公司很快开始部署新设计。IBM公司引入了虚拟化的设计思想,在为多个客户服务时,将一台大型机分成多个虚拟的小主机。这是一个非常复杂的中心化计算。进入小型机和PC时代后,虽然使用方式又回到了一对一的模式,但电脑设备已经分散到各个地方。进入成熟的互联网时代,客户端和服务器端已经采用了分布式计算模型,但服务器端还是比较分散,没有联网。云计算时代,算力统一管控。虽然客户端和服务器仍然基于分布式计算,但是服务器之间已经形成了分布式协同工作模型。因为协同的特点,这在整体上应该是一个中心化的计算服务。在以云计算为基础设施的大数据时代,IT技术仍然包含分布式的核心思想。以最常用的分布式计算技术的代表MapReduce为例,大数据需要MapReduce对任务进行分解,进行分布式计算,再将结果组合起来。分布式技术形成了一个分散的系统,其中每个组件都同等重要。具有这一特点的区块链技术在这一点上也非常突出。本质上,区块链是一种去中心化的分布式账本。区块链将不断增长的数据按照时间顺序组织成链式数据结构,系统中的所有节点共同参与数据记录。在“分布式”的概念上,大数据和区块链技术已经达成共识。分布式概念的出现代表着技术权威从垄断到去中心化的转变。IT领域的技术垄断更多地指向具有垄断性质的大型互联网公司。如果某家公司掌握了互联网社交软件的所有技术,那么它就可以将整个舆论控制在自己的手中。普通人因为要使用公司提供的社交软件,无法顺利质疑公司。一家公司主导甚至控制公众舆论。普通人失去了发言权和监督权。这显然不利于社会稳定。也违背了互联网“网络自由”的初衷。各国政府也在反对互联网技术进行各种垄断。当“分布式”概念出现时,从根本上打破了技术权威的垄断,形成了一种新的“无中心”技术。在分布式系统中,所有参与者都享有平等的权利。大数据的各个协同工作组件缺一不可,只有相互协调才能完成工作;区块链的各个节点共同监督数据,每个节点都有一个质疑和被质疑的过程。分布式的核心思想使得区块链和大数据具有从技术权威到去中心化的特点。区块链和大数据在分布式方面有两个具体的共同点:分布式存储和分布式计算。2、分布式存储:HDFSVS块分布式存储是相对于集中式存储而言的。在传统的数据存储技术中,数据集中放在一个特定的数据库中,就像一个篮子里装着所有的鸡蛋;而分布式存储则是使用多个数据库将数据存储在一起,“鸡蛋”分散在各个容器中。在数据存储方面,区块链和大数据都采用了分布式存储技术。区块链存储数据的基本单位是块,而大数据是Hadoop分布式文件系统(HDFS)。如果把区块链看成一个账本,那么区块链中的区块就是账本中的页。在比特币区块链中,每个区块记录了一段时间内的比特币交易数据。当中本聪创建比特币时,他构建了第一个区块,创世区块。对于区块链来说,计算机进入区块链成为“块”并没有什么特殊的要求。只要算力足够强,就可以成为新的区块。也就是说,这些街区的电脑设备可以出现在地球的每一个角落。那么这些原本分散的设备是如何组合起来形成“区块链”的呢?在区块链的区块中,除了“创世区块”只有一个ID标识号外,后续创建的区块包含两个ID标识号,一个属于自己,一个属于前一个区块。通过ID号之间的指向,将区块按时间顺序连接成一条区块链。由于需要处理海量且快速增长的数据,大数据在数据存储方面更加注重性价比,实现存储容量的弹性扩展。HDFS是一种主要应用于大数据应用的分布式存储技术,能够满足商用硬件的性价比要求,因此在众多分布式技术中脱颖而出。HDFS的特点1).低成本HDFS的分布式存储服务是依靠数百甚至数千台服务器协同工作来实现的。这样当一台服务器出现故障时,只需要单独维修一台机器。如果是中心化的大型服务器,万一出现故障,维修成本会高很多。HDFS系统就是通过这种方式达到了低成本的目的。2).容错性高由于HDFS是众多服务器协同工作实现分布式存储,HDFS为每个数据文件准备了两次冗余备份,保证每个数据文件被存储三次。这样即使一台服务器出现故障,HDFS也可以借助备份数据继续工作。因此HDFS允许机器故障,具有容错性高的特点。3).高吞吐量HDFS的访问模型是“一次写入,多次读取”。只能在末尾添加数据变化的描述,不允许直接修改文件。这简化了确保数据一致性的过程,并实现了高吞吐量数据访问。虽然区块链和大数据在数据存储技术的实现上采用了不同的方式,但不可否认的是,它们都是基于“分布式”的思想:通过使用多台计算机,实现数据的分布式存储。这样的存储方式使得大数据技术能够应对海量数据,也使得区块链能够实现去中心化共治。3、分布式计算:MapReduceVS共识机制分布式计算是一种新的计算方式,是指两个或多个软件共享信息,协同计算。分布式计算方式不需要这些软件运行在一台计算机上,可以通过网络连接在多台计算机上共同运行。简单来说,分布式计算就是把大量的数据分成多个更小的单元,分配给多台计算机进行分工,最后汇总所有的结果。这种计算方式是云计算的技术基础,对于海量数据的大数据计算意义重大,因为要制造出一台计算能力足以应对PB级的计算机几乎是不可能的。分布式计算的理论很早以前就被研究人员研究过,但实用的解决方案并不多,也没有得到广泛应用。直到谷歌发布MapReduce,分布式计算的应用才开始受到广泛关注。在大数据领域,分布式计算的成功案例是MapReduce。MapReduce是云计算的核心技术,适用于大规模数据集(大于1TB)的并行计算,在大数据的分布式计算中有很好的表现。同时,MapReduce也是一种简化的分布式编程技术,可以有效提高复杂问题的并行处理效率。在区块链中,分布式计算的思想体现在“共识机制”上。区块链的共识机制是区块之间达成共识、写入数据的手段,也是防止数据被篡改的手段。区块链中有很多共识机制。比特币区块链采用“工作量证明”,即只有算力超过记账区块51%的计算机才有权利写入下一个数据,这也大大降低了交易记录被篡改的可能性。分布式计算的核心是不同的计算机通过信息交换最终达成共识,而区块链的共识机制恰恰体现了这一点。除了比特币区块链采用的“工作量证明”机制外,“唐盛链”采用的GEAR协议也是一种共识机制。GEAR协议是由唐盛(北京)物联网科技有限公司自主研发的共识协议,由三个子协议组成:轮换记账、集体评价、齿轮共识路由。该协议充分考虑了区块链上数据结构的特点和点对点通信的信息交换模式,在实现数据同步共识时支持多种场景的灵活使用。结合大数据和区块链的分布式计算应用,你会发现其核心特点在于数据的同步共享和负载均衡。通过分布式计算,数据资源在所有计算机上都有备份,方便稀有资源的共享;它还可以减轻计算机的运行负荷,减少计算机死机的可能性;同时,它还可以将程序部署在最适合的计算机上执行。斯坦福大学化学系教授GolhamRichardChelman曾说过:“分布式计算将加速整个人类的科学进程。”随着现代科技的进步,各个学科的科学研究都需要进行大量的计算:数学家希望得到更准确的pi值,生物学家希望计算机能够模拟蛋白质的折叠过程,天文学家希望计算机可以分析天体的运行轨迹……人类社会未来的发展离不开各种数据的计算,分布式计算在大数据和区块链领域的成功实践应用将对各行各业产生积极影响.MapReduce和共识机制都充分展示了分布式计算的独特优势:廉价和高效。区块链和大数据有一个共同的关键词,那就是“分布式”。虽然两者在存储和计算操作的手段上各有千秋,但都体现了分布式的思想。区块链和大数据通过数据的分布式存储,达到降低成本、提高系统稳定性的目的;区块链和大数据通过分布式计算实现数据共享和并行计算的目的,缓解计算机压力。因为区块链和大数据在分布式思维上有很多共同点,两者有共同发展的基础,这也是区块链在大数据领域大规模应用的前提。