当前位置: 首页 > 网络应用技术

哪个文件夹保存在大数据中(大文件存储)

时间:2023-03-05 23:20:04 网络应用技术

  本文将告诉您存储哪个文件夹在哪个文件夹中保存了大数据,并将相应的知识点存储在大文件中。我希望这对您有帮助。不要忘记收集此网站。

  本文目录清单:

  1.介绍大数据中常用的文件格式2.第3章大数据存储3.数据库备份文件的哪个文件夹4.如何查看IT大数据中的elasticsearch组件的数据存储路径大数据夹?6。创建新数据库后,将.mdf和.ldf文件存储在哪个磁盘上?如果看不到图片,可以在我的CSDN上阅读文章:

  最近,它正在执行HDFS小文件合并的项目,其中涉及读写一些文件格式,例如Avro,orc,parquet等。我在此期间阅读了一些信息,因此我计划编写一篇文章来制作记录。

  本文不介绍如何读取和编写这些格式,仅它们各自的特征和基础存储的编码格式。

  [图片上传失败...(Image-A5104A-1547368703623)]]]]]]

  使用序列文件还可以将多个小文件合并到大文件中,并通过键值的形式将其整理。目前,序列文件可以视为一个小文件容器。

  [图片上传失败...(Image-4D03A2-1547368703623)]]]]]]]

  Parquet是基于专栏作家的文件格式,该格式根据列存储数据。引言图在Parquet官方网站上的文件格式上:

  [图片上传失败...(Image-92770E-1547368703623)]]]]]]]

  我们可以看到镶木木由几个部分组成:

  [图片上传失败...(Image-391E57-1547368703623)]]]]]]]

  ORC也是一种列存储格式,可从Apache Hive生成,以减少Hadoop数据存储空间并加速Hive查询速度。

  [图片上传失败...(Image-BA6160-1547368703623)]]]]]]

  目前,专栏文章存储是大数据字段中的基本优化项目。无论是存储还是查询,都有许多对专栏文章存储容量的优化。阅读了兽人和parquetConclude的文件结构的引入之后:

  在压缩方面:

  就查询而言:

  从在线发现的一些数据来看,ORC的压缩率高于Parquet。至于查询性能,两者不应该太差异。我以前做过测试。在大多数场景中,在MR上的Hive下,Orc的查询性能会更好。在Spark上取代Hive后,Parquet的性能更好

  本文介绍的四种大数据存储格式,两个是行存储,两个是列存储,但是我们可以看到一件事:它们都支持部门。这是大数据文件结构系统中非常重要的功能,因为可以通过多个节点来处理分割文件,以提高数据处理的处理速度。

  此外,当前大数据的主要趋势应使用列存储。目前,我们公司逐渐促进了专栏作家存储的使用。我还对Hive进行了一些测试。在多个查询方案中,无论是兽人还是镶木速度,查询速度几乎是性能改进的4-8倍。此外,兽人和帕quet的压缩比可以达到10至1的度量。它正在考虑资源保护和查询性能,在大多数情况下,选择兽人或parquet作为文件存储格式是一个更好的选择。此外,Spark SQL的默认读取和写作格式也是Parquet。

  当然,并不是说专栏文章的存储已统一。大多数情况下,我们仍然必须根据自己的使用方案来决定使用哪种存储格式。

  序列文件

  AVRO和序列差异

  镶木

  兽人

  兽人和镶木木材的一些比较

  首先,HDF的基本特征和结构

  1.基本功能

  (1)大尺度数据分配存储容量:分布式存储容量和良好的可扩展性(基于大量分布式节点上的大量本地文件系统,构建了具有较大容量的分布式文件系统,并建立了巨大的容量,并且整个文件系统的容量可以随着群集中的节点的增加线性扩展)

  (2)高和辅助访问能力:提供高数据访问宽带(高数据吞吐量),并可以将带宽的比例扩展到集群中的所有节点

  (3)强大的容错功能:(设计概念中的硬件故障被视为正常状态),以确保在频繁节点发生硬件故障时硬件故障正确,并且可以自动恢复从故障到确保数据不会丢失(采用的usemulti -copy数据块存储)

  (4)顺序文件访问:(大数据批处理处理是大量简单的数据记录处理)优化了订单读取,并读取大量数据的快速顺序读取。成本是随机访问负载很高。

  (5)简单的一致性模型(一次多次读取):支持大量数据编写,多次阅读;请勿支持已编写的数据的更新操作,但允许将新数据添加到文件末尾。

  (6)数据块存储模式:默认块大小为64MB。纤维:减少元数据的数量,允许这些数据块通过随机方式选择节点,并在不同的位置分布

  2.基本框架和工作过程

  (1)基本组成结构和文件访问过程

  [1] HDFS;基于一组分布式服务器节点的分布式文件系统(使用经典的主结构)

  [2]主控制节点的Namenode:

  1)这是一个主服务器,用于管理整个文件系统的命名空间和元数据,并从外界处理文件访问请求

  2)保留文件系统的三个中间元数据数据

  命名空间:整个分布式文件系统的目录结构

  数据块和文件名的映射表

  每个数据块复制位置信息,默认情况下每个数据块都有3个副本

  [3]来自节点数据台:

  1)用于实际存储和管理文件的数据块

  2)为了防止数据丢失,默认情况下每个数据块具有3个副本,并且将在不同的节点上复制这三个副本,以避免由于节点故障而导致的数据块的完全丢失。

  [4]当程序访问文件时,实际文件数据流将不会通过Namenode传输。相反,在从Namenode获取所需访问数据块的存储位置信息之后,直接访问相应的数据台以获取数据

  [5]设计好处:

  1)可以允许文件的数据同时在不同的数据台上访问,以提高数据访问的速度

  2)减轻Namenode的负担,避免使Namenode成为数据访问瓶颈

  [6]基本访问过程:

  1)首先,用户的应用程序通过HDFS客户端程序将文件名发送给Namenode

  2)接收到文件名后,Namenode搜索与HDFS目录中文件名相对应的数据块,然后找到根据数据块信息保存数据块的数据台地址。

  3)客户端收到这些数据台地址后,数据传输操作与这些数据台并行执行,并且操作结果的相关日志将提交给Namenode

  2.数据块

  (1)为了提高硬盘的效率,文件系统中最小的数据读取和写作单元是数据块

  (2)HDFS数据块的默认大小为64MB。在实际部署中,可能还有更多

  (3)设置数据块的原因是减少寻址费用的时间

  (4)应用程序启动数据传输请求时:

  [1] Namenode首先检索与文件相对应的数据块信息,并找到与数据块相对应的数据座

  [2] Datanode根据数据块信息在其自己的存储中找到相应的文件,然后与应用程序交换数据

  [3]由于执行了检索过程,因此有必要增加数据块的大小,以便可以减少地址的频率和时间

  3.命名空间

  (1)文件命名遵循“目录/减法/文件”格式

  (2)目录可以通过命令行或API创建,并将文件保存在目录中。可以创建,删除和重命名的操作

  (3)命令空间由Namenode管理。将记录对命名空间的所有更改

  (4)在HDFS上保存的副本数量允许用户配置文件。

  4.通信协议

  (1)使用TCP协议作为基础支持协议

  (2)申请协议

  [1]应用程序可以启动TCP连接到Namenode

  [2]应用程序和Namenode交互协议称为客户端协议

  [3] Namenode和DataNode交互的协议称为DataNode协议

  (3)用户和数据台之间的相互作用是通过启动远程呼叫(RPC)完成的,该调用是由Namenode响应完成的。此外,Namenode不会主动启动远程进程呼叫请求

  5.客户端:它是用户和HDFS通信的最常见渠道。部署的HDFS将为客户提供

  第二,HDFS可靠性设计

  1. HDFS数据块多复制存储设计

  (1)数据用于在系统中保存多个副本,同一数据块的多个副本将存储在不同的节点上

  (2)优点:

  [1]多复制可以使客户从不同的数据块中读取数据并加快传输速度

  [2] HDFS的数据座通过网络传输数据。如果使用多个副本,您可以确定数据传输是否错误

  [3]多复制可以确保如果数据台失败,则不会丢失数据

  2.可靠性设计

  (1)安全模式:

  [1]当HDFS启动时,Namenode进入安全模式

  [2] Namenode处于安全模式,无法执行任何文本操作,甚至不允许内部复制创建

  [3] Namenode需要与每个数据码进行通信,以获取保存在其中的数据块信息并检查数据块信息

  [4]仅通过Namenode检查,一个数据块被认为是安全的。

  (2)辅助

  [1]使用它备份Namenode元数据,以便在失败时还原元数据

  [2]它充当Namenode的副本,不处理任何请求本身。

  [3]功能:定期保存Namenode的元数据

  (3)创建一个心跳袋并复制

  [1]心跳:位于HDF核心的Namenode,通过周期性活动检查数据台活动

  [2] DataNode失败了,并且不可用保存的数据。然后需要重新创建保存的副本以创建此副本,并将其放在其他可用地点

  (4)数据一致性

  [1]采用数据验证和机制

  [2]创建文件时,HDFS将生成此文件的验证和验证,验证和文件本身存储在同一空间中。

  [3]传输数据时,数据,验证和验证将一起传输。收到数据后,您可以检查

  (5)租赁合同

  [1]防止多个人写入数据

  [2] Namenode保证同一文件只会发出允许的租赁,这可以有效防止多个人发生。

  (6)回头

  第三,HDFS文件存储组织并读写

  1.文件数据的存储组织

  (1)Namenode目录结构

  [1]要借助本地文件系统保存数据,该文件夹的位置由配置选项({dfs.name.dir}/{/tmp/dfs/name}确定

  [2] Namenode的$ {dfs.name.dir}下有3个文件夹和1个文件:

  1)当前目录:

  文件版本:保存当前运行的HDFS版本信息

  fsimages:整个系统的太空镜文件

  编辑:Editlog编辑文件

  fstime:上次检查点时间

  2)先前。检查点目录:与上一个一致,但保留了最后一个检查点的内容

  3)图像目录:FSIMAGE存储位置的旧版本

  4)in_use.look.look:Namenode锁,仅在NAMENODE有效时才存在(启动并可以正常与DataNode交互)。

  (2)DataNode目录结构

  [1]在本地文件系统的帮助下保存数据。通过配置选项确定的文件夹位置{dfs.data.dir}

  [2]下面有4个sub -directory和2个文件

  1)当前目录:已成功编写的数据块以及某些系统所需的文件

  a)文件版本:保存当前运行的HDFS版本信息

  b)subdirxx:当同一目录下的文件超过某些限制时,创建一个新目录,保存额外的数据块和元数据

  2)TMP目录和BlockBeingWritten目录:正在编写的数据块是由HDFS系统的内部副本引起的相应数据块

  3)分离目录:用于数据座升级

  4)存储目录:防止不同版本带来风险

  5)in_user.lock文件:datanode lock.ly才能有效时。

  (3)CheckPointNode目录结构:基本上与上一个

  2.数据读取过程

  (1)数据阅读过程

  [1]首先,客户端调用文件系统实例的打开方法,以获取与此文件相对应的输入流。在HDFS中

  [2]当构建输入流的第一步时,Namenode通过RPC远程调用Namenode可以获得与Namenode中该文件相对应的数据块存储位置,包括该文件的副本的保存位置(注意:输入中:在输入中:流,它将根据输入流中的网络拓扑结构,该结构将遵循网络拓扑结构,该结构将根据网络拓扑结构进行。

  [3] - [4]获得此输入流后,客户端调用读取数据的读取方法。输入流根据先前的结果选择最近的DFSINPUTSTREAM,请选择“最近的数据”来建立和读取数据。

  [5]如果您已经到达数据块的末尾,请关闭该数据台的连接,然后再次找到下一个数据块

  [6]客户端呼叫关闭并关闭输入流DFSINPUTSTREAM

  (2)数据输入过程

  [1] - [2]:客户端的创建方法调用文件系统实例的创建方法以创建文件。检查后,使用Namenode添加文件信息。创建后,HDFS将返回输出流DFSDATAOUTPUTSTREAM将

  [3]将数据写为从HDFS中的文件写入数据到相应的文件。

  数据将首先分包。这些分包将写入输出流中内部队列数据队列,接收完整的数据分包,输出流将回忆起Namenode应用程序以保存文件并复制数据块。

  [4] DFSDATAOUTPUTSTREAM将将数据传输到最短的数据台距离,从最短距离传输。收到数据包后,该节点将传输到下一个节点。DATA通过节点之间的管道循环以减少开机开销

  [5]数据节点位于不同的计算机上,需要通过网络发送数据(确保数据节点数据正确,接收数据的节点应将确认包发送给发送者)

  [6]执行3-5知道数据已完成,DFSDATAINPUTSTREAM继续等待,以了解所有数据均已编写和确认,并调用完整的方法通知Namenode文件以写入和完成

  [7]收到完整的消息后,收到相应数量的副本后,将通知客户

  在传输过程中,当数据台失败时,HDFS执行:

  1)关闭数据传输管道

  2)将ACK队列的数据放在数据队列的头部

  3)更新普通数据台上的所有数据块版本。当过期的数据台电极重新启动时,将清除先前的数据块,因为版本不正确

  4)在传输管道中删除已过期的数据座,重新建立管道并发送数据包

  4.HDFS文件系统操作命令

  (1)HDFS启动和关闭

  [1]开始过程:

  1)输入Namenode相应节点的Hadoop安装目录

  2)执行启动脚本:bin/start-dfs.sh

  [2]关闭过程:bin/stop-dfs.sh

  (2)文件操作命令格式和预防措施

  [1]基本命令格式:

  1)bin/hadoop dfs-cmd args args-args- proch:// pertional/path

  2)ARGS参数的基本格式是方案。权威是机器地址和相应的端口

  a)本地文件,方案是文件

  b)HDFS上的文件,方案是HDFS

  (3)文件操作的基本格式

  [1] hadoop dfs-cat URL [url ...]

  [2]函数:输出参数指令的内容到stdout

  SQL数据库的备份通常在数据库安装目录中默认为默认值。

  您可以单击浏览并选择保存的位置。

  如果是默认配置,则在ES目录中的数据文件夹下

  如果是默认配置,则在ES目录中的数据文件夹下

  

  您不清楚您的手机还是Android手机,因为Android手机和Apple手机存储SMS的位置不同,因此让他显示的方法与众不同,因此我将存储这两个移动消息在下面的存储位置以及显示的方式,您可以根据手机类型查看它。

  1. Android Phone SMS文件夹存储位置并打开计算机上的SMS数据库文件

  1.首先,要查找Android Phone SMS所在的文件夹,我们需要扎根Android手机,因为手机SMS存储在手机系统磁盘中。如果我们不扎根,我们将无法直接访问系统迪斯凯斯中的文件,可以在线搜索“ 360一个单击root”,以便您的Android手机扎根。

  2.然后在Android手机上安装一个名为“ Re Management RooteXplorer”的软件。

  3.在您的手机上打开“ Re Management RooteXplorer”软件,然后输入“ datadatacom.android.telephonydatabases”文件夹,并在此处保存Android Phone SMS。专门存储在“ mmssms.db”和“ mmsssms.db-wal”文件中。。我们可以检查这两个文件并复制它。如果您的手机中没有“ mmssms.db-wal”文件,则意味着您的所有SMS内容都存储在“ mmsms.db”文件中,而您不得需要复制“ mmssms.db-clothes”文件。

  3.复制后,我们单击窗口顶部的“ ..”文件夹,以返回上一层文件夹,直到返回根目录。

  4.在根目录中找到“ sdcard”文件夹,单击输入,然后粘贴首先复制到文件夹的两个(或一个)文件。

  5.将手机与计算机连接,然后打开手机的磁盘,然后再次复制复制到SDCARD并将其粘贴到计算机文件夹中。

  6.导出到计算机后,无法直接打开SMS数据库文件。您可以下载任何手机SMS恢复软件以打开MMSSMS.DB文件,并还原Android手机中删除的文本消息内容。

  2. Apple手机短信存储位置并在计算机上打开

  1.打开iTunes软件并将手机连接到计算机。几秒钟后的几秒钟,在成功连接到计算机的手机后,单击iTunes软件界面左上角的小型手机图标,然后选择“此计算机”,然后立即单击“备份”按钮,然后单击“请勿备份应用程序”,也就是说,在下图中单击1、2、3和4。这是将手机中的所有数据导出到计算机。

  注意:请不要检查“ iPhone的备份加密”。如果加密加密,则还加密传输的手机文本消息,以便以后不会完成恢复操作。

  2.备份时间与手机上安装的软件有关。可能需要几分钟到几分钟。请耐心等待。备份完成后,窗户顶部的进度栏将消失。当您看不到顶部的进度栏时,这意味着备份已完成,下图显示了备份时的窗口界面。

  3.打开“ PP助手”软件,单击“工具箱”,“ iTunes备份管理”,如下图所示:

  4.双击此数据线仅备份。

  5.在弹出窗口的左侧,我们可以看到“ SMS”。我们单击它,然后单击右侧的“ SMS.DB”,然后单击“导出”按钮以导出文件。

  注意:SMS.DB是由Apple的手机SMS保存的数据库文件。所有已删除和没有准备的手机短信都存储在文件中。

  6.打开任何手机SMS恢复软件,然后单击菜单“文件”,“打开SMS数据库文件”,然后选择您刚导出的SMS.DB文件。

  7.然后我们单击菜单“文件”,“还原SMS”,然后该软件将开始扫描。

  8.等待片刻后,该软件将弹出窗口以指示成功恢复的SMS号码的数量。目前,您可以单击左侧的手机号码列表,以查看Apple手机上的所有已删除的移动消息。

  如果您的程序包装在C驱动器中,则将默认数据库放置在C:Program FilesMicrosoft SQL Servermsssql.1MSSSQLDATA ?????????????????????????????????????????????????????????????

  哪个文件夹和大型文件存储的引入结束了。我想知道您是否从中找到了所需的信息?如果您想进一步了解此信息,请记住要收集对该网站的关注。