哪个文件夹保存在大数据中（大文件存储）

时间：2023-03-05 23:20:04 网络应用技术

　　本文将告诉您存储哪个文件夹在哪个文件夹中保存了大数据，并将相应的知识点存储在大文件中。我希望这对您有帮助。不要忘记收集此网站。

　　本文目录清单：

　　1.介绍大数据中常用的文件格式2.第3章大数据存储3.数据库备份文件的哪个文件夹4.如何查看IT大数据中的elasticsearch组件的数据存储路径大数据夹？6。创建新数据库后，将.mdf和.ldf文件存储在哪个磁盘上？如果看不到图片，可以在我的CSDN上阅读文章：

　　最近，它正在执行HDFS小文件合并的项目，其中涉及读写一些文件格式，例如Avro，orc，parquet等。我在此期间阅读了一些信息，因此我计划编写一篇文章来制作记录。

　　本文不介绍如何读取和编写这些格式，仅它们各自的特征和基础存储的编码格式。

　　[图片上传失败...（Image-A5104A-1547368703623）]]]]]]

　　使用序列文件还可以将多个小文件合并到大文件中，并通过键值的形式将其整理。目前，序列文件可以视为一个小文件容器。

　　[图片上传失败...（Image-4D03A2-1547368703623）]]]]]]]

　　Parquet是基于专栏作家的文件格式，该格式根据列存储数据。引言图在Parquet官方网站上的文件格式上：

　　[图片上传失败...（Image-92770E-1547368703623）]]]]]]]

　　我们可以看到镶木木由几个部分组成：

　　[图片上传失败...（Image-391E57-1547368703623）]]]]]]]

　　ORC也是一种列存储格式，可从Apache Hive生成，以减少Hadoop数据存储空间并加速Hive查询速度。

　　[图片上传失败...（Image-BA6160-1547368703623）]]]]]]

　　目前，专栏文章存储是大数据字段中的基本优化项目。无论是存储还是查询，都有许多对专栏文章存储容量的优化。阅读了兽人和parquetConclude的文件结构的引入之后：

　　在压缩方面：

　　就查询而言：

　　从在线发现的一些数据来看，ORC的压缩率高于Parquet。至于查询性能，两者不应该太差异。我以前做过测试。在大多数场景中，在MR上的Hive下，Orc的查询性能会更好。在Spark上取代Hive后，Parquet的性能更好

　　本文介绍的四种大数据存储格式，两个是行存储，两个是列存储，但是我们可以看到一件事：它们都支持部门。这是大数据文件结构系统中非常重要的功能，因为可以通过多个节点来处理分割文件，以提高数据处理的处理速度。

　　此外，当前大数据的主要趋势应使用列存储。目前，我们公司逐渐促进了专栏作家存储的使用。我还对Hive进行了一些测试。在多个查询方案中，无论是兽人还是镶木速度，查询速度几乎是性能改进的4-8倍。此外，兽人和帕quet的压缩比可以达到10至1的度量。它正在考虑资源保护和查询性能，在大多数情况下，选择兽人或parquet作为文件存储格式是一个更好的选择。此外，Spark SQL的默认读取和写作格式也是Parquet。

　　当然，并不是说专栏文章的存储已统一。大多数情况下，我们仍然必须根据自己的使用方案来决定使用哪种存储格式。

　　序列文件

　　AVRO和序列差异

　　镶木

　　兽人

　　兽人和镶木木材的一些比较

　　首先，HDF的基本特征和结构

　　1.基本功能

　　（1）大尺度数据分配存储容量：分布式存储容量和良好的可扩展性（基于大量分布式节点上的大量本地文件系统，构建了具有较大容量的分布式文件系统，并建立了巨大的容量，并且整个文件系统的容量可以随着群集中的节点的增加线性扩展）

　　（2）高和辅助访问能力：提供高数据访问宽带（高数据吞吐量），并可以将带宽的比例扩展到集群中的所有节点

　　（3）强大的容错功能：（设计概念中的硬件故障被视为正常状态），以确保在频繁节点发生硬件故障时硬件故障正确，并且可以自动恢复从故障到确保数据不会丢失（采用的usemulti -copy数据块存储）

　　（4）顺序文件访问：（大数据批处理处理是大量简单的数据记录处理）优化了订单读取，并读取大量数据的快速顺序读取。成本是随机访问负载很高。

　　（5）简单的一致性模型（一次多次读取）：支持大量数据编写，多次阅读；请勿支持已编写的数据的更新操作，但允许将新数据添加到文件末尾。

　　（6）数据块存储模式：默认块大小为64MB。纤维：减少元数据的数量，允许这些数据块通过随机方式选择节点，并在不同的位置分布

　　2.基本框架和工作过程

　　（1）基本组成结构和文件访问过程

　　[1] HDFS;基于一组分布式服务器节点的分布式文件系统（使用经典的主结构）

　　[2]主控制节点的Namenode：

　　1）这是一个主服务器，用于管理整个文件系统的命名空间和元数据，并从外界处理文件访问请求

　　2）保留文件系统的三个中间元数据数据

　　命名空间：整个分布式文件系统的目录结构

　　数据块和文件名的映射表

　　每个数据块复制位置信息，默认情况下每个数据块都有3个副本

　　[3]来自节点数据台：

　　1）用于实际存储和管理文件的数据块

　　2）为了防止数据丢失，默认情况下每个数据块具有3个副本，并且将在不同的节点上复制这三个副本，以避免由于节点故障而导致的数据块的完全丢失。

　　[4]当程序访问文件时，实际文件数据流将不会通过Namenode传输。相反，在从Namenode获取所需访问数据块的存储位置信息之后，直接访问相应的数据台以获取数据

　　[5]设计好处：

　　1）可以允许文件的数据同时在不同的数据台上访问，以提高数据访问的速度

　　2）减轻Namenode的负担，避免使Namenode成为数据访问瓶颈

　　[6]基本访问过程：

　　1）首先，用户的应用程序通过HDFS客户端程序将文件名发送给Namenode

　　2）接收到文件名后，Namenode搜索与HDFS目录中文件名相对应的数据块，然后找到根据数据块信息保存数据块的数据台地址。

　　3）客户端收到这些数据台地址后，数据传输操作与这些数据台并行执行，并且操作结果的相关日志将提交给Namenode

　　2.数据块

　　（1）为了提高硬盘的效率，文件系统中最小的数据读取和写作单元是数据块

　　（2）HDFS数据块的默认大小为64MB。在实际部署中，可能还有更多

　　（3）设置数据块的原因是减少寻址费用的时间

　　（4）应用程序启动数据传输请求时：

　　[1] Namenode首先检索与文件相对应的数据块信息，并找到与数据块相对应的数据座

　　[2] Datanode根据数据块信息在其自己的存储中找到相应的文件，然后与应用程序交换数据

　　[3]由于执行了检索过程，因此有必要增加数据块的大小，以便可以减少地址的频率和时间

　　3.命名空间

　　（1）文件命名遵循“目录/减法/文件”格式

　　（2）目录可以通过命令行或API创建，并将文件保存在目录中。可以创建，删除和重命名的操作

　　（3）命令空间由Namenode管理。将记录对命名空间的所有更改

　　（4）在HDFS上保存的副本数量允许用户配置文件。

　　4.通信协议

　　（1）使用TCP协议作为基础支持协议

　　（2）申请协议

　　[1]应用程序可以启动TCP连接到Namenode

　　[2]应用程序和Namenode交互协议称为客户端协议

　　[3] Namenode和DataNode交互的协议称为DataNode协议

　　（3）用户和数据台之间的相互作用是通过启动远程呼叫（RPC）完成的，该调用是由Namenode响应完成的。此外，Namenode不会主动启动远程进程呼叫请求

　　5.客户端：它是用户和HDFS通信的最常见渠道。部署的HDFS将为客户提供

　　第二，HDFS可靠性设计

　　1. HDFS数据块多复制存储设计

　　（1）数据用于在系统中保存多个副本，同一数据块的多个副本将存储在不同的节点上

　　（2）优点：

　　[1]多复制可以使客户从不同的数据块中读取数据并加快传输速度

　　[2] HDFS的数据座通过网络传输数据。如果使用多个副本，您可以确定数据传输是否错误

　　[3]多复制可以确保如果数据台失败，则不会丢失数据

　　2.可靠性设计

　　（1）安全模式：

　　[1]当HDFS启动时，Namenode进入安全模式

　　[2] Namenode处于安全模式，无法执行任何文本操作，甚至不允许内部复制创建

　　[3] Namenode需要与每个数据码进行通信，以获取保存在其中的数据块信息并检查数据块信息

　　[4]仅通过Namenode检查，一个数据块被认为是安全的。

　　（2）辅助

　　[1]使用它备份Namenode元数据，以便在失败时还原元数据

　　[2]它充当Namenode的副本，不处理任何请求本身。

　　[3]功能：定期保存Namenode的元数据

　　（3）创建一个心跳袋并复制

　　[1]心跳：位于HDF核心的Namenode，通过周期性活动检查数据台活动

　　[2] DataNode失败了，并且不可用保存的数据。然后需要重新创建保存的副本以创建此副本，并将其放在其他可用地点

　　（4）数据一致性

　　[1]采用数据验证和机制

　　[2]创建文件时，HDFS将生成此文件的验证和验证，验证和文件本身存储在同一空间中。

　　[3]传输数据时，数据，验证和验证将一起传输。收到数据后，您可以检查

　　（5）租赁合同

　　[1]防止多个人写入数据

　　[2] Namenode保证同一文件只会发出允许的租赁，这可以有效防止多个人发生。

　　（6）回头

　　第三，HDFS文件存储组织并读写

　　1.文件数据的存储组织

　　（1）Namenode目录结构

　　[1]要借助本地文件系统保存数据，该文件夹的位置由配置选项（{dfs.name.dir}/{/tmp/dfs/name}确定

　　[2] Namenode的$ {dfs.name.dir}下有3个文件夹和1个文件：

　　1）当前目录：

　　文件版本：保存当前运行的HDFS版本信息

　　fsimages：整个系统的太空镜文件

　　编辑：Editlog编辑文件

　　fstime：上次检查点时间

　　2）先前。检查点目录：与上一个一致，但保留了最后一个检查点的内容

　　3）图像目录：FSIMAGE存储位置的旧版本

　　4）in_use.look.look：Namenode锁，仅在NAMENODE有效时才存在（启动并可以正常与DataNode交互）。

　　（2）DataNode目录结构

　　[1]在本地文件系统的帮助下保存数据。通过配置选项确定的文件夹位置{dfs.data.dir}

　　[2]下面有4个sub -directory和2个文件

　　1）当前目录：已成功编写的数据块以及某些系统所需的文件

　　a）文件版本：保存当前运行的HDFS版本信息

　　b）subdirxx：当同一目录下的文件超过某些限制时，创建一个新目录，保存额外的数据块和元数据

　　2）TMP目录和BlockBeingWritten目录：正在编写的数据块是由HDFS系统的内部副本引起的相应数据块

　　3）分离目录：用于数据座升级

　　4）存储目录：防止不同版本带来风险

　　5）in_user.lock文件：datanode lock.ly才能有效时。

　　（3）CheckPointNode目录结构：基本上与上一个

　　2.数据读取过程

　　（1）数据阅读过程

　　[1]首先，客户端调用文件系统实例的打开方法，以获取与此文件相对应的输入流。在HDFS中

　　[2]当构建输入流的第一步时，Namenode通过RPC远程调用Namenode可以获得与Namenode中该文件相对应的数据块存储位置，包括该文件的副本的保存位置（注意：输入中：在输入中：流，它将根据输入流中的网络拓扑结构，该结构将遵循网络拓扑结构，该结构将根据网络拓扑结构进行。

　　[3] - [4]获得此输入流后，客户端调用读取数据的读取方法。输入流根据先前的结果选择最近的DFSINPUTSTREAM，请选择“最近的数据”来建立和读取数据。

　　[5]如果您已经到达数据块的末尾，请关闭该数据台的连接，然后再次找到下一个数据块

　　[6]客户端呼叫关闭并关闭输入流DFSINPUTSTREAM

　　（2）数据输入过程

　　[1] - [2]：客户端的创建方法调用文件系统实例的创建方法以创建文件。检查后，使用Namenode添加文件信息。创建后，HDFS将返回输出流DFSDATAOUTPUTSTREAM将

　　[3]将数据写为从HDFS中的文件写入数据到相应的文件。

　　数据将首先分包。这些分包将写入输出流中内部队列数据队列，接收完整的数据分包，输出流将回忆起Namenode应用程序以保存文件并复制数据块。

　　[4] DFSDATAOUTPUTSTREAM将将数据传输到最短的数据台距离，从最短距离传输。收到数据包后，该节点将传输到下一个节点。DATA通过节点之间的管道循环以减少开机开销

　　[5]数据节点位于不同的计算机上，需要通过网络发送数据（确保数据节点数据正确，接收数据的节点应将确认包发送给发送者）

　　[6]执行3-5知道数据已完成，DFSDATAINPUTSTREAM继续等待，以了解所有数据均已编写和确认，并调用完整的方法通知Namenode文件以写入和完成

　　[7]收到完整的消息后，收到相应数量的副本后，将通知客户

　　在传输过程中，当数据台失败时，HDFS执行：

　　1）关闭数据传输管道

　　2）将ACK队列的数据放在数据队列的头部

　　3）更新普通数据台上的所有数据块版本。当过期的数据台电极重新启动时，将清除先前的数据块，因为版本不正确

　　4）在传输管道中删除已过期的数据座，重新建立管道并发送数据包

　　4.HDFS文件系统操作命令

　　（1）HDFS启动和关闭

　　[1]开始过程：

　　1）输入Namenode相应节点的Hadoop安装目录

　　2）执行启动脚本：bin/start-dfs.sh

　　[2]关闭过程：bin/stop-dfs.sh

　　（2）文件操作命令格式和预防措施

　　[1]基本命令格式：

　　1）bin/hadoop dfs-cmd args args-args- proch：// pertional/path

　　2）ARGS参数的基本格式是方案。权威是机器地址和相应的端口

　　a）本地文件，方案是文件

　　b）HDFS上的文件，方案是HDFS

　　（3）文件操作的基本格式

　　[1] hadoop dfs-cat URL [url ...]

　　[2]函数：输出参数指令的内容到stdout

　　SQL数据库的备份通常在数据库安装目录中默认为默认值。

　　您可以单击浏览并选择保存的位置。

　　如果是默认配置，则在ES目录中的数据文件夹下

　　您不清楚您的手机还是Android手机，因为Android手机和Apple手机存储SMS的位置不同，因此让他显示的方法与众不同，因此我将存储这两个移动消息在下面的存储位置以及显示的方式，您可以根据手机类型查看它。

　　1. Android Phone SMS文件夹存储位置并打开计算机上的SMS数据库文件

　　1.首先，要查找Android Phone SMS所在的文件夹，我们需要扎根Android手机，因为手机SMS存储在手机系统磁盘中。如果我们不扎根，我们将无法直接访问系统迪斯凯斯中的文件，可以在线搜索“ 360一个单击root”，以便您的Android手机扎根。

　　2.然后在Android手机上安装一个名为“ Re Management RooteXplorer”的软件。

　　3.在您的手机上打开“ Re Management RooteXplorer”软件，然后输入“ datadatacom.android.telephonydatabases”文件夹，并在此处保存Android Phone SMS。专门存储在“ mmssms.db”和“ mmsssms.db-wal”文件中。。我们可以检查这两个文件并复制它。如果您的手机中没有“ mmssms.db-wal”文件，则意味着您的所有SMS内容都存储在“ mmsms.db”文件中，而您不得需要复制“ mmssms.db-clothes”文件。

　　3.复制后，我们单击窗口顶部的“ ..”文件夹，以返回上一层文件夹，直到返回根目录。

　　4.在根目录中找到“ sdcard”文件夹，单击输入，然后粘贴首先复制到文件夹的两个（或一个）文件。

　　5.将手机与计算机连接，然后打开手机的磁盘，然后再次复制复制到SDCARD并将其粘贴到计算机文件夹中。

　　6.导出到计算机后，无法直接打开SMS数据库文件。您可以下载任何手机SMS恢复软件以打开MMSSMS.DB文件，并还原Android手机中删除的文本消息内容。

　　2. Apple手机短信存储位置并在计算机上打开

　　1.打开iTunes软件并将手机连接到计算机。几秒钟后的几秒钟，在成功连接到计算机的手机后，单击iTunes软件界面左上角的小型手机图标，然后选择“此计算机”，然后立即单击“备份”按钮，然后单击“请勿备份应用程序”，也就是说，在下图中单击1、2、3和4。这是将手机中的所有数据导出到计算机。

　　注意：请不要检查“ iPhone的备份加密”。如果加密加密，则还加密传输的手机文本消息，以便以后不会完成恢复操作。

　　2.备份时间与手机上安装的软件有关。可能需要几分钟到几分钟。请耐心等待。备份完成后，窗户顶部的进度栏将消失。当您看不到顶部的进度栏时，这意味着备份已完成，下图显示了备份时的窗口界面。

　　3.打开“ PP助手”软件，单击“工具箱”，“ iTunes备份管理”，如下图所示：

　　4.双击此数据线仅备份。

　　5.在弹出窗口的左侧，我们可以看到“ SMS”。我们单击它，然后单击右侧的“ SMS.DB”，然后单击“导出”按钮以导出文件。

　　注意：SMS.DB是由Apple的手机SMS保存的数据库文件。所有已删除和没有准备的手机短信都存储在文件中。

　　6.打开任何手机SMS恢复软件，然后单击菜单“文件”，“打开SMS数据库文件”，然后选择您刚导出的SMS.DB文件。

　　7.然后我们单击菜单“文件”，“还原SMS”，然后该软件将开始扫描。

　　8.等待片刻后，该软件将弹出窗口以指示成功恢复的SMS号码的数量。目前，您可以单击左侧的手机号码列表，以查看Apple手机上的所有已删除的移动消息。

　　如果您的程序包装在C驱动器中，则将默认数据库放置在C：Program FilesMicrosoft SQL Servermsssql.1MSSSQLDATA ?????????????????????????????????????????????????????????????

　　哪个文件夹和大型文件存储的引入结束了。我想知道您是否从中找到了所需的信息？如果您想进一步了解此信息，请记住要收集对该网站的关注。

上一篇：如何打开Win8帐户控制（Win81启用用户帐户控制）

下一篇：哪个基金公司是大数据100？

哪个文件夹保存在大数据中（大文件存储）相关文章