随着所有事物的互连和智慧终端的普及,现实世界中80%以上的数据与地理位置有关,例如社交,付款和与旅行相关的应用程序。底部 - 物联网的无线通信网络,也将生成大量与位置相关的数据,以用于无线通信网络计划和优化,以帮助电信运营商构建具有更好经验的精品网络,并建立了所有事物的信息社会。
为了表征地理空间中无线网络相关指标的分布,根据50*50米的方形网格以及累积网格的统计指标进行切割。无线社区(单元格ID)和网格(管理网格中心的纬度和经度坐标。表结构如下:
例如,有必要分析CBD无线通信网络信号的覆盖范围,使用CBD的边界作为查询条件,返回网格和业务KPI,并视觉上呈现返回的网格纬度和纬度,并获得KPI以下效果。
CBD通信网络覆盖
查询性能:以约2000万用户的无线通信网络为例:每秒约240万事件,每天约14TB的数据,数据保存几天。基于行业常用的数据仓库查询,有一个大差距具有2/5/8秒的用户体验要求。同时,一个查询占据了很多资源。发布多个用户时,查询性能会大大降低,以便使用它来使用它来降低。5用户查询为例。
线性扩展:随着数据中心“云化”的发展,数据集中的存储和管理趋势是显而易见的,省和国家大型网络交付方案是显而易见的。迫切需要系统的方法来解决大规模数据治理的线性扩展问题。
考虑到业务数据在时间和空间中继续增长。同时,在业务分析过程中,主要查询包括:行政区域/问题区域/无线社区集群查询。
1)询问行政区域:行政区域查询的返回结果聚集在太空中;
2)在问题区域中查询:问题区域是指带有网络问题的某个表面积。
3)无线社区群集的查询:无线网络的邻域并非孤立地存在。通常,社区集群管理了一定数量的相邻无线社区。
总之,查询返回的结果聚集在空间上。因此,有必要考虑到包含数据库时,它支持根据空间坐标的时间和空间索引的建立,以提高查询过程中的数据过滤效率。
优化以下方法中的排序列设置,然后才能优化表。数据在纵向分类之前按纬度分类。
面向带的问题可以参考下图。在行业中解决此问题的方法是引入太空分类方法。公共空间排序方法包括Z和H-订单。最常用的方法是GeoHash。技术原理可以指HALFROST的杰作:有效的多维空间点索引算法。
关于Z和H顺序的优势和缺点,有很多讨论。尽管Z序列曲线是局部准备,但它也具有突变。在每个Z字母的角落,可能会发生秩序的变化。与Z顺序相比,H顺序与Z顺序相比解决了角落中的突变问题。H前群集特性比Z订单增加了约15%,但是这一代的复杂性大大增加,动态维护的成本将更高。此外,还有许多应用需要分解为真实的应用-Time Decomposition.com备用考虑,目前使用易于 - 使用Z订单编码:GEOSOT。
笔记:
1.'spatial_index'='geoid':设置空间编码的字段名称,当前字段名称为geoid;
2.'spatial_index.geoid.type'='geohash':设置空间编码的生成方法当前设置为GeoSot。考虑到行业中还有其他网格编码系统,例如GeoHash,Googles2,Uber H3essenceCarbondata的网格编码支持插件功能,可以支持不同的业务场景以快速引入匹配的网格编码系统。
3.'spatial_index.geoid.sourcecolumns'=“经度,纬度”:用于指定计算计算计算计算计算的参数部分,您需要设置与纬度和经度相对应的字段名称;
4.'spatial_index.geoid.level'='21':基于GeoSot计算空间编码需要网格级别,当前设置为21;
5.'spatial_index.geoid.class'='org.apache.carbondata.geosotindex':设置空格索引的实现方法,当前设置设置为GeoSot的实现算法;
6.'spatial_index.geoid.conversionratio'='1000000':纬度和纬度小数点后的数字数可以确定网格数据的准确性。在一般方案中,网格数据的准确性是固定的。通过此参数设置系统中系统中的Latimal小数位数的数量。
当使用多边形作为查询条件时,简单的方法是提前对多边形的外部矩形进行厚实的过滤,然后对查询结果进行过滤。良好的过滤过程是判断每个粗略的查询记录之间的关系过滤和多边形,并识别多边形内部的记录。
点之间关系和更变形之间的关系的判断是非常耗时的。空间数据库中的此类查询通常将多边形转换为网格编码的线段。如下图所示,浅蓝色是多边形过滤条件,多边形可以将其转换为某些。集合用作数据库底层过滤条件,可以将复杂的过滤方法转换为简单的过滤方法,并且可以重复使用Carbondata的有效过滤。
时间和空间索引的关键点是如何有效地编码多边形转换位网格编码的方法。通过分析该过程并比较行业的经典算法,以探索一种解决问题的新算法。与行业经典算法相比,新算法的性能具有分裂性能的8倍,在复杂多边形的处理中具有更大的性能优势,并且可以扩大优势以支持多边形列表查询场景。
基于Carbondata,在优化之前,SQL查询资源开销为1/5,而SQL的时间为1/5,其中SQL的时间是时间的1.5倍并增加了合并能力。
Carbondata在数据分类机制上更灵活。除了提供全球排序功能外,它还支持本地排序。这种功能可以大大提高数据库性能。在实际的交付应用程序中,大多数使用本地排序模式。空间位置中数据的分布是唯一的。在大规模交付方案中,为了确保查询性能不受影响,有必要考虑如何避免在散落到其他条目节点的同一仓库中相同位置的相同位置数据。在短期内,可以根据“分区”和“隔离桶”机制进行。从长远来看,它需要考虑时间和空间密度以及时间和空间潮汐,制定支持时间和空间负载平衡策略。相关研究已启动并取得了初步结果。
时间和空间功能是根据插件模型开发的。整个插件包装主要包括两个部分:
1.空间 - 长时间到空间网格编码和各种基于网格的编码算法实现空间数据的转换。目前,基于Geosot算法,可以独立续签算法的演变;
2.基于Carbondata提供的索引接口,您只需要在安装部署时将其加载到操作环境中。创建数据表时,您可以使用插件软件包支持的空间索引类型和算法。
基于插头功能,Carbondata的原始多维查询功能不受影响。通过充分识别业务数据和查询功能,并制定合理的排序列定义,应在全面查询性能方面具有更大的好处。在同一时间,时间和空间功能上可以独立发展,并支持其他方案的界面扩展。
人类的日常活动与两类道路和建筑物是密不可分的。在实际的业务分析过程中,除了对特定区域表面的整体分析外,它还涉及高价值场景的应用:道路和建筑物。
示例1:关键道路分析方案
使用SQL语句过滤和分析这些线路的辐射范围内的数据,以获取与网络体验相关的KPI指标,并提供直接支持图形的道路,地铁和高速导轨网络的性能分析数据,制表和高速轨道。
呈现返回道路和KPI的后盾和经度,以获得以下效果:
初步验证,多线的总长度为50公里,缓存区域为1000米,查询回报次数为25,832,而SQL执行时间为3.6秒。
建筑物相关方案的分析通常分为2D建筑物分析和3D建筑物分析。在2D建筑物的分析中,该建筑物通常以多边形对象表示,因此SQL语句需要支持多边形对象询问相关操作业务表包含纬度和经度字段以及与通信网络相关的指标。空间尺寸包括建筑物类型,建筑物(多边形对象)和统一的建筑物。在对3D建筑物的分析中,需要添加高度信息。
在分析业务列表时,通常有必要支持多边和(或)。此外,可能会出现“ Back”形建筑物。因此,有必要提供各种多边形关系操作方法。SQL语法详细信息可以参考碳社区界面说明文件。
示例2:2D建筑分析场景
查询某个城市中所有学校的通信网络信号覆盖范围。首先选择“学校”作为过滤条件,获取由空间维度设置的相应多边形对象的临时表T2,然后使用业务表T1和T2要获取Polgyon中的所有记录。返回相应的业务指标。
渲染返回的多边形和KPI以获得以下效果:
示例3:2D建筑网格分析场景
查找CBD建筑物的内部通信网络的分布。首先获取CBD范围内的多边形对象列表,然后使用多边形对象列表作为查询条件以获取相应的业务记录。最后,汇总网格的纬度和经度,网格的纬度和经度和相应的业务指标被返回。
呈现回报网格和KPI的纬度和经度,以获得以下效果:
示例2.1是根据整个建筑物进行汇总,以获取整个建筑物的指标。进行一些热点分析时,必须分析建筑物内部指标的分布。
初步验证,1,000个多边或查询,记录22545的退货数量以及SQL的执行时间为4.333秒。
示例4:3D建筑分析场景
体育场,音乐厅,购物中心,机场和火车站需要专注于网络实际运营中每层的三维空间的网络分布。该行业为基于经度的三维空间数据库提供,纬度和高建模。考虑到通信行业对高度要求的需求与人们的活动高度和建筑物的高度有关。在所有地区,没有很多高信息。其中foredo不参与时间和空间分类,只是作为一般维度参与业务分析的一般维度。
在使用建筑物的枢纽作为查询条件之后,在获得了经度,纬度,身高和业务KPI之后,进行了3D渲染,以显示三维建筑物的外墙和每个楼层的业务分布以获得以下效果:
在对3D建筑物的分析中,由于数据准确性问题,一些数据可能会转移到建筑物的外部。建筑物的多边形需要适当扩展,以确保检查业务数据。
探索电信空间的最初意图 - 基于Carbondata的大数据是解决产品查询性能问题。通过我们的实践,收入所带来的远远超出了查询性能的重大改善。
通用数据库具有相关的数据库,空间数据库和地图数据库。为了满足不同方案和最佳用户体验的业务分析,需要适当的数据库。这将导致对业务进行融合分析,依靠各种不同的分析引擎,并且业务分析过程很漫长。在Carbondata的空间 - 大数据功能上,可以对“湖仓库整合”的集成分析。使用统一的SQL来完成湖仓库内的普通数据分析和空间时间分析,从而大大提高了湖泊仓库建筑的研发效率和稳健性。
Carbondata的SQL界面不是行业标准接口。随后的计划完成Geomesa和Carbon对接,提供符合OGC标准的通用时间和空间查询接口。此外,时间和空间分析的查询过程包括数据过滤,聚合和图表。3D建模涉及3D场景中的3D模型。这些场景可以通过GPU来加速。经验,让我们拭目以待。
这篇文章分享了真诚的Yunyun社区,作者:Zhang Jun,Gong Yunjun。