最先进的技术如何帮助蜂窝提供商改善他们的服务。人工智能和机器学习已经为零售、银行或交通等行业提供了一些令人印象深刻的用例。虽然该技术远非完美,但ML的进步也使其他行业受益。在本文中,我们检查了我们自己关于如何使Internet提供商更有效地运营的研究。通过异常检测改进4G网络流量分配前几代蜂窝网络在分配网络资源方面效率低下,无法始终为所有区域提供统一覆盖。例如,您可以想象一个拥有大城市、小镇或绵延数英里的森林的广阔区域。所有这些地区都获得相同数量的覆盖——尽管城镇需要更多的互联网流量而森林需要更少。鉴于现代4G网络的流量更高,蜂窝提供商能够通过优化频率资源的使用来实现可观的节能并改善客户体验。基于机器学习的异常检测可以预测网络各部分的流量需求,帮助运营商更合理地分配流量。本文基于我们对公共领域信息的分析,并实施ML算法以一种可能的方式有效地解决这个问题。这个特定问题有多种解决方案。最有趣的包括:蜂窝网络中的异常检测和分类,使用自动标记技术将监督学习应用于2G/3G/4G/5G网络。CellPAD是一个统一的性能异常检测框架,用于通过回归分析检测蜂窝网络中的性能异常。数据概述这项研究是使用从真实LTE网络中提取的信息完成的。该数据集总共包含14个特征,其中12个是数值特征,2个是分类特征。我们有将近40,000行没有缺失值的数据记录(空白行)。数据分析团队将信息分为两个标签类别:正常或0:数据不需要任何重新配置??或重新分配异常或1:由于异常活动需要重新配置标签是根据特定部分的流量手动执行的网络。但是,可以选择利用神经网络进行自动数据标记。查找此功能的AmazonSageMakerGroundTruth,或来自GoogleAIPlatform的数据标签服务。数据分析结果对标记数据的分析表明,整个数据集是不平衡的。我们有26,271个内点(0级)和10,183个(1级)离群点:从数据集中,构建Pearson相关矩阵:4G网络利用率特征相关图(Pearson)如您所见,大量特征高度相关。这种相关性使我们能够了解数据集中的不同属性是如何相互连接的。它作为不同建模技术的基本量,有时可以帮助我们发现因果关系并根据一个属性预测另一个属性。这次我们有完全正面和负面的属性,这可能会导致多重共线性问题,从而以不好的方式影响模型的性能。当可以从任何其他变量高精度地线性预测多元回归模型中的一个预测变量时,就会发生这种情况。对我们来说幸运的是,决策树和提升树能够通过在分裂时选择一个完全相关的特征来解决这个问题。当使用逻辑回归或线性回归等其他模型时,请记住它们可能会遇到此问题,并且需要在训练前进行额外的调整。其他处理多重共线性的方法包括主成分分析(PCA)和去除完全相关的特征。对我们来说最好的选择是使用基于树的算法,因为它们不需要任何调整来处理这个问题。Baseaccuracy是衡量分类的关键指标之一,它是正确预测与数据集中样本总数的比率。如前所述,我们的案例中有不平衡的类别,这意味着基本准确度可能会给我们不正确的结果,因为高指标没有显示少数类别的预测能力。我们可以获得接近100%的准确率,但在特定类别中的预测能力仍然很低,因为异常是数据集中最罕见的。我们决定不使用准确性,而是使用F1度量,即精度和召回率的调和平均值,这对于不平衡的分类情况很有用。F1指标涵盖从0到1的范围,其中0是完全失败,1是完美分类。样本可以按四种方式排序:TruePositive,TP-正标签和正分类TrueNegative,TN-一个负标签和一个负分类FalsePositive,FP-负标签和正分类FalseNegative,FN-一个正标签和一个NegativeClassification以下是不平衡类别的指标:TruePositiveRate、Recall或SensitivityFalseNegativeRate或FailureExactTrueNegativeRateorSpecificityF1-score指标的公式是:我们为我们选择的算法DecisionTreeClassifier是一个很好的起点,因为我们在没有任何额外调整的情况下获得了94%的测试选择准确率。为了让我们的结果更好,我们求助于BaggingClassifier,它也是一种树算法,根据F1分数指标,它给了我们96%的准确率。我们还尝试了RandomForestClassifier和GradientBoostingClassifier算法,它们的准确率分别为91%和93%。FeatureEngineeringStep得益于基于树的算法,我们取得了不错的效果,但仍有一定的增长空间,因此我们决定进一步提高准确率。在处理数据时,我们添加了时间特征(分钟和小时),增加了从“时间”参数中提取时间的可能性,并尝试了时滞特征——这些举措并没有太大帮助。然而,有助于改进模型结果的是使用允许特征转换和数据平衡的上采样技术。参数调整步骤所有开箱即用的算法显示结果都在90%以上,这是相当不错的,但是使用GridSearch技术,它们可以进一步改进。在这四种算法中,GridSearch对GradientBoostingClassifier最有效,帮助实现了惊人的99%的准确率,从而实现了我们最初的目标。结论我们在本文中强调的问题在所有提供3G或4G覆盖的移动互联网提供商中都很常见,可以解决这些问题以改善用户体验。这种情况下的“异常”被视为互联网流量的浪费。机器学习模型可以根据输入数据确定资源分配的有效性。描述的使用GridSearch调优的GradientBoostingClassifier的用法可以帮助公司评估流量分配的效率,并建议他们需要更改哪些参数以提供最佳用户体验。无效的流量利用并不是数据科学在电信行业可以解决的唯一问题。合适的开发团队还可以为欺诈检测、预测分析、客户细分、客户流失预防和生命周期价值预测提供解决方案。
