当前位置: 首页 > 网络应用技术

Kaggle实际战斗:极端不平衡的信用卡数据分析

时间:2023-03-06 12:42:54 网络应用技术

  公共帐户:尤其是小屋

  作者:彼得

  编辑:彼得

  大家好,这是彼得?

  今天,我将为您带来一篇新的Kaggle文章:极端不平衡的信用卡数据分析,主要内容包括:

  原始笔记本电脑地址是:HILTPS://www.kaggle.com/code/janiobachmann/credit-fraud-fraud-with-mmbalaccys/notebook

  非平衡:信用卡数据中欺诈和非欺诈的比例不均匀,非欺诈的比例绝对占据了绝大多数。这篇文章提供了一种方法:如何处理这个极端的不均匀数据

  导入各种库和软件包:绘图,功能工程,缩小尺寸,分类模型,评估指标等。

  阅读数据并查看基本信息

  数据的形状如下:

  在[3]中:

  出去[3]:

  在[4]中:

  出去[4]:

  结果表明没有价值损失。

  以下是数据中字段的相关类型。

  在[5]中:

  出去[5]:

  在[6]中:

  出去[6]:

  检查数据的统计信息:

  在[8]中:

  出去[8]:

  我们发现,类别0的样本比属于1的样本要高得多,而且它们非常不平衡。这是本文的重点。

  在[9]中:

  非弗拉德-0和欺诈1通过列图的比率极为不平衡。

  发现某些特征的分布有部分状态:

  在[10]中:

  观察两个在不同值下的数量和时间字段的分布,并发现:

  查看每个特征值的框 - 型图:

  返回数量和时间字段。其他字段已经执行了归一化操作。

  在[13]中:

  在[14]中:

  删除原始字段并使用“背景”字段和数据

  将新生成的字段放在最前沿

  在开始随机欠样品之前,我们需要将原始数据分配。

  尽管我们不会采样和采样数据,但我们希望在测试时使用原始数据集。

  在[18]中:

  在课堂上检查0-no欺诈和1-fraud的比率:

  在[19]中:

  出去[19]:

  生成特征数据集x和标签数据y:

  在[20]中:

  在[21]中:

  将生成的数据转换为numpy数组:

  在[22]中:

  查看训练集的唯一值onimart_ytrain和onigral_ytest以及每个唯一值的比率:

  在[23]中:

  在[24]中:

  样本采样也称为较低采样,该采样主要基于原始数据中具有更多类别的删除数据,以便与小类数据达到平衡,以免导致模型过度拟合。

  样本采样将导致数据信息。例如,No-Fraud在原始数据中有284,315个数据,但是在欠款中只有492个数据后,已经放弃了大量数据。

  取出欺诈数据,并从非欺诈中获取相同的长度数据:

  现在我们发现样品是统一的:

  在[28]中:

  出去[28]:

  在[29]中:

  出去[29]:

  在[30]中:

  当我们再次查看数据分发时,我们发现它是均匀分布的

  相关分析主要通过相关系数矩阵实现。基于原始数据和采样数据的系数矩阵图如下:

  在[31]中:

  概括:

  在[32]中:

  负相关的功能框-Type地图

  框 - 型正相关特征图:

  异常检测的目的是删除数据中的异常值。

  当通过季度方法删除异常值时,我们可以通过将数字(例如1.5)乘以(四分之一 - 位)来确定阈值。阈值越高,检测到的异常值越少,并且检测到的异常值越远。。

  在[34]中:

  删除3个功能下的出发点,以V12为例:

  在[35]中:

  在[36]中:

  在[37]中:

  删除出发点的操作如下:

  在[38]中:

  对其他特征执行相同的操作:

  可以看出,采样后的数据最初为984,现在已成为978个数据,并且删除了6个出发的数据

  在[39]中:

  在[40]中:

  删除异常点后检查数据:

  在[42]中:

  详细地址:https://www.youtube.com/watch?v = neausp4yerm

  实施3种不同方法的采样:

  在[43]中:

  在[44]中:

  在[45]中:

  在[46]中:

  使用4种不同的模型来训练数据以查看哪种模型在欺诈数据中更好。首先,您需要将数据分开:培训集和测试集

  在[47]中:

  在[48]中:

  在[49]中:

  在[50]中:

  实施网格搜索不同模型以找到最佳参数

  在[51]中:

  出去[51]:

  在[52]中:

  出去[52]:

  在[53]中:

  出去[53]:

  在[54]中:

  出去[54]:

  根据最佳参数计算分数:

  在[55]中:

  在[56]中:

  在[57]中:

  在[58]中:

  摘要:通过不同模型的交叉验证评分,我们发现逻辑回归模型是最高的

  主要基于接近缺乏的算法以实现欠样本:

  在[59]中:

  使用缺乏几乎缺乏的算法与近邻居查看数据分布:

  在[60]中:

  实施交叉验证:

  在[61]中:

  在[62]中:

  在[63]中:

  在[64]中:

  在[65]中:

  在[66]中:

  在[67]中:

  在[68]中:

  探索逻辑回归模型的分类评估指标:

  在[69]中:

  在[71]中: