公共帐户:尤其是小屋
作者:彼得
编辑:彼得
大家好,这是彼得?
今天,我将为您带来一篇新的Kaggle文章:极端不平衡的信用卡数据分析,主要内容包括:
原始笔记本电脑地址是:HILTPS://www.kaggle.com/code/janiobachmann/credit-fraud-fraud-with-mmbalaccys/notebook
非平衡:信用卡数据中欺诈和非欺诈的比例不均匀,非欺诈的比例绝对占据了绝大多数。这篇文章提供了一种方法:如何处理这个极端的不均匀数据
导入各种库和软件包:绘图,功能工程,缩小尺寸,分类模型,评估指标等。
阅读数据并查看基本信息
数据的形状如下:
在[3]中:
出去[3]:
在[4]中:
出去[4]:
结果表明没有价值损失。
以下是数据中字段的相关类型。
在[5]中:
出去[5]:
在[6]中:
出去[6]:
检查数据的统计信息:
在[8]中:
出去[8]:
我们发现,类别0的样本比属于1的样本要高得多,而且它们非常不平衡。这是本文的重点。
在[9]中:
非弗拉德-0和欺诈1通过列图的比率极为不平衡。
发现某些特征的分布有部分状态:
在[10]中:
观察两个在不同值下的数量和时间字段的分布,并发现:
查看每个特征值的框 - 型图:
返回数量和时间字段。其他字段已经执行了归一化操作。
在[13]中:
在[14]中:
删除原始字段并使用“背景”字段和数据
将新生成的字段放在最前沿
在开始随机欠样品之前,我们需要将原始数据分配。
尽管我们不会采样和采样数据,但我们希望在测试时使用原始数据集。
在[18]中:
在课堂上检查0-no欺诈和1-fraud的比率:
在[19]中:
出去[19]:
生成特征数据集x和标签数据y:
在[20]中:
在[21]中:
将生成的数据转换为numpy数组:
在[22]中:
查看训练集的唯一值onimart_ytrain和onigral_ytest以及每个唯一值的比率:
在[23]中:
在[24]中:
样本采样也称为较低采样,该采样主要基于原始数据中具有更多类别的删除数据,以便与小类数据达到平衡,以免导致模型过度拟合。
样本采样将导致数据信息。例如,No-Fraud在原始数据中有284,315个数据,但是在欠款中只有492个数据后,已经放弃了大量数据。
取出欺诈数据,并从非欺诈中获取相同的长度数据:
现在我们发现样品是统一的:
在[28]中:
出去[28]:
在[29]中:
出去[29]:
在[30]中:
当我们再次查看数据分发时,我们发现它是均匀分布的
相关分析主要通过相关系数矩阵实现。基于原始数据和采样数据的系数矩阵图如下:
在[31]中:
概括:
在[32]中:
负相关的功能框-Type地图
框 - 型正相关特征图:
异常检测的目的是删除数据中的异常值。
当通过季度方法删除异常值时,我们可以通过将数字(例如1.5)乘以(四分之一 - 位)来确定阈值。阈值越高,检测到的异常值越少,并且检测到的异常值越远。。
在[34]中:
删除3个功能下的出发点,以V12为例:
在[35]中:
在[36]中:
在[37]中:
删除出发点的操作如下:
在[38]中:
对其他特征执行相同的操作:
可以看出,采样后的数据最初为984,现在已成为978个数据,并且删除了6个出发的数据
在[39]中:
在[40]中:
删除异常点后检查数据:
在[42]中:
详细地址:https://www.youtube.com/watch?v = neausp4yerm
实施3种不同方法的采样:
在[43]中:
在[44]中:
在[45]中:
在[46]中:
使用4种不同的模型来训练数据以查看哪种模型在欺诈数据中更好。首先,您需要将数据分开:培训集和测试集
在[47]中:
在[48]中:
在[49]中:
在[50]中:
实施网格搜索不同模型以找到最佳参数
在[51]中:
出去[51]:
在[52]中:
出去[52]:
在[53]中:
出去[53]:
在[54]中:
出去[54]:
根据最佳参数计算分数:
在[55]中:
在[56]中:
在[57]中:
在[58]中:
摘要:通过不同模型的交叉验证评分,我们发现逻辑回归模型是最高的
主要基于接近缺乏的算法以实现欠样本:
在[59]中:
使用缺乏几乎缺乏的算法与近邻居查看数据分布:
在[60]中:
实施交叉验证:
在[61]中:
在[62]中:
在[63]中:
在[64]中:
在[65]中:
在[66]中:
在[67]中:
在[68]中:
探索逻辑回归模型的分类评估指标:
在[69]中:
在[71]中: