当前位置：首页 > 网络应用技术

Kaggle实际战斗：极端不平衡的信用卡数据分析

时间：2023-03-06 12:42:54 网络应用技术

　　公共帐户：尤其是小屋

　　作者：彼得

　　编辑：彼得

　　大家好，这是彼得?

　　今天，我将为您带来一篇新的Kaggle文章：极端不平衡的信用卡数据分析，主要内容包括：

　　原始笔记本电脑地址是：HILTPS：//www.kaggle.com/code/janiobachmann/credit-fraud-fraud-with-mmbalaccys/notebook

　　非平衡：信用卡数据中欺诈和非欺诈的比例不均匀，非欺诈的比例绝对占据了绝大多数。这篇文章提供了一种方法：如何处理这个极端的不均匀数据

　　导入各种库和软件包：绘图，功能工程，缩小尺寸，分类模型，评估指标等。

　　阅读数据并查看基本信息

　　数据的形状如下：

　　在[3]中：

　　出去[3]：

　　在[4]中：

　　出去[4]：

　　结果表明没有价值损失。

　　以下是数据中字段的相关类型。

　　在[5]中：

　　出去[5]：

　　在[6]中：

　　出去[6]：

　　检查数据的统计信息：

　　在[8]中：

　　出去[8]：

　　我们发现，类别0的样本比属于1的样本要高得多，而且它们非常不平衡。这是本文的重点。

　　在[9]中：

　　非弗拉德-0和欺诈1通过列图的比率极为不平衡。

　　发现某些特征的分布有部分状态：

　　在[10]中：

　　观察两个在不同值下的数量和时间字段的分布，并发现：

　　查看每个特征值的框 - 型图：

　　返回数量和时间字段。其他字段已经执行了归一化操作。

　　在[13]中：

　　在[14]中：

　　删除原始字段并使用“背景”字段和数据

　　将新生成的字段放在最前沿

　　在开始随机欠样品之前，我们需要将原始数据分配。

　　尽管我们不会采样和采样数据，但我们希望在测试时使用原始数据集。

　　在[18]中：

　　在课堂上检查0-no欺诈和1-fraud的比率：

　　在[19]中：

　　出去[19]：

　　生成特征数据集x和标签数据y：

　　在[20]中：

　　在[21]中：

　　将生成的数据转换为numpy数组：

　　在[22]中：

　　查看训练集的唯一值onimart_ytrain和onigral_ytest以及每个唯一值的比率：

　　在[23]中：

　　在[24]中：

　　样本采样也称为较低采样，该采样主要基于原始数据中具有更多类别的删除数据，以便与小类数据达到平衡，以免导致模型过度拟合。

　　样本采样将导致数据信息。例如，No-Fraud在原始数据中有284,315个数据，但是在欠款中只有492个数据后，已经放弃了大量数据。

　　取出欺诈数据，并从非欺诈中获取相同的长度数据：

　　现在我们发现样品是统一的：

　　在[28]中：

　　出去[28]：

　　在[29]中：

　　出去[29]：

　　在[30]中：

　　当我们再次查看数据分发时，我们发现它是均匀分布的

　　相关分析主要通过相关系数矩阵实现。基于原始数据和采样数据的系数矩阵图如下：

　　在[31]中：

　　概括：

　　在[32]中：

　　负相关的功能框-Type地图

　　框 - 型正相关特征图：

　　异常检测的目的是删除数据中的异常值。

　　当通过季度方法删除异常值时，我们可以通过将数字（例如1.5）乘以（四分之一 - 位）来确定阈值。阈值越高，检测到的异常值越少，并且检测到的异常值越远。。

　　在[34]中：

　　删除3个功能下的出发点，以V12为例：

　　在[35]中：

　　在[36]中：

　　在[37]中：

　　删除出发点的操作如下：

　　在[38]中：

　　对其他特征执行相同的操作：

　　可以看出，采样后的数据最初为984，现在已成为978个数据，并且删除了6个出发的数据

　　在[39]中：

　　在[40]中：

　　删除异常点后检查数据：

　　在[42]中：

　　详细地址：https：//www.youtube.com/watch？v = neausp4yerm

　　实施3种不同方法的采样：

　　在[43]中：

　　在[44]中：

　　在[45]中：

　　在[46]中：

　　使用4种不同的模型来训练数据以查看哪种模型在欺诈数据中更好。首先，您需要将数据分开：培训集和测试集

　　在[47]中：

　　在[48]中：

　　在[49]中：

　　在[50]中：

　　实施网格搜索不同模型以找到最佳参数

　　在[51]中：

　　出去[51]：

　　在[52]中：

　　出去[52]：

　　在[53]中：

　　出去[53]：

　　在[54]中：

　　出去[54]：

　　根据最佳参数计算分数：

　　在[55]中：

　　在[56]中：

　　在[57]中：

　　在[58]中：

　　摘要：通过不同模型的交叉验证评分，我们发现逻辑回归模型是最高的

　　主要基于接近缺乏的算法以实现欠样本：

　　在[59]中：

　　使用缺乏几乎缺乏的算法与近邻居查看数据分布：

　　在[60]中：

　　实施交叉验证：

　　在[61]中：

　　在[62]中：

　　在[63]中：

　　在[64]中：

　　在[65]中：

　　在[66]中：

　　在[67]中：

　　在[68]中：

　　探索逻辑回归模型的分类评估指标：

　　在[69]中：

　　在[71]中：

上一篇：人工智能学校的特征是什么（2023年最新分享）

下一篇：新关键字相关的知识点摘要

Kaggle实际战斗：极端不平衡的信用卡数据分析相关文章