当前位置: 首页 > 网络应用技术

Python按数据量进行分类(Python分为几类)

时间:2023-03-08 01:47:01 网络应用技术

  简介:本文的首席执行官注释将介绍Python的相关内容,以对Python的数据进行分类。我希望这对每个人都会有所帮助。让我们来看看。

  数据类型是每种编程语言的必不可少的属性。只有将数据提供给清除数据类型,计算机才能处理数据的操作。因此,有必要使用正确的数据类型。

  1.数字类型

  Python数字类型主要包括INT(整数),长(长整数)和Float(浮动 - 点),但Python3中没有更长的类型。

  1. int(整数)

  在32位机器上,整数位的数量为32位,值的范围为-231?231-1,即-2147483648?214748364;在64位系统上,密集数字的数量为64位,值IS-263?263-1,92233720368547775808?9222337203685477775807。

  2.长(长整数)

  Python长和整数没有定位宽度,但是由于机器内存有限,因此无法使用长度的长度。

  3.浮动(浮点类型)

  浮动点类型是与机器有关的小数点的数量。

  4.复杂(复数)

  Python还支持复杂数字。复数数是由真实部分和虚拟编号部分组成的。它可以用a + bj或复杂(a,b)表示。

  它们都是浮动点类型。

  第二,字符串

  在Python中,带有引号的字符被视为字符串。有三种声明的方法:单语,双语和三个引号;Python中的字符串具有两种类型的数据,即STR类型,而Unicode类型使用的ASCII编码,STR类型的ASCII编码不能代表中文。Unicode类型使用Unicode编码,可以代表任何字符,包括中文和其他语言。

  3.布尔

  像其他编程语言一样,Python Boolean类型也用于逻辑操作,具有两个值:true(true)和false(假)。

  第四,列表

  该列表是Python中最常见的数据类型。任何数据类型都可以放置在集合中,可以创建,搜索,切片,添加,修改,删除,循环和排序。

  五重奏

  第一组和列表也是一个序列。与列表不同,元组未修改。

  6.词典

  字典是钥匙值对的集合。它是列表以外的Python中最灵活的数据结构类型。该列表是有序的对象集合。词典是无序的对象集合。

  七,聚会

  收集是一种无序,不可再生的数据组合。它的主要功能是两个,这是测试和关系测试。

  将其组织到数据集中::

  [[1,0,“是”],[1,1,“是”],[0,1,“是”],[0,0,“ no”],[1,0,“ no”]这是给予的

  算法过程:

  1.计算原始信息熵。

  2.按顺序计算每个样品的每个特征的信息熵。

  3.比较不同特征信息熵的大小,选择信息熵和输出的最大特征值。

  操作结果:

  颜色:0 curinfogain:2.377444375108 baseinfogain:0.0

  颜色:1 Curinfogain:1.377444375108 baseInfogain:2.377444375108

  BestInfogain:2.37744375108 BestFeature:0

  结果分析:

  描述最好根据第一列进行分类,即,喉节点的特征更好。

  思考:

  1.我可以使用决策树算法输出样品的最终分类结果?例如样品1,2,3属于男性,而4个属于女性。

  2.示例程序生成的决策树只有一层。当特征增加时,如何生成具有多层结构的决策树?

  3.如何判断分类结果的质量?

  在下一篇文章中,我将分析和回答以上三个问题。如果您也有兴趣,欢迎您订阅我的文章,或者您可以在下面发表评论。如果您有任何疑问或认为这是错误的,也可以留言。我会积极回答你。

  完整的代码如下:

  从数学导入日志

  ”“”

  计算信息熵

  ”“”

  DEF CALCENTROPY(数据集):

  diclabel = {} ## tag字典,用于记录每个类别标签的次数

  在数据集中记录:

  标签=记录[-1]

  如果标签不在diclabel.keys():

  diclabel [label] = 0

  diclabel [label] += 1

  ###计算熵

  熵= 0.0

  cnt = len(数据集)

  对于diclabel.keys()中的标签:

  prob = float(1.0 * diclabel [label]/cnt)

  熵 - = prob * log(prob,2)

  返回熵

  def initdataset():

  dataset = [[1,0,“是”],[1,1,“是”],[0,1,“ YES”],[0,0,“ no”],[1,0,“否)“”]]]

  标签= [“男性”,“女性”]

  返回数据集,标签

  ####拆卸数据集,根据指定的过滤选项值删除指定的列,形成一个新数据集

  DEF SplitDataSet(数据集,col,value):

  retset = [] ##拆分后数据集

  在数据集中记录:

  如果记录[颜色] ==值:

  REDUDEDSFEATVEC = record [:color]

  redusedfeatvec.extend(记录[col+1:])###删除指定的列

  retset.append(redusedfeatvec)###将新形成的功能值列表添加到返回列表

  返回retset

  ###找出信息熵增加的最具特征价值

  ### 范围:

  ###数据集:原始数据集

  DEF FIDBESTFEATURE(数据集):

  numFeatures = len(dataset [0])-1 ###功能值

  baseentropy =钙含量(数据集)###计算原始数据集的熵

  baseInfogain = 0.0 ###初始信息增益

  BestFeature = -1 ###初始最佳分类特征值索引

  ###计算每个特征值的熵

  对于范围内的颜色(数字):

  功能= [记录[颜色]用于数据集中的记录] ###提取每列的特征向量。col = 0,然后特征= [1,1,0,0]

  unique feat = set(功能)

  curinfogain = 0 ###用于根据每一列分裂,获得的信息增益获得了

  在唯一方面的壮举:

  subdataset = splitdataset(数据集,col,featval)###根据列的featval特征值分配数据集

  prob = 1.0 * len(subdataset)/numfeatures ###计算减法数据集

  Curinfogain += Prob * calcentropy(subdataset)### C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C R

  #打印“颜色:”,颜色,“ featval:”,featval,“ curinfogain:”,curinfogain,“ baseinfogain:”,baseinfogain

  打印“颜色:”,颜色,“ curinfogain:”,curinfogain,“ baseinfogain:”,baseinfogain

  如果curinfogain baseinfogain:

  baseInfogain = curinfogain

  BestFeature =颜色

  返回baseInfogain,BestFeature ###输出最大的信息增益以获取增益列表

  数据集,label = initdataset()

  infogain,bestFeature = findBestFeature(数据集)

  打印“ BestInfogain:”,Infogain,“ BestFeature:”,BestFeature

  本文介绍了大熊猫的高级应用程序分类数据类别

  列通常包含重复的值。这些重复是一小部分不同的值。

  unique()和value_counts()可以从数组中提取不同的值并分别计算其频率

  尺寸表包含不同的值,主要观察值被存储为参考表的整数键

  不同值的数组称为类别,字典或数据级别

  如果未指定订单,则分类转换是无序的。我们可以自己指定

  如果对特定数据集进行了大量数据分析,则数据将数据转换为分类数据已大大提高了性能

  特殊属性CAT提供对分类方法的访问

  在机器学习或统计数据中,通常要求将分类数据称为虚拟变量,也称为单高编码

  如果我们描述标准类型,我们可以称它们为Python的“基本类型数据对象”。“基本”是指Python提供的这些类型的标准或核心类型。“ build -in -in”由Python提供。默认情况下。“数据”是因为它们用于常规数据存储。“对象”是因为对象是数据和函数的默认抽象。“原始”是因为这些类型提供了粒状数据存储的底层。“是因为它们是数据类型。但是,上述描述实际上并未告诉您每种类型的工作方式以及它们可以扮演什么角色。关于访问数据值的共同点。我们还对这些类型的数据的更新以及它们可以提供的存储方式感兴趣。有三种不同的模型可以帮助我们对基本类型进行分类,并且每个模型都显示了这些类型之间的关系这些型号可以帮助我们更好地了解类型及其工作原则之间的关系。

  结论:以上是首席CTO的相关内容,请注意有关Python关于Python信息的相关内容。希望它对您有所帮助!如果您解决了问题,请与更多关心此问题的朋友分享?