当前位置: 首页 > 网络应用技术

打印了多少排Python统计数据(2023年的最新答案)

时间:2023-03-05 22:46:33 网络应用技术

  简介:本文的首席执行官注释将介绍已印刷了与Python统计数据有关的数量。我希望这对每个人都会有所帮助。让我们来看看。

  编写文本统计信息的脚本:计算和打印与文本文件有关的统计信息,包括文件中包含多少个字符,行,单词和单词数,以及前10个中最大次数的单词数为按顺序排列

  导入时间

  keep = ['a','b','c','d','e','f','g','h','i','','j','k','k','l','l','m','n','o','p','q','r',s','s','t','u','v',v','w','','',''x',',','','z','',',',“”]]

  stop_words = ['the','和','i',to',''of'''''','y y y y','','','','','','','','','he'',“她的”,“他的”,“','be','as'has'hast']

  DEF归一化:S):

  结果=''

  对于s.lower()中的c:

  如果c在keep中:

  结果+= C

  # - * - 编码:UTF-8 - * -

  ”“”

  :创建:2015年7月13日

  :版权:诺基亚解决方案和网络

  :作者:Chuanqing QIN

  :contal:chuanqing.qin@nokia.com

  ”“”

  导入

  导入操作系统

  如果__name__ =='__ main __':

  计数器= 0

  以F:f的开放('Test.txt','r')为

  对于F中的行

  如果re.findall(r'。*asd。*',行):

  计数器+= 1

  打印柜台

  添加计数

  Def Han(N,X,Y,Z):

  全球i

  i+= 1

  如果n == 1:

  打印(x,' - ',z)

  别的:

  汉(n-1,x,z,y)

  打印(x,' - ',z)

  汉(n-1,y,x,z)

  n = int(输入('请输入一个数字:'))

  i = 0

  汉(n,'x','y','z')

  打印(i)

  首先,您需要使用open()函数打开文件,然后调用文件指针的readlines()函数。您可以将文件的整个内容读为一个列表。列表的每个元素都对应于文件的每一行。如果要先获取文件,则K行的内容仅需要索引列表的K-1元素,因为Python从0计数。

  示例代码如下:

  在示例代码中,打印了文件4的内容。

  最近,通过编程分析加入Planet Python.Let Me通过Python共享数据分析。具体内容如下:

  数据导入

  导入本地或网络CSV文件;

  数据转换;

  数据统计描述;

  假设测试

  样品t检验;

  可视化;

  创建一个自定义功能。

  数据导入

  1

  这是一个关键步骤。对于以下分析,我们需要首先导入数据。从总体上讲,数据是CSV格式,即使不是CSV格式,至少可以将其转换为CSV格式。在Python中,我们的操作如下:

  导入大熊猫作为pd

  #本地读取数据

  df = pd.read_csv('/users/al-ahmadgaidasaad/documens/d.csv')

  #从网络读取数据

  data_url =“”

  df = pd.read_csv(data_url)

  为了读取本地CSV文件,我们需要熊猫的数据分析库中的相应模块。

  结尾

  数据转换

  1

  由于工作空间中有数据,下一个是数据转换。史蒂兰学家和科学家通常会在此步骤中删除不必要的数据。LET首先查看数据(下图)

  对于R语言程序员,上述操作相当于通过打印(头(DF))打印前6行数据,以及通过打印(Tail(df))的后6行打印数据。当然,在Python,默认打印为5行,R为6行。

  请单击输入图片说明

  2

  在R语言中,数据列和行的名称通过Colnames和Rownames分别提取。在Python中,我们使用列和索引属性来提取:如下:

  #提取列名称

  打印df.Columns

  # 输出

  索引([u'abra',u'apayao',u'benguet',u'ifugao',u'kalinga'],dtype ='object'))))))

  #提取行名称或索引

  打印df.index

  # 输出

  ,24,25,26,27,28,29,33,32,33,34,36,37,38,38,40,42,43,45,46,47,47,48,49,49,50,50,51,51,52,53,54、56、57、58、59、66、62、64、65、67、68、68、69、70、72、73、73、74、74、75、76、77、78],dtype ='int64'))

  3

  数据转换使用t方法,

  #转置数据

  打印DF.T

  # 输出

  0 1 2 3 4 5 6 7 8 9 9

  ABRA 1243 4158 1787 17152 1266 5576 927 21540 1039 5424

  Apayao 2934 9235 1922 14501 2385 7452 1099 17038 1382 10588

  Benguet 148 4287 19536 2530 771 2796 2463 2592 1064

  Ifugao 3300 8063 1074 19607 33134 5134 14226 6842 13828

  Kalinga 10553 35257 4544 31687 8520 28252 3106 36238 4973 40140

  ... 69 70 71 72 73 74 75 76 77

  Abra ... 12763 2470 59094 6209 13316 2505 60303 6311 13345

  Apayao ... 37625 19532 35126 6335 38613 20878 40065 6756 38902

  Benguet ... 2354 4045 5987 3530 2585 3519 7062 3561 2583

  ifugao ... 9838 17125 18940 15560 7746 19737 19422 15910 11096

  卡林加... 65782 15279 52437 24385 66148 16513 61808 23349 68663

  78

  Abra 2623

  Apayao 18264

  Benguet 3745

  Ifugao 16787

  卡林加16900

  假设我们想要数据的第一个Colorn的负责人,我们有

  4

  其他转换,例如排序是排序属性。现在我们提取了一个特定的数据列。数据的第一列,我们有:

  打印df.ix [:,0] .head()

  #输出0 1243 1 4158 2 1787 3 17152 4 1266名称:Abra,dtype:int64

  5

  顺便说一句,Python的索引是从0而不是1.在1.中以11到20行的前3列,我们有

  打印df.ix [10:20,0:3]

  # 输出

  Abra Apayao Benguet

  10 981 1311 2560

  11 27366 15093 3039

  12 1100 1701 2382

  13 7212 11001 1088

  14 1048 1427 2847

  15 25679 15661 2942

  16 1055 2191 219

  17 5437 6461 734

  18 1029 1183 2302

  19 23710 12222 2598

  20 1091 2343 2654

  上述命令等同于df.ix [10:20,['abra','apayao','benguet']]。

  6

  为了放弃数据中的列,以下是第1列(Apayao)和Benguet。我们使用Drop属性,如下:

  打印df.drop(df.columns [[1,2]],axis = 1).head()

  # 输出

  Abra Ifgao Kalinga

  0 1243 3300 10553

  1 4158 8063 35257

  2 1787 1074 4544

  3 17152 19607 31687

  4 1266 3315 8520

  轴参数告诉函数是放弃还是运行。如果轴等于0,则放弃库。

  结尾

  统计描述

  1

  下一步是通过描述属性来描述数据的统计特征:

  打印df.descripe()

  # 输出

  Abra apayao benguet ifugao kalinga

  计数79.000000 79.000000 79.000000 79.000000 79.000000

  平均12874.379747 16860.645570 3237.392405 12414.620253 30446.4177222

  STD 16746.466945 15448.153794 1588.536429 5034.282019 22245.707692

  Min 927.000000 401.000000 148.000000 1074.000000 2346.000000

  25%1524.000000 3435.500000 2328.000000 8205.000000 8601.500000

  50%5790.000000 10588.000000 3202.000000 13044.000000 24494.000000

  75%13330.500000 33289.000000 3918.500000 16099.500000 52510.500000

  最大60303.000000 54625.000000 8813.000000 21031.000000 68663.000000

  结尾

  假设测试

  1

  python具有良好的统计推理软件包。在整个大米中,我们有:我们有:

  从Scipy Import Stats作为SS

  #使用1500作为真实均值进行一次样本测试

  打印ss.ttest_1samp(a = df.ix [:,'sbra'],popmean = 15000)

  # 输出

  (-1.1281738488299586,0.26270472069109496)

  返回由以下值组成的Yuanzu:

  t:浮点或数组T型统计信息

  概率:浮点或阵列型两尾p值双边概率值

  2

  通过上面的输出,p值为0.267远大于等于0.05的α,因此没有足够的证据表明平均水稻输出不是150,000。将此测试应用于所有变量,平均值相同的假设为15,000, 我们有:

  打印ss.ttest_1samp(a = df,popmean = 15000)

  # 输出

  (array([-1.12817385,1.07053437,-65.8142599,-4.564575,6.17156198,65.8142598,6.17156198]),),),),),),),),),),),),)

  阵列([2.62704721E-01,2.87680340E-01,4.15643528E-70,

  1.8376439e-05,2.82461897e-08]))))))))))))))))))))))))))))))))))))))))))))))”)义见见里见义义义义义一义义一义义SS义义义义义义义义义义义义S为为性里权书书书书书书义书义性性书性性书义性性性书义性书性书义性里里义义义义出义义义义义义家言家家家家家家家家家家家家家家家家家家家家家家家家家家家份家家家性性外外E量可可可E E E E E EE式子子子E为子子子子子期子部为期子期为期为期性期费光为费期为期费光期费光1院leE品和品为oo为oo为这为这个为这该这些对这些在其相在le在在在)使用时间然后来而方法而来时间来在内在在值能能来)

  第一个数组是t统计信息,第二个数组是相应的P值

  结尾

  可视化

  1

  Python中有许多视觉模块,最受欢迎的是Matpalotlib库。相似地,我们也可以选择散景和Seaborn模块。在上一篇博客文章中,我已经解释了Matplotlib库中的盒子函数。

  请单击输入图片说明

  2

  #导入绘图的模块

  导入matplotlib.pyplot作为PLT

  plt.show(df.plot(bink ='box'))

  现在,我们可以使用PANDAS模块中集成R的GGPLOT主题来美化图表。要使用GGPLOT,我们只需要在上面的代码中添加附加行,

  导入matplotlib.pyplot作为PLT

  pd.options.display.mpl_style ='default'#将绘图显示主题设置为ggplot2

  df.plot(bink ='box')

  3

  这样,我们将获得以下图表:

  请单击输入图片说明

  4

  它比matplotlib.pyplot主题简单得多。但是在本文中,我更喜欢介绍Seaborn模块,这是一个统计数据可视库。因此,我们有:

  #导入海洋图书馆

  进口海洋作为SNS

  #做框图

  plt.show(sns.boxplot(df,widths = 0.5,颜色=“柔和”))

  请单击输入图片说明

  5

  多种框架形式的图片继续向下看。

  请单击输入图片说明

  6

  plt.show(sns.violinplot(df,宽度= 0.5,颜色=“柔和”))

  请单击输入图片说明

  7

  plt.show(sns.distplot(df.ix [:2],rug = true,bins = 15))

  请单击输入图片说明

  8

  使用sns.axes_style(“ white”):

  plt.show(sns.jointplot(df.ix [:1],df.ix [:2],kint =“ kde”))

  请单击输入图片说明

  9

  plt.show(sns.lmplot(“ benguet”,“ ifugao”,df))

  结尾

  创建自定义功能

  在Python中,我们使用DEF函数来实现自定义函数。例如,如果我们要定义两个添加的函数,则如下:

  def add_2int(x,y):

  返回x + y

  打印add_2int(2,2)

  # 输出

  4

  顺便说一句,python中的凹痕非常重要。通过缩小函数范围的定义,就像在r语言中使用大型括号{...}一样。这是我们以前的博客文章的一个示例:

  生成10个正分布样品,其中

  基于95%的置信度,计算和;

  重复100次;然后

  计算发行信之间的实际平均值百分比

  在Python中,该程序如下:

  导入numpy作为NP

  导入scipy.stats作为SS

  def情况(n = 10,mu = 3,sigma = np.sqrt(5),p = 0.025,rep = 100):

  m = np.zeros((Rep,4))

  对于范围(范围)的i

  norm = np.random.normal(loc = mu,scale = sigma,size = n)

  xbar = np.mean(norm)

  low = xbar -ss.norm.ppf(q = 1 -p) *(sigma / np.sqrt(n))

  UP = XBAR + ss.norm.ppf(q = 1 -P) *(sigma / np.sqrt(n))

  if(mu low)(mu up):

  rem = 1

  别的:

  rem = 0

  m [i,:] = [XBAR,LOW,UP,REM]

  内部= np.sum(m [:,3])

  per = inside / rep

  desc =“有” + str(内部) +“包含”的置信区间

  “真实平均值(“ + str(mu) +”),即“ + str(per) +”总顺式“”百分比。

  返回{“矩阵”:M,“决策”:desc}

  上述代码非常易于阅读,但是当周期时它非常慢。由于Python专家,以下代码改进了上述代码

  导入numpy作为NP

  导入scipy.stats作为SS

  def case2(n = 10,mu = 3,sigma = np.sqrt(5),p = 0.025,rep = 100):

  scaled_crit = ss.norm.ppf(q = 1 -p) *(sigma / np.sqrt(n))

  norm = np.random.normal(loc = mu,scale = sigma,size =(rep,n))

  xbar = norm.mean(1)

  low = xbar -scaled_crit

  up = xbar + scaled_crit

  rem =(mu low)(mu up)

  m = np.c_ [xbar,low,up,rem]

  内部= np.sum(m [:,3])

  per = inside / rep

  desc =“有” + str(内部) +“包含”的置信区间

  “真实平均值(“ + str(mu) +”),即“ + str(per) +”总顺式“”百分比。

  返回{“矩阵”:M,“决策”:desc}

  获取以下方法获取以下方法的数量

  lines = file.readlines()

  打印Len(线)

  如果您仅遍历文件,则可以使用以下方法:

  f = open('file','r')

  对于打开('file')中的行:

  线= f.Readline()

  结论:以上是有关CTO注释的Python统计信息的相关内容的相关内容摘要,我希望为您提供帮助!如果您解决您的问题,请与更多关心此问题的朋友分享?