简介:今天,首席执行官指出,要与您分享多少python计算数据行。如果您可以解决您现在面临的问题,请不要忘记注意此网站。让我们现在开始!
编写文本统计信息的脚本:计算和打印与文本文件有关的统计信息,包括文件中包含多少个字符,行,单词和单词数,以及前10个中最大次数的单词数为按顺序排列
导入时间
keep = ['a','b','c','d','e','f','g','h','i','','j','k','k','l','l','m','n','o','p','q','r',s','s','t','u','v',v','w','','',''x',',','','z','',',',“”]]
stop_words = ['the','和','i',to',''of'''''','y y y y','','','','','','','','','he'',“她的”,“他的”,“','be','as'has'hast']
DEF归一化:S):
结果=''
对于s.lower()中的c:
如果c在keep中:
结果+= C
使用类型获取元素的数据类型
然后,您可以将其存储在字典中
关键是元素类型(转换为字符串
值是出现的数量
每次+1
来自__future __ import print_functionimport timeif __name__ =='__ main ____':
导入系统
start = time.time()
以F:f的开放(sys.argv [1],'rb')为
计数= 0
last_data ='
'
而真:
data = f.Read(0x400000)
如果没有数据:
休息
count+= data.count(b'
')
last_data =数据
如果last_data [-1:]!= b'
':
计数+= 1#如果需要类似WC的计数,请删除此
end = time.time()
打印(计数)
打印(末端*1000)
这与WC -L略有不同。如果您想与WC -L一致,则可以删除注释行。
没有逻辑,例如通用新线和忽略空气线。如果需要这些功能,该程序将变得更加复杂。
结论:以上是首席CTO注释为每个人编写的Python计算内容的相关内容,我希望它对您有所帮助!如果您解决问题,请与更多关心此的朋友分享问题?