数据是互联网的灵魂,没有数据互联网就是无用的外壳,比如人工智能、大数据、智能算法等,都需要基础数据来验证模型是否可用,调整参数校正算法的可用性,帮助算法落地,在算法中起着最关键的作用。因此,数据采集和数据处理非常重要。常用的数据格式有txt、sql、excel、word,其中最重要的是SQL中的数据。SQL数据包括MySQL、SQLServer、SQLite、Oracle等,以及导出的数据格式。常用的数据处理语言是Python,因为Python是一种胶水语言,没有什么是Python处理不了的。Python更适合速度快、时效性强、参与人数少、对性能要求不高的项目,而且Python有很多成熟的库,这也是它被称为胶水语言的原因。技术要求需要了解python3的基本语法,对正则表达式有基本的了解。实现步骤1、读取SQL文件中的数据,去除冗余内容并提取需要的数据,追加到集合中;#-*-coding:utf-8-*-#!/usr/bin/python3#descby:两行代码从sql文件中提取数据,后面可以结合geogle浏览器插件使用#authorby:rainNight#weChatPublicNumber:RainyNight'sBlogimportreimportjson"""第一步:读取area.sql文件,去除多余内容提取需要添加的数据第二步:定义转换后的文件地址,写入file"""opens=open("./data/area.sql",encoding="utf-8")codeline=opens.readlines()#逐行读取jsonList=[]forlineincodeline:ifre.match("INSERT",line):jsonList.append(re.findall(re.compile(r'[(](.*?)[)]',re.S),line))2.将数据转换成将集合转化为json格式;3.定义转换后的文件地址,写入到文件中close()jsonOpen.close()所有代码:#-*-编码:utf-8-*-#!/usr/bin/python3#descby:两行代码从SQL文件中提取数据,以后可以结合geogle浏览器插件应用#authorby:rainNight#weChatPublicNumber:RainyNight'sBlogimportreimportjson"""Step1:Read取area.sql文件,去掉多余的内容,提取需要添加的数据Step2:定义转换后的文件地址,写入文件"""opens=open("./data/area.sql",encoding="utf-8")codeline=打开。阅读线()#逐行读取jsonList=[]forlineincodeline:ifre.match("INSERT",line):jsonList.append(re.findall(re.compile(r'[(](.*?)[)]',re.S),line))jsonArray=json.dumps(jsonList)jsonOpen=open("./data/areaToJson.txt","w")jsonOpen.writelines(str(jsonArray))打开。close()jsonOpen.close()的结果:细微思想的发现,并将这种思想在产品中逐步放大,最终实现系统走向产品运营
