当前位置: 首页 > 科技观察

写个Python程序

时间:2023-03-15 08:34:38 科技观察

爬取板块资金流通过上面爬取个股资金流的例子,你应该已经能自己学会写爬虫代码了。现在巩固,做一个类似的迷你练习。你必须自己编写Python程序来爬取在线部门的资金流。爬取网址为http://data.eastmoney.com/bkzj/hy.html,显示界面如图1所示。图1资金流网站界面1、搜索JS直接按F12打开开发和调试工具,搜索数据对应的网页,如图2所示。图2找到JS对应的网页,然后在浏览器中输入网址,网址比较长。http://push2.eastmoney.com/api/qt/clist/get?cb=jQuery112309073354919152763_1617455258434&pn=1&pz=500&po=1&np=1&fields=f12%2Cf13%2Cf14%2Cf62&fid=f62&fs=m%3A90%2Bt%3A2&ut=b2884a393a59ad64002292a3e90d46a5&_=1617455258435此时会得到网站的反馈,如图3所示。图3从网站获取版块和资金流这个URL对应的内容就是我们要抓取的内容。2、编写request请求和响应状态的爬虫代码,具体见如下代码:#coding=utf-8importrequestsurl="http://push2.eastmoney.com/api/qt/clist/get?cb=jQuery112309073354919152763_1617455258436&fid=f62&po=1&pz=50&pn=1&np=1&fltt=2&invt=2&ut=b2884a393a59ad64002292a3e90d46a5&fs=m%3A90+t%3A2&fields=f12%2Cf14%2Cf2%2Cf3%2Cf62%2Cf184%2Cf66%2Cf69%2Cf72%2Cf75%2Cf78%2Cf81%2Cf84%2Cf87%2Cf204%2Cf205%2Cf124"r=requests.get(url)r.status_code显示200,表示响应状态正常。r.text也有数据,说明资金流向数据爬取成功,如图4所示。图4response响应状态3、将str清洗成JSON标准格式(1)分析r.text数据。内部是标准的JSON格式,只是前面加了一些前缀。去掉jQ前缀,使用split()函数完成这个操作。具体见如下代码:r_text=r.text.split("{}".format("jQuery112309073354919152763_1617455258436"))[1]r_text运行结果如图5所示。图5去掉前缀的运行结果(2)整理JSON数据。详情见如下代码:r_text_qu=r_text.rstrip(';')r_text_json=json.loads(r_text_qu[1:-1])['data']['diff']dfcf_code={"f12":"code","f2":"价格","f3":"增加","f14":"名称","f62":"主营净收入√","f66":"超净收入","f69":"超比例","f72":"净收入大","f75":"大比例","f78":"中等净收入","f81":"中等比例","f84":"小净收入","f87":"小比例","f124":"不知道","f184":"主要比例√"}result_=pd.DataFrame(r_text_json).rename(columns=dfcf_code)result_["主营净收入√"]=round(result_["主营净收入√"]/100000000,2)#1亿,保留2位result_=result_[result_["主营净收入√"]>0]result_["超净收入"]=round(result_["超净收入"]/100000000,2)#10000万,保留2位数result_["超净收入"]=round(result_["超净收入"]/100000000,2)#1亿,保留2位result_["中等净收入"]=round(result_["中等净收入"]/100000000,2)#1亿,保留2位sult_["小净收入"]=round(result_["小净收入"]/100000000,2)#1亿,保留2位result_运行结果如图6所示。图6排序后的运算结果4.保存资金流向数据使用to_csv()函数将清洗后的数据保存到本地,如图7所示。通过上面两个资金爬取的例子,你一定已经了解了爬虫的部分使用。其核心思想是:(1)选择资金流向优势的个股;(2)获取并解析URL;(3)利用爬虫获取和保存数据。图6数据存储总结JSON格式的数据是许多网站使用的标准化数据格式之一。它是一种轻量级的数据交换格式,易于读写,能有效提高网络传输效率。首先爬取的是str格式的字符串。通过数据加工处理,将其转化为标准的JSON格式,再转化为Pandas格式。通过案例分析和实战,学会自己编写代码爬取金融数据,并具备将其转化为JSON标准格式的能力。完成日常的数据爬取和数据存储,为以后的数据历史测试和历史分析提供有效的数据支持。当然,有能力的读者可以将结果保存在MySQL、MongoDB等数据库中,甚至可以保存在云数据库MongoAtlas中,笔者在此不做重点讲解。我们完全专注于定量学习和政策研究。使用txt格式保存数据,可以彻底解决前期数据存储问题,数据也完整有效。