Python基础语法学习路径Python概念级表达式→创建和处理对象语句→包含表达式逻辑单元→函数或类,由语句模块组成→.py代码文件形式模块包→定义1组相关文件,或者模块(一个包就是一个文件夹,一个模块就是里面的一个文件,文件夹里面有一个init.py文件)程序→几个包+几个文件前十个容易出错的点是什么?1.变量命名问题2.数值和字符串计算的区别3.列表和字典的区别4.序列索引问题5.字典索引问题6.Range()7.两个运算符:赋值和比较8.死循环问题9、f(x)和f(*x)的区别10、函数中return和print的区别用Python实现第一个数据爬虫下面我们来做一个豆瓣图书评分的爬虫。导入模块:importrequestsfrombs4importBeautifulSoupprint('successfullyimportedmodule')代码注释的很清楚,这里就不多解释了。代码如下:#提取标签#print(soup.head)#头部信息print(soup.title)#标题print(soup.a)#先提取一个标签
新书速递登录/注册#标签、属性、元素打印(soup.a.name,type(soup.a.name))print(soup.a.attrs,type(soup.a.attrs))print(soup.a.text,type(soup.a.text))soup.a.attrs['href']a{'href':'https://accounts.douban.com/passport/login?source=book','class':['nav-login'],'rel':['nofollow']}login/register#find_all()→查找所有标签urls=soup.find('div',class_="grid-12-12clearfix").find_all('a')url_lst=[]forurlinurls[::2]:url_lst.append(url['href'])#保存所有urlsprint(len(url_lst))print(url_lst[:5])40['https://book.douban.com/subject/30475767/','https://book.douban.com/subject/30488936/','https://book.#创建一个函数来收集页面信息defget_data(ui):ri=requests.get(url=ui)soupi=BeautifulSoup(ri.text,'lxml')#访问页面+页面分析infors=soupi.find_all('div',class_="detail-frame")lst=[]foriininfors:dic={}dic['title']=i.find('h2').text.replace('\n','')dic['score']=i.find_all('p')[0].text.replace('\n','').replace('','')dic['其他信息']=i.find_all('p')[1].text.replace('\n','').replace('','')dic['Introduction']=i.find_all('p')[2].text.replace('\n','').replace('','')lst.append(dic)returnlst#函数构建完成url='https://book.douban.com/latest'result=get_data(url)#调用函数采集数据result[:3]output:[{'书名':'LifeSeaSea','Score':'8.4','OtherInformation':'Maijia/北京十月文艺出版社/2019-4-16','Introduction':'一个人穿越时代奋斗的人生,背后隐藏着离奇的故事生命的一声叹息,既有日常生活滋生的残酷,也有岁月带来的善意。'},{'Title':'黑塞的童话故事送给大家','Rating':'8.9','OtherInformation':'【德文】赫尔曼·黑塞/未读·文艺家北京联合出版社/2019-4',‘内容简介’:‘黑塞20篇童话集,从他十岁时写的第一篇童话《两兄弟》,到献给爱妻的《鸢尾花》,再到《周幽王》出自烽火诸侯歌剧。'},{'Title':'33Revolutions','Score':'8.8','OtherInformation':'[Ancient]CanekSanchezGuevara/上海人民出版社/2019-4','Introduction':'This短篇小说集以革命后的古巴为背景,将社会比作每分钟33转的跳针唱片。人们日复一日地面临着物质和精神上的困难。作者是古巴革命领袖切·格瓦拉的孙子。'}]数据转换:#数据转换-dataframeimportpandasaspddf=pd.DataFrame(result)dfresult:源网络,仅供学习,侵删。学习Python的路上肯定会遇到困难,不要慌张,我这里有一套学习资料,包括40+电子书,800+教学视频,涉及Python基础、爬虫、框架、数据分析、机学习等等,别怕你学不会!https://shimo.im/docs/JWCghr8...《Python学习资料》关注公众号【蟒圈】,每日优质文章推送。