Python爬取网站blog目录

时间：2023-03-26 13:03:14 Python

第一步，安装requests-htmlupgradepippipinstall--upgradepipupgradeurllib3sudopython3-mpipinstallurllib3--upgradeinstallrequests-htmlsudopython3-mpipinstallrequests-html步骤1.1，给项目，安装requests-html修改setup.py文件，添加install_requires=['requests-html',]]，修改launch.json添加"pythonPath":"/usr/bin/python3"命令行，安装sudopython3-msetupinstallpython文件，使用fromrequests_htmlimportHTMLSession步骤2，继续使用youtube-dl新建信息抽取类classXxxIE(InfoExtractor)：创建匹配规则_VALID_URL=r'https?://(?:www\.|m\.)?xxx\.com.+posts?.+'对应源码开始，先去defextract_info(self,url,download=True,ie_key=None,extra_info={},process=True,force_generic_extractor=False)oftheYoutubeDL.pyfile:#...forieinies:ifnotie.suitable(url):continue#...转到common.py文件的@classmethoddefsuitable(cls,url)在提取器文件夹下：如果'_VALID_URL_RE'不在cls.__dict__中：cls._VALID_URL_RE=re.compile(cls._VALID_URL)#...2.1剩下的交给classXxxIE(InfoExtractor)：先引用extractor文件夹下的extractors.py在XxxIE中下载爬取，然后fromrequests_htmlimportHTMLclassXxxIE(InfoExtractor):_GEO_COUNTRIES=['CN']IE_NAME='xxx:blog'IE_DESC='我去'_VALID_URL=r'https?://(?:www\.|m\.)?xxx\.com.+posts?.+'_TEMPLATE_URL='%s://www.xxx.com/%s/posts/%s/'_LIST_VIDEO_RE=r']+?href="(?P/%s/sound/(?P\d+)/?)"[^>]+?title="(?P[^>]+)">'def_real_extract(self,url):scheme='https'ifurl.startswith('https')else'http'print("startyayayya")print("\n\n\n")self.downloadX(url,1)small=list(range(2,20))forindexinsmall:#?page=2src=url+"?page="+str(index)self.downloadX(src,index)print("\n\n\n")return{}defdownloadX(self,src,index):audio_id=123456网页=self._download_webpage(src,audio_id,note='为%s下载声音页面'%audio_id,errnote='无法获取声音页面')html=HTML(html=webpage)#print(webpage)jsonElement=html.find('#js-initialData')jsonInfo=jsonElement[0].textjsonX=json.loads(jsonInfo)dic=jsonX['initialState']['entities']['articles']打印("page:"+str(index)+":")fork,vindic.items():#pprint(v)t=v.get('title')print(t)print("\n")代码链接</p> </div> </div> <div class="zuowen_sxy"> <div class="prev">上一篇：<a title="11个案例详解Python函数参数" href="/houduanjishu/172140.html">11个案例详解Python函数参数</a> </div> <div class="prev">下一篇：<a title="Python应用（七）：输入输出" href="/houduanjishu/172142.html">Python应用（七）：输入输出</a> </div> </div> <div class="related_about"> <div class="related_about_t"><code>Python爬取网站blog目录相关文章</code></div> <ul> <li><a href="/jishuluodi/332618.html" target="_blank" title="哪个批发网站平台最好？ ">哪个批发网站平台最好？ </a></li> <li><a href="/jishuluodi/332468.html" target="_blank" title="如何通过网站流量赚钱？ ">如何通过网站流量赚钱？ </a></li> <li><a href="/jishuluodi/332318.html" target="_blank" title="哪个网站最适合购买男装？ ">哪个网站最适合购买男装？ </a></li> <li><a href="/jishuluodi/332195.html" target="_blank" title="哪个网站购物是正宗的？ ">哪个网站购物是正宗的？ </a></li> <li><a href="/jishuluodi/331884.html" target="_blank" title="哪个网站是最独特的在线购买男装的网站？ ">哪个网站是最独特的在线购买男装的网站？ </a></li> <li><a href="/jishuluodi/331631.html" target="_blank" title="有没有什么网站可以让男士在线买衣服？ ">有没有什么网站可以让男士在线买衣服？ </a></li> <li><a href="/jishuluodi/331587.html" target="_blank" title="登录三轮车联盟官方网站？ ">登录三轮车联盟官方网站？ </a></li> <li><a href="/jishuluodi/331568.html" target="_blank" title="国际网站注册流程和费用？ ">国际网站注册流程和费用？ </a></li> <li><a href="/jishuluodi/331460.html" target="_blank" title="小红的官方公司网站？ ">小红的官方公司网站？ </a></li> <li><a href="/jishuluodi/331455.html" target="_blank" title="网上二手购物网站有哪些？ ">网上二手购物网站有哪些？ </a></li> <li><a href="/jishuluodi/331401.html" target="_blank" title="您使用过什么有用的在线影视网站吗？ ">您使用过什么有用的在线影视网站吗？ </a></li> <li><a href="/jishuluodi/331086.html" target="_blank" title="京东和手机官方网站购物哪个更好？ ">京东和手机官方网站购物哪个更好？ </a></li> <li><a href="/jishuluodi/330642.html" target="_blank" title="拼多多代发货的官方网站？ ">拼多多代发货的官方网站？ </a></li> <li><a href="/jishuluodi/330405.html" target="_blank" title="哪个网站最适合在线购买正品鞋子？ ">哪个网站最适合在线购买正品鞋子？ </a></li> <li><a href="/jishuluodi/330209.html" target="_blank" title="哪个淘宝返利网站最好？ ">哪个淘宝返利网站最好？ </a></li> <li><a href="/jishuluodi/329907.html" target="_blank" title="淘宝返利网站值得信赖吗？哪一个是最好的？ ">淘宝返利网站值得信赖吗？哪一个是最好的？ </a></li> <li><a href="/jishuluodi/329732.html" target="_blank" title="无法访问亚马逊网站？ ">无法访问亚马逊网站？ </a></li> <li><a href="/jishuluodi/329149.html" target="_blank" title="如何运营和推广电子商务网站？ ">如何运营和推广电子商务网站？ </a></li> <li><a href="/jishuluodi/329116.html" target="_blank" title="网上购物常用的网站有哪些？ ">网上购物常用的网站有哪些？ </a></li> <li><a href="/jishuluodi/329002.html" target="_blank" title="我应该从官方网站购买 iPhone 11 吗？ ">我应该从官方网站购买 iPhone 11 吗？ </a></li> </ul> </div> </div> <div class="main-right"> <div class="right_fix"> <div class="r_con"> <div class="r_title">最新推荐</div> <ul> <li><em>1</em><a href="/kejifunen/370275.html" title="ECShop帮助OPPO建设越南官方网站，这次跨境海外旅行很" target="_blank">ECShop帮助OPPO建设越南官方网站，这次跨境海外旅行很</a></li> <li><em>2</em><a href="/kejifunen/369987.html" title="谷歌推出Move Mirror趣味AI网站，可以根据浏览器中" target="_blank">谷歌推出Move Mirror趣味AI网站，可以根据浏览器中</a></li> <li><em>3</em><a href="/kejifunen/367470.html" title="中国最知名众筹网站点名时间陨落众筹网站这条路还能怎么走？" target="_blank">中国最知名众筹网站点名时间陨落众筹网站这条路还能怎么走？</a></li> <li><em>4</em><a href="/kejifunen/367402.html" title="为什么大多数视频网站在VR热潮中如此谨慎？ " target="_blank">为什么大多数视频网站在VR热潮中如此谨慎？ </a></li> <li><em>5</em><a href="/kejifunen/366106.html" title="Python是“最美丽的语言”！ 2018年IEEE发布47" target="_blank">Python是“最美丽的语言”！ 2018年IEEE发布47</a></li> <li><em>6</em><a href="/kejifunen/365404.html" title="电磁波驱蚊智能手环NopixGo众筹网站上线！ " target="_blank">电磁波驱蚊智能手环NopixGo众筹网站上线！ </a></li> <li><em>7</em><a href="/kejifunen/365283.html" title="犀牛云企业云网站咨询转化率三大杀手级功能详解" target="_blank">犀牛云企业云网站咨询转化率三大杀手级功能详解</a></li> <li><em>8</em><a href="/kejifunen/364216.html" title="视频网站试水虚拟现实，是顺应趋势还是把握正确的脉搏？ " target="_blank">视频网站试水虚拟现实，是顺应趋势还是把握正确的脉搏？ </a></li> <li><em>9</em><a href="/kejifunen/363600.html" title="探索华为总部！据英国科技网站8月27日报道，自华为在世界移动" target="_blank">探索华为总部！据英国科技网站8月27日报道，自华为在世界移动</a></li> <li><em>10</em><a href="/kejifunen/363147.html" title="老子云移动网站成功上线，用户参与互动的营销时代已经到来！ " target="_blank">老子云移动网站成功上线，用户参与互动的营销时代已经到来！ </a></li> </ul> </div> <div class="r_con"> <div class="r_title">猜你喜欢</div> <ul class="you_like"> <li><em>1</em><a href="/kejifunen/359703.html" title="MAD 智能眼镜在 Kickstarter 众筹网站上推出" target="_blank">MAD 智能眼镜在 Kickstarter 众筹网站上推出</a></li> <li><em>2</em><a href="/kejifunen/358547.html" title="各网站对VR卡GTX 1060的评测" target="_blank">各网站对VR卡GTX 1060的评测</a></li> <li><em>3</em><a href="/kejifunen/357767.html" title="Python 程序员的 30 个常见错误" target="_blank">Python 程序员的 30 个常见错误</a></li> <li><em>4</em><a href="/kejifunen/356964.html" title="全球最大成人网站推出VR频道！沉浸式短片" target="_blank">全球最大成人网站推出VR频道！沉浸式短片</a></li> <li><em>5</em><a href="/kejifunen/354698.html" title="腾讯电脑管家！游戏外挂网站隐藏“双枪”木马警惕电脑主页被锁" target="_blank">腾讯电脑管家！游戏外挂网站隐藏“双枪”木马警惕电脑主页被锁</a></li> <li><em>6</em><a href="/kejifunen/345828.html" title="Python语言编程的特点及应用" target="_blank">Python语言编程的特点及应用</a></li> <li><em>7</em><a href="/kejifunen/341815.html" title="为封杀赌博网站，蚂蚁金服与百度推出大战略：搜不到、支付不了" target="_blank">为封杀赌博网站，蚂蚁金服与百度推出大战略：搜不到、支付不了</a></li> <li><em>8</em><a href="/kejifunen/341249.html" title="为了吸引中国游客，全球最大大众点评网站Yelp已接入支付宝" target="_blank">为了吸引中国游客，全球最大大众点评网站Yelp已接入支付宝</a></li> <li><em>9</em><a href="/kejifunen/340546.html" title="爱奇艺成为国内首家启用AV1格式的视频网站，同等画质播放时流" target="_blank">爱奇艺成为国内首家启用AV1格式的视频网站，同等画质播放时流</a></li> <li><em>10</em><a href="/kejifunen/337998.html" title="2020年“麦当劳汉堡趣数据”首次发布，汉堡研究院焕新官方网" target="_blank">2020年“麦当劳汉堡趣数据”首次发布，汉堡研究院焕新官方网</a></li> <li><em>11</em><a href="/kejifunen/336073.html" title="微盟集团发布跨境独立网站产品Shop Express，聚焦品" target="_blank">微盟集团发布跨境独立网站产品Shop Express，聚焦品</a></li> <li><em>12</em><a href="/jishuluodi/334842.html" title="创业网站可靠吗？ " target="_blank">创业网站可靠吗？ </a></li> <li><em>13</em><a href="/jishuluodi/334736.html" title="有哪些非常有趣且有用的网站？ " target="_blank">有哪些非常有趣且有用的网站？ </a></li> <li><em>14</em><a href="/jishuluodi/334613.html" title="京东哪个官方网站可以买到正品？ " target="_blank">京东哪个官方网站可以买到正品？ </a></li> <li><em>15</em><a href="/jishuluodi/334482.html" title="买家电哪个网站靠谱？ " target="_blank">买家电哪个网站靠谱？ </a></li> <li><em>16</em><a href="/jishuluodi/334097.html" title="哪个购物网站提供便宜又优质的衣服？ " target="_blank">哪个购物网站提供便宜又优质的衣服？ </a></li> <li><em>17</em><a href="/jishuluodi/333733.html" title="互联网上有没有免费分享项目和资源的网站？ " target="_blank">互联网上有没有免费分享项目和资源的网站？ </a></li> <li><em>18</em><a href="/jishuluodi/333464.html" title="全国货到付款购物网站？ " target="_blank">全国货到付款购物网站？ </a></li> <li><em>19</em><a href="/jishuluodi/333258.html" title="如何推广自己的淘客网站和APP？ " target="_blank">如何推广自己的淘客网站和APP？ </a></li> <li><em>20</em><a href="/jishuluodi/333183.html" title="专门针对男性的最佳购物网站有哪些？ " target="_blank">专门针对男性的最佳购物网站有哪些？ </a></li> </ul> </div> </div> </div> </div> <div class="related_article"></div> <div class="footer"> <p>Copyright © 2012-2022 程序源版权所有<a href="https://beian.miit.gov.cn/" rel="nofollow" target="_blank">豫ICP备2022028201号</a></p> <p>重要申明：本站所有的文章、图片、评论等，均由网友发表或上传并维护或收集自网络，属个人行为，与本站立场无关。如果侵犯了您的权利，请与我们联系，我们将在24小时内进行处理、任何非本站因素导致的法律后果，本站均不负任何责任。</p> </div>   </body> </html>