当前位置: 首页 > 后端技术 > Python

GitHub开源项目新闻爬虫,懒人必备!

时间:2023-03-25 23:06:13 Python

各位小伙伴们好,今天给大家介绍的开源项目是python爬虫工具,使用python语言的小伙伴们的福利!如果你在工作中接到一个产品小姐姐的需求,需求是获取今日头条、网易新闻、有民之星、观察者网、凤凰网、腾讯新闻、读书会、新浪新闻等数百家中文新闻网站的文本输出等等,标题,作者,发布时间,文中的图片地址,文所在标签的源代码,你会怎么做?你脑子里应该想的是我要写那么多规矩,怎么办呢,累死我了!如果有一个通用规则就好了。现在大家给大家介绍的这个开源项目就完美的解决了这个问题。他来了,他来了,他带着开源项目GeneralNewsExtractor来了。什么是GNE?GeneralNewsExtractor(GNE)是一个通用的新闻网站文本提取模块。它会输入一个新闻网页的HTML,输出文本内容、标题、作者、发布时间、文本中的图片地址和文本所在标签的源代码。GNE对今日头条、新浪、腾讯新闻等数百个中文新闻网站的提取非常有效,几乎可以达到100%的准确率。使用方法也很简单:安装在线体验。如果想先体验GNE的提取效果,可以访问:http://122.51.39.219。通常情况下,您只需要将网页粘贴到顶部的多行文本框中,然后单击“提取”按钮即可。安装GNEpipinstall--upgradegneuseGNEfromgneimportGeneralNewsExtractorhtml='''渲染网页HTML代码'''extractor=GeneralNewsExtractor()result=extractor.extract(html,noise_node_list=['//div[@class="评论列表"]'])print(result){"title":"xxxx","publish_time":"2020-03-2109:00:00","author":"yyy","content":"zzzz","images":["/xxx.jpg","/yyy.png"]}当然XPath支持自定义规则fromgneimportGeneralNewsExtractorextractor=GeneralNewsExtractor()html='Yourtargetpagetext'result=extractor.extract(html,title_xpath='//h5/text()')print(result)使用效果网易新闻今日头条新浪新闻凤凰网APIGNE函数原型为:classGeneralNewsExtractor:defextract(self,html,title_xpath='',host='',author_xpath='',publish_time_xpath='',noise_node_list=None,with_body_html=False)各参数含义如下:html(str):目标网站的源代码。title_xpath(str):新闻标题的XPath,用于标题的定向抽取。host(str):图片所在的域名,比如https://www.kingname.info,那么GNE在从新闻网站中提取图片的相对链接/images/123.png时,会把host拼接进去就变成https://www.kingname.info/images/123.pngnoise_node_list(List[str]):一个包含XPath的列表。预处理时会直接删除该列表中XPath对应的标签,以免影响新闻文本的抽取。with_body_html(bool):默认为False。此时返回的提取结果不包含新闻文本所在标签的HTML源码。当设置为True时,返回结果中会包含字段body_html,即新闻正文所在标签的HTML源码。author_xpath(str):文章作者的XPath,用于定向提取文章作者。publish_time_xpath(str):文章发表时间的XPath,用于定向提取文章发表时间如果在这期间遇到什么问题欢迎在下方留言或者私信我!喜欢今天的推荐吗?如果喜欢,请在文章底部留言点赞,表示对我的支持。您的评论、点赞和转发是我持续更新的动力!