当前位置: 首页 > 后端技术 > Python

08-页面分析的数据提取-python爬虫

时间:2023-03-25 23:25:12 Python

一般来说,对于我们来说,需要抓取的是一个网站或者一个应用的内容,提取有用的价值。内容一般分为两部分,非结构化文本,或结构化文本。关于结构化数据JSON、XML、HTMLHTML文本(包括JavaScript代码)是最常见的数据格式,应该属于结构化文本组织,但是由于我们需要的关键信息不能直接获取,所以需要解析和搜索HTML,以及甚至可以得到一些字符串操作,所以还是属于非结构化数据处理。把网页比作一个人,那么HTML就是他的骨架,JS就是他的肌肉,CSS就是他的衣服。常见的解析方法如下:XPath、CSS选择器、正则表达式HTMLDOM示例HTMLDOM定义了访问和操作HTML文档的标准方法。DOM以树形结构表示HTML文档。文本数据比如一篇文章,或者一句话,我们的初衷是提取有效信息,所以如果是延迟处理,可以直接存储,如果需要实时提取有用信息,常见的处理方式是如下:根据抓取的网站类型分词,使用不同的词库,进行基本的分词,然后转化为词频统计,类似于向量的表示,其中词是方向,词频是方向长度。NLP自然语言处理、语义分析、正反等结果。IT概论感谢关注|练习地址:www.520mg.com/it