08-页面分析的数据提取-python爬虫

时间：2023-03-25 23:25:12 Python

一般来说，对于我们来说，需要抓取的是一个网站或者一个应用的内容，提取有用的价值。内容一般分为两部分，非结构化文本，或结构化文本。关于结构化数据JSON、XML、HTMLHTML文本（包括JavaScript代码）是最常见的数据格式，应该属于结构化文本组织，但是由于我们需要的关键信息不能直接获取，所以需要解析和搜索HTML，以及甚至可以得到一些字符串操作，所以还是属于非结构化数据处理。把网页比作一个人，那么HTML就是他的骨架，JS就是他的肌肉，CSS就是他的衣服。常见的解析方法如下：XPath、CSS选择器、正则表达式HTMLDOM示例HTMLDOM定义了访问和操作HTML文档的标准方法。DOM以树形结构表示HTML文档。文本数据比如一篇文章，或者一句话，我们的初衷是提取有效信息，所以如果是延迟处理，可以直接存储，如果需要实时提取有用信息，常见的处理方式是如下：根据抓取的网站类型分词，使用不同的词库，进行基本的分词，然后转化为词频统计，类似于向量的表示，其中词是方向，词频是方向长度。NLP自然语言处理、语义分析、正反等结果。IT概论感谢关注|练习地址：www.520mg.com/it

上一篇：《囧妈》口碑扑街？Python告诉你为什么这次观众不买账

下一篇：什么是Python编程语言？

08-页面分析的数据提取-python爬虫相关文章