在爬行动物程序下攀登数据时,经常遇到的问题,如果遇到乱码的代码,该怎么办?
通常,每个人都看到乱码,并在潜意识中觉得这将是错误的?实际上,这是一个简单的编码问题。
通常,涉及Crawler程序中的编码格式的两个地方。启动请求后,对返回内容进行解码;另一个是在保存文件时设置编码格式。LET下面的单独。
一般网站的编码格式是,因此,当您的系统的默认编码也是,即当您的默认编码方法与目标网站的编码方法一致时,即使未明确设置编码方法,没问题。
但是,如果它不一致,就会乱七八糟。这就是为什么经常存在这样的问题的原因。只要您在代码中设置它,解决问题也非常简单。建议在此处使用一种方法。这可以自动推测目标网站的编码格式。您可以一一设置它(当然,它可以推测可能会乱七八糟。在该时间表时)。
这是读者和朋友所反映的问题,也就是说,爬行过程没有问题,但是当打开保留的文件时,它似乎乱七八糟(可以用记事本打开它)。这实际上是文件的编码方法和Excel的解码。方法不一致。
在此句子中,在参数中添加一个,应求解指定文件的编码格式。
导入大熊猫作为pd
def写入页面(尿素):
'''
功能:将HTML的内容写入本地文件
'''
dataFrame = pd.dataframe(尿素)
dataframe.to_csv('filename.csv',encoding ='utf_8_sig',mode ='a',index = false,sep =',sep =',header = false)可以用笔记打开垃圾代码,然后单击另一个单击。为了选择编码格式,还可以,保存后,再次使用它是正常的。
有几个常见的乱码条件。您可以参考它。