豆瓣影评信息爬取 (爬虫)
etree.tostring(内容,encoding=‘UTF-8’).decode(‘UTF-8’):如果不是UTF-8编码格式的内容,这里可以更改成UTF-8的内容。如果在浏览器上保存网页到本地,在python中获取.html文件需要利用自定解析器来解析文件内容。xpath中的[1]表示第一个元素,而python中的第一个是从0开始,例如:[0]etree.parse(文件路径):parse对html导入python并解析。etree.HTML(内容):将不是html的格式的内容转换成html。
11赞
踩