我认为最好用的网页解析模块Parsel

前言:

众所周知,网页解析4大模块:1.正则表达式(re),2.bs4(BeautifulSoup),3.xpath(lxml)4.css选择器(pyquery),大家一定都很熟悉,很多都是从这几个模块入手,本文不对这4个模块评价它们的优略,因为每个人解析网页的习惯不同,所以对这些模块的理解和熟悉程度也不尽相同。

本文要说的,是一个很强大的解析模块parsel,它的强大之处在于是把上面其中的3大模块集成于一身,一个模块可以干3个模块的事情,你们说它强大吗。所以我就想分享出来,一起和大家交流和学习,parsel这个模块最开始是集成在scrapy框架下的,起初就是用在scrapy下提取数据的,后来scrapy团队把它单独独立出来,成为了一个独立的模块。

1.安装:

模块官网:https://pypi.org/project/parsel/

pip install parsel

2.使用:

# 导入需要的模块
import requests
import parsel

# 需要解析的网页
url = 'http://xxxxxx.com'
# 对该网页发送请求,获取响应
response = requests.get(url)
html_text = response.text
# 使用parsel解析网页
html = parsel.Selector(html_text)
# 使用正则
html.re('正则表达式语法')
# 使用xpath,提取元素的文本数据
html.xpath('xpath的语法/text()').extract()
# 使用css选择器,提取元素的属性里面的数据
html.css('css选择器的语法::attr('元素的属性名字')').extract()
# 还可以结合一起使用
html.xpath('xpath的语法/text').re('正则表达式语法')
# extract():是提取所有匹配出的元素,返回的是一个列表数据 extract_first():是提取单个匹配到的元素,返回的是字符串数据

从上面的代码,我们可以看出,无论是使用xpath,还是css选择器,正则表达式,都需要先创建一个parsel.Selector对象,然后就可以对这个对象进行解析,只不过注意使用这个模块需要对正则,xpath,css选择器的使用有所了解,这里我就不对它们的使用做过多的介绍,感兴趣的可以搜索自行学习,网上这方面的资料很多。

更多相关推荐

python爬虫网页解析之parsel模块

一.parsel模块安装官网链接https://pypi.org/project/parsel/1.0.2/pipinstallparsel==1.0.2二...

继续阅读

python爬虫网页解析之parsel模块

python爬虫网页解析之parsel模块一.parsel模块安装官网链接https://pypi.org/project/parsel/1...

继续阅读

数据解析神器 parsel库

parsel库的基本使用parsel是一个python的第三方库,相当于css选择器+xpath+re。parsel由scrapy...

继续阅读

python解析xml文件最好用的模块_...

如下使用xml.etree.ElementTree模块来解析XML文件。ElementTree模块中提供了两个类用来完成这...

继续阅读

python最好用的助手_python 好用

1秒创建局域网下载服务器python有"内置电池"的称号,安装Python3后,你可以无需编码,直接通过命...

继续阅读

使用requests爬取网页的四种解析...

部分内容转载自:https://blog.csdn.net/qiushuidongshi/article/details/81252838目录0x00req...

继续阅读

python“最好用的爬虫框架”Scrapy...

开局一张图如果这张图你能够看明白那就以及明白了Scrapy框架爬虫的基本原理为了你们能够看明白...

继续阅读

Python中最好用的命令行参数解析...

Python做为一个脚本语言,可以很方便地写各种工具。当你在服务端要运行一个工具或服务时,输入...

继续阅读

Python中最好用的命令行解析工具...

Python做为一个脚本语言,可以很方便地写各种工具。当你在服务端要运行一个工具或服务时,输入...

继续阅读

Python中最好用的命令行解析工具...

Python做为一个脚本语言,可以很方便地写各种工具。当你在服务端要运行一个工具或服务时,输入...

继续阅读