第4章-XPath

it2025-03-17  23

第4章-XPath

一、瀑布流数据改分页显示二、正则表达式下载网页图片三、XPath1.xpath-helper的使用2.lxml模块的使用

一、瀑布流数据改分页显示

瀑布流数据:不分页,随鼠标或滚动条下滑自动加载新的内容通过将url中的index改为flip可以实现分页显示 hoverURL:鼠标移动过后显示的版本 thumbURL、middleURL:也不是我们需要的原版图片 objURL:真正的原版图片

二、正则表达式下载网页图片

三、XPath

xm:可扩展标记语言,用于传输和存储数据html:超文本标记语言,显示页面效果xml是⼀种标记语法的⽂本格式,xpath可以⽅便的定位xml中的元素和其中的属性值。lxml是python中的⼀个第三⽅模块,它可以将html⽂本转成xml对象,并对对象执⾏xpath的功能。lxml 是⼀个HTML/XML的解析器,主要的功能是解析和提取HTML/XML数据,利⽤etree.HTML将字符串转化为Element对象。 <bookstore> <book> <title lang='eng'>Harry Potter</title> <author>JK.Rowing</author> <year>2005</year> <price>29<price> </book> </bookstore> <bookstore> 文档节点 <author>JK.Rowing</author> 元素节点 lang='eng' 属性节点

1.xpath-helper的使用

安装方法:

更多工具-扩展程序-打开开发者模式-加载xpathhelper: (1)方法一:将xpathhelper.crx拖入扩展程序中 (2)方法二:将xpathhelper.crx后缀改为rar,解压缩后,通过‘加载已解压的扩展程序’添加,但解压缩包的位置不能动 代码中/text()必须添加,提取元素值;

[ ]: 用来查找某个特定的结点或者包含某个特定值的结点,一般谓语被嵌在方括号中 注://可以跳转或跨越路径,不需要逐个路径往下展开

2.lxml模块的使用

在Python中,我们安装lxml库来使⽤XPath 技术。 lxml 是 ⼀个HTML/XML的解析器,主要的功能是解析和提取HTML/XML数据,利⽤etree.HTML将字符串转化为Element对象,只有转换成Element对象后才能使用XPath语法

最新回复(0)