第4章-XPath

it2025-03-17 66

第4章-XPath

一、瀑布流数据改分页显示二、正则表达式下载网页图片三、XPath1.xpath-helper的使用2.lxml模块的使用

一、瀑布流数据改分页显示

瀑布流数据：不分页，随鼠标或滚动条下滑自动加载新的内容通过将url中的index改为flip可以实现分页显示 hoverURL：鼠标移动过后显示的版本 thumbURL、middleURL：也不是我们需要的原版图片 objURL：真正的原版图片

二、正则表达式下载网页图片

三、XPath

xm：可扩展标记语言，用于传输和存储数据html：超文本标记语言，显示页面效果xml是⼀种标记语法的⽂本格式，xpath可以⽅便的定位xml中的元素和其中的属性值。lxml是python中的⼀个第三⽅模块，它可以将html⽂本转成xml对象，并对对象执⾏xpath的功能。lxml 是⼀个HTML/XML的解析器，主要的功能是解析和提取HTML/XML数据，利⽤etree.HTML将字符串转化为Element对象。 <bookstore> <book> <title lang='eng'>Harry Potter</title> <author>JK.Rowing</author> <year>2005</year> <price>29<price> </book> </bookstore> <bookstore> 文档节点 <author>JK.Rowing</author> 元素节点 lang='eng' 属性节点

1.xpath-helper的使用

安装方法：

更多工具-扩展程序-打开开发者模式-加载xpathhelper: （1）方法一：将xpathhelper.crx拖入扩展程序中（2）方法二：将xpathhelper.crx后缀改为rar，解压缩后，通过‘加载已解压的扩展程序’添加，但解压缩包的位置不能动代码中/text（）必须添加，提取元素值;

[ ]: 用来查找某个特定的结点或者包含某个特定值的结点，一般谓语被嵌在方括号中注：//可以跳转或跨越路径，不需要逐个路径往下展开

2.lxml模块的使用

在Python中，我们安装lxml库来使⽤XPath 技术。 lxml 是⼀个HTML/XML的解析器，主要的功能是解析和提取HTML/XML数据，利⽤etree.HTML将字符串转化为Element对象，只有转换成Element对象后才能使用XPath语法

最新回复(0)