第4章-XPath
一、瀑布流数据改分页显示二、正则表达式下载网页图片三、XPath1.xpath-helper的使用2.lxml模块的使用
一、瀑布流数据改分页显示
瀑布流数据:不分页,随鼠标或滚动条下滑自动加载新的内容通过将url中的index改为flip可以实现分页显示 hoverURL:鼠标移动过后显示的版本 thumbURL、middleURL:也不是我们需要的原版图片 objURL:真正的原版图片
二、正则表达式下载网页图片
三、XPath
xm:可扩展标记语言,用于传输和存储数据html:超文本标记语言,显示页面效果xml是⼀种标记语法的⽂本格式,xpath可以⽅便的定位xml中的元素和其中的属性值。lxml是python中的⼀个第三⽅模块,它可以将html⽂本转成xml对象,并对对象执⾏xpath的功能。lxml 是⼀个HTML/XML的解析器,主要的功能是解析和提取HTML/XML数据,利⽤etree.HTML将字符串转化为Element对象。
<bookstore
>
<book
>
<title lang
='eng'>Harry Potter
</title
>
<author
>JK
.Rowing
</author
>
<year
>2005</year
>
<price
>29<price
>
</book
>
</bookstore
>
<bookstore
> 文档节点
<author
>JK
.Rowing
</author
> 元素节点
lang
='eng' 属性节点
1.xpath-helper的使用
安装方法:
更多工具-扩展程序-打开开发者模式-加载xpathhelper: (1)方法一:将xpathhelper.crx拖入扩展程序中 (2)方法二:将xpathhelper.crx后缀改为rar,解压缩后,通过‘加载已解压的扩展程序’添加,但解压缩包的位置不能动 代码中/text()必须添加,提取元素值;
[ ]: 用来查找某个特定的结点或者包含某个特定值的结点,一般谓语被嵌在方括号中 注://可以跳转或跨越路径,不需要逐个路径往下展开
2.lxml模块的使用
在Python中,我们安装lxml库来使⽤XPath 技术。 lxml 是 ⼀个HTML/XML的解析器,主要的功能是解析和提取HTML/XML数据,利⽤etree.HTML将字符串转化为Element对象,只有转换成Element对象后才能使用XPath语法