Python爬虫学习第三章-3.1-bs4的概述

it2024-04-18  45

Python爬虫学习第三章-3.1-bs4的概述

  这一节主要是简要介绍bs4

1、回顾数据解析的原理:

标签定位提取标签或标签属性中存储的数据值

2、使用bs4进行数据解析的原理:

实例化一个BeautifulSoup对象,并且将页面源码加载到该对象中。参数一是一个文件描述符,是一个被赋值成功的fp。参数二为lxml,lxml是一种解析器通过调用BeautifuSoup对象中相关属性或者方法进行标签定位和数据提取

3、如何实例化BeautifulSoup对象:

先导包:from bs4 import BeautifulSoup

对象的实例化(两种形式):

形式一:将本地的html文档中的数据加载到该对象中:BeautifulSoup(,‘lxml’),参数一得是一个文件描述符,是一个被赋值成功的fp;参数二统一定义为lxml,指使用lxml这个解析器进行解析.fp = open('./test.html','r',encoding='utf-8'),这里是读取,所以第二个参数是r; soup = BeautifulSoup(fp,'lxml') soup就是实例化好的对象,已经将本地存储的一个html文件的数据进行了加载.

形式二:将互联网上获取的页面源码加载到该对象中(常用)

page_text = response.text soup = BeautifulSoup(page_text,'lxml')

4、BeautifulSoup对象中提供的用于数据解析的方法和属性(tagName代表标签名):

soup.tagName返回的是html中第一次出现的tagName标签

soup.find():返回的是单个符合要求的标签

soup.find(‘tagName’):等价于soup.tagName属性定位:通过特定的属性定位到该属性对应的标签,如soup.find(‘div’,class_=‘song’),class_也可以是id、attr等。

soup.findall():返回的是一个列表,包括符合标准的所有标签

soup.find_all(‘tagName’):以列表形式返回符合要求的所有tagName标签。属性定位:与find函数类似,如soup.find_all(‘div’,class_/id/attr=‘song’)。

soup.select()::

select方法用于选择,参数中可以放置选择器,比如想要定位到"tang"这个属性值所在的div,‘tang’是class属性值,所以可以使用类选择器’.tang’ , '.'表示的就是class;同样也可以使用id选择器、标签选择器等等。返回的是一个列表,包含满足条件的标签。层级选择器: soup.select(’.tang > ul >li > a’):’>‘表示的是一个层级,先通过class选择器’.‘定位到最外层的div标签,然后用层级分隔符’>’, 转到下一层,其中ul用的是标签选择器。注意如果想拿到li标签中的第一个a标签,这种形式soup.select(’.tang > ul >li[1]’)是不被支持的,所以只能先定位到所有的a标签,因为select返回的是包含满足条件的标签的列表,所以可以从返回的列表中获取第一个a标签,如下:soup.select(’.tang > ul >li > a’)[0]。soup.select(’.tang > ul a’)[0]:空格表示的是多个层级,>表示的是单个层级 获取标签之间的文本数据:soup.a.text/string/get_text():text属性和get_text()方法可以获取某一个标签中所有的文本内容,直系非直系都可以;string属性只能获取该标签下面直系的文本内容。获取标签中的属性值: soup.a[‘src’]:标签后面直接跟属性名称,soup.select(’.tang > ul a’)[0][‘href’]li.a就可以获取li标签中的a标签
最新回复(0)