Python爬虫学习第三章-3.1-bs4的概述

it2024-04-18 58

Python爬虫学习第三章-3.1-bs4的概述

这一节主要是简要介绍bs4

1、回顾数据解析的原理：

标签定位提取标签或标签属性中存储的数据值

2、使用bs4进行数据解析的原理：

实例化一个BeautifulSoup对象，并且将页面源码加载到该对象中。参数一是一个文件描述符，是一个被赋值成功的fp。参数二为lxml，lxml是一种解析器通过调用BeautifuSoup对象中相关属性或者方法进行标签定位和数据提取

3、如何实例化BeautifulSoup对象：

先导包：from bs4 import BeautifulSoup

对象的实例化（两种形式）：

形式一：将本地的html文档中的数据加载到该对象中：BeautifulSoup(,‘lxml’),参数一得是一个文件描述符，是一个被赋值成功的fp；参数二统一定义为lxml，指使用lxml这个解析器进行解析.fp = open('./test.html','r',encoding='utf-8'),这里是读取，所以第二个参数是r; soup = BeautifulSoup(fp,'lxml') soup就是实例化好的对象，已经将本地存储的一个html文件的数据进行了加载.

形式二：将互联网上获取的页面源码加载到该对象中(常用)

page_text = response.text soup = BeautifulSoup(page_text,'lxml')

4、BeautifulSoup对象中提供的用于数据解析的方法和属性(tagName代表标签名)：

soup.tagName返回的是html中第一次出现的tagName标签

soup.find():返回的是单个符合要求的标签

soup.find(‘tagName’):等价于soup.tagName属性定位：通过特定的属性定位到该属性对应的标签，如soup.find(‘div’,class_=‘song’)，class_也可以是id、attr等。

soup.findall():返回的是一个列表，包括符合标准的所有标签

soup.find_all(‘tagName’):以列表形式返回符合要求的所有tagName标签。属性定位：与find函数类似，如soup.find_all(‘div’,class_/id/attr=‘song’)。

soup.select():：

select方法用于选择，参数中可以放置选择器，比如想要定位到"tang"这个属性值所在的div，‘tang’是class属性值，所以可以使用类选择器’.tang’ , '.'表示的就是class；同样也可以使用id选择器、标签选择器等等。返回的是一个列表，包含满足条件的标签。层级选择器： soup.select(’.tang > ul >li > a’)：’>‘表示的是一个层级，先通过class选择器’.‘定位到最外层的div标签，然后用层级分隔符’>’，转到下一层，其中ul用的是标签选择器。注意如果想拿到li标签中的第一个a标签，这种形式soup.select(’.tang > ul >li[1]’)是不被支持的，所以只能先定位到所有的a标签，因为select返回的是包含满足条件的标签的列表，所以可以从返回的列表中获取第一个a标签，如下：soup.select(’.tang > ul >li > a’)[0]。soup.select(’.tang > ul a’)[0]:空格表示的是多个层级，>表示的是单个层级获取标签之间的文本数据：soup.a.text/string/get_text():text属性和get_text()方法可以获取某一个标签中所有的文本内容，直系非直系都可以；string属性只能获取该标签下面直系的文本内容。获取标签中的属性值： soup.a[‘src’]:标签后面直接跟属性名称,soup.select(’.tang > ul a’)[0][‘href’]li.a就可以获取li标签中的a标签

最新回复(0)