Python爬虫学习第二章-1-requests模块简介

it2023-02-12 137

Python爬虫学习第二章-1-requests模块简介

这一章主要是介绍requests模块的相关知识以及使用

1、requests模块简介：

概述：是python中原生的一款基于网络请求的模块，高效简洁作用：用来模拟浏览器发请求。如何使用（模拟浏览器发请求的过程）：指定url即指定网址；对当前url发起请求，如get请求；获取服务器响应的数据，如显示的页面数据；将爬取到的响应数据进行持久化存储，可以作为使用requests模块的编码流程实战编码：指定需求：爬取搜狗首页的页面数据

2、爬取搜狗首页的页面数据

import requests if __name__ == "__main__": #step1:指定url url = 'https://www.sogou.com/' #进行UA伪装，在下一节会提到 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36' } # 在url之后要紧接着进行UA伪装，也是定义一个headers #step2:发起请求,此处是发起get请求，第一个参数是指针对哪个url发起get请求 response=requests.get(url=url) #get方法会返回一个响应对象 #step3：获取响应数据，（响应数据应该是在响应对象中并且请求成功之后才会有响应对象，所以在发起请求之后得定义一个响应对象接受get方法的返回值，） page_text=response.text #text属性是返回一组字符串,该字符串即为获取的响应数据 print(page_text) #step4：持久化存储 with open('./sougo.html','w',encoding='utf-8') as fp: fp.write(page_text) print("爬取数据结束")

结果就是爬取到了搜狗首页的源码数据（这里仅展示一个截图）注意with open的使用：with open用来打开本地文件的，处理完文件后，会自动关闭文件，无需手动书写close()。

3、在pycharm中，可能会遇到文本过长，强制换行的情况，我根据网上的资料总结了一下：方法一：File–>settings–>Editor–>General–>Soft Wraps,把Use soft wraps in editor 这个选项的勾选去掉。截图如下：方法二：View–>Active Edito，不选Use soft wraps ,截图如下方法三：Code–>Reformat Code,截图如下

最新回复(0)