Python 爬虫的简单实例

it2023-09-20 113

1，爬去百度首页。

import requests as r url="https://www.baidu.com" def pc(url): try: t=r.get(url,timeout=100) t.raise_for_status() t.encoding=t.apparent_encoding return t.text except: return "产生异常" print(pc(url))

2，众所周知，有的网页具有一定的防爬机制，大部分是根据你的URL请求中的header判断你是否是一个浏览器，如果不是就会拒绝。所以，在get方法中，需要将headers修改。可以输出 t.request.headers 看一下第一个例子中的user-agent是什么。

import requests as r url="https://blog.csdn.net/wzzzj"#我的博客首页。。。 kv={'user-agent':'Mozilla/5.0'}#Mozilla/5.0是大多数浏览器的user-agent. def pc(url): try: t=r.get(url,headers=kv,timeout=100) t.raise_for_status() t.encoding=t.apparent_encoding return t.text except: return "产生异常" print(pc(url))

3，百度/360搜索关键词提交。百度的关键词接口：https://www.baidu.com/s?wd=keyword 360的关键词接口：https://www.so.com/s?q=keyword 以360为例：

import requests url="https://www.so.com/s" kv={'user-agent':'Mozilla/5.0'} keybord="Python" try: kt={'q':keybord} r=requests.get(url,params=kt,headers=kv) print(r.request.url) print(r.request.headers) r.raise_for_status() r.encoding=r.apparent_encoding print(len(r.text)) except: print("产生异常")

4，网络图片的爬取和存储。（jpg图片）首先去网上找到一个好看的图片，例如：https://c-ssl.duitang.com/uploads/item/201811/16/20181116185226_uylie.jpg 另外，因为要把图片保存到计算机上，所以要加载os库，我这里把图片放到了D盘起名ABC.jpg.只要是二进制文件都可以以次来爬取。

import requests as r import os url="https://c-ssl.duitang.com/uploads/item/201811/16/20181116185226_uylie.jpg" kv={'user-agent':'Mozilla/5.0'} path="D:/ABC.jpg" def pc(url): try: if not os.path.exists(path): t=r.get(url,timeout=100,headers=kv) print(t.request.url) with open(path,'wb') as f: f.write(t.content) f.close() print("文件保存成功") else: print("文件已存在") except: return "产生异常" pc(url)

最新回复(0)