1,爬去百度首页。
import requests as r url="https://www.baidu.com" def pc(url): try: t=r.get(url,timeout=100) t.raise_for_status() t.encoding=t.apparent_encoding return t.text except: return "产生异常" print(pc(url))2,众所周知,有的网页具有一定的防爬机制,大部分是根据你的URL请求中的header判断你是否是一个浏览器,如果不是就会拒绝。所以,在get方法中,需要将headers修改。可以输出 t.request.headers 看一下第一个例子中的user-agent是什么。
import requests as r url="https://blog.csdn.net/wzzzj"#我的博客首页。。。 kv={'user-agent':'Mozilla/5.0'}#Mozilla/5.0是大多数浏览器的user-agent. def pc(url): try: t=r.get(url,headers=kv,timeout=100) t.raise_for_status() t.encoding=t.apparent_encoding return t.text except: return "产生异常" print(pc(url))3,百度/360搜索关键词提交。 百度的关键词接口:https://www.baidu.com/s?wd=keyword 360的关键词接口:https://www.so.com/s?q=keyword 以360为例:
import requests url="https://www.so.com/s" kv={'user-agent':'Mozilla/5.0'} keybord="Python" try: kt={'q':keybord} r=requests.get(url,params=kt,headers=kv) print(r.request.url) print(r.request.headers) r.raise_for_status() r.encoding=r.apparent_encoding print(len(r.text)) except: print("产生异常")4,网络图片的爬取和存储。(jpg图片)首先去网上找到一个好看的图片,例如:https://c-ssl.duitang.com/uploads/item/201811/16/20181116185226_uylie.jpg 另外,因为要把图片保存到计算机上,所以要加载os库,我这里把图片放到了D盘起名ABC.jpg.只要是二进制文件都可以以次来爬取。
import requests as r import os url="https://c-ssl.duitang.com/uploads/item/201811/16/20181116185226_uylie.jpg" kv={'user-agent':'Mozilla/5.0'} path="D:/ABC.jpg" def pc(url): try: if not os.path.exists(path): t=r.get(url,timeout=100,headers=kv) print(t.request.url) with open(path,'wb') as f: f.write(t.content) f.close() print("文件保存成功") else: print("文件已存在") except: return "产生异常" pc(url)