以下使用requests模块从一个URL下载网页源码,从而进行爬虫的下一步分析。
import requests
url
= "https://www.baidu.com/"
myfile
= requests
.get
(url
)
open("D:/code.txt","wb").write
(myfile
.content
)
你只需使用requests模块的get方法获取URL,并将结果存储到一个名为“myfile”的变量中。然后,将这个变量的内容写入文件。
url
= "目标网址"
这里,可以修改目标网站。同时,将代码进行小改动也可以爬取网页图片,前提是这个网址本身是图片格式。
import requests
html
= "http://inews.gtimg.com/newsapp_ls/0/12640396123_640330/0.png"
myfile
= requests
.get
(html
)
open("D:/3.png","wb").write
(myfile
.content
)