Python爬虫学习-第一章
1、http协议: 就是服务器和客户端进行数据交互的一种形式。
2、常用的请求头信息: User-Agent:表示请求载体的身份标识,用浏览器发起请求的话,那么当前的请求载体的身份标识是浏览器;通过requests.get方法也可以发起请求,此时请求载体的身份标识不再是浏览器,而是爬虫程序 Connection:表示的是请求完毕后是断开连接还是保持连接 3、常用的响应头信息: Content-Type:表示服务器端响应回客户端的数据类型 4、https协议: s(secure)表示安全的意思,即安全的http协议,涉及到数据加密,在http中没有数据加密 数据加密方式:
对称密钥加密:客户端先加密,再把密文和密钥一起发送给服务器端,服务器端在进行解密 容易被中间件等拦截,存在安全隐患
非对称密钥加密:服务器端先设计加密方式,把公钥发送给客户端,客户端用公钥加密后,只发送密文,服务器端用私钥进行解密。 但效率较低,公钥容易被拦截并更改
证书密钥加密:是https采用的方式,加入了证书认证机构,服务器端先把公钥提交给证书认证机构,做一个数字签名,用于防伪。再把封装好的证书发给客户端,再加密,发送密文。加入证书认证机构,能保证客户端拿到的带数字签名的公钥一定是服务器提供的