IP代理在网络爬虫中的应用

it2025-06-20 51

欢迎关注”生信修炼手册”!

通过用户代理我们可以将普通的爬虫程序伪装成浏览器，而IP代理的作用则是用于突破目标服务器对同一IP访问频率的限制。

在网站的反爬虫策略中，限制IP访问频率是比较常见的措施。具体体现为，当我们的爬虫程序短时间内对服务器发起大量请求时，会出现访问限制或者IP被封禁的现象，此时无论是爬虫程序，还是通过浏览器访问，都无法访问到目标服务器。

为了突破这一限制，可以使用IP代理。IP是互联网中的门牌号，IP代理的作用就是将我们的爬虫程序伪装成不同的用户，这样就避免了对同一个用户访问频率的限制。在python中，通过urllib和requests这两个模块都实现IP代理。

1. urllib

代码如下

>>> proxy="http://119.8.44.244:8080" >>> proxy_support=urllib.request.ProxyHandler({'http':proxy}) >>> opener = urllib.request.build_opener(proxy_support) >>> urllib.request.install_opener(opener) >>> r = urllib.request.urlopen('http://icanhazip.com') >>> r.read() b'119.8.44.244\n'

2. requests

代码如下

>>> import requests >>> proxies = {'http': 'http://119.8.44.244:8080'} >>> r=requests.get("http://icanhazip.com", proxies=proxies) >>> r.text '119.8.44.244\n'

上述代码中的目标网站是一个检测IP的网站，当我们成功访问后，会显示对应的IP地址，从而帮助我们判断代理IP是否生效。

可以看到，相对于urllib，requests模块的代理IP使用起来更加简单。

在实际应用中，既有免费的代理IP,也有收费的代理IP。免费的代理IP需要我们从对应的网站上爬取IP列表，然后还需要自己检测代理IP的有效性，而通常情况下，免费的代理IP有效性都很低，所以更推荐使用收费的代理IP。

收费的代理IP会提供一个API借口，可以方便的嵌入程序中，通过API调用直接返回一系列可用的代理IP。

通过一个例子来看下代理IP的使用，代码如下

import requests import random import threading # 获取代理IP def get_proxy(): ip_list = [ 'http://197.231.196.44:42461', 'http://190.124.164.78:8080', 'http://87.117.169.23:48705', ] return random.choice(ip_list) # 下载单个网页 def getHtml(url, proxy): retry_count = 5 while retry_count > 0: try: html = requests.get(url, proxies= {'http':proxy}) return html except Exception: retry_count -= 1 return None # 每个线程的处理逻辑 def download_html(ko, semaphore, proxy): semaphore.acquire() url = 'https://www.genome.jp/dbget-bin/www_bget?ko:{}'.format(ko) out = './{}.kgml'.format(ko) r = getHtml(url, proxy) if r: print('{} download success!'.format(ko)) with open(out, 'w') as fp: fp.write(r.text) else: print('{} download failed!'.format(ko)) semaphore.release() if __name__ == '__main__': ko_list = ['K{:05d}'.format(i) for i in range(1, 201)] thread_list = [] semaphore = threading.BoundedSemaphore(100) for cnt, ko in enumerate(ko_list): if cnt % 10 == 0: proxy = get_proxy() p = threading.Thread(target = download_html, args = (ko, semaphore, proxy )) p.start() thread_list.append(p) for thread in thread_list: thread.join()

程序的作用是抓取KEGG Orthology的各个网页，通过多线程实现抓取，通过代理IP的使用，可以突破IP频率的限制。

需要注意，代理IP是有时效性的，代码中的IP是我在网上找到的免费代理IP, 当前测试是没问题的，但是过段时间代理IP失效之后，就没法成功运行了。

上述的代码只是用于启发式的思考，在实际使用中，用收费代理的API来实现get_proxy函数即可。

·end·

—如果喜欢，快分享给你的朋友们吧—

原创不易，欢迎收藏，点赞，转发！生信知识浩瀚如海，在生信学习的道路上，让我们一起并肩作战！

本公众号深耕耘生信领域多年，具有丰富的数据分析经验，致力于提供真正有价值的数据分析服务，擅长个性化分析，欢迎有需要的老师和同学前来咨询。