简单的十几行代码爬取某库ppt格式的内容

it2023-05-07 140

简单的十几行代码下载某库ppt格式的内容

拒绝转载，拒绝商用，拒绝非法爬取仅供压力巨大的中年人给孩子们找找学习资料

准备工作： 1，打开某库搜索到需要的内容，请选择PPT格式

2，进入内容页面F12检查源代码可以看到有每个图片的链接，也是每页的链接

3，可以用xpath或者re获取所需要的链接，或者直接copy在txt中，我选择笨方法保存到本地的txt中

4，然后就可以获取每个链接的图片了（成功后如下）

完整的代码如下：

```python import re, time, os, requests session = requests.session() url_list = [] file = open('New Text Document.txt') #获取txt中的每个图片url for i in file.readlines(): url = i.strip().split(',') url_list.append(url) file.close() path = r'C:\Users\python test\...' #保存图片位置的路径 def get_pic(url_list): for pic_url in enumerate(url_list): #采用枚举方便以序号命名图片 content = session.get(pic_url[1]).content #获取每张图片内容 paths = os.path.join(path, str(pic_url[0]) + '.jpg') #图片命名 with open(paths, 'wb') as f: f.write(content) #下载图片 time.sleep(1.5) #单线程操作防止出现空白图片 print('{} download complete'.format(pic_url[0])) if __name__ == '__main__': get_pic(pic_url_list) 本人新手，如有出入的地方还请指正！有更好的方法还请不吝赐教！尤其是关于如何爬取同时带有图片和文字的内容，先行感谢！

最新回复(0)