简单的十几行代码爬取某库ppt格式的内容

it2023-05-07  88

简单的十几行代码下载某库ppt格式的内容

拒绝转载,拒绝商用,拒绝非法爬取 仅供压力巨大的中年人给孩子们找找学习资料

准备工作: 1,打开某库搜索到需要的内容,请选择PPT格式

2, 进入内容页面F12检查源代码可以看到有每个图片的链接,也是每页的链接

3, 可以用xpath或者re获取所需要的链接,或者直接copy在txt中, 我选择笨方法保存到本地的txt中

4, 然后就可以获取每个链接的图片了(成功后如下)

完整的代码如下:

```python import re, time, os, requests session = requests.session() url_list = [] file = open('New Text Document.txt') #获取txt中的每个图片url for i in file.readlines(): url = i.strip().split(',') url_list.append(url) file.close() path = r'C:\Users\python test\...' #保存图片位置的路径 def get_pic(url_list): for pic_url in enumerate(url_list): #采用枚举方便以序号命名图片 content = session.get(pic_url[1]).content #获取每张图片内容 paths = os.path.join(path, str(pic_url[0]) + '.jpg') #图片命名 with open(paths, 'wb') as f: f.write(content) #下载图片 time.sleep(1.5) #单线程操作防止出现空白图片 print('{} download complete'.format(pic_url[0])) if __name__ == '__main__': get_pic(pic_url_list) 本人新手,如有出入的地方还请指正!有更好的方法还请不吝赐教!尤其是关于如何爬取同时带有图片和文字的内容, 先行感谢!
最新回复(0)