Python抓取站酷作品图片并保存至本地

2018年9月6日15:08:20 发表评论 3,842 views
本文最后更新于2018年9月7日,已超过 1 年没有更新,如果文章内容或图片资源失效,请留言反馈,我们会及时处理,谢谢!

思路

1、通过 requests 模块请求网页,获取到网页的源码,其中包含了作品集的 URL

2、通过 BeautifulSoup 提取到作品集的 URL ,返回为列表,使用 for 循环遍历作品集

3、遍历访问作品集时,通过 BeautifulSoup 提取到图片的 URL,进行名称格式化后,返回

4、保存图片的 URL 至本地磁盘

5、遍历多页作品集,使用多线程

嗯。。。思路大概是这个样子吧,新手入门- -

 

模块编写

1、抓取主页(start_app)

从网页源码中可以看出,其主要内容包含在class为 work-list-box 的这个div内,并且每个作品又是单独包含在 class 为 card-box 这个div内的,所以首先,通过 BeautifulSoup 生成 soup 对象后,使用 soup.find class=work-list-box 找到位于该 class 内的元素,再通过 find_all class= card-box 生成 作品集的一个列表,代码为:

2、抓取内容

1 中 获取到的作品集list,在该模块进行遍历,通过 BeautifulSoup 方法获取到作品集的 URL,标题,作者,其中,标题 + 作者 作为保存图片文件的路径,作品集的URL通过 requests 模块请求,再次抓取作品集内部的图片

 

3、处理保存路径和保存文件名,保存文件

完整代码

运行结果

  • 微信小程序
  • 关注微信小程序
  • weinxin
  • 微信公众号
  • 关注微信公众号
  • weinxin
Honest1y

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: