记录从一月份以来的漫画爬虫学习
前言
简单的漫画爬虫过程
- 使用抓包工具如 Charles 等截获浏览器或app的http和https请求
- 获取并分析截获的api接口,从中提取关键信息(漫画的搜索关键字、章节、每张图片等在URL中的位置)
- 从漫画关键字搜索api中获取精准漫画信息
- 从漫画信息中提取漫画id或漫画路径
- 使用漫画id等关键信息访问章节api获取当前漫画所有章节
- 从单个章节中获取其所有图片列表
- 使用IO流下载图片
-
第一个爬虫项目:
https://github.com/KBdog/crawler-comic-dmzj
,完成时间:2021-01-26
这是我第一个爬虫项目,是通过分析dmzj网页版的标签来获取图片url下载,并不完全按以上顺序来进行。这个项目使用了selenium对网页进行模拟人工操作,通过ChromeDriver访问单点漫画首页获取所有章节标签链接,然后根据每个章节开多线程访问获得各章图片列表url。分析标签和下载使用了webmagic,在pipeline中使用io流对分析后的图片集合进行下载。(这次的项目还特意用javafx写了图形化界面,后面发现过于花里胡哨并不实用,因此在后续的爬虫项目中取消了写图形化界面的想法,直接改用命令行运行)