相关文章推荐
胆小的香烟  ·  “日本百名漫画家笔下的八一五”漫画展南京开幕 ...·  2 月前    · 
胆小的香烟  ·  日本漫画家藤子不二雄A去世曾与《哆啦A梦》作 ...·  2 月前    · 
胆小的香烟  ·  河北邱县漫画展·  2 月前    · 
胆小的香烟  ·  吴志攀:丰子恺漫画及其意义_公共政策讲坛_北 ...·  2 月前    · 
胆小的香烟  ·  “中国最萌漫画家”——夏达-长理新闻网·  2 月前    · 
小百科  ›  记录从一月份以来的漫画爬虫读书 | KBdog's blog
漫画
好帅的野马
2 年前
加载中...
avatar
文章
20
标签
47
分类
4

首页
归档
标签
分类
娱乐
  • 音乐
  • 视频
留言板
关于
KBdog's blog
搜索
首页
归档
标签
分类
娱乐
  • 音乐
  • 视频
留言板
关于

记录从一月份以来的漫画爬虫学习

发表于 2021-03-15 | 更新于 2021-03-25 | 学习
| 字数总计: 1.3k | 阅读时长: 4分钟 | 阅读量:

前言

从上一年年末开始,我一直使用各种爬虫工具看漫画,这些爬虫工具引起了我浓厚的学习兴趣。于是脑海中产生了自己写爬虫工具的想法。后来我通过对tachiyomi,cimoc等开源项目以及各种博客的学习中了解到了基本的爬虫原理,然后着手实践起来。

  • 本人博文内容皆仅限用于学习和研究,部分敏感内容来源于互联网
  • 如果侵犯了您的版权请通过 我的邮箱 或 B站账号 与我获得联系,我会尽快删除相关内容
  • 简单的漫画爬虫过程

    1. 使用抓包工具如 Charles 等截获浏览器或app的http和https请求
    2. 获取并分析截获的api接口,从中提取关键信息(漫画的搜索关键字、章节、每张图片等在URL中的位置)
    3. 从漫画关键字搜索api中获取精准漫画信息
    4. 从漫画信息中提取漫画id或漫画路径
    5. 使用漫画id等关键信息访问章节api获取当前漫画所有章节
    6. 从单个章节中获取其所有图片列表
    7. 使用IO流下载图片
    8. 爬虫实践过程

      1. 第一个爬虫项目: https://github.com/KBdog/crawler-comic-dmzj ,完成时间:2021-01-26
        这是我第一个爬虫项目,是通过分析dmzj网页版的标签来获取图片url下载,并不完全按以上顺序来进行。这个项目使用了selenium对网页进行模拟人工操作,通过ChromeDriver访问单点漫画首页获取所有章节标签链接,然后根据每个章节开多线程访问获得各章图片列表url。分析标签和下载使用了webmagic,在pipeline中使用io流对分析后的图片集合进行下载。(这次的项目还特意用javafx写了图形化界面,后面发现过于花里胡哨并不实用,因此在后续的爬虫项目中取消了写图形化界面的想法,直接改用命令行运行)
     
    推荐文章
    胆小的香烟  ·  “日本百名漫画家笔下的八一五”漫画展南京开幕_中华人民共和国驻 ...
    2 月前
    胆小的香烟  ·  日本漫画家藤子不二雄A去世曾与《哆啦A梦》作家共用笔名- 中国日报网
    2 月前
    胆小的香烟  ·  河北邱县漫画展
    2 月前
    胆小的香烟  ·  吴志攀:丰子恺漫画及其意义_公共政策讲坛_北京大学政府管理学院 ...
    2 月前
    胆小的香烟  ·  “中国最萌漫画家”——夏达-长理新闻网
    2 月前
    今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
    删除内容请联系邮箱 2879853325@qq.com
    小百科 - 百科知识指南
    © 2024 ~ 沪ICP备11025650号