爬虫集合

1.抓取['二七文章网']

1.0 单独执行

    无意间发现该站点的规律,可自行配置数据库,对应字段即可,我本地需要部分文章数据。故爬取了该站点。请勿恶意对该站点的进行恶意请求,爬数据。该站点存在封禁IP的可能,请自行对ip代理处理。挖个坑(2019-08-12),后续填上。

2.0 分布式

    1.自行配置mysql,redis,mongodb,此处设置了多user-agent,随机应对反爬虫的处理封禁IP的措施!

    2.可复制一份程序出来,利用anaconda 3配置多个环境,每个环境可以执行一个。加快处理。  

    3.redis执行master执行 : lpush articlespider:start_urls 队列

    4.程序端执行: scrapy runspider article.py 提取执mysql数据库 : 执行 python process_item_item_mysql.py

    提取执mongodb数据库 : 执行 python process_item_item_mongodb.py

2.抓取['蜂鸟网']

1.0 单独执行

    前几次对蜂鸟网爬取了图片,真心觉得它的图片不是一般的多,最初爬取了一个分类。下载了近百个G的数据。为此,中断了进程。此次,主要想对它的图片库的全面进行清洗。把图片链接的地址打包存进数据库。便于后续下载后调用。此网站的没有做任何防范爬取的措施,提取很顺畅,它的图放在第三方的图床。 注:注意看链接页的链接协议。

2.0 分布式

    1.自行配置mysql,redis,mongodb

    2.可复制一份程序出来,利用anaconda 3配置多个环境,每个环境可以执行一个。加快处理。

redis执行master执行 : lpush fengspider:start_urls 队列

程序端执行: scrapy runspider feng.py 提取执mysql数据库 : 执行 python process_item_item_mysql.py 提取执mongodb数据库 : 执行 python process_item_item_mongodb.py

3.抓取['2717网'] ---原27270.com

    这个网站也是之前爬取过的,中午花了点时间重新对它清洗了一次,几分钟就爬完了,抓了1万4千多条数据(感兴趣的)。此站点有意思的是,里面还有子页图,时间原因,暂处理之间链接进去的,之前用的拼链接。后面再把完整的处理了,又挖个坑(2019-08-13)。

声明:此类项目仅供个人学习。

不要对压力测试太过迷恋,除非对方抢了你的糖果! -----------------《黑客守则》


Github: https://github.com/itarvin-python/scrpay_item


本文于 2020-01-11 17:35 由作者进行过修改

本文链接:https://itarvin.com/detail-22.aspx

登录

注册