爬虫实际项目

1.抓取['二七文章网']

    1.0 单独执行

        无意间发现该站点的规律,可自行配置数据库,对应字段即可,我本地需要部分文章数据。故爬取了该站点。请勿恶意对该站点的进行恶意请求,爬数据。该站点存在封禁IP的可能,请自行对ip代理处理。挖个坑(2019-08-12),后续填上。

    2.0 分布式 

        1.自行配置mysql,redis,mongodb,此处设置了多user-agent,随机应对反爬虫的处理封禁IP的措施!

       2.可复制一份程序出来,利用anaconda 3配置多个环境,每个环境可以执行一个。加快处理。 

       3.redis执行master执行 :

        lpush articlespider:start_urls 队列

        4.程序端执行: scrapy runspider article.py 提取执mysql数据库 : 执行

        python process_item_item_mysql.py

          5.提取执mongodb数据库 : 执行

        python process_item_item_mongodb.py

2.抓取['蜂鸟网']

    1.0 单独执行

            前几次对蜂鸟网爬取了图片,真心觉得它的图片不是一般的多,最初爬取了一个分类。下载了近百个G的数据。为此,中断了进程。此次,主要想对它的图片库的全面进行清洗。把图片链接的地址打包存进数据库。便于后续下载后调用。此网站的没有做任何防范爬取的措施,提取很顺畅,它的图放在第三方的图床。 注:注意看链接页的链接协议。

     2.0 分布式

        1.自行配置mysql,redis,mongodb

        2.可复制一份程序出来,利用anaconda 3配置多个环境,每个环境可以执行一个。加快处理。

            redis执行master执行 :

            程序端执行: scrapy runspider feng.py 提取执mysql数据库 : 执行

	python process_item_item_mysql.py

            提取执至mongodb数据库 : 执行

	python process_item_item_mongodb.py

3.抓取['2717网'] ---原27270.com

            这个网站也是之前爬取过的,中午花了点时间重新对它清洗了一次,几分钟就爬完了,抓了1万4千多条数据(感兴趣的)。此站点有意思的是,里面还有子页图,时间原因,暂处理之间链接进去的,之前用的拼链接。后面再把完整的处理了,又挖个坑(2019-08-13)。

4.抓取['新华字字典'] ---新华字典

            抓字典,没说的。13479个字!!

            根据《新华字典》前言——《新华字典》总共收字11200个左右,至于汉字总共有多少,迄今为止没有准确的数字,这一方面因为汉字太多,难于统计,另一方面因为汉字异体、俗体字太多,这些字能不能统计进汉字的总数,学术界意见不一。

《新华字典》第十一版已于2011年7月出版发行。在最新版本的《新华字典》中,新增了800多个正字头,另外,还增加了1500多个繁体字和500多个异体字。

            1.自行配置mysql,redis,mongodb

            2.可复制一份程序出来,利用anaconda 3配置多个环境,每个环境可以执行一个。加快处理。

            redis执行master执行 :

                    lpush zidianspider:start_urls  队列

            数据库:

            DROP TABLE IF EXISTS `zidian`;
                    CREATE TABLE `zidian` (  
                    `id` int(10) unsigned NOT NULL AUTO_INCREMENT,  
                    `zi` varchar(255) DEFAULT '',  
                    `thumb` varchar(255) DEFAULT '',  
                    `pinyin` varchar(255) DEFAULT '',  
                    `wuxing` varchar(255) DEFAULT '',  
                    `jiegou` varchar(255) DEFAULT '',  
                    `bushou` varchar(255) DEFAULT '',  
                    `bihua` (255) DEFAULT '',  
                    `request` varchar(255) DEFAULT '',  
                    `base` text,  `kangxi` varchar(255) DEFAULT '',  
                    `guhanyu` text,  `xiangxi` text,  `develop` text,  
                    PRIMARY KEY (`id`),
                  KEY `zi` (`zi`)
               ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

            程序端执行: scrapy runspider feng.py 提取至mysql数据库 :

            执行

	python process_item_item_mysql.py


声明:此类项目仅供个人学习。

不要对压力测试太过迷恋,除非对方抢了你的糖果! -----------------《黑客守则》


本文于 2020-01-11 17:34 由作者进行过修改

本文链接:https://itarvin.com/detail-23.aspx

登录或者注册以便发表评论

登录

注册