rjyp.net
当前位置:首页 >> sCrApy可以同时爬取两个爬虫吗 >>

sCrApy可以同时爬取两个爬虫吗

不可以

对于只是读取某几个网站更新内容的爬虫完全没必要在python代码中实现增量的功能,直接在item中增加Url字段。 item['Url'] = response.url 然后在数据端把储存url的column设置成unique。 之后在python代码中捕获数据库commit时返回的异常

说实话这个很难,因为不同站点的html相差很大,基本上是不可能说用一个通用spider去爬取的,除非你爬取的目标本来就是整个网页页面,但这样子就成了搜索引擎那样的爬虫了

//div[@class="list-wrap"]//li/text()然后用循环,不然所有内容会混在一起。

rapy.selector import Selector from ahutNews.items import AhutnewsItem from scrapy.spiders import Rule from scrapy.linkextractors import LinkExtractor class AhutNewsSpider(Spider): name = 'ahutnews'

1、创建多个spider, scrapy genspider spidername domain scrapy genspider CnblogsHomeSpider cnblogs.com 通过上述命令创建了一个spider name为CnblogsHomeSpider的爬虫,start_urls为 、查看项目下有几个爬虫scrapy list [root@bogon cnblog...

一、增量爬取的思路:即保存上一次状态,本次抓取时与上次比对,如果不在上次的状态中,便视为增量,保存下来。对于scrapy来说,上一次的状态是抓取的特征数据和上次爬取的 request队列(url列表),request队列可以通过request队列可以通过scra...

我也遇到了这个问题,我的解决方法是,先将列表按照时间排序后再抓取,每次抓取完记录最后一条的url,下载再抓取时,遇到这个url,抓取就自动退出。 如果解决了您的问题请采纳! 如果未解决请继续追问!

用爬虫跟踪下一页的方法是自己模拟点击下一页连接,然后发出新的请求; 参考例子如下: item1 = Item() yield item1 item2 = Item() yield item2 req = Request(url='下一页的链接', callback=self.parse) yield req 注意:使用yield时不要用ret...

Pipeline基本上都是你自己写的。能不能适用多个爬虫就看你怎么写的了。 很明确的告诉你,Pipeline可以适用多个爬虫。Scrapy自身提供了下载文件的管道,FilesPipeline、 ImagesPipeline便是很好的例子。http://scrapy-chs.readthedocs.io/zh_CN/0...

网站首页 | 网站地图
All rights reserved Powered by www.rjyp.net
copyright ©right 2010-2021。
内容来自网络,如有侵犯请联系客服。zhit325@qq.com