如何控制 Scrapy 的 Spider 數量與爬行頻率?

bestlong 發表於 2010-9-25 00:14

因為某個特定原因，正在思考如何自行保存網路上有價值的資源
開始探索網絡爬蟲 (Web Crawler) 的技術

無論是哪種 Spider 當進行 Crawl 的次數過多或速度過快或間隔時間過短
極有可能會將爬行目標的網路頻寬用盡或造成系統負載過高
進而可能被人為判定或自動判定的機制視為攻擊行為而 deny access
所以如何拿捏與控管也是一個需要考量的重點

目前正在嘗試用 Scrapy 來處理，也同時更深入探索 Python 程式語言
看來需要將 Scrapy 的官版文件先全部瀏覽一遍
看看如何調教 Spider 不要成為過動蟲

bestlong 發表於 2010-9-25 11:45

在[url=http://doc.scrapy.org/topics/settings.html]官方文件 Setting 篇[/url]內容中，有提到幾個設定值：

[list]
[*]CONCURRENT_REQUESTS_PER_SPIDER
[*]CONCURRENT_SPIDERS
[*]DOWNLOAD_DELAY
[/list]

應該就是可以用來管理的設定屬性

頁: [1]

bestlong 怕失憶論壇's Archiver

如何控制 Scrapy 的 Spider 數量與爬行頻率?