bestlong 怕失憶論壇's Archiver

bestlong 發表於 2010-9-25 00:14

如何控制 Scrapy 的 Spider 數量與爬行頻率?

因為某個特定原因,正在思考如何自行保存網路上有價值的資源
開始探索網絡爬蟲 (Web Crawler) 的技術

無論是哪種 Spider 當進行 Crawl 的次數過多或速度過快或間隔時間過短
極有可能會將爬行目標的網路頻寬用盡或造成系統負載過高
進而可能被人為判定或自動判定的機制視為攻擊行為而 deny access
所以如何拿捏與控管也是一個需要考量的重點

目前正在嘗試用 Scrapy 來處理,也同時更深入探索 Python 程式語言
看來需要將 Scrapy 的官版文件先全部瀏覽一遍
看看如何調教 Spider 不要成為過動蟲

bestlong 發表於 2010-9-25 11:45

在[url=http://doc.scrapy.org/topics/settings.html]官方文件 Setting 篇[/url]內容中,有提到幾個設定值:

[list]
[*]CONCURRENT_REQUESTS_PER_SPIDER
[*]CONCURRENT_SPIDERS
[*]DOWNLOAD_DELAY
[/list]

應該就是可以用來管理的設定屬性
頁: [1]

Powered by Discuz! X1.5 Archiver   © 2001-2010 Comsenz Inc.