bestlong 怕失憶論壇

標題: 如何控制 Scrapy 的 Spider 數量與爬行頻率? [打印本頁]

作者: bestlong    時間: 2010-9-25 00:14     標題: 如何控制 Scrapy 的 Spider 數量與爬行頻率?

因為某個特定原因,正在思考如何自行保存網路上有價值的資源
開始探索網絡爬蟲 (Web Crawler) 的技術

無論是哪種 Spider 當進行 Crawl 的次數過多或速度過快或間隔時間過短
極有可能會將爬行目標的網路頻寬用盡或造成系統負載過高
進而可能被人為判定或自動判定的機制視為攻擊行為而 deny access
所以如何拿捏與控管也是一個需要考量的重點

目前正在嘗試用 Scrapy 來處理,也同時更深入探索 Python 程式語言
看來需要將 Scrapy 的官版文件先全部瀏覽一遍
看看如何調教 Spider 不要成為過動蟲
作者: bestlong    時間: 2010-9-25 11:45

官方文件 Setting 篇內容中,有提到幾個設定值:



應該就是可以用來管理的設定屬性




歡迎光臨 bestlong 怕失憶論壇 (http://www.bestlong.idv.tw/) Powered by Discuz! X1.5