如何控制 Scrapy 的 Spider 數量與爬行頻率?
因為某個特定原因,正在思考如何自行保存網路上有價值的資源開始探索網絡爬蟲 (Web Crawler) 的技術
無論是哪種 Spider 當進行 Crawl 的次數過多或速度過快或間隔時間過短
極有可能會將爬行目標的網路頻寬用盡或造成系統負載過高
進而可能被人為判定或自動判定的機制視為攻擊行為而 deny access
所以如何拿捏與控管也是一個需要考量的重點
目前正在嘗試用 Scrapy 來處理,也同時更深入探索 Python 程式語言
看來需要將 Scrapy 的官版文件先全部瀏覽一遍
看看如何調教 Spider 不要成為過動蟲 在[url=http://doc.scrapy.org/topics/settings.html]官方文件 Setting 篇[/url]內容中,有提到幾個設定值:
[list]
[*]CONCURRENT_REQUESTS_PER_SPIDER
[*]CONCURRENT_SPIDERS
[*]DOWNLOAD_DELAY
[/list]
應該就是可以用來管理的設定屬性
頁:
[1]