如何控制 Scrapy 的 Spider 數量與爬行頻率? - Python - bestlong 怕失憶論壇

bestlong 怕失憶論壇 › 論壇 › Python › 如何控制 Scrapy 的 Spider 數量與爬行頻率? ...

查看: 4061\|回復: 1	go 如何控制 Scrapy 的 Spider 數量與爬行頻率? [複製鏈接]

bestlong

管理員

Rank: 9 Rank: 9 Rank: 9

1^#

發表於 2010-9-25 00:14 |只看該作者 |倒序瀏覽 |打印

因為某個特定原因，正在思考如何自行保存網路上有價值的資源
開始探索網絡爬蟲 (Web Crawler) 的技術

無論是哪種 Spider 當進行 Crawl 的次數過多或速度過快或間隔時間過短
極有可能會將爬行目標的網路頻寬用盡或造成系統負載過高
進而可能被人為判定或自動判定的機制視為攻擊行為而 deny access
所以如何拿捏與控管也是一個需要考量的重點

目前正在嘗試用 Scrapy 來處理，也同時更深入探索 Python 程式語言
看來需要將 Scrapy 的官版文件先全部瀏覽一遍
看看如何調教 Spider 不要成為過動蟲

收藏0 分享0

我是雪龍
http://blog.bestlong.idv.tw
http://www.bestlong.idv.tw

回復引用

舉報返回頂部

bestlong