bestlong 怕失憶論壇

 

 

搜索
bestlong 怕失憶論壇 論壇 Python 如何控制 Scrapy 的 Spider 數量與爬行頻率? ...
查看: 3301|回復: 1
go

如何控制 Scrapy 的 Spider 數量與爬行頻率? [複製鏈接]

Rank: 9Rank: 9Rank: 9

1#
發表於 2010-9-25 00:14 |只看該作者 |倒序瀏覽 |打印
因為某個特定原因,正在思考如何自行保存網路上有價值的資源
開始探索網絡爬蟲 (Web Crawler) 的技術

無論是哪種 Spider 當進行 Crawl 的次數過多或速度過快或間隔時間過短
極有可能會將爬行目標的網路頻寬用盡或造成系統負載過高
進而可能被人為判定或自動判定的機制視為攻擊行為而 deny access
所以如何拿捏與控管也是一個需要考量的重點

目前正在嘗試用 Scrapy 來處理,也同時更深入探索 Python 程式語言
看來需要將 Scrapy 的官版文件先全部瀏覽一遍
看看如何調教 Spider 不要成為過動蟲
我是雪龍
http://blog.bestlong.idv.tw
http://www.bestlong.idv.tw

Rank: 9Rank: 9Rank: 9

2#
發表於 2010-9-25 11:45 |只看該作者
官方文件 Setting 篇內容中,有提到幾個設定值:

  • CONCURRENT_REQUESTS_PER_SPIDER
  • CONCURRENT_SPIDERS
  • DOWNLOAD_DELAY


應該就是可以用來管理的設定屬性
我是雪龍
http://blog.bestlong.idv.tw
http://www.bestlong.idv.tw
‹ 上一主題|下一主題

Archiver|怕失憶論壇

GMT+8, 2024-4-24 02:30 , Processed in 0.031752 second(s), 10 queries .

Powered by Discuz! X1.5

© 2001-2010 Comsenz Inc.