用 scrapy + sphinx 搭建搜索引擎 - Python - bestlong 怕失憶論壇

bestlong 怕失憶論壇 › 論壇 › Python › 用 scrapy + sphinx 搭建搜索引擎

查看: 6698\|回復: 0	go 用 scrapy + sphinx 搭建搜索引擎 [複製鏈接]

bestlong

管理員

Rank: 9 Rank: 9 Rank: 9

1^#

發表於 2010-9-27 22:38 |只看該作者 |倒序瀏覽 |打印

用 scrapy + sphinx 搭建搜索引擎

節錄原文當中有將 scrapy 提取的資料存入 MySQL 的設定

定義要抓取的 item 請編輯 apple/items.py:

from scrapy.item import Item, Field
class NovelItem(Item):
name = Field()
intro = Field()
img_url = Field()
page_url = Field()

複製代碼

定義爬蟲請編輯 apple/spiders/qidian.py:

# -*- coding: utf-8 -*-
import re
from scrapy.contrib_exp.crawlspider import Rule
from scrapy.contrib.loader.processor import TakeFirst, RemoveTag
from apple.contrib.spider import BaseCrawlSpider
from apple.items import NovelItem
from apple.contrib.loader import DefaultXPathItemLoader
class QidianSpider(BaseCrawlSpider):
name = 'qidian'
regex_home = r'http://all.qidian.com/$'
regex_list = r'bookstore.aspx\?.*ChannelId=-1&.*PageIndex=\d+'
regex_item = r'Book/\d+\.aspx$'
start_urls = [
'http://all.qidian.com/',
]
rules = [
Rule(regex_home, 'parse_home'),
Rule(regex_list, 'parse_list'),
Rule(regex_item, 'parse_item'),
]
def parse_home(self, response): # {{{
links = self.extract_links(response, allow=self.regex_list, restrict_xpaths='.storelistbottom')
m = re.search(ur'GoPage.*1/(\d+).*?页', response.body_as_unicode(), re.M)
total_page = int(m.group(1))
reqs = []
for p in range(1, total_page+1):
url = re.sub('PageIndex=\d+', 'PageIndex=%d' % p, links[0].url)
req = self.make_request(url, priority=self.priority_list)
reqs.append(req)
return reqs
# end def }}}
def parse_list(self, response): # {{{
reqs = self.extract_requests(response, priority=self.priority_item, allow=self.regex_item)
return reqs
# end def }}}
def parse_item(self, response): # {{{
loader = DefaultXPathItemLoader(NovelItem(), response=response)
loader.add_xpath('name', 'div.book_info div.title h1')
loader.add_xpath('intro', 'div.book_info div.intro div.txt', TakeFirst(), RemoveTag('div'))
loader.add_xpath('img_url', 'div.book_pic img/@src')
loader.add_value('page_url', response.url)
item = loader.load_item()
return item
# end def }}}
SPIDER = QidianSpider()

複製代碼

測試爬蟲
编辑写单元测试apple/tests/test_qidian_spider.py:

# -*- coding: utf-8 -*-
import re
from apple.spiders.qidian import QidianSpider
from apple.tests.spider_test import SpiderTestCase
class QidianSpiderTestCase(SpiderTestCase): # {{{
def setUp(self):
self.spider = QidianSpider()
def test_parse_home(self): # {{{
url = 'http://all.qidian.com/'
reqs = self._parse(url)
self.assertGreater(len(reqs), 2000, url)
self.assertReMatch('http://.+bookstore\.aspx\?.*ChannelId=-1.*PageIndex=2', reqs[1].url, url)
# end def }}}
def test_parse_list(self): # {{{
url = 'http://www.qidian.com/book/bookstore.aspx?ChannelId=-1&SubCategoryId=-1&Tag=all&Size=-1&Action=-1&OrderId=6&P=all&PageIndex=1&update=-1&Vip=-1'
reqs = self._parse(url)
self.assertEqual(len(reqs), 100, url)
self.assertReMatch(self.spider.regex_item, reqs[1].url, url)
# end def }}}
def test_parse_item(self): # {{{
def test(url, expected):
item = self._parse_one(url)
self.assertObjectMatch(expected, item, url)
url = 'http://www.qidian.com/Book/172.aspx'
expected = {
'name': u'女人街的除魔事务所',
'r:intro': u'<br />.*让我深刻体味这可怕的魔鬼吧',
'img_url': u'http://image.cmfu.com/books/1.jpg',
'page_url': url,
}
test(url, expected)
# end def }}}
# end class }}}