?

Log in

entries friends calendar profile KazMuzik.net Previous Previous Next Next
Nutch segment - Kaz Muzik Blog Backup Project #3 - Kaz Muzik Blog
kazuomik
kazuomik
Nutch segment - Kaz Muzik Blog Backup Project #3
前回の readdb サブコマンドで得られるのは、crawl/crawldb ディレクトリにある crawl するための URL の情報だけです。実際に fetch してきたコンテンツや parse した内容などは、crawl/segments ディレクトリの下の置かれ、readseg サブコマンドでアクセスできます。
$ ls crawl-1/segments
20070417062021  20070417062034  20070417062136
$ bin/nutch readseg -list  -dir crawl-1/segments
NAME            GENERATED  FETCHER START        FETCHER END          FETCHED PARSED
20070417062021  1          2007-04-17T06:20:26  2007-04-17T06:20:26  1       1
20070417062034  26         2007-04-17T06:20:39  2007-04-17T06:21:20  27      25
20070417062136  198        2007-04-17T06:21:43  2007-04-17T06:26:59  198     170
$ 

depth 3 で crawl したので、3つの segment があります。?skip=20 は 2番目の segment にあると思われるので、get してみます。Content そのものを表示すると大きくなるので、-nocontent オプションをつけます。また、ここでは、その他不用な情報もカットして、ParseData だけを表示します。
$ bin/nutch readseg -get crawl-1/segments/20070417062034 http://kazuomik.livejournal.com/?skip=20 \
  -nocontent -nofetch -nogenerate -noparse -noparsetext
SegmentReader: get 'http://kazuomik.livejournal.com/?skip=20'
ParseData::
Version: 5
Status: success(1,0)
Title: 
Outlinks: 5
  outlink: toUrl: http://kazuomik.livejournal.com/kazuomik/__rpc_controlstrip?user=kazuomik anchor: 
  outlink: toUrl: http://stat.livejournal.com/ anchor: 
  outlink: toUrl: http://stat.livejournal.com/img anchor: 
  outlink: toUrl: http://www.livejournal.com/ anchor: 
  outlink: toUrl: http://kazuomik.livejournal.com/ anchor: 
Content Metadata: nutch.content.digest=67e3f015e805111056350368408cab9c Date=Tue, 17 Apr 2007 13:21:04 GMT \
 Vary=Accept-Encoding Content-Length=29932 Content-Encoding=gzip nutch.crawl.score=0.035714287 \
 Set-Cookie=ljuniq=bxt7sDSFybXyplh:1176816064:pgstats0; expires=Saturday, 16-Jun-2007 13:21:04 GMT; \
 domain=.livejournal.com; path=/ nutch.segment.name=20070417062034 Connection=close \
 Content-Type=text/html; charset=utf-8 Server=Apache Cache-Control=private, proxy-revalidate 
Parse Metadata: CharEncodingForConversion=UTF-8 caching.forbidden=content OriginalCharEncoding=utf-8 

$

Outlink を見ると、やはり ?skip=40 がありません。Parse で ?skip=40 を見つけるのに失敗しているようです。これを解決するには、ソースコードを読む必要がありそうです。

つづく

Tags:

コメントの送信