あなたは[info]kazuomikさんの日記を閲覧中です

entries friends calendar user info KazMuzik.net Previous Previous Next Next
Kaz Muzik Blog - Kaz Muzik Blog Backup Project #5
kazuomik
[info]kazuomik
Add to Memories
Share
Kaz Muzik Blog Backup Project #5
思うところがあり、コンテンツをバックアップした segment を dump して、見てみました。
$ bin/nutch readseg -dump crawl-2/segments/20070420134609 dump2
$ vi dump-2/dump
...

そうすると、コンテンツの後ろの方が truncate されているようです。コンテンツの部分だけをカットして、サイズを見ると、だいたい 64KB 程度です。もしやと思い、conf のファイルを見ると、nutch-default.xml に設定がありました。
$ vi conf/nutch-default.xml
...
<property>
  <name>http.content.limit</name>
  <value>65536</value>
  <description>The length limit for downloaded content, in bytes.
  If this value is nonnegative (>=0), content longer than it will be truncated;
  otherwise, no truncation at all.
  </description>
</property>
...

http.content.limit の value を -1 にして、もう一度 fetch し直しました。今度は、truncate されず、最後までセーブされました。

ただし、outlink を見てみると、やはり正しく parse されていないようです。

つづく

Tags:

profile
Kaz Muzik
User: [info]kazuomik
Name: Kaz Muzik
Website: KazMuzik.net
calendar
Back August 2009
1
2345678
9101112131415
16171819202122
23242526272829
3031
page summary
tags