思うところがあり、コンテンツをバックアップした segment を dump して、見てみました。
$ bin/nutch readseg -dump crawl-2/segments/20070420134609 dump2
$ vi dump-2/dump
...
|
そうすると、コンテンツの後ろの方が truncate されているようです。コンテンツの部分だけをカットして、サイズを見ると、だいたい 64KB 程度です。もしやと思い、conf のファイルを見ると、nutch-default.xml に設定がありました。
$ vi conf/nutch-default.xml
...
<property>
<name>http.content.limit</name>
<value>65536</value>
<description>The length limit for downloaded content, in bytes.
If this value is nonnegative (>=0), content longer than it will be truncated;
otherwise, no truncation at all.
</description>
</property>
...
|
http.content.limit の value を -1 にして、もう一度 fetch し直しました。今度は、truncate されず、最後までセーブされました。 ただし、outlink を見てみると、やはり正しく parse されていないようです。 つづくTags: computer_technology
|