`
john_doe
  • 浏览: 11007 次
社区版块
存档分类
最新评论

Nutch在eclipse环境配置

阅读更多

Nutch 的初步配置可先参考这个link

http://peigang.iteye.com/blog/1682107

 

遇到几个在window上无法run的问题,在这里纪录一下

1. 按照杨尚川的视频9. 先对hadoop-1.0.3下载原码,然后修改thow exception变成LOG.Warn及autoreconf 的问题解决后。编译完成hadoop-1.0.3后,把它更新到ivy的reposity中。

2. 在运行parschecker中,遇到

Exception in thread "main" java.lang.RuntimeException: x-point org.apache.nutch.protocol.Protocol not found.

是因为在nutch-default.xml中没有指定正确的plugin.folder,所以无法找到plugin的类。这个可以在hadoop.log找到没有load plugin

3. 最后出现urlnormalizer-regex 这个类没找到。原因是因为java Build Path的source中没有把urlnormalizer-regex加进去。后把urlnormalizer-regex 下的java, test目录加进去。就一切正常的

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics