Nutch的plugin开发一些心得,现在对此进行纪录。我现在要对hmtl中anchor中一些判断
1. 首先分析要对什么进行过滤。经过查看原代码。判断需要对org.apache.nutch.parse.HtmlParseFilter进行extension.
2. 对于 parseResult进一步的filter.
3. 在分析过程中, 先对
HtmlParse.java中的 ParseResult filteredParse = this.htmlParseFilters.filter(content, parseResult,
metaTags, root);
4. 查看htmlparsefilters 的代码,负责load htmlparsefilter的plugin实现的load进execute the filter方法. 只要是实现htmlparsefilter 的即可达到html parsef ilter效果 (请留意s)
5. 首先参考其他plugin,在plugin 目录下创建相关的plug in 的目录。但是在创建package是对应的目录要多试几次。package name就参考其他parse-js创建就好了
6. public class AnchorParseFilter implements HtmlParseFilter, Parser 实现 htmlparsefilter与parse的interface.
7. 现在纪录build.xml , ivy.xml, plugin.xml
build.xml:
<project name="parse-anchor" default="jar-core">
<import file="../build-plugin.xml"/>
<!-- Deploy Unit test dependencies -->
<target name="deps-test">
<ant target="deploy" inheritall="false" dir="../nutch-extensionpoints"/>
<ant target="deploy" inheritall="false" dir="../protocol-file"/>
</target>
</project>
ivy.xml 没有import 其他,所以没有变更
plugin.xml
<plugin
id="AnchorParseFilter"
name="AnchorParseFilter Parser"
version="1.0.0"
provider-name="nutch.org">
<runtime>
<library name="parse-anchor.jar">
<export name="*"/>
</library>
</runtime>
<requires>
<import plugin="nutch-extensionpoints"/>
</requires>
<extension id=" org.apache.nutch.parse.anchor"
name="Anchor Parser"
point="org.apache.nutch.parse.HtmlParseFilter">
<implementation id="AnchorParseFilter"
class="org.apache.nutch.parse.anchor.AnchorParseFilter">
</implementation>
</extension>
</plugin>
其中要留意这个plugin 实现的HtmlParseFilter 的interface.因此point要是org.apache.nutch.parse.HtmlParseFilter
8. 在plugin的folder 下的pluginx.ml增加
<ant dir="parse-anchor" target="deploy"/>
nutch中build的时间,会调plugin下在build.xml来编译。不在plugin下的build.xml增加的时候,ant找不到parse-anchor下的build.xml进行相关编译
相关推荐
eclipse配置nutch,eclipse配置nutch
Linux 下 Nutch 单机配置
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。
Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。
nutch配置文件的备注 解决代理问题
Nutch的配置文件主要有三类: 1.Hadoop的配置文件,Hadoop-default.xml和Hadoop-site.xml。 2.Nutch的配置文件,Nutch-default.xml和Nutch-site.xml。 3.Nutch的插件的配置文件,这些插件的配置文件在加载插件的时候...
nutch配置nutch-default.xml
介绍关于Nutch的安装
图解搜索引擎nutch配置,自己制作的教程。因为在网上搜索到的教程很多都是粗略,对于初学nutch搜索引擎很难配置好,所以自己亲自打造了一篇图解教程!希望你能够配置成功!
这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...
Nutch1.6的编译配置过程,详细介绍了Nutch1.6的下载到安装运行过程。
nutch 1.4 在windows下安装配置
nutch1.4 在windows下的安装配置环境搭建
Nutch Htmlunit Plugin 重要说明: 当前项目基于Nutch 1.X系列已停止更新维护,转向Nutch 2.x系列版本的新项目:http://www.oschina.net/p/nutch-ajax 项目简介 基于Apache Nutch 1.8和Htmlunit...
这里是在网上搜到的Nutch配置的博客,比较详细,担心自己以后配置的时候忘了,所以传到csdn,顺便分享给大家。
2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 ...
nutch 在windows下环境搭配 已经如何在eclipse下配置,有配图,很详细
Nutch各个配置项的详细说明,非常详细的说明了每一项
windows下nutch的安装配置以及与tomcat的集成.doc
北京邮电大学研究生课程实验指导书。 在windows上配置测试Nutch 用于学习nutch配置的各种问题 分为本地抓取,局域网抓取和互联网抓取三部分