Nutch可以对多种格式的资源实现抓取,只需要做一些配置上的修改即可,下面就是一些配制方法
1、抓取 pdf|doc|xls|ppt|txt
默认情况下可以搜索txt内容,pdf|doc|xls|ppt 需要配置如下文件:
1. parse-plugins.xml: 指定文件使用的parser,默认nutch使用了第三方的tika作为parser
2. nutch-default.xml:
<name>plugin.includes</name>
默认使用tika,若单独指定,则按照如下格式:
<value>.....|parse-(text|html|js|pdf|msexcel|mspowerpoint|msword)|...
<name>http.content.limit</name>
指定从http协议读取的文件大小
<value>-1</value>
-1表示无限制,不然可能会有parse
incomplete exception
3. regex-urlfilter.txt 将ppt xls从过滤列表中去掉(pdf,doc默认不过滤)
4. crawl-urlfilter.txt 将ppt xls从过滤列表中去掉(pdf,doc默认不过滤)
2、解析 pdf|doc|xls|ppt|txt
用命令行执行用ant编译后的代码没有问题,问题存在于eclipse环境下。
问题原因分析:eclipse下无法区分不同jar包内相同的package下的相同class文件,而nutch下的parse-pdf插件和lib-jakarta-poi插件分别使用了两个旧版本的第三方包:PDFBox-0.74-dev.jar和poi-3.5-beta4-20081128.ar,
poi-scratchpad-3.5-beta4-20081128.jar。在parse-tika插件下分别使用了pdfbox-1.1.0.jar,
poi-scratchpad-3.6.jar(用于解析msoffice)和poi-3.6.jar。为了让程序执行时能够调用parse-tika所引用的包,需要在build path中remove掉以上给出的三个旧的jar包。
多格式文件解析的测试方法:执行org.apache.nutch.parse.ParserChecker的main函数,参数为需要爬取和解析的文件url。
3、解析流程
org.apache.nutch.parse.ParseUtil.parse(Content)方法是解析的入口函数,其流程是先根据输入文档的类型取得相应的parser,再调用该parser的getParse方法执行解析。若解析时间未设置为-1(无穷大),则调用runParser方法,通过timer来控制解析的超时。以解析msword为例,调用流程为ParseUtil.parse -> TikaParser.getParse -> OfficeParser.parse。
分享到:
相关推荐
Nutch开发入门 Nutch安装和使用 Nutch二次开发 很不错
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。 在Nutch的进化过程中,...
nutch_src 源码 tar—zip格式
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
Nutch爬虫工作流程及文件格式详细分析!!!!!
eclipse配置nutch,eclipse配置nutch
自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,产生了Hadoop...
nutch使用&Nutch;入门教程 pdf
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
nutch安装指南,nutch教程,nutch网络爬取
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
nutch1.2测试文档
nutch插件,安装nutch插件,mysql与nutch
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
nutch配置nutch-default.xml
nutch插件机制 实例讲解 轻松学习 扩展nutch功能 随意添加扩展
NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.
Nutch API帮助文档,学习Nutch必备