最近要搞个数据挖掘的项目,用了开源nutch作为爬虫;一些坑记录下来;免得后续忘记。
1. 配置 regex-urlfilter.txt,配置一定要规范,行尾切记不要有特殊字符和空格。
否则nutch不给你工作,会显示0抓取记录。
2.每次抓取可以新建数据保存目录,否则 urls 里面的seed 配置不生效。依然爬去的是上一个配置。
3.和solr配合,请把conf的schema.xml 和 solr 里面的schema.xml合并。注意去重复的。有了就不要配置了。如果配置不合适,solr的core出不来。
4.solr 显示查询页面
http://localhost:8080/solr/collection1/browse
记得把lib 里面相关的 solr-4.8.1\contrib\velocity\lib 下的jar 加入 solr.war
中。
分享到:
相关推荐
Nutch+solr + hadoop相关框架搭建教程
1.1 Solr 简介 1.1.1 Solr 的特性 1.1.2 Solr 的目录结构 1.1.3 Solr 与Lucene 关系 1.2 Solr 安装 1.2.1 环境介绍 1.2.2 安装Solr 1.2.3 结合Nutch
本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码,主要使用Java进行开发。...项目结构清晰,代码注释详尽,适合用于学习和研究Apache Nutch和Solr在AJAX页面内容爬取与处理中的应用。
eclipse配置nutch,eclipse配置nutch
初学NUTCHLUCENCENUTCH可以看
自己写的 hadoop nutch solr 环境搭建手册,成功搭建后写的,会有红色标注容易出错的地方
基于Apache Nutch和Solr以及Htmlunit, Selenium WebDriver等组件扩展,实现对于AJAX加载类型页面的完整页面内容爬取、解析、清洗、持久化、全文检索等处理
Nutch搜索引擎·Nutch简介及安装(第1期) Nutch搜索引擎·Solr简介及安装(第2期) Nutch搜索引擎·Nutch简单应用(第3期) Nutch搜索引擎·Eclipse开发配置(第4期) Nutch搜索引擎·Nutch浅入分析(第5期)
Nutch 1.3 学习笔记,讲的比较清楚的文档
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
Nutch 和 Solr (参见 ) 版本 1. 索尔 Solr 用于 8.5.1(或 7.3.1)版本wget http://archive.apache.org/dist/lucene/solr/8.5.1/solr-8.5.1.tgz 2. 阿帕奇纳奇 使用 Apache Nutch 版本 1.17(或 1.16)。 wget ...
本文是我学习Nutch的笔记,包括安装、配置、修改分词和关键词的代码;还有Luke和Lius的简单配置;
nutchnutch nutchnutch nutchnutch nutchnutch
Nutch 解析器parse部分代码笔记
Solr是一个基于Lucene...通过对 Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用 Solr 创建的索引。
NULL 博文链接:https://chenhua-1984.iteye.com/blog/380779
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
Linux下Nutch分布式配置和使用.pdf Lucene+Nutch源码.rar Lucene学习笔记.doc nutch_tutorial.pdf nutch二次开发总结.txt nutch入门.pdf nutch入门学习.pdf Nutch全文搜索学习笔记.doc Yahoo的Hadoop教程.doc [硕士...
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎