RM 框架,使得 Nutch 可以访问 HBase、Accumulo、Cassandra、MySQL 等数据库,这样索引存储在数据库中就可应灵活地读取解析出来的索引库。Nutch2.x 的可定制性大大提高,但是 Nutch2.x 还是一个不成熟的搜索引擎,该版本的 Nutch 也是只提供源代码,需要在 Eclipse 中重新编译运行。 综合上述 Nutch 版本的功能介绍,本文采用可定制化更高,功能更加灵活的Nutch2.x 版本用于可信搜索引擎采集子系统的构建。
........
总结
本文主要研究工作可分为四大部分,分别