新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 搜索引擎, 信息分类与检索, 语义搜索, Lucene, Nutch, GRUB, Larbin, Weka
    [返回] 中文XML论坛 - 专业的XML技术讨论区计算机技术与应用『 Web挖掘技术 』 → 搜索引擎lucene超快速入门 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 5421 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 搜索引擎lucene超快速入门 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     DMman 帅哥哟,离线,有人找我吗?魔羯座1984-1-11
      
      
      威望:1
      头衔:数据挖掘青年
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:803
      积分:5806
      门派:W3CHINA.ORG
      注册:2007/4/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给DMman发送一个短消息 把DMman加入好友 查看DMman的个人资料 搜索DMman在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给DMman 访问DMman的主页 引用回复这个贴子 回复这个贴子 查看DMman的博客楼主
    发贴心情 搜索引擎lucene超快速入门

    最新版的lucene轻松支持中文,能够轻松排序

            下载最新的lucene-1.4-final-src.tar.gz,解开里面有docs,lib,src等目录,lib下有编译原码需要的junit-3.8.1.jar,我们可以使用ant1.6来build,也可以选择用eclipse来build。

            在src有demo包,查看docs目录的文档得知IndexFiles 和SearchFiles这两个类分别是用来build文本index,和进行search query的。

           IndexFiles需要传进的参数:被build index的目录的绝对路径(该目录内所有文件将会被遍历build index)。SearchFiles不需要传任何参数便可直接运行,运行时会提示您输入需要查询的东西Query:。build生成的index文件默认会在src的index目录下。

           Demo包里这两个只是很简单的demo,里面还有一个经典的demo,就是IndexHtml,该类比较复杂,感兴趣的朋友可以仔细研究。下面要讲到如何排序。

           在google里面搜索lucene,几乎都会找到车东同学的关于lucene中文处理的大作,而且也都有提到一个叫CJKAnalyzer(chinese,Japanese,Korea)的类,这个Analyzer就是用来分析像中文,日文,韩文这种两个字节的字符的,这个解决方案后来也被jakarta项目收录在lucene中,嘿嘿这样车东同学可出名了。

            很疑惑的是当前我们下载的原码里面根本找不见前面说的CJKAnalyzer这个东东,不管怎么样,带着疑惑到lucene官方网站上找找资料,查看changes.txt,太长,看看1.3~1.4版这一段时期的升级情况吧,仔细查看,居然发现1.4版已经默认就可以支持中文了(在changes.txt快速查找CTRL+F 输入chinese即可快速定位到该行说明)。再看看,发现可以随意排序?但是让自己去看Search#search的javadoc,看过javadoc,小小实验一把,果真如此!!还可以通过多个index来排序,所有排序功能只能应用到没有存储内容的index上。

    排序:需要 Sort sort  = new Sort("username", true);

    懒得写了,具体自己看Search的文档吧

          注:lucene应用起来相当简单方便,已经有人将它移植到.net上,通过阅读该文希望大家都能快速上手lucene,可以把自己收藏的文档build起来,然后方便查阅,也是很爽的

    来自:http://blog.csdn.net/summer419/archive/2004/07/30/56533.aspx


       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    数据挖掘青年 http://blogger.org.cn/blog/blog.asp?name=DMman
    纪录片之家 (很多纪录片下载)http://www.jlpzj.com/?fromuid=137653

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/5/27 21:01:00
     
     GoogleAdSense魔羯座1984-1-11
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给Google AdSense 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/8/10 20:15:26

    本主题贴数1,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    46.875ms