新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 搜索引擎, 信息分类与检索, 语义搜索, Lucene, Nutch, GRUB, Larbin, Weka
    [返回] 中文XML论坛 - 专业的XML技术讨论区计算机技术与应用『 Web挖掘技术 』 → Web Mining:第二代网络信息处理技术[转帖] 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 6524 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: Web Mining:第二代网络信息处理技术[转帖] 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     DMman 帅哥哟,离线,有人找我吗?魔羯座1984-1-11
      
      
      威望:1
      头衔:数据挖掘青年
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:803
      积分:5806
      门派:W3CHINA.ORG
      注册:2007/4/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给DMman发送一个短消息 把DMman加入好友 查看DMman的个人资料 搜索DMman在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给DMman 访问DMman的主页 引用回复这个贴子 回复这个贴子 查看DMman的博客楼主
    发贴心情 Web Mining:第二代网络信息处理技术[转帖]

    一、 概述
        随着Internet的飞速发展,网络信息过载(Information Overload
    )问题日益突出,以Yahoo为代表的网络信息检索系统出现并迅速发展
    。网络信息检索系统一般由Robot、索引数据库和查询引擎三部分组
    成。信息搜集器Robot对WWW进行遍历,尽可能多地发现新的信息;采用
    全文检索技术对搜集到的信息建立索引,并存入索引数据库中,能够极
    大地提高信息检索的速度;查询引擎接收并分析用户的查询,根据较为
    简单的匹配策略(简单布尔模型或模糊布尔模型)遍历索引数据库,最
    后将结果地址集提交给用户。由于受人工智能研究水平的限制,目前R
    obot还无法实现信息的准确分类,多数搜索站点都是通过人工方式对
    信息进行二次处理,信息整理的速度远远落后于网络信息的膨胀。
        为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技
    术成为一个新的研究热点。网络信息挖掘是指在已知数据样本的基础
    上,通过归纳学习、机器学习、统计分析等方法得到数据对象间的内
    在特性,据此采用信息过滤技术在网络中提取用户感兴趣的信息,或者
    更高层次的知识和规律。
        网络信息挖掘与网络信息检索所采用的技术有很多相似之处,但
    又有本质的不同。作为第二代网络信息处理技术,网络信息挖掘技术
    沿用了Robot、全文检索等网络信息检索中的优秀成果,同时综合运用
    人工智能、模式识别、神经网络领域的各种技术。网络信息挖掘系统
    与网络信息检索的最大不同在于它能够获取用户个性化的信息需求,
    根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻。
        经过两年多的理论研究和技术积累,北京数码空间信息技术有限
    公司的核心技术梯队已经在国内外权威期刊和国际学术会议上发表相
    关学术论文近30篇,完成了网络信息挖掘系统内核的开发工作,系统在
    信息获取速度和信息匹配准确性上达到了国际领先水平,微软中国研
    究院院长李开复博士曾非常惊奇于数码空间的研究成果——"an inte
    restinga nd effective project"。
    二、 网络信息挖掘的步骤
        (1) 确立目标样本:由用户选择目标样本,作为提取用户特征信息
    的依据。
        (2)建立统计词典:建立用于特征提取和词频统计的主词典和同义
    词词典、蕴含词词典。
        (3)特征信息提取:根据目标样本的词频分布,从统计词典中提取
    挖掘目标的特征向量,并计算出相应的权值。
        (4) 调整特征矢量:根据测试样本的反馈,调整特征项权值和匹配
    阈值。
        (5)网络信息获取:先利用搜索引擎站点选择待采集站点,再利用R
    obot程序采集静态Web页面,最后获取被访问站点网络数据库中的动态
    信息。
        (6)信息特征匹配:提取源信息的特征向量,并与目标样本的特征
    向量进行匹配,将符合阈值条件的信息提交给用户。
        三、 网络信息挖掘中的关键技术
    1. 目标样本的特征提取
        系统采用向量空间模型(VSM:Vector Space Model),用特征词条
    及其权值代表目标信息,在进行信息匹配时,使用这些特征项评价未知
    文本与目标样本的相关程度。特征词条及其权值的选取被称为目标样
    本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。
    词条在不同内容的文档中所呈现出的频率分布是不同的,因此可以根
    据词条的频率特性进行特征提取和权重评价。
        一个有效的特征项集应该既能体现目标内容,也能将目标同其他
    文档相区分。因此, 词条权重正比于词条的文档内频数,反比于训练
    文本内出现该词条的文档频数。
        与普通的文本文件相比,HTML文档中有明显的标识符,结构信息更
    加明显,对象的属性更为丰富。系统在计算特征词条权值时,充分考虑
    HTML文档的特点,对于标题和特征信息较多的文本赋予较高权重。为
    了提高运行效率,系统对特征向量进行降维处理,仅保留权值较高的词
    条作为文档的特征项,从而形成维数较低的目标特征向量。
    2. 中文分词处理
        西文的句子以空格作为固定的分隔符,而中文中没有,这给中文信
    息处理带来很大障碍。例如机器无法分辨"白天鹅"到底是"白天"和"
    鹅",还是"白的天鹅",因此在进行词频统计等处理前先要进行词条切
    分处理。比较简单有效的分词方法是基于大型词库的机器分词法。通
    用词库包含了大量不会成为特征项的常用词汇,为了提高系统运行效
    率,系统根据挖掘目标建立专业的分词表,这样可以在保证特征提取准
    确性的前提下,显著提高系统的运行效率。
        进行词条切分时,先根据标点进行粗切分,然后再分别使用正向和
    逆向最大匹配法进行细切分。如果切分结果相同,则认为切分正确;否
    则在不同之处取包含两部分的最小长度串,作为词库候补词条。在进
    行词频统计时,考虑到自然语言的多样性,系统建立并使用相应的同义
    词库、蕴含词库等辅助词库,以提高信息匹配的准确度。
      3. 获取网络中的动态信息
        Robot是传统搜索引擎的重要组成部分,它依照HTTP协议读取Web
    页面,并根据HTML文档中的超链在WWW上进行自动漫游,Robot也被称为
    Spider、Worm或Crawler。但Robot只能获取Web上的静态页面,而有价
    值的信息往往存放在网络数据库中,人们无法通过搜索引擎获取这些
    数据,只能登录专业信息网站,利用网站提供的查询接口提交查询请求
    ,获取并浏览系统生成的动态页面。网络信息挖掘系统则通过网站提
    供的查询接口对网络数据库中的信息进行遍历,并根据专业知识库对
    遍历的结果进行自动的分析整理,最后导入本地的信息库。
        4. 信息的分类
        为了更有效地对信息建立索引,需要对信息进行分类处理,系统采
    用Naive Bayes法实现此功能。
        网络信息挖掘系统根据用户所提供的目标样本和系统设置,提取
    目标的特征信息,根据目标特征自动在WWW上搜集资料,然后对所搜集
    到的资料进行分类整理,并导入资料库。系统能够自动运行,不断更新
    用户的资料库,提供个性化的主动信息服务。

       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    数据挖掘青年 http://blogger.org.cn/blog/blog.asp?name=DMman
    纪录片之家 (很多纪录片下载)http://www.jlpzj.com/?fromuid=137653

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/6/7 11:11:00
     
     GoogleAdSense魔羯座1984-1-11
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给Google AdSense 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/8/10 22:21:11

    本主题贴数1,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    54.688ms