计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

面向主题的搜索引擎的设计与实现网络毕(5)

2013-09-03 01:04
导读:性阀值也不相同。在该系统中各文档类向量的初始相关性阀值TI是按如下步骤确定的: 对文档类 ,任取N个样本{Ai} ,2N个样本{Bi} (其中 在X的相邻类中取,
性阀值也不相同。在该系统中各文档类向量的初始相关性阀值TI是按如下步骤确定的:

对文档类 ,任取N个样本{Ai} ,2N个样本{Bi} (其中 在X的相邻类中取,i=1…N,j=1┅2N);

(1) 根据公式(4.1)计算出Sim(X,Ai)和Sim(X,Bj);

(2) 分别做出的文档分布曲线,如图4.2所示(其中横坐标为相关度,纵坐标为文档数n);

   


  

图 4.1特征项的模值                        图 4.2文档分布曲线

(3) 如两曲线相交,取交点处T为初始相关性阀值;如不相交,则取曲线处为初始相关性阀值。

  按上述步骤所得到的阀值只是一个经验性初值,还需根据测试集的测试结果反馈,由用户手动或自动对阀值进行修正,以达到最佳效果。

  4.5 分词

  中文与英文不同,句子中各词语间没有间隔符(空格),因此在进行词频和处理用户查询时先要对文档进行词条切分处理。分词有很多种方法,基本上分为两类,一类是基于字符串匹配的分词方法,主要有正向最大匹配分词法、逆向最大匹配分词法、最少切分分词法等方法;另一类是基于统计的分词方法;经过统计结果表明,单纯正向最大匹配法明显差于单纯逆向最大匹配法,单纯的基于统计的分词法又优于单纯的逆向最大匹配法,从实现难度和使用角度方面考虑,因此采用了基于词典的逆向正向匹配的分词方法。根据以下表格1可以更容易地说明逆向最大匹配分词法分词过程。

  现有的分词系统一般都较为复杂和庞大,分词速度慢,且在处理专业技术文档时分词准确度较低,不适合在实时性要求高,文档内容专业的情况下使用。本系统的分类对象是特定领域的技术文档,技术文档的特征项一般都是专业词汇,所以在进行特征提取时无需对普通词汇进行切分和词频统计。因此为了提高系统运行效率和技术词条切分的准确度,我们舍弃了大型的通用切分词表,大型词典维护难度较大,且没有必要用于主题搜索引擎,仅建立了较为详尽的专业分词词典,用于中文文档的词条切分和词频统计。在切分词条时,先根据标点进行粗切分,然后再分别使用正向或逆向最大。如果切分结果相同,则认为切分正确;如果不相同,则在不同之处取包含两部分的最小长度串,作为词典候补词条。专业词典只包含在本领域中可能出现的专业词条而不包含大量的普通词汇,因而能在保证提取准确性的前提下大幅度提高系统运行效率。

  4.6 词典结构与词频统计

  VSM是建立在所有表示词条都相互正交基础上的,因此特征项词条必须保持语义上的相互独立。自然具有丰富的表达形式,例如词汇间就存在同义,近义,蕴含,关联等多种关系,为解决特征词条相互独立与自然语言多样性之间的矛盾,我们建立了三个词典:主词典,同义词词典和蕴含词词典,用于进行词条切分与词频统计,其中主词典中的词条要求在含义上保持尽可能的相互独立,其结构如图4.3所示。

表1 逆向最大匹配分词法分词过程

 进行词频统计和特征提取时,以主词典中的词条为表示词条进行处理,其中词条频数统计公式为:

(科教论文网 lw.nSeAc.com编辑发布)
式中:TMf为主词典词条词频数;TTf为同义词词条词频数;TIf为蕴含词词条词频数;k为扩展系数,取值区间为[0,1],用户可以指定;即表示词条在文档中的出现频数是由主词条、同义词词条、蕴含词词条3部分的词频数加权累计得到。例如,如图4.3所示,统计表示词条“电脑”的词频时,其频数应为:

Tf(电脑)=TMf(电脑)+TTf()+TTf(Computer)+e[TIf(PC)+TIf(便携机)]  (4.5)

  设置同义词词典和蕴含词词典既可以解决自然语言多样性的问题,又可以解决同一事物因地域不同而产生的称谓差异问题,并且还可以起到英文文档处理中的Stemming功能(将单词的其他形式作为同义词处理)。在实际应用中还可以根据需要建立相应的近义词词典和关联词词典等进一步提高分类的准确度。

  4.7 数据存储结构

  搜索引擎检索的文档数量巨大,所得到的数据也非常庞大,所以一个好的搜索引擎需要寻找一种好的数据存储结构,当需要对数据进行操作是能快速地得到结果;存储结构主要有顺序存储、链接存储、索引存储和散列存储方法,本课题中对关键词采用倒排索引存储方法,其具体实现如表2所示。

  4.8 网络蜘蛛

  Internet是建立在很多相关协议基础上的,而更复杂的协议又建立在系统层协议之上。Web就是建立
在H

上一篇:公交查询系统网络毕业论文网 下一篇:没有了