计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

浅谈网络传播中的信息利用新技术毕业论文(2)

2015-12-29 01:12
导读:二 XML HTML是目前因特网上广泛应用的标记语言。其优点是非常简单;固定的样式;简易且标准的连接;支持表格;编程简单。但是也存在难以扩展;交互性

二 XML

   HTML是目前因特网上广泛应用的标记语言。其优点是非常简单;固定的样式;简易且标准的连接;支持表格;编程简单。但是也存在难以扩展;交互性差;语义性差;单向的超链接:链路丢失后不能自动纠正;动态内容需要下载的部件太多;致使搜索引擎返回的结果过多;缺乏对双字节或多国文字的支持等不足。尤其是目前基于HTML的搜索引擎存在着返回结果太多,检索精度差的弊端。而XML可以有效地克服这些不足。

   XML句法可标注出文档的结构和目的,这样就可缩小检索范围,提高提高检索精度。例如,用户想购买二手车,就可将查询限制为用于描述“汽车销售”的标识中。

  XM能帮助人们辨别模糊词义。自然语言中的词经常多义、多指, 网络信息检索系统不能分辨哪一种意思是查询中的,哪一种是文档中的。XML有助于解决词义模糊问题,提高检索的准确性。如,用户使用“brown”作检索词,他有可能想查找由DonaldBrown所写的论文,由Brown University出版的论文,或有关brown bear的论文。 如果用户明确想查询[author]Brown[/author],[university]Brown[/university],还是[subject]brown[/subject],就会提高检索准确性。

  XML使得能用结构相邻关系来替代物理相邻关系进行检索结果相关性排序。XML可允许利用非文本数据,如数值数据、地理位置、温度值等进行检索。

三 智能搜索引擎技术

   目前,计算机信息检索功能已经从基本的布尔检索、截词检索、邻近检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、相关信息反馈检索、模糊检索和概念检索。网络信息检索核心工具是搜索引擎。

   搜索引擎的目的是帮助新闻工作者和受众寻找信息资源。在因特网环境下,其典型实现是基于关键词匹配的信息检索机制。搜索引擎主要由四部分组成:搜索器,索引器,检索器,用户接口。搜索器的功能是在互联网中发现和搜索信息。它要尽可能快、尽可能多地搜集各种类型的信息,同时还要定期更新已有信息,避免死连接和无效连接。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,建立起自己的物理索引数据库。一个搜索引擎的有效性在很大程度取决于索引的质量。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果,提供用户相关性反馈机制。

    搜索引擎的工作原理搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。互联网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见的互联网搜索引擎系统。当然,一个完整的搜索引擎系统还需要有一个搜索结果的页面生成系统,也就是要把检索结果高效地组装成互联网页面。当系统的访问量(PAGEVIEW)变大时,页面生成系统往往会成为整个系统的瓶颈。与传统的信息检索理论研究不同,搜索引擎的用户看重的是系统的稳定性、速度、易用性和返回的信息量及相关度。

   据专家评测,目前主要的搜索引擎返回的相关结果的比率不足45%,其原因是现有的Internet搜索引擎拥有极少量的知识,并且是面向最一般的用户模型。不划分知识领域,不对用户建立任何描述以及使用关键词匹配的交互方式,都限制了搜索引擎的使用效率。由此提出了智能搜索引擎的概念。

  智能搜索引擎应具有的特点新一代中文智能搜索引擎是一个基于汉语语法、词的上下文和语义等中文信息处理技术,自动收集、识别Internet网上的WWW和News信息,智能化地提取摘要和关键词、建立索引、提供查询和对不良信息的监控、报警功能和网络信息自动发现和查询系统。它以加权的启发式搜索算法控制信息资源的搜集,采用了一种加权的启发式搜索算法,系统根据用户配置的领域导向词和资源服务器所在地域信息,以启发式函数计算每个URL的权值,并选择权值高的URL优先访问。

   智能搜索引擎可以根据互联网本身的链接结构对相关网站用自动方法进行分类,再加上结构严谨,萃取精华的开放式信息目录,为每一个查询迅速提供准确的结果。

  智能搜索引擎可以预期用户的需求,并可有效地抑制关键词的多义性。如Eastman、Kodak都在尝试在它们的Intranet中使用更加智能化、知识化和专业化的搜索引擎。目前比较成功的智能搜索引擎有FSA,Eloise,InFind,CompassWare和FAQFinder。

上一篇:素质教育、建构主义与网络教学 下一篇:没有了