非结构化信息管理和搜索的发展现状(1)
2016-06-18 01:01
导读:文化论文论文,非结构化信息管理和搜索的发展现状(1)应该怎么写,有什么格式要求,科教论文网提供的这篇文章是一个很好的范例:
1 关键词全文检索技术日显局促,亟待突破 世界范围的WWW正以
1 关键词全文检索技术日显局促,亟待突破 世界范围的WWW正以目前每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,在从Web或数据仓库中找到你所需要的内容却并非进展迅速,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月Nielsen Norman Group发布的2004 Web可用性调查结果显示,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%,经验丰富的用户这一数字可以达到50%[1]。 最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据Forrester Research的统计表明,非结构化信息的数量正在以每年200%的速度增长。一般员工大约要花费35%的时间寻找工作所需的非结构化信息[2]。由此可见,搜索引擎必须采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具,能同管理结构化信息一样,有效地管理我们的非结构化信息。 2 有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出 2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索
电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为“智能搜索”,这样的搜索引擎一直以来都是人们的梦想,或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术[3]。一旦它成功,桌面搜索的格局自然也会跟着发生翻天覆地的变化。
(转载自http://zw.NSEaC.com科教作文网) 如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。
2005年元旦刚过Blinkx进入中国市场,其中文测试版已经“竣工”。目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统[5]。
Autonomy公司是Blinkx公司的股东之一,Blinkx的核心技术也来自Autonomy,因为这种密切关系,Blinkx被认为是Autonomy的“样板工程”。此前,Autonomy一直像汽车发动机一样隐藏在幕后。Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声显赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且,Autonomy还是一个“历史悠久”的IT公司,同时在美国和英国上市,拥有超过1.47亿美元的现金。 3 Autonomy的模式识别技术,可以帮助用户发现一些事前不知道的相关信息 目前,人类研究的信息搜索技术有四个方向:关键字搜索,模式识别,语义分析,神经网络。除了关键词搜索比较成熟外,其他三项技术还处于待开发状态。模式识别的代表者就是Autonomy,语义分析和神经网络两个技术方向目前尚无压倒性的代表者,一年半载不会有突破性的研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。