计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

非结构化信息管理和搜索的发展现状(1)(2)

2016-06-18 01:01
导读:采用“模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索,可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果

采用“模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索,可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果有“大海”这个词,这篇文章有可能和企鹅有关,但是“大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄露”等这些词,这篇文章是在谈论污染和企鹅的概率就会很高。虽然整篇文章里没有“企鹅”这个词,但是很多相关度较低的词出现在一起就会带来很高的相关度,并且缺少某个描述词对其产生的结果影响微乎其微。
如果说传统的“关键字”搜索方法为“search”(搜索)的话,autonomy采用的“模式识别”方法则应该称为“discover”(发现),因为它可以让用户找到一些事前他们不知道的信息[6]。Autonomy产品中提供的“聚类”功能正是“从搜索到发现”的最佳表现。
目前,Autonomy在国外比较成功的应用案例集中在媒体、政府机构、金融和信息产业等需要集中处理大量非结构化数据的领域。2003年3月,Autonomy进入中国市场,目前主要集中在电信和政府市场。Autonomy追求建立符合企业内部数据管理需求的平台,可将放在不同位置的不同类型的数据进行有效梳理。Autonomy曾经在美国安全局、美国国防部、美国航天局、英国警察署和美国陆军有过成功应用[7]。对于网络上出现的大量的有害信息,Autonomy可以做到事前发现,从而帮助政府机构采取及时地反应。例如,政府有关部门要打击网上非法买卖违禁药物,使用“摇头丸”、“兴奋剂”等关键词搜索出来的内容多数是关于药物危害、打击犯罪等方面的正面文章,而出现“兴奋”、“购买”、“单价”等关键词的文章,则与非法买卖违禁药物的相关度最高。通过这种非关键词搜索的“模式识别”搜索,政府监控部门可以有效打击日益猖獗的网上犯罪。所以政府机构和一些需要对信息进行监控的机构是该系统在中国的潜在市场。共2页: 1 [2] 下一页 论文出处(作者): 大学排名
世代累积型集体创作说献疑
情报学的科学发展观
上一篇:从孔子《论语》对话风采看文艺批评(1) 下一篇:没有了