关于网络标注的主要方法概述网络毕业论(2)
2013-07-29 01:07
导读:1.3 语义标注 语义Web被称为Web3.0,是Web上数据的一种表示,它基于资源描述框架RDF来集成以XML为语法、统一资源标识符URI为命名机制的各种应用。语义Web是
1.3 语义标注
语义Web被称为Web3.0,是Web上数据的一种表示,它基于资源描述框架RDF来集成以XML为语法、统一资源标识符URI为命名机制的各种应用。语义Web是对当前Web的一种扩充,并不是一个全新的Web,其研究重点就是如何将信息表示为能够理解和处理的形式,即带有语义,使计算机和人能协同工作。
实现语义web目标的一个重要前提是利用本体词汇标注Web资源(如Web页、服务等)。本体在TimBemes-Lee提出的语义Web的七层体系结构中位于第四层,其目的是为捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并给出这些词汇(术语)和词汇间相互关系的明确定义,通过概念之间的关系来描述概念的语义。基于本体的语义标注利用由专家定义好的本体支持内容创建者在Web页中添加语义元数据,使其内容能被人和机器所理解,与大众标注相比较这是一种自顶向下的分类法。利用语义标注工具对现有的大量Web信息进行标注,将使得Web页的内容成为机器可识别的数据,从而构成语义Web的基础。
OgeMarques等认为语义网的成功在于能够在Web页面及其构成上作语义标记,且是以低的、采用一致性结构和本体的方式。他们着力于图像语义标注的智能方式,并提出三层结构。底层组织是从原图像内容中抽取的信息,这些信息映射中间层有语义的关键词,而这些关键词又联系着顶层的结构和本体。他利用机器学习算法作用户自助的、半自动的图像标注,可以加快相同领域本体图像的标注,并且改善标注图像以后的查询和检索。
在Web服务方面,下一代网络语义标注下的软件代理能比目前的软件代理更快地抽取和Web内容。Web服务中的语义标注能够促进服务发现,也能够促进服务组合转化为工作流。但目前仅有少量的服务标注被广泛应用,这就使得这种语义标注仍然受限。Khalid Belhajjame等基于操作参数之间的联系,在工作流中反复试验,推断关于操作参数的相关语义信息。虽在开放的上下文中只能推断参数语义的约束,但这些松散的标注在工作流、标注、本体中检测错误仍然有价值,在简化手工标注的任务中也很有价值。
(科教范文网http://fw.NSEAC.com编辑发布)
2 比较分析 专业人员创建元数据最主要的问题是内容扩展时的可扩性和可行性问题,尤其是在万维网中。并且专业的编目系绩工具对于没有专门
培训和知识的人来说太复杂;作者创建元数据也有问题,经常出现不恰当、不准确的标注,或者完全是虚假标注。
采用聚类分析方法对用关键词或自由词标引的检索系统中的词表建立词间关系,可以形成语义网提高系统检索效率,达到语义控制的目的。但词条高达数百万条使得待聚类的Web文档特征词条一权重矩阵的维数过高,增加了聚类算法的复杂度,因此空间维数较高或词与词间呈现较强的相关性时聚类质量和算法的性能会明显下降。目前有许多人从事该方面的研究,其中戚涌等人提出了基于潜在语义标注(LatentSemanticIndexing—LSI)的Web文档自动分类,即对Web文档采用最优聚类准则进行聚类,使得获得的特征向量具有较低的维数和更好的分类特征。
亚当·马斯认为大众标注将取代以往由专家控制的元数据编辑。Marieke Guy认为大众标注指的就是关键词、标签、元数据,是由使用资源的社区创建的自然,术语间不存在层次结构,没有特定的父子与兄弟关系,有反馈现象,是种类而非分类。
而在语义标注中人们将本体引入标注系统用于知识的组织。之所以将ontology引入网络信息资源组织领域,是因为ontology的研究着眼于更加宽泛的空间——即为人类认识活动构建顶层概念框架;ontology更加突出知识共享的功能,更着眼于给出人类事物认识的知识(或领域知识)总框架,以期待将Internet上的信息资源组织成一个语义网、知识网,以最大程度实现Internet信息资源的有效利用。
3 评价 (转载自http://zw.NSEaC.com科教作文网) 正如David welnberger所述,大众标注法不同于传统分类法,最重要的地方表现在传统分类法是自顶向下的、有层次的,而大众标注法是自底向上的,没有层次的。如果说传统的分类法所得的是棵分类树,那么大众标注法只是将由用户自创建的叶子堆到了一起。语义标注所依赖的本体也是一种自顶向下分类法,所以从这点来看,可以将语义标注与传统分类法归为一类,即都是使用受控词汇的分类法。但是语义标注不仅增加了可控性,更由于本体的介入获得了标注中使用语义的便捷性。
在大众标注法中可以考虑在用户添加标签后,利用人工智能和ontology的方法对标签进行分析定位,并向用户显示其所处的树状,甚至网状的知识体系结构,方便用户从整体上认识问题。这做到了大众标注自底向上与ontology自顶向下的结合。
4 结语
标注对开发者而言可以更好地组织信息,对用户而言可以更好地检索信息。传统网络,Web2.0中的标注都需要ontol-ogy的引入,需要语义标注的参与。目前在语义标注方面也已经有应用研究出现,但语义标注的发展需要ontology的深度介入。不过,作为底层支持的ontology自身研究进展缓慢,尤其是国内仍然研究多于应用,这给语义标注的发展造成瓶颈。我们期待语义标注更全面的发展,以促进语义网络更快速的进步,从而能更便捷地为人所用。