语料库与基础英语教育(1)(2)
2017-08-06 02:41
导读:world news 15 627 1 16 367 total 97 626 093 4054 101 957 142 语料库分为生语料库(raw corpus)和标注语料库语料库语言学中“标注”、“赋码”、“附码”、“标识”、
world news15 627116 367
total97 626 0934054101 957 142
语料库分为生语料库(raw corpus)和标注语料库语料库语言学中“标注”、“赋码”、“附码”、“标识”、“标记”等均指对语料库内容标以识别信息,以便专用程序对其进行统计查询等。相应的英语术语(动词)有annotate, tag, parse, encode, markup, bracket等。本文统一使用“标注”这一说法。(annotated corpus),前者只是电子库(electronic archive),而利用标注语料库,不仅可以研究词语搭配,还可以研究词类搭配。标注就是文本标记词性码、语法码、语义码等,是语料库建设的重要阶段,是对文本增加语言信息的过程(Hunston 2002: 79-80)。例如BNC [DCK.104]即文档DCK中的104行。中的一个句子: