论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
陈鹤琴用的语料分如下六类:
儿童用书:127,293字;
报刊(以通俗报刊为主):153,344字;
妇女杂志:90,142字;
小学生课外作品:51,807字;
古今小说:71,267字;
杂类:60,625字。
书末附有“字数次数对照表”,这是按汉字在语料中出现的绝对频率排列的字表。
我国著名教育家陶行知先生为《语体文应用字汇》写了序言。序言中说:“他们(指“近代教育家”)对于一门一门的功课,甚至一篇文章,一个算题,一项运动,都要依据目标去问他们的效用。他们的主张是要所学的,即是所用的。......到了后来他们连学生学的字也要审查起来了。学生现在所学的字,个个字都是有用的字吗?自从这个问题发生就有好几位学者开始研究应用字汇。我国方面也有几位先生研究这个问题,其中以陈鹤琴先生的研究最有系统。他和他的助理九人先后费了二三年工夫,检查了几十万字的语体文,编成这本《语体文应用字汇》。这册报告未付印以前已经做了《平民千子课》用字的根据。将来小学课本用字当然也可以拿他来做一个很好的根据。虽然不能十分完备,但我想这本字汇对于成人及国民教育一定是有很大的贡献的。”(见陈鹤琴《语体文应用字汇》,商务印书馆,1928年)。
2、早期的机器可读语料库
从1979年以来,中国就开始进行机器可读语料库的建设,早期在中国建立的主要的机器可读语料库有:
汉语现代文学作品语料库(1979年),527万字,武汉大学。
现代汉语语料库(1983年),2000万字,北京航天航空大学。
中学语文教材语料库(1983年),106万8千字,北京师范大学。
现代汉语词频统计语料库(1983年),182万字,北京语言学院。
我们以北京语言学院的汉语词频统计语料库来说明早期语料库的情况。
1979年,北京语言学院(现在改名为“北京语言文化大学”)针对对外汉语教学的特点,把“现代汉语词汇统计研究”作为重点科研课题,开始进行规模较大的汉语单词的频率统计研究。
这项研究工作,采用人工与计算机相结合的方式,对179篇样文、182万字的语料进行了词语切分、词频统计和数据分析的工作,统计的总词汇量为 1,315,752词次,含不同单词31,159个,其中包括十年制语文课本(52万字,374,654词次)的字频和词频的定量分析,统计结果编成《现代汉语频率词典》出版。
他们选取的语料可以分为如下四类:
报刊政论:44万字,占语料总量的24.4%。
科技和科普文章:29万字,占语料总量的19.8%。
口语材料:20万字,占语料总量的11.1%。
文学作品:89万字,占语料总量的48.7%。
整个语料共182万字。这样容量的语料,在当时已经是比较大的语料库了。
根据数理统计的原理,所统计的语料的总体个数必须达到一定足够的数量,才能保证统计结果符合客观实际。《现代汉语频率词典》的编者认为,如果常用词的出现频率不低于百万分之一,也就是在一百万次的场合,常用词的出现机会至少应该有一次,就可以保证统计结果的客观性。《现代汉语频率词典》实际上统计了 182万个汉字的语料,因此,其抽样是合理的、经济的、适度的。
但是,国外在1971年进行英语词频统计时,所用语料量有5,088,721个词,包含不同单词86,741个,统计规模比《现代汉语频率词典》大得多。由于语料库语言学的发展,语料库的容量不断扩大,现在,数千万词甚至于数亿词的语料库已经不算少见。与当前语料库的容量比较起来,《现代汉语频率词典》所依据的语料规模是小了一些。不过,尽管这样,《现代汉语频率词典》在词频统计方面取得的成绩仍然是很大的。
这次词频统计得出了如下词表:
1、按字母音序排列的频率词表:共列出常用词16,593个,按音序排列,从中可以看出:
汉语中以Z、S、J、Y开头的词较多:以Z开头的词有1457个,占8.78%;以S开头的词有1327个,占7.99%;以J开头的词有1243个,占7.49%;以Y开头的词有1205个,占7.26%。
汉语中以E、O开头的词很少:以E开头的词只有64个,占0.38%;以O开头的词只有13个,占0.07%。
2、按频率递减的顺序排列的词表:在词表中,最常用词的使用频率相当高,前100个词占了语料总量的40%以上,前500个词占了语料总量的70% 以上,前2562个词占了语料总量的85%,词表共有不同单词31,159个,这些词占了语料总量的100%。从前100个词到前500个词,不同的单词数增加了400个,百分比就增加了30%,而从前2562个词到前31,159个词,不同单词数增加了30,597个,百分比材增加了15%。由此可见,高频词对于百分比的增加有着很大的作用,而低频词对于百分比的增加,其作用是微乎其微的,往往要大量的低频词,才能使百分比增加一点点。
3、按使用度递降顺序排列的词表:
使用度是1954年尤兰德(Juilland)和洛德西盖(Chang-Rodsiguez)在计算西班牙语的词汇频率时提出的一个新概念,他们并且也提出了计算使用度的数学公式,根据这个使用度公式计算出的使用度,可以综合地反映单词在出现频率和分布率两方面的情况。
他们根据使用度的计算公式,计算了单词的使用度,并给出了按使用度递降顺序排列的词表。这个词表又分为两个表:使用度较高的前8000词的词表,使用度较低的词语单位表。
在使用度较高的前8000词的词表中,使用度在20以上的词共4186个,其词次累计占了全部语料(314,404词次)的90.1%。这说明,《现代汉语频率词典》所统计的语料中,有十分之九是用这4186个词写成的,这些词可以成为“常用词”的候选对象。
在使用度较低的词语单位表中,收入了使用度为5及小于5的词22,446个,这些词一般也都是低频词。在这种情况下,如果有的词的使用度和频率相匹配,则说明这些词的分布还是比较均匀的,这些词可以作为“通用词”的候选对象。
4、按语体分类的高频词表,又可再分为4个表:
a.报刊政论语体的前4000词的词表:本表共统计34种语料,29万词次(44万字),有不同词条数12,107个。前4000个词累计频率94.77%。其中一些政治词语,如“唯心、党派”等,在本表中出现频率都比较高,反映了政论语体的特点。
b.科普语体的前4000词的词表:本表共统计21种语料,20万词次(29万字),有不同词条12,364个。前4000个词累计频率92.27%。其中一些科技用语,如“纤维、合成”等,在本表中出现频率都比较高,反映了科普语体的特点。