论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
字符语音库是一个单字发音语音数据的集合,中段数据之间相互独立,不具有相关性。语音库包含了国标一、二级字库中的所有6763个汉字、10个阿拉伯数字和26个英文字符的标准普通话语音数据。每个汉字或字符发音时长为0.65s,采用8KHz抽样频率,使用了G.729A语音编码算法对上述的语音数据进行压缩,压缩后数据速率为8Kbps,相当于具有8:1的高压缩率。在汉字中,同音字占了相当大的比例,而在语音合成中对于同音字的处理是没有区别的,故近7000个汉字,我们只存储1123个不同的发音。经过同音字处理和采用G.729标准压缩字符语音数据,则最终建立的语音库文件大小为729 950字节,完全符合本PDA系统的数据存储要求;否则,语音库数据量太大,本PDA系统不能接受!
建立一个语音压缩数据库的具体步骤如下:
*将数字和常用汉字的标准发音独立地录入到数据文件中,作为基础数据。使用cooledit2000软件完成语音的录入。
*对于输入数据,按照每帧10ms(80个样点)的长度,将A_law语音通过简单换算变成16bit PCM数据,作为编码算法的输入。
*按照G.729A算法标准,对数据进行编码。
*将编码后的数据转换为二进制比特流,写入语音库文件中。压缩后数据速率为8Kbps,具有相当于8:1的高压缩率。
用C语言实现这一过程的程序流程如图1所示。
字符语音库的建立是在Windows平台及Visual C 编程环境下实现的,最终压缩处理后数据量的大小为729 950字节,每个字符语音数据的大小是650字节。
2.2 语音合成
当收到个人传呼信息时,语音合成程序首先从指定位置获取传呼信息数据,然后在语音库中查找每个汉字、阿拉伯数字或者英文字符的发音,重组一个数据文