GUTTS可機動調整參數、 音色之國語文句翻語音合成 (Mandarin text-to-speech synthesis allowing dynamic setting of parameters and timbres) |
各程式 版本 之功能 |
GUTTS簡介 (Linux平台) 下載程式 (9.7MB) Ver. 2.0 |
GUTTS簡介 (MS Windows) DownLoad(9.7MB) Ver. 2.0 |
---|
*發明專利,, *技術移轉 | |
"可作動態音色變換之 國語 語音 合成軟體", | |
MS
Windows平台(platform),提供download的是ClipBoard界面(interface)之版本(version),
|
|
提供下載的程式,只附男性音源,不含英文合成、及某些功能(如加速處理、多 份process共享音源 和詞典)。有興趣者歡迎到實驗室來測試。 |
|
|
|
|
|
|
|
|
|
|
音調調整: | Hz | Hz | tone height adjusting |
---|---|---|---|
聲道長調整: | % | % | adjust vocal- track length |
速度調整: | 毫秒/音節 | ms/syll. | (ms/syll.) speaking rate |
欲合成之 中文語句 (Chinese sentence to be synthesized): |
文句需以 大五碼編碼 (input text in Big-5 code) |
聽預先合成之文章 及比較各程式版本 |
|
|
兩男聲 |
|
|
@>d330 | 音長參考值設為330ms |
|
|
@>v135 | 聲道長縮短為100/135 |
|
(1) | 信號波形之合成,使用 發明專利上的方法,能夠由一個原始音色 轉換出豐富的音色; 大幅增進音調高低,聲道長,音長(duration)三個因素的獨立控制之彈性, 這是本程式的特點. |
---|---|
(2) | 以音節波形串接的方式來合成語句,原始錄進來的第一聲408個音節, 是由一個成年男性以各音節分開唸的方式來錄音,切割後共佔用記憶體 2.23 MegaBytes, 取樣率11,025Hz, 位元數16bits/sample. |
(3) | 由於韻律參數(基週軌跡,音長,音量)值,是以rule-based方式來設定, 且規則不夠完整,如每個聲調的基週軌跡只有兩個樣式,所以, 合成出的語音信號自然度不好. |
程式版本V1.2: (1999/05)
(1) | 以VQ/HMM模型來掌握一個中文句子的 基週軌跡變化(句調),每個聲調使用了八個由向量量化得到的軌跡樣式, 因此使得自然度得到大幅 的改進. |
---|---|
(2) | 不過,其它的韻律參數尚未作進一步處理. 而破音字、呼吸群之處理也 仍待改進,所以不必訝異有時會唸錯音. |
程式版本V1.4: (1999/06)
(1) | 自然度不夠的另一個原因是,分開地唸各個音節之錄音方式,因此 在這個版本中,請一個成年男性重新錄製各音節之信號波形,讓發音者 每次唸約五個字的虛擬中文句子(無特殊語意之音節組合),再從其中將 各音節切割出來. 取樣率仍是11,025Hz, 16bits/sample, 信號波形佔用 記憶體2.70 MegaBytes. |
---|---|
(2) | 使用新的音節波形後,自然度又得到了一些改進. 不過,由於未謹選發音者,事後才發現他的鼻音太重,使得合成出的語音都有 很強的鼻音; 另外,錄音時麥克風太靠近嘴唇, 也使得合成出的語音 有很強的氣音參雜其中. |
(3) | 基週軌跡之外,其它的韻律參數仍然使用rule-based的方法來設定. |
程式版本V1.5: (1999/09)
(1) | 為了提高信號的清晰度,將取樣率提升至 22,050Hz,重新錄製各音節的信號波形, 信號波形佔用記憶體6.3 MegaBytes。 |
---|
程式版本V1.6: (2000/02)
(1) | 增加短 duration 之處理,以配合播報新聞之速度。 |
---|
程式版本V1.7: (2000/06)
(1) | 將 二次多項式內差 改成 band-limited 內差,來作 signal-waveform resampling. |
---|
程式版本V1.8: (2000/07)
(1) | 增加處理數種阿拉伯數字格式之功能。如 Tel:27376684, NT$1,002,356. 2000/06/26, 9:23AM, 5:45PM, 2/3, 2:3, 23.14, 2314. |
---|---|
(2) | 增加 @>Bxxx 之 Pitch Bending 命令,用以調整音調的起伏度,如 @>B150 表示 音調的起伏度改為內定值的 150%,可使合成語音顯得較有精神,而不那麼平淡。 |
(3) | 完成 Linux 平台 英文text-to-speech之整合(不是唸字母),使用了 festival,及 IBM ViaVoice(2001/01/03) 英文TTS軟體。 |
(4) | MS-Windows 平台 英文text-to-speech 之整合已於 2000/06/26 完成, 合成之 英文語音品質 比 Linux 平台上的好許多。 |
程式版本V1.8.4: (2001/05)
(1) | 更正幾個發生小click之bug; Unvoiced 部分改用 band-limited 內差。 音質更為清晰。 |
---|---|
(2) | 加入人聲歌唱聲合成之功能。由於仍屬於初步研究階段,在提供下載的套件中, 未含相關的使用說明。 |
程式版本V1.9: (2002/03)
(1) | 關於合成語音之 信號清晰度 退化的問題,研究出一種避免清晰度退化的 合成處理方法。 |
---|
動態選取合成單元: (2003/08)
(1) | 計算合成單元串接之頻譜差異的距離,再依據路徑行進之限制規則, 使用動態規劃演算法,以整句考量的方式,挑選出一個最佳的合成單元序列, 而使得聲學層次的流暢度獲得明顯的改進。(韻律層次的流暢度原先已有一定的表現) |
---|