GUTTS可機動調整參數、
音色之國語文句翻語音合成
(Mandarin text-to-speech synthesis
allowing dynamic setting of
parameters and timbres)
各程式
版本
之功能
GUTTS簡介
(Linux平台)
下載程式 (9.7MB)
Ver. 2.0
GUTTS簡介
(MS Windows)
DownLoad(9.7MB)
Ver. 2.0
訪客記數(after 1999/11/20): 62339

請參觀新版(new ver.)程式(program): (a)on Linux; (b)on Win XP


*發明專利,, *技術移轉

"可作動態音色變換之 國語 語音 合成軟體",

台灣科大, Tel: (02)27376684, E-mail: guhy@mail.ntust.edu.tw

!!已完成(with) 英文(English) text-to-speech 之整合(integration) !!

英語合成可用(choose)Festival、 或(or) IBM TTS

MS Windows平台(platform),提供download的是ClipBoard界面(interface)之版本(version),
另有(other versions) file-in/file-out界面, or DLL Library 函數界面之版本。

提供下載的程式,只附男性音源,不含英文合成、及某些功能(如加速處理、多 份process共享音源 和詞典)。有興趣者歡迎到實驗室來測試。


其它提供線上合成之站台 動態選取合成單元
GUTTS系統(中文部分,Chinese), (英文部分,English):Festival or IBM TTS

測試(test)
範例(examp)
:
tst100.txt 352
KB
tst100.mp3
tst101.txt 243
KB
tst101.mp3
tst102.txt 319
KB
tst102.mp3
tst103.txt 223
KB
tst103.mp3
song1.txt 204
KB
song1.mp3

樣本
:
bits/
smpl

取樣
:
Hz
(SpRt)
格式
Type
:
音源
(Src)
:

音調調整: Hz Hz tone height
adjusting
聲道長調整: % % adjust vocal-
track length
速度調整: 毫秒/音節 ms/syll. (ms/syll.)
speaking rate
欲合成之
中文語句

(Chinese sentence
to be synthesized):
文句需以
大五碼編碼
(input text in
Big-5 code)

聽預先合成之文章
及比較各程式版本


兩男聲 兩女聲
除了由按鈕來設定外,句子中也可夾雜控制訊息


@>d330 音長參考值設為330ms


@>v135 聲道長縮短為100/135
信號波形檔base.dic 建立之程式mergfile.c
週期標記檔basepit.dic 建立之程式mergepit.c
交談式基週位置偵測程式 (Linux平台) 簡介, 下載程式
即時基週偵測程式(Linux 平台) 簡介, 下載程式


GUTTS各程式版本之功能

程式版本V1.0: (1996/12)
(1) 信號波形之合成,使用 發明專利上的方法,能夠由一個原始音色 轉換出豐富的音色; 大幅增進音調高低,聲道長,音長(duration)三個因素的獨立控制之彈性, 這是本程式的特點.
(2) 以音節波形串接的方式來合成語句,原始錄進來的第一聲408個音節, 是由一個成年男性以各音節分開唸的方式來錄音,切割後共佔用記憶體 2.23 MegaBytes, 取樣率11,025Hz, 位元數16bits/sample.
(3) 由於韻律參數(基週軌跡,音長,音量)值,是以rule-based方式來設定, 且規則不夠完整,如每個聲調的基週軌跡只有兩個樣式,所以, 合成出的語音信號自然度不好.

程式版本V1.2: (1999/05)

(1) VQ/HMM模型來掌握一個中文句子的 基週軌跡變化(句調),每個聲調使用了八個由向量量化得到的軌跡樣式, 因此使得自然度得到大幅 的改進.
(2) 不過,其它的韻律參數尚未作進一步處理. 而破音字、呼吸群之處理也 仍待改進,所以不必訝異有時會唸錯音.

程式版本V1.4: (1999/06)

(1) 自然度不夠的另一個原因是,分開地唸各個音節之錄音方式,因此 在這個版本中,請一個成年男性重新錄製各音節之信號波形,讓發音者 每次唸約五個字的虛擬中文句子(無特殊語意之音節組合),再從其中將 各音節切割出來. 取樣率仍是11,025Hz, 16bits/sample, 信號波形佔用 記憶體2.70 MegaBytes.
(2) 使用新的音節波形後,自然度又得到了一些改進. 不過,由於未謹選發音者,事後才發現他的鼻音太重,使得合成出的語音都有 很強的鼻音; 另外,錄音時麥克風太靠近嘴唇, 也使得合成出的語音 有很強的氣音參雜其中.
(3) 基週軌跡之外,其它的韻律參數仍然使用rule-based的方法來設定.

程式版本V1.5: (1999/09)

(1) 為了提高信號的清晰度,將取樣率提升至 22,050Hz,重新錄製各音節的信號波形, 信號波形佔用記憶體6.3 MegaBytes。

程式版本V1.6: (2000/02)

(1) 增加短 duration 之處理,以配合播報新聞之速度。

程式版本V1.7: (2000/06)

(1) 將 二次多項式內差 改成 band-limited 內差,來作 signal-waveform resampling.

程式版本V1.8: (2000/07)

(1) 增加處理數種阿拉伯數字格式之功能。如 Tel:27376684, NT$1,002,356.
2000/06/26, 9:23AM, 5:45PM, 2/3, 2:3, 23.14, 2314.
(2) 增加 @>Bxxx 之 Pitch Bending 命令,用以調整音調的起伏度,如 @>B150 表示 音調的起伏度改為內定值的 150%,可使合成語音顯得較有精神,而不那麼平淡。
(3) 完成 Linux 平台 英文text-to-speech之整合(不是唸字母),使用了 festival,及 IBM ViaVoice(2001/01/03) 英文TTS軟體。
(4) MS-Windows 平台 英文text-to-speech 之整合已於 2000/06/26 完成, 合成之 英文語音品質 比 Linux 平台上的好許多。

程式版本V1.8.4: (2001/05)

(1) 更正幾個發生小click之bug; Unvoiced 部分改用 band-limited 內差。 音質更為清晰。
(2) 加入人聲歌唱聲合成之功能。由於仍屬於初步研究階段,在提供下載的套件中, 未含相關的使用說明。

程式版本V1.9: (2002/03)

(1) 關於合成語音之 信號清晰度 退化的問題,研究出一種避免清晰度退化的 合成處理方法。

動態選取合成單元: (2003/08)

(1) 計算合成單元串接之頻譜差異的距離,再依據路徑行進之限制規則, 使用動態規劃演算法,以整句考量的方式,挑選出一個最佳的合成單元序列, 而使得聲學層次的流暢度獲得明顯的改進。(韻律層次的流暢度原先已有一定的表現)


其它提供線上合成之站台

台灣大學資工系自然語言處理實驗室

台灣科大 客家語(Hakka)語音信號合成

貝爾實驗室中文語音合成系統