GUTTS可機動調整參數、音色之國語文句翻語音合成 (Mandarin text-to-speech synthesis allowing dynamic setting of parameters and timbres)	各程式版本之功能	GUTTS簡介 (Linux平台) 下載程式 (9.7MB) Ver. 2.0	GUTTS簡介 (MS Windows) DownLoad(9.7MB) Ver. 2.0

訪客記數(after 1999/11/20): 62339

請參觀新版(new ver.)程式(program): (a)on Linux; (b)on Win XP

	發明專利,, 技術移轉
	"可作動態音色變換之國語語音合成軟體"，
	台灣科大, Tel: (02)27376684, E-mail: guhy@mail.ntust.edu.tw
	!!已完成(with) 英文(English) text-to-speech 之整合(integration) !!
	英語合成可用(choose)Festival、或(or) IBM TTS，
	MS Windows平台(platform)，提供download的是ClipBoard界面(interface)之版本(version)，另有(other versions) file-in/file-out界面， or DLL Library 函數界面之版本。
	提供下載的程式，只附男性音源，不含英文合成、及某些功能(如加速處理、多份process共享音源和詞典)。有興趣者歡迎到實驗室來測試。

測試(test) 範例(examp):

tst100.txt	352 KB
tst100.mp3

tst101.txt	243 KB
tst101.mp3

tst102.txt	319 KB
tst102.mp3

tst103.txt	223 KB
tst103.mp3

song1.txt	204 KB
song1.mp3

樣本寬:		bits/ smpl

取樣率:		Hz (SpRt)

格式 Type:

音源 (Src):

音調調整:	Hz	Hz	tone height adjusting
聲道長調整:	%	%	adjust vocal- track length
速度調整:	毫秒/音節	ms/syll.	(ms/syll.) speaking rate
欲合成之中文語句 (Chinese sentence to be synthesized):	<!--#exec cmd="/www/cgi-bin/demo_sna.sh"-->' @>t110@>v105 @>d330	<!--#exec cmd="/www/cgi-bin/demo_snb.sh"-->	文句需以大五碼編碼 (input text in Big-5 code)

除了由按鈕來設定外,句子中也可夾雜控制訊息

		@>d330	音長參考值設為330ms
		@>v135	聲道長縮短為100/135

GUTTS各程式版本之功能

程式版本V1.0: (1996/12)

(1)	信號波形之合成,使用發明專利上的方法,能夠由一個原始音色轉換出豐富的音色; 大幅增進音調高低,聲道長,音長(duration)三個因素的獨立控制之彈性, 這是本程式的特點.
(2)	以音節波形串接的方式來合成語句,原始錄進來的第一聲408個音節, 是由一個成年男性以各音節分開唸的方式來錄音,切割後共佔用記憶體 2.23 MegaBytes, 取樣率11,025Hz, 位元數16bits/sample.
(3)	由於韻律參數(基週軌跡,音長,音量)值,是以rule-based方式來設定, 且規則不夠完整,如每個聲調的基週軌跡只有兩個樣式,所以，合成出的語音信號自然度不好.

程式版本V1.2: (1999/05)

(1)	以VQ/HMM模型來掌握一個中文句子的基週軌跡變化(句調),每個聲調使用了八個由向量量化得到的軌跡樣式, 因此使得自然度得到大幅的改進.
(2)	不過,其它的韻律參數尚未作進一步處理. 而破音字、呼吸群之處理也仍待改進,所以不必訝異有時會唸錯音.

程式版本V1.4: (1999/06)

(1)	自然度不夠的另一個原因是,分開地唸各個音節之錄音方式,因此在這個版本中,請一個成年男性重新錄製各音節之信號波形,讓發音者每次唸約五個字的虛擬中文句子(無特殊語意之音節組合),再從其中將各音節切割出來. 取樣率仍是11,025Hz, 16bits/sample, 信號波形佔用記憶體2.70 MegaBytes.
(2)	使用新的音節波形後,自然度又得到了一些改進. 不過,由於未謹選發音者,事後才發現他的鼻音太重,使得合成出的語音都有很強的鼻音; 另外,錄音時麥克風太靠近嘴唇, 也使得合成出的語音有很強的氣音參雜其中.
(3)	基週軌跡之外,其它的韻律參數仍然使用rule-based的方法來設定.

程式版本V1.5: (1999/09)

(1)	為了提高信號的清晰度，將取樣率提升至 22,050Hz，重新錄製各音節的信號波形，信號波形佔用記憶體6.3 MegaBytes。

程式版本V1.6: (2000/02)

(1)	增加短 duration 之處理，以配合播報新聞之速度。

程式版本V1.7: (2000/06)

(1)	將二次多項式內差改成 band-limited 內差，來作 signal-waveform resampling.

程式版本V1.8: (2000/07)

(1)	增加處理數種阿拉伯數字格式之功能。如 Tel:27376684, NT$1,002,356. 2000/06/26, 9:23AM, 5:45PM, 2/3, 2:3, 23.14, 2314.
(2)	增加 @>Bxxx 之 Pitch Bending 命令，用以調整音調的起伏度，如 @>B150 表示音調的起伏度改為內定值的 150%，可使合成語音顯得較有精神，而不那麼平淡。
(3)	完成 Linux 平台英文text-to-speech之整合(不是唸字母)，使用了 festival,及 IBM ViaVoice(2001/01/03) 英文TTS軟體。
(4)	MS-Windows 平台英文text-to-speech 之整合已於 2000/06/26 完成，合成之英文語音品質比 Linux 平台上的好許多。

程式版本V1.8.4: (2001/05)

(1)	更正幾個發生小click之bug; Unvoiced 部分改用 band-limited 內差。音質更為清晰。
(2)	加入人聲歌唱聲合成之功能。由於仍屬於初步研究階段，在提供下載的套件中，未含相關的使用說明。

程式版本V1.9: (2002/03)

(1)	關於合成語音之信號清晰度退化的問題，研究出一種避免清晰度退化的合成處理方法。

(1)	計算合成單元串接之頻譜差異的距離，再依據路徑行進之限制規則，使用動態規劃演算法，以整句考量的方式，挑選出一個最佳的合成單元序列，而使得聲學層次的流暢度獲得明顯的改進。(韻律層次的流暢度原先已有一定的表現)