Acoustic Fluency Improved Mandarin Speech Synthesis
聲學流暢度改進之國語語音合成

訪客記數(after 2003/12/01):5818

感謝國科會計畫支援, NSC90-2213-E-011-048

歡迎來信指教guhy@mail.ntust.edu.tw , Tel:(02)2737-6684, 古鴻炎
.

試聽已合成好的語句

動態挑選(dynamic selecting)
合成單元
(syllable unit):
poem.txt 270
KB
poem_9.mp3
joke.txt 98
KB
joke_9.mp3
stdnt.txt 516
KB
stdnt_9.mp3
固定式音節單元
(fixed syllable unit)
:
poem.txt 270
KB
poem_6.mp3
joke.txt 98
KB
joke_6.mp3
stdnt.txt 516
KB
stdnt_6.mp3
註: 雖是使用固定的(one unit per syllable)音節單元, 但是有作 主要韻律參數(基週軌跡)的跨音節平滑處理,所以仍然具有韻律(prosody)層次的流暢性.

線上輸入文句、及合成語音信號


合成單元
Synthesis unit :
格式
Type:

音調調整:
tone height
adjusting
Hz
聲道長調整:
adjust vocal-
track length
%
速度調整:
(ms/syll.)
speaking rate
毫秒/音節
欲合成之
國語語句
(EnterMandarin sentence
to be synthesized in Big-5 code):


技術簡介

2003/12/01
(1) 在信號波形合成方面,使用先前提出的"時間比例基週波形內差法"(TIPW)。
(2) 在韻律(prosodic)參數產生方面,主要的參數是音節 基週軌跡參數,使用先前研究國語語音合成建立的"句子基週軌跡隱藏式馬可夫模型" (SPC-HMM),作句子基週軌跡的產生。
(3) 關於音節長度、振幅兩參數,參考了前人的成果,再加以修改而訂出 產生規則。
(4) 動態挑選之音節單元, 來自於 4*409*6=9816 個三連音節 的中間音節。我們依據聲學知識定義一種計算合成單元串接之頻譜差異距離的量測, 再依據發音知識訂定數個路徑行進之限制規則,然後使用動態規劃演算法, 以整句考量的方式,來挑選出一個最佳的合成單元序列。
(5) 古鴻炎、王國憲、曹亦岑,「整合發音與聲學知識之國語合成語音流暢度改進之方法」, 2003人工智慧、模糊系統、及灰色系統聯合研討會,台北,(2003)。
Gu, Hung-Yan and Kuo-Hsian Wang, "An Acoustic and Articulatory Knowledge Integrated Method for Improving Synthetic Mandarin Speech's Fluency", 2004 International Symposium on Chinese Spoken Language Processing, Hong Kong, pp. 205-208, (2004).

固定音節單元之 國語語音合成(Mandarin speech synthesis using fixed syllable unit)