Installing
HTS 3.4.1 and HTS 2.2 on Ubuntu 11.10
作業系統安裝
可在Windows作業系統運行下直接安裝,建議將建立一新磁碟區並格式化來安裝,使用者開機便可選擇Windows或是Ubuntu OS。
預先安裝的套件
HTK and HTS System會用到一些linux的套件,可以先安裝好。(建議以root最高全線進行安裝,在輸入密碼時不會顯示出任何數字別以為鍵盤壞囉@@)
開啟終端機輸入以下指令(若出現無法取得套件安裝,將tw server換成主sever)
$ sudo apt-get
install build-essential
$ sudo apt-get
install libx11-dev
$ sudo apt-get
install libncurses5-dev
$ sudo apt-get
install libncursesw5-dev
$ sudo apt-get
install sox
安裝語音合成所需
我們的語音合成主要是用HMM模型來訓練出model,因此我們必須先安裝HTS所提供的工具,下面網址提供了英文、日文版的訓練demo可供安裝好合成系統測試用。
下載後解壓縮並打開INSTALL文件,進入以下網站下載工具
此網站提供了各種model的版本,有些版本訓練後的model並不相容如1.02(舊版)跟1.05與1.06不相容。
點擊”releases/”這裡有各種本版,筆者選擇
8.4.19.5/的 ActiveTcl8.4.19.5.294317-linux-ix86_64.tar.gz
PS:如果你的CUP與作業系統是64bit必須使用ix86_64才不會出錯
下載後解壓縮於同一目錄(Festival2.1)最後會產生festival與speech_tools
$ tar -zvxf festival-2.1-release.tar.gz
$ tar -zvxf festlex_CMU.tar.gz
$ tar -zvxf festlex_OALD.tar.gz
$ tar -zvxf festlex_POSLEX.tar.gz
$ tar -zvxf festvox_cmu_us_awb_cg.tar.gz
$ tar -zvxf festvox_cmu_us_rms_cg.tar.gz
$ tar -zvxf
festvox_cmu_us_slt_arctic_hts.tar.gz
$ tar -zvxf festvox_kallpc16k.tar.gz
$ tar -zvxf festvox_rablpc16k.tar.gz
$ tar -zvxf speech_tools-2.1-release.tar.gz
----------------------------------------------------
下載後的檔案:
HTK-3.4.1.tar.gz
HDecode-3.4.1.tar.gz
HTS-2.2_for_HTK-3.4.1.tar.bz2
SPTK-3.5.tar.gz
ActiveTcl8.4.19.5.294317-linux-ix86_46.tar.gz
festival-2.0.95-beta.tar.gz
(英文版才需要)
hts_engine_API-1.06.tar.gz
安裝順序:(不可調換順序)
1. HTK
2. HDecode
3. HTS : 用來產生狀態時長(dur)特徵值用
2. SPTK : 用來產生梅爾倒頻譜系數(MGC)特徵值用
4. ActiveTcl : 與Snack用來產生基頻(lF0) 特徵值用
5. speech_tools
6. festival
7. openfst
開始安裝(以root權限執行):
開啟終端機(Ctrl+Alt+T)輸入
$ sudo passwd root
輸入新的 UNIX 密碼:輸入你要設定的root密碼
再次輸入新的 UNIX 密碼:再次輸入root密碼
passwd:密碼已成功地變更
$ su root
輸入密碼便可成功便成root
將所有壓縮檔放在同一個目錄下,打開終端機先cd到該目錄
PS:建議使用手打輸入別用複製貼上以免複製到格行造成error
安裝HTK, HDecode, HTS
# tar zvxf HTK-3.4.1.tar.gz
# tar zvxf HDecode-3.4.1.tar.gz
# tar -xf HTS-2.2_for_HTK-3.4.1.tar.bz2.tar -C
./htk
# cd htk
htk# patch –p1 –d . < HTS-2.2_for_HTK-3.4.1.patch
htk# ./configure
htk# make all
htk#sudo make install
htk# cd ..
安裝SPTK
# tar zvxf SPTK-3.5.tar.gz
# cd SPTK-3.5
SPTK-3.4# ./configure
SPTK-3.4# make
SPTK-3.4# sudo make install
SPTK-3.4# cd ..
安裝ActiveTcl
# tar zvxf ActiveTcl8.4.19.5.294317-linux-ix86_64.tar.gz
# cd ActiveTcl8.4.19.5.294317-linux-ix86_64
ActiveTcl8.4.19.5.294317-linux-ix86_64# sudo
./install.sh
按照跳出來的安裝精靈安裝完ActiveTcl,目錄都用預設.
ActiveTcl8.4.19.5.294317-linux-ix86_64# cd ..
# tar zvxf speech_tools-2.0.95-beta.tar.gz
# cd speech_tools
安裝festival
#cd speech_tools
#festival# ./configure
#festival# make
# cd ..
# cd festival
festival#
./configure
festival#
make
festival#
sudo make install
festival#
cd ..
安裝hts_engine
# tar zvxf hts_engine_API-1.06.tar.gz
# cd hts_engine_hts_engine_API-1.06
hts_engine_API-1.06# ./configure
hts_engine_API-1.06# make
hts_engine_API-1.06# sudo make install
訓練語音模型
選取了日文的HTS-demo_NIT-ATR503-M001
http://hts.sp.nitech.ac.jp/?Download
cd到HTS-demo_NIT-ATR503-M001
路徑設定文件生成
./configure --with-tcl-search-path=/opt/ActiveTcl-8.4/bin
--with-sptk-search-path=/usr/local/SPTK/bin --with-hts-search-path=/usr/local/HTS-2.2beta/bin
--with-hts-engine-search-path=/usr/local/bin
參數設定
#
./configure MGCORDER=34 GAMMA=0 FREQWARP=0.0 (34-th order cepstrum)
%
./configure MGCORDER=34 GAMMA=0 FREQWARP=0.55 (34-th order Mel-cepstrum)
#
./configure MGCORDER=12 GAMMA=1 FREQWARP=0.0
LNGAIN=0 (12-th order LSP, linear gain)
#
./configure MGCORDER=12 GAMMA=1 FREQWARP=0.0
LNGAIN=1 (12-th order LSP, log gain)
#
./configure MGCORDER=12 GAMMA=1 FREQWARP=0.55 LNGAIN=1 (12-th order Mel-LSP, log gain)
#
./configure MGCORDER=12 GAMMA=3 FREQWARP=0.55 LNGAIN=1 (12-th order MGC-LSP, log gain)
開始run
# make
After
composing training data, HMMs are estimated and speech waveforms are
synthesized.
It takes
about 6 to 12 hours :-)