2012年3月5日 星期一

Installing HTS 3.4.1 and HTS 2.2 on Ubuntu 11.10


Installing HTS 3.4.1 and HTS 2.2 on Ubuntu 11.10
作業系統安裝                                    
Ubuntu作業系統下載網址:http://www.ubuntu-tw.org/
可在Windows作業系統運行下直接安裝,建議將建立一新磁碟區並格式化來安裝,使用者開機便可選擇Windows或是Ubuntu OS
預先安裝的套件                                   
HTK and HTS System會用到一些linux套件,可以先安裝好。(建議以root最高全線進行安裝,在輸入密碼時不會顯示出任何數字別以為鍵盤壞囉@@)
開啟終端機輸入以下指令(若出現無法取得套件安裝,將tw server換成主sever)

$ sudo apt-get install build-essential
$ sudo apt-get install libx11-dev
$ sudo apt-get install libncurses5-dev
$ sudo apt-get install libncursesw5-dev
$ sudo apt-get install sox

安裝語音合成所需                                 
我們的語音合成主要是用HMM模型來訓練出model,因此我們必須先安裝HTS所提供的工具,下面網址提供了英文、日文版的訓練demo可供安裝好合成系統測試用。


如筆者下載了日文版的demo
在檔案中經解壓縮後可由INSTALL文件中了解須先安裝那些工具才能訓練demo,以下網址為所需下載的工具

SPTK: http://sp-tk.sourceforge.net/



下載後解壓縮並打開INSTALL文件,進入以下網站下載工具
   HTK-3.4.1:  http://htk.eng.cam.ac.uk/download.shtml (須先註冊)



   HDecode-3.4.1:  http://htk.eng.cam.ac.uk/extensions/index.shtml  (須先註冊)

此網站提供了各種model的版本,有些版本訓練後的model並不相容如1.02(舊版)1.051.06不相容。


點擊releases/這裡有各種本版,筆者選擇
 
 8.4.19.5/  ActiveTcl8.4.19.5.294317-linux-ix86_64.tar.gz   
PS:如果你的CUP與作業系統是64bit必須使用ix86_64才不會出錯


下載後解壓縮於同一目錄(Festival2.1)最後會產生festivalspeech_tools

 $ tar -zvxf festival-2.1-release.tar.gz
 $ tar -zvxf festlex_CMU.tar.gz
 $ tar -zvxf festlex_OALD.tar.gz
 $ tar -zvxf festlex_POSLEX.tar.gz
 $ tar -zvxf festvox_cmu_us_awb_cg.tar.gz
 $ tar -zvxf festvox_cmu_us_rms_cg.tar.gz
 $ tar -zvxf festvox_cmu_us_slt_arctic_hts.tar.gz
 $ tar -zvxf festvox_kallpc16k.tar.gz
 $ tar -zvxf festvox_rablpc16k.tar.gz
 $ tar -zvxf speech_tools-2.1-release.tar.gz

----------------------------------------------------
下載後的檔案:

HTK-3.4.1.tar.gz

HDecode-3.4.1.tar.gz

HTS-2.2_for_HTK-3.4.1.tar.bz2

SPTK-3.5.tar.gz

ActiveTcl8.4.19.5.294317-linux-ix86_46.tar.gz

festival-2.0.95-beta.tar.gz (英文版才需要)

hts_engine_API-1.06.tar.gz


安裝順序:(不可調換順序)

1. HTK

2. HDecode

3. HTS : 用來產生狀態時長(dur)特徵值用

2. SPTK : 用來產生梅爾倒頻譜系數(MGC)特徵值用

4. ActiveTcl : Snack用來產生基頻(lF0) 特徵值用

5. speech_tools

6. festival

7. openfst

開始安裝(root權限執行)
開啟終端機(Ctrl+Alt+T)輸入
$ sudo passwd root
輸入新的 UNIX 密碼:輸入你要設定的root密碼
再次輸入新的 UNIX 密碼:再次輸入root密碼
passwd:密碼已成功地變更
$ su root
輸入密碼便可成功便成root
將所有壓縮檔放在同一個目錄下,打開終端機先cd到該目錄
PS:建議使用手打輸入別用複製貼上以免複製到格行造成error

安裝HTK, HDecode, HTS

# tar zvxf HTK-3.4.1.tar.gz

# tar zvxf HDecode-3.4.1.tar.gz

# tar -xf HTS-2.2_for_HTK-3.4.1.tar.bz2.tar -C ./htk

# cd htk

htk# patch –p1 –d . < HTS-2.2_for_HTK-3.4.1.patch

htk# ./configure

htk# make all

htk#sudo make install

htk# cd ..

安裝SPTK

# tar zvxf SPTK-3.5.tar.gz

# cd SPTK-3.5

SPTK-3.4# ./configure

SPTK-3.4# make

SPTK-3.4# sudo make install

SPTK-3.4# cd ..

安裝ActiveTcl

# tar zvxf ActiveTcl8.4.19.5.294317-linux-ix86_64.tar.gz

# cd ActiveTcl8.4.19.5.294317-linux-ix86_64

ActiveTcl8.4.19.5.294317-linux-ix86_64# sudo ./install.sh

按照跳出來的安裝精靈安裝完ActiveTcl,目錄都用預設.

ActiveTcl8.4.19.5.294317-linux-ix86_64# cd ..

# tar zvxf speech_tools-2.0.95-beta.tar.gz

# cd speech_tools

安裝festival

#cd speech_tools


#festival# ./configure

#festival# make


# cd ..


# cd festival

festival# ./configure

festival# make

festival# sudo make install

festival# cd ..

安裝hts_engine

# tar zvxf hts_engine_API-1.06.tar.gz

# cd hts_engine_hts_engine_API-1.06

hts_engine_API-1.06# ./configure

hts_engine_API-1.06# make

hts_engine_API-1.06# sudo make install

訓練語音模型                                 
                                      
選取了日文的HTS-demo_NIT-ATR503-M001
http://hts.sp.nitech.ac.jp/?Download
cdHTS-demo_NIT-ATR503-M001

路徑設定文件生成
./configure --with-tcl-search-path=/opt/ActiveTcl-8.4/bin --with-sptk-search-path=/usr/local/SPTK/bin --with-hts-search-path=/usr/local/HTS-2.2beta/bin --with-hts-engine-search-path=/usr/local/bin

參數設定
   # ./configure MGCORDER=34 GAMMA=0 FREQWARP=0.0              (34-th order cepstrum)
   % ./configure MGCORDER=34 GAMMA=0 FREQWARP=0.55             (34-th order Mel-cepstrum)

   # ./configure MGCORDER=12 GAMMA=1 FREQWARP=0.0  LNGAIN=0    (12-th order LSP,     linear gain)
   # ./configure MGCORDER=12 GAMMA=1 FREQWARP=0.0  LNGAIN=1    (12-th order LSP,     log gain)
   # ./configure MGCORDER=12 GAMMA=1 FREQWARP=0.55 LNGAIN=1    (12-th order Mel-LSP, log gain)
   # ./configure MGCORDER=12 GAMMA=3 FREQWARP=0.55 LNGAIN=1    (12-th order MGC-LSP, log gain)

開始run
# make

   After composing training data, HMMs are estimated and speech waveforms are synthesized.
   It takes about 6 to 12 hours :-)

沒有留言:

張貼留言