Damon's notes: Installing HTS 3.4.1 and HTS 2.2 on Ubuntu 11.10

Installing HTS 3.4.1 and HTS 2.2 on Ubuntu 11.10

作業系統安裝

Ubuntu作業系統下載網址:http://www.ubuntu-tw.org/

可在Windows作業系統運行下直接安裝，建議將建立一新磁碟區並格式化來安裝，使用者開機便可選擇Windows或是Ubuntu OS。

預先安裝的套件

HTK and HTS System會用到一些linux的套件,可以先安裝好。(建議以root最高全線進行安裝，在輸入密碼時不會顯示出任何數字別以為鍵盤壞囉@@)

開啟終端機輸入以下指令(若出現無法取得套件安裝，將tw server換成主sever)

$ sudo apt-get install build-essential

$ sudo apt-get install libx11-dev

$ sudo apt-get install libncurses5-dev

$ sudo apt-get install libncursesw5-dev

$ sudo apt-get install sox

安裝語音合成所需

我們的語音合成主要是用HMM模型來訓練出model，因此我們必須先安裝HTS所提供的工具，下面網址提供了英文、日文版的訓練demo可供安裝好合成系統測試用。

http://hts.sp.nitech.ac.jp/?Download

如筆者下載了日文版的demo
在檔案中經解壓縮後可由INSTALL文件中了解須先安裝那些工具才能訓練demo，以下網址為所需下載的工具

SPTK: http://sp-tk.sourceforge.net/

HTS: http://hts.sp.nitech.ac.jp/

下載後解壓縮並打開INSTALL文件，進入以下網站下載工具

HTK-3.4.1: http://htk.eng.cam.ac.uk/download.shtml (須先註冊)

HDecode-3.4.1: http://htk.eng.cam.ac.uk/extensions/index.shtml (須先註冊)

hts_engine API: http://hts-engine.sourceforge.net/

此網站提供了各種model的版本，有些版本訓練後的model並不相容如1.02(舊版)跟1.05與1.06不相容。

ActiveTcl: http://downloads.activestate.com/ActiveTcl/

點擊”releases/”這裡有各種本版，筆者選擇
 
 8.4.19.5/的  ActiveTcl8.4.19.5.294317-linux-ix86_64.tar.gz

PS:如果你的CUP與作業系統是64bit必須使用ix86_64才不會出錯

Festival: http://www.cstr.ed.ac.uk/projects/festival/

http://www.cstr.ed.ac.uk/downloads/festival/2.1/

下載後解壓縮於同一目錄(Festival2.1)最後會產生festival與speech_tools

$ tar -zvxf festival-2.1-release.tar.gz

$ tar -zvxf festlex_CMU.tar.gz

$ tar -zvxf festlex_OALD.tar.gz

$ tar -zvxf festlex_POSLEX.tar.gz

$ tar -zvxf festvox_cmu_us_awb_cg.tar.gz

$ tar -zvxf festvox_cmu_us_rms_cg.tar.gz

$ tar -zvxf festvox_cmu_us_slt_arctic_hts.tar.gz

$ tar -zvxf festvox_kallpc16k.tar.gz

$ tar -zvxf festvox_rablpc16k.tar.gz

$ tar -zvxf speech_tools-2.1-release.tar.gz

----------------------------------------------------

下載後的檔案：

HTK-3.4.1.tar.gz

HDecode-3.4.1.tar.gz

HTS-2.2_for_HTK-3.4.1.tar.bz2

SPTK-3.5.tar.gz

ActiveTcl8.4.19.5.294317-linux-ix86_46.tar.gz

~~festival-2.0.95-beta.tar.gz~~ (英文版才需要)

hts_engine_API-1.06.tar.gz

安裝順序：（不可調換順序）

1. HTK

2. HDecode

3. HTS : 用來產生狀態時長(dur)特徵值用

2. SPTK : 用來產生梅爾倒頻譜系數(MGC)特徵值用

4. ActiveTcl : 與Snack用來產生基頻(lF0) 特徵值用

5. ~~speech_tools~~

6. ~~festival~~

7. ~~openfst~~

開始安裝(以root權限執行)：

開啟終端機(Ctrl+Alt+T)輸入

$ sudo passwd root

輸入新的 UNIX 密碼：輸入你要設定的root密碼

再次輸入新的 UNIX 密碼：再次輸入root密碼

passwd：密碼已成功地變更

$ su root

輸入密碼便可成功便成root

將所有壓縮檔放在同一個目錄下,打開終端機先cd到該目錄

PS:建議使用手打輸入別用複製貼上以免複製到格行造成error

安裝HTK, HDecode, HTS

# tar zvxf HTK-3.4.1.tar.gz

# tar zvxf HDecode-3.4.1.tar.gz

# tar -xf HTS-2.2_for_HTK-3.4.1.tar.bz2.tar -C ./htk

# cd htk

htk# patch –p1 –d . < HTS-2.2_for_HTK-3.4.1.patch

htk# ./configure

htk# make all

htk#sudo make install

htk# cd ..

安裝SPTK

# tar zvxf SPTK-3.5.tar.gz

# cd SPTK-3.5

SPTK-3.4# ./configure

SPTK-3.4# make

SPTK-3.4# sudo make install

SPTK-3.4# cd ..

安裝ActiveTcl

# tar zvxf ActiveTcl8.4.19.5.294317-linux-ix86_64.tar.gz

# cd ActiveTcl8.4.19.5.294317-linux-ix86_64

ActiveTcl8.4.19.5.294317-linux-ix86_64# sudo ./install.sh

按照跳出來的安裝精靈安裝完ActiveTcl,目錄都用預設.

ActiveTcl8.4.19.5.294317-linux-ix86_64# cd ..

# ~~tar zvxf speech_tools-2.0.95-beta.tar.gz~~

# ~~cd speech_tools~~

安裝festival

#~~cd speech_tools~~

~~#festival~~# ~~./configure~~

~~#festival~~# ~~make~~

# ~~cd ..~~

# ~~cd festival~~

~~festival~~# ~~./configure~~

~~festival~~# ~~make~~

~~festival~~# ~~sudo make install~~

~~festival~~# ~~cd ..~~

安裝hts_engine

# tar zvxf hts_engine_API-1.06.tar.gz

# cd hts_engine_hts_engine_API-1.06

hts_engine_API-1.06# ./configure

hts_engine_API-1.06# make

hts_engine_API-1.06# sudo make install

訓練語音模型

選取了日文的HTS-demo_NIT-ATR503-M001

http://hts.sp.nitech.ac.jp/?Download

cd到HTS-demo_NIT-ATR503-M001

路徑設定文件生成

./configure --with-tcl-search-path=/opt/ActiveTcl-8.4/bin --with-sptk-search-path=/usr/local/SPTK/bin --with-hts-search-path=/usr/local/HTS-2.2beta/bin --with-hts-engine-search-path=/usr/local/bin

參數設定

# ./configure MGCORDER=34 GAMMA=0 FREQWARP=0.0 (34-th order cepstrum)

% ./configure MGCORDER=34 GAMMA=0 FREQWARP=0.55 (34-th order Mel-cepstrum)

# ./configure MGCORDER=12 GAMMA=1 FREQWARP=0.0 LNGAIN=0 (12-th order LSP, linear gain)

# ./configure MGCORDER=12 GAMMA=1 FREQWARP=0.0 LNGAIN=1 (12-th order LSP, log gain)

# ./configure MGCORDER=12 GAMMA=1 FREQWARP=0.55 LNGAIN=1 (12-th order Mel-LSP, log gain)

# ./configure MGCORDER=12 GAMMA=3 FREQWARP=0.55 LNGAIN=1 (12-th order MGC-LSP, log gain)

開始run

# make

After composing training data, HMMs are estimated and speech waveforms are synthesized.

It takes about 6 to 12 hours :-)

Damon's notes

2012年3月5日星期一

Installing HTS 3.4.1 and HTS 2.2 on Ubuntu 11.10

沒有留言:

張貼留言

2012年3月5日 星期一

Installing HTS 3.4.1 and HTS 2.2 on Ubuntu 11.10

沒有留言:

張貼留言

2012年3月5日星期一