2012年3月22日 星期四

解决CoolEdit2.0在Win7下缺少WMVcore2.dll的錯誤訊息

將 wmvcore2.dll放入C:\windows\system32 中
為了以防萬一還是先將這個檔案放在自己的空間以免哪天失去鏈結
Download_wmvcore2.dll

2012年3月14日 星期三

i++;++i


i++是先取值後+1,++i是先+1後取值,所以i=i++當然是1;i=++i當然是2。



i++ 經過compiler的動作:
temp = i
i = i+1
return temp
------------------------
++i 經過 compiler 的動作:
i = i+1
return i

一般的做法是: 可能的話, 用 ++i; 有需要的話才用 i++;
Use ++i if possible; use i++ if necessary.

int i=1;
i=i++ - ++i  
i++ - ++i ,先做減號左邊值為1,做完此時i為2;再做右邊2先加1再取值得到3。1-3就等於-2。

2012年3月5日 星期一

Installing HTS 3.4.1 and HTS 2.2 on Ubuntu 11.10


Installing HTS 3.4.1 and HTS 2.2 on Ubuntu 11.10
作業系統安裝                                    
Ubuntu作業系統下載網址:http://www.ubuntu-tw.org/
可在Windows作業系統運行下直接安裝,建議將建立一新磁碟區並格式化來安裝,使用者開機便可選擇Windows或是Ubuntu OS
預先安裝的套件                                   
HTK and HTS System會用到一些linux套件,可以先安裝好。(建議以root最高全線進行安裝,在輸入密碼時不會顯示出任何數字別以為鍵盤壞囉@@)
開啟終端機輸入以下指令(若出現無法取得套件安裝,將tw server換成主sever)

$ sudo apt-get install build-essential
$ sudo apt-get install libx11-dev
$ sudo apt-get install libncurses5-dev
$ sudo apt-get install libncursesw5-dev
$ sudo apt-get install sox

安裝語音合成所需                                 
我們的語音合成主要是用HMM模型來訓練出model,因此我們必須先安裝HTS所提供的工具,下面網址提供了英文、日文版的訓練demo可供安裝好合成系統測試用。


如筆者下載了日文版的demo
在檔案中經解壓縮後可由INSTALL文件中了解須先安裝那些工具才能訓練demo,以下網址為所需下載的工具

SPTK: http://sp-tk.sourceforge.net/



下載後解壓縮並打開INSTALL文件,進入以下網站下載工具
   HTK-3.4.1:  http://htk.eng.cam.ac.uk/download.shtml (須先註冊)



   HDecode-3.4.1:  http://htk.eng.cam.ac.uk/extensions/index.shtml  (須先註冊)

此網站提供了各種model的版本,有些版本訓練後的model並不相容如1.02(舊版)1.051.06不相容。


點擊releases/這裡有各種本版,筆者選擇
 
 8.4.19.5/  ActiveTcl8.4.19.5.294317-linux-ix86_64.tar.gz   
PS:如果你的CUP與作業系統是64bit必須使用ix86_64才不會出錯


下載後解壓縮於同一目錄(Festival2.1)最後會產生festivalspeech_tools

 $ tar -zvxf festival-2.1-release.tar.gz
 $ tar -zvxf festlex_CMU.tar.gz
 $ tar -zvxf festlex_OALD.tar.gz
 $ tar -zvxf festlex_POSLEX.tar.gz
 $ tar -zvxf festvox_cmu_us_awb_cg.tar.gz
 $ tar -zvxf festvox_cmu_us_rms_cg.tar.gz
 $ tar -zvxf festvox_cmu_us_slt_arctic_hts.tar.gz
 $ tar -zvxf festvox_kallpc16k.tar.gz
 $ tar -zvxf festvox_rablpc16k.tar.gz
 $ tar -zvxf speech_tools-2.1-release.tar.gz

----------------------------------------------------
下載後的檔案:

HTK-3.4.1.tar.gz

HDecode-3.4.1.tar.gz

HTS-2.2_for_HTK-3.4.1.tar.bz2

SPTK-3.5.tar.gz

ActiveTcl8.4.19.5.294317-linux-ix86_46.tar.gz

festival-2.0.95-beta.tar.gz (英文版才需要)

hts_engine_API-1.06.tar.gz


安裝順序:(不可調換順序)

1. HTK

2. HDecode

3. HTS : 用來產生狀態時長(dur)特徵值用

2. SPTK : 用來產生梅爾倒頻譜系數(MGC)特徵值用

4. ActiveTcl : Snack用來產生基頻(lF0) 特徵值用

5. speech_tools

6. festival

7. openfst

開始安裝(root權限執行)
開啟終端機(Ctrl+Alt+T)輸入
$ sudo passwd root
輸入新的 UNIX 密碼:輸入你要設定的root密碼
再次輸入新的 UNIX 密碼:再次輸入root密碼
passwd:密碼已成功地變更
$ su root
輸入密碼便可成功便成root
將所有壓縮檔放在同一個目錄下,打開終端機先cd到該目錄
PS:建議使用手打輸入別用複製貼上以免複製到格行造成error

安裝HTK, HDecode, HTS

# tar zvxf HTK-3.4.1.tar.gz

# tar zvxf HDecode-3.4.1.tar.gz

# tar -xf HTS-2.2_for_HTK-3.4.1.tar.bz2.tar -C ./htk

# cd htk

htk# patch –p1 –d . < HTS-2.2_for_HTK-3.4.1.patch

htk# ./configure

htk# make all

htk#sudo make install

htk# cd ..

安裝SPTK

# tar zvxf SPTK-3.5.tar.gz

# cd SPTK-3.5

SPTK-3.4# ./configure

SPTK-3.4# make

SPTK-3.4# sudo make install

SPTK-3.4# cd ..

安裝ActiveTcl

# tar zvxf ActiveTcl8.4.19.5.294317-linux-ix86_64.tar.gz

# cd ActiveTcl8.4.19.5.294317-linux-ix86_64

ActiveTcl8.4.19.5.294317-linux-ix86_64# sudo ./install.sh

按照跳出來的安裝精靈安裝完ActiveTcl,目錄都用預設.

ActiveTcl8.4.19.5.294317-linux-ix86_64# cd ..

# tar zvxf speech_tools-2.0.95-beta.tar.gz

# cd speech_tools

安裝festival

#cd speech_tools


#festival# ./configure

#festival# make


# cd ..


# cd festival

festival# ./configure

festival# make

festival# sudo make install

festival# cd ..

安裝hts_engine

# tar zvxf hts_engine_API-1.06.tar.gz

# cd hts_engine_hts_engine_API-1.06

hts_engine_API-1.06# ./configure

hts_engine_API-1.06# make

hts_engine_API-1.06# sudo make install

訓練語音模型                                 
                                      
選取了日文的HTS-demo_NIT-ATR503-M001
http://hts.sp.nitech.ac.jp/?Download
cdHTS-demo_NIT-ATR503-M001

路徑設定文件生成
./configure --with-tcl-search-path=/opt/ActiveTcl-8.4/bin --with-sptk-search-path=/usr/local/SPTK/bin --with-hts-search-path=/usr/local/HTS-2.2beta/bin --with-hts-engine-search-path=/usr/local/bin

參數設定
   # ./configure MGCORDER=34 GAMMA=0 FREQWARP=0.0              (34-th order cepstrum)
   % ./configure MGCORDER=34 GAMMA=0 FREQWARP=0.55             (34-th order Mel-cepstrum)

   # ./configure MGCORDER=12 GAMMA=1 FREQWARP=0.0  LNGAIN=0    (12-th order LSP,     linear gain)
   # ./configure MGCORDER=12 GAMMA=1 FREQWARP=0.0  LNGAIN=1    (12-th order LSP,     log gain)
   # ./configure MGCORDER=12 GAMMA=1 FREQWARP=0.55 LNGAIN=1    (12-th order Mel-LSP, log gain)
   # ./configure MGCORDER=12 GAMMA=3 FREQWARP=0.55 LNGAIN=1    (12-th order MGC-LSP, log gain)

開始run
# make

   After composing training data, HMMs are estimated and speech waveforms are synthesized.
   It takes about 6 to 12 hours :-)

2012年3月4日 星期日

有關使用windows開啟已安裝程式問題

常在看code時遇到一些 .lab  .#$^% 沒看過的副檔名,想打開來一窺究竟,通常都用記事本開啟
在win7中開啟時能會變成以後開啟此副檔名就已記事本為預設值,造成在其他程式環境下的困擾,如何解決呢?
下載

Unassoc 1.4


http://www.softpedia.com/get/System/OS-Enhancements/Unassoc.shtml
開啟後,看是要以手動在File types:輸入".@#$%"副檔名或是在小視窗中尋找都可以
最後按下"Delete file type". 便會執行刪除預設.

2012年3月1日 星期四

How to make corpus for HTS training ?

錄音腳本(須包含到 105 Phoneme)  音素統計程式?

安裝CoolEdite軟體作為錄製語者音訊與切音
(手動切音)使用CoolEdite手動設定字元時間資訊,用滑鼠在語音訊號上拉出字元訊號範圍,此時呈現反白(點擊右鍵選取Add to Cue List),在View工具欄可開啟Cue List選項。CoolEdite會自動將每個字元的時間長度資訊嵌入wav檔內。它會將Cue List的資訊嵌入在wav的未端,cue為list資訊的起始點。(使用UltraEdit 17.X 工具開啟:它可以將資料轉成十六進位檢視)

由於HTS訓練語料須是raw檔,因此須將錄製剪裁好的wav檔的前44byte的音檔資訊給去除掉,詳細內容請參考 https://ccrma.stanford.edu/courses/422/projects/WaveFormat/
以及cue以後的字元時間資訊也刪除!
作法如下:
1.須先製作bat檔
安裝好Microsoft Visual Studio 2008,開啟Wav2Raw專案,可直接點選Wav2Raw.sln便會自動開啟匯入(如果只有單一文件(wav2raw.c),可先建立一空專案,然後加入wav2raw.c進行compile後便會產生wav2raw.bat)
fprintf(fp,"sox -c 1 -s -2 -t wav -r 16000 CMICSD_athena_sen000%d.wav -c 1 -s -2 -t raw -r 16000 CMICSD_athena_sen000%d.raw\n",match[i][0],match[i][0]);
16000 is Sample Rate.
CMICSD_athena_sen000%d.wav is your wav files name.
CMICSD_athena_sen000%d.raw is your raw files name.
num=1; is number of  your corpus.

---------------- wav2raw.c --------------------------

#include <stdio.h>
#include <stdlib.h>


int main(){
   FILE *fp;

   int i;
   int num;
   int match[50][2]={
{6,1},
{7,1},
{8,1},
{34,2},
{49,2},
{51,2},
{63,2},
{85,2},
{112,3},
{121,3},
{257,3},
{306,3},
{344,3},
{350,3},
{371,3},
{493,3},
{613,3},
{624,3},
{674,3},
{728,3},
{745,3},
{850,3},
{940,3},
{944,3},
{974,3},
{984,3},
{1048,4},
{1049,4},
{1072,4},
{1309,4},
{1418,4},
{1432,4},
{1540,4},
{1688,4},
{1751,4},
{1815,4},
{1893,4},
{1968,4},
{2025,4},
{2135,4},
{2150,4},
{2179,4},
{2336,4},
{2355,4},
{2377,4},
{2422,4},
{2449,4},
{2474,4},
{2638,4},
{2858,4}
};

   fp = fopen("wav2raw.bat","w");

   num=1;
   for(i=0;i<num;i++){
      switch(match[i][1]){
         case 1:{
fprintf(fp,"sox -c 1 -s -2 -t wav -r 16000 CMICSD_athena_sen000%d.wav -c 1 -s -2 -t raw -r 16000 CMICSD_athena_sen000%d.raw\n",match[i][0],match[i][0]);
            break;  
         }
         case 2:{
fprintf(fp,"sox -c 1 -s -2 -t wav -r 16000 CMICSD_athena_sen00%d.wav -c 1 -s -2 -t raw -r 16000 CMICSD_athena_sen00%d.raw\n",match[i][0],match[i][0]);
            break;  
         }
         case 3:{
fprintf(fp,"sox -c 1 -s -2 -t wav -r 16000 CMICSD_athena_sen0%d.wav -c 1 -s -2 -t raw -r 16000 CMICSD_athena_sen0%d.raw\n",match[i][0],match[i][0]);
            break;  
         }
         case 4:{
fprintf(fp,"sox -c 1 -s -2 -t wav -r 16000 CMICSD_athena_sen%d.wav -c 1 -s -2 -t raw -r 16000 CMICSD_athena_sen%d.raw\n",match[i][0],match[i][0]);
            break;  
         }
         default:{
            break;      
         }
      }
   
   

   }
 
   fclose(fp);
   system("pause");
   return 0;  
}
-------------------------------------------------------------------------------
2.下載安裝sox
http://sox.sourceforge.net/
須在變數環境>>編輯>>Path中加入;C:\sox-14-3-2\
開啟cmd ,輸入sox 測試是否OK!
將wav2raw.bat與語料(wav檔)放在相同資料夾下,點擊wav2raw.bat便會自動跳出黑窗產生raw檔於資料夾中!


genLabelFromCueWaveWithPhonemePercentage 



說明:將切音之wav檔轉為mono & full-context labels,作為HTS訓練用之資料
使用方法

檔案
描述
主要輸入
input.txt cue_wave資料夾
語料切音後的wav
text.txt
語料切音後的wav檔之語意的文字
input.txt
configure檔,可由gen input.txt資料夾內程式產生
次要輸入
consonant_mean.txt
TH-CoSS語料之initial比例統計結果?
lexicon_toneModify_v6.tbl
文字分析器所需之字典檔
punctuation.tbl
文字分析器所需之符號檔
輸出
mono資料夾(要先建立)
輸出之mono label
full資料夾(要先建立)
輸出之full-context label
提醒:為HTS訓練用之資料,由於是在windows下產生,必須將產生出來mono & full labels
裡面得空白格式轉換成unix。
法一(在windows下轉換):開啟notepad++ 編輯>格式轉換>unix格式
法二(在ubuntu下轉換):使用flip:windows換行符號0D0A改為unix換行0A >>flip -u *.lab
並將wav檔使用sox工具:http://sox.sourceforge.net/,轉為raw








合成階段

C_TTS_1.06 project

說明:新版文字分析器(Cloud)+新版model+hts_engine_1.06之語音合成程式

-----文字分析器----------------


analysis.c .h
component.c
graph.c
label.c
partOfSpeechBigram.h
syllable.h
wordHashTable.h
-----------------------------------------