星期六, 8月 16, 2008

中文文字轉語音合成(TTS)的測試

最近有人提到看到工研院資通所,前瞻技術中心開發出,中文文字轉語音合成系統。 稍為試了一下,效果還不錯,只是在文章裡有英文的時候,會插入完全不同的發音效果(男聲變女聲)。只是因為只限定50到100個字,所以並不能知道,在讀比較複雜的文章時,效果是不是也很好。 對岸的同胞們,也開發了一些不錯的中文語音庫。 以下是兩個小的測試。
使用NeoSpeech Lily語音庫。 雖然感覺有點像是在讀新聞,但是假以時日,更多更好的高品質語音庫出現的時候,真的是可以讓人分不出來的呢 !不同好像文章最好先轉成簡體字,會再更提高對破音字的辨識率。



以下是經理人月刊裡的一篇摘要,你可以參考一下原文,然後比較看看,自己是不是也可以念得那麼清楚。



我把之前景南的文章也試了一下。大概產生40分鐘的MP3, 4.6 MB。怎麼樣,現在的語音合成技術已經做得不錯了吧。

後記一: 我在想,也許之後有人想要做 PodCasting 也只要把文章貼上去,再轉成MP3就可以了。

後記二:因為語音庫原始的解析度只有大概22KHz左右,所以轉成檔案的時候選Mono 22KHz就可以了。 之後再用 Sony 的 Sound Forge做一下Normalize並轉成wma檔,就可以在網路上做串流的播放了。
後記三:在測試時,仍然會發現一些新的詞彙,發音引擎是不認識的。 想想它們不可能要使用者,都去文章裡改破音字。 找了一下,果然是有提供一個自訂的詞庫。你可以在裡面把korea ,直接念成中文韓國,或是把梵行用中文拼音 (fan4xing2) 來念。


延伸閱讀:
台灣工研院研發「中文文字轉語音合成系統」,好玩!
AT&T的Natural Voice線上測試(英文)
IBM Research的線上測試(英文)



黑米 推推王 del.icio.us

1 意見:

匿名 提到...

So good......

張貼留言