李琳山教授常用「輕舟已過萬重山」形容他的研究走過的千山萬水,以及如何峰迴路轉,柳暗花明的歷程;事實上他幾十年的研究歷程,就像是一整片遼闊的崇山峻嶺,山高水長。他把歷年的研究,歸納為「華語語音」、「語音資訊搜尋」、「多元語音技術」等五大主題,也就是這裡論述的主要架構。
概述 Overview | 華語語音 Mandarin Chinese | 語音資訊搜尋 Speech Retrieval | 多元語音技術 Blooming Technologies | 深層學習 Deep Learning | 早期電信研究 Early Communications |
---|
開天闢地 – 華語語音技術誕生的故事
眾所周知,今日所有華語語音技術,包括智慧型手機上的各種華語語音功能,其核心基礎架構均出自琳山老師之手,或他所帶領的學生團隊。在今日超強軟硬體及深層學習、巨量數據、雲端資訊等環境下,這些技術或不足為奇;但早在 1980 年,多數人仍不知個人電腦為何物,當時台灣仍是經濟沙漠,沒有竹科,也沒有電子或資訊產業;當時臺大仍是學術沙漠,要做研究是「沒有經費,沒有電腦,沒有實驗室」的;而當時琳山老師已經在臺 大開始進行這方面的研究工作了。這項工作可以說是在沙漠中灌溉出綠洲,再在綠洲中種出作物,而終能開花結果;這裡所說的就是這段故事。
緣起
琳山老師在美留學時專攻衛星通信,對透過人造衛星傳送越洋電話有點瞭解。1979年回到台灣時當然不可能在台灣作衛星通信的研究,因此正想找新的研究題材......
第一階段
由於這個問題太難,他決定由一個「反向問題(Inverse Problem)」開始著手,也就是先讓機器「說」出任一句話。想想這不太難,只要在機器裡存好那一千多個音......
第二階段
在上一階段的工作進行中,琳山老師在1984決定同時開始研究他構想中的「語音打字機」。為了讓目標有可行性,他首先設定三個條件......
第三階段
「金聲一號」的最大弱點是計算量太大,因此需要平行電腦並等好幾秒才能辨識一個音。琳山老師認為簡化其計算是必要的一步;他相信計算量大主要是因為......
第四階段
「金聲二號」的最大弱點,就是每一個字必須斷開來以單音輸入,因而充分利用了華語「一字一音」的特性及好處,但也因此較為不方便;如何可以輸入連續的語音......
後記
今日任何人都可十分方便地對手邊輕巧的智慧型手機說華語,機器就正確寫成文字,或用流利的華語回覆,感覺上極為自然......
若干相關後續研究——燦爛的應用願景
在 1995 金聲三號完成後,琳山老師的努力變成有兩個主軸。其中第一主軸是將金聲三號技術精緻化,朝向實用化的目標,希望可以發展成為在當時的個人電腦上人人可以使用的軟體;這其中的相關工作包括增加訓練語料、提高辨識正確率、改善使用者介面、減少所需計算量、壓縮所需記憶體(當時個人電腦的功能極弱)、提昇機器學習新使用者的聲音的學習效率等等,並與產業界軟體公司合作,推出產品,已在上面「第四階段」中說明。第二主軸則是繼續做學術研究,針對這類軟體技術可能會遭遇到的各方面問題,及未來可能的發展空間,繼續做科學研究;這些研究的目標並不是要馬上裝在個人電腦上讓人人可以使用,而是指引出這些研究未來可以有的燦爛的應用願景,並證明這些願景是可行的。這裡所說的是這個第二主軸。
就未來的應用願景而言,除了讓人人的個人電腦均可用語音輸入華文以外,未來明顯的最大方向顯然就是網路了。在 1995-1997 年間,網際網路(Internet)已極為蓬 勃發達,成功地將全球各地的電腦及其中儲存的資料聯在一起,提供諸多的數位內容及服務;那正是 Google 公司在 1998 年正式成立之前的兩、三年,Google 尚未出現,但資訊學界已開始看到一些非常原始的「搜尋軟體」,讓人體驗到網路上未來會有的無窮無盡的「資源(Resources)」將是一個天大的寶藏。那些原始的搜尋軟體在今日看來仍極為初步,但在當時已明顯綻放出燦爛的光芒,吸引資訊學界研究者的目光。
這個方向的關鍵人物是簡立峰同學,他在 1991 年在琳山老師的實驗室拿到博士學位,之後進了中研院資訊所任助研究員,一方面發展自己的新的研究,一方面回到實驗室來幫助琳山老師帶實驗室的學弟妹們做研究。他看到當時那些非常原始的搜尋軟體已展現出極為迷人的丰采,但都只能吃英文,不知華文環境下該如何做。他想到華文的「一字一音」特性,琳山老師的金聲一號、二號、三號都以華語「單音」為基礎,即使華文是用「詞」造句,每一個「詞」可有不只一個「單音」或「單字」。那麼華文的搜尋軟體似乎也可以用「單字」為基礎?這條思路發展下來,就完成了全球第一套華文搜尋軟體,命名為「尋易(CSmart)」;這不但是簡立峰同學的成名之作,也奠定他後來擔任「Google 台灣」的掌門人十餘年的技術基礎。