李琳山教授常用「輕舟已過萬重山」形容他的研究走過的千山萬水,以及如何峰迴路轉,柳暗花明的歷程;事實上他幾十年的研究歷程,就像是一整片遼闊的崇山峻嶺,山高水長。他把歷年的研究,歸納為「華語語音」、「語音資訊搜尋」、「多元語音技術」等五大主題,也就是這裡論述的主要架構。

開天闢地 – 華語語音技術誕生的故事

眾所周知,今日所有華語語音技術,包括智慧型手機上的各種華語語音功能,其核心基礎架構均出自琳山老師之手,或他所帶領的學生團隊。在今日超強軟硬體及深層學習、巨量數據、雲端資訊等環境下,這些技術或不足為奇;但早在 1980 年,多數人仍不知個人電腦為何物,當時台灣仍是經濟沙漠,沒有竹科,也沒有電子或資訊產業;當時臺大仍是學術沙漠,要做研究是「沒有經費,沒有電腦,沒有實驗室」的;而當時琳山老師已經在臺大開始進行這方面的研究工作了。這項工作可以說是在沙漠中灌溉出綠洲,再在綠洲中種出作物,而終能開花結果;這裡所說的就是這段故事。

緣起

琳山老師在美留學時專攻衛星通信,對透過人造衛星傳送越洋電話有點瞭解。1979年回到台灣時當然不可能在台灣作衛星通信的研究,因此正想找新的研究題材......


第一階段

由於這個問題太難,他決定由一個「反向問題(Inverse Problem)」開始著手,也就是先讓機器「說」出任一句話。想想這不太難,只要在機器裡存好那一千多個音......


第二階段

在上一階段的工作進行中,琳山老師在1984決定同時開始研究他構想中的「語音打字機」。為了讓目標有可行性,他首先設定三個條件......


第三階段

「金聲一號」的最大弱點是計算量太大,因此需要平行電腦並等好幾秒才能辨識一個音。琳山老師認為簡化其計算是必要的一步;他相信計算量大主要是因為......


第四階段

「金聲二號」的最大弱點,就是每一個字必須斷開來以單音輸入,因而充分利用了華語「一字一音」的特性及好處,但也因此較為不方便;如何可以輸入連續的語音......


後記

今日任何人都可十分方便地對手邊輕巧的智慧型手機說華語,機器就正確寫成文字,或用流利的華語回覆,感覺上極為自然......


若干相關後續研究——燦爛的應用願景

在 1995 金聲三號完成後,琳山老師的努力變成有兩個主軸。其中第一主軸是將金聲三號技術精緻化,朝向實用化的目標,希望可以發展成為在當時的個人電腦上人人可以使用的軟體;這其中的相關工作包括增加訓練語料、提高辨識正確率、改善使用者介面、減少所需計算量、壓縮所需記憶體(當時個人電腦的功能極弱)、提昇機器學習新使用者的聲音的學習效率等等,並與產業界軟體公司合作,推出產品,已在上面「第四階段」中說明。第二主軸則是繼續做學術研究,針對這類軟體技術可能會遭遇到的各方面問題,及未來可能的發展空間,繼續做科學研究;這些研究的目標並不是要馬上裝在個人電腦上讓人人可以使用,而是指引出這些研究未來可以有的燦爛的應用願景,並證明這些願景是可行的。這裡所說的是這個第二主軸。

就未來的應用願景而言,除了讓人人的個人電腦均可用語音輸入華文以外,未來明顯的最大方向顯然就是網路了。在 1995-1997 年間,網際網路(Internet)已極為蓬勃發達,成功地將全球各地的電腦及其中儲存的資料聯在一起,提供諸多的數位內容及服務;那正是 Google 公司在 1998 年正式成立之前的兩、三年,Google 尚未出現,但資訊學界已開始看到一些非常原始的「搜尋軟體」,讓人體驗到網路上未來會有的無窮無盡的「資源(Resources)」將是一個天大的寶藏。那些原始的搜尋軟體在今日看來仍極為初步,但在當時已明顯綻放出燦爛的光芒,吸引資訊學界研究者的目光。

這個方向的關鍵人物是簡立峰同學,他在 1991 年在琳山老師的實驗室拿到博士學位,之後進了中研院資訊所任助研究員,一方面發展自己的新的研究,一方面回到實驗室來幫助琳山老師帶實驗室的學弟妹們做研究。他看到當時那些非常原始的搜尋軟體已展現出極為迷人的丰采,但都只能吃英文,不知華文環境下該如何做。他想到華文的「一字一音」特性,琳山老師的金聲一號、二號、三號都以華語「單音」為基礎,即使華文是用「詞」造句,每一個「詞」可有不只一個「單音」或「單字」。那麼華文的搜尋軟體似乎也可以用「單字」為基礎?這條思路發展下來,就完成了全球第一套華文搜尋軟體,命名為「尋易(CSmart)」;這不但是簡立峰同學的成名之作,也奠定他後來擔任「Google 台灣」的掌門人十餘年的技術基礎。

這是「尋易(CSmart)」的原始投影片。

這是當時「尋易(CSmart)」的電腦螢幕,以一本華文電子辭典的內容為搜尋對象。畫面上顯示的是,當輸入「形容天氣寒冷」時,機器確實找到非常多形容寒冷的詞。今日人人有 Google,所以看到這樣的畫面會習以為常;但當時是 1996 年,Google 還不存在,一般人都還不曾見識過 Google 搜尋的功能;因此當他們看到這個畫面,都大吃一驚,覺得機器好像是一位真的讀完且消化了這本詞典的學者;其實機器可以做到這樣,只是因為這些詞在詞典的「解釋」中,都多少提到「寒冷」一詞。
這是當時「尋易(CSmart)」的電腦螢幕,以一本華文電子辭典的內容為搜尋對象。畫面上顯示的是,當輸入「形容天氣寒冷」時,機器確實找到非常多形容寒冷的詞。今日人人有 Google,所以看到這樣的畫面會習以為常;但當時是 1996 年,Google 還不存在,一般人都還不曾見識過 Google 搜尋的功能;因此當他們看到這個畫面,都大吃一驚,覺得機器好像是一位真的讀完且消化了這本詞典的學者;其實機器可以做到這樣,只是因為這些詞在詞典的「解釋」中,都多少提到「寒冷」一詞。
這是當時的原始投影片,「尋易(CSmart)」不僅能搜尋華文,其功能還勝過當時世上存在的任何研究中的英文搜尋軟體。
這是當時的原始投影片,「尋易(CSmart)」不僅能搜尋華文,其功能還勝過當時世上存在的任何研究中的英文搜尋軟體。

「金聲三號」很自然地可以和「尋易(CSmart)」串接起來,就可以用聲音找華文資訊了。

這在今日看來很普通,但在 1996 年當時,卻是極具震撼力的畫面(當時還沒有 Google)。這是「金聲三號」和「尋易」串接的螢幕畫面:只要對著電腦說話:「請找形容女子容貌漂亮美麗的詞彙」,機器就由電子辭典中找到許多詞,如國色天香、沈魚落雁等,好像一位滿腹經綸的學者;因為這些詞的解釋中,都多少提到「女子」、「美麗」等,所以機器一找就有;但在當時,大家是很難想像這種事的。
這在今日看來很普通,但在 1996 年當時,卻是極具震撼力的畫面(當時還沒有 Google)。這是「金聲三號」和「尋易」串接的螢幕畫面:只要對著電腦說話:「請找形容女子容貌漂亮美麗的詞彙」,機器就由電子辭典中找到許多詞,如國色天香、沈魚落雁等,好像一位滿腹經綸的學者;因為這些詞的解釋中,都多少提到「女子」、「美麗」等,所以機器一找就有;但在當時,大家是很難想像這種事的。

這是當時的兩頁投影片。第一頁是將「金聲三號」和「尋易」串接的系統架構圖。第二頁是說明未來在網路架構下操作的方式,右邊是伺服器提供完整功能,左邊則是簡單的終端設備,中間有網路相連;這張圖如果以今日眼光來看,其實可以說,右邊就是「雲端」,左邊就是「手機」;雖然那是 1996 年,「雲端」和「手機」都要至少十年以後,才在世界上出現;可以想見這個團隊當時的研究視野是如何遼闊。

1996年間,中研院召開記者會,向全國宣佈最新研究成果及未來的願景:華文資訊世界未來將可以語音化、網路化、生活化;由李遠哲院長親自主持,琳山老師在場做詳細說明;共發表三件成果:(1)「金聲三號」已有「Windows 95 版」並轉移技術給軟體公司,幾個月內會有第一階段產品供大家試用,(2)「尋易」華文資訊搜尋之具體成果,(3)兩者串接可以用語音搜尋華文資訊。前 15 頁是當時使用的投影片,之後是一頁召開記者會前的背景簡介文字,之後是兩頁新聞稿。

除上述網路資訊搜尋以外,第二個明顯綻放光芒的未來願景,就是「對話系統」;人操作機器未必是只發一個指令,而是常有連續動作,在與機器反覆互動中完成任務;用聲音來作,這就是「對話」。「對話」的最大難題,就是人說的話可以千變萬化,但機器必須知道每一句話是代表著什麼樣的指令,人要它做什麼事。為了讓此事可行,琳山老師的,也是全球第一套的,最早期的華語對話系統,就是「104 查號台」,而且以查金融機構的電話號碼為限,這樣機器比較可以猜出人的語音是代表什麼樣的指令;這台機器就以 104 查號台的錄音來訓練。很多年後,不少查號台都有類似功能,但這裡說的是 1996 年。

這是第一代最早的「104 查號台」對話系統的架構圖。
這是第一代最早的「104 查號台」對話系統的架構圖。

對話系統也需要機器說出任意文句的語音,來跟使用者對答。此時技術已進步很多,因此可以用全新技術,來分析文句中的結構與聲音中的抑揚頓挫的關係,因而有了第二代的,好聽得多的,華語語音合成技術。

這是第二代的華語語音合成技術,聲音的抑揚頓挫對應到文句結構有了全新的模型。
這是第二代的華語語音合成技術,聲音的抑揚頓挫對應到文句結構有了全新的模型。

當然還有不少其他研究方向一一被考慮並深入探討;所有這些就形成了一個新的大方向:網路環境下的華語語音技術。網路環境提供了無限的應用空間,也提供了新的機會:可以由網路下載大量語料訓練機器;以及新的難題:網路上的聲音變化萬千,不再是在錄音室中錄的,因此也不再那麼容易掌握。

新方向:網路環境下的華語語音技術。
新方向:網路環境下的華語語音技術。

這個方向繼續向前發展若干時日,琳山老師開始發現此時考慮的諸多問題,都不再是華語單一語言的問題,而是對所有語言的語音都一樣存在的問題;於是實驗室的方向也不再只以華語為中心,而實驗室中的實驗,也不再只測試華語數據,而會充份採用英語及其他多種語言的數據。所有這些方向繼續向前走,因而逐步發展出實驗室的新的兩大主軸來,也就是「語音資訊搜尋」及「網路環境下的多元語音技術」,二者都不再限於華語,也就是本典藏網站中「研究篇」之下的其後兩大部份。

相關文獻典藏

這部份的研究有相當多的相關文獻,並未插入於前面各段落的敘述中,以免影響前面各段落在閱讀時的流暢度,故全部收錄於此。

華語語音「金聲系列」研究全貌介紹


黎明時刻——數位語音處理技術研討會,1986


「金聲二號」時期文獻


「金聲三號」時期文獻


金聲三號「Windows 95 版」測試報告及與國內外產業界合作記錄


參與國際語音學界事務的起點