李琳山教授常用「輕舟已過萬重山」形容他的研究走過的千山萬水,以及如何峰迴路轉,柳暗花明的歷程;事實上他幾十年的研究歷程,就像是一整片遼闊的崇山峻嶺,山高水長。他把歷年的研究,歸納為「華語語音」、「語音資訊搜尋」、「多元語音技術」等五大主題,也就是這裡論述的主要架構。

坐擁無涯學海 – 邁向「語音版的Google」

除華語語音技術外,琳山老師在全球語音學界有另一項享有盛名的研究領域,就是「語音資訊搜尋」;尤其他提出一個十分前瞻而遼闊的願景,就是「語音版的 Google (A Spoken Version of Google)」,希望可以讓每一個人都「坐擁無涯學海」,為這個領域的研究設下了遠大的目標。今日 Google 給人的感覺是超級強大,而且已成為人類日常生活不可或缺的很大一部分,如 Facebook、YouTube 等也都倚賴它而為大眾所愛用;但早在許多年前,琳山老師的「語音資訊搜尋」的研究,就已透過「語音版的 Google」的觀念,為 Google 描繪出一個遠比今日的 Google 更為遼闊的天地,並在語音資訊上實際做到不少今日的 Google 在文字資訊上尚未能做到的事,讓許多研究者深受激勵並去進一步探索。這裡說的就是這一段故事。

從「語音資訊搜尋」到「語音版的Google」

在 1997、1998 年間琳山老師的「金聲三號」進階版技術移轉給產業界推產品後,他體會到該方向近期的再進階要靠產業界將產品精緻化;而長期的學術研究上,在獲得基礎架構的答案後......


「先辨識、再搜尋」及「次詞圖(Subword Graph)」

第一件事就是要把前面所說的「語音詞偵測」做好。之前所有人想的語音詞偵測,就是「先辨識、再搜尋」,也就是把語料庫(例如 1000 小時的電視新聞)中......


超越「先辨識、再搜尋」的新天地

「先辨識、再搜尋」雖然不錯,但無可避免的辨識錯誤乃其罩門,永遠造成很大困擾。琳山老師和他的學生團隊對這個領域有一項非常大的貢獻,就是提出了一整個系列的超越「先辨識、再搜尋」的新技術.......


以語音資訊「建構知識體系(Semantic Structuring)」

當機器可以成功地由網路上找到和使用者輸入的指令相關的大量語句以及其所附帶的影片以後,如何才可以讓使用者方便使用這些語音資訊呢?在 Google 而言,因為找到的都是正確的文字.......


以「主題分析(Topic Analysis)」作到瞭解語音資訊之語意(Semantics)並據以建構知識體系

以上所提及諸多需要機器操作的任務,包括製作個人化課程、回答使用者問題、建構知識體系、抽關鍵詞、自動產生語音資訊之摘要及標題等,都需要機器了解(Understand)語音資訊在說什麼.......


電視新聞瀏覽器、「台大虛擬教師」及機器自動繪製學習地圖

公視新聞是琳山老師手邊最早擁有的語音數據庫,共 110 小時約 6000 則新聞,錄製於 2002-2003 年。他發現電視新聞有下列特色.......


互動式語音資訊搜尋及「自動語音問答」技術

很多時候使用者上網搜尋資訊不是一次就把他心中想的問題說清楚,而是逐次與機器互動;這情形在搜尋語音資訊會更為明顯。舉例來說,一個使用者可能輸入「美國總統拜登」就停下來等機器回應......


後記

「語音版的 Google」為語音資訊搜尋設定了一個遠大的目標,也為相關研究開啟了一片遼闊的天地;「坐擁無涯學海」是一個動人而震撼人心的願景,讓許多研究者努力追尋......