李琳山教授常用「輕舟已過萬重山」形容他的研究走過的千山萬水,以及如何峰迴路轉,柳暗花明的歷程;事實上他幾十年的研究歷程,就像是一整片遼闊的崇山峻嶺,山高水長。他把歷年的研究,歸納為「華語語音」、「語音資訊搜尋」、「多元語音技術」等五大主題,也就是這裡論述的主要架構。
概述 Overview | 華語語音 Mandarin Chinese | 語音資訊搜尋 Speech Retrieval | 多元語音技術 Blooming Technologies | 深層學習 Deep Learning | 早期電信研究 Early Communications |
---|
脫胎換骨 – 一夕之間天下盡歸深層學習
2014 年秋天,琳山老師的嫡傳弟子李宏毅教授結束在 MIT 的訪問學者行程回到系裡任教,也回到實驗室與琳山老師逐步展開規劃中的「無縫接軌」程序,也就是他需要在琳山老師退休前的最後八年內,逐步接掌實驗室。此時深層學習(Deep Learning)在問世幾年之內已迅速如海嘯般橫掃全球語音學界,琳山老師因此告訴宏毅老師他的觀察:全球語音學界已進入新戰國時代,今後任何一語音研究團隊就像古代的楚國或齊國,都面臨全新的嚴酷挑戰,能否存活發展,端賴其掌握深層學習新技術之能力。
宏毅老師瞭解了上述挑戰,乃決定在 2015 春天開授一門全新課程:「機器學習及其深層與結構化」,作為一項最有效的方法,讓他自己可以充分掌握深層學習的新技術,並讓實驗室中的研究生迅速學會相關知識。此後幾年內實驗室中真正的主導人物逐漸由琳山老師轉為宏毅老師,琳山老師則逐漸退居為第二線的輔助角色;而實驗室的最大不同,是此後所有研究,不論主題,幾乎是一夕之間都以深層學習為共同的核心基礎,是真正的「脫胎換骨」;而所有的實驗也都證實,深層學習真的不負所望,幾乎是無所不能,在所有的研究課題上都可以大展所長,大幅勝過「不是深層」的技術。
此後實驗室的研究全貌必須把宏毅老師所指導的研究包括進來一起看才對,但宏毅老師指導他的學生所進行的諸多研究畢竟非此處描述之對象;以下僅簡述琳山老師在逐步退至第二線之過程中,和宏毅老師共同指導的研究,因此只是整個實驗室的研究中的一小塊了。
深層學習下語音辨識之新挑戰
深層學習初入語音辨識的領域時,只是把機器中的一些模組,例如學會每一個基本音的聲音信號的聲學模型(Acoustic Models)、學會如何用詞造句的語言模型(Language Models)等......
語音信號之向量表示法
文字處理領域有不少人用巨量數據訓練出可帶有語意訊息(例如Cat, Dog同屬寵物;Eat, Drink同屬進食的動作等)的詞彙的向量表示法,被證明在語言處理上非常有用......
語音分離(Speech Separation)之新世界
當兩個或以上的人同時說話而聲音互相重疊時,如何讓機器把每一個人的聲音分離出來,也就是語音分離,一直是多年來不易解決的難題,一般稱為「雞尾酒會問題(Cocktail Party Problem)」......
語音轉換(Voice Conversion)
最常見的語音轉換是轉換語者,亦即語者甲說了一句話,由機器將之轉換成聽起來像是語者乙說的,但話的內容(字詞句)完全不改變;其他的轉換例子包括轉換情緒......
語音翻譯(Speech Translation)
這裡指的是將語言甲的聲音信號轉成語言乙的文字內容,可以想像成是辨識聲音之後,再將結果翻成另一種語言。這在過去的想法就是要將兩台機器串接起來......
後記
這部分所記錄的事仍是現在進行式。琳山老師說,他在電機二館531室的語音實驗室,是在1986電機二館第一階段落成時分配到,並遷入使用的,之前則在幾棟舊樓間流浪......