邁向永續新里程 臺灣客語語料庫試用版上線

日期 : 2022-01-05 單位 : 英文系
【英文系訊】
由官方帶頭建置之國家型語料庫《臺灣客語語料庫(試用版)》於2021年12月24日開放試用。客家委員會自2017年底委託本校團隊:計畫主持人英國語文學系教授賴惠玲、共同主持人資訊科學系教授劉吉軒及傳播學院教授劉慧雯,以跨領域、跨學科方式攜手合作,並由具有AI語言科技及語言數位學習平台產業經驗的的龎帝數位資訊有限公司擔任技術支援,共同建置華語之外第一個本土語言語料庫(網址為https://corpus.hakka.gov.tw/)。

本語料庫同時收錄書面語料、口語語料,涵括四縣、海陸、大埔、饒平、詔安、南四縣六種腔調,目前累計書面語料580萬字、口語語料34萬字,皆依語式、文類、主題、載體四個屬性標籤分類。語料蒐集涵蓋1990年代迄今之文本,由受過教育訓練之專家進行資料清理,包含用字轉寫校訂與轉寫標記加註,並標示斷詞標記;口語語料另提供音訊播放功能,供使用者依語輪點選時間戳記聽取音訊內容。目前收錄之書面語料內容包括散文、小說故事寓言、辭典例句等,而口語語料內容則有會話、敘事、戲劇、演講等。語料庫應用之範圍涵蓋學術研究及教育學習等,專家學者可探究客語的詞彙搭配及詞頻表現;地方文史工作者可獲取口述歷史語音文字紀錄,作為客家文化、社會調查等研究素材;教學者可依不同主題或文類,進行專題教學演示;至於學習者則可選擇特定腔調,認識客語詞彙及文句。

本語料庫系統具有多項功能,第一,資料視覺化與多媒體展示,於入口網頁設置客語常用詞文字雲、客語特色詞彙展示,將相關資訊視覺化,方便民眾快速瀏覽客語常用詞彙;同時設有「口語人物誌」,以多媒體形式展示本語料庫所收錄之口語語料。第二,語言典藏與保存,透過書面語料及口語語料的蒐集,完成前述臺灣客語六種腔調的基礎保存,其內涵包括保存語言資產、展現語言多樣性、紀錄語言生命等多面向。第三,教學研究與數位化應用,語料檢索系統及客語斷詞及詞性標注器之設置,不僅能作為客語學術研究、教學推廣使用,更是完成臺灣客語的數位接軌,建立語言資料與資訊科技介接的管道,提供大數據分析能力,亦為後續臺灣客語數位應用的重要素材。

《臺灣客語語料庫(試用版)》預計於2022年底收錄書面語料達600萬字、口語語料達40萬字,希冀藉由語料庫的建置,典藏臺灣珍貴語料,永續保存客語與客家文化樣貌,同時也讓客語與時俱進,邁向新的里程碑。