成果饗宴

出版品

《小學堂文字學資料庫的研發與應用》書介

VOL.01 | 2018.09

文/祝平次

清華大學中國文學系副教授

使用「小學堂」網站和閱讀《小學堂文字學資料庫的研發與應用》前面幾個篇章是兩種截然不同的經驗。使用「小學堂」的時候,常常會為畫面的簡潔和使用的方便而感到驚豔,而閱讀這本解釋「小學堂」的歷史與設計結構的文字時,不免令人感到枯燥無聊。然而,我們若是結合這兩種非常不同的經驗,就可以了解要設計一個好的研究平台,尤其是像「小學堂」這樣的基礎研究平台,究竟是怎麼一回事。

在前面幾個篇章裡,作者莊德明先生精要地回顧了「小學堂」的歷史、系統和介面的設計、資料的結構和程式的構成,也大量地使用了圖表,幫助讀者更好地理解作者所要說明的事項。

就歷史而言,「小學堂」是一個緜亙20多年的工作,若考慮到中文字和電腦的關係,可以說作者30幾年的研究生涯,在其業師謝清俊先生的指導下,都奉獻給了這個小議題。然而這個小議題,範圍雖然小,影響卻非常大。

從1980代初期,個人電腦開始普及化的時候,怎麼處理異於拼音文字而數量繁多的中文字元,就是發展中文電腦系統的一個大問題。如果這個問題不能解決,則中文資訊就難以處理。在書中,可以看到最後建議的處理方式就是利用漢字構型碼來解決電腦中文系統中文字不夠多的問題。也就是利用類似於一般使用的倉頡碼,來描敘一個字的組成。一個中文字可以被拆成幾個部分,每一個部分都是一個部件,再依照位置或部件的筆畫,就可以組成一個字的編碼。有了這套機制,可以被描述的中文字的數量就大大地增加,而中文系統的缺字問題也可以得到有效地解決。

解決缺字的問題比較是電腦系統技術性地思考,怎麼樣利用電腦資訊的技術去呈現一個個中文字的形音義及其歷史,那就不是單純的技術問題,而是需要另外結合堅實地專家知識,才有辦法加以實現。在書中,作者一再致意於與文字學領域的陳昭容老師、音韻學楊秀芳老師長時期的合作關係,才使得「小學堂」融合專家知識與使用便利簡易的特色可以充分展現出來。這種合作關係不但需要兩位頂尖學者無私地奉獻,也需要跨領域知識地溝通,再加上歷經的時間長久、工作成員的更替,可以想像這樣的合作計畫,在許多方面都會面臨不少的挑戰。而「小學堂」能夠公開上線,證明了這些挑戰都已被克服。作為合作計畫鏈結核心的作者,自然功不可沒。

如果說長時期的合作關係的挑戰,是人和人之間的挑戰;那長時間發展一個系統就是技術和知識的挑戰。在系統說明的幾個篇章裡,可以看到在有限資源的情況下,作者作為主要系統設計的角色,怎麼樣費心維持不同時期的研發成果。這些系統不同面向的說明,讀起來雖然有些枯燥,但卻是了解系統現狀,現狀背後所要顧及的問題,及將來可以再做統整的地方。尤其字形、字音系統的建置各有各的知識考量,也有不同的建置歷史。如何會通與呈現,都是問題。就字形來講,有甲骨文、金文、戰國文字、小篆、楷書五類,戰國文字下又分三類。字音也有上古、中古、近代、現代以及域外譯音(尚未輸入)五類,不同類別下又有時代、地域與擬音系統的差異。有這麼多可以設定的不同條件,怎麼樣讓使用者可以簡便地檢索到自己所要的字形、字音,又可以進行不同類別的比較,乃至於可以看出時代或地域的不同演化,都不是容易解決的問題。

就發展階段的承接而言,大量為非楷書字型的造字,在還沒有替代方案之前自然無法放棄,形成目前系統無法完全轉至萬國碼(Unicode)的情形。資料輸入系統,仍然承襲舊系統的方法,輸入資料後再滙入新系統。而複雜的字音、字型類別,則在巧妙的進階查詢介面設計下,讓使用者可以在介面的指引下進行查詢。後台系統的不得不然,和前台介面的追求優異,就和本文開頭所說的反差類似。這也展示了作者作為技術工程師對於優先順序的判斷,有了這種判斷,才能夠決定有限的資源要怎麼安排,才能使計畫目標達到最大的效益。這樣的判斷也展現在目前系統尚沒有整合入字義的現象。字義的歷史,一方面更為複雜,另一方面因為已經有不少可資利用的線上中文字、辭典,所以在系統裏,目前只以提供線上鏈接的方式來呈現。

「小學堂」中的「小學」應該取義自清代樸學的傳統對於個別漢字在形音義三方面的探究,而這種探究也彰顯出於對於基礎知識的著重。而清代從事樸學的學者,也常常是學貫古今、識通東西的大師。畢竟基礎穩固,才有辦法行遠建高,就這個意義而言,小學不小,「小學堂」亦然。在第六章第三節的使用者證言裏就可以看到「小學堂」對於研究和教育的影響。一個研究平台系統,可以收到這麼多願意形諸於文字的衷心讚美,很不容易。

在結論的部分,作者說出了30年研究經驗的結晶,以及對於未來的展望。其中尤其令人感動的是,透過這漫長的研發過程,作者所結識的師友情誼。這樣的情誼建立在為著一個共同目標而協同努力。這個目標,在於建置一個幫助他人研究、教學的平臺。這樣的情誼,是一種美好而長久的因緣。首頁中,王心怡的古圖象文字似乎就是在描繪如是的因緣。然而就平台本身而言,怎麼再加以維護,或怎麼達到它更好的效果,作者也有所考慮與建議。畢竟對的人在對的時機一起合作,是難得的機會。而這樣的機會,得以克服種種的難關具現成為「小學堂」現在的風貌。然而「難得」也意味著不是常常有。將來怎麼可以更上一層樓,解決前面所說的一些不得不的優先性考慮下的權宜措施,或是能將字音、字形內部的系統,以及字音、字形本身再做一個更好地統整,都是期待於後來者能繼續接力的地方。對於這些問題的揭示,以及未來發展方向的期待,也顯示了作者謙虛不居功的胸懷。這種胸懷,再加上前文所說,幾個讀起來比較乾枯的篇章,其實是精確細緻規劃過程中的謹嚴與耐心。這些都是一位技術工程師的美德。當然,這本書所涵蘊的不只是作者個人的美德,也是在鼓勵競爭的學術機制下,臺灣中文學界值得驕傲的一次合作研發的紀錄。

《小學堂文字學資料庫的研發與應用》
作者:莊德明
出版單位:中央研究院數位文化中心
出版日期:2017.12

國內最大的文字學資料庫「小學堂」,24年研發經驗集結成冊!小學堂收錄22萬個字形、134萬筆聲韻資料及36萬筆字書索引,一目了然的古今漢字形體演變為國際文字學界所稱道,迄今已突破1,000萬次網頁瀏覽量。本技術報告描述「小學堂」的發展歷程、系統架構、操作界面及內部資料庫設計等。

企劃/林郁靜
圖片後製/葉恩慈