專題

數位人文平台風潮來襲

盼共創臺灣人文研究新典範 中研院數位人文研究平台10月吹響集結號!

VOL.01 | 2018.09 文/房翠瑩

在中國醫藥大學博士論文口試現場,臺東基督教醫院中醫科主任黃俊傑以《關格一詞名義源流考》一文進行申論。「關格」,可代表病名、脈象、危候等,主要病徵為大小便不通及吐逆。但究竟關格病是否如前人所言,基本上與小便不通較為相關,而與大便不通的相關性較低,現場對此有一番爭論。

這時,口試委員之一中央研究院歷史語言研究所特聘研究員林富士拿出一張圖表,上頭紀錄的是在「中研院數位人文研究平台」上,利用「關聯共現詞統計」工具,使用橫跨約2,000年的123本中文醫書如《普濟方》、《醫部全錄》等,找出與「關格」一詞最常共同出現的藥物名稱,而得出的結果——與關格病在同一段落共同出現的藥物排序第一名是大黃。這意味著,大黃在治療關格病的用藥機率高,而此藥主要療效為促進排便。由此或可推論,在中國歷代重要醫學論述與臨床診斷,大便不通與關格病的相關性頗為顯著。

這為黃俊傑的關格研究開啟了另一種可能,提供了更多思考空間。他相信,持續將數位人文研究平台所得結果與現有研究成果交互思辨,必能將關格病梳理得更清楚。

數位人文研究平台」,是中研院數位文化中心耗時近2年所研發的雲端平台,兼具資料開放存取與多人協同研究機制。研究者不僅能上傳文本與權威詞,更可自由加入不同主題的研究群組,結合平台內部的既有豐富史料與其他研究者匯入的開放資料,運用文本自動標記、詞頻統計、相似內容比對、關聯分析、時空整合呈現、資料視覺化等工具,進行文本資料探勘,發現新的知識脈絡。

此平台的幕後推手為數位文化中心召集人林富士。藉由「數位人文研究平台」的建置,他已默默為臺灣的人文研究勾勒了壯麗前景。

「我們的終極目標,是希望創造一個新的人文研究典範。」他指出,「數位人文研究平台」所負任務,不僅是協助研究者釐清研究中的若干疑慮;中研院所要做的,是替臺灣人文學創造研究的新工具,促使人文研究者使用新的研究方法及研究途徑,進而探索新課題。

數位人文學(Digital Humanities),是傳統人文學受「數位革命」洗禮後誕生的新生命,自21世紀興起後即蓬勃發展。作為一門結合了數位科技與人文研究的學問或學術領域,其主要旨趣即利用數位科技探討及解決人文領域的問題,或探索、反思數位科技如何形塑人文世界。

在那個風起雲湧的時代,國際間許多古籍被數位化成資料庫,漢籍全文資料庫中國歷史地理信息系統項目(CHGIS)Kanripo中國歷代人物傳記資料庫(CBDB)中國哲學書電子化計畫(CTEXT)CBETA等爭相問世。晚近10年,各種數位工具如MARKUS、PLATIN、Recogito等亦紛紛推出,且在學術研究上扮演日益吃重的角色。近年來,「研究平台」更成為數位人文領域的網絡基礎設施發展主流。

研究平台,簡單而言即指結合電腦運算、資料視覺化等研究分析功能的數位平台。不僅逐漸有一些過去純粹提供文本內容查詢的傳統資料庫,加強自我裝備,嵌入了分析和視覺化工具,進化至此角色,如CText、CBETA等,研究平台發展至今,更已具備多種樣態。根據哈佛大學副教務長、國際知名漢學家包弼德(Peter K. Bol)的觀察,目前國際間的數位人文研究平台約可歸納為三種模式,即個人化平台(研究者能通過平台建立自己的資料庫,如臺灣大學數位人文研究中心所研發的DocuSky)、聯邦式平台(由不同機構聯合而成),以及提供使用者探索後設資料來源的平台。

自2016年起著力推動數位人文學研究的中研院數位文化中心,自然亦不自外於此國際潮流。其所打造的「數位人文研究平台」,預計將於今年10月正式開放外界使用。

集結數位人文研究社群,尋求臺灣人文學新突破

「數位人文的新趨勢,重點在於新工具。但無論在詞頻分析、地理資訊系統(GIS)的導入,甚至社會網絡分析(SNA)工具的開發,或數位工具與內容的結合、議題的創造、問題的設想,臺灣幾乎都是跟隨者,或別人工具的模仿者、學習者、使用者。」

臺灣的數位人文學發展晚於歐美,就林富士看來,臺灣在數位人文國際發展趨勢中,至今仍相對落後。「但沒落後很遠,是緊跟在後面,至少我們的學習能力很強。」

也有人認為,臺灣至少在漢字資料庫的使用,是遙遙領先的。他表示,綜觀國際上以漢籍或漢字資料為使用主軸的數位基礎設施建設,CBDB龐大惟有其局限,而臺灣已產生國家圖書館通用型古籍數位人文研究平台,以及法鼓文理學院的CBETA等。「在純粹的文獻的傳統上,臺灣確實可能是光榮的。」

「可是,這樣的光榮有沒有產生具體的研究成果,讓傳統人文學者看了大吃一驚或高度讚美?似乎沒有。」

數位文化中心召集人林富士希望藉由中研院數位人文研究平台,向西方看齊,為臺灣人文研究掀開新頁。

林富士指出,西方的人文研究與數位工具的結合,已遠超過我們。在那裡,文學史的研究新典範已然誕生。他們以「鳥瞰」(Distant Reading)的方式研究文學史,讓大量文本透過電腦運算,得出嶄新研究結果;他們利用書信產生的社會網絡分析,去了解重要社會精英之間的人際網絡,或人類文明中心的轉移。

「他們的研究已讓傳統人文學者產生危機感,說這個我們(傳統人文研究)做不到,可這是有意義的,會改寫他們對文學史或文明史等等的認知。」

甚至西方的人文研究也已運用光學字元辨識技術(Optical Character Recognition, OCR)、群眾協作(Crowdsourcing),打造手寫稿的辨識與共編系統。很多小故事讓人驚艷。「可是,在臺灣我們似乎找不出這樣的故事。」

他感嘆道,這些技術臺灣學者掌握得都很快,但真正去實踐的例證不足。

因此,數位文化中心希望藉由「中研院數位人文研究平台」的建置,集結一個新的社群,也就是「數位人文研究者社群」,共同為臺灣人文研究創造一個新典範。

「我們共同來追求一個突破,而這個突破需要人文學者的加入,也需要資訊學者的加入。」

內容與工具脫鉤,提供雙向互動功能

其實,一路伴隨臺灣走過數位文化建設工程的林富士,早在2013至2015年參與國科會人文處(科技部人文司)的「數位人文主題研究計畫」期間,就已提出建置數位人文研究平台的構想。

他娓娓回憶道,其時該計畫參與者如臺灣大學數位人文研究中心主任項潔、清華大學中國文學系副教授祝平次等,皆有感於臺灣「數位典藏十年」雖為國家累積了近560萬筆數位成果,惟在應用上似未能達致整體性突破,究其原因,應為缺乏數位工具的開發與配合。其後該計畫在臺灣數位人文研究的推動上,亦面臨同樣的問題。「資訊技術人才所開發的數位人文工具,與數位人文學者要用的,不見得能相吻合。」

當時傳統人文學者常用的既有資料庫,無論是中研院的漢籍全文資料庫,或商用的中國基本古籍庫、中國方志庫等,在他看來,內容都極好,檢索介面亦易於操作,惟存在四個問題。一是剛性結構,即資料庫的內容與工具是「綁死」的。二是單向操作,使用者無法將其利用此資料庫的結果,反饋至該平台。三是研究者仍需停留在個人的、單打獨鬥的層次,難以在平台上與他人分享研究內容,或線上組織團隊共同進行研究。四是資料庫管理者無法獲知個別使用者的使用行為,難以藉此了解平台的優缺點。

「那時我就深深覺得,臺灣的數位人文基礎建設尚未真正做好,缺了一個東西,就是數位人文研究平台。」林富士表示,這個平台至少需突破當時資料庫的窠臼。首先,須打破剛性結構,讓使用者可視研究需求,自由、彈性地選擇所要利用的內容及工具。再者,須提供雙向互動功能,如讓使用者也能即時修改或新增權威檔。此外,群組合作的協作研究模式亦是必需。平台本身也要能了解其使用者,以藉此進行各方面的改善。

可惜,這個構想未能在「數位人文主題研究計畫」中付諸實踐。直到他於2016年接任中研院數位文化中心召集人後,數位人文研究平台的研發,才真正鳴笛出發。

力求功能齊全、技術水準達人文學者高標需求

接下「數位人文研究平台」研發工作重擔的,是數位文化中心資訊總監王祥安及專案經理李祐陞。儘管任務難度高,兩人仍一步一腳印,在短短2年內,積極打造符合林富士所訂下四個方向基調的「功能齊全型」研究平台。

由於中研院是臺灣最高學術殿堂,身負引領臺灣學術發展的使命,林富士的初衷是要「替全臺人文學者建立一個共同的研究平台」。因此,在平台功能打造上,秉持的是「別人有的,我們一定要有;別人沒有而人文研究者有所需求的,就要創造出來」的原則。

於是,他們的雙眼緊盯著國際相關平台與數位人文研究,一發現有助於提升研究質量的優質工具,即進行研究與測試;國際間未臻理想水平的,則想方設法自行或結合中研院其他單位力量進行研發。譬如,他們所發展的「中文古籍影像文字辨識技術」(OCR),對版面較不復雜的刻本文字,辨識率即達九成以上,高於現有商用軟體與開放源碼軟體。另亦以中研院資訊科學研究所發展的「自然語言處理技術」,提高文本自動標記功能的正確性。

在此努力下,文本自動標記、詞頻統計、相似內容比對、關聯分析、時空整合呈現、資料視覺化等工具,逐步整合至「數位人文研究平台」中。


中研院數位人文研究平台功能簡介。(資料提供/王祥安;編輯製作/房翠瑩)

不過,王祥安坦言,現在的人工智能(AI)技術或資訊技術,其實未能完全滿足人文學者的需求。「像中文古籍影像文字辨識技術的正確率已達90至95%,我們覺得很不錯了,可是人文學者告訴我,這還不能用,正確率須達到99%以上。」

文本自動標記功能亦面對類似問題。故平台技術團隊正積極提高相關工具的效能,務求盡量符合人文學者的期待值。

數位文化中心資訊總監王祥安(右)及專案經理李祐陞聚精會神,討論如何提升數位人文研究平台的功能。

「在某程度上,我們扮演的是一個溝通者或協調者的角色。」林富士表示,人文學者帶著問題、研究需求而來,數位文化中心則結合資訊科學家,一起迎向挑戰。

未來「數位人文研究平台」將導入中研院資訊所助研究員馬偉雲所研發的「自動化文本標記權威詞技術」,以及研究員何建明的「相似古文語意偵測」機制。

統一文本資料格式,開放線上協同研究

「研究者只要有了帳號密碼,就能自由使用平台內的開放資源,包括漢籍的內容。」中研院數位人文研究平台本就朝著開放的精神前進,除了設置多種數位工具供使用者免費使用,內容的開放性及品質亦是一大亮點。

目前該平台已匯入中研院史語所漢籍全文資料庫工作室所提供的二十五史、中醫藥籍123本、正統道藏等古籍文本,以及法鼓文理學院CBETA的佛學典籍、日本京都大學Kanripo的漢籍資料,共18億字。未來將持續新增《中文大辭典》的物名,以及道教權威檔等。

林富士說明,CBETA與Kanripo的文獻本身即為開放性資料,只要標註資料來源,使用者就能自由下載與運用。至於二十五史等漢籍內容,中研院史語所已同意讓使用者在平台內自由使用。

「我們的平台強調的本就是社群參與,目前內容資料正處於建構、形成的過程,對社群內部是完全開放的。」

至於研究者所匯入的文本,除可設定僅限本人或研究團隊使用,亦可開放予其他使用者使用。此舉的用意是,文本資料建置工作相當花功夫,既然已有研究者先行建置,開放予他人使用,或能達到站在前人肩膀上做研究的集體加乘效果。

中研院數位人文研究平台目前已匯入約18億字文本資料,開放研究者使用。

除了開放性,「數位人文研究平台」的內容品質或值得一書。王祥安指出,中研院史語所所提供的漢籍內容,是過去數位典藏時期「花錢請人打字」,並經數次校對,過程嚴謹,故正確性高。此外,漢籍內容結構層次分明,該平台亦沿用其分為冊、卷、章、節、段的資料格式,有助於研究者瀏覽閱讀。

「為了讓研究者可直接運用平台的既有資料,我們花了蠻多時間和力氣將資料格式各異的CBETA、Kanripo文獻,整理成統一的、可供平台運算的資料格式。而為了方便研究者直接從MARKUS匯入資料,我們也重新理解MARKUS的資料產出架構。」

他笑道,對於讓資料在不同工具或平台間得以互通的「標準」,目前國際間尚未形成共識,「數位人文研究平台」只能先行展開第一步。

未來該平台將公佈匯入資料的標準。若資源許可,或將提供不同格式的文本資料轉入服務。

韓國將入世界檳榔文化地圖?善用平台展研究潛力

只要建立了基本權威檔,數位人文研究平台即可分析巨量資料。林富士強調,此一特性有助於為臺灣促成、創造一個新的人文研究典範。

所謂人文研究新典範,即有別於傳統人文研究的「一種新概念」,可體現於工具使用、方法使用及研究途徑的突破,或新研究課題的創造、新研究結論的獲取。

「譬如說,現在的歷史學很少能夠一做2,000年,但透過數位人文研究平台,我不需要是斷代的專家,就可貫穿長的時間點,觀察檳榔從漢代傳入中國到當代的變化過程,如地域的擴散與縮小、使用檳榔的社會階層及應用範圍、或貿易的移動等。」

長期從事檳榔文化研究的他直言,若不使用數位工具,這樣的跨代研究難以進行。

由於「數位人文研究平台」擅長鳥瞰式的觀察,並可導入社會網絡分析、GIS等工具,故特別適合進行探討人、事、物在時間及空間的分佈,以及勾勒主要發展趨勢和重大變遷的研究,也有助於探討資訊、知識、資源、權力等如何在人際網絡中產出與流轉。

雖然林富士目前尚未真正在「數位人文研究平台」投入專題研究,惟從他在平台上進行的小小檢測,或可看出此平台促成人文研究新典範的潛力。

「韓國本身沒自產檳榔,全世界研究檳榔文化的分佈圖中,韓國永遠是空白的。」然而,他指出,若以用藥來看,單純從平台上的韓國藥籍《醫方類聚》及《東醫寶鑑》,就可看出韓國從對中國醫藥在觀念上的接受,到融合本土和中國醫學發展出東醫傳統的過程中,檳榔實則已在東醫體系站穩了藥物應有的地位。

《醫方類聚》是朝鮮世宗命人輯錄152部中國和1部高麗的醫藥典籍,編撰而成的大型醫藥叢書,收錄醫方5萬餘首,共950萬字。根據平台的權威詞統計分析,此叢書提及「檳榔」的次數為2,896筆。「如果用傳統方式查詢,幾乎不可能查出,可是我們的平台在幾秒鐘內就能告訴我答案。」

而同樣由朝鮮世宗命人編修、主要借鑑朝鮮本國醫書編撰而成的《鄉藥集成方》,則不見「檳榔」蹤跡。這顯示其時朝鮮醫學界分為二派,一派堅持以在地藥材治病,另一派則主張向中醫取經。

「再到平台上檢測100多年後成書的《東醫寶鑑》,可發現『檳榔』已然入書。」《東醫寶鑑》由朝鮮宣祖御醫許浚所編撰,其問世確立了「東醫」之獨立地位,「檳榔」入書意味著朝鮮醫學最終還是接受了此藥物。

「如此一來,也才能證明,韓國其他文獻所提及,當時朝鮮有在進口檳榔,究竟是用來做什麼?原來當時已有臨床用藥的需求。」

林富士表示,通過「數位人文研究平台」的資料統計分析,結合其他文獻進行解讀,可得出一個新結論——韓國並非沒有檳榔文化。「朝鮮半島應納入世界檳榔文化的一圈,這個地圖馬上就要改寫。」

透過中研院數位人文研究平台的資料分析,韓國或將列入世界檳榔文化地圖。(原圖提供/「紅唇與紅唇與黑齒:檳榔文化特展」網站;後製/葉恩慈)

整裝待發,吹響集結號

當數位科技逐漸成為學術日常,我們也許得進一步想像,臺灣人文學未來可以是怎樣的一幅景象。在傳統人文研究之外另闢蹊徑,建立不一樣的、更具新意的研究範式,或將為此領域注入新活水。而中研院數位人文研究平台,可在其中扮演集結社群、與研究者共創另一種研究可能的角色。

為容納規模龐大的內容資料、線上多人協同研究機制,此平台已做好準備,確保系統運作效能。如同Google般,採用多機器的「分散式架構」、嶄新的「GPU圖形處理器」技術,在每台機器上「設置超過一萬個心臟」,來處理研究社群的需求。

做為一個內容、功能都將持續建置中的有機體,「數位人文研究平台」期盼與使用者相互砥礪,一起成長、茁壯,終有一日能與國際比肩。

因應未來的多媒體世界,此平台將積極往圖像、影片等多媒體分析方向前進。屆時,其將與數位文化中心所研發的「開放博物館」結合,成為一個既能策展又能進行研究的整合型平台。

人類文明的革命已然發生,數位發展的洪流一直在走,中研院的使命是引領學界過渡至數位新世界,成為數位原住民,並開創新典範。

中研院數位人文研究平台的列車,即將上路。

歡迎搭乘。

攝影/林郁靜
刊頭圖片後製/葉恩慈

分享