專題

數位人文平台風潮來襲

跑吧!權威詞 廖宜方團隊的《太平廣記》研究靈感催生札記

VOL.01 | 2018.09 文/房翠瑩

假如我們今天要寫「唐代一張紙的生命史」,把一張紙怎樣從誕生、與兄弟姐妹分開,到最後可能變成了紙錢被燒掉、被拿去包屍體,有的可能經過加工變成很精緻的紙,用來寫聖旨或佛經等,是可以的。將此過程串起來,確能呈現唐代社會百態的一個側面。

以前,傳統人文學者可能要花10年才能寫出這個題目,因為他不會去用「檢索」的方式,他必須用讀的,寫小卡片時需先設好「紙」這個分類。

現在我們可用電腦處理,透過數位人文研究平台,也許在一、兩年內就能做出此題目。當然,過程中研究者還是需有清楚的構想、背景知識,以及處理資料的邏輯。人最好還是帶著非常清楚的頭腦,來善用這個工具,才能呈現出其應有的強大功能。

當研究者未必只有、或尚未形成特定而單一的問題意識,在閱讀資料的過程中,就如同漫步於資料的雨林,入目的是千變萬化的林相。數位人文研究平台最大的作用之一,就是協助研究者在詞語組成的密林中,在資料所呈現的百態中,找到焦點。

這是中央研究院歷史語言研究所助研究員廖宜方率領研究團隊,進行「中國中古地方祠祀中人物信仰的性格與發展」計畫一年多以來,所產生的體悟。

該計畫隸屬於科技部「人文研究的數位化——從個別研究到整合平台」計畫,以《太平廣記》為文本,結合歷史學者杜正勝所著〈什麼是新社會史〉的分類系統、依史料需求而增設的分類表,演示研究者如何於MARKUS上閱讀文本、標註關鍵詞,並利用Excel分類和管理個人的關鍵詞庫。及後關鍵詞清單被上傳至臺灣二大數位人文平台——中研院數位人文研究平台、臺灣大學DocuSky,進行數位人文分析。

專研中國史、隋唐史的廖宜方坦言,要用何種方式閱讀資料、撰寫筆記,是他從大學時期起即困擾已久的問題。「所謂筆記,其實就是研究者的想法。當想法太多時,若無法有效且快速地分類及整理,就無法將之進行排列組合,也就無法滿足做研究的需求。」

歷史研究者的想法,多半與資料有密切關係。因此,他在今年6月舉辦的「如何在詞語的密林中分類萬物?——文本標註與關鍵字庫之管理與應用的數位人文學工作坊」中指出,執行該計畫的目標有二,一是為過程繁複(如使用大量資料)的研究,設計出一套簡便、有效的工作程序。這包括了如何標註資料中的關鍵詞、為關鍵詞進行分類,以及管理關鍵詞等。

中研院史語所助研究員廖宜方在工作坊中闡釋將計畫標註成果應用於數位人文平台的目的。(後製/葉恩慈)

其二為內容性的目標。他希望透過《太平廣記》,了解唐代的社會生活。《太平廣記》是宋代李昉等人編纂的大型類書,專收野史及小說雜著,共500卷,按題材分為92大類,收錄故事7,118則。其中以神仙、鬼、報應、神、女仙、定數、畜獸、草木、再生、異僧、徵應等11類,約佔全書之半。

他笑言,這套涵蓋中國漢代至宋初的大部頭故事書,充斥著各式各樣的謠言、小說、八卦等,內容生動有趣,歷史學者一般不使用此批材料,惟其卻具有極高的史料價值。

「我們可將《太平廣記》想像成電影的大全集,裡頭有愛情片、英雄片、殭屍片、政治片、紀錄片等。若20世紀的電影可反映20世紀的時代,那麼《太平廣記》就可以反映唐代。」

然而,如何在量多、主題分散的史料中,增進瀏覽的效率,並發掘有趣的議題?傳統的方式不外乎三種,一為地毯式瀏覽,此舉可靠,但面對7,118則故事,不僅費時,還頗具難度。二是從目錄入手,這有助於縮小瀏覽範圍,惟不盡可靠,因為目錄的分類並非絕對。以《太平廣記》的「再生」(復活)資料而言,若僅從目錄檢索再生類的故事,也許就遺漏了在「情感」、「鬼」等其他分類下關於再生的記載。三為資料庫關鍵詞搜尋,此方式效率極高,但研究者一開始要如何得知哪些關鍵詞是重要的,則是個考驗。

基本上歷史研究者皆綜合應用以上方式,兼取其優點。不過,廖宜方研究團隊想要探討的,是更多新的可能。

浩繁文本化作權威詞 應用於中研院數位人文研究平台

「權威詞像是我們用來觀察史料的一副眼鏡,有助於過濾出與自己的興趣相關的主題。」

畢業自臺灣大學中文所的周永蕙是廖宜方的計畫研究助理,初時與歷史所博士生胡馨怡、政治大學中文所博士生李俊安一起,肩負閱讀《太平廣記》,並搜羅關鍵詞的任務。

以〈什麼是新社會史〉的分類系統表為基礎,建立《太平廣記》的權威詞。

至2018年3月底,他們已進行至第一百二十卷,標註了逾17,000筆關鍵詞,可分為19大類,再加上1至2階層的細部分類,組合起來約達200個分類。這些分門別類的關鍵詞,即為權威詞。建立如此大量的權威詞,究竟對研究有何用處?又能如何進行後續應用?恰逢臺大數位人文研究中心與中研院數位文化中心先後推出DocuSky、中研院數位人文研究平台,廖宜方團隊想要知道,這些工作成果若應用至此二平台,到底能獲得什麼,又能否觀察到唐代若干歷史現象。

中研院數位人文研究平台是兼具資料開放存取、多人協同研究機制的雲端平台,研究者可上傳文本與權威詞,並運用文本自動標記、詞頻統計、相似內容比對、關聯分析、時空整合呈現、資料視覺化等工具,進行文本資料探勘。其時該平台雖未完成開發,惟廖宜方團隊被數位文化中心召集人林富士「徵召」,率先進行測試應用。

廖宜方研究團隊不時召開會議。

於是,那17,000筆權威詞,被匯入至平台。如「宗教信仰—教派信仰—佛教」分類下有「三藏」、「五蘊」、「比丘尼」等與佛學、僧人、法器、法會有關的詞彙,「日常生活—飲食—飲食器具」分類下有「土鍋」、「油囊」、「葫蘆」等詞彙。

負責將文本標註成果整合應用於中研院數位人文研究平台的周永蕙指出,權威詞的分類越細緻越好,一來有助於過濾掉不相關的材料,二來將提升資料視覺化的呈現效果。

「我們的權威詞分類多達3層,中研院數位人文研究平台可直接建立多層分類架構的權威詞。在此平台上線前,我們做完MARKUS標註,還需借助Excel才能完成後續程序。」

文本資料建置後,研究者在瀏覽時可根據需要,勾選不同類別的權威詞。「這不僅有助於定位資料的性質,當研究者已有特定關注的課題,但不確定要以哪一段文本為目標時,即可試著尋找自己較感興趣的分類標籤,藉此加快瀏覽的速度。」

此外,研究者及其團隊成員亦可隨時同步手動標註權威詞,並持續編輯權威檔。於是,研究者在平台上所建立的權威檔,也將益加完整。

中研院數位人文研究平台提供階層式管理、編輯及註解權威詞。(圖片提供/周永蕙)

「我們整理權威詞,就是要把權威詞當作『閱讀』史料的輔助工具,觀察出其中的歷史現象。」然而,數位人文研究平台如何才能真正達到此目的?其與一般習用的資料庫關鍵詞搜尋又有何不同?具備電腦演算、資訊視覺化功能的研究分析工具,或許就是答案。

藉紙錢諷官場? 利用權威詞挖掘潛藏的研究主題

權威詞統計、權威詞共現統計及地理權威詞統計,是廖宜方團隊在中研院數位人文研究平台上「主攻」的三大分析功能。

通過「權威詞統計」,即被選取的某組權威詞在特定文本範圍內所出現的頻率,研究者能快速找出值得注意的關鍵詞。譬如,在《太平廣記》的「道教」相關詞彙中,出現頻率最高的是「道士」,共769次;「日常生活—起居活動」類別中,最常出現的權威詞竟是「沐浴」。周永蕙表示,事實上「道士」也是整部書出現最多次的二字詞,由此可印證此書具有頗多關於道士或道教的材料,而「沐浴」多與宗教或祭祀的記載有關,這亦透露了文本的性質。

若中研院數位人文研究平台只能做到這一點,則與傳統的資料庫關鍵詞搜尋無甚不同。「要知道,有權威檔與沒有權威檔的一個明顯差別,就在研究者可能會發現一些『平常沒想到要去搜尋』的關鍵詞。」

舉例而言,以「宗教信仰—民間信仰—人鬼」進行權威詞統計,可發現出現頻率第一名的詞彙為「鬼神」(147次),這並不讓人意外,惟第二名是「紙錢」(53次),就非一開始所能料到,值得進一步觀察。

於是,她利用權威詞統計中的「再限縮查詢」功能,找出《太平廣記》中與紙錢相關的38則故事段落,並再篩選同一故事中的特定高頻詞。結果發現,「紙錢」與「政治權力」類別下的「使者」在6則不同故事中共同出現15次,與「官名」類別下的「判官」則在5則故事中共現12次。

以「權威詞統計—再限縮查詢結果」篩選同一故事段落中的特定高頻詞。(圖片提供/周永蕙)

為何《太平廣記》中的人物需要紙錢?進一步瀏覽這11則故事,可發現紙錢通常是人死後到陰曹地府接受審判時使用,有的甚至明言紙錢用以賄賂官吏。此觀察亦可在其他故事獲得印證,如卷四十〈神仙四十‧南岳真君〉的真君之言「紙錢即冥吏所藉,我又何須此」,即傳達出當時人的觀念——高階神仙無需紙錢,紙錢僅用於下層的冥界。

「研究者可以去想的問題是,為什麼?為何唐代的人要這樣去想像一個他們不知道的世界?」

人類智慧與人工智慧互補,是數位人文平台的核心精神。周永蕙強調,數位人文研究平台能從資料的雨林中,挖掘出一些研究者之前沒留意到的現象,提供若干問題意識或研究靈感,而對相關統計結果的詮釋、解讀,則仍需以研究者為主。

「以紙錢的例子而言,也許唐代人是在反映他們所遇到的官場狀況,那其實是對現實世界的一個諷刺。」

計畫研究助理周永蕙認為,《太平廣記》可能藉紙錢反映唐代官場的貪腐。

除了從一個目標詞彙著手,研究者亦可探討不同主題之間的關係。這時,「權威詞共現統計」即能派上用場。此工具可自由組合各種類別的權威詞,如以「藝文娛樂─品目─繪畫」與「宗教信仰─教派信仰─佛教」進行共現,馬上就可發現,唐代的佛教與繪畫共同出現在《太平廣記》許多故事中,而「壁畫」、「綵畫」、「屏風」更是唐代佛教美術的重要元素。

再以「日常生活─衣著─款式」與「宗教信仰─本土信仰─人鬼」共現,則可發現最明顯的詞彙多與服飾顏色相關,如「朱衣」、「紫衣」、「朱紫」等。回溯相關故事段落,這些服色通常是記錄冥間使者的穿著。

周永蕙說,「服色是根據官員的品級來制定,細究下去,我們又可以討論到,唐代的人是如何把人間的品級和秩序,套用至對於方外的想像中。」

以「日常生活─衣著─款式」與「宗教信仰─本土信仰─人鬼」進行權威詞共現統計。(圖片提供/周永蕙)

以「日常生活─衣著─款式」與「宗教信仰─本土信仰─人鬼」進行權威詞共現統計。(圖片提供/周永蕙)

人類智慧與人工智慧共舞 鎖定研究焦點

「《太平廣記》本身就是個百態,問題在於能否在這個百態中找到一個特別有意思的焦點,再行發揮。」

廖宜方在團隊接受專訪時表示,該計畫的工作成果透過數位人文研究平台的整合應用,確實有助於聚焦出具潛力的研究焦點,進而鎖定相關範圍。譬如,從「紙錢」的意外發現,即可再發想、拓展成「唐代一張紙的生命史」之主題方向,將唐代的紙張從被誕生、被使用、被儲藏到被毀滅的過程挖掘及串連起來。

又或者如「隋唐時代的大運河」,亦是相當值得探究的主題。惟他指出,想歸納出唐代水上交通或水上生活的整體面貌,絕非易事,《太平廣記》提供了許多背景資料,若以平台上的工具善加利用該計畫所建置的「交通工具」類別權威詞,或可在節省時間及人力成本的狀態下,探知相關歷史現象,繁衍敘述。

廖宜方認為,聚焦研究焦點、降低偏見是數位人文研究平台的二大作用。

「地理權威詞統計」為可利用的工具之一。其能結合平台的開放權威檔「地名」及研究者匯入的權威詞,在地圖上顯示特定主題的空間分布。以「日常生活─行旅─交通工具」下的詞彙如「小舟」進行分析,即可發現《太平廣記》中的小舟主要分布在南方。

若進一步將「舟船」、「泊舟」、「舟行」、「舟人」、「大船」、「樓船」等詞彙設在地圖上,就能較完整地掌握唐代的水路交通分布情形。

勾選「小舟」後,小舟的分布地點即一目了然呈現於地圖上。(圖片提供/周永蕙)

而在尋找社會歷史面貌的過程中,數位人文研究平台的另一個作用,是協助研究者看到資料中的偏見。廖宜方直指,《太平廣記》的資料未必全然客觀、透明及公正,如裡頭所描述的鬼或人大多可能道德感較低,所呈現的觀念未必足以真正反映事實,當研究者要從此文本去理解唐代時,應避免複製當中的偏見或不公正。

「透過數位人文研究平台的分析,可以消除或減輕這些資料所製造的一些怪異意象。」他說,只有把那些「莫名其妙的東西」都砍掉後,比較正常或合理的面貌才得以顯現。

從小卡片到數位人文工具大躍進

閱讀史料,是歷史研究者的學術日常。惟史料應如何閱讀,也是一門做不完的功課。

胡馨怡猶記得,大一時的第一堂課,老師派發一人一大疊小卡片,指導學生如何系統性地製作卡片、分類資料。短短不到10年間,史料閱讀「工具」即從小卡片過渡至數位人文研究平台,不啻為一個大躍進。

數位人文平台所具備的電腦演算功能,可簡化研究者的工作程序,使之得以處理更大範圍的資料。

而在資料的雨林中,以權威詞作為觀察史料的一副眼鏡,則有助於聚焦具潛力的研究主題,催生研究靈感。尤其當研究未形成特定問題意識時,也許將挖掘出潛藏的意外發現。

從小卡片到大躍進,數位人文平台能跑出怎樣的研究驚喜,端賴研究者如何有智慧地運用。

廖宜方研究團隊將繼續探索《太平廣記》標註成果的應用可能性。其目前於前一百二十卷所建置的17,844筆權威詞,將擇日公開於中研院數位人文研究平台。

攝影/侯名晏
刊頭圖片後製/房翠瑩

分享