專題

「開放」的行進曲

連結世界的下水道工程——鏈結開放資料(Linked Open Data)

VOL.02 | 2019.11

文 / 許逸如

國立臺灣大學語言學研究所博士生,研究領域為跨模態隱喻,擅長運用數位科技於研究與教學上。亦任職於《鏡週刊》文化組,擔任「知識好好玩」Podcast 頻道「語言好好玩」節目主持人。

若聽人論起「陳澄波」,只要在 Google 搜尋引擎上輸入關鍵字,不僅大量相關網站一次蹦出,右側的 Google 知識圖譜更列出其身分、重要事蹟、生卒年、教育背景等你可能有興趣的資料,甚至還「推薦」了相關的人物。換個關鍵字,輸入「Brad Pitt」,顯示的則是其身高、身價、配偶、小孩等,並「推薦」了其主演的電影。

在資訊爆炸的年代,一有疑問,上網求助「Google 大神」已是標準動作。「中央研究院數位文化中心鏈結開放資料實驗室」(LODLab, Academia Sinica Center for Digital Cultures)主持人陳淑君受訪時指出,Google 知識圖譜可根據「民眾關心的重要屬性」,自動判斷並呈現相關資訊,我們將這種資訊稱之為「智慧資料」(Smart Data)。而此類技術與近年因應 Web 3.0 語意網(Semantic Web)而興起的「鏈結開放資料」(Linked Open Data, LOD),息息相關。

LOD 是一種資料分享的實務方式,它將開放授權的資料拆解成可供機器讀取的語意資料,發布後任何人都能自由下載、重新使用或散布,產生新的數據、訊息、知識。近年來國際許多重要機構與組織皆在積極發展 LOD,如「國際線上電腦圖書館中心」(Online Computer Library Center, OCLC)所建置的「虛擬國際權威檔案」(Virtual International Authority File, VIAF)以及 WorldCat,皆以 LOD 技術串聯各地國家級圖書館,如德國國家圖書館、美國國會圖書館(前者統合了名稱權威紀錄,後者則為世上最大的圖書館線上聯合目錄)等,以形成巨大的世界知識庫。

臺灣數位人文科技起步雖早,惟因 LOD 需仰賴跨學科的整合與相當的技術、資訊量,目前投入的機構寥寥無幾,少數長期推動的,當屬中央研究院數位文化中心。其中的靈魂人物,即為領軍的陳淑君。

陳淑君為中研院歷史語言研究所助研究員,身兼數位文化中心執行秘書。一路陪伴「數位典藏國家型科技計畫」走來的背景,讓她能遊走於文化內容與資訊科技之間,進行跨領域的整合。談起近年來全情投入的 LOD,她兩眼發光,卻又不無感慨地說,「LOD 就像是下水道工程,雖然不如人行道上的樹木花團錦簇,卻是重要的基礎。」

若說完善的下水道設施是城市發展的建設指標,那麼 LOD 的發展能讓我們看到一個國家數位科技的進步程度。惟她惋惜道,由於 LOD 的「幕後」性質,加上難以在短時間內獲得明顯成果,導致目前較難廣泛讓人知曉其重要性。然而,在下水道的基礎打好後,LOD 勢將綻放亮眼的光采。

從陳澄波開始,讓臺灣與世界連結

陳淑君之所以投入發展 LOD,源於 2013 年暑假在美國蓋提研究中心(Getty Research Institute, GRI)訪問的經驗。

陳澄波是臺灣的重要畫家,她在訪學尾聲以其為題進行報告,赫然發現外面的世界不一定對「陳澄波」感興趣,卻會對「和自己有關」的事情感興趣。當她將陳澄波與西方藝術史連結起來,指出其畫風受「後印象派」影響,居然吸引了蓋提研究中心西洋藝術研究者們的目光,對陳澄波產生強烈好奇。「他們每次要唸我的名字都很頭痛,問我有沒有英文名字,卻可以將『陳澄波』三個字唸得字正腔圓!」

當時數位文化中心剛成立不久,承傳了「數位典藏與數位學習國家型科技計畫」所建置的數百萬筆數位內容。這次訪學讓她發現——若要提升臺灣在世界的知名度,不僅需珍惜、保存既有的資料與文化,更得將這些知識與世界連結起來,突顯臺灣在建置世界知識庫的重要性。

回到臺灣後,陳淑君率領數位文化中心團隊,整合了手中既有的「開放資料」(Open Data),建置「從北緯 23.5° 出發 陳澄波」網站。雖然該網站能透過關鍵詞連結,並結合互動式時間軸、地理資訊等數位工具,營造立體的時空脈絡,視覺化呈現陳澄波的畫作、書信、照片、剪報等,體現其所經驗的生命與時代,但她猶覺不足,「資料的呈現仍不夠動態、立體,且仰賴過多的人為介入,即不是由電腦自動識別資料間的關係並予以呈現。」

當時 LOD 的技術正興起。從「開放資料」出發,LOD 亦結合了「鏈結資料」(Linked Data)的優勢,強調以「詞彙」語意表達知識之間的關係,將眾多知識相互串接,形成立體、多元且全面的「知識本體」(Ontology)。

結合二者的核心概念,LOD 不但資料公開透明,更透過利用語意「鏈結」的方式,使資料能更有效地被使用、曝光,因而被評為「五星級」的資料模式。

她生動地以「樂高隱喻」來說明 LOD 的運作模式——每筆資料都是一個樂高零件,這些樂高都已發布在網路上供全球自由使用,人們可依自己的需求將零件與零件結合起來,組合成客製化的樂高模型(如圖一)。

圖一:以「樂高隱喻」說明 LOD 的運作模式。(圖片提供/陳淑君)

有感於 LOD 技術能讓臺灣與世界有更多連結,陳淑君自此積極投入相關實作與研究。「Linked Taiwan Artists」,便是數位文化中心植基於 LOD 核心精神所建立的「樂高」成品。它以陳澄波及其友人為主軸,藉由其就學、就職、畫會參與、作品參展等人、事、時、地、物的資料,形塑日治時期臺灣藝術發展脈絡的變化。有了過去「從北緯 23.5° 出發 陳澄波」的反思經驗,該網站不僅呈現藝術家的歷史與生命經驗,更進一步運用 LOD 技術,串聯美國國會圖書館DBPedia虛擬國際權威檔案、蓋提研究中心語彙集等國際資料庫,將「臺灣」本土的藝術與世界緊扣在一起。

她進一步舉例,過去使用者在「從北緯 23.5° 出發 陳澄波」(開放資料的網站),僅能從文字資訊獲知「陳澄波的畫作(如《自畫像》)風格受到梵谷影響很深」,卻能在「Linked Taiwan Artists」(LOD 類型的知識庫)更進一步連結到「後印象派」的外部網站汲取更多相關資訊(如圖二)。而其他人在搜尋「梵谷」或「後印象派」資料時,若相關資料也以符合 LOD 規範的結構發布,亦能據此找到「陳澄波」。LOD 雖是不起眼的下水道工程,但同時也是連結世界的橋梁,全球知識藉此緊密連結,讓別人覺得「有了你更完整」。

圖二:「Linked Taiwan Artist」於陳澄波《自畫像》之搜尋結果,不但能獲知該畫作受到梵谷影響,更提供「後印象派」的外部連結,讓有興趣的讀者獲得更多相關資訊。(圖片來源/Linked Taiwan Artists)

資料打掉重練!標準化為電腦可讀的三元組

LOD 能整合分散的資料與異質性資料,使資料更具探索性,滿足不同使用情境,達到資料再利用的效果。陳淑君說明,這是因為相較於其他類型的資料,LOD 具有結構化、標準化、脈絡化的特點,而這歸功於每一筆資料都被轉化為電腦可以理解的資訊。

以「陳澄波師事岡田三郎助」為例,這是人類可以理解的字串(string),若要變成讓電腦可運用的「事物」(thing),則需經過斷詞、自然語意處理、賦予統一資源識別碼(Uniform Resource Identifier, URI)等步驟。以下表格即是將上述資料從字串轉化成電腦可快速處理的事物:

Name陳澄波http://linkedart.ascdc.tw/lod/Person/PR0001
Teacher岡田三郎助http://linkedart.ascdc.tw/lod/Person/PR0012

電腦雖能提取上表各欄位的值(values),然而未經標準化的資料仍難以和世界連結。因此,LOD 要求資料需依照全球共同採用的語意詞彙規範來表達,以由「主體」(Subject)—「屬性」(Property 或 Predicate)—「客體」(Object)構成的「三元組」(Triple)來呈現。若以「樂高隱喻」解釋,它就是可以被使用的最小樂高元件。每個樂高元件(三元組)包含了一個「知識」的三個部分——Resource 是需要被描述的本體,Property Value 是與本體相關的資訊,Property 則用以描述兩者間的語意關係。下圖即是將「陳澄波師事岡田三郎助」化為三元組:

她表示,當全世界的知識皆以三元組的方式標準化呈現後,每個Property Value也可以再成為下一個相連組件的 Resource,以此連接出新的知識內容。舉例來說,上述「岡田三郎助」也可以透過 Property「Born in」、Property Value「日本」,形成一個新的三元組。

每一份資料都有獨特的「身分證」(即統一資源識別碼,URI),無論主動建立或是使用他人的 URI,資料能藉此與其他的知識鏈結起來,形成一個巨大的知識庫。如此一來,「陳澄波」便與「岡田三郎助」串聯起來,使用者可據此探索岡田三郎助之生平,甚至連結到日本近代美術史發展。

這就是LOD「開放並鏈結」的好處——雖由臺灣的人物陳澄波出發,但這份資料不是孤獨的存在,而是世界知識庫的一環。

自動推理、進行複雜檢索 LOD 功能一把抓

「除此之外,LOD 還有幾個重要優勢,包括了推薦、聰明推理、進行複雜檢索等」,陳淑君笑著強調。

如前文所述,LOD 可將一般的 Data 進化成「Smart Data」,好比一個聰明的「推薦」管家,不僅提供使用者原本所需的知識,更進一步提供其未知且可能有興趣的資料。重要的是,此服務皆由電腦自動處理,在彈指之間即可獲取大量知識。

LOD 的「推理」功能,也展現了其「Smart」的一面。過去的資料處理需仰賴典籍資料的佐證及人為的判斷,但電腦可根據 LOD 的語意關係,自行進行推理。以圖三為例,若根據典籍資料僅能知曉李梅樹、李石樵與陳進皆曾參加「奉公會」,然而 LOD 不需仰賴人為判斷,即可快速自行推測出三人為「會友」。

圖三:LOD 能自動推理出陳澄波 6 位友人的人際關係。(圖片提供/陳淑君)

過去要處理複雜的檢索,如畫家陳澄波有哪些以西湖為場景的不同創作階段之作品及其相關檔案?其中入選台展(台灣美術展覽會)的是哪幾幅?入選帝展(帝國美術展覽會)的是哪幾幅?需要花費許多時間及人力,進行多次檢索。惟在語意資料結構中,使用者能利用語意檢索(SPARQL)方式,來搜尋 LOD 的資料,即可快速且一次性獲取複雜的內容,包括人、事、時、地或物(如圖四)。

圖四:使用 SPARQL,快速進行複雜的檢索。(圖片提供/陳淑君)

她補充,LOD 亦能使用多元的手法,聰明地以視覺化呈現資料。以全球最大的圖書館資料庫 WorldCat 為例,LOD 不僅能提供書籍館藏資訊,還能結合網路地圖,自動替使用者找到距離最近的館藏地。又如芬蘭的 WarSampo,便是從記錄、呈現第二次世界大戰相關內容出發,現有資料集檢索介面除了可切換不同的視角(事件、人物、發生地等),更能在單一事件資料中,同時提供時(時間軸)、空(地圖)等相關資訊(如圖五),讓使用者能有效地找到所需的資訊。

圖五:芬蘭 WarSampo 網站的「Winter War Events」資訊,不但提供了時間軸,更有地理位置圖。(圖片來源/WarSampo)

宮保雞丁是丁寶楨發明的? LOD 擴大知識光譜

根據英國開放知識基金會(Open Knowledge Foundation)所公布的「全球開放資料指標」(Global Open Data Index)評比,臺灣在2015、2017 年皆名列全球第一。在技術層面上,2017 年成立的「中央研究院數位文化中心鏈結開放資料實驗室」目前已建立了 LOD Lifecycle Model 標準實作流程,作為 LOD 資料轉置工作的基準,國內的 LOD 建置技術可說日益成熟。因此,陳淑君很有信心認為:「未來 5 年 LOD 將會在臺灣開花結果。」

下水道的基礎建設已動工,下一步呢?

「LOD 就像是論文引用」,她解釋道,「當被引用得越多,代表臺灣和世界的連結就越緊密」。如圖六所示,當資料之間的連結越多,即意味著該資料集對世界的影響越大。

若希望臺灣的資料與世界產生更多連結,除了「下水道」工程繼續施工,如何讓研究學者和有志人士「再應用」LOD 提供的知識庫,或許是未來推動的重點。

圖六:全世界以鏈結資料形式發展的資料組。(圖片來源/The Linked Open Data Cloud)

首先,對於數位人文研究者,LOD 的利用可減少人為介入、減省文獻處理的負擔。這是因為 LOD 可建立以問題、研究意識為核心的資料模組設計,幫助研究者建立更為完善、全面的知識庫內容。此外,LOD 可主動鏈結網路上其他已開放、多元性主題的外部資料,無形中增加了「資料(知識)光譜的多向性」,達成資料加值、與國際接軌的目的。陳淑君以「丁寶楨」史學研究舉例,中研院歷史語言研究所的「人名權威—人物傳記資料庫」提供了整理自明清內閣大庫等具有權威性的詳細人物生平資料,透過 LOD 的技術,不僅能與上海圖書館人名規範庫美國國會圖書館人名權威檔(Library of Congress Name Authority File, LCNAF)、虛擬國際權威檔案等相關資料集等串聯,補足史書或官方紀錄中的記載資料,甚至連 DBpedia 所收錄的「丁寶楨發明了宮保雞丁」民間傳說亦因此連結。研究者可據此再深入探究,激發出新的研究議題,甚至新知識的產出。

除了文字,LOD 也能結合「國際圖像互通架構」(International Image Interoperability Framework, IIIF)來處理圖像資料,建置以圖像為本的知識庫系統,讓人文研究有更微觀、細緻的分析。無論色彩、材質、空間分布、描繪地點、作品主題等都能被有系統地建置。IIIF現階段具有圖像交換、檢索、縮放、比較、註記等功能,其中圖像註記內容可匯出為 LOD 資料,達成 IIIF 與 LOD 的結合。陳淑君帶領的LOD 團隊,目前正積極往此方向探索、邁進。

而文化創作者或社會大眾也能透過 LOD 得到更多的資源。過去文化創作者找尋靈感時,可能需要多次檢索,才能找到適合的資訊內容,但 LOD 可以快速且有效率地提供未知的知識,作為創作的靈感來源。

荷蘭國家博物館舉辦 Rijksstudio Award,邀請世界各地的設計師,創作以館內典藏為靈感的作品。圖為 2017 年 Rijksstudio Award 部分獲獎作品。(圖片來源/Rijksmuseum)

加入 LOD 建置與應用行列 壯大臺灣資料國際版圖

科技日新月異,順應知識共享與全球資料開放的流行,在語意網世界中,LOD 勢必是未來的數位科技發展趨勢。目前數位文化中心的 LOD 工程持續在建設當中,但這座「下水道」已開始與世界產生鏈結。其所建置的 LOD 資料(12 個資料集、近 60 萬筆資料、逾 500 萬筆三元組),已全數發布於全球最大的 LOD 開放資料彙整平台 DataHub

在希望世界看到臺灣的同時,「本土化」與「國際化」缺一不可,有了本土化,才能夠更加國際化。陳淑君表示,未來幾年數位文化中心不僅要繼續加強「下水道」的建設,更期許有志之士一同加入 LOD 的資料建置行列,將臺灣既有知識與世界知識網絡接軌,讓世界體悟臺灣在建置人類知識庫的重要性——「有了臺灣更完整」。

「中研院數位文化中心鏈結開放資料實驗室」由主持人陳淑君(左三)、共同主持人王祥安(左二)領軍,團隊成員為盧履彥(右一起)、于恩庭、詹珮欣、陳如琦。

 

企劃/房翠瑩、盧履彥
攝影/賴萱珮