刊登日期 : 2021-06-18
五千年中華文明留下浩如煙海的古籍,近代社會動盪,有超過400萬冊珍貴古籍流散海外,令人遺憾。現代科技的發展,為這些失落的古籍提供了「回家」之路。中國科企與中美大學合作,花費兩年多讓AI(人工智能)學會辨識古籍文字,讓失落海外的20萬頁古籍以「數碼版」形式回歸中國。經過培訓,AI識別古籍的準確率高達97.5%,效率較人工錄入提升30倍。
他們用兩年教AI認識古籍文字
2019年,阿里巴巴達摩院(阿里巴巴全球研究院)、四川大學和美國加州大學柏克萊分校,聯合啟動了一個名為「漢典重光」的項目,計劃搜尋失落海外的中國典籍,用AI技術識別古籍,製成數碼版本,放上網絡平台,讓所有人都能看到。
首批「數碼化」的古籍共20萬頁、3萬多字,來自加州大學柏克萊分校,該校東亞圖書館有90萬冊藏書,其中四成是中文書籍,包括宋朝、元朝時期的珍貴古籍善本。

加州大學柏克萊分校提供藏書的影印版;四川大學的歷史文化專家、達摩院的AI技術高手,共同開發識別系統,將影相轉為文字。看起來不太難,但項目剛剛啟動,就給了項目團隊「當頭一棒」。
由於中國古籍材質繁多,不少有破損,排版格式各異,且不同字體的差別很大,現有OCR(圖像文字識別)對古籍的識別準確率只有40%,遠不滿足要求。
AI識別古籍準確率97% 效率高30倍
專家們只能像教小朋友認字那樣,教AI辨識古籍文字,一教就是兩年,終於開發出一個新的AI古籍識別系統,主要步驟包括:
首先對古籍影印版進行單字檢測,將每一個字都變成一張圖,總結歸納同一個字的不同字體和寫法(聚類),經過專家校對,生成給AI學習的「課本(訓練樣本)」。

經過幾輪訓練,AI識別準確率從40%提高到了97.5%,未來隨着數據增加,準確率還能再提升。
此前將古籍數碼化,全靠專家人工辨識、錄入文字,100萬字的書籍需要1,000天才能完成。有了AI識別系統的幫助,專家只需處理AI無法辨識的文字,大約佔總字數的3.5%,100萬字只需要花35天就能完成,工作效率提升30倍。

阿里巴巴達摩院、四川大學、美國加州大學柏克萊分校、中國國家圖書館、浙江圖書館,於2021年5月發布全新的「漢典重光」網絡平台,將首批數碼版古籍上載平台,向所有人開放。
這20萬頁古籍的「回歸」只是開始,相信AI識別技術能幫助更多流失古籍,以「數碼化」方式重返故土。
延伸閱讀:全中國只有1000位的「古籍醫生」