近日,《2024字節跳動企業社會責任報告(中國)》發布。這份報告圍繞“科技讓生活更美好”,介紹了過去一年字節跳動用科技連接社會善意的實踐成效。近年來,字節跳動運用AI等技術持續推動古籍數字化進程。
中華文明擁有數千年的悠久歷史,典籍是傳承中華文明最重要的載體。它們是中國古典學不可或缺的研究基礎,是社會大眾繼承和發揚傳統文化的寶貴資源,同時也是世界理解中華文明的重要途徑。
國際著名圖書館學家錢存訓先生判斷:“至于中國書籍的產量,直到十五世紀末,比世界上各國書籍的總數還要豐富。”通過“中華古籍保護計劃”十余年的普查,第一次估算出中華典籍文化遺產總量,即傳世古籍大約有20萬種,50萬個版本。從1999年“文淵閣四庫全書”數據庫發布以來,古籍數據庫已經成為中國古典研究不可或缺的基礎設施,同時大多數的重要典籍也都已經數字化。但由于最方便使用的古籍圖文庫基本上都是商業數據庫,這就限制了普通公眾的訪問。另一方面,隨著人力校對成本越來越高,新加工典籍品種的重要性越來越低,那么擴容商業古籍庫的邊際收益會斷崖式下跌。這就導致現階段古籍數字化工作成果有些“養在深閨人未識”,不能被公眾充分利用,并且發展建設難以為繼。
2022年10月,字節跳動公益上線了識典古籍平臺——一個完全公益的古籍智能閱讀和整理平臺。首先,識典古籍充分吸納了人工智能等新技術在古籍數字化方面的成果,創建大字符集解決方案,利用OCR(光學字符識別)技術識別古籍圖像文本,再通過人工校對快速高效地持續擴容古籍圖文庫。據了解,目前識典古籍已免費公開1.6萬余部古籍,每月有超240萬用戶訪問量,平臺計劃到2025年底發布3—4萬部古籍。按這一速度,預計在2026年底,平臺發布的古籍品種數量就會達到甚至超過目前所有商業和公益古籍圖文庫的總和,這必將給社會公眾及海內外學者利用古籍帶來極大便利。
識典古籍飛快的建設速度得益于人工智能等科技的力量與大眾的力量。“眾籌建設”是公益古籍數字化項目的重要路徑之一。識典古籍采用了同樣的動員愛好者力量的方法,2024年,在全國高等院校古籍整理研究工作委員會的指導下,聯合字節跳動公益以及國內多家古籍研究機構發起了“我是校書官”活動,1000余所高校1萬余名學生報名參加,整理1600余部古籍,校對總字數超過6億,這一字數相當于一部《四庫全書》的四分之三。2025年3月,“我用AI校古籍”活動發起機構擴大到全國20余所高校,倡議社會公眾和學生能夠以“人人都校一卷書”的熱情參與進來。
在當今時代,要完成這項壯舉,向數字技術借力無疑是必由之路。識典古籍除了古籍文本識別校對功能以外,還充分利用自動標點、自動分段、自動校勘、自動結構整理等AI技術,使其成為古籍整理和研究的數字人文平臺。在傳統古籍整理過程中,文本的錄入和校勘是耗費工作量最大的環節,而且還極容易出錯,而引入數字整理平臺之后,據專家測算,至少可以提高五倍效率,將極大加快古籍整理工作的進程。同時數字整理平臺可以方便保留所有過程文檔,易于追溯和查證。《儒藏》工程是新中國成立以來最大規模地系統整理海內外儒學典籍的一項基礎性文化建設工程,收錄自先秦至清末重要儒學文獻。2024年12月,《儒藏》數字化項目啟動,字節跳動公益捐贈2500萬元,支持北京大學開展《儒藏》編纂與研究工作。《儒藏》“大全編”將以數字化方式整理,后續相關成果也將在識典古籍上線,面對公眾開放。
在新時代的大背景下,做好古籍工作,做好傳統文化的創造性轉化,數字科技是必須要憑借的先進手段。而乘數智時代的大潮,也正可以助力古籍等文化瑰寶的存續傳承,以待進一步發掘與發展。翻看《2024字節跳動企業社會責任報告(中國)》,可以發現除了古籍數字化,字節跳動在煥發文化活力方面還有不少作為。當下,新技術正在為傳統文化的挖掘和再創作提供新工具和新思路。在非遺傳承方面,過去一年,有上千名非遺代表性傳承人活躍在抖音,1379萬網友在抖音分享自己的非遺體驗,非遺團購商品訂單量同比增長了356%。在文物保護與活化方面,字節跳動聯動全國各大博物館、創作者,通過直播、短視頻等方式普及文物知識。現在,大多數國家三級以上博物館的內容都能在抖音找到。
近日,教育部等九部門發布《關于加快推進教育數字化的意見》,指出“聚焦集成化、智能化、國際化,擴大優質教育資源受益面,促進人工智能助力教育變革”。無論從繼承和發揚中華優秀傳統文化,還是迎接數智時代的挑戰來說,識典古籍都值得全民的廣泛關注和參與。
從去年風靡全球的游戲“黑神話悟空”,到今年的動畫電影《哪吒2》,都是傳統文化創造性轉化的極佳案例,而浩瀚的典籍文化遺產正是文化產業取之不盡的素材資源。如何更好地利用它們,等待我們給出令時代滿意的答卷。(中國科學院自然科學史研究員 孫顯斌)