近日,由全国高等院校古籍整理研究工作委员会主办,北京大学中国语言文学系古典文献教研室、北京大学数字人文研究中心与字节跳动公益联合承办的“数智时代古籍数字化前沿论坛暨‘我用AI校古籍’(2025年)总结会”在北京举行。
笔者了解到,“我用AI校古籍”项目自2024年启动以来,在“识典古籍”智能整理平台支持下,吸引了全国1450余所高校的2万名大学生及1.7万名社会公众志愿者参与,累计完成15亿字的粗校,约覆盖2万部古籍,显著降低了古籍整理的专业门槛,激发了公众对中华优秀传统文化的传承热情。当古籍整理遇上AI,会迸发出什么样的火花?
突破传统人力局限
我国古文献学历史悠久,从汉代开始就有把目录、版本、校勘融为一体的校雠学。简单来说,古籍整理就是选定某一个具有代表性的版本为底本,通过和其他版本的校勘,再对它加以现代的标点、标注等,最终提供一个文字准确、标点可靠、方便阅读的排印版本。
传统的古籍整理依赖于人工,耗时耗力,在20世纪80年代开始使用计算机录入文本,但这种方式速度依然慢,中间也会出现错误。北京大学中文系教授杨海峥坦言,这种录入错误,会增加后期的校勘和校对成本。
OCR技术即光学字符识别技术带来了改变。“光学字符识别技术成了古籍文字提取的核心工具,可以识别文字,给文本利用环节带来根本性的改变,并且它的准确率非常高。”杨海峥说。另外,过去学者需要花大量时间来做的文本标点和专名识别工作,新技术也可以在短时间内完成,实现自动标点和分段。
“AI技术不仅大幅提高了古籍校对效率,还弥补了传统人力校对处理海量文献的局限,为古籍整理开辟了人机协同新途径。”全国高等院校古籍整理研究工作委员会秘书长卢伟说。
在杨海峥看来,AI也有助于多版本校勘。传统的校勘学者用手工比对各种版本,穷极一生进行校对工作,AI可以自动对齐历代版本,过滤形近字错误,并且生成结构化的校勘记录,“之后学者只需要去聚焦关键译文的判断和分析,梳理版本的源流,这就大幅度节约了校勘时间”。
让古籍被更多年轻人打开
方晓辰是首都师范大学历史学院敦煌学方向的博一学生,也是校对古籍的志愿者,她发现AI大大提高了整理效率。“比如在处理《康熙字典》中的复杂字形时,平台的图像识别功能可以精准捕捉笔画细节,配合在线字典数据库,几秒钟就能完成一个生僻字的录入和校对。”她说,“这种便捷性让原本枯燥烦琐的整理工作变得轻松有趣,也让我深刻感受到科技赋能传统文化传承的魅力。”
当方晓辰看着自己整理好的古籍陆续上线,在平台上被其他人引用讨论,“那种‘让沉睡的文字活起来’的满足感,是无法替代的”。
除了高校学生之外,社会公众也参与到古籍校对之中。AI技术不仅降低了古籍整理的技术门槛,让更多古籍爱好者能够参与其中,也让公众能够更加便捷地获取古籍中的知识。
在机场工作的社会志愿者张晓波说,虽然自己从事的行业与古籍并无关系,但自己从小就对历史和古籍感兴趣。他参与了针对现存《永乐大典》的精校整理,团队中的队友多是专业师生,“我开始接触之前从未接触过的领域,在仅仅八卷的精校中包含了诗词、列传、府志、祭文、历法,对古籍的热爱与求知欲,也在推着我不断进步。”
“它让‘古籍’这两个字,从一种遥远的、被玻璃罩起来的文化符号,慢慢变成可以被年轻人打开、可以被大家一起修整、可以在日常里反复相遇的东西。”拥有289万粉丝的抖音博主“子非秋月”如是说。可以预见,当古籍整理遇上AI,将会为中华优秀传统文化的传承打开一扇属于数字时代的大门。