文化产业杂志

以AI为钥 启古籍新篇

时间:2026-06-04 18:01:55来源: 文字:

徐梦瑶

数智时代,AI在古籍文献整理与出版领域的活化及创新应用备受关注。古籍文献整理出版对文化传承、学术研究以及现代信息社会发展意义重大,但受技术更迭、资源分配不足、人才培养困难、跨学科合作有限等因素制约,无法充分发挥作用。因此,现深入探讨相关问题并提出对策,以期提升AI技术在古籍文献整理出版领域的应用水平,为中华优秀传统文化的繁荣发展贡献力量。

在有关政策的推动下,我国古籍的数字化成果十分显著。截至2025年1月,全国累计在线发布古籍数字资源15.8万部,国家图书馆“中华古籍资源库”发布10.6万部,为全国最大综合性免登录阅览平台;作为优秀范例的中华书局“中华经典古籍库”也发布1万余种、27.5亿字点校本古籍。在国家的大力支持下,古籍整理出版工作取得很大进步,然而,相较于20万种古籍,数字化占比较低,且按照传统方式整理出版古籍文献费时费力。习近平总书记曾多次强调“让书写在古籍里的文字活起来”,如何利用大数据、AI等技术实现古籍系统性整理与创新应用,推动其数智化发展,成为亟待解决的问题。

随着数智时代的到来,大数据、AI等技术逐渐被应用到古籍文献整理与出版工作中。AI技术凭借其强大的数据处理、智能识别与内容挖掘能力,为古籍校勘、辨伪、标点等传统工作提供了智能化方案。但受技术、人才、资金等因素的限制,AI技术与古籍文献整理出版的融合仍处基础阶段,因此,深入探讨数智技术赋能古籍活化具有重要意义。

古籍文献整理出版工作数智化的现实意义

古籍是传承中华古代文明的重要载体,古籍整理研究历史悠久且成果丰硕。而数智化浪潮为该领域带来新机遇,明确其数智化的现实意义,对古籍高质量修复与文化传承至关重要。

文化传承的迫切需求

古籍蕴含着丰富的文化与深厚的历史底蕴,是展现中华民族悠久历史和灿烂文化的重要载体。然而,随着时代的变迁,古籍的保存与传承愈发困难。一方面,纸张老化、虫蛀、环境变化、人为破坏及遗失等风险致使珍贵古籍不断损毁;另一方面,古籍文献传承面临专业技术修复人才匮乏、大量古籍无法有效解读和传承等问题,从而导致资源闲置的状况。

数智化技术的应用为古籍文献保护与传承提供了新路径。随着古籍数字化工作的推进,我国数字典籍资源日益丰富,不仅为大数据、AI等前沿技术的应用奠定了基础,也为古籍整理工作和古典文献保护与传承带来了新机遇。

学术研究的强力支撑

古籍数智化是对古籍发现、保护、利用的延续、传承与创新,也是人文学术研究的基础性、时代性工程。传统学术工作(如文本校笺、史实考据等)耗时费力,而AI技术能将文献高质量储存在云端或建立数据智库,以提升研究效率。例如,国家图书馆推出的“中华古籍资源库”含有大量高清扫描与OCR识别文献,研究者通过关键词搜索即可快速获取资料。此外,AI技术还能提取古籍中的有效信息,为学术研究提供新视角,推动古籍研究的发展。

适应信息社会与打破传播壁垒

互联网的普及改变了大众的阅读方式与习惯,从纸质书阅读转向数字化阅读已成为普遍现象。为适应大众阅读需求,需要打破专业文化传播壁垒并提供更具个性化、定制化的阅读体验。AI技术既能通过智能交互快速提供读者所需信息,也能突破时空限制实现文化资源共享。而将大量典籍数智化既能向世界展示东方文化的魅力,也便于全球中华儿女学习本民族文化,推动中华优秀传统文化在信息传播深度、广度与速度上实现质的飞跃。

AI在古籍文献整理出版中的应用与创新

数智时代,AI技术飞速发展,古籍整理出版领域也迎来了前所未有的变革机遇,OCR、自动标点、命名实体识别及自动校勘等前沿技术正逐步融入古籍整理出版,为古典文献学发展注入活力。

OCR技术应用

OCR技术是AI在古籍整理中最基础的技术之一,其通过高清扫描不仅能自动识别印刷体、手写体甚至模糊残缺文字,将纸质古籍转化为可编辑的数字文本,降低了人工录入的成本与错误率,还能分析版面布局实现结构化输出,为后续编辑检索提供支持。2018年10月,中华书局古联公司便联合图像识别、NLP等领域团队,研发面向中文古籍整理研究、出版的智能OCR技术。2022年,该系统上线“籍合网”,5分钟便可完成人工录入20小时的工作量,大幅提高了古籍处理速度。

自动标点与句读技术应用

中国拥有海量古代典籍,利用计算机对古籍文本进行自动断句与标点,有助于加快古籍资源的转化与应用速度。而古籍本身并不具备现代标点与断句,这给古籍整理出版工作带来了极大困难。NLP技术可实现古籍自动标点与断句,既提升了古籍文本的可读性,也为语义分析与知识抽取奠定了基础,还缩短了文献整理时间。例如,北京大学技术团队利用深度学习模型实现了对古籍文本的句读,且准确率超94%。

实体识别与知识图谱构建技术应用

AI技术在古籍整理工作中的另一个重要应用,便是实体识别与知识图谱构建。通过对古籍文本中人名、地名、事件等实体进行自动识别并结合上下文抽取关系,可以构建反映古籍内容的知识图谱,有助于读者直观理解古籍内容,减少人工标注工作量。例如,王军教授团队研发的《宋元学案》知识图谱可视化系统,将240万字文本内容转化为可视化图谱,不仅极大方便了学术研究和公众查阅,也吸引了百度、微软、字节跳动等企业参与研究并推出测试平台。

智能校对与版本比对技术应用

古籍在流传过程中存在多版本差异,AI的智能校对与版本比对功能可快速发现差异并辅助修正,既提高了整理的准确性,又降低了人工校对的难度和成本。例如,云聪智慧古籍平台集成了OCR识别、图文逐字校对、版本比对等功能,目前已上线约1000万字的古籍著述,用户可以在线校编识别古籍,包含著者小传、人物行迹等信息,为用户提供了便捷的查询与研究服务。

数字化平台与智能服务创新

随着AI技术的不断发展,多款古籍数字化平台应运而生。除提供丰富的古籍资源供读者查阅,平台还通过智能搜索、个性化推荐等功能提升了用户体验。例如,北京大学与字节跳动公司公益部门联合成立“北京大学―字节跳动开放实验室”,旨在打造便捷的古籍阅读平台并配套建设整理平台,以支撑数据加工,为学者与古籍爱好者提供一站式服务。

跨学科合作与技术创新

AI技术在古籍文献整理出版中的应用促进了跨学科合作与技术创新发展,通过融合计算机视觉、GIS、数据可视化等技术,解决古籍图像修复、多维度展示等问题。同时,跨学科合作有助于培养复合型人才,为古籍文献整理出版工作长远发展提供支持。例如,由高校和网络公司联合打造的“识典古籍平台”,通过技术互补与资源共享打破了行业壁垒,实现了古籍资源的高效开发利用。

AI技术在古籍文献整理出版中的现实难题

尽管AI技术在古籍文献整理出版领域应用广泛,但受技术、资源、人才、资金、版权等现实问题掣肘,仍面临诸多挑战。

技术难题

1.识别与理解深度不足

古籍中繁体字、异体字、特殊字符较多,导致技术识别准确率较低;同时,古籍语境复杂、用词精炼,AI难以解读其深层含义。例如,《诗经》中许多诗词采用了隐喻、象征等修辞手法,若不对AI进行长期专业训练,AI便难以准确解读其中的深层含义和文化内涵。

2.图像处理技术受限

古籍文献往往存在模糊、破损等问题,且其版式多样,含大量注释、插图等元素。例如,在尝试对手抄本进行数智化时,因纸张老化、墨迹褪色等问题,利用技术还原的图像文字仍存在模糊现象,现有图像增强技术无法完全恢复其清晰度。

3.技术迭代与标准不一

古籍数智化技术处于不断发展阶段,不同机构的技术标准、数据格式、平台接口往往不统一。例如,图像处理算法差异导致数字图像无法共享,制约了技术推广与资源整合。

资源难题

1.古籍资源分散

古籍资源广泛分布于图书馆、博物馆、研究机构及私人收藏者手中,各单位数智化工作“各自为战”,存在重复建设问题,同一版本古籍重复扫描、部分机构重宣传轻价值而聚焦常用古籍的现象屡见不鲜。例如,《永乐大典》副本散落世界各地,地方古籍文献《浙江文丛》《江苏文库》等被边缘化,均因资源分散而面临整合难题。

2.高质量资源稀缺与资金不足

受限于技术、资金等因素,古籍整理出版工作难以输出高质量资源。一方面,因自然损毁导致部分文献资源无法复原;另一方面,高质量数字化制作成本较高,而古籍整理出版经济效益低,难以吸引充足资金,从而制约了技术升级,影响了古籍文献高质量资源的输出。例如,《中华大典》修缮因工序复杂而需大量人力、物力、财力,虽获国家支持仍面临资金不足难题,影响了高质量资源产出;敦煌遗书、甲骨文等珍稀古籍数智化成本较高,进一步加剧了古籍资源的稀缺。

版权保护难题

生成式AI技术应用提高了古籍整理出版工作效率,但也引发了版权风险。一方面,在古籍智能整理初期易忽视版权保护,导致非法盗用,且古籍版权归属复杂,涉及多个权利人,难以确保合法使用;另一方面,智能语料库资料筛选优化过程中存在侵权隐患,因此,版权界定与侵权规避问题仍需深入研究。

人才培养难题

古籍整理出版工作亟须兼具古籍学知识、出版技能与现代信息技术的复合型人才,然而,目前缺乏专业人才且培训体系尚未成熟。一是高校古籍学教育课程设置不全面、教学力量薄弱;二是社会宣传范围有限,相关资讯鲜为人知;三是缺乏专业培训机构和认证体系且人才培养周期长,导致年轻人望而却步,从而加剧人才短缺。

跨学科合作难题

我国古籍资源数量庞大且分散,加之部分机构“各行其是”,导致技术与内容质量无法共享,出现技术迭代慢、整理水平参差不齐等问题。同时,跨学科合作中,不同学科专业背景差异易引发沟通障碍,且合作机制与平台不完善,缺乏有效模式与渠道,导致合作难以推进。

AI赋能古籍文献活化的对策与建议

加强技术研发与创新,建立技术标准和规范

针对古籍文献整理出版的特殊性,需不断优化AI深度学习算法,提高其对古籍文献的识别与理解能力。例如,改进卷积神经网络在图像识别中的应用,以及循环神经网络和变换器模型在NLP中的应用等。同时,可以开发基于上下文理解的语义分析技术,提升自动标点、校勘等功能精度,以更好地捕捉古籍文献中隐含的深层含义,减少人工干预。另外,鉴于古籍文献存在大量方言及其他语言,可研发跨语言处理技术,实现多语种古籍智能化处理。与此同时,需突破现有的图像处理技术,一是研发智能版面分析技术,实现自动识别古籍文献版面结构、排版格式等信息,为后续文本提取和可视化处理提供操作基础;二是研发高分辨率设备与技术,对古籍中的图像进行增强处理,提升图像清晰度和对比度;三是采用去噪技术,消除图像中噪声和干扰因素,确保OCR识别的准确性。对于古籍文献在技术上的活化与创新,可以顺应时代发展趋势,探索将古籍与元宇宙、AR/VR、AI绘画等技术相结合,实现内容场景活化;还可以联合业内专家、企业,多方共同制定古籍数智化处理技术标准及操作规范,涵盖数据格式、编码标准、元数据规范、接口协议等,确保不同平台之间的数据互操作性和兼容性。此外,构建古籍数字化评价体系,涵盖数据准确性、完整性、易用性等评估指标,以反映古籍数智化质量,激励技术迭代。

建立资源共享机制与强化协调

由国家牵头建设“古籍资源智库”,整合图书馆、档案馆等机构数据,以合作共建、数据交换等方式,实现资源集中储存与统一管理,并提供便捷检索与下载服务。建立多方共赢利益分配机制,平衡资源方、技术方及使用方的利益,激励各方参与。同时,积极参与国际古籍数智化合作,通过项目合作共享资源、交流经验,引入先进的技术与管理方法。

完善版权保护机制与探索合作模式

采用数字水印与加密技术保护古籍数智化成果,防止非法盗用。同时,建立古籍文献版权检测与维权平台,利用大数据实时监测侵权行为,并及时启动维权程序。国家层面可完善古籍版权法律法规,明确保护范围与程序,加大执法力度,对版权明确的古籍文献进行登记备案,对归属不明的古籍则通过图书馆、版权机构等协作核实,确保归属公正。此外,探索灵活版权许可方式,建立版权共享平台,鼓励古籍文献权利人、相关机构分时段、分区域、分用途共享,实现版权保护与资源共享共赢。

优化人才培养体系与拓展发展空间

为从业人员提供在线课程、研讨会等培训资源与学习机会,鼓励其通过终身学习跟上技术迭代步伐。为从业人员设计清晰的职业发展路径,构建公平晋升机制,吸引人才加入。高校需完善专业课程,如历史文献学、古籍版本学等,以及技术课程,如信息技术基础、数据挖掘与分析、古籍数字化技术等,进而培养出更多复合型人才,为古籍整理提供人力支撑。

构建跨学科研究平台与明确合作机制

建设高性能计算中心、古籍数字化实验室等基础设施,为跨学科研究提供技术支撑。组建由多学科专家组成的专业研究团队,形成稳定的合作网络,开展前沿研究。此外,设立平台管理委员会,负责战略规划与资源配置,降低沟通成本,提升合作的有效性,从而优化技术与整理质量。

古籍作为中华文明的重要载体,承载着丰富的历史记忆与文化智慧,但其整理出版工作长期面临挑战。随着AI技术快速发展,其在古籍文献整理出版领域的巨大应用潜力也在不断显现。通过智能化技术高效挖掘、整理和传播,为中华优秀传统文化的传承与发展注入了新活力。然而,AI技术在该领域的应用仍面临跨学科合作、人才培养、资源协调、技术迭代、版权保护等方面的挑战。本文提出的针对性策略,旨在深化AI技术对古籍的活化利用,推动古籍整理出版可持续发展,以助力中华优秀传统文化在新时代焕发生机。

(作者单位:青岛科技大学传媒学院)

联系我们|网站介绍|欢迎投稿|杂志订阅|网站声明|

主管:山西出版传媒集团   主办:山西三晋报刊传媒集团     编辑出版:《文化产业》杂志社   投稿邮箱:whcytg@163.com
地址:山西省太原市迎泽区柳巷南路云路街2号 邮编:030000 联系电话:0351-4120686、0351-4120998、0351-4120995
期刊出版许可证丨 国内刊号:CN14-1347/G2 丨国际刊号:ISSN1674-3520丨邮发代号:22-415
晋ICP备2021019266号-1 晋公网安备140105029904671
主管:    山西出版传媒集团   主办:    山西三晋报刊传媒集团     编辑出版 《文化产业》杂志社   投稿邮箱:whcytg@163.com