文化产业杂志

古代档案文献的数字新发现

时间:2026-06-04 17:51:45来源: 文字:

宣鹏娥 高红娟

数字人文融合数字技术与传统人文学科,以文本分析和可视化为核心,革新了文化遗产研究范式。我国古代档案文献是中华文明的核心载体,却因年代久远、载体脆弱、释读困难,研究深度受到限制。为破解保护与利用困境,现首先分析中国古代档案载体类型,其次阐述中国古代档案文献整理与数字化的必要性,最后构建数字人文视域下中国古代档案文献的学术价值发现路径,以期为相关研究提供借鉴。

数字人文是一门新的交叉学科,旨在将数字技术、数字工具及方法论与传统的人文学科研究相结合,进而改进文化遗产的诠释、保护和传播方式。数字人文不只是单纯的技术应用形式,还涉及范式革新和方法论改进,促使研究人员从宏观动态的角度审视人文资料,发现以往难以察觉的隐性知识联系。中国古代档案文献是中华文明几千年发展的重要载体和直接见证,涵盖甲骨、金石、简牍、缣帛以及纸质文书等多种类型,时间跨度上至商周、下至明清,是中国古代政治、经济、社会、文化等方面不可多得的研究史料,也是人类历史遗产中极其珍贵的组成部分。但因其年代久远、脆弱易损、分布广泛且解读难度高,传统研究方式难以应对。本文主要探究数字人文视域下如何对我国早期历史阶段的各类古代档案文献进行系统性整理、数字化加工并发掘其学术价值。

中国古代档案载体类型

甲骨档案

甲骨档案是以龟甲、兽骨制成的官方文书,是我国现存最早的古代政府文件。其中,“甲”主要指乌龟的背壳与腹板,“骨”则涵盖牛肩胛骨及其他动物骨骼。这些甲骨多用于占卜,并以特殊方式留存。“登于天府”的埋藏方式属窑藏技术,通常将甲骨置于宗庙右侧或地窖的圆坑中,坑深约两米。

金文档案

青铜器铭文可追溯至商代,西周时期已成为记载事件的特殊铸铜文物,并逐渐具备类似史书的文字形式。记录历史的文字被称为“金文”,多通过窖藏保存,器物底部常填入草木灰以防腐、防磨损。1976年,陕西扶风县法门镇发现一处完整的西周青铜器窖藏遗址,出土器皿上百件。研究发现,所有陶质衬垫均为人为铺设,旨在实现长久保护,历经3000多年仍完好如初,表面光亮。

石刻档案

石材作为古代文献载体,历史悠久,文化根基深厚,商周时期已开始使用,秦汉时期达到鼎盛。石质材料具有质地坚硬、经久耐用、雕刻工艺复杂等特点。“以金铸器不如刻石传世”体现了古人对石料特性的深刻认识。因当时科技与保护措施有限,古人采用自然养护方法,以确保文字信息得以长久保存。

简牍档案

简牍作为重要文献载体,其历史可追溯至殷商时期,汉晋时期达到鼎盛。它以竹木为记录材料,南方多用竹片,北方偏爱木质板材。针对竹简遇湿易腐的问题,古人发明了“汗简”和“杀青”技术。“汗简”是除去竹子表面多余水分,“杀青”是去掉表层绿色物质,二者均旨在提高简牍耐久性,延长其保存期限。编目整理时,会在每卷前加两枚空白简条作为保护,并存放在“金之匮”中。

缣帛档案

缣帛档案的产生与发展与丝织技术紧密相关,战国时期已出现以缣帛为载体的文字记录。东晋以后,纸张成为主要书写材料,但重要皇室诏书仍沿用绢帛。唐代“赦书”、宋代“告身”、明清“敕令”等封赠文书多采用绢或绫锦制作。古代缣帛档案一般配有木质卷轴,查阅后需收卷存放在专门的容器中。

纸质档案

中国造纸技术始于西汉,东晋时期取得重要发展。公元404年,桓玄下令禁用竹简,此后“黄纸”成为官方公文的主要承载物,加速了“纸张化”进程。中国传统手工纸选材上乘,有害物质含量低,强度高、伸缩率低、柔软性强、表面平滑度好、持久性佳。手工抄造的纸张平整、强度高、韧性好,吸湿后不易变形,较为稳定。由于传统造纸工艺未添加明矾等酸性物质,手工纸无酸碱残留物,因而具有良好的耐久性。

中国古代档案文献整理与数字化的必要性

保护历史文化遗产的重要途径

对古代档案文献进行系统整理并实现数字化转型,是保存其历史价值、挽救濒危史料的有效方法,也是传承中华文明精华、守护人类共同记忆的重要任务。依托现代档案学理论体系和标准化操作流程,结合前沿数字技术,能显著减缓古籍文本的老化速度,防止信息流失。在此过程中,赋予传统载体全新的表现形式,推动古籍文化内涵在新时代背景下实现创新发展,从而更好地满足当代社会公众的文化需求与精神追求。

拓展档案文献研究利用的有效方式

古代档案文献经过整理和数字化后,能全面还原历史原貌,扩大应用范围,不仅能为史学研究、考古挖掘以及其他相关学科提供精确的数据支持和新的思考角度,还能推动档案信息服务向智能化方向发展。以往依靠有限资源的管理方式存在检索不便、利用率低、流转不畅等问题,无法满足现代社会的需求。在此背景下,将数字技术融入档案管理,能极大提高获取资料的速度,优化用户体验,是发挥古代档案文献潜在价值的重要途径。

促进中华优秀传统文化传承的重要平台

中国古代档案文献既是前人社会实践和文明发展的历史见证,也是民族精神特质与核心价值观念的文化体现。经过搜集整理,并借助数字化技术,可挖掘其中蕴含的文化内涵,将中华优秀传统文化的创造性转化、创新性发展推向新高度,在现代社会为文物资源注入新的活力。通过互联网、云计算、大数据等先进技术,能实现不同区域间信息的互联共享,在网络空间中达成跨地区的交流协作,使古代档案文献跨越地域界限,转化为公众易于接触和使用的形态。

数字人文视域下中国古代档案文献的学术价值发现路径

传统古籍整理方法的数据化革新

1.实体保存性整理的数据化转型

实体保存性整理旨在实现古代档案文献的长期保存,在传统模式中主要依赖原始性保护手段。进入数字时代,其开始朝着再生性和传承性的方向发展,重点在于创建图像、文本及字形数据库。图像数据库可通过装帧版式数字化技术构建。此外,使用X射线检测古籍损坏情况的做法也值得借鉴,它不仅能迅速发现古籍存在的保存问题,还能智能提取版本信息,为档案文献版本研究工作提供强有力的支撑。文本数据库的建立需要文字识别技术的支持,深度学习在一定程度上解决了传统OCR技术在字体识别、破损文字识别等方面的精度问题,但标注人力消耗大,小样本识别准确度仍需提升。字形数据库可以利用文本识别结果搭建,“中国古代简帛字形、辞例数据库”为研究古代文字的形态变化及辞例用法提供了丰富资料,有助于进一步挖掘古代档案文献中关于文字学方面的学术价值。

2.文本复原性整理的数据化助力

文本复原性整理旨在恢复古代档案文献的原本面貌,可利用数字技术完成版本考订、自动校勘、辨别伪作和辑录遗失等工作。在版本考订方面,将相关资料数据化后形成源流谱系图,为研究古代档案文献各版本之间的传承关系提供清晰的发展脉络。尽管已有相关知识库及可视化尝试,但仍需对更多成果进行数字化处理;同时,在判定材料间是否存在某种传承关系时,不能完全依赖机器,需人工干预以确保结果准确。自动校勘技术能对比不同版本档案文件内容的差异,在对校和他校时较易实现操作目标,但本校和理校因涉及文史知识,在技术和方法上仍有很大困难需要克服。在自动辨伪方面,利用语言学方法分析文本差异,为辨别档案文献真伪提供科学依据。目前,辑佚工作仅识别了部分文献,聚类工作尚未完成。

3.内容组织性整理的数据化提效

内容组织性整理即通过编目、编纂对古代档案文献内容进行组织,数字技术的应用使得整理效率大幅提升。自动编目主要从词和篇章粒度入手,利用模型抽取关键词并识别命名实体,完成篇章摘录和摘要生成工作。但自动编目仍需人工预处理,尚未实现完全自动化,这说明编目过程中仍然存在人工与数字技术的相互补充,人工预处理确保了编目的准确性。自动编纂依靠分类及相似度计算聚类知识,但无法覆盖全部过程。后续应引入先进技术,以减少人工参与。同时,研究对象不应局限于正史,还应包含野史、笔记等,以便更好地组织古代档案文献内容。

传统古籍整理成果的数据化再利用深化

1.书目的数据化再利用与拓展

古籍书目是知识组织的核心,在传统环境下,由于古籍数量众多、体例不同,跨目录检索困难。当前实践通过建立数据库解决该问题,如“全国古籍普查登记基本数据库”“中文古籍联合目录及循证平台”等,将馆藏、官修、史志等目录集成为一体,并规范著录体例,以实现跨目录检索。当下,书目的数据化再利用更注重可计算性,融合人物、地理等数据形成可视化系统,如明代古籍版刻地理信息系统,从“辨考”思想出发挖掘提要与实体间的关联,助力古籍自动推荐,为学术研究提供更便捷的检索方式和更广阔的分析视角。后续需加强数据库的扩展性和互操作性,深入开展书目细粒度的知识关联,进一步发掘书目的学术潜力。

2.注释的数据化再利用与回归

注释包含名物典制、语言学知识等丰富内容。数据化要先区分注文和正文,并使用句子对齐算法比较白文本与注疏本。已有研究主要集中在技术方面,包括设计本体及XML的知识表示方法,如训诂学初始本体,但缺乏模拟传统功能的应用。在知识表示的基础上,后续要探究注释在辞书编纂、校勘等方面的价值,贴近实际研究需求,还原注释在中国古代档案文献研究中的传统功能,发挥注释在解释文献内容、传承文化知识等方面的学术作用。

3.类书、辞书的数据化再利用与融合

类书能够保存原文、汇辑资料,在数字时代可参考其知识组织方式来创建古典知识库,将《古今合璧事类备要》作为语料库纳入知识库,为学术研究提供系统化的知识资源。辞书兼具知识性与文献价值,以《尔雅》为例构建多语词表及领域本体,实现跨语言关联检索并达到可视化效果,有助于学者在不同语言背景下探究中国古代档案文献,拓展研究范围和深度。二者数据化还需加强与学术场景的联系,挖掘辑佚、引文分析等方面的价值,从而为开展中国古代档案文献学术研究提供更有力的支持。

以知识为目标的古籍原文数据化整理

1.时空数据:历史地理分析与可视化的补充

古籍中的地理文献、史书、年谱等包含大量时空数据,可视化技术能弥补文本挖掘在时空方面的不足。“中国历史地理信息系统(CHGIS)、丝绸之路历史地理信息平台、唐宋文学编年地图”等现有实践对研究者还原人物轨迹与事件场景有较大帮助。但目前存在管理机制与标准有待完善、跨学科合作不足等问题,应将研究范围扩大到文化传播等领域,以充分释放古代档案文献的时空价值。

2.人物数据:社会关系分析与可视化的拓展

根据“知人论世”的思想,通过社会网络分析等方法关联正史、方志、家谱中的人物数据。例如,从中国历代人物传记资料库中抽取关系,研究官员群体或进士群体,绘制家族世系图或文人交游图等。未来要拓展资料来源,涵盖别史、文集等资料,将范围扩大到士农工商各阶层群体,以还原完整的古代人际圈,并深入挖掘古籍档案在人物社会关系方面的学术价值。

3.专题专类专书数据:知识挖掘与可视化的深化

专题数据如名物知识可构建植物知识图谱、中医方药库等;专类数据如引文数据可识别明引并形成知识库,但暗引的识别仍需突破;图像数据如纺织图像可建立谱系与数据库;专书数据如《三国志》可构建本体聚史实,《论语》可分析观念结构。未来应拓展研究的广度和深度,整合数据及副文本,精确提取暗引插图的价值,深入挖掘中国古代档案文献的学术价值。

跨域融合与公众传播

1.跨学科协作:拓展价值挖掘维度

数字人文为档案文献研究搭建跨学科平台,历史学可借助GIS技术剖析疆域变迁,如利用甲骨档案和历史地图重现商代方国分布;语言学可运用自然语言处理分析简牍文字变化;考古学可借助三维扫描比较金石档案纹饰特征。“敦煌文书跨学科研究平台”整合历史、语言、艺术等学科资源,挖掘文书在丝路贸易、宗教传播等方面的价值。未来要建立起长效合作机制,打破学科界限。

2.公众参与:激活价值传播活力

利用数字工具降低档案利用门槛,开发“古籍注释众筹”平台,激发大众参与甲骨文识读、简牍内容标注等活动的热情,既丰富学术研究素材,又推广文化知识。故宫博物院“数字文物库”将明清档案高清影像对外开放,并设置互动解读板块,让公众直观感受档案中的宫廷生活细节。未来可设计类似VR重现宋代纸质档案编纂情景的沉浸式体验项目,促进学术成果转化为大众的文化素养。

综上所述,本文梳理了中国古代档案文献的六大载体类型,分析了整理和数字化对遗产保护、研究拓展及文化传承的必要性,并提出了中国古代档案文献的学术价值发现路径。本研究不仅为数字人文技术在档案领域的应用提供了参考,还为发掘中国古代档案文献中的隐性知识奠定了基础,更促进了中华优秀传统文化的传承与发展。未来需完善技术标准,深化跨学科合作,以最大限度发挥中国古代档案文献的价值。

(作者单位:北京汉龙致远科技有限公司)

联系我们|网站介绍|欢迎投稿|杂志订阅|网站声明|

主管:山西出版传媒集团   主办:山西三晋报刊传媒集团     编辑出版:《文化产业》杂志社   投稿邮箱:whcytg@163.com
地址:山西省太原市迎泽区柳巷南路云路街2号 邮编:030000 联系电话:0351-4120686、0351-4120998、0351-4120995
期刊出版许可证丨 国内刊号:CN14-1347/G2 丨国际刊号:ISSN1674-3520丨邮发代号:22-415
晋ICP备2021019266号-1 晋公网安备140105029904671
主管:    山西出版传媒集团   主办:    山西三晋报刊传媒集团     编辑出版 《文化产业》杂志社   投稿邮箱:whcytg@163.com