您当前的位置:首页 > 理论探索 > 学术研究

基于Unicode的古文字研究与应用

时间:2026-06-04 18:45:12  来源:  文字:

韦凯 刘嘉宇 张诗仪

摘要:在数字化时代背景与新文科教育理念下,文字编码成为一切文字信息处理及数字化的基础,是古文字数字化学习与研究的重要手段之一。在Unicode字符编码理论和相关技术标准的基础上,深入分析古文字在数字化时代的疑难问题,进一步探索古文字的发展路径,推动古文字数字化进程。

华东师范大学刘志基于2024年1月在《中国社会科学报》发表《古文字数字化亟须完善古文字字符集》一文,指出古文字数字化的研究现状仍存在诸多需攻克的难题,如字符认定工作、集中的字符与实际文献用字的逐字对应及字符的“原貌保真”。这些问题不仅影响了古文字数字化的准确性,还限制了古文字在数字化时代的传播与应用。

当前,基于Unicode的古文字研究面临技术局限与人文需求的矛盾,学习与研究古文字的学者难以熟练使用相应技术。因此,就该问题,本文主要从技术应用的现状出发,探讨Unicode在古文字研究中的具体应用场景,如甲骨文数据库建设、人工智能与古文字的结合、教育与文化传播等方面。同时,本文也将深入分析跨学科合作在推动古文字数字化进程中的重要性,尝试从学习的具体实践中提出解决技术局限与人文需求矛盾的有效策略,为促进古文字数字化研究与应用提供参考。

研究现状

技术现状

随着人工智能与古文字结合实践的增多,交叉研究正逐渐演进为独立的研究领域。在国外,产生了Digital Paleography(古文字数字化)等术语。同时,在这些框架下,发展了Digital Epigraphy(数字金石学)和Machine Learning for Ancient Languages(古代语言机器学习)等专门领域。在国内,具有中国特色的“计算甲骨学”正逐渐为大家所熟知。

在2023年度“古文字与中华文明传承发展工程”总结会议上宣布,古文字数字化研究取得了初始阶段的显著成果。清华大学在计算甲骨学领域开展了深入研究,并计划建立计算古文字学实验室。吉林大学在人工智能与古文字学交叉研究领域发表了多篇具有学术价值的文章,成功开发了“吉金识辨・青铜器智能断代与辨类”程序,并构建了青铜器数据库。复旦大学发布了“缀玉联珠”甲骨缀合信息库,极大提高了信息检索的效率。首都师范大学与微软亚洲研究院开展合作,研发了基于自监督学习的甲骨文校重助手Diviner,为“人工智能+甲骨文专家协同”(AI+HI)的甲骨文整理新范式筑牢实践根基。

2024年,中国国家博物馆发布古文字数字化资源库,目前,该平台已建立了古文字数据库,对甲骨文数据进行编目和存储,包括单字原始图片、现代汉字、馆藏文物编号等;基于深度学习算法,实现了179个甲骨文单字的智能识别。

技术断层

虽然已有以上进展,但古文字专业的关注重点仍是对单个文字的考释,对完善古文字字符集的重要性认识不够。据此,笔者基于新文科建设,探索“学生学习字符编码―字符编码技术应用”双向促进模式。

Unicode的简介

Unicode(统一码)是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案,用于为世界上大多数书写系统中的每个字符提供唯一的数字。Unicode为古文字的研究与应用提供了统一的、跨语言的解决方案。

唯一性

Unicode中每个字符被赋予唯一的编码点(范围从U+0000至U+10FFFF),确保古文字都能够在计算机中被表示并储存。

有效性

Unicode通过优化的编码方案(如UTF-8、UTF-16),实现古文字的高效存储与解析。

通用性

Unicode的通用性不仅体现在它能够涵盖广泛的字符集,更在于其强大的扩展能力。这种持续的更新机制确保了Unicode能够紧跟时代步伐,促进古文字在新时代的新生。

扩展性

Unicode通过分层的编码平面结构,支持新字符的持续加入。随着古文字研究的不断发展,新的古文字可能会被不断地发现,Unicode的这种扩展性确保了这些新发现的文字或符号能被及时纳入编码体系。

兼容性

Unicode与现有编码标准(如ASCII)及操作系统、编程语言、网络协议无缝兼容。这种兼容性使得古文字数据能够在不同系统间被接受与显示。同时,Unicode还支持多种输入法和文本编辑工具,让古文字的录入和编辑变得更加简捷和高效。

可应用场景分析

甲骨文数据库建设

作为汉字体系现存最古老的成熟文字形态,甲骨文的数字化进程因Unicode编码标准的引入实现了质的突破。在大数据浪潮下,甲骨文文献及研究手稿等资料必将进行大数据库的建设。在甲骨文数据库中,基于Unicode对甲骨文的储存,遵循“一字一字形一码”的原则,研究者可借助统一码位实现跨平台文本编辑,有效规避传统图像插入法导致的格式混乱、字符失真等问题。

因此,在学术文本生产领域,甲骨文Unicode编码的应用显著提升了论文写作的标准化程度。例如,Unicode15.0(2023年)新增约400个甲骨文字符,首次实现甲骨文的标准化编码,使得一些大型甲骨文数据库能直接使用Unicode存储和检索,进一步推进了学术领域对甲骨文的使用与研究。

甲骨文数据库的建设也为古文字的整理与保护提供了有力支撑。依据Unicode编码标准构建数据库,能够将甲骨文资料进行归类与存储。同时,在数字化保存方面,甲骨文数据库利用Unicode编码确保了字符信息的准确性与完整性。对于专业研究者深入探究甲骨文,以及文化遗产保护者更好地保护古文字遗产,都起到极为关键的推动作用。

人工智能与古文字

基于当下科技的发展,人文学科正逐渐与其他学科交叉融合。2020年,文化和旅游部、教育部等共同实施“古文字与中华文明传承发展工程”,有关部门积极展开研究,推动古文字数字化,如故宫博物院探索打造“古文字文物AI”并开发线上小程序,利用人工智能推动古文字的传播与研究。此外,一些高校积极开展古文字研究,如清华大学开展计算甲骨学研究,并启动建设计算古文字学实验室。这些智能技术的应用,不仅促进了智能技术与古文字研究的初步结合,还可以通过网络宣传让大众更加熟知古文字知识。

在推动智能技术与古文字相结合的过程中,Unicode起到至关重要的作用,通过Unicode编码,人工智能可以对古文字进行有效的存储、检索和分析,提升古文字研究的效率和准确性。此外,基于Unicode的智能识别技术还可以应用于文物的鉴定和保护,通过对比和分析文物上的古文字信息,为文化遗产的保护提供有力的技术支持。

教育与文化传播

更深层的价值体现在编码机制对古文字学习建构的促进作用。例如,甲骨文Unicode编码遵循的表意文字描述序列原则,要求对每个字符进行构件分解。通过对字符构建的拆解,有利于学生深入探索甲骨文的构造原理,为高校古文字课程提供了可操作的训练模型。

此外,基于Unicode通用性特点,所做成的古文字学习资源可以在网络上实现共享,让全球的学者都能在网络上学习甲骨文。这种学习资源的共享,可促进古文字学习资源数据库的构建,为古文字的学习与研究提供更加全面的资料。这不仅提升了学者学习古文字的效率,还在一定程度上提高了他们对古文字的学习热情,拓宽其学习古文字的信息渠道。

在古文字的文化传播方面,基于Unicode的古文字数据库构建,可以促进古文字的广泛传播。通过构建基于Unicode的古文字数据库,能够将古文字的字形、字义、读音等信息进行数字化存储和展示,促使古文字的学习和研究更加便捷、高效。同时,古文字数据库的构建能够为古文字提供新的传播方式,如在线展览、虚拟博物馆等,让更多人可以接触到古文字。

具体应用的探索

古文字字体制作

古文字字体制作是Unicode在古文字领域落地应用的重要探索方向之一。

在实际操作环节,主要搜集并梳理古文字字形相关图片和资料。这些资料容易获取,如古文字Unicode编号、古文字图片等,需通过数字化技术手段进行提取和整理。在此基础上,运用专业的字体制作软件,如Fontcreator,将经过编码处理的字形数据转化为符合规范的字体文件。

在古文字字体制作过程中,需关注字形的精准度与美观程度。有些古文字字形本身相当复杂,且存在多种异体字,因此需进行严谨的校对与修正工作,确保每个字形能准确显示。同时,需充分考量字体的美观性,让古文字字体清晰且美观地显示于设备中。

当古文字字体成功制作完成后,可将其推广并应用至多种平台与设备,如电脑等。在电脑中制作完成字体或下载字体后,即可在word等软件中应用古文字字体。利用Unicode制作古文字字体,不仅方便了学者开展古文字的学习活动,还有力推动了古文字的传播与普及。

个人古文字学习卡片

古文字知识庞大且琐碎,需古文字学习者勤于翻书、查书,并勤于做卡片、做抄录,将细碎的知识点进行整合,构建完整的知识体系。此时,卡片记忆学习不失为一种好的学习方法。

目前,市面上已有许多帮助学习人群记忆知识并提升记忆效率的卡片学习软件,如“Anki”和学习英语的“百词斩”“扇贝单词”等。古文字学习者可尝试使用支持古文字字体文件的学习软件,如“Anki”可以根据学习者的需求制作卡片,正面插入结合Unicode制作的古文字字体,背面填写释义、对应现代汉字及拼音,并且可以设置挖空练习,加强记忆点。同时,这类型的卡片学习软件通常支持多平台同步,无论是在手机、平板电脑,还是在笔记本电脑上,都能随时随地学习,提高了学习的灵活性与便捷性。此外,这类软件可以记录学习者的学习进度与复习情况,帮助学习者更了解自己的学习状态,实现更高效的学习。

总之,结合Unicode编码,制作并应用个人古文字学习卡片,可以为古文字学习者提供全新、高效的学习方式。

互动式数字笔记

互动式数字笔记是Unicode在古文字学习领域应用的又一重要方向。通过将Unicode编码的古文字嵌入数字笔记,古文字学习者可构建兼具传统文字内涵与丰富互动元素的数字笔记。古文字学习者可以使用Markdown或Jupyter Notebook软件,直接嵌入古文字Unicode字符或者输入结合Unicode制作的甲骨文字体,同时插入SVG动画,展示字形演变的过程。交互功能设计层面,需依托JavaScript框架与可视化库实现字形拼图等交互场景的技术落地。

这种互动式数字笔记不仅提高了学习的趣味性,还增强了学习者的参与度。学习者可以通过亲手操作,深入了解古文字的字形演变过程,从而加深对古文字的理解和记忆。

问题与挑战

复杂字形

古文字的字形复杂多样,在制作字体文件的过程中,往往会遇到许多复杂的字形。如何高效、精准地表征一个字的不同字形,仍存在广阔的研究空间。例如,甲骨文中的“鹿”字存在大量异体写法,不同契刻版本的字形特征各有不同。因此,如何依托Unicode的编码体系与技术规范,实现此类异体字的科学收录与高效适配,仍是值得深入探讨的问题。

部分技术使用门槛较高

在实际应用中,虽然Unicode编码系统为古文字的处理与展示提供了极大便利,但相关技术的使用仍然存在一定的门槛。例如,对于非技术背景的学习者,如何嵌入Unicode字符、如何制作SVG动画展示字形演变,以及如何通过JavaScript框架与可视化库实现互动,均是具有挑战性的任务。这不仅需要学习者具备一定的计算机基础知识,还需要他们花费时间和精力熟悉和掌握相关工具与软件。因此,如何降低相关技术的使用门槛,使更多用户能够轻松上手并将其应用于实际场景,是亟待解决的重要问题。

关注度较低

Unicode编码系统在古文字处理与展示方面展现出巨大的潜力,但在现实中,这一领域的关注度较低。一方面,古文字研究属于较为专业的领域,其受众相对有限;另一方面,由于Unicode编码系统及相关技术的应用理解起来相对复杂,使得普通大众更偏向传统的纸质学习。此外,当前社会对于传统文化的重视程度虽有提升,但在数字化、信息化快速发展的背景下,古文字等传统文化的传播和普及仍面临诸多挑战。因此,如何提升Unicode编码系统在古文字处理与展示方面的关注度,吸引更多研究者与从业者关注并参与该领域的相关实践,是当前推动古文字数字化发展的重要课题。

提出策略

首先,革新技术工具。专业技术人员可以开发更为直观且易用的工具,以图形界面代替复杂的代码操作,使非技术背景的学习者也能轻松嵌入Unicode字符,制作SVG动画。

其次,推出在线教程和互动课程。通过实例演示和逐步指导,帮助学习者快速掌握相关技能。例如,一些专业学者可以在“慕课”或视频平台网站上传关于数字人文的学习视频,以便让更多初学者便捷高效地学习Unicode与古文字相关知识。

最后,将Unicode技术和古文字应用纳入学校课程体系,培养更多具备跨学科知识的人才。学校可以在课程设置中增加与Unicode技术和古文字应用相关的课程,让学生在学习古文字的同时,掌握Unicode编码的原理和应用方法。这不仅能增强学生的实践能力,还能培养其跨学科的综合素养,为未来的研究和应用奠定坚实的基础。

这些策略的实施,可以降低技术使用的难度,推动Unicode在古文字研究与应用领域更广泛应用。

综上所述,在数字人文背景下,应充分掌握Unicode相关知识,Unicode不仅是计算机信息处理的基础,更是连接古代文明与现代科技的桥梁。Unicode可以进一步推动古文字数字化进程,促进学科交叉与融合,进而推动古文字学的学科建设及学术研究创新,让古老的文化智慧在现代社会中焕发新的生机。

本文系西南民族大学省级大学生创新训练项目“新文科学习模式的探索――基于Unicode的古文字研究与应用”(项目编号:S202510656130)的阶段性成果。

(作者单位:西南民族大学)

来顶一下
返回首页
返回首页
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
推荐资讯
相关文章
    无相关信息
栏目更新
栏目热门

联系我们|网站介绍|欢迎投稿|杂志订阅|网站声明|

主管:山西出版传媒集团   主办:山西三晋报刊传媒集团     编辑出版:《文化产业》杂志社   投稿邮箱:whcytg@163.com
地址:山西省太原市迎泽区柳巷南路云路街2号 邮编:030000 联系电话:0351-4120686、0351-4120998、0351-4120995
期刊出版许可证丨 国内刊号:CN14-1347/G2 丨国际刊号:ISSN1674-3520丨邮发代号:22-415
晋ICP备2021019266号-1 晋公网安备140105029904671
主管:    山西出版传媒集团   主办:    山西三晋报刊传媒集团     编辑出版 《文化产业》杂志社   投稿邮箱:whcytg@163.com