在加州大学圣地亚哥分校计算机科学与工程系博士生候选人陈丹露的分享中,复旦大学本科生必修课《15世纪以前的世界》迎来了第29次拓展讲座。此次讲座以“当人工智能遇上历史研究 ——AI如何解读古代文献”为主题,深入探讨了如何将人工智能融入历史研究,为传统学科带来新的视角和方法。陈丹露本科就读于复旦大学,其主要研究方向包括自然语言处理、机器学习以及数字人文。
当前,数字人文(Digital Humanities)的常见理解和实践包括建立电子数据库、分析文本、绘制历史地图与网络分析,以及文化遗产的数字化重建。然而,这些应用大多将计算机技术视为辅助工具,尚未与人工智能等先进技术深度融合。
为了帮助听众更好地理解讲座内容,陈丹露通过几个生动的例子进行了说明。首先,以《红楼梦》的文本分析为例,将120回文本拆分为120个样本作为输入,利用k聚类分析方法进行处理,输出点状聚类结果。结果显示,前80回与后40回(除去第67回)在特征空间中存在明显差异,从而支持了“前80回与后40回作者不同”的观点。
处理历史文献往往第一步需要做文本电子化处理,即光学字符识别(OCR)。光学字符识别(OCR)技术是将纸质文字转化为计算机可处理的电子化表示的重要手段。然而,处理历史文献时,OCR技术面临诸多挑战。由于历史文献的字体、排版和纸张质量差异,OCR的识别准确率可能较低,通常需要人工校正。例如,在对古代文献进行OCR识别时,最理想的情况下,也约有5%的字符无法正确识别。为了提高准确率,研究人员需要先提取文本,再对每个字符进行分类,识别出字符的多种可能性,并进行人工校对。
陈丹露主持的EEBO-verse项目则试图打破使用OCR的传统方法。该项目从早期现代西方文献中筛选有韵律的词句和诗歌,通过将图片直接作为机器学习模型的输入,筛选出可能包含诗歌的页面,然后结合人工和文字识别软件进行精校。这种基于图片的筛选方法针对特殊需求结合诗歌的版式特征,不需要单独关注文本内容,极大地提升了工作效率,为计算机和历史文献研究的结合提供了新思路。
然而,上述例子大多停留在使用机器建立数据库和统计文本的层面,较少能够超越“搜索与索引”,突破简单的字符匹配或统计词频的层面。机器学习模型通常需要大量的样本来进行训练,但在历史研究中,尤其是古代文献领域,很多时候样本数量有限,无法满足机器学习的条件。同时,一个关键问题是:如何表示古代文本?从机器学习的视角来看,大部分文字无法直接编码,或者说编码无法储存所有的信息。所以,古代文字并非可直接处理的文本数据,而是以图像形式存在的视觉信息。这些图片需要经过预处理和标注,才能被机器学习模型理解和学习。
历史研究材料样本不足和分布不均问题也构成了挑战。如果使用机器学习模型对楔形文字泥板进行断代,当数据集来源单一(如大英博物馆或耶鲁博物馆)时,模型的表现可能较为理想。但如果将模型应用于其他来源(如开罗博物馆)的泥板时,错误率可能会高达80%。这是因为不同博物馆的拍照环境、光线、色调和参数差异巨大,导致数据分布不一致。相比之下,识别猫狗等常见模型能够取得成功,是因为这些数据集的规模足够大,能够覆盖各种场景和变化。然而,网络上楔形文字泥板的数量有限,且分布分散,难以形成大规模的、统一标注的数据集,这使得机器学习模型的训练和应用面临巨大挑战。
总结来说,人工智能在应用于历史研究时面临三大核心问题:首先,历史研究中的许多问题难以转化为机器学习能够理解的形式;其次,古代文字本身难以被机器学习模型直接识别,需要复杂的预处理和标注;最后,古代文献的数据资源稀缺,且训练集和测试集之间存在显著的数据分布偏移。这些问题导致目前的研究大多停留在将纸质文献数字化为电子数据库的阶段,难以深入到更复杂的历史问题的分析和解决中。
接下来,陈丹露通过多个案例展示了人工智能在古代文献研究中的深入应用。
重建古希腊铭文:DeepMind Ithaca
DeepMind开发的Ithaca模型旨在通过训练神经网络补全受损铭文的缺失部分,并尝试推测铭文的地理来源和年代。Ithaca通过随机挖掉铭文中未破损的字符(例如20%的字符)来模拟破损铭文,并将这些字符作为模型的输出进行训练。这种方法的优点在于避免了专家补全可能带来的主观错误,确保模型能够基于更可靠的训练数据进行学习。Ithaca的模型不仅能够预测缺失的字符,还能确定铭文的地理来源和年代。实验结果显示,Ithaca单独使用时的错误率远低于接受过希腊文字训练的研究生。
人工智能重建古希腊铭文该研究论文题为“Restoring and attributing ancient texts using deep neural networks”,已发表在《自然》杂志上。
甲骨文缀合:OBI-Bench
由于甲骨文尚未有成熟的数字化表达方式,直接将其转化为机器可读的格式并不容易。OBI-Bench项目通过将甲骨文缀合问题转化为字符相似度检索问题,以期完成甲骨文的识别、缀合、分类、检索和破译五大任务。具体而言,该方法将甲骨文的图片作为输入,通过模型召回与目标字符相似的其他字符,从而帮助研究人员进行缀合。这种方法的优势在于无需对甲骨文进行复杂的数字化编码,直接利用图片进行处理,大大降低了技术门槛,同时也为甲骨文的研究提供了新的思路。
本图来自“甲骨文AI协同平台”庞贝古城赫库兰尼姆卷轴的非侵入式阅读:Vesuvius Challenge
考古学家在庞贝古城附近的库赫兰尼姆遗址的考古发掘中,于火山灰泥层下发现了一座古代图书馆,其中保存着大量因火山喷发而碳化的珍贵古籍。这些古籍的阅读难度极大,传统的物理打开方法可能会对古籍造成不可逆的损坏。Vesuvius Challenge项目通过非侵入式的方法,利用三维扫描技术对古籍进行成像,然后通过机器学习技术识别古籍中的文字。这种方法的主要步骤包括:CT成像、分割每一页并(虚拟地)展平、墨水检测识别,以及专家验证机器识别的文字是否准确。然而,由于这些卷轴的扫描数据量巨大(例如25cm的卷轴扫描后数据量可达3.41TB),其中99%以上都是噪音,这给机器学习和识别带来了巨大挑战。此外,由于缺乏监督数据,研究人员不得不先人工辨认墨迹,然后通过不断迭代训练模型来提高识别准确率。2023年的结果显示,该方法成功识别出了一部失传的哲学家作品。但模型的泛化能力有限,例如能够准确识别单独一个卷轴的模型无法直接应用于另外一个卷轴。
左图为Vesuvius Challenge(维苏威火山挑战赛)获胜者利用机器学习技术解读的古籍;右图是这类古籍通过传统的物理打开方式打开后的情况。
在碳化的古卷上找到的字母ΠΟΡΦΥΡΑΣ ,是古文的紫色(Porphyras)莎士比亚第四对开本的印刷者识别:Print and Probability
莎士比亚的第四对开本存在许多错漏,因此学者对寻找其印刷者表现出极大兴趣,但当时出版商匿名出版的习惯使之变得困难。通过机器学习技术,研究人员可以利用活字印刷的特性来解决这一问题。具体而言,同一出版社印刷的字符在形状(带有破损)上应该是相同的,因此可以通过寻找具有相似破损形状的字符来确定两本书是否由同一出版社印刷。来自加州大学圣地亚哥分校(UC San Diego)和卡内基梅隆大学的跨学科合作团队把这个问题拆解成几个机器学习模型能处理的子任务,用AI首次回答了这个历史悬案。首先,Ocular无监督字符识别系统能够提取一页英文打印书籍中的所有字符并进行分类,筛选出具有破损的字符,并通过训练小的神经网络来判断字符是否有破损。随后,通过标注100-200个肉眼判断为相似的字符样本,训练一个网络来识别这些字符的相似性。最终,通过匹配已知出版者的作品中的字符,可以确定未署名版本的印刷者。
通过这些案例,陈丹露给我们展示了人工智能在古代文献研究中的多样化应用,从古希腊铭文的补全到甲骨文的缀合,从赫库兰尼姆卷轴的非侵入式破译到莎士比亚对开本的印刷者识别,这些研究为历史研究提供了新的视角和方法。
最后,在讲座的互动环节中,在场听众提出了多个问题,陈丹露也结合实际研究经验进行了详细解答。
提问:
从大量古代文献中筛选韵文的工作,是否更接近图像识别任务而非语言分析任务?是否需要人工预先标注数据?是否有比较有效的模型?
回答:
确实如此,筛选韵文的工作更接近图像识别任务。图像本质上是矩阵,而文字需要转化为机器能够理解的连续形式,这增加了处理的复杂性。例如,在一百万本书中,大约只有20%的文本经过了人为标注。在这种情况下,通常会将其中5%的数据用作测试集,95%用作训练集。从实际效果来看,基于图像的方法往往比传统的文字识别或特征提取方法表现更好。
提问:
建筑师手稿的OCR手写体识别非常困难,目前的思路是人工标注后再进行机器识别,这是否正确?对于小样本学习领域,您怎么看?在处理手稿时,除了中文和英文,还有绘制的相关图纸,这种情况下是否更应该采用图像处理的思路?
回答:
对于手写体识别和小样本学习,人工标注是非常关键的一步。实际上,只需要标注一小部分数据,例如5%,就足以让模型识别出95%的内容。小样本学习在近年来得到了广泛应用,尤其在历史文献研究中,这种方法贯穿了项目的整个流程。对于包含多种语言和图纸的手稿,图像处理的方法(或者说多模态的特征输入)确实更为适用。通过将手稿中的文字和图纸视为图像,可以利用图像处理技术进行特征提取和分析,从而更好地处理这些复杂的内容。
提问:
在处理大量文本并截取韵文时,如果中文世界中并没有整页或半页的版式体现,是否还能采用类似的方法?在《红楼梦》这一例子中,使用的聚类分析方法是否可以手工微调这些库的参数以获得更好的结果?
回答:
如果中文文献中没有明显的整页或半页版式,那么直接应用类似的方法确实会面临困难。不过,韵文的例子是为了说明,除了文字内容本身,还可以关注版式等非文字的特征。而关于《红楼梦》的例子,在实际操作中,原文可能进行了字级别的筛选。虽然聚类分析主要依赖于第三方库,但每一步的分析过程都是可以观察和调整的。例如,可以选择不同的参数来优化聚类结果,使其更符合研究需求,比如情感色彩等特征。当然,需要注意的是,选择参数时应尽量避免仅选择那些能够明确得出预期结果的参数,否则可能会导致结果的偏差,从而陷入循环论证的谬误。
提问:
关于铭文补充的例子,是否因为模型是在一个集中的数据集里训练,所以结果会比较准确?是否存在循环验证的情况?人类的词语组合能力是否比机器更强,从而导致机器的错误率更高?现在所有模型都是基于大数据量训练的,但对于中世纪手稿这类数据量不足且风格迥异的情况,该如何解决?
回答:
我认为,人类在铭文补充任务中的错误率59.6%可能有些偏高,因为这个数字是让两个做古典学的学生测出来的。但个人认为这并非完全是因为人类的词语组合能力更强而导致人类可以补全得更多。大多数情况下,错误率较高是因为铭文缺损过多,导致无法准确补充。其次,机器给出的并非单一结果,而是多种可能性的概率分布,这为历史学家提供了更多参考。最后,人和AI模型不应该是一种竞争关系,而是人与机器可以相互补充:机器可以进行初步筛选,尤其是在那些懂的人不多的语言中,由人类专家进行最终确认可能会更有效。对于小样本问题,例如中世纪手稿,可以采用一些现有工具或方法。例如,像Ocular是一个专门用于处理小样本和字符集较少的语言的工具。此外,也可以通过人工添加一些限制条件来优化模型的训练过程。
提问:
甲骨文和其他古文字的字数有限且相对规范,但竹简文字的部件可以随意拼贴组合,存在无数种可能性。在这种情况下,我们该如何识别?
回答:
可以尝试让模型生成关于这些部件的解读,将分类问题转化为描述性问题。这种方法可能有助于解决竹简文字的识别问题。有些文字的分类并非固定组合,目前只有中文的简帛存在类似问题,楔形文字其实也比较类似,但还是没有竹简字复杂。这是一个非常有趣且具有挑战性的问题,值得进一步研究。
提问:
我试用了Ithaca,特意挑选了一些包含地名和时间信息的铭文让它判断,但模型在判断字符权重时会忽略一些重要名词。这是不是意味着我们需要再训练一个大模型来辅助它,还是有其他方法可以让一个模型同时实现字符推断和结合历史信息校正推断?
回答:
Ithaca在训练的时候特意去除日期和地点这种能泄露年代的信息,并主要从纯文风角度去推断铭文所属的年代和地点,因此会忽略一些人类专家可能会注意到的权重,例如地名、人名等信息。解决办法是针对具体需求重新进行相关训练。由于数据量通常不会太大,因此不需要重新接入一个大模型。可以通过调整训练数据和目标,让模型更好地结合历史信息进行推断。
提问:
作为纯文科体系的学生,如果想结合数字技术与人文研究,需要做哪些准备?
回答:
我个人的建议是,作为本科生,可以暂时把数字技术当作一个“黑箱”,现在的GPT大模型已经将输入和输出简化到了极致,所以暂时不需要深入了解其内部工作机制,而是要清楚它能做到什么,不能做到什么。网上有许多关于数字技术与人文社科结合的学习资源,虽然可能仅限于了解如何对问题进行建模,但在学习专业课程时,可以思考某个问题为什么可以或不可以被数字技术建模。不要过于焦虑,如果对交叉领域感兴趣,可以主动去学习更多的AI相关的数理课程,譬如说线性代数和机器学习基础。更重要地是,要学会如何表述一个问题,思考如何将一个人文历史问题转化为可操作的分析问题,明确输入和输出,或者如何利用数字工具辅助研究,这是非数理技术专业的学者需要培养的重要能力。
讲座现场