历史学家的新技艺如何处理成为史料的电子邮

2024/9/13 来源:不详

长久以来,对历史学者弥足珍贵的传统史料形态,诸如日记、书信、回忆录等,已经被“数字化”的名头剿杀了。大约十年前,我还以传统的思路和方法研究奥古斯丁的书信,并提出了“书信空间”的概念,还在后记中展望了个人的“书信空间”。简言之,“书信空间”就是用书信编织的一个独具特色的人际网络体系,参与其中的人发生关联、互动、影响;通过对“书信空间”的描述与研究,我们可以了解人群的交往行为。不曾料想,今天我却面临着无“信”可以构建的尴尬。——我们现在都用电子邮件!

据说中国的第一封电子邮件是年代末从北京发出的,其中“越过长城,走向世界”的话语,令人唏嘘。后来,电邮的便利让我们愈发懒惰和贪婪,不愿提笔多写一个字,也不愿多等一刻平邮的信件。

某日,在整理电脑文件时,我突然在某个隐秘的文件夹里发现了一个旧文档,里面是多年前为了解决电子邮箱的容量问题不得不删除的旧信件。出于历史学者的职业敏感,我事先下载了部分电子邮件,现在随手点击鼠标看了看,居然读到了年的电邮!一个想法在我脑海中闪现,这些电邮是很有意味的新形态史料,它们能否勾勒出我过去十多年的生活轨迹,构建我个人的“书信空间”呢?

在这个灵感的推动下,我开始了一场实验。我以一名历史学者的身份,尝试去处理一批“天生数字化”的资料。这个过程充满了新奇,既有传统历史研究的共性问题和解答,也有意想不到的处境和方法。或许,我的实验将成为未来5-10年历史学家工作的常态。

数据整理

多年前存档电子邮件时,我并没有想过去研究它们,也就没有考虑到格式的问题,现在就不得不面临如何将它们结构化的麻烦。这个工作主要由南京大学软件工程学院的郭建朋同学帮忙写代码,将结构混乱的电邮数据进行解析,整理出包括收件人、发件人、主题、文本、时间等在内的字段,并放在了Excel表格中供后续处理。

但这个样态的数据还不能直接用于分析。电子邮件的存档跨度十几年,虽然主要以新浪邮箱为载体,但邮件结构并不是%统一,寄件人的邮箱体系与新浪邮箱不兼容,发件人姓名与电子邮箱地址脱节,再加上乱码、地址错误、垃圾邮件等各种问题,解析后的资料并不完美。

还要对数据做进一步清洗,主要包括删除重复信息,修正错误的邮箱地址(有些错误是发件人在录入地址的时候打错了),将人与不同的邮箱匹配(一个人没有两三个邮箱都不好意思出来打招呼)。最典型的一个情况是,年8月,雅虎邮箱暂停服务,导致很多人更换邮箱地址,也增加了消歧的工作量。虽然我编写了Python代码帮助提高工作效率,但还是有一些工作要手动完成,耗费了不少精力。所以,最终呈现在我面前的资料并不是一份完美的数据库。但没有哪位历史学家见到过完美的史料,重点是能否从中引发有价值的话题。

这批电邮材料显然存在固有的短处,它们肯定不是我所有电子邮件的全部(我究竟删除了哪些电邮,估计只有AI知道了),也肯定不是我所有通讯活动的全部。过去十几年,手机短信一度成为交流的主导,但所有短信已经无从考证;三四年前,

转载请注明:
http://www.3g-city.net/gjyyf/7628.html
  • 上一篇文章:

  • 下一篇文章:
  • 网站首页 版权信息 发布优势 合作伙伴 隐私保护 服务条款 网站地图 网站简介

    温馨提示:本站信息不能作为诊断和医疗依据
    版权所有2014-2024 冀ICP备19027023号-6
    今天是: