当前位置: 菲律宾 > 菲律宾地理 > 张耀铭数字人文的张力与困境兼论ldqu
当前位置: 菲律宾 > 菲律宾地理 > 张耀铭数字人文的张力与困境兼论ldqu
摘要:数字人文在当下的中国,已经成为学术研究的热点和趋势。因此有必要对数字人文的“数字”组成部分,进行比较深入的讨论。第一,“数字”是软件和算法,“数字”是技术和工具,“数字”是基础设施和研究范式。“数字”为人文学术研究带来机遇的同时,其技术困境和伦理困境也已显现。第二,从数字化生存到数据化发现,不仅带来新的思维模式和研究视角,而且实现了载体的转型进而导致意义的变迁。第三,从思辨式研究方法到数据驱动研究范式,实现了人文学术研究的“计算转向”。但问题在于“数字”一家独大,不能很好体现人文理念,影响了中国原创性学术成果的生产。如何突破数字人文的“数字困境”?加强问题导向、提升复合素养、跨界合作创新、提倡文化批评,就显得尤为重要。
原文载:《吉首大学学报》年第四期:1-11
作者:张耀铭,编审,《新华文摘》原总编。
“数字人文”概念被提出并为该领域的多数学者所接受,不过十几年的时间,各种相关争论却一直持续不断。有学者总结出关于数字人文的21种不同的定义,但又声明没有一个是完全令人满意的。学界对数字人文之所以难有共识,首先是由于数字技术是不断变化、发展的,新的技术内容和形式随着时代的演进不断丰富和增加,因而导致数字人文概念的内涵与外延也不断地更新和拓展。其次数字技术是一柄双刃剑,在发挥巨大的社会进步核心动力功能的同时,也引发了许多难以消除的负面效应。因此数字人文没有公认的标签,也一直处于不断被定义、被争论、被批判的过程,数字人文的版图边界还有待商榷。
数字人文在当下的中国,俨然已成为学术热点。从已有的研究看,尽管有数字技术及其相关问题的讨论,但对数字人文的“数字”组成部分却鲜有深刻认知与批判反思。因此对数字人文中的“数字”进行比较深入的讨论是完全必要的,比如“数字”是软件和算法?“数字”是技术和工具?“数字”是数据驱动的研究范式?“数字”彰显了张力和创新,是否又带来了困境与偏见?“数字”与“人文”结合,又推动了何种意义上的对话?笔者不揣冒昧,谈一些肤浅之见。
一
“数字”提供的机遇与挑战
“数字”是什么?从工具层面讲是软件和算法、技术和工具;从数字层面讲是基础设施和研究范式,“不仅包括使用编程语言进行文本计算、数据库搭建,也包括利用和开发软件开展相关研究。”必须承认“数字”这个词充满了张力,这种张力存在于数字技术与网络分析之间,存在于齐一性和离散性之间,存在于现实性和虚拟性之间,存在于学科性和跨学科性之间,存在于创新和困境之间。当今时代被称为数字时代,诸如数字资源、数字工具、数字技术、数字计算、数字媒体、数字出版、数字方法、数字思维、数字文化、数字经济等等,数字已经无孔不入地融入我们的经济、商业和社会之中。在学术领域,数字技术为人文学术研究提供了全新的维度和组织介入方式。今天人文学科中凸显的许多问题的解决,计算技术已成为首要的考虑条件,几乎所有人文学科的学术工作正在越来越多地用“数字”的方式完成,这也导致技术困境与人文焦虑的产生。
我们正生活在数字技术突飞猛进的时代——电子技术、通信技术、多媒体技术、声像技术、数据库技术、人工智能技术等让人目不暇接。数字技术是一种内涵丰富的综合技术,或者说是一个技术群落。在这个技术群落里,网络技术和计算机硬件、软件是其核心。网络技术几乎克服了传播过程中可能遇到的任何障碍,这包括空间、时间上的距离障碍和文化传播意义上的语言障碍,可以说无处不在。计算机硬件如高性能计算机、便携式移动终端、3D打印机、高精度扫描仪、智能传感器、VR虚拟现实眼镜、度超高清全景摄像机等数字工具的应用,为数字人文核心的基础活动“保管、分析、编辑和建模”,提供了快捷高效的处理。软件是一系列按照特定顺序组织的计算机数据和指令的集合,分有形和无形两个部分。有形部分指软件文档、程序代码、二进制代码、用户界面和输出报表等;无形部分指软件的技术逻辑和开发者的思想关切。数字人文研究可以利用的软件工具颇多,文献收集、管理软件有Mendeley、EndNote、Zotero等,文本编码软件有TEI、DocuSKY、GATE等,文本挖掘软件有ABBYYFineReader、Wordseer、ATLAS.ti等,地理空间系统分析软件有ArcGIS、StoryMap、GRASS等,图像语义标注软件有文本图像链接环境(TILE)、文档图像链接编辑器(TBLE)、伊斯兰多拉图像标注框架(IIAF)、数字标注与链接工具(DM)等。好的软件是人文文本研究领域的哈勃望远镜,是人文学者手中得力的技术工具,它能给用户一种新的知识发现和文本蕴含意义揭示。
在数字人文的知识生产、知识发现过程中,人文越来越重视“数字”,而“数字”的含义越来越依赖于算法。算法通常被定义为:一种“系统的过程,可以在有限的步骤中产生问题的答案或问题的解决方案。”换言之,算法就是一种编码程序,不是单指某次计算,而是通过特定的运算把输入数据转化为输出结果,更强调解决问题的思维和高效。国外有学者把数据比作食材,算法比作食谱:只有遵循食谱所设立的步骤和指令,按照要求筛选和搭配食材,才能做出指定口味的菜肴。比喻颇为形象生动。随着计算机技术的发展,算法应用于人文学科也不乏成功的案例。年,以让巴蒂斯特·米歇尔为首的哈佛大学、麻省理工学院、大英百科全书的学者与谷歌研究团队,利用谷歌多万种数字化图书的语料库(时间跨度年,规模总计0亿个词),以自然语言处理中使用最为广泛的N-gram模型方法,通过英语关键词或人名在历史文献中随时间变化的频率进行算法分析,由此推导出人类文化的发展趋势和演变规律。他们的研究成果《利用百万数字化书籍的文化定量分析》在《科学》杂志上发表,开创了“文化组学”(culturomics)研究的新河。多伦多大学教授GelilaTilahun团队,利用算法为历史文献做了断代。英国大约保存了多万份没有标明年代的契据,有的是原始文献,更多的是古代原件的复制品。这些契据具有珍贵的历史记忆与文化信息,为今天人们了解10世纪至14世纪之间的英国政治、经济和社会状况提供了难得的依据。GelilaTilahun团队开发出一套计算机统计技术,使用00份署有年代的契据,考察所使用的语言随时间的变化情况,以此来确定其他契据的年代。分解、抽象、自动化在计算机编程中结合一起,通过由逻辑运算符和条件语句约束的一系列机械应用程序从输入创建输出,让断代取得了有价值的实验结果。“鸟枪测序法”被应用于文学研究中,用来对中世纪“英国诗歌之父”杰弗里·乔叟的《坎特伯雷故事集》手稿版本(同一作品的不同手稿版本的年表)提出假设,并且绘制出Harlequin出版的爱情小说的常见流派特征。“这种在不同问题领域之间套用算法的能力是数字人文学科开辟的令人兴奋的研究机会之一。”总之,算法是一种能力,这种能力是数字人文领域创建和处理数据的核心组成部分。算法作为重要资源,其海量数据集的计算方法使得大尺度的研究问题变得更加可行;算法作为技术方法,对于数字人文研究具有可检验与证伪性意义;算法作为竞争工具,背后其实是一种技术优势实现高效率的认知。
牛津大学主办的数字人文期刊
数字的技术、工具和媒介为数字人文学术研究与传播方式带来机遇的同时,数字的困境和痛点也已显现。第一,技术困境。首先,大量技术是根据数字人文项目实施过程中碰到的具体问题而研发的,有的成功,有的难产,更有的因为项目设计不切实际而陷入失败。我国数字人文研究因文本与语言的特殊性,要求基础技术、数据库和专业软件的研发必须匹配中文语境,由此便构成了汉字的多义性与机器分析的单一化、已知与未知、已行与未行之间错综交织的技术开发困境。其次,人文学科与信息科学的研究者之间最大的问题是“互盲”。一方面,多数人文学者缺乏必要的数字技术基础,不可能参与到探索底层数据库、系统数据流、跨平台数据及其体系结构,还有应用编程接口(API)、移动视觉搜索(MVS)等相关技术和问题。这与早期的数字人文学者大多具有计算机技术背景、熟知电脑语言、会编制程序的情形大相径庭。另一方面,数字技术人员多为工程师出身,相对缺乏哲学、伦理等人文方面的知识素养,导致技术系统与人文学者产生了严重疏离,形成“专业鸿沟”困境,从而影响了技术对研究的辅助作用。第二,伦理困境。首先,对数据的过度依赖,对算法的过度崇拜,造成数字人文研究人文属性被辗轧而变得异常平庸化。重图像、重制作、重编码、重量化,轻文字、轻阐释、轻洞察、轻思想,似乎已经成为数字人文研究的一股潮流,这需要高度警惕,也需要批判反思。数字人文不是在技术祭坛上牺牲人文,而是数字与人文的融合发展。在两者之间的融合发展中,技术只是工具和方法,人文才是灵魂和根本。面对已陷入困境的人文和被扭曲的数字,我们该怎么办?借海德格尔的话来说,即“让一棵树在它站立的地方站着”。其次,对数字或数字人文缺少批判性反思,导致不少数字人文研究成为“技术决定论”的产品。一种极端数字主义的观点认为,数据就在那里,收集并完善它们,剩下的就等着学者们对其随心所欲地排列。所以研究问题之前先着手处理数据集,就变成了首要条件。数据是学术研究的基础和核心,数据仿佛也成了任人打扮的小姑娘。在这种模式中,研究主题是在没有预设观念,没有需要验证的问题、对象和模式的时候产生的,计算机通过算法读取文本(图像),只需极少的人工干预,对现象进行自由探索,实际上是废除了人文论证和阐释。这种通过假说驱动的阐释,被数字人文学家艾伦·刘批评为“白板阐释”。欧美国家的学术界对数字人文的批判一直不断,其中斯坦利·费什《数字人文及其不朽》、亚当·克思奇《科技接管英文系:数字人文的虛假承諾》、蒂莫尼·布伦南《数字人文的幻灭》、笪章难《以计算的方法反对计算文学研究》等颇具代表性,批评辛辣,更具反思与祛魅意义。我国的数字人文研究虽然取得了一些成绩,但仍属于起步阶段,缺少原创,“大多数项目确实没有推翻传统意义上的预设,还没有产生完全新的叙述,更没有出现震动学界的成果”。之所以如此,一个重要原因是自说自话的文章多,质疑批评的文章少。批判缺席,学术则难以进步;反思不足,学人则难以成长。
二
从数字化生存到数据化发现
数字技术与数字工具被大量引入人文科学,通过数字化、数据化、网络化,建构了大规模的研究基础设施(数据库平台、数字人文中心等)。这种研究基础设施对于传统人文研究,不仅带来新的思维模式和研究视角,而且实现了“载体的转型进而导致的意义变迁。”
(一)数字化的生态环境
美国经济学家卡尔·夏皮罗和哈尔·瓦里安在《信息统治》中,把数字化界定为“对信息流进行数字化的编码”。换一种说法,就是通过平面和立体扫描、智能文本识别、数字录音和摄影摄像等技术把过去遗留的文本、图像、声音、艺术品、建筑等各种各样的信息转换成一系列二进制代码,引入计算机内部统一处理。数字化在过去数年的时间里狂飙突进,其发展速度之快、数量之多、范围之广、程度之深,都远远超出了我们的想象。数字化时代,传统人文学科迎来三个最重要的变化:一是学术生产活动的核心转向数字化生存;二是人文学者检索、搜集、研究与传播学术的视野与能力得以拓展;三是传统人文学科呈现出边界模糊、交叉融合的趋势。数字化时代已经来临,我们都希望用数字化的逻辑去做今天和未来的事情。
自20世纪90年代以来,世界各国纷纷投入巨资进行数字化建设,其中美国是最早提出数字图书馆概念并从事数字化建设的国家。年9月,美国国家科学基金会、国家宇航局和国防部高级研究计划署联合公布了《数字图书馆倡议》,开始领导、组织和资助美国数字图书馆的研究和开发工作。年,国会图书馆协同15家主要图书馆组建了“国家数字图书馆联盟”,意图在互联网上建立分布式的开放图书馆,动态地保存美国的历史和文化遗产。年谷歌发布了一个野心勃勃的计划,试图把所有版权条例允许的书本文献进行数字化。为此谷歌与密歇根大学图书馆、哈佛大学图书馆、斯坦福大学图书馆、牛津大学图书馆等达成交易,并发明了一个能自动翻页的扫描仪开始工作。在短短几年的时间里,共扫描了大约2万本图书,使印刷文本上的内容变成了网络上的数据化文本,供用户通过搜索引擎查询和进行文本分析。然而谷歌的“网上图书馆”,因涉嫌侵权被美国出版商和美国作家协会告上法庭。官司虽旷日持久,但谷歌因“合理使用原则”成为最终的胜利者。这仿佛是一剂猛药,令美国知识界以及更广泛的社会领域人士兴奋,并展开双臂呼唤数字化浪潮的到来。美国数字公共图书馆(DPLA)捷足先登,将美国图书馆、博物馆和档案馆的人文资料及相关资源进行数字化和网络化开发,并于年4月上线,免费提供给世界用户。美国各大学采用跨学科的方法,将专业知识与数据集结合起来,相继建立了大量的人文主题网站、专题数据库,从长远考虑以数据化形式储存、保护、开发手中的资源。一些非盈利组织也有计划地从事原生数字资源存档、互联网存档,开始布局数字化时代知识共享与大众化普及行动。各类基金会加大资助不同主题领域、研究方向数字化项目的力度,成为研究基础设施的重要推动力量。与此同时,英国、法国、俄罗斯、澳大利亚等国家的数字化建设也如火如荼,成为国家信息化建设的重要组成部分。
我国的数字化建设虽然起步较晚,但投入和提速较快,不仅培育了若干个数字化科技巨头,而且为各行各业进入“数字世界”、共建命运共同体创造了良好的生态环境。以数字图书馆为例,年7月“中国试验型数字图书馆项目”立项,年以后数字图书馆在我国开始升温。“中国数字图书馆示范工程”、“中国试验型数字图书馆”、“教育部数字图书馆攻关计划”、中国高等教育文献保障体系(CALLS)、国家科技图书文献中心(NSTL)、国家科学数字图书馆(CSDL)相继启动,“国家图书馆文献数字化中心”、数字图书馆研究所相继成立,中国数字图书馆、中国知网、超星数字图书馆、上海数字图书馆、华东师范大学数字图书馆等相继运营与完善,进一步推动了我国数字图书馆的研究与建设工作。年全国图书馆标准化技术委员会成立,围绕数字图书馆建设制订了一批相应的国家标准、行业标准。年《全国图书馆标准化工作“十二五”规划纲要》,将“数字图书馆”列为第一个重点领域。麦肯锡全球研究院发布的“中国行业数字化指数”显示,中国与美国之间相对应行业的数字化程度差距正在迅速缩小。年,美国的数字化程度是中国的4.9倍,到年已缩小到3.7倍。在零售业和娱乐业,中国的数字化程度已明显高于欧盟和美国。数量可观的年轻网民,体量庞大的数字化市场,源源不断的海量数据,不断扩张的数字化生态系统,构成了数字人文研究的生机和命脉。
年复旦大学创办的《数字人文研究》(二)数据库改变了学术数字化只是转换了传统文献资料原先的存在方式,能够让计算机存储、处理和展示,在没有被数据化之前,本身不具有数据维度上的意义。真正能够改变传统文献资料利用方式的是数据化,数据化是将电子形态的文献数据结构化,按照一定数据格式构建成适用于可制表分析的量化形式。其意义在于,让数据从静态的“原矿状态”,变为动态的可分析数据资源。
从数字化走向数据库进而走向平台化,是未来的发展方向。数据库按照数据结构来组织、存储和管理,既是一个长期储存于计算机中的有组织、可共享的、统一管理的数据集合,也是一个应用领域的通用数据处理系统。不同的用户可以按各自的需求使用数据库中的数据,多个用户可以同时共享数据库中的数据资源。数据库的类型,大体有层次数据库、网状数据库、数字化文献资源库、关系型结构化数据库等。结构化数据库的数据之间可以任意重组关联,形成新知识,发现新问题,已经成为目前数字人文研究中最重要的平台。年,美国人文学科国家基金会推出“数字人文行动计划”,并成立了专门的数字人文办公室,推动各种类型数字人文项目的规划和实施。由此,使“数字人文”这个幽灵得以在美国和世界各国自由倘佯。近十多年来,数字人文研究机构如雨后春笋般涌现,全球多个国家相继成立了数字人文研究学会和数字人文中心。数字人文中心主要分为两大类:一是以大学院系为主体成立的数字人文中心,主要依托文学、历史、艺术、考古与计算机等学科,有专职的专家与技术人员队伍,呈现出专业学术研究的特征。比如建立数字馆藏作为学术或教学资源,开展人文科学和人文计算研究,举办与专业领域相关的讲座、工作坊、会议,编辑出版专业书籍、期刊、会议报告以及博客等形式的研究成果,招收和培养研究生等。二是以大学图书馆为主体建立的数字人文中心,相当于各类数字人文项目的“孵化器”。这类中心多数定位于“跨学科协同创新服务机构”,通过具体的项目将不同学科的研究力量整合在一起,并为项目的运行提供必要的技术和管理服务。因此,这类中心集多种职能于一身:一是公共数据中心,通过数字化技术采集必要的信息资源,实现集成存储;二是技术支持中心,形成人文科学专家、计算科学专家与技术人员协同创新格局;三是在线服务中心,通过数字人文项目链接提供深层次信息服务;四是协同管理中心,围绕数字人文项目建设实现人力资源的合理配置;五是教育培训活动,强化社会大众的数字人文意识和相关工作技能。截至年4月20日,数字人文合作组织“数字人文中心网络”(CenterNet)收录的数字人文中心已达个。据统计,数字人文中心约一半在美国,而这其中又有约一半设在图书馆,另有约四分之一和图书馆有某种程度的合作关系。可见在数字人文基础设施建设中,图书馆的作用不容忽视。
在欧美国家,大学、图书馆、数字人文中心、有影响力的学术期刊、商业公司和有能力的学者个人通常是数据库和平台的构建主体。欧美国家与中国文化有关的数字人文研究项目,具有范式意义的有三个:(1)中国历代人物传记数据库(CBDB),该项目由美国哈佛大学东亚语言与文明系与北京大学中国古代史研究中心和台湾“中研院”历史语言研究所合作,由包弼德教授主持。这是目前世界上最大的中国历史人物传记资料分析数据库,功能强大,支持各种各样的查询,包括人物入仕途径、官职查询、社会关系网络等,实现了数据、平台、方法论与工具的有机整合。“这样的数据库为研究者提供了一种新的方式,基于大量数据来思考人类的过去和历史。”但系统过于专业复杂,也会给普通用户的使用带来不便。(2)中国历史地理信息系统(CHGIS),由复旦大学历史地理研究中心与美国哈佛大学东亚系、哈佛燕京学社、澳大利亚格里菲斯大学亚洲空间数据中心等机构合作,由包弼德主持。项目将中国历史地名和历史地图矢量化,并且以关系型数据库的方式记录地名的层级、沿革信息及可视化的展示,试图建立一套可靠、开放的基础地理信息数据库。(3)古籍半自动标记平台(MARKUS),由荷兰莱顿大学魏希德教授与何浩洋博士设计开发,是一个纯线上文本标记工具。该平台自身没有数据,但可利用中国历代人物传记数据库及其他数据库,使用者可以为文本标记出人名、地名、年号、职官等关键词。这些经过标记的文本导入数据库后,会成为其他数字人文学者进行统计分析的数据来源。
年清华大学创办的《数字人文》近十几年来,我国各个领域、各个方向统建、自建、共建的人文社科专题数据库不断涌现,但各自为政,条块分割,鱼龙混杂,参差不齐。性能比较优化的也有三个代表:(1)台湾大学DocuSKY数位人文学术研究平台,由项洁教授主持。这是台湾大学数位人文研究中心与资讯工程学系开发的平台,年新版页面正式上线。DocuSky提供研究者在平台中上传自己从各种不同渠道搜集来的文本资料,並且运用各式各样的新颖工具,进行文本格式转换、建置数字资料库,支持用户对自己的数据进行个性化探索,从多元的视角挖掘潜藏于资料中的议题线索及脉络。(2)《唐宋文学编年地图平台》,由中南民族大学王兆鹏教授主持开发,7年3月上线。目前上传的唐宋诗人行迹数据已近条,地图融时间、地点、人物、事件、作品为一体,将诗人的编年事迹和编年作品转化为关系型结构化数据,诗人一生活动轨迹都能可视化。这种支持多元素呈现的模式,不仅强化了文学史的空间维度,更改变了文学地理空间的认知方式。(3)学术地图发布平台,由浙江大学徐永明教授主持开发。自年3月上线以来,已发布余幅数据地图、多个图层、40余万条数据,涉及地学、农学、健康、环境、交通、气候气象及人文等各个领域,力求从空间维度展示中国人文与历史。数据库已经成为一种新的文本形式,一种新的数字媒介,正在改变着学者阅读与检索、分析与研究、写作与传播的方式。从这个意义上讲,说数据库改变了学术也不为过。但我们在使用、依赖这些性能各异的数据库和平台的同时,也对伴随的挑战充满了焦虑。第一,数据库不断扩张,重复无序,各自为阵,壁垒森严。各个数据库之间,缺乏统一的标准,互不支持,互不买账,这与数字人文开放、多元、协作的学术氛围格格不入。第二,部分专题数据库数据不完整、数据更新慢、数据冗余、数据共享不给力,已经成为“僵尸库”和“负面标签”,亟待升级转化为关系型结构化数据库。第三,部分大型数据库出版商,通过垄断学术资源数字出版权而在市场竞争中取得了极强的优势。把带有公益性性质的数字学术资源进行纯商业化运作,并且采取差别定价、不断涨价、不公平高价的做法,不仅损害了消费者的合法权益,而且也使学者(也是作者)们深感切肤之痛。
三
从思辨式方法到数据驱动范式
人文学科传统研究是一种思辨式的研究方法,即“先预设问题,然后收集及整理相关材料,通过对材料的思辨和诠释而形成成果。”然而,这种方法过度依赖已有的研究成果与研究者的经验性、直觉性,易导致知识发现陷入“路径依赖”和“个性依赖”,并在很大程度上影响了学术研究的科学性。“数字”的多样性、包容性和可扩展性,数字技术的大爆发为学术研究提供了一种新的思路与范式——数据驱动的研究范式,即通过数据挖掘、算法参与、社会分析、机器学习等手段重塑和改造人文知识。数字人文之所以不同于传统人文研究之处,“正在于‘数字’的背后代表的是一批学者试图以科学方法介入人文研究,从而建立新的认知方式、新的研究范式的自觉意识和实践。”
(一)文本挖掘
欧美国家的数字人文研究一般以项目为基本单位,这些项目覆盖面比较广,几乎包括了所有人文学科,常见的有数字历史研究项目、档案与文献研究项目、语言与文学研究项目、艺术研究项目、图书馆信息和博物馆研究项目、数字人文公众科学项目等。例如档案与文献研究项目,就包括GIS历史地理可视化项目、语料库建设项目、历史资料库建设项目、社会及历史场景重建项目、档案数字化项目五类。虽然都是围绕特定领域建立、特定问题组织,但追求的价值是对特定主题数字资源的深度挖掘与“基于数据的研究”。文本挖掘技术在欧美的数字人文项目中,已经得到了广泛应用。数字人文学者通过从文本中挖掘隐含在数据背后、先前并不知道,但存在潜在价值、能被赋予意义的信息,进而发现新的知识。文本挖掘最常用的技术,包括词频统计、特征提取、结构分析、文本摘要、文本分类、主题模型、关联分析等。文本挖掘的一个重要指向,就是学者们利用它去研究文学与社会问题之间的关系。Elson等对60部19世纪的英国著名小说和期刊进行了社会网络关系挖掘,给出了这一阶段社会网络特征的新解释,阐明了小说人物的数量与社会网络特征的相关关系以及小说的形式与背景对社会网络关系的影响。
文本挖掘在文学方面的应用,越来越受到中国学者的
转载请注明:http://www.feilvbina.com/fbdl/6148.html