为什么要建设数字人文基础设施?
最近几年,数字人文可谓越来越热,我国大陆因此出现了一批优秀的数据库和应用平台。
复旦大学历史地理研究中心作为我国最著名的历史地理学研究机构,近期上线的中国历史地理信息平台,得到了西安云图的技术支持,属于学术界和企业界的合作;中南民族大学王兆鹏教授和文学公益网站搜韵网合作推出的唐宋文学编年地图,在社会上具有较高影响力,属于学者和公益网站的合作;中华书局这样的著名出版单位,利用自身优势,推出了籍合网这一古籍众包整理和综合服务平台,这是传统出版单位升级转型的例子,具有明确的市场定位、产品架构和盈利模式;丝绸之路历史地理信息开放平台,则由陕师大出版总社、首都师范大学张萍教授和西安云图合作打造;在年高调发布的汉典重光古籍数字化平台,由互联网巨头阿里巴巴和国内外多所知名大学、图书馆共同推出;全历史则是完美世界以互联网应用的模式,面向公众打造的科普平台。
完美世界从年开始筹建“全历史”,我们可以看到,数字人文研究课题常常涉及到程序开发,需要消耗比传统人文研究更多的经费,而技术开发却不是人文类专业的特长,所以往往需要与企业合作。而出版社、互联网巨头、游戏公司等非学术机构,也搞起了数字人文平台,让这一领域呈现明显的跨界趋势。
多元化的跨界合作,是数字人文有别于传统人文研究的一个特点:因为它结合了信息技术,必然更靠近产业。我认识的几位做数字人文研究的老师,有的一直想商业化,只是没有资本投资;有的已经在尝试商业化,迈出了第一步。我们团队也不是学术机构,但我们既思考数字人文的理论方法,也在国内开展了多年的相关平台建设,和不少学术单位和学者有合作,算是小企业的代表。在能够和产业紧密结合的行业,比如计算机行业,学术机构和企业的界限是相对模糊的,学校和老师在运营企业,企业也投入大量研究经费,并有许多知名的实验室。
这些已有的平台都拥有一个共同特点,就是向历史、文学、艺术、哲学等特定领域,提供一到多种在线数据服务:比如专题数据库浏览;地理数据或知识图谱的可视化;古籍整理等等。它们是具体的数字人文成果,可以为主导单位或者研究者本人带来荣誉和更多的资源,有国家重大项目支撑,拥有相对较宽裕的经费,或者由大公司直接主导。
汉典重光但这些成果还是太少。一个健康的领域,总需要构建一个像金字塔般良性的人才和应用结构:既要有顶级学者,也要有许多不知名的青年教师;既要有突出成果,也要有看起来一般,但数量庞大的小数据、小分析、小发现和小应用;既要有行业巨头,也得有更多的中小型企业。
金字塔的基座越大,金字塔才能越高现实情况是,初涉数字人文领域缺乏资源的普通教师,以及对数字人文感兴趣,想步入这一领域的学生,他们极度缺乏资源,甚至就没有任何资金,也很难找到合作者。而数字人文研究本身涉及到技术开发、数据共享、系统运维和基础软件采购等问题。已有平台开放程度是不够的,借鉴价值相对更大,却很难为新应用的建设提供直接的基础服务支撑。
由此我们看到一种现象:虽然人工智能这样的前沿技术已被应用到数字人文领域,但许多有志于此的普通师生,或者不懂技术的传统学者,还是只能用Word和Excel这类工具整理数据。他们无法使用技术手段分析数据,开发和发布具体的应用就更难了。在一些知名学者尚且缺乏资金长期推动数字人文平台建设的情况下,普通教师就连启动建设的资金都没有,哪怕不开发应用平台,仅仅发布数据库都找不到合适的地方。这就是数字人文现在面临的一个困境:一方面它很火,有了越来越多的成果,连一些唯利是图的巨头都参与其中;但另一方面,它的基础设施却很落后,处于一种相对原始的状态。金字塔底端的生态环境还是很恶劣,小人物、小数据、小发现、小应用、小企业的数量还是远远不够的。
要解决这个问题,在我看来就在于构建数字人文基础设施。如果说人才金字塔的底端是学生,成果和应用金字塔的底端就是基础设施。
如何定义数字人文基础设施
从字面上看,数字人文一半是“数字”,一半是“人文”。“数字”更多是一种信息技术手段,“人文”精神是其核心。
相对“人文”而言,代表“数字”的信息产业,有着非常庞大的行业基础设施,产业协作参与的人数更多,分工更明确、更标准。在高度分工之下,很多时候你不需要去和谁沟通,只要根据需求直接购买具有标准接口的产品即可,比如一台电脑。对于软件行业而言,如果使用开源软件,你甚至连钱都不用付,因为开源软件可以通过互联网无限复制,分发成本为零。你甚至不用一个个下载,因为已经有了一整套依赖包管理工具。
NPM有万个包,月下载次数超千万我们可以看到,软件行业作为信息产业的一部分,为各行各业开发出各种各样的信息系统,为其它行业的发展提供着基础服务支持,但行业本身也诞生出了大量基础工具:如编程语言、标记语言、操作系统、数据库、中间件、集成开发环境(IDE)、软件开发工具包(SDK)、容器、虚拟机等;出现了各种基础平台,如云计算平台、代码托管平台、应用市场等;有大量标准协议,如TCP/IP协议、开源协议、HTML标准、ECMAScript标准等。这些基础工具、在线服务和标准协议,能够成为各种具体应用的基础设施。互联网和开源代码流行后,更是极大的降低了开发成本,使得信息产业得到了前所未有的大发展,几乎深入到所有传统行业之中。
这让一个应用的开发、部署和运维变得无比便捷。假设你要开发一个爬虫,你可以轻易地获取到Linux操作系统、Python编程语言、VSCode编辑器,可以通过requests库爬取数据;通过BeautifulSoup解析HTML;通过JupyterNotebook运行和调试;通过JSON格式保存爬取结果,或者存储在SQLite数据库中。代码编写成功后,可以在本机运行;可以在虚拟机里运行;可以在云计算平台中运行;也可以通过Docker轻易实现部署;或者使用函数计算这类Serverless服务实现服务器资源的用后即焚。
抓取地图书已发布知识库的小爬虫通过简单的编码和部署就能完成原本非常复杂耗时的工作,这一切都建立在无数的基础设施之上,而一个基础设施之下又是另一个基础设施,最后形成了一个金字塔般的运行环境。在一小段代码背后,是整个行业几十年努力构建起来的庞大基础工程。这些基础设施不仅仅是企业在使用,数字人文学术研究中同样在使用。
顶尖上的那几行爬虫之下,是庞大的基础以浙大的学术地图发布平台为例,虽然我没有请教过他们具体使用的开发技术,但根据实际使用中的观察,以及在会议报告中展示的后台,我基本肯定它使用Python语言开发;使用了Django作为Web框架;使用PostgreSQL存储地理空间数据;使用了GeoNode完成地理空间数据管理;使用GeoServer发布WMS地图服务;使用OpenLayers实现地图可视化,这些全部是自由的开源软件。学术地图发布平台还使用了天地图的在线地图服务作为底图,使用了哈佛大学的诸多开放数据。其它数字人文项目也基本如此,各种人工智能、图像识别、自然语言处理应用,几乎都基于各种开源库实现。
学术地图发布平台研究数字人文的学者和学生,应当由衷感谢这些计算机行业的基础设施,特别是感谢开源软件,感谢知识共享。正因为有了这些设施,数字人文领域才能在经费和人力极其有限的情况下,完成各种数据生产、存储、分析和应用开发工作。如果没有它们,数字人文是不可能作为一个新兴学科存在的,各种数字人文应用也是不可能开发出来的。
古人说:他山之石,可以攻玉。数字人文领域也应该考虑学习计算机行业,建设数字人文基础设施。基础设施的构建在于高度的分工合作,高度的分工合作必须是高效的。我之前听到很多老师在谈合作,谈共享,但这种合作和共享的沟通成本也是很大的。如果凡是合作都要洽谈,要沟通,要找上门,要专人对接,这种合作是低效的。如果我开发一个软件用到的第三方代码库,每个都要我去沟通洽谈,那就没法搞了。
基础就像螺丝钉,花点钱就能买,买来能通用。基础一定要实现通用化、低成本和无沟通,不然就很难称之为基础。数字人文现在就有这个问题:开放不够,要合作只能一个个洽谈对接;数据不标准,只能一个个单独处理。这些都不能称之为基础设施,只是具体的数据或者应用。
基础设施必须标准其实在传统研究中,各种书籍就是基础设施之一,出版社也是。学者出了书,我不需要认识他,也不需要联系他,花钱买他的书,按照规范引用,就能搞自己的研究了。现在各种可以分享数据的平台,很多时候就在担当出版社的角色。数字人文既要为人文研究和文化传承提供基础服务,数字人文本身也需要基础服务。实现了标准化、通用化和可共享的数字人文成果,以及为了实现这一目标所依赖的其它措施,就是数字人文基础设施。
数字人文基础设施的种类
那么数字人文的基础设施应该有哪些呢?
第一个就是足够丰富的开放信息平台,比如各类线上数据库、线上图书馆、API服务。
数据是数字人文研究的基础,但要成为基础设施,光有信息平台和优质数据是不行的,只有开放的数据才能成为基础设施。以历史地理信息为例,《中国历史地图集》早就有了,在信息化以前的时代,它也是完全满足当时要求的基础设施。但时代发展以后,现在它不能满足在线地图对矢量地图数据的要求了。
中国历史地图集顺理成章的,就有人开始矢量化谭图,但因为各种原因这些数据并不开放。我这几年起码见过七八家单位和几十个人,要么搞过谭图整体矢量化,要么搞过部分朝代矢量化,要么有这个计划但没有实施,还有更多的单位在到处求购这些数据。他们做了无用的重复劳动,花费了本不该花的资金,就是因为没有基础设施。
第二个就是开放的标准。
信息的开放依赖开放的标准,否则信息就难以被二次利用。数据标准能实现数据的通用化,这方面讨论较多就不用我多说。
数字人文基础设施往往涉及到知识共享,知识共享就涉及到版权问题,因此还得有版权标准来规范和保障各方的权益。知识共享往往意味着可以免费使用,但知识共享不等于免费,使用者依然需要遵守作者的要求。作者拥有版权也不代表作者可以随意解释版权,我们不能光提“版权保护,侵权必究”,却不用标准协议规定清楚各方到底有什么权益,凡事都要靠扯皮、靠单独规定。目前CC协议就是国际上使用较为广泛的知识共享授权协议,已经有20年的历史,值得借鉴推广。
CreativeCommons20年我之前听了一些相关的报告,老师们常提数据协议,但版权协议却提得比较少。免费授权那也是版权,涉及到是否署名、是否商用、能否修改后重新发布等问题。这个问题很重要,甚至在我看来,它比数据标准更重要,因为数据标准不涉及利益,版权涉及利益。数据不能共享,往往不是格式问题,而是因为利益问题。
除了数据标准和版权标准,使用和发行也应该有标准,就好像书籍最末会给参考文献,论文中有引用规范一样。如何在论文中引用数字人文成果,如何在应用中说明使用到的书籍、论文、数据库、开源软件等,也是一个问题。我国大陆现有的平台好多查不到这方面的完整信息。书籍出版发行时都有规范的主编、作者、日期、书号等等,一个数字人文成果发布后,有哪些参与人?分工是什么?怎么使用?有没有文档?这些都是问题。
CBDB