平台简介

大数据时代,科学数据的开放共享受到各方高度重视,“数据爆炸”问题正在显现。随着科学研究转向数据密集型范式,许多学科对数据的需求十分强烈,基于共享的科学数据可支撑高质量研究成果产出。2018年,国务院发布《科学数据管理办法》,明确“开放为常态、不开放为例外”的科学数据共享原则。目前,科学数据正不断积累。据re3data.org统计,全世界至少有3000多个数据仓储;据DataCite统计,科学数据集至少有1500多万个。如何高效地从众多开放数据中发现符合需求的有效数据正成为研究者面临的重要问题。因此,欧美等发达国家对开放科学数据集的统一发现做了大量研究,并推出众多应用平台,如谷歌数据集搜索DataMed等。

目前,国内对开放科学数据集的统一发现还未得到充分关注,相关理论、方法研究及应用平台建设急需加强。北京大学SCIE实验室受到国家社会科学基金重点项目"开放科学数据集统一发现的关键问题与平台构建研究"资助,初步构建了“北京大学人文社科数据集搜索”平台,收录国内外100多个重要科学数据仓储和我国省级开放政府数据平台中的人文社科数据集,可帮助人文社科研究人员查找数据,促进科学数据开放、共享和复用,推动我国新文科建设。

功能模块

目前,该平台主要由两部分组成:数据集采集、数据集搜索与智能问答,如图 1所示。在数据集采集部分,由爬虫模块使用开放数据平台提供的API或直接抓取页面的方式,采集数据集的元数据。由于各开放数据平台所使用的元数据标准差异较大,为了以统一的方式对所有数据集进行搜索,由元数据规范化模块将所有采集的元数据都映射到都柏林核心。在数据集搜索与智能问答部分,建立数据集元数据的索引,将经典检索模型和深度学习模型相结合实现数据集检索功能;构建数据集知识图谱,对用户自然语言提问进行解析,在知识图谱中进行检索,并以自然语言的形式返回检索结果;构建数据集搜索、问答与浏览的Web应用,方便用户通过浏览器获取数据集。


图1 平台整体框架

收录仓储

“北京大学人文社会科学数据集搜索平台”都收录了哪些数据?该平台现收录100余个开放数据平台,主要包括开放政府数据和开放人文社科研究数据平台两类,索引数据集的数量达百万量级。收录的部分平台如表 1所示。

表1 收录的部分开放数据平台

如何使用

在数据集搜索中,采用类似于搜索引擎的检索方式(如图2所示):用户进入平台后在搜索框中输入查询;系统对数据集的相关性进行评分,按照相关性大小进行排序,以每页10条搜索结果返回给用户;用户从检索结果中找到感兴趣的数据集,可通过超链接进入数据集来源页面获取数据内容。在智能问答中,用户可采用自然语言提问的方式向平台询问数据集相关信息,平台也将用自然语言的方式回答用户问题,如图3所示。此外,用户还可以按照数据仓储、热门关键词等方式浏览、探索相关数据集,如图4所示。


图2 数据集搜索


图3 数据集问答


图4 关键词浏览