仓储评价

研究背景

随着人工智能领域的不断发展,数据开放的进程也不断向前推进。对于科研数据来说,其研究进程推动相对较慢,科研数据是科学研究过程及成果中重要的组成部分,所以科研数据的开放是未来科学研究持续发展的必然结果。所以,科研数据指标体系的构建以及综合评价对科研数据开放的快速建设与优化起着重要的引导作用,指明了发展与进步的方向。

目前,各大科研数据开放平台的建设状况参差不齐,虽做到了一定程度上的科研数据开放,但平台的质量和用户使用效果都良莠不齐。对于我国和其他一些国家而言,高校科研数据平台的发展更是处于初期探索阶段。因此,本研究聚焦国内外高校科研数据平台,构建评价指标体系并对其进行实证量化研究,从而得到整体评估结果,进而从平台建设者的视角为国内外高校科研数据平台的建设与发展提供参考建议。

本研究在文献调研的基础上,结合实际情况,构建了高校科研数据平台评价指标体系,运用定量的评估方法对ICPSR、北京大学开放研究数据平台、哈佛大学数据平台、荷兰皇家科学院数据平台、英国埃塞克斯大学数据平台等十个高校科研数据平台进行实证评价研究,该研究的方法主要包括:文献调研法、层次分析法和比较分析法。

研究思路

本文以高校科研数据平台为研究对象,通过文献调研和相关分析确定综合评价维度,进而构建指标体系并通过层次分析法确定各个指标的权重,然后对选取的十个高校科研数据平台进行实证研究,最后提出平台质量提升的建议和对策,研究思路图如下图1所示:


图1 研究思路

研究结论

指标体系构建

高校科研数据平台属于开放数据仓储的其中一种,应当符合数据仓储的数据管理规范,受其约束。因此,本文遵循平台与数据资源共同构成数据仓储的基本原理,进而思考如何管理数据仓储里的数据资源,以至于最终呈现的数据资源用户的使用感受如何的理论体系构建逻辑,将“平台建设质量”、“数据管理质量”和“数据使用质量”三个因子作为高校科研数据平台评价指标体系的一级指标。

经过理论调研和相关性分析等环节,本研究最终确立了高校科研数据平台评价指标体系。这一指标体系共有3个一级指标、10个二级指标和29个三级指标。其中,平台建设质量对应3个二级指标、数据管理质量对应4个二级指标、数据使用质量对应3个二级指标。从整体角度上看,二级指标的分布较为均衡,均能相对全面的反映高校科研数据平台建设的各个方面。

指标排序分析

评估结果显示,美国密西根大学安娜堡分校数据平台(ICPSR)得分最高,且与其它平台还存在一定领先的优势,说明该平台无论在平台建设质量,还是数据管理质量和使用质量方面的质量都很高。紧接着排名靠前的平台分别有哈佛大学数据平台、荷兰皇家科学院科研数据平台、复旦大学社会科学数据平台和英国埃塞克斯大学数据平台,它们分别位列2、3、4、5名,说明他们的建设状况各有所长。反观南非的斯泰伦博斯大学科研数据平台建设时间最短,并且在数据管理和服务方面也有待增强。

综合评价结果聚类分析

根据综合评价的聚类结果,研究对象按照类别被分为了四种类型,如图2所示。


图2 高校科研数据平台综合评价结果类别图分析

均衡发展型:处于该类别的平台无论是数据资源、管理水平还是服务质量都处于世界领先水平,以美国的密西根大学安娜堡分校数据平台ICPSR、哈佛大学数据平台和荷兰皇家科学院科研数据平台为代表;

数据引领型:处于该类别的平台在用户数据服务上还有提升空间,但数据资源质量以及管理水平较高,代表性的平台有英国埃塞克斯大学数据平台、美国伊利诺伊大学数据平台和澳大利亚墨尔本大学数据平台等;

亟待改进型:处于该类别的平台无论是数据资源质量、数据管理水平还是数据使用质量都处于较为落后的状态,整体水平有待提升,代表性的平台有南非斯泰伦博斯大学科研数据平台等;

服务引领型:处于该类别的平台数据服务方面做的较好,但是数据资源和管理水平还有提升空间,特别是数据的规范性和丰富度,代表性的平台有复旦大学社会科学数据平台、爱尔兰都柏林大学社会科学数据平台和北京大学开放数据平台等。

空间维度分析

在选择研究对象时,本研究选择了地理位置和经济发展程度不尽相同国家的高校科研数据平台,同样,在研究对象的选择上,选择了各个国家发展最好的科研数据平台,以期可以具有代表性。将各个高校科研数据平台的总得分排名按照地理位置和经济发展程度分别反映到图中,可以发现不同建设环境下的高校科研数据平台发展状况的差异,结果如下图3、图4所示。


图3 地理位置视角下综合评价排名概况


图4 经济发展视角下综合评价排名概况

平台学科主题分析

为了更为清晰的看出这些科研数据平台的学科主题分布,统计每个科研数据平台主题词下的数据集个数,将该数字作为主题词的词频,绘制出高校科研数据平台学科分类主题词云,如下图5所示。


图5 平台学科分类主题词云