数据库需求分析报告
海研全球数据库使用分析报告
单位:南京大学信息管理学院
负责人:袁勤俭?
报告撰写人:袁勤俭 邵波 黄仕靖 吴川徽 张苑
报告完成日期:2018年11月4日
互联网的发展促进了信息的共享,对于学者来说,一方面使得获取精准,及时的信息成为可能。另一方面,项目数据来源的多元化和数据分布的碎片化迟滞了其研究效率。海研全球项目数据库作为一种新产品,意图打造学术交叉领域和细分领域的完整科研“生态链”,为科研工作者获取意向领域的立项概况与竞争情报提供了数据来源。为了检验此产品的真实性能,我们首先考察了人机界面的基本功能,包括用户的注册流程是否简单易行以及课题申报、科研项目、企业需求的细分领域检索是否功能健全,能够得到怎样的结果,是否清晰直观。其次,由于目前国内外主流的科研项目数据库只收录了立项数据而缺乏对于项目申报与实践应用的“全流程”数据,导致科研工作者难以对其细分领域的立项概况与动态进行掌握。基于这个现实考量,我们通过对“海研”全球科研项目数据库进行数据采集与分析,分别借助“海研”数据库的三大模块(课题申报、科研项目与企业需求)对两个方面的科研项目数据进行了计量分析,分别是基于主题的科研项目数据分析和基于科研项目数据库的社会需求分析,以期达到两个目的,第一是实现对于科研项目全流程数据的计量分析。第二是实现基于全流程数据的知识需求挖掘与发现。此外,我们基于用户的角度,运用层次分析法,构建了科研项目数据库的评价指标体系,并依据该评价体系比较了国内三个常用的科研项目数据库,研究认为科研项目数据库的建设需要高度重视内容建设,尤其是数据的全面性、权威性、完整性和更新速度,这些是影响整个数据库质量的关键要素;其次对于技术系统来说,最重要的是优化检索功能,提高检索结果的全面性和准确性;此外,也不能忽视用户的使用体验,海研数据库因为以用户需求为中心,在提供科研项目相关的成果文件的同时,构建用户社区,具有分享、点评和关注等定制化功能,极大地提升了用户的使用体验。
1.海研全球项目数据库人机界面的介绍
1.1用户注册流程
1.2 主要功能概述
海研全球项目数据库分为三个部分:分别是课题申报,科研项目以及企业需求。
1.2.1课题申报
(1)海研课题纵向搜索:按学科、行业分类
(2)海研课题横向搜索:按资助类型、资助范围、资助级别分类
? ?? ①资助类型
?图1-1资助类型
②资助范围
图1-2资助范围
③资助级别
图1-3资助级别
? (3)对课题的检索可以分为:在标题中;在正文中;在标题正文中;高级检索功能下可以设置具体的起止时间。
图4-高级搜索
以“人工智能”为目标领域,对课题领域进行检索的流程如图所示:
图1-5 人工智能搜索结果
图1-6 详细结果
1.2.2 科研项目
? ? (1)科研项目检索页面:
图1-7 检索页面
(2)检索词的逻辑关系:
可采用的布尔逻辑检索方式:与、或、非。
(3)项目主题词分类:???????
??? 布尔逻辑检索内容包括:项目主题、项目名称、项目摘要、项目负责人、负责人机构、基金名称。??????
(4)设置模糊或者精确搜索:
检索精度可分为模糊匹配、模糊包含、精确包含、精确匹配。尽可能满足用户的需求,确保检索结果的准确性。其中匹配规则包括:
①模糊匹配:输入的查询文本中任意字词的一个或所有出现。
②模糊包含:输入的查询文本中所有字词必须包含,顺序和位置不完全限制。
③精确包含:输入的查询文本中所有字词必须包含,且顺序位置和输入文本严格一致。
④精确匹配:输入的查询文本与检索内容相等,完全一致。
(5)设置搜索结果排序标准:
模糊度含义:滑动条仅在“模糊包含”和“模糊匹配模式下生效。数值越大模糊度越高;对于“模糊包含”模式,模糊度代表支持的位移大小变化;对于“模糊匹配模式”模糊度代表需包含字词的多少。
(6)相关性规则:
不含成果:检索过程中不涉及成果,成果不贡献相关性
含成果:检索过程中涉及成果,并且贡献相关性
? ?? 仅含成果:仅检索包含成果的项目,检索过程中涉及成果,并且贡献相关性
(7)科研项目检索结果显示:
左侧窗按国家地区、资助来源、资助年度、项目级别等前几位排序。用户还可通过辅助检索功能进行进一步的优化检索结果。辅助检索功能包括成果链接指向检索、排序条件检索、左侧窗条件检索、机器辅助翻译、成果快照和浏览定位。
以南京大学孙建军教授为例,解析上述使用要点,检索及检索结果如下所示:
图1-8 检索条件设定
表1-1项目检索结果
编号
项目名称
资助来源
资助年度
1
基于ISC理论的信息用户行为评测与服务改进研究
教育部人文社会科学研究项目
2012
2
面向学科领域的网络信息资源深度聚合与服务研究
国家社会科学基金
2012
3
融合范式视角下的链接分析理论集成框架及其实证研究
国家自然科学基金
2012
4
两化融合战略下江苏省信息资源开发利用的战略、思路、模式、途径与政策研究
江苏省高校哲学社会科学研究项目
2010
5
基于TAM与TTF模型的网络信息资源利用效率研究
国家社会科学基金
2006
此处以《融合范式视角下的链接分析理论集成框架及其实证研究》为例展示“海研”科研项目基本功能,图—22为项目详细信息,为用户罗列出项目参与者,项目金额,项目开始时间、截止时间,项目论文的产出情况。用户可根据实际需求,获得项目成果的链接,进行阅读或下载。
图1-9项目详细资料
以《融合范式视角下的链接分析理论集成框架及其实证研究》为例进行交叉领域和分支项目的识别。在“海研”科研项目中分别按照项目主题输入“链接分析”、“实证研究”、“融合范式”,选择模糊包含查找。共查找到65项科研项目,其中包含《融合范式视角下的链接分析理论集成框架机器实证研究》;选择其中相关性高的20个项目,列出如下表1-2。
表1-2 相关项目列表
经过对20项科研项目的数据整合,得出以下几点规律:
①通过对链接分析这一主题的集中搜索,发现这是一个独立领域的专有名词,使用范围局限,主要针对传统链接分析算法。
②研究视角包括:企业视角,用户视角,区域视角;研究范式包括模型与方法研究、理论研究、实证研究、案例研究。
1.2.3 企业需求
(1)企业需求检索框:
图1-10需求检索框
?? (2)按行业导航栏:
图1-11 行业导航栏
? (3)检索结果显示:
图1-12检索结果显示
以企业寻求软件方面的技术支持为案例,得到以下结果如图所示:
图1-13 检索结果组成
2.海研数据库的项目计量
2.1利用“海研”进行项目计量的优势
利用“海研”项目数据库进行项目计量的优势主要来源于其所收录的项目数据的全球性、链条性和闭环性。
??? (1)数据收录的全球化。目前已收录了世界上二十多个科技发达国家和地区的 800 多万个受资助科研项目数据及2000多万条科研成果(产出)链接指向(见表1 )。科研项目数据最早可追溯到 20 世纪 50 年代,涵盖了全学科领域,具有多个主流语,其官网主页显示其已经成为收录范围最广、数据规模最大的科研项目数据库。且收录数据实时动态更新,确保始终具有最新的科研项目数据。?
表1海研收录的部分境外项目资助来源
序号
收录项目来源
序号
收录项目来源
1
美国国家自然科学基金(NSF)
6
瑞士国家科学基金
2
法国国家科研基金
7
韩国科学基金
3
俄罗斯基础研究基金
8
欧洲研究理事会基金
4
加拿大自然科学与工程基金
9
美国中小企业创新研究基金
5
美国卫生和人类服务部基金
10
台湾省政府科研基金
(2)数据来源的链条化。传统的项目数据库,以国家社科基金数据库为例,检索条件只能够精确查询明确主题、负责人、项目批准号等信息,即信息检索的结果较模糊。而“海研”全球项目数据库不仅能够调整检索条件,也能够查看负责人机构、项目金额、项目简介、关键词、成果链接等,还能够获取相关科研项目成果的全文,从而真正实现“情报闭环”、“海研”全球科研项目数据库通过其内含的三大模块实现了科研项目的全“生态链”,即涵盖了从申报到立项再到产出的全过程项目信息。
(3)“海研”全球科研项目数据库通过其内含的三大模块实现了科研项目的全“生态链”,即涵盖了从申报到立项再到产出的全过程项目信息。其三大模块分别是项目申报、科研立项与企业需求,这其中项目申报与企业需求数据是更新后不保留原有数据,立项数据库是更新后补充到原有数据中。项目申报目前不仅收录了面向国内的科研项目申报通知,涵盖了从国家级、省部级乃至地方各层级的科研项目申报数据,也涉及了国际合作(主要是中国与其他主权国家间)的科研项目申报数据,这其中覆盖了包括社会科学、人文哲学、自然科学以及交叉科学在内的各个学科。企业需求模块收集了国内各种类型企业对于纯技术需求和研发合作上的需求数据,主要包括需求来源、资助金额、需求描述、联系方式等信息。
2.2数据抓取
2.2.1 主题项目数据挖掘
在进行科研项目数据收集之前,需要确定项目主题和检索条件,由于“海研”数据库的项目数据库规模庞大,不可能对其进行全样本分析,其次,基于科研工作者的视角,其关注的是某一细分领域下的科研进展,因此我们选取了“知识管理 ” 作为本次数据采集的目标主题,并将检条件设置为时间2017.1.1-2018.7.10,语种选择中英文,检索规制选择模糊匹配并主题包含,共检索到600多条数据信息,利用网页数据爬取工具八爪鱼软件对目标数据集进行抓取,经过剔除不完整及不相关的数据之后得到 574 条记录信息,其中细项包括四类:来源类别、项目名称、负责人以及机构。如表2所示,我们将中外机构与基金合并进行统计分析,在机构方面,可以看到近两年来“知识管理”基金项目立项的高校主要有吉林大学、新墨西哥大学西南科技大学等,而与“知识管理”相关的基金项目来源则包括了美国国家科学基金(NSF)、中国国家自科、社科基金等。针对该主题的统计分析可以使得科研工作者快速把握目标主题目前研究的前沿阵地以及基金覆盖情况。
表2 海研收录的“知识管理”项目分布局部
机构
频次
来源类别
频次
吉林大学
6
美国国家科学基金(NSF)
14
新墨西哥大学(美)
3
国家级大学生双创训练计划
9
西南科技大学
3
国家自然科学基金
6
天津科技大学
3
美国农业部基金(NIFA)
5
北京大学
3
国家社会科学基金
3
伊利诺伊大学厄巴纳-香槟分校(美)
2
瑞士国家科学基金
3
2.2.2 基于集成项目数据库的社会需求挖掘
基于集成项目数据库的社会需求分析主要分为两个部分,第一个部分是纵向层面的国家知识需求分析,这主要是依赖于对于申报数据信息的挖掘与分析,通过对近期国内科研项目申报数据的分析,可以有效洞悉目前国家主要的知识需求集中于哪些方面,同时也为科研人员申报提供了一种方向性思考。其次是横向层面的企业知识需求分析,主要依赖于对于企业需求信息的挖掘与计量,通过对特定技术的检索分析,可以有效把握当前基于该主题技术的商业需求前景,提高科研项目的成果转化率以及实现产学研合作。
(1)纵向层面的国家知识需求主要是依赖于海研科研项目数据库中的课题申报板块,其收录了3000多条抓取的国内有关项目基金课题的发布通知,细项涵盖了状态、申报名称、发布机构、资助范围以及发布与截止时间。我们基于八爪鱼数据采集工具对时间范围为2017年至2018年的项目申报数据进行了抓取,检索日期为2018年7月10日,总共采集的数据总量为2050条。并利用excel、SPSS、Ucinet 等工具对数据进行了统计与计量分析,以期达到两个目的,第一是洞悉近两年来基于该数据库所收录的项目申报数据概况;第二是分析基于海研科研项目数据库的申报热点研究。
(2)对横向的企业知识需求分析主要是“海研”数据库的第三大模块企业需求,意即将企业需求分为两大类型,研发合作与技术需求,并将企业需求数据按照需求名称、资助来源、资助金额与所属行业进行收录,科研人员既可以在这一模块了解相关主题下的企业需求,也可以在此基础上寻找新兴课题的立足点;既可以在此基础上向相关企业申请科研立项,也可以在此过程中思考科技研发与产业对接的意义。因此,我们以“电动汽车”为主题检索词,检索日期为201 8年7 月1 0 日,共检索到250 条记录,在收集之后我们对数据进行了清洗,将不完整的数据即缺乏名称、来源、金额或行业中的任何一项进行剔除,得到了约200 条相关数科技据,并以此对该数据集进行了描述性统计分析与共词分析。
2.3可视化结果
2.3.1 纵向国家知识需求数据可视化
对于纵向的国家知识需求我们基于 Excel 自身的词频统计功能,对采集的总体数据样本进行了描述性统计分析。在“海研”数据库所收录的课题申报数据中,截止到检索时,状态为“申报中”所占比例较小,只有 3.4%,而“已截止”的课题申报为 96.6%,可能的原因在于第一,“海研”科研项目数据库所收录的课题申报数据基本上以通知通告为主,而通知通告一般时限较紧。第二,“海研”科研项目数据库所收录的课题申报数据总体规模较小,截止到笔者检索时,课题申报数据总规模大约在3000多条。其余细项如表4所示,近两年来在海研数据库所收录的课题申报数据中,发布机构的频次比较高的多是政府部门(如国防科工局、住建厅和发改委等)和事业单位(自科委、哲社办等)。而涉及到课题所涵盖的资助范围层面,我们利用 Excel自带的数据地图功能将资助范围数据叠加到全国省份地图上,形成可视化数据地图,颜色越深表示资助频次越高,如图 3 所示资助范围较多的覆盖在东部沿海经济较为发达的省份,如江苏、广东和浙江等,而中西部与东北地区课题申报的覆盖面较小。
表 4 发布机构与资助范围统计概况
发布机构
频次
资助范围
频次
国防科技工业局
71
全国
478
湖北省住房和城乡建设厅
49
江苏
215
上海市发展和改革委员会
35
广东
136
中共江西省委宣传部
26
浙江
115
装备预研船舶重工联合基金管理办公室
21
河南
92
国家自然科学基金委员会
18
山东
87
云南省哲学社会科学规划办公室
16
河北
81
图 3 课题申报资助范围可视化图
在进行需求热点分析之前,我们需要对申报课题名称进行文本分词,以进一步提取关键词,进行共词分析与热点探析。同上,我们选择了北京理工大学张华平博士研发的汉语分词系统ICTCLAS2016对课题名称文本进行了分词,得出的关键词以及词频统计如表5所示。根据孙清兰得出的高低频词分界公式
?,(D 为不同词的总词数),需要指出的是由于“海研”数据库所收录的申报数据词条大多为“通知”,因此所覆盖的词条大多是“普适性”名词,在剔除诸如“通知”、省份等名词后,并将意义相近的词条合并后,得出本数据集分词之后的不同词数为3560,因此计算出高频词数大致为60个,并以此构建了60*60 的共词矩阵。表5可以看出,从抓取的课题申报数据来看,即涉及哲学社会科学,也涉及了自然科学和软科学;既包含基础理论研究,也包含企业创新实践;即体现传统领域如产业政策、产业机构等,也触及前沿领域如互联网、大数据以及人工智能等。
表5 申报数据分词结果及词频统计(部分)
标签词
词频
标签词
词频
标签词
词频
大数据
43
互联网金融
14
产业结构
7
软科学
29
创新
14
云计算
6
哲学社会科学
27
影响因素
10
智能电网
6
能源互联网
20
产业政策
9
创新绩效
6
十三五
17
企业创新
8
数据分析
5
在表5 的基础上,利用Excel 数据透视表的功能构建了共词矩阵从而计算出关键词共现矩阵,再将共现矩阵导入Ucinet 和Pajek 软件,得到关键词网络关系图。如图5 所示,可以较为清晰地看出有数个次级中心子群,分别是以产业结构与经济增长为中心的凝聚子群;以大数据为核心的数据处理与可视化分析网络;以科技创新为核心的创新驱动集聚以及以中国特色为中心的哲学社会科学词汇网络。这些都代表了目前课题申报的热点方向,既涵盖了传统的马克思主义哲学、农业产业发展,也包含了目前科技发展的尖端方向,如大数据处理与分析、互联网+、人工智能与深度学习等。
图 5 课题申报关键词网络图
2.3.2 横向企业知识需求数据可视化
企业需求的概况由四个方面展开,首先是需求类型,在收集的数据中,纯技术需求占比为 63.4%,而研发合作需求占比为 36.6%,一定程度上表明了企业较为仰赖于纯技术需求。其次是资助金额, “面议”类型占比超过 70%,而涉及到具体金额上,低于1000万的占比为 22.9%,1000万以上的占比为 7%,由此可见企业需求涉及的研发金额相对较小,并且更倾向于“面议”。同时,如表6所示,在资助来源即需求来源机构中,大多是来自主力汽车制造企业,如奇瑞、华晨等,但也存在一些电动汽车相关技术细项的有关企业。此外,在所属行业中,涉及了围绕电动汽车生产与制造的相关核心产业,主要是装备制造业、节能环保业以及新能源业等。
表6 企业需求资助来源与所属行业概况
资助来源
频次
所属行业
频次
国家技术转移中部中心襄阳分中心
8
装备制造业
29
奇瑞新能源汽车技术有限公司
6
节能环保业
24
江西昌河汽车有限责任公司
4
新能源业
24
华晨汽车集团控股有限公司
4
汽车业
22
江苏精一电气科技有限公司
2
电子信息业
13
在对所收集的数据进行共词分析之前,首先要对数据集中需求名称进行文本分词从而提取高频词以构建共词矩阵,进而实现社会化网络分析。在此,由于数据集较小,我们采用了一种线上分词系统集搜客(GooSeeker)对数据集进行了分词,在剔除一些无意义的名词之后提取了高频词,具体如表7所示。除电动汽车以外,围绕充电技术以及充电基础设施建设是当前企业技术需求和研发合作的重点。在进行高频词选取之后,我们借鉴储节旺等利用Excel 构建共词矩阵的方法,然后利用 ochiai 系数公式构建共现矩阵,然后将共现矩阵导入Ucinet 和 Pajek软件中,得到如图7所示的网络图,在选择图形布局(layout)时我们选择了 Kamada-Kawa 平面自动布局,其带有一定程度的聚类效果,如在,7所示的“鱼形”图中,以“纯电动汽车”为节点区分了两类,一类是围绕电动汽车所形成的凝聚子群(鱼身),另一类则是由几个节点主要是机身控制相关词汇所构成的子群(鱼尾)。在“鱼身”子群也可以较为清晰地看到围绕着电动汽车产生了多个环形结构,由内到外依次为电池电源相关技术、电源分布相关技术与控制和充电基础设施建设。而在“鱼尾”部分,基本上是围绕“纯电动汽车”产生了一个类扇形结构,主要是有关于汽车控制与实验的相关核心词。
表7 文本分词结果与高频词统计(部分)
标签词
词频
标签词
词频
标签词
词频
电动汽车
63
需求响应
5
主动配电网
4
分布式电源
7
有序充电
4
多目标优化
4
充电站
6
充电桩
4
V2G
4
多目标优化
5
无线充电
4
能源互联网
4
图 7 电动汽车相关关键词网络图
3. 海研数据库功能评价
在科研工作过程中,科研工作者需要充分和及时获取国内外科研项目的前沿信息和竞争情报,从而把握研究方向、确定研究选题。科研项目数据库以科研项目为视角入口,为科研工作者在选题审题、项目申请、查重查新、寻求科研合作等方面发挥了重要作用。为了便于科研工作者申请项目、数据查询等,很多机构建设了科研项目数据库,如国家自然科学基金数据库、国家社科基金项目数据库等,但是这些数据库在建设过程中没有遵循统一的标准,在检索途径、内容结构、用户服务等方面存在较多差异。在建设科研项目数据库时,究竟哪些内容是用户重点关注的、什么样的检索途径更能提高检索效率、怎样的页面设计能够符合大多数用户偏好,这些问题应给予充分关注,因为它们会影响到科研项目数据库的质量,进而影响科研项目信息资源能否被充分有效地利用。因此,本文试图站在用户的角度,通过构建科研项目数据库的评价体系,给科研项目数据库的建设和改进提供一定的建议。
3.1科研项目数据库评价体系构建
信息构建(Information Architecture,简称IA)是由原美国建筑师协会主席Richard Saul Wurman于1975年首次提出,其概念可表述为“对数据进行组织,使信息可被理解、按表达预定意图的方式传递信息,以便帮人们有效实现信息需要的艺术和科学”[24],其核心内容是组织系统、搜索系统、标识系统和导航系统四大系统。IA目前已经成功地应用于网站建设和评价领域,在对用户的需求进行分析基础上,借助于视觉设计、可用性工程、人机交互、图书馆情报学和信息科学等理论方法,组织网站信息、优化页面布局,以及设计导航系统、标签系统、检索和索引系统等[25]。信息构建理论倡导以用户为中心,强调用户体验,主张信息应该以用户理解的方式体提交,获得良好的用户体验是信息构建的终极目标[26],因此,只有构建出一个以用户为中心的平衡的信息生态系统,用户才能形成稳定的信息获取习惯[24],使用并不断重复使用该网站。
?? 根据Barker[27]提出的信息构建的内容结构(见图1),本研究从技术系统、内容和用户和三个方面,构建了三个一级指标、八个二级指标,34个三级指标,从组织系统、导航系统、标识系统、检索系统、内容质量、内容效率、服务和用户体验八个维度对科研项目数据库进行二级指标构建,同时对每一个二级指标细分为若干个三级指标,具体指标内涵见下文。
图1 信息构建内容结构图?
(1)组织系统(C1)。组织系统的功能是要将数据库网站上所有的信息按照一定的规则、规律进行组织排序,对内容进行分组归类,是整个网站信息构建的顶层框架,它是决定网站成功与否的前提条件,是建立导航系统和标识系统的基础[24]。对于科研项目数据库系统来说,具体的考察指标包括:①层次清晰(D1),分类体系的层次是否清晰有序,能否有助于用户方便快速查找信息;②信息展示的多维性(D2),数据库网站的分类信息层次是否丰富,信息的展示方式是否多样,是否有助于满足用户多样化的使用需求;③分类科学合理(D3),数据库网站的分类结构是否科学合理,是否存在信息的交叉重复现象,是否有助于用户明晰不同类别之间的差异并顺利使用;④数据格式标准化(D4),数据库网站上展示的数据格式是否符合标准化。
(2)导航系统(C2)。导航系统的功能是帮助用户明确数据库网站的内容范畴,引导用户寻找到想要的信息和地址,是用户使用数据库网站时的方向指引[27]。对于科研项目数据库系统来说,具体的考察指标包括:①全面性(D5),导航系统应该覆盖整个科研项目数据库的内容;②分类合理(D6),导航系统的分类是否合理,既不能太少、也不能过于复杂,还要避免重复交叉;③结构清晰、易懂(D7),导航分类系统的结构是否清晰,是否便于用户快速定位;④位置准确(D8),导航所指引的位置与用户想到达的位置是否一致;⑤相关数据链接(D9),科研项目数据有其自身的特殊性,与文献数据或科学数据不同,科研项目除了项目自身申请、立项情况相关信息外,还附属有与项目成果相关的重要信 息,而这些信息恰恰是许多科研工作者在检索科研项目时想要一并获取的信息,因此导航系统是否能够链接到与科研项目相关的成果数据库信息,对于科研数据库来说非常重要。
(3)标识系统(C3)。标识系统的功能时确定信息内容的表述形式,通过使用用户可理解的描述性词汇,包括类似网站标识、控制词表、词库等,构建导航系统、索引项、嵌入式链接、标题的标引和图标标引体系[28,29]。对于科研项目数据库系统来说,具体的考察指标包括:①提供多语言版本(D10),随着国际学术交流的日益深入,科研项目数据库的使用者也来自不同国家和地区,多语言版本可以更好地满足不同用户的需求;②帮助信息清晰(D11),对于科研数据库网站来讲,与一般的网站不同之处在于,其信息的获取需要依赖一定的技能,因此帮助信息是否清晰会影响用户的使用效果;③可理解(D12),即用户是否容易理解标识的内容,标识内容的可解性会直接影响用户的使用感受和使用效果,进而影响用户的持续使用;④内容一致(D13),即整个数据库网站对于相同内容应该统一标识,前后一致,避免用户因为标识的不一致而产生使用困惑或障碍。
(4)检索系统(C4)。检索系统帮助用户搜索信息,根据用户的检索条件,按照一定的算法进行检索,提交给用户搜索需求。对于科研项目数据库而言,用户获取信息的主要途径就是检索,检索性能的好坏直接影响信息的获取和用户的使用感受[30]。具体的考察指标为:①检索方式的多样性(D14),一般检索方式如布尔逻辑,截词检索,加权检索,位置算符等,除了常用的检索方式外,对于科研项目数据库的检索来说,多语言检索对于科研工作者来讲也十分必要;②多种检索结果输出、显示方式(D15),即数据库检索结果输出的形式、展示的方式,结果是否丰富,是否多语言显示;③多种检索限定(D16),即把年代、项目负责人、机构、学科、基金名称、语言等在基本检索窗口可实现的常用限定条件整合到一个表单中,减少二次检索操作,提高索效率[31];④交叉学科检索(D17),即检索范围可以在学科间交叉,扩大检索覆盖面,帮助科研工作者从更高的视角上分析某研究主题在各个研究领域中的进展和资助情况,找到跨学科的研究创新领域;⑤界面友好性(D18),用户进行检索的页面是否简洁明了,容易操作;⑥检索结果的准确性(D19),根据用户的检索条件呈现的检索结果是否与用户预期的结果一致,检索范围覆盖的学科、地域是否全面,检索结果是否全面准确。
(5)内容质量(C5)。科研数据库的数据内容是数据库的基础,没有数据内容,科研数据库就是一个空壳[32]。数据质量的好坏,决定了整个科研数据库的价值高低。本文从五个方面衡量科研项目数据库的内容质量:①覆盖内容全面性(D20),是指科研项目数据库所涵盖的学科是否全面[9],是否包含国家级、省级及各地区项目信息;②覆盖地域国际性(D21),即科研项目的数据内容不仅限于国内基金项目,还能包括国外的科研项目信息,方便用户能通过一次检索便能获得某主题国内外的科研项目情况;③来源权威性(D22),是指科研项目数据库的数据来源是否是官方认可的信息[8];③项目信息完整性(D23),是指关于科研项目所涉及到的具体信息是否呈现完整[19],不漏不缺;④项目信息延申性(D24),是指能否提供和科研项目相关的文献、成果信息,方便科研工作者做进一步的深入研究。
(6)内容效率(C6)。内容效率侧重于从量的角度去评价科研项目数据库,包括三个考察指标:①时间跨度(D25),即科研项目数据库所收录的项目信息覆盖的时间范围[33],追溯的时间越早,覆盖的时间跨度越大;②更新速度(D26),时间跨度要求追溯的时间越早,而更新速度要求科研项目数据库的数据越新,反映数据的新颖性和时效性[34];③收录数量(D27),是指科研项目数据库收录的科研项目的具体数量,用以衡量数据库资源是否充足、丰富,满足不同用户的需求[35]。
(7)服务(C7)。从用户使用角度来看,在使用科研项目数据库的过程中,可能会遇到一些特定问题或存在一些特定的需求,如果数据库能够及时提供相应的服务,就会大大提升用户的使用体验[36]。具体来说,可以从三个方面进行考察:①提供与数据相关文件(D28),鉴于科研项目数据的特殊性,用户在检索或查询项目数据时,经常会伴随获取项目相关成果、文献等信息的需求,如果科研项目数据库能够提供相应的数据或者链接服务,会极大地提高用户的信息查询效率和使用满意度;②使用问题解决(D29),即用户在使用科研项目数据库过程中遇到特定问题或困难,是否能方便获得帮助;③工具服务(D30),是否能在网站里提供相应的工具服务,比如检索结果为其他语种,是否能有语言转换工具、在线下载、工具软件、打印等。
(8)体验(C8)。即用户使用过科研项目数据库之后的感受,本研究从四个方面考察用户的体验:①视觉印象深刻(D31),即用户使用之后对整个数据库网站的布局、设计产生了深刻的印象[27];②使用方便(D32),用户使用过科研项目数据库后认为操作简单、方便;③尊重常识和习惯(D33),用户认为该数据库的导航、检索等功能符合常识和习惯操作[37];④实现目标(D34),通过该科研项目数据库,用户能够获得和科研项目有关的全部信息情况。(评价指标体系多级递阶结构见图2)
图2科研项目数据库评价体系多级递阶结构
3.2 评价指标权重的确定
根据上述指标体系设计专家调查表,请专家对不同层级以及同一层级不同集合的指标重要程度进行打分,打分的规则根据萨蒂设计的1-9标度作为比较标准,通过对同一集合里的指标进行两两对比,将比较结果转化为定量的判断矩阵A,然后再计算单层次的指标权重W。先对判断矩阵A进行向量归一化处理,得到矩阵的特征向量,从而得到各个指标的权重向量。根据特征方程,计算判断矩阵的最大特征根。
,然后对单层次判断矩阵进行一致性检验,计算一致性比例CR=?,其中CI=,RI为平均随机一致性指标(查表可得),如果CR<0.1,则认为该判断矩阵的一致性可以接受。构造的判断矩阵及权重计算结果见下表1和表2:
表1? Bi-A和Ci-Bi判断矩阵及单层次权重计算结果
表2 Di-Ci判断矩阵及单层次权重计算结果
通过对层次单排序的分析计算,已经分别得出了Di对于Ci的权重顺序、Ci对于Bi的权重顺序以及Bi对于A的权重顺序,进一步可以确定Di对于A顺序,见下表3:
表3 层次总排序结果
通过指标权重体系的分析,可以看出,对于科研项目数据库来说,内容是最关键的评价指标,所占权重约为65%,其次是技术系统和用户服务。说明对于用户来讲,数据库的内容质量是最重要的,也是影响数据库整体质量的评价的关键因素。因此对于机构来说,在建设和完善科研项目数据库的过程中,应始终以内容建设为核心。
从二级指标的分析结果来看,内容质量、内容效率和检索系统是最重要的三个评价指标,具体结合三级指标的权重分析可以得到:
(1)重视内容建设,提高内容质量和效率。①要确保有关科研项目信息的来源的官方性和权威性,保证信息的可靠程度,这是获取有效信息开展科研工作的前提;②要尤其重视信息的完整性。有关课题的基本信息,包括课题名称、时间、项目号、学科、申请人信息等必须齐全,关于项目所涉及的内容信息尽量完整,一旦有缺漏,就会带来无效检索,严重影响用户体验;③数据的覆盖要尽量全面。大数据密集型时代,对有效整合的专业数据进行科研发现是一种趋势。目前国内的主流科研项目数据库分成了社会科学和自然科学两大学科板块,这对于交叉学科的项目查询带来了一定的困难和限制,通常需要跨库检索。数据库覆盖全面,不仅指将不同学科的科研项目融合到一个平台上,做到跨学科检索,还包括某一学科下所涉及到的国家级、省级等各个级别的科研项目信息。④重视国外科研项目数据的获取。对于科研工作者来说,仅获取国内项目数据信息还不够,需要通过搜集国外前沿的科研项目立项情况等来获取更多的科研信息,以进行国内外的科研对比、了解其科研项目差异等。⑤重视信息关联,提供有关科研项目相关的成果数据,方面用户全方位获取科研项目的信息。⑥注重时效,及时更新。科研项目数据库要做到及时更新,最快地汇集国际上各学科的研究动态,帮助科研工作者把握最前沿的科技动向。
(2)优化检索功能,提高查全率和查准率。在技术系统中,检索系统所占权重最高,因为用户主要通过使用数据库的检索功能来获取想要的信息,对用户的目标实现具有决定性的影响。通过三级指标的分析,机构应该在以下方面进行完善:①优化检索算法,提高检索精度。虽然我们要求数据库的数据规模尽可能的大,但是在输出检索结果时,应该能够导出最相关的数据信息,剔除相关性不高的冗余信息,保证检索结果的准确性,节约用户的筛选成本;②检索方式多样化,放宽检索限定。提供多样化的检索方式,满足不同用户的检索习惯,设定充分多的检索限定条件,减少二次检索,提高检索的效率;③检索结果全面有序。不仅能在本学科内进行项目检索,还可以进行交叉学科的检索,结果输出全面完整,并且经过系统的处理和排序。
(3)重视用户体验,改进用户服务。通过用户访谈,我们获知技术系统中的导航系统、组织系统和标识系统在很大程度上影响了用户对数据库的使用体验,包括用户的视觉印象以及使用方便程度。在用户服务方面,用户最关注的是问题的解决以及是否能够获取项目的相关资料等服务。因此,对于机构来说,要重视优化数据库整体页面的设计,做到分类科学、结构分明、导航正确、标识清晰,提供有效的途径帮助用户及时解决检索过程中遇到的问题,帮助用户获得项目成果或其他的文献资源。
3.3 实证分析
3.3.1科研项目数据库的评价
本文作者邀请多位科研工作者通过对海研科研项目数据库、国家自然科学基金数据库和国家社科基金项目数据库的使用,结合科研项目数据库的特点,对各数据库进行评价,从D准则进行打分(满分100)通过加权平均计算出最终得分。为方便比较,下文把海研科研项目数据库简称为H数据库,国家自然科学基金数据库简称为Z数据库,国家社会科学基金项目数据库简称为S数据库。最终的评价结果见下表4:
表4?三个数据库的评价得分
3.3.2 评价分析
从总体得分来看,海研科研项目数据库占有绝对的优势,遥遥领先于国家自然科学基金数据库和国家社科基金项目数据库;从一级指标层来看,海研数据库主要在内容和技术系统方面做的比较完善,在内容层面,海研在内容的质量以及内容效率上,因为其特有的资源优势和技术优势,与国家自然科学基金数据库和国家社科基金项目数据库拉开了很大的差距,国自数据库和国社数据库因为学科性质分类,限制了其内容的覆盖面,但是仍然可以在项目信息完整性、项目相关资源的提供、项目信息的更新和收录数量等方面进一步完善;其次,在技术系统层面,主要是检索系统,海研数据库的得分较高于其余两个数据库,说明在检索功能方面,后两者还需要进一步优化算法,提高检索的查全查准率,改善用户体验。下面就存在显著差异的维度进行具体分析:
(1)技术系统。①从组织系统指标得分来看,H数据库在信息展示多维性和分类科学上显著高于Z和S数据库,Z和S数据库仅展示检索功能页面和科研项目基本信息,无法实现多层次浏览和多维度的信息展示;在分类上,Z数据库首页分类项目过细,不够清晰,S数据库的两类信息里面存在信息交叉重叠。②导航系统方面,Z的导航分类相对较乱,比如 “重要提示”里面信息比较杂乱,包括操作说明、编制说明等具体信息,这些信息与“常见问题”又存在内容交叉;此外,H数据库可以提供与科研项目相关的其他信息链接,而Z和S数据库并没有提供相关的导航。③标识系统上,只有Z数据库设置了外文标识,并且Z数据库设有清晰的帮助信息、而H和S数据库在标识系统上都存在不足之处。④检索系统方面,H数据库整体做的比较好,但是仍然存在一些需要改进的地方,比如检索限定不完整,缺少根据项目编号及其他项目信息的检索项,而项目申请和企业需求信息查询板块没有设置高级检索,其次用户检索出的结果比较多时,信息的冗余率较高,用户难以在短时间内对信息进行有效的筛选;Z数据库在检索结果的准确度上较高,但是其他方面也存在重大问题,比如只能进行精确检索,系统锁定了项目资助类别、申请代码、申请人和申请单位信息,即必须输入上述限定信息才可以进行检索,否则查询无效,这大大限制了科研人员的检索范围。在结果显示上,列表中的信息仅包括批准号、负责人、单位、项目名称和项目数量,即使点击项目详情,也只呈现最基本的项目信息,并且无法对检索结果进行任何排序、选择等操作,此外,由于检索结果受到严格限制,与其他学科无法进行交叉检索,大大限制了检索的查全率。S数据库在检索方式上存在着无法根据项目主题进行检索,无高级检索功能,成果查询与立项查询缺乏联动,检索结果同样以列表形式展示,检索结果默认按时间排序,无法根据相关性或者其他要求进行排序等问题。
(2)内容。①内容质量方面,H数据库在项目信息覆盖面、国际性、项目信息完整性和延伸上具有显著优势,项目信息覆盖了国际上20多个发达国家的全学科下的受资助科研项目,并且项目信息比较完整,更加难得的是,能够提供除项目基本信息以外的但是对于科研工作者来说十分重要的项目内容和项目成果信息;相比之下,Z和S数据库的项目信息覆盖面仅局限于国内特定学科,且所展示的项目信息有较多缺失;尽管S数据库提供成果查询,但二者均不提供和项目相关的成果数据。②内容效率方面,H 数据库可追溯的信息年代要早于后两者,在更新速度方面,只有H数据库是可以做到实时更新,Z和S数据库目前只能查询到上一年的立项信息,更新速度上有待提升;在收录数量上,由于后二者限于地域和学科的覆盖面,因此远差于H数据库。
(3)用户。①服务方面,S数据库在服务方面做的比较欠缺,既没有提供文件服务、帮助工具,也没有建立解决问题的渠道;Z数据库相对来说在工具服务和使用问题解决方面做的较好,对常见问题解释得非常清楚和详细,还做了重要问题的提示;H数据库主要在提供文件服务方面做的比较好,用户可以获得项目成果或其他文献的文献服务、科技报告服务、竞争性情报报告服务,在解决问题方面,H数据库的特色在于建设了用户社区,以及分享、点评和关注等定制化功能。②体验方面,在视觉印象、尊重常识和习惯维度,三者的差异并不显著;使用方便方面,Z数据库因为检索要求限定较多,所以使用的方便程度较低,在目标实现上,H数据库能够较好满足用户的预期,而Z和S数据库则只能获得项目的基本信息,并且存在项目信息不完整的现象,不能完全实现检索目标。
3.4灵敏度检验
层次分析法很大程度上依赖于决策者主观判断,而这些主观判断本身是一个模糊值,不能准确地反映客观情况,并且客观情况也可能随着环境或时间的改变而变化,所以在很多情况下决策者不但要求得到决策结果,还需要了解决策结果的稳定性,也就是层次模型中某些要素的权重变化将会对决策结果产生什么样的影响。备选方案排序结果随某属性权重变化而变化的程度就是灵敏度,如果某属性权重发生较小的变化后,备选方案的排序结果就会发生变化,说明决策结果对该属性的灵敏度较高,也就是说决策结果不稳定。通过灵敏度分析,决策者可以掌握属性权重变化对决策结果的影响及影响的程度,帮助决策者做出正确的判断。本文根据海研数据库(H)、国家自然科学基金数据库(Z)和国家社科基金项目数据库(S)的评价方案进行对比分析,以检验评价指标的稳定性并分析权重变化的影响(采点100)。
首先分析技术系统B1、内容B2和用户B3评价指标的权重变化对整体评价结果的影响程度见下图3和表5:
图3 Bi-A的灵敏度分析
表5 B1-B3权重变化和影响
权重变化情况
排序变化情况
B1
权重变化
最小值
当前值
最大值
变化点前的权重顺序
变化点
变化点后的权重顺序
H
随B1增加而 减少
0.5452
0.6166
0.6431
Z
0.94
S
Z
随B1增加而 增加
0.1915
0.201
0.2265
S
Z
S
随B1增加而 增加
0.1653
0.1824
0.2283
B2
权重变化
最小值
当前值
最大值
无变化
H
随B2增加而 增加
0.5566
0.6166
0.6498
Z
随B2增加而 减少
0.1811
0.201
0.237
S
随B2增加而 减少
0.1691
0.1824
0.2064
B3
权重变化
最小值
当前值
最大值
无变化
H
随B3增加而 减少
0.5926
0.6166
0.6189
Z
随B3增加而 增加
0.1945
0.201
0.2703
S
随B3增加而 减少
0.1372
0.1824
0.1866
从数据结果来看,技术系统的评价指标的稳定性较高,其综合灵敏度指标为 0.4313,基本灵敏度指标为0.0979,其变化点位于0.94,在变化点之后,国家社科基金项目数据库的排序发生了变化,但是最优方案没有发生变化,仍然是海研科研项目数据库;内容评价指标的综合灵敏度指标为0.0933,基本灵敏度指标为0.0933;用户指标的综合灵敏度指标为 0.0757,基本灵敏度指标为0.0757,最佳方案均未发生变化。
其次分析二级指标(C1-C8)的权重变化对整体评价结果的影响程度,结果见下图4:
图4 Ci-B的灵敏度分析
根据图4以及相应的计算结果表明,三级指标C1-C8的权重变化对最佳方案的结果均没有任何影响,说明组织系统、导航系统、标识系统、检索系统等8个二级指标的评价稳定性程度较高,其权重变化对最优方案的结果均无影响。
? ? ? ? 4.结论
本课题组通过对海研全球项目数据库的检验分析,并通过使用分析、项目数据计量分析以及科研项目数据库指标评价体系分析等对海研全球项目数据库进行了深入研究,通过我们的检验证明,海研全球项目数据库人机界面分野明确,且功能布局合理完整,查询方便且易于操作;其次,利用海研全球项目数据库进行数据挖掘与计量,体现出与利用传统数据库进行计量的优势,即数据来源的全球性、链条性与闭环性,并由这种数据优势转化为知识需求挖掘与发现的优势;再次,利用层次分析法(AHP)构建了科研项目数据库评价指标体系,并由此对国内三大项目数据库进行评价,研究发现海研项目数据库在内容与用户层面体现优势,主要表现在数据的全面性、权威性、完整性和更新速度,以及以用户需求为中心,在提供科研项目相关的成果文件的同时,构建用户社区,具有分享、点评和关注等定制化功能,极大地提升了用户的使用体验。
基于上述三个方面的使用分析,我们认为海研全球项目数据库是进行竞争情报获取、项目数据计量、知识需求挖掘与发现等科研工作的重要工具,并在数据内容、人机交互界面以及用户特征服务等方面较国内其他项目数据库具有较大优势,因此推荐国内高校、图书馆以及科研单位购买使用。