摘要:在这个开放获取的时代,科研工作者不能免费使用期刊论文上的参考文献进行学术交流,这着实是一桩不可思议的事情。科技文献的开放获取,必将是大势所趋。目前人们正在着力建设一个覆盖面广泛的公共数据平台,但是这条道路还很长。
2012年5月,当Heather Piwowar开始着手调查研究数据公开是否能提高论文引用率时,她从来没有预料到会遭遇困难。作为总部设在温哥华的加拿大开放指标服务ImpactStory的联合创始人,那时的Piwowar还是美国北卡罗来纳州杜克大学的一名博士后。由于缺乏从机构层面进入Elsevier SCOPUS数据库的途径,Piwowar只有通过和加拿大国家科学图书馆的一份研究协议方才获得了使用权。但是由于她生活在美国,对方要求Piwowar提供自己的指纹作为证明。“我浪费好几天时间在获取研究所需的引文数据上。这太荒谬了。” Piwowar需要分析10,000多篇文章的引用次数,但是时下很多主要的引文来源,诸如汤森路透科学网,并不支持使用PubMed文献服务系统独特数字标识符的查询。Piwowar说:“要是有公开的引文数据,我早就可以写自己的文章了!”
Steven Greenberg是美国马萨诸塞州波士顿市哈佛大学医学院的神经病学家,他在通过对重复引用的统计,研究假说是如何被转变为“事实”的时候,也遇到了类似的障碍。Greenberg构建和分析了一个与某个特定的假说相关引文网络,包括242篇论文、675份引文、553个截然不同的引文路径。可是研究的开展非常困难,如果这些引文数据能够轻易在网上获取,那将能使Greenberg少费许多周折。
在这个开放访问的时代,学者不能免费使用期刊论文上的参考文献进行学术交流,这着实是一桩不可思议的丑事。
为了改善这种情况,数据应该被视为公共资源的一部分,放置在一个开放的信息库里。为此,自2010年以来,英国信息技术研究与开发资金组织资助了价值13.2万英镑的项目,旨在建立并发展开放引文语料库(OCC)。在开放的学术引用数据方面,OCC还是一个“初出茅庐”的资源库,目前正在寻求可持续的资金,力求在将来成为数字研究基础设施,支持学术事业的基石。
封闭的数据库
虽然更为适合的评价指标正在摸索中,直接引用仍然是衡量产出重要性的一个重要指标。学术交流包括引用网络信息和观点的流动,以及随着时间的推移分析网络的变换,从而揭示学者间沟通模式的变换和学科的发展与消亡。这种信息对学术研究至关重要,对于制定正确的研究投资和战略、促进创新、增长和繁荣,特别是在日益国际化的研究合作中也显得越来越重要。
目前最权威的学术引用数据来源要属汤森路透科学网,它的前身是美国科学家Eugene Garfield于1964年创建的科学文献索引,由科学信息研究所(ISI)出版。而它的主要对手Elsevier诞生于2004年。这两大巨头覆盖了主要的学术文献,但由于都不完整,它们也互为补充。
为了使用这两大数据资源,英国的每所研究型大学每年都需要支付数万英镑,这相当于其它发达国家研究机构所能获得的款项。此外,订阅这些数据库还需要严格遵守保密协议。如此种种,严重损害了那些不在上述机构工作的群体的利益,包括大多数企业和公众。其他引文信息的重要来源,例如谷歌学术搜索和微软学术搜索,也由商业公司运营,但是无需订阅即可获取。谷歌学术搜索的资源库比同类型的资源库大,因为它不仅包括书籍、论文、预印本、技术报告等等,也包括其他非同行评议的“灰色”文献。
所有这些资源都有许可限制,阻止对其引文数据的重新发布。基于这个原因,文献计量学论文所能公布的数据非常之少。更糟的是,可用的引用数据还是不准确的。在汤森路透科学网、斯高帕斯数据库、谷歌学术搜索和微软学术搜索上,Shotton的引用记录竟截然不同。例如,Shotton