用引用次数作为评价指标的另一个大缺点是不具有学科可比性。例如,生物医学的引用次相对较多;而数学力学的相对较少。解决这一问题的方法之一是引入按学科归一化的引用分数。假设一个研究群体在某一学科领域发表了一批论文。首先计算其篇均引用次数;其次再计算世界范围内在同一学科领域和相同情况下的篇均引用次数,两者之比则成为按该学科归一化的引用分数。其值为1表示达到了世界平均水平;其值大于1(小于1)表示比世界平均水平高(低)。于是归一化的引用分数在不同学科间就有了可比性。若一研究群体同时从事多学科研究,则还要对所涉及学科求平均。在计算过程中可有不同的变化,于是就有多种不同的归一化方案。其中荷兰Leiden大学《科学与技术研究中心》(CWTS)所提出的皇冠指标就是其中的一种,被做为世界大学排行榜的评价指标使用,详见。但是仔细一想这种做法也有问题。把科学划分为各种领域是一种粗粒化的做法。问题是,粗到多粗为宜?细到多细为好?“如果划分过宽就会抹刹细节;如果划分过细,就会导致毫无用处的结果” ,最终使人处于两难的境地。到目前为止,这种指标只应用于对研究群体(大学或研究所等)的评价。

 


张春霆院士:学术评价的评价  

 

 

 

 

 

3 基于论文引用次数的评价指标

3.2 考虑作者贡献之不同的权重引用次数

3.3 按学科归一化的引用分数和皇冠指标(Crown indicator)

 

 

科学研究,尤其是基础研究其产出的主要形式就是发表学术研究论文。在一般情况下发表论文的数量就成为一项主要的评价指标。当然不排除历史上或现实中某些杰出的学者只发表了极少数的论文却取得了极高的学术成就,在这种情况下再数其发表了几篇论文就变得毫无意义。但是在一般情况下这个数字还是有意义的。论文总数这个评价指标在实际计算时存在着一个用什么样的论文来统计的问题。目前国际上存在三大文献检索数据库:Web of Science 或 WoS (Thomson-Reuters集团);Scopus (Elsevier集团)和Google Scholar (Google集团)。前者从11500种杂志收录论文;中者从16500种刊物收录论文;而后者则包括了比前两者更多的工程学、社会科学和人文科学刊物所发表的论文以及专利。其中WoS又包括SCIE、SSCI等7个子库。对于一个给定的研究人员或一所大学(研究所或部门)统计出的论文总数取决于采用哪个数据库。对于自然科学方面的基础研究宜用SCIE 数据库(约7000种刊物);对于工程技术研究除了用SCIE 数据库以外,还应参考Scopus数据库加以补充;而Google Scholar数据库对于两者都有参考价值,而且它是免费的。

2005年美国物理学家Hirsch提出一种将论文数与引用次数相结合的新的评价指标,称之为h-指数。一个学者的h-指数为h意味着其至少发表了h篇论文,同时至少被累积引用了h2次。由于这个学术评价指标的新颖性和简单性,立即在全球范围内引起了广泛的注意,掀起了研究它的热潮。迄今为止,至少发表了100多篇研究h-指数的论文。为了克服其缺点至少提出了十几个h-指数的变种,又称为h-型指数。面对这种局面,澳大利亚著名学者Anne-Wil Harzing说:“自2005年以来提出了一打以上的h-型指数,就连文献计量学专家也搞不清楚哪些是最好的。结果,大部分科学家坚持还是使用h-指数,尽管有种种缺点”。其实这种说法是不对的,h-型指数虽然为数众多,但是它们基本上反映了相同的信息,只是表述方式不同而已。结果它们之间呈强正相关,这提示用少数一、两个即可。其中e-指数是笔者提出来的,它被定义为在h篇论文所获引用次数中扣除h2之后多余部分的平方根。简言之,在使用h-指数的前提下,e-指数补充了其丢失的引用信息,故应该同时使用。美国学者Dodson就建议同时使用h-指数和e-指数来评价大学教师的学术表现。天津大学人事部门联合使用h-指数和e-指数作为主要评价指标建立了人才评价平台,取得了良好的效果。在许多h-型指数中,g-指数是一个重要的指数,它主要反映被h-指数忽略的高引用论文的引用信息。在这点上看,g-指数与e-指数是相互冗余的。因此,在使用h-指数的前提下,(h,e)组合或(h, g)组合皆可取得满意的效果。但是g-指数在若干重要的情况下没有定义[8]。笔者重新定义了g-指数彻底消除了这一缺陷,并推导出一个公式可以从h-指数和e-指数出发快速计算出g-指数。意大利学者A. Bee开发出一套计算机程序,当用火狐狸浏览器访问Google Scholar时,会自动显示所查询作者的h-指数、g-指数和e-指数。该程序应下载到本地计算机中运行,详见https://addons.mozilla.org/en-US/firefox/addon/45283/。

1 引言

 

论文的引用具有重要的参考价值,因为它体现了在世界范围内的小同行的署名评议,具有广泛性、公开性、公平性和客观性等优点,历来受到国内外学术界的普遍认可。其中,篇均引用次数是一个极其重要的学术评价指标。统计在一个时间窗口中所发表论文的总数(分母),以及这些论文在另一个后续的时间窗口中所获得的引用次数(分子),两者之比即为篇均引用次数。若把前时间窗口取为前两年,而把后时间窗口取为今年,则一刊物所发表论文的篇均引用次数又称为该刊物在今年的影响因子。显然,某刊物的影响因子,即其篇均引用次数,与在该刊物所发表的某特定论文所获引用次数属于两个不同的概念,两者没有可比性。例如,据Nature统计,在2005年Nature的25%的论文获得的引用次数占总引用次数的89%。换言之,另外75%的论文只获得了11%的引用次数。也就是说即使在Nature这样的刊物上发表的论文,其中大部分所获得的引用次数相当有限。笔者遗憾地指出,在我国教育界和学术界有一种用刊物影响因子来评价在该刊物所发表论文及其作者学术水平的倾向。如有的管理者甚至要求其属下必须在影响因子多少点以上的刊物上发表论文。这种倾向不仅是十分错误的,因为它背离了科学研究的宗旨;而且也是十分荒唐的,因为它误用了刊物的评价指标。著名文献计量学家A.van Raan指出:“如果有一个观点每一位文献计量学家都同意的话,那就是:你们永远不要用刊物的影响因子来评价一篇论文或某个研究人员的学术表现——因为那是一种不可饶恕的大罪(That is a mortal sin)”。但愿文献计量学家的忠告能引起我国教育界和学术界的警觉。