谁站在中国科学巨人的肩膀上?——中国科学出版物的引用折扣现象

发布时间:2025-05-17 00:25  浏览量:2

Shumin Qiu, Claudia Steinwender, Pierre Azoulay. Who stands on the shoulders of Chinese (Scientific) Giants? Evidence from chemistry. Research Policy,Volume 54, Issue 1, January 2025, 105147.

01

引言

当前,中国已成为全球科学出版物数量最多的国家,但仅仅生产知识并不意味着其他科学家能够基于这些知识进行进一步的研究。本文探讨了中国科学研究的崛起及其在全球科学前沿的贡献,特别关注中国化学研究的引用模式。

本文的核心在于探究中国科研成果的国际影响力,特别是在 化学 这一中国具有显著优势的领域。虽然中国科研产出的崛起有潜力推动知识前沿,但知识的生产本身并不保证其他人能够在此基础上进行创新。研究者们聚焦于化学领域,提出疑问: 源自中国的研究是否为后续科学家提供了广阔的“肩膀”?

主要发现:即使在仔细控制了中国研究的质量之后,与来自其他国家的科学家相比,中国科学家的文章从美国研究者那里获得的平均引用量仍然要少28%。只有那些在美国拥有异常深厚学术网络的中国研究者,才能部分克服这种“引用折扣”。

引言部分首先肯定了中国已成为世界科研出版物最大生产国的事实,并且中国科研的质量也随之提升,例如在《科学》和《自然》等顶级期刊上,中国机构发表的文章数量显著增加,平均引用次数和总引用份额也在上升。

然而,作者们质疑这些进步是否真正转化为全球科研的共享基石,或者仅仅是中国科研人员数量庞大且更倾向于引用“中国制造”的研究成果。论文选择化学领域作为研究对象,原因在于中国在该领域是前沿知识的重要贡献者,化学本身对产业(如化工、生物制药)高度相关,并且化学领域的数据相对完整,便于进行细致的跨国知识传播研究。

引言部分预告了核心发现:即使文章质量相当(通过与非中国、非美国科学家的文章比较),中国科学家的文章被美国科学家引用的概率依然显著更低,存在大约28%的“引用折扣”。在美国接受过科研训练的中国学者,这种折扣会减半。论文还初步排除了这种折扣是由于中国学者集中在某些冷门子领域,或是源于种族偏见(因为在海外有华人姓名的科学家没有类似折扣)的可能性。并且,类似的引用折扣也存在于美国专利对科学文献的引用中。

02

数据与方法

为探讨中国科研成果的真实国际影响力,作者们构建了一套精细的研究框架。他们的核心思路是,比较来自中国的精英化学家发表的文章与来自其他国家(非美国)的精英化学家发表的同等质量的文章,在被美国科学家引用方面是否存在差异。

首先,在数据收集方面,作者们选取了31种化学领域最具影响力的期刊,并收集了这些期刊在2000年至2018年间发表的所有原创研究文章,排除了超过15个共同作者的文章,初步得到约55万篇文章。通过作者识别技术,他们为每篇文章匹配到唯一的作者,并重点关注最后通讯作者,因为在化学领域,这通常代表课题负责人(Principal Investigator,PI)。

从近12.5万名最后通讯作者中,作者选取了在这些精英期刊发表文章数量最多的前1%的科学家,得到1250名研究者。排除美国本土的科学家后,样本中剩下751名精英化学家,其中156名(约20.8%)在中国机构工作。作者还通过这些科学家的履历收集了他们的详细信息,如教育背景、博士后经历和职业发展等。随后,他们收集了这751名科学家在2000年至2018年间作为最后通讯作者且在他们成为独立研究员后发表的所有文章,共计78541篇。

引用数据主要来自 Webof Science ,重点关注的是那些所有作者都隶属于美国机构的文章对这78541篇文章的引用。此外,他们还利用Marx和Fuegi(2020)构建的专利引用科学文献数据集,考察了纯美国发明人团队的专利对这些文章的引用情况。

研究方法的核心: 如何公平地比较文章 。第一个关键步骤是 控制文章质量 。直接使用美国引用数作为质量指标是不可取的,因为这是研究要考察的结果变量。而总引用数又会受到“ 本土引用偏好 ”的影响,尤其在中国,高达56%的引用来自国内。为此,作者构建了一个名为“去偏引用数”(DebiasedCitations)的指标,详细计算方法见附录B。该指标从原始引用数中减去美国来源的引用,包含来自世界其他地区(RestoftheWorld,ROW)的引用,并对来自本国的引用进行调整,以校正各国“异常高”的本土引用比例(基于该国在全球出版物中的相对份额)。

随后,作者采用了“ 粗化精确匹配 ”(Coarsened Exact Matching,CEM)的方法。他们为每一篇由中国PI发表的文章(处理组),在非中国、非美国PI发表的文章中寻找对照组文章。匹配的维度包括“去偏引用数”(分为6个等级)、发表期刊、发表年份、作者数量(分为4组)以及PI获得博士学位的年份。所有匹配标准的并集定义了一个分层单元。在每个分层内,从CEM算法的角度来看,文章是不可区分的,匹配是在分层层面上进行的。经过匹配,产生了6905篇处理组文章和9287篇对照组文章。

第二个关键步骤是定义“ 引用风险集 ”(Citation Risk Set)。并非所有美国发表的文章都有可能引用某一篇特定的中国文章。作者利用PubMed的“相关文章”(Related Articles)功能,该功能基于PMRA算法(PubMed Related Citations Algorithm),通过比较标题、摘要和关键词的相似性来判断文章间的知识邻近度。对于样本中的每一篇文章,其“引用风险集”包括所有由美国机构作者发表、发表时间在该文章之后、并且被PMRA算法认为是相关的文章。通过将引用风险集限定为与样本中被引论文主题相关的文献,可以将分析集中在那些真正因知识内容相关而可能发生的引用上,排除了那些不反映学术影响力、而是出于地位考量或试图取悦编辑审稿人的引用行为。

最后,作者采用了统计模型进行分析。对于学术引用,他们主要使用了线性概率模型(Linear Probability Model,LPM),其具体形式如公式1所示:

03

实证结果

研究首先通过表1对化学领域的全部文章(非仅精英样本)进行了初步的描述性分析。结果显示,即使在逐步控制了作者数量、发表年份固定效应和期刊固定效应后,中国研究者的文章从美国获得的引用次数仍然显著偏少,折扣幅度从最初的48%逐步调整到24%。这初步揭示了“中国引用折扣”的存在,并指向了进行更精细质量控制的必要性。

表1使用泊松回归模型,分析了全部化学文章(而非仅匹配后的精英样本)被美国作者团队引用的次数。列(1)显示,在仅控制作者数量时,中国研究者的文章获得的美国引用比其他国家(非美国)的文章少约48%。列(2)加入了发表年份固定效应后,考虑到中国科研崛起较晚,许多文章发表时间靠后,引用窗口期本身较短,这一“引用折扣”缩小到约34%。列(3)进一步加入了期刊固定效应,控制了不同期刊平均影响力的差异后,“引用折扣”缩小到约24%。

表1初步揭示了中国文章在美国引用上的劣势,并表明简单的年代和期刊因素并不能完全解释这种差异,从而强调了进行更精细质量控制的必要性。

接下来,分析转向了基于CEM匹配后的精英PI文章样本,使用论文中的核心模型(公式1,线性概率模型)进行估计,结果主要呈现在表2。

列(1)展示了中国地理位置的主要效应。在控制了匹配变量和一系列基础固定效应后,“Chinese investigator”(中国研究者)的系数为-0.008,统计上显著。这意味着,中国PI的文章被其“知识邻近”的美国文章引用的概率平均要低0.008。考虑到样本中文章被引用的基准概率约为3.2%,这个差异相当于大约25%的引用折扣。

列(2)在模型中加入了大量的额外控制变量,结果显示,“Chinese investigator”的系数仍然为-0.009,且高度显著,折算后的引用折扣约为28.1%。这表明,这些额外的控制因素虽然部分解释了引用行为(例如,有美国科研经历的PI被引用更多,过去的合作者之间更容易发生引用),但并不能消除或显著减弱中国PI所面临的引用折扣。论文还提到,他们考察了这种折扣是否随时间变化,发现并没有明显的证据表明这种折扣是暂时现象或随时间减弱。

总的来说,表2强有力地证明,即使在非常严格地控制了文章质量和诸多其他潜在影响因素后,来自中国的精英化学研究成果,在被美国学术界引用时,仍然存在一个显著的、约25%-28%的折扣。学术网络,特别是与美国的联系(如科研经历)和族裔联系,可以部分缓解这种折扣。

为了探究这种引用折扣是否为中国所特有,作者们进行了异质性分析 ,结果展示在下图2。他们将模型中的“处理组”分别替换为其他化学研究强国,如瑞士、德国、英国、日本、加拿大。结果发现,在这些国家中,没有其他国家经历与中国类似的显著引用折扣。相反,瑞士和德国的PI甚至享有引用溢价。这说明“中国引用折扣”并非发达国家或非美国国家普遍面临的现象,而是具有一定的独特性。

论文进一步检验了种族偏见作为解释渠道的可能性。在图2的右侧,作者们将40位在海外工作(非中国大陆,如中国香港、中国台湾、新加坡等地)但具有华人姓名的PI视为一个独立的“国家”进行分析。结果显示,这个群体的文章并没有受到美国研究者的引用折扣,其效应不显著,甚至略微为正。这一发现强烈暗示了“中国引用折扣”并非主要源于对华人科学家的种族偏见,而更可能与科学家所在的“中国”这一地理位置及其相关的制度或认知环境有关。

在完成了对学术引用的深入分析后,研究进一步将视角拓展到专利引用,以考察产业界对中国科研成果的吸收情况。首先,如表3所示,对化学领域全部文章的初步分析(类似于表1的设定)表明,中国研究者的文章被美国全美发明人团队的专利引用的次数也显著偏少。在控制了发表年份和期刊等因素后,引用折扣约为25%。

表3考察的是美国全美发明人团队的专利对全部化学文章的引用次数。与表1的学术引用分析结构类似。列(1)和列(2)显示,未充分控制时,中国文章的美国专利引用要少68%-70%。列(3)加入发表年份固定效应后,折扣减至约40%。列(4)再加入期刊固定效应后,折扣进一步减至约25%。这初步表明,中国化学研究成果在被美国产业界(通过专利引用体现)吸收和应用时,也存在类似的引用偏少现象。

接着,研究者们在精英PI匹配样本的基础上,对专利引用进行了更细致的考察,结果呈现在表4。由于无法像学术引用那样构建专利的“引用风险集”,此处的分析基于文章层面实际获得的专利引用次数,并使用泊松回归模型。作者们采用了多种匹配策略,除了基线匹配(列1a,1b,与表2类似的匹配,得到约30-35%的专利引用折扣),还额外匹配了PI的专利活动信息,例如PI在文章发表前是否申请过专利(列2a,2b,折扣约31-41%)、PI的专利存量类别(列3a,3b,折扣约31-42%),以及PI文章获得的非美国专利引用情况(列4a,4b,折扣约38-35%,但4a的统计显著性略低)。这些结果一致表明,即使在控制了PI自身的专利背景和文章的学术质量后,中国PI的文章获得的美国专利引用仍然显著更少。这说明,不仅是学术界,美国产业界在利用中国科研成果方面似乎也存在类似的“引用折扣”。

04

结论

综合以上分析,论文得出了一个核心结论:即使是在质量相当的情况下,由中国顶尖化学家发表的研究成果,从美国研究者(包括学术界和产业界)那里获得的引用也显著偏少。具体而言,学术引用大约低28%,专利引用的折扣幅度类似甚至可能更大。

作者们细致地探讨了造成这种“引用折扣”的可能原因。他们认为,这不太可能是由于未能控制的文章质量差异,因为研究中采用了非常严格的匹配程序来确保可比性。同时,种族偏见似乎也不是主要原因,因为研究发现具有华人姓名但在中国以外地区工作的科学家并未遭受类似的引用折扣。对于针对中国机构的怀疑或声誉问题,例如因学术不端案例引发的对中国科研成果可靠性的担忧,论文中的证据并不充分支持其为主要解释因素(例如,在“撤稿高发”子领域发表文章的中国科学家并未显示出更大的额外折扣)。

论文认为,最具有一致性的解释是美国科学家对中国产生的优秀研究认知不足,以及中国科学家(即使是精英群体)较难融入那些能使其研究成果获得广泛曝光的国际学术网络。这一解释得到了多方面证据的支持:

首先,那些在美国完成科研训练的“海归”中国科学家,其面临的引用折扣会显著减小(但未完全消失);其次,当引用文章的美国作者具有华人姓名时,对中国PI文章的引用折扣几乎消失,这可能反映了族裔网络在知识传播中的作用;再次,那些在自身研究子领域内高度专注和专业的中国PI,其引用折扣也会有所减少,可能是因为其专业性能穿透一般的认知隔阂。