CiteSpace是一个针对国际前沿性研究进行追踪和分析的软件。这个软件相对而言可操作性很强,因为它里面的很多参数可以大家自己去调节。CiteSpace是用文献计量学,以文献系统和文献计量学特征为研究对象,不仅仅可以定量测量轮廓分布以及研究之间的一个关系和丛集,还可以描述和预测特定研究领域的发展,还可以分析不同国家、机构、期刊和学者的信息,并比较它们的贡献。
CiteSpace的重要调整参数
1. G-index
在CiteSpace软件里面,它有几个很重要的调整参数,第一个参数是g-index,它通常被称之为g指数,g指数在CiteSpace当中属于选择标准(selection criteria)。它这个数值的作用是什么?就是说我们用CiteSpace做研究,做的分析其实是一个很断面的研究,g值其实就是选项在每个切片(slice)中使用一个修改过的g指数,然后在后面给到一个公式,它的意思就是可以通过一个自行调整比例因子k值的大小,来纳入或者说来排除更多的节点。
简单来讲,k值越大,图谱中出现的节点就越多,k值越小,图谱当中出现的节点就越少。我们用CiteSpace来做研究和分析,我们整个研究的导出是我们知识的图谱。这个知识图谱就是我们分析结果的可视化的结构的展现,每个图谱里面它包含“节点”和“连接”的关系,每个节点由它节点的特征来代表你某一个文献,或者说某一个研究的机构,或者说你某一个作者,他在你的研究领域内的影响以及特征。这些文献之间、作者之间或者说机构之间的这样的一个连接,代表的是什么?代表的是他们之间的关联,这个关联它其实可以包含时间的早晚以及互动的频率,这些都可以通过这样的参数来给它进行选择性的调节。
2.Top N与Top N%
Top N代表的是选取被引次数最高的N个引文,因为我们要去找重要的文献,重要的文献怎么去找呢?我们就可以通过这样的一个文献可计量的方式去进行分析。Top N后面加上百分比(Top N%),就是说它引文所选取的百分比。
3.Threshold
在CiteSpace里面有一个概念很重要,叫做Threshold。它是被引频次c(citation)、两篇文献的共被引频次cc(cocitation)和共被引系数ccv(cosinecoefficient)三个层次设置阈值。这个是它背后的一个公式(见图1),被引次数在我们进行文献分析的时候,被引次数不仅仅指的是每个文献的被引次数,它还指研究作者的被引次数,CiteSpace的一个原理性的解释,是把每个文献或者说每个作者当做是一个节点来看待,它每个节点之间的关联和它每个节点特征,主要的一个参数就是citation,它的被引次数。
图1
所以说整个CiteSpace的机制是一个定量化的分析的机制,对于研究新手或者说刚进入到某个研究领域的作者来说,或者说对某一个你尚不是很熟悉的研究领域,CiteSpace就可以帮助你快速地对它们行整体性分析。为什么?因为CiteSpace是个定量化的分析,不管你是研究新手也好,还是说你在研究领域内已经耕耘了很多年的权威来讲,你们对同一个领域用CiteSpace去分析的结果都是一样的。
原文链接:CiteSpace的介绍、重要调整参数及其重要术语
CiteSpace的重要术语
(一)引文空间
以上给大家讲了CiteSpace中重要的参数,CiteSpace它有什么重要的术语呢?CiteSpace的第一个重要术语叫做“引文的空间”,这个概念其实提得很巧妙,研究领域和研究范围在我们这普遍概念里面,它其实是一个二维性的范围。但是在CiteSpace的概念里面是三维的,虽然它最后的知识图谱是一个二维的呈现形式,但在它的原理的设计里面,CiteSpace是把我们整个研究的现状放在一个三维的引文空间里面来看待的。
CiteSpace是在科学的计量学数据可视化背景下,逐渐发展起来的一个引文可视化的分析软件。我们可以用CiteSpace来干什么?我们CiteSpace的工具或者这个手段是可以用来呈现科学知识的结构,结构性的东西,这是CiteSpace的一个特征。因为如果我们用一些传统的文献综述的方法,虽然也可以把我们某一研究领域的主体结构,或者说主干规律做出来,但是肯定也是要进行一个比较大量的阅读,但是我们很难把这个研究领域很细分的,或者说很细节性的结构和规律来给它分析出来。但计算机有算法的支撑,而且它可以同时处理好几千个文献,因为我们人工去做一个结构的话,我们是需要同步性要求比较强的,如果你一篇一篇地去处理的话,很难将结构生成起来。因此我们就是将通过CiteSpace这种方法得到的可视化图形,称之为是科学的知识图谱。
(二)中介中心性(Betweenness centrality)
第二个重要的术语叫做中介中心性,这个概念也是在数据可视化和科学计量学的背景下提出来的一个概念。中介中心性指的是什么?中介中心性是测度节点在网络中重要性的一个指标。以体育学为例,假如说我们是别的领域的,或者说我刚刚进入到体育学的研究领域,我要对体育学进行一个研究,我去找到体育学的重要的权威的研究者,或者说重要的文献,我们是比较容易找到的。为什么很容易?我们可以看引用量、引用量或者说下载量,这在知网上面都可以满足我们这个需求。但是被下载的最多的文献,一定是你现在这个阶段中介中心性最强的文献吗?不一定,很多文献它被下载量很多,为什么?第一个文献本身很重要,第二个文献它是一个很早之前就出现了的一个文献,对吧?这个很好理解。
中介中心性到底指的是什么?中介中心性指的是在特定年份内,我们这个领域的一个文献,最核心的一个文献,我们研究领域或者研究范围,最核心的文献或者说最核心的研究作者是谁,这个和被引用量与被引用的次数是不一样的概念。中介中心性是一个基于Citespace自身科学计量学的理论基础提出来的这样的概念,如果不用科学计量学,中介中心性也是很难进行测量的。
(三)Burst检测
第三个术语叫做Burst检测,这也是一个很有意思的东西,因为这是一个功能性很强的,也是一个很有效的概念。如果说大家进入某个研究领域,或者说你在该研究领域里面刚去工作了比较短的时间,你对于这个研究领域之前的研究状况的变化,是很难了解它变化的脉络的。这个和刚刚给大家讲的中介中心性相比是另外一个概念,这叫做凸显性。比如说我去研究时间的片段,在2015年到2022年语言学或者说教育学的发展时间片段中,到底是什么时候出现了什么样的文章,改变了我研究领域的方向,或改变了原来的发展方向,或者说极大地促进了接下来的研究发展,这些都是可以通过计量学的方法去做Burst检测,Burst检测能够找到这样的突变文献或作者。具体的操作步骤,这边给大家简单讲一下,我们在做Citespace关键词凸显之前,可以先进行标签的清洗,比如说合并类词或者通常在关键词出现图谱形成后,在知识突破界面会出现一个叫“Control Panel”,点击Burstness,然后点击“Refresh”,就可以进行关键词凸显的界面。
(四)引用年轮(Citation tree-rings)
下一个重要的术语是Citespace中的一个概念,叫做Citation tree-rings,它代表一个年轮,因为Citespace有两个支柱,第一个是文献的可计量分析,第二个则是可视化的表达,可视化的表达也是一个很重要的东西。我们如何在一张二维的图里面,把很多细节性的信息,比如它的特征,点之间的关系,还有整个突变的情况给它展现出来,这是需要一个很合理或者说可以令人一目了然的方法的,就是可视化的方法。
在知识一般的知识图谱里面,对于节点的描述并没有很多可视化的表达,一般对于节点,就是用一个点的颜色进行一个区分。但在Citespace图谱里面它是用年轮,年轮是一个很精准的表达方式,图中的每个圆圈就代表一个相应的引文的年轮(见图2)。年轮的厚度和相对应的分区与它的引文数量成正比。就是说节点的年轮越厚,就代表这个时间区内引文数量越多,这是正相关的关系。举个例子,年轮是什么?就是由不同的颜色组成,不同颜色表示该引文中包含文献发表的时间年限。果我们用Citespace原来的设定,而不去进行一个重置的话,就是黄色年轮对应的文献发表时间与时间轴上的黄色区域相对应,黄色年轮比红色年轮更厚,就证明黄色年轮对应的时间分区内的引文数量大于红色年轮。
图2
其实我们去进行学术前沿的追踪和探究,有一个维度大家千万不要忘记了,也就是时间的维度。比如说,我们现在去进行的这个研究领域的前沿是什么,下个月可能就是不一样的了,未来总是发生了变化的,你不可能每个月都去进行前沿的追踪,但是,什么是确定的?是我们已经发生的事情它是确定的。过去变化的演变过程它是确定的,所以说我们千万不要一味地去追求最前沿的文献是什么,而忘记了过去这个研究领域的发展脉络。而年轮可以把你的研究领域内的过程性信息展现在这里,它有时间分析区,包括首次被引用的这样的年份,还有时间分区以及出版的年代,都是可以通过引文的年轮来进行表示的。
声明: 本号旨在传播、传递、交流,对相关文章内容观点保持中立态度。涉及内容如有侵权或其他问题,请与本号联系,第一时间做出撤回。
版权归原作者 科研小白 新人上路 所有, 如有侵权,请联系我们删除。