搜索
您的当前位置:首页正文

基于关联规则挖掘竞争情报研究前沿分析

来源:好土汽车网
基于关联规则挖掘竞争情报研究前沿分析

李牧南

【摘 要】Purpose/Significance] To enhance the exploration of scientific frontiers for a specific topic, a more comprehensive model in-tegrating burst terms detection ( BTD) and co-word analysis is valuable and meaningful. [ Method/Process] The philosophy of traditional association rules mining is conducted to glue the BTD and co-word method. In the empirical research, the literature in Web of Science on“competitive intelligence” is analyzed to verify the new technique. [ Result/Conclusion] The results of theoretical and empirical research present that burst terms mining and analysis has some capability to explore the scientific frontiers, and the value of practice. Therefore, it could be a new valuable technique for traditional bibliometrics.%[目的/意义]为了进一步丰富对科学前沿的探测手段,有必要整合近年来颇为流行的突现词发现与传统的主题词共现分析各自的优势,从而形成一个更为综合的分析模型。[方法/过程]通过借鉴关联规则挖掘的基本思想,本文拓展传统的共词分析和文本聚类方法,构建了一个基于主题关键词和摘要突现词的关联规则挖掘模型,并且结合Web of Science数据库中“竞争情报( Competitive Intelligence)”相关文献的计量分析,进行了实证研究。[结果/结论]理论和实证分析结果显示,基于摘要文本的突现词和传统关键词的关联规则挖掘模型,对于研究前沿的发现与甄别,相比传统的共词分析,揭示的信息更为丰富,具有一定的辅助性作用,是一种对传统科学计量分析和知识图谱理论和方法体系的有益补充。

【期刊名称】《情报杂志》 【年(卷),期】2016(035)003 【总页数】7页(P54-60)

【关键词】文献计量分析;突现词发现;共词分析;科学前沿;竞争情报;CiteSpace 【作 者】李牧南

【作者单位】华南理工大学工商管理学院 广州 510641 【正文语种】中 文 【中图分类】F204

近年来,随着文本挖掘技术的发展,更多的新兴计算技术被应用到传统的文献计量领域,其中突现词检测(Burst Terms Detection,BTD)逐渐得到了更多研究者的关注[1-2]。此外,在科学计量和科学图谱领域,可视化分析软件,例如:Citespace,Histcite和SATI等工具的出现,进一步促进了科学图谱分析的发展[3]。但是,当前国内外针对“突现词(burst term)”相关的文本挖掘和信息过滤算法都还处于起步阶段,同时,基于突现分析的研究前沿甄别方法也有待于进一步验证[3-4]。总体而言,尽管BTD还存在一些争议,但突现词相关检测和聚类分析手段的出现,进一步丰富了对于某个科学主题研究前沿的分析方法。从研究前沿的基本定义和主流的理论框架出发,突现词发现也不是一个完全独立的新生事物和方法,其依然是科学计量分析体系架构下的一个组成部分,与传统的共词分析,关键字聚类,共被引聚类分析等方法之间存在显著地互补性效应。基于这样的一个基本认识,本文提出了一个面向科学主题研究前沿探测的突现词和主题关键词关联挖掘模型。 突现词的挖掘是目前互联网主题挖掘,社会舆情监测和信息情报领域的热点之一,

国内一些文献也将其翻译成“爆发词”[4-6]。在文献计量领域,陈超美教授在其CiteSpace软件中引入Kleinberg的突现词检测算法,并且认为基于摘要的突现词检测体现出了研究领域的动态性变化,有利于呈现一些潜在的研究前沿[7]。但是基于突现词的研究动态和研究前沿发现不直观,需要研究者对其领域非常熟悉,或者寻求该领域的学术权威进行验证,因此在应用领域也存在一定的争议和局限。 文本突现词的检测算法也处于不断发展当中,洪娜等提出了一种基于词的能力演化线索的突现词检测算法[2],逯万辉和马建霞则从条件随机场的角度探索了突现词的检测[8],以及方丽和崔雷针对提出了双聚类等改进算法,并且和Kleinberg的经典算法进行了比较[4]。此外,关于“burst terms”的翻译,尽管国内一些学者翻译成“爆发词”,尤其是在舆情监测和互联网信息挖掘领域,本文还是采取陈超美教授及其合作者陈悦,刘则渊教授等人翻译,即“突现词”,或者“突现主题词”[9-10]。

对于研究前沿定义的差异,以及突现词检测算法的多样化导致了不同的分析和图谱方法,很难去界定究竟哪种方法更加准确或者更加科学,不同的研究前沿分析理论和工具都是针对科学前沿甄别的有效手段之一,这些方法之间本质上可以互为补充和相互验证。因此,笔者认为有必要对研究前沿进行重新定义和审视,以兼容当前主流的不同观点和分析方法,并且引入一种既包容传统的关键词分析和突现词挖掘的新型模型来描述学科的研究前沿。

在传统的科技文献共词分析中,还是以关键词的词频统计和聚类分析为主,由此产生的共词矩阵和聚类形成的簇可以作为某个学科或者而研究领域前沿的重要参考指标[11]。潘东华和徐珂珂应用传统的关键词共性分析进行技术机会的识别方法[12]。当然,近年来基于突现词的研究前沿甄别与呈现得到了相关研究者的高度重视[9-10]。作者认为关键词和突现词都是文献本身的重要信息,统计学意义上的高频关键词分布情况和突现词的概率分布情况应当都是某个具体学科或者领域研究前沿的

特征之一。因此,这里构建的突现词和关键词关联挖掘模型如下:

定义1 词语集:即组成所有文献的词语集合,记为Words,关键词集合KW与突现词集合BT均为其子集,如式(1)所示。

定义2 文献:一个包含KW和BT的词语集,记为article,如式(2)所示。 从定义1和定义2看,这里是从词集的角度来定义文献,尽管也有学者认为不同文献尽管可能大部分词语相似,可能其语义相差甚远[13]。这其实是基于语义聚合的角度,即最小的语义单元-词,通过聚合成为句子,句子聚合成为段落,不同段落之间的逻辑联系则构成整篇文章的主题和意义。基于文献语义的分析观点与本文并不矛盾,只是观察的视角不同。

定义3 词集的长度或者维数:将集合KW或者集合BT包含的词语的个数成为此词语集的长度或者维数,记为k-词集,例如:3-KE代表一个包含3个key words的词集。

定义4 关键词KW与突现词BT之间的支持度(Support Degree)为在一个指定的文献集Article=∪Articlei中同时包含KE和BT的比例或者频数,如式(3)所示。 定义5 关键词KE与突现词BT之间的可信度(Confidence Degree)为在所有包含KE的文献Article=∪Articlei中,同时包含突现词BT的概率,因此这可以用一个条件概率表示,如式(4)所示

定义6 关键词KE对突现词BT的作用度(Lift),这表示某个高频主题关键词对一些新兴突现词出现的潜在影响度,用可信度与BT出现概率的比值来表示,如式(5)所示。

从经典的知识基础(Intellectual Base)与研究前沿(Research Front)之间的关系来看,传统主题关键词对新兴突现词的出现应该具有一定的促进作用,因此,应当重点关注那些作用度应当大于某个阈值的关联规则,例如:一般情况下,当作用度大于3时候,表明蕴含关系较为显著,是否可以作为关联规则使用则需要根据实际

的应用背景。

基于定义1-定义6,主题关键字与突现词之间的关联挖掘则可以基于传统的频繁项集发现算法,如Apriori和FP-tree等经典算法或其改进算法等[14][15]。 针对目前传统共词分析和突现词挖掘之间缺乏交互和联系的现象,本文构建了一个基于关联规则挖掘的新模型。当然,新模型是否可以在实际的文献计量分析中得到具有应用价值的成果,还需要进一步检验。在下文中,作者基于当前情报科学的热点主题之一-“竞争情报”研究前沿的探测与分析,进行了案例研究。

竞争情报(Competitive Intelligence)是情报科学领域重要的研究课题之一,又是一个涉及到图书情报,数据挖掘和知识管理等相关学科的一个重要的交叉研究方向,是企业和组织进行科学决策的重要参考[16-17]。对于“竞争情报”研究前沿的分析,可以进一步把握该领域的基本发展方向和趋势,以及潜在的重要交叉研究课题。 3.1 数据源及分析方法、工具 竞争情报相关文献的数据源为汤森.路透的Web of Science 核心库(WOSTM)中的期刊论文,时间跨度为2000-2014年,检索方式为主题关键字-“Competitive Intelligence”,排序方式采取时间倒序和被引频次倒序两种方式。文献数据分析工具为CiteSpace,数据格式为WOS导出的纯文本格式,每天文献数据包含全记录及其参考文献。分析方法包括文献、作者和期刊的共被引聚类分析、关键词的共现分析,以及突现词挖掘及其共现分析。聚类网络关键节点的评价指标包括如下两个基本指标:频率和中介中心性[9,18]。中介中心性代表经过该节点的最短路径数,在社会网络一般分析理论中,该节点属性可以表征其在网络中的重要性。

3.2 竞争情报相关文献的描述性统计 从2000至2014的15年间,在WOS数据库中,“竞争情报(Competitive Intelligence)”相关期刊论文总共为613篇,但是由于采取开放检索策略,因此有“artificial intelligence”和

“computational intelligence”等主题词的干扰,通过阅读每一篇文献的摘要,

实际检索到的相关性文献只有164篇,其中在WOS的学科类别“信息科学与情报科学(INFORMATION SCIENCE LIBRARY SCIENCE)”中只有53篇,164篇论文的研究领域分布如表1所示:

从表1中可以看出,如果把“管理(Management)”和“运筹(Operation research management science)”进行合并的话,管理类论文的比重最大,如果和商业(Business)合并的话,和信息科学与计算机科学领域的相关论文比重相差无几。这也充分说明了“竞争情报”其实也是一个典型的交叉研究领域。图1则是WOS数据库中164篇论文在时间序列上的分布情况。

从图1可以看出竞争情报相关的研究在2008年达到峰值,但是近5年发文的总量要远远高于之前的10年总和,这显示竞争情报的研究到今天依然是一个热点问题。

传统的图书情报领域的期刊没有排在第一位有点意外,但是通过进一步分析发现,欧洲市场杂志(EUROPEAN JOURNAL OF MARKETING)曾经在2008年出版了一期有关“竞争情报”的专刊,因此从数量上显得最多,但是从总被引频次来看,SCIENTOMETRICS,DECISION SUPPORT SYSTEMS排在前列(见表2)。 从描述性统计所呈现的信息看,竞争情报是一个典型的交叉学科,主要是信息科学、商业、管理、运筹在多个领域都有相关的研究。美国、加拿大、英国和中国是这个领域研究文献贡献最多的几个国家(见表3),而美国的佐治亚理工学院则成为发表相关论文最多的机构。

3.3 “竞争情报”研究前沿的关键词共现聚类分析 基于文献关键词的共现分析是当前科学和知识图谱分析的主流方法之一[19-22]。这里选择近15年以来,竞争情报领域被SCI和SSCI收录的164篇高度相关论文作为基础数据集,在CiteSpace中分别选择Top N(N=60)方式,时间切片(Time slice)为3,进行共词分析和突现词发现分析,得到的聚类分析结果如图2-图3所示。

在图3中可以看出聚类的模块值(Module Q)=0.7368,表明聚类结果良好,不同簇(Cluster)之间的差异显著,同时平均轮廓之(S)等于0.8418,显示聚类效果较好。图2和图3部分呈现了竞争情报研究前沿的基础性部分,那么这部分来源于一个相对稳定的知识基础(Intellectual Base,IB),知识基础可以由共被引网络聚类来表征。竞争情报知识基础的引文共被引分析结果如图4所示。

在图4中,共被引网络中,网络节点中介中心性最高的10篇文献如表4所示。 从表4可以看出,竞争情报的知识基础很大一部分基于企业战略和市场营销策略的研究,是传统战略管理和市场营销领域的研究在情报科学领域的一种延伸和交叉。不难看出,竞争情报研究正的最终目的是为了为企业提供战略决策依据,从而提高企业自身的战略决策和市场营销能力,因此,竞争情报属于一个典型的应用交叉研究领域。

3.4 “竞争情报”研究前沿的突现词挖掘与分析 突现词的发现本质上是一种基于文本摘要内容的数据流分析,CiteSpace采用了Kleinberg的算法。总体而言,突现词发现是基于随机过程的统计推断方法,不同的算法可能会出现不同结果,显然中文的突现词发掘与英文存在一些差异。但是,作为新兴主题和研究前沿的表征指标逐渐得到了更多研究者的认同[23-25]。突现词的挖掘和聚类分析结果如图5所示。

为了进一步对比普通关键词和突现词聚类分析的差异,这里将图3和图5聚类分析的中心性top20的节点进行对比分析,如表5所示。

从表5可以看出,尽管存在小部分相同词汇,但是突现词挖掘结果与常规的主题关键词聚类结果的差异还是较为显著,根据突现词发现算法的基本思想,可以认为这部分文献代表了竞争情报研究的某种新兴趋势和主题,或许涉及到一些交叉研究课题,以及潜在的新兴研究方向,研究手段和研究方法。

3.5 “竞争情报”研究前沿的关键词与突现词关联规则挖掘 针对表5的关键词

和突现词聚类结果集,以及在上文构建的关联规则挖掘模型,然后基于传统的Apriori算法的基本思想,作者运用c#语言编写相关处理程序,选择最小支持度(min-support)大于0.01,最小支持度比较小的原因在于突现词本身就只具有统计学意义,即任意一篇文献并不一定会包含该突现词,因此本文只是借鉴了关联规则挖掘的思想,这里的0.01表示突现词和某个主题关键词的共现频次大于等于2.,这个频次是可以接受的,一定意义上也符合统计学的小概率原理;最小置信度(min-confidence)大于0.5,根据作用度(lift)进行排序共计得到173条关联规则,作用度(lift)排名前25的关联规则如表6所示。

从表6给出的关联规则挖掘结果来看,部分信息可以与图5和图6的聚类结果互相补充和验证,这也说明了当前较为新兴的突现词发现与传统的关键词聚类分析之间存在显著性联系,但是这种关联规则却需要借助数据挖掘工具来呈现。 与传统的共词分析相比,本文提出的关联规则挖掘模型是一种探索性的拓展,在表6中,第2列“关键词集”其实就是一种多维的关键词共现,同时这些多维共现的关键词集与突现词之间的统计学联系也在表6中予以展现,从而可以呈现出更为丰富的文献计量信息。

总体而言,研究热点和演化路径分析已经成为当前科学计量发展极为迅速的领域,一些新兴的学科和研究领域纷纷借助科学图谱工具和方法对研究前沿进行探索,但其结论往往需要借助一些验证手段[27-28]。从本文的理论和实证分析结果来看,基于本文提出的“关键词”和“突现词”关联挖掘的研究前沿探测模型,可以较好地综合当前一些关于研究前沿发现的主流观点和理论,可以进一步拓宽研究者的视野,对于更加直观地呈现某个研究主题的现状,知识基础和科学前沿具有一定的辅助作用,尤其是对于交叉学科研究人员,对于进一步深入分析某个特定研究主题的新兴趋势和热点问题提供了一定的参考。

从目前科学技术发展的融合和交叉趋势来看,针对科学前沿的探测对于基础和应用

科学研究都具有重要的现实意义。迄今为止,任何一种单一的观察视角和分析维度都很难全面把握科学前沿的全貌,这是由于科学前沿本身是处于动态和发展当中,尤其是当前学科之间交叉和融合的趋势正在加快[25]。本文在当前较为热点的突现词发现分析基础上,探讨了文献突现词与传统共词分析的主题词之间的潜在关联关系,并提出了一种借鉴关联规则挖掘模型和算法的新视角和新方法,理论和实证分析显示,基于关联规则挖掘的科学前沿探测模型可以成为传统科学计量分析的有益补充。当然,关联规则挖掘本身也存在很多可以研究的地方,例如:主题词与突现词之间的关联能否结合潜在语义分析上升为文本之间的聚合和关联,这对于核心和前沿文献的确定无疑具有积极的意义。此外,本文也存在一定的局限性,例如:选择不同的数据源,以及不同的聚类网络阈值条件可能会产生具有一定差异的网络拓扑结构,同时突现词的检测算法也有进一步提升的空间。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top