当前位置: 首页 > 学界要闻 >

基于引用共词网络的领域基础词汇发现研究

来源:未知 作者:佚名 日期:2019-09-21 浏览:58

Comments on Leydesdorff’s Article

... 领域基础词汇是刻画、表征领域知识的基本信息承载单元, 是领域知识结构和发展脉络中的核心单元, 也是信息检索和信息抽取的重要单元.词汇是科学知识的载体[1], 而关键词是文献核心内容的浓缩和提炼, 能直接反映领域的知识点分布和知识结构[2,3], 因此领域基础词汇发现主要是利用领域相关文献中关键词之间的语义关系对文献集合进行分析, 进而发现学科领域基础词汇, 以把握学科知识结构和发展脉络. ...

Mapping Knowledge Structure by Keyword Co-occurrence: A First Look at Journal Papers in Technology Foresight

... 领域基础词汇是刻画、表征领域知识的基本信息承载单元, 是领域知识结构和发展脉络中的核心单元, 也是信息检索和信息抽取的重要单元.词汇是科学知识的载体[1], 而关键词是文献核心内容的浓缩和提炼, 能直接反映领域的知识点分布和知识结构[2,3], 因此领域基础词汇发现主要是利用领域相关文献中关键词之间的语义关系对文献集合进行分析, 进而发现学科领域基础词汇, 以把握学科知识结构和发展脉络. ...

Research Patterns and Trends of Recommendation System in China Using Co-Word Analysis

... 领域基础词汇是刻画、表征领域知识的基本信息承载单元, 是领域知识结构和发展脉络中的核心单元, 也是信息检索和信息抽取的重要单元.词汇是科学知识的载体[1], 而关键词是文献核心内容的浓缩和提炼, 能直接反映领域的知识点分布和知识结构[2,3], 因此领域基础词汇发现主要是利用领域相关文献中关键词之间的语义关系对文献集合进行分析, 进而发现学科领域基础词汇, 以把握学科知识结构和发展脉络. ...

筛选关键词是增加有排名关键词数量的关键词,首先选择网站品牌关键词的长尾词、其次是选择行业核心关键词的长尾词,建议选择那些百度指数不超过100的来做,因为指数越大代表这个词做上来的时间越长,做seo大多数词是长尾词,带来流量的除了网站品牌词就是核心关键词的长尾词了。优点低频来说是sony现时2000元内排第二的(第一是xb950bt),低频领域有着绝对性的优势引用的单词,中频的话个人认为的sony2000元款内可充当第一的型号(真要比的话个人感觉只有100abn吧),高频领域实在惭愧,因为个人感觉高频真不好比,毕竟个人认为高频不单单是人声又或者是某种乐器可以单一比较的,而且我也不太擅长听这个领域的,硬要我说的话,大胆说句,2200元内还真很少听过高频是真正能上档次的,我也不知道为什么,多数可能是因为我现在还太菜了。出现频率与之类似的还有cromer血型系统(由tcb、tcc、wesa低频抗原和cra、esa、ifc、wesb、umc、dra、tca高频抗原组成)、gerbich血型系统(由ge2、ge3、ge4抗原组成)、chido/rodgers血型系统(由ch和rg血型抗原组成)、lutheran血型系统(由lua/lub和aua/aub2对对偶抗原组成)、dombrock血型系统(由doa抗原组成)、knops血型系统(由knb、mccb、sib低频抗原和kna、mcca、sia高频抗原组成)、yt血型系统(由yta高频抗原和ytb低频抗原组成)、scianna血型系统(由sc1高频抗原和sc2低频抗原组成)、colton血型系统(由coa高频抗原和cob低频抗原组成)、landsteiner-wiener血型系统(由lwa和lwb两种抗原组成)。

Mapping the Knowledge Domain and the Theme Evolution of Appropriability Research Between 1986 and 2016: A Scientometric Review

... 以关键词作为基本知识单元的研究主要集中在知识结构和演化[4,5]、主题和热点发现[6,7]等研究中, 常用的方法为词频法或共词分析法, 一般根据主观经验或一定的规则筛选部分关键词进行分析.但词频法仅仅考虑词汇的出现频次, 容易忽略词频不高但较为重要的领域词汇, 而共词分析法只关注文献自身关键词之间的关系, 忽略了不同文献之间的间接关联, 在实际中两种方法得到的结果往往包含较多语义过于宽泛的词汇或者上位词, 但是这些词汇并不具备领域特色, 难以有效揭示领域的研究特征[8], 也就无法很好地表征领域研究基础.实际上, 不同学术文献的学术价值存在差别, 被引次数较多的文献往往学术价值较高, 而学术价值较高的文献所包含的关键词比学术价值较低的文献关键词更能反映学科的研究内容[9]. ...

Intellectual Structure of Knowledge in iMetrics: A Co-Word Analysis

... 以关键词作为基本知识单元的研究主要集中在知识结构和演化[4,5]、主题和热点发现[6,7]等研究中, 常用的方法为词频法或共词分析法, 一般根据主观经验或一定的规则筛选部分关键词进行分析.但词频法仅仅考虑词汇的出现频次, 容易忽略词频不高但较为重要的领域词汇, 而共词分析法只关注文献自身关键词之间的关系, 忽略了不同文献之间的间接关联, 在实际中两种方法得到的结果往往包含较多语义过于宽泛的词汇或者上位词, 但是这些词汇并不具备领域特色, 难以有效揭示领域的研究特征[8], 也就无法很好地表征领域研究基础.实际上, 不同学术文献的学术价值存在差别, 被引次数较多的文献往往学术价值较高, 而学术价值较高的文献所包含的关键词比学术价值较低的文献关键词更能反映学科的研究内容[9]. ...

Mapping the Intellectual Structure of Scientometrics: A Co-Word Analysis of the Journal Scientometrics (2005-2010)

... 以关键词作为基本知识单元的研究主要集中在知识结构和演化[4,5]、主题和热点发现[6,7]等研究中, 常用的方法为词频法或共词分析法, 一般根据主观经验或一定的规则筛选部分关键词进行分析.但词频法仅仅考虑词汇的出现频次, 容易忽略词频不高但较为重要的领域词汇, 而共词分析法只关注文献自身关键词之间的关系, 忽略了不同文献之间的间接关联, 在实际中两种方法得到的结果往往包含较多语义过于宽泛的词汇或者上位词, 但是这些词汇并不具备领域特色, 难以有效揭示领域的研究特征[8], 也就无法很好地表征领域研究基础.实际上, 不同学术文献的学术价值存在差别, 被引次数较多的文献往往学术价值较高, 而学术价值较高的文献所包含的关键词比学术价值较低的文献关键词更能反映学科的研究内容[9]. ...

Bibliometric Analysis to Identify an Emerging Research Area: Public Relations Intelligence — A Challenge to Strengthen Technological Observatories in the Network Society

... 以关键词作为基本知识单元的研究主要集中在知识结构和演化[4,5]、主题和热点发现[6,7]等研究中, 常用的方法为词频法或共词分析法, 一般根据主观经验或一定的规则筛选部分关键词进行分析.但词频法仅仅考虑词汇的出现频次, 容易忽略词频不高但较为重要的领域词汇, 而共词分析法只关注文献自身关键词之间的关系, 忽略了不同文献之间的间接关联, 在实际中两种方法得到的结果往往包含较多语义过于宽泛的词汇或者上位词, 但是这些词汇并不具备领域特色, 难以有效揭示领域的研究特征[8], 也就无法很好地表征领域研究基础.实际上, 不同学术文献的学术价值存在差别, 被引次数较多的文献往往学术价值较高, 而学术价值较高的文献所包含的关键词比学术价值较低的文献关键词更能反映学科的研究内容[9]. ...

科技论文关键词特征及其对共词分析的影响

... 以关键词作为基本知识单元的研究主要集中在知识结构和演化[4,5]、主题和热点发现[6,7]等研究中, 常用的方法为词频法或共词分析法, 一般根据主观经验或一定的规则筛选部分关键词进行分析.但词频法仅仅考虑词汇的出现频次, 容易忽略词频不高但较为重要的领域词汇, 而共词分析法只关注文献自身关键词之间的关系, 忽略了不同文献之间的间接关联, 在实际中两种方法得到的结果往往包含较多语义过于宽泛的词汇或者上位词, 但是这些词汇并不具备领域特色, 难以有效揭示领域的研究特征[8], 也就无法很好地表征领域研究基础.实际上, 不同学术文献的学术价值存在差别, 被引次数较多的文献往往学术价值较高, 而学术价值较高的文献所包含的关键词比学术价值较低的文献关键词更能反映学科的研究内容[9]. ...

Characteristics of Keywords in Scientific Papers and Their Impact on Co-word Analysis

... 以关键词作为基本知识单元的研究主要集中在知识结构和演化[4,5]、主题和热点发现[6,7]等研究中, 常用的方法为词频法或共词分析法, 一般根据主观经验或一定的规则筛选部分关键词进行分析.但词频法仅仅考虑词汇的出现频次, 容易忽略词频不高但较为重要的领域词汇, 而共词分析法只关注文献自身关键词之间的关系, 忽略了不同文献之间的间接关联, 在实际中两种方法得到的结果往往包含较多语义过于宽泛的词汇或者上位词, 但是这些词汇并不具备领域特色, 难以有效揭示领域的研究特征[8], 也就无法很好地表征领域研究基础.实际上, 不同学术文献的学术价值存在差别, 被引次数较多的文献往往学术价值较高, 而学术价值较高的文献所包含的关键词比学术价值较低的文献关键词更能反映学科的研究内容[9]. ...

基于引文关键词加权共现技术的图情学科领域本体自动构建方法研究

... 以关键词作为基本知识单元的研究主要集中在知识结构和演化[4,5]、主题和热点发现[6,7]等研究中, 常用的方法为词频法或共词分析法, 一般根据主观经验或一定的规则筛选部分关键词进行分析.但词频法仅仅考虑词汇的出现频次, 容易忽略词频不高但较为重要的领域词汇, 而共词分析法只关注文献自身关键词之间的关系, 忽略了不同文献之间的间接关联, 在实际中两种方法得到的结果往往包含较多语义过于宽泛的词汇或者上位词, 但是这些词汇并不具备领域特色, 难以有效揭示领域的研究特征[8], 也就无法很好地表征领域研究基础.实际上, 不同学术文献的学术价值存在差别, 被引次数较多的文献往往学术价值较高, 而学术价值较高的文献所包含的关键词比学术价值较低的文献关键词更能反映学科的研究内容[9]. ...

... 近年, 部分学者提出将引文关联关系引入词语共现或实体共现分析中, 提出结果更为有效、思路更为可靠的新方法[9,21].例如, Ding等[21]提出实体计量用来衡量不同层次知识单元的影响, 以Metformin药物为例构建实体-实体引文网络(Entity-Entity Citation Network), 通过对比验证了该方法可以有效发现知识实体之间的关联.Song等[22]提出施引文献和被引文献的知识实体之间存在相关关系, 并构建了生物医学文献中基于基因实体的引用共词网络(Gene-Citation- Gene Network), 通过与传统的共词网络(Gene-Gene Network)对比, 发现前者更能揭示知识实体之间的一些隐含关系.李树青[9]利用引文分析思想计算文献的学术价值, 并以此计算文献和引用文献的词语共现对权重值, 完成本体结构中层次概念联系的表达和设计.吴清强等[23]认为高影响因子期刊上或被引次数较高的文献中的词更具有代表性, 根据文献的来源期刊、被引次数等属性赋予关键词不同的权值, 从而构建基于论文属性的加权共词分析模型.葛菲等[24]提出引文分析能较好地反映文献集中存在引用关系的主题, 内容词分析方法反映的是已有文献集中关心的主题, 将二者结合起来在揭示科学结构方面能产生更好的效果. ...

... [9]利用引文分析思想计算文献的学术价值, 并以此计算文献和引用文献的词语共现对权重值, 完成本体结构中层次概念联系的表达和设计.吴清强等[23]认为高影响因子期刊上或被引次数较高的文献中的词更具有代表性, 根据文献的来源期刊、被引次数等属性赋予关键词不同的权值, 从而构建基于论文属性的加权共词分析模型.葛菲等[24]提出引文分析能较好地反映文献集中存在引用关系的主题, 内容词分析方法反映的是已有文献集中关心的主题, 将二者结合起来在揭示科学结构方面能产生更好的效果. ...

Research on Automatic Construction of Domain Ontology in Library and Information Science Based on Weighted Co-occurrence of Citation Keywords

... 以关键词作为基本知识单元的研究主要集中在知识结构和演化[4,5]、主题和热点发现[6,7]等研究中, 常用的方法为词频法或共词分析法, 一般根据主观经验或一定的规则筛选部分关键词进行分析.但词频法仅仅考虑词汇的出现频次, 容易忽略词频不高但较为重要的领域词汇, 而共词分析法只关注文献自身关键词之间的关系, 忽略了不同文献之间的间接关联, 在实际中两种方法得到的结果往往包含较多语义过于宽泛的词汇或者上位词, 但是这些词汇并不具备领域特色, 难以有效揭示领域的研究特征[8], 也就无法很好地表征领域研究基础.实际上, 不同学术文献的学术价值存在差别, 被引次数较多的文献往往学术价值较高, 而学术价值较高的文献所包含的关键词比学术价值较低的文献关键词更能反映学科的研究内容[9]. ...

... 近年, 部分学者提出将引文关联关系引入词语共现或实体共现分析中, 提出结果更为有效、思路更为可靠的新方法[9,21].例如, Ding等[21]提出实体计量用来衡量不同层次知识单元的影响, 以Metformin药物为例构建实体-实体引文网络(Entity-Entity Citation Network), 通过对比验证了该方法可以有效发现知识实体之间的关联.Song等[22]提出施引文献和被引文献的知识实体之间存在相关关系, 并构建了生物医学文献中基于基因实体的引用共词网络(Gene-Citation- Gene Network), 通过与传统的共词网络(Gene-Gene Network)对比, 发现前者更能揭示知识实体之间的一些隐含关系.李树青[9]利用引文分析思想计算文献的学术价值, 并以此计算文献和引用文献的词语共现对权重值, 完成本体结构中层次概念联系的表达和设计.吴清强等[23]认为高影响因子期刊上或被引次数较高的文献中的词更具有代表性, 根据文献的来源期刊、被引次数等属性赋予关键词不同的权值, 从而构建基于论文属性的加权共词分析模型.葛菲等[24]提出引文分析能较好地反映文献集中存在引用关系的主题, 内容词分析方法反映的是已有文献集中关心的主题, 将二者结合起来在揭示科学结构方面能产生更好的效果. ...

... [9]利用引文分析思想计算文献的学术价值, 并以此计算文献和引用文献的词语共现对权重值, 完成本体结构中层次概念联系的表达和设计.吴清强等[23]认为高影响因子期刊上或被引次数较高的文献中的词更具有代表性, 根据文献的来源期刊、被引次数等属性赋予关键词不同的权值, 从而构建基于论文属性的加权共词分析模型.葛菲等[24]提出引文分析能较好地反映文献集中存在引用关系的主题, 内容词分析方法反映的是已有文献集中关心的主题, 将二者结合起来在揭示科学结构方面能产生更好的效果. ...

Mapping the Intellectual Structure of the Internet of Things (IoT) Field (2000-2014): A Co-Word Analysis

... 与本文最相关的研究主要集中在关键词筛选任务中.在基于关键词的领域知识分析研究时, 需要从大量关键词中提取出最能表征数据特征的小部分作为分析对象[10].词频是关键词筛选最直接的依据, 例如, Wang等[11]对所有术语词频进行统计并从高到低排序, 根据个人经验选取前N个高频词作为分析的样本数据.Hu等[3]在分析信息检索领域的主题结构和演化时, 从原始关键词中选择词频不小于10次的关键词共150个作为分析对象.这类方法虽然简单可行, 但凭借研究者的经验进行选择, 主观性较强, 往往会忽略掉一些词频不高但能够表征领域特色的基础词汇.为更客观地确定高频词的阈值, Donohue[12]根据齐普夫第二定律[13]提出高频低频词分界公式.Yang等[14]根据Donohue高低频词分界公式获取医学信息学领域频次超过36次的35个高频MeSH词作为研究对象.Yan等[15]根据Donohue公式得到高频词阈值为120, 但只有7个关键词超过该阈值.这种定量方法在一定程度上避免了主观经验, 但当研究领域范围过大时, 使用这类方法容易获得太过抽象、具体的词以及领域外不相关的词[16].此外, 还有学者将关键词集合转化为网络, 采用网络指标(如网络节点度数、中介中心性、特征向量中心性等)[17]或相关方法(如K-core分解[18]、核心/边缘结构[19]、惩罚性矩阵分解[20])进行关键词筛选.这类方法通过网络结构发现重要的节点, 取得了一定成效, 但由于在关键词构建的网络中, 上述指标与词频仍然线性相关, 因而抽取到的关键词与高频词并无太大差异[16]. ...

Social Networks in Marketing Research 2001-2014: A Co-Word Analysis

筛选关键词是增加有排名关键词数量的关键词,首先选择网站品牌关键词的长尾词、其次是选择行业核心关键词的长尾词,建议选择那些百度指数不超过100的来做,因为指数越大代表这个词做上来的时间越长,做seo大多数词是长尾词,带来流量的除了网站品牌词就是核心关键词的长尾词了。优点低频来说是sony现时2000元内排第二的(第一是xb950bt),低频领域有着绝对性的优势,中频的话个人认为的sony2000元款内可充当第一的型号(真要比的话个人感觉只有100abn吧),高频领域实在惭愧,因为个人感觉高频真不好比,毕竟个人认为高频不单单是人声又或者是某种乐器可以单一比较的,而且我也不太擅长听这个领域的引用的单词,硬要我说的话,大胆说句,2200元内还真很少听过高频是真正能上档次的,我也不知道为什么,多数可能是因为我现在还太菜了。出现频率与之类似的还有cromer血型系统(由tcb、tcc、wesa低频抗原和cra、esa、ifc、wesb、umc、dra、tca高频抗原组成)、gerbich血型系统(由ge2、ge3、ge4抗原组成)、chido/rodgers血型系统(由ch和rg血型抗原组成)、lutheran血型系统(由lua/lub和aua/aub2对对偶抗原组成)、dombrock血型系统(由doa抗原组成)、knops血型系统(由knb、mccb、sib低频抗原和kna、mcca、sia高频抗原组成)、yt血型系统(由yta高频抗原和ytb低频抗原组成)、scianna血型系统(由sc1高频抗原和sc2低频抗原组成)、colton血型系统(由coa高频抗原和cob低频抗原组成)、landsteiner-wiener血型系统(由lwa和lwb两种抗原组成)。

... 与本文最相关的研究主要集中在关键词筛选任务中.在基于关键词的领域知识分析研究时, 需要从大量关键词中提取出最能表征数据特征的小部分作为分析对象[10].词频是关键词筛选最直接的依据, 例如, Wang等[11]对所有术语词频进行统计并从高到低排序, 根据个人经验选取前N个高频词作为分析的样本数据.Hu等[3]在分析信息检索领域的主题结构和演化时, 从原始关键词中选择词频不小于10次的关键词共150个作为分析对象.这类方法虽然简单可行, 但凭借研究者的经验进行选择, 主观性较强, 往往会忽略掉一些词频不高但能够表征领域特色的基础词汇.为更客观地确定高频词的阈值, Donohue[12]根据齐普夫第二定律[13]提出高频低频词分界公式.Yang等[14]根据Donohue高低频词分界公式获取医学信息学领域频次超过36次的35个高频MeSH词作为研究对象.Yan等[15]根据Donohue公式得到高频词阈值为120, 但只有7个关键词超过该阈值.这种定量方法在一定程度上避免了主观经验, 但当研究领域范围过大时, 使用这类方法容易获得太过抽象、具体的词以及领域外不相关的词[16].此外, 还有学者将关键词集合转化为网络, 采用网络指标(如网络节点度数、中介中心性、特征向量中心性等)[17]或相关方法(如K-core分解[18]、核心/边缘结构[19]、惩罚性矩阵分解[20])进行关键词筛选.这类方法通过网络结构发现重要的节点, 取得了一定成效, 但由于在关键词构建的网络中, 上述指标与词频仍然线性相关, 因而抽取到的关键词与高频词并无太大差异[16]. ...

A “Law” of Occurrences for Words of Low Frequency

... 与本文最相关的研究主要集中在关键词筛选任务中.在基于关键词的领域知识分析研究时, 需要从大量关键词中提取出最能表征数据特征的小部分作为分析对象[10].词频是关键词筛选最直接的依据, 例如, Wang等[11]对所有术语词频进行统计并从高到低排序, 根据个人经验选取前N个高频词作为分析的样本数据.Hu等[3]在分析信息检索领域的主题结构和演化时, 从原始关键词中选择词频不小于10次的关键词共150个作为分析对象.这类方法虽然简单可行, 但凭借研究者的经验进行选择, 主观性较强, 往往会忽略掉一些词频不高但能够表征领域特色的基础词汇.为更客观地确定高频词的阈值, Donohue[12]根据齐普夫第二定律[13]提出高频低频词分界公式.Yang等[14]根据Donohue高低频词分界公式获取医学信息学领域频次超过36次的35个高频MeSH词作为研究对象.Yan等[15]根据Donohue公式得到高频词阈值为120, 但只有7个关键词超过该阈值.这种定量方法在一定程度上避免了主观经验, 但当研究领域范围过大时, 使用这类方法容易获得太过抽象、具体的词以及领域外不相关的词[16].此外, 还有学者将关键词集合转化为网络, 采用网络指标(如网络节点度数、中介中心性、特征向量中心性等)[17]或相关方法(如K-core分解[18]、核心/边缘结构[19]、惩罚性矩阵分解[20])进行关键词筛选.这类方法通过网络结构发现重要的节点, 取得了一定成效, 但由于在关键词构建的网络中, 上述指标与词频仍然线性相关, 因而抽取到的关键词与高频词并无太大差异[16]. ...

Integration of Three Visualization Methods Based on Co-Word Analysis

... 与本文最相关的研究主要集中在关键词筛选任务中.在基于关键词的领域知识分析研究时, 需要从大量关键词中提取出最能表征数据特征的小部分作为分析对象[10].词频是关键词筛选最直接的依据, 例如, Wang等[11]对所有术语词频进行统计并从高到低排序, 根据个人经验选取前N个高频词作为分析的样本数据.Hu等[3]在分析信息检索领域的主题结构和演化时, 从原始关键词中选择词频不小于10次的关键词共150个作为分析对象.这类方法虽然简单可行, 但凭借研究者的经验进行选择, 主观性较强, 往往会忽略掉一些词频不高但能够表征领域特色的基础词汇.为更客观地确定高频词的阈值, Donohue[12]根据齐普夫第二定律[13]提出高频低频词分界公式.Yang等[14]根据Donohue高低频词分界公式获取医学信息学领域频次超过36次的35个高频MeSH词作为研究对象.Yan等[15]根据Donohue公式得到高频词阈值为120, 但只有7个关键词超过该阈值.这种定量方法在一定程度上避免了主观经验, 但当研究领域范围过大时, 使用这类方法容易获得太过抽象、具体的词以及领域外不相关的词[16].此外, 还有学者将关键词集合转化为网络, 采用网络指标(如网络节点度数、中介中心性、特征向量中心性等)[17]或相关方法(如K-core分解[18]、核心/边缘结构[19]、惩罚性矩阵分解[20])进行关键词筛选.这类方法通过网络结构发现重要的节点, 取得了一定成效, 但由于在关键词构建的网络中, 上述指标与词频仍然线性相关, 因而抽取到的关键词与高频词并无太大差异[16]. ...

Analysis of Research Papers on E-Commerce (2000-2013): Based on a Text Mining Approach

... 与本文最相关的研究主要集中在关键词筛选任务中.在基于关键词的领域知识分析研究时, 需要从大量关键词中提取出最能表征数据特征的小部分作为分析对象[10].词频是关键词筛选最直接的依据, 例如, Wang等[11]对所有术语词频进行统计并从高到低排序, 根据个人经验选取前N个高频词作为分析的样本数据.Hu等[3]在分析信息检索领域的主题结构和演化时, 从原始关键词中选择词频不小于10次的关键词共150个作为分析对象.这类方法虽然简单可行, 但凭借研究者的经验进行选择, 主观性较强, 往往会忽略掉一些词频不高但能够表征领域特色的基础词汇.为更客观地确定高频词的阈值, Donohue[12]根据齐普夫第二定律[13]提出高频低频词分界公式.Yang等[14]根据Donohue高低频词分界公式获取医学信息学领域频次超过36次的35个高频MeSH词作为研究对象.Yan等[15]根据Donohue公式得到高频词阈值为120, 但只有7个关键词超过该阈值.这种定量方法在一定程度上避免了主观经验, 但当研究领域范围过大时, 使用这类方法容易获得太过抽象、具体的词以及领域外不相关的词[16].此外, 还有学者将关键词集合转化为网络, 采用网络指标(如网络节点度数、中介中心性、特征向量中心性等)[17]或相关方法(如K-core分解[18]、核心/边缘结构[19]、惩罚性矩阵分解[20])进行关键词筛选.这类方法通过网络结构发现重要的节点, 取得了一定成效, 但由于在关键词构建的网络中, 上述指标与词频仍然线性相关, 因而抽取到的关键词与高频词并无太大差异[16]. ...

共词分析过程中的若干问题研究

... 与本文最相关的研究主要集中在关键词筛选任务中.在基于关键词的领域知识分析研究时, 需要从大量关键词中提取出最能表征数据特征的小部分作为分析对象[10].词频是关键词筛选最直接的依据, 例如, Wang等[11]对所有术语词频进行统计并从高到低排序, 根据个人经验选取前N个高频词作为分析的样本数据.Hu等[3]在分析信息检索领域的主题结构和演化时, 从原始关键词中选择词频不小于10次的关键词共150个作为分析对象.这类方法虽然简单可行, 但凭借研究者的经验进行选择, 主观性较强, 往往会忽略掉一些词频不高但能够表征领域特色的基础词汇.为更客观地确定高频词的阈值, Donohue[12]根据齐普夫第二定律[13]提出高频低频词分界公式.Yang等[14]根据Donohue高低频词分界公式获取医学信息学领域频次超过36次的35个高频MeSH词作为研究对象.Yan等[15]根据Donohue公式得到高频词阈值为120, 但只有7个关键词超过该阈值.这种定量方法在一定程度上避免了主观经验, 但当研究领域范围过大时, 使用这类方法容易获得太过抽象、具体的词以及领域外不相关的词[16].此外, 还有学者将关键词集合转化为网络, 采用网络指标(如网络节点度数、中介中心性、特征向量中心性等)[17]或相关方法(如K-core分解[18]、核心/边缘结构[19]、惩罚性矩阵分解[20])进行关键词筛选.这类方法通过网络结构发现重要的节点, 取得了一定成效, 但由于在关键词构建的网络中, 上述指标与词频仍然线性相关, 因而抽取到的关键词与高频词并无太大差异[16]. ...

... [16]. ...

Co-word Analysis: Limitations and Solutions

... 与本文最相关的研究主要集中在关键词筛选任务中.在基于关键词的领域知识分析研究时, 需要从大量关键词中提取出最能表征数据特征的小部分作为分析对象[10].词频是关键词筛选最直接的依据, 例如, Wang等[11]对所有术语词频进行统计并从高到低排序, 根据个人经验选取前N个高频词作为分析的样本数据.Hu等[3]在分析信息检索领域的主题结构和演化时, 从原始关键词中选择词频不小于10次的关键词共150个作为分析对象.这类方法虽然简单可行, 但凭借研究者的经验进行选择, 主观性较强, 往往会忽略掉一些词频不高但能够表征领域特色的基础词汇.为更客观地确定高频词的阈值, Donohue[12]根据齐普夫第二定律[13]提出高频低频词分界公式.Yang等[14]根据Donohue高低频词分界公式获取医学信息学领域频次超过36次的35个高频MeSH词作为研究对象.Yan等[15]根据Donohue公式得到高频词阈值为120, 但只有7个关键词超过该阈值.这种定量方法在一定程度上避免了主观经验, 但当研究领域范围过大时, 使用这类方法容易获得太过抽象、具体的词以及领域外不相关的词[16].此外, 还有学者将关键词集合转化为网络, 采用网络指标(如网络节点度数、中介中心性、特征向量中心性等)[17]或相关方法(如K-core分解[18]、核心/边缘结构[19]、惩罚性矩阵分解[20])进行关键词筛选.这类方法通过网络结构发现重要的节点, 取得了一定成效, 但由于在关键词构建的网络中, 上述指标与词频仍然线性相关, 因而抽取到的关键词与高频词并无太大差异[16]. ...

... [16]. ...

Analysis of Keyword Networks in MIS Research and Implications for Predicting Knowledge Evolution

... 与本文最相关的研究主要集中在关键词筛选任务中.在基于关键词的领域知识分析研究时, 需要从大量关键词中提取出最能表征数据特征的小部分作为分析对象[10].词频是关键词筛选最直接的依据, 例如, Wang等[11]对所有术语词频进行统计并从高到低排序, 根据个人经验选取前N个高频词作为分析的样本数据.Hu等[3]在分析信息检索领域的主题结构和演化时, 从原始关键词中选择词频不小于10次的关键词共150个作为分析对象.这类方法虽然简单可行, 但凭借研究者的经验进行选择, 主观性较强, 往往会忽略掉一些词频不高但能够表征领域特色的基础词汇.为更客观地确定高频词的阈值, Donohue[12]根据齐普夫第二定律[13]提出高频低频词分界公式.Yang等[14]根据Donohue高低频词分界公式获取医学信息学领域频次超过36次的35个高频MeSH词作为研究对象.Yan等[15]根据Donohue公式得到高频词阈值为120, 但只有7个关键词超过该阈值.这种定量方法在一定程度上避免了主观经验, 但当研究领域范围过大时, 使用这类方法容易获得太过抽象、具体的词以及领域外不相关的词[16].此外, 还有学者将关键词集合转化为网络, 采用网络指标(如网络节点度数、中介中心性、特征向量中心性等)[17]或相关方法(如K-core分解[18]、核心/边缘结构[19]、惩罚性矩阵分解[20])进行关键词筛选.这类方法通过网络结构发现重要的节点, 取得了一定成效, 但由于在关键词构建的网络中, 上述指标与词频仍然线性相关, 因而抽取到的关键词与高频词并无太大差异[16]. ...

A Bibliometric Study of Service Innovation Research: Based on Complex Network Analysis

... 与本文最相关的研究主要集中在关键词筛选任务中.在基于关键词的领域知识分析研究时, 需要从大量关键词中提取出最能表征数据特征的小部分作为分析对象[10].词频是关键词筛选最直接的依据, 例如, Wang等[11]对所有术语词频进行统计并从高到低排序, 根据个人经验选取前N个高频词作为分析的样本数据.Hu等[3]在分析信息检索领域的主题结构和演化时, 从原始关键词中选择词频不小于10次的关键词共150个作为分析对象.这类方法虽然简单可行, 但凭借研究者的经验进行选择, 主观性较强, 往往会忽略掉一些词频不高但能够表征领域特色的基础词汇.为更客观地确定高频词的阈值, Donohue[12]根据齐普夫第二定律[13]提出高频低频词分界公式.Yang等[14]根据Donohue高低频词分界公式获取医学信息学领域频次超过36次的35个高频MeSH词作为研究对象.Yan等[15]根据Donohue公式得到高频词阈值为120, 但只有7个关键词超过该阈值.这种定量方法在一定程度上避免了主观经验, 但当研究领域范围过大时, 使用这类方法容易获得太过抽象、具体的词以及领域外不相关的词[16].此外, 还有学者将关键词集合转化为网络, 采用网络指标(如网络节点度数、中介中心性、特征向量中心性等)[17]或相关方法(如K-core分解[18]、核心/边缘结构[19]、惩罚性矩阵分解[20])进行关键词筛选.这类方法通过网络结构发现重要的节点, 取得了一定成效, 但由于在关键词构建的网络中, 上述指标与词频仍然线性相关, 因而抽取到的关键词与高频词并无太大差异[16]. ...

Can Information Ethics Be Conceptualized by Using the Core/Periphery Model?

... 与本文最相关的研究主要集中在关键词筛选任务中.在基于关键词的领域知识分析研究时, 需要从大量关键词中提取出最能表征数据特征的小部分作为分析对象[10].词频是关键词筛选最直接的依据, 例如, Wang等[11]对所有术语词频进行统计并从高到低排序, 根据个人经验选取前N个高频词作为分析的样本数据.Hu等[3]在分析信息检索领域的主题结构和演化时, 从原始关键词中选择词频不小于10次的关键词共150个作为分析对象.这类方法虽然简单可行, 但凭借研究者的经验进行选择, 主观性较强, 往往会忽略掉一些词频不高但能够表征领域特色的基础词汇.为更客观地确定高频词的阈值, Donohue[12]根据齐普夫第二定律[13]提出高频低频词分界公式.Yang等[14]根据Donohue高低频词分界公式获取医学信息学领域频次超过36次的35个高频MeSH词作为研究对象.Yan等[15]根据Donohue公式得到高频词阈值为120, 但只有7个关键词超过该阈值.这种定量方法在一定程度上避免了主观经验, 但当研究领域范围过大时, 使用这类方法容易获得太过抽象、具体的词以及领域外不相关的词[16].此外, 还有学者将关键词集合转化为网络, 采用网络指标(如网络节点度数、中介中心性、特征向量中心性等)[17]或相关方法(如K-core分解[18]、核心/边缘结构[19]、惩罚性矩阵分解[20])进行关键词筛选.这类方法通过网络结构发现重要的节点, 取得了一定成效, 但由于在关键词构建的网络中, 上述指标与词频仍然线性相关, 因而抽取到的关键词与高频词并无太大差异[16]. ...

Extracting Plants Core Genes Responding to Abiotic Stresses by Penalized Matrix Decomposition

... 与本文最相关的研究主要集中在关键词筛选任务中.在基于关键词的领域知识分析研究时, 需要从大量关键词中提取出最能表征数据特征的小部分作为分析对象[10].词频是关键词筛选最直接的依据, 例如, Wang等[11]对所有术语词频进行统计并从高到低排序, 根据个人经验选取前N个高频词作为分析的样本数据.Hu等[3]在分析信息检索领域的主题结构和演化时, 从原始关键词中选择词频不小于10次的关键词共150个作为分析对象.这类方法虽然简单可行, 但凭借研究者的经验进行选择, 主观性较强, 往往会忽略掉一些词频不高但能够表征领域特色的基础词汇.为更客观地确定高频词的阈值, Donohue[12]根据齐普夫第二定律[13]提出高频低频词分界公式.Yang等[14]根据Donohue高低频词分界公式获取医学信息学领域频次超过36次的35个高频MeSH词作为研究对象.Yan等[15]根据Donohue公式得到高频词阈值为120, 但只有7个关键词超过该阈值.这种定量方法在一定程度上避免了主观经验, 但当研究领域范围过大时, 使用这类方法容易获得太过抽象、具体的词以及领域外不相关的词[16].此外, 还有学者将关键词集合转化为网络, 采用网络指标(如网络节点度数、中介中心性、特征向量中心性等)[17]或相关方法(如K-core分解[18]、核心/边缘结构[19]、惩罚性矩阵分解[20])进行关键词筛选.这类方法通过网络结构发现重要的节点, 取得了一定成效, 但由于在关键词构建的网络中, 上述指标与词频仍然线性相关, 因而抽取到的关键词与高频词并无太大差异[16]. ...

Entitymetrics: Measuring the Impact of Entities

... 近年, 部分学者提出将引文关联关系引入词语共现或实体共现分析中, 提出结果更为有效、思路更为可靠的新方法[9,21].例如, Ding等[21]提出实体计量用来衡量不同层次知识单元的影响, 以Metformin药物为例构建实体-实体引文网络(Entity-Entity Citation Network), 通过对比验证了该方法可以有效发现知识实体之间的关联.Song等[22]提出施引文献和被引文献的知识实体之间存在相关关系, 并构建了生物医学文献中基于基因实体的引用共词网络(Gene-Citation- Gene Network), 通过与传统的共词网络(Gene-Gene Network)对比, 发现前者更能揭示知识实体之间的一些隐含关系.李树青[9]利用引文分析思想计算文献的学术价值, 并以此计算文献和引用文献的词语共现对权重值, 完成本体结构中层次概念联系的表达和设计.吴清强等[23]认为高影响因子期刊上或被引次数较高的文献中的词更具有代表性, 根据文献的来源期刊、被引次数等属性赋予关键词不同的权值, 从而构建基于论文属性的加权共词分析模型.葛菲等[24]提出引文分析能较好地反映文献集中存在引用关系的主题, 内容词分析方法反映的是已有文献集中关心的主题, 将二者结合起来在揭示科学结构方面能产生更好的效果. ...

... [21]提出实体计量用来衡量不同层次知识单元的影响, 以Metformin药物为例构建实体-实体引文网络(Entity-Entity Citation Network), 通过对比验证了该方法可以有效发现知识实体之间的关联.Song等[22]提出施引文献和被引文献的知识实体之间存在相关关系, 并构建了生物医学文献中基于基因实体的引用共词网络(Gene-Citation- Gene Network), 通过与传统的共词网络(Gene-Gene Network)对比, 发现前者更能揭示知识实体之间的一些隐含关系.李树青[9]利用引文分析思想计算文献的学术价值, 并以此计算文献和引用文献的词语共现对权重值, 完成本体结构中层次概念联系的表达和设计.吴清强等[23]认为高影响因子期刊上或被引次数较高的文献中的词更具有代表性, 根据文献的来源期刊、被引次数等属性赋予关键词不同的权值, 从而构建基于论文属性的加权共词分析模型.葛菲等[24]提出引文分析能较好地反映文献集中存在引用关系的主题, 内容词分析方法反映的是已有文献集中关心的主题, 将二者结合起来在揭示科学结构方面能产生更好的效果. ...

Discovering Implicit Entity Relation with the Gene-Citation-Gene Network

... 近年, 部分学者提出将引文关联关系引入词语共现或实体共现分析中, 提出结果更为有效、思路更为可靠的新方法[9,21].例如, Ding等[21]提出实体计量用来衡量不同层次知识单元的影响, 以Metformin药物为例构建实体-实体引文网络(Entity-Entity Citation Network), 通过对比验证了该方法可以有效发现知识实体之间的关联.Song等[22]提出施引文献和被引文献的知识实体之间存在相关关系, 并构建了生物医学文献中基于基因实体的引用共词网络(Gene-Citation- Gene Network), 通过与传统的共词网络(Gene-Gene Network)对比, 发现前者更能揭示知识实体之间的一些隐含关系.李树青[9]利用引文分析思想计算文献的学术价值, 并以此计算文献和引用文献的词语共现对权重值, 完成本体结构中层次概念联系的表达和设计.吴清强等[23]认为高影响因子期刊上或被引次数较高的文献中的词更具有代表性, 根据文献的来源期刊、被引次数等属性赋予关键词不同的权值, 从而构建基于论文属性的加权共词分析模型.葛菲等[24]提出引文分析能较好地反映文献集中存在引用关系的主题, 内容词分析方法反映的是已有文献集中关心的主题, 将二者结合起来在揭示科学结构方面能产生更好的效果. ...

基于论文属性的加权共词模型探讨

... 近年, 部分学者提出将引文关联关系引入词语共现或实体共现分析中, 提出结果更为有效、思路更为可靠的新方法[9,21].例如, Ding等[21]提出实体计量用来衡量不同层次知识单元的影响, 以Metformin药物为例构建实体-实体引文网络(Entity-Entity Citation Network), 通过对比验证了该方法可以有效发现知识实体之间的关联.Song等[22]提出施引文献和被引文献的知识实体之间存在相关关系, 并构建了生物医学文献中基于基因实体的引用共词网络(Gene-Citation- Gene Network), 通过与传统的共词网络(Gene-Gene Network)对比, 发现前者更能揭示知识实体之间的一些隐含关系.李树青[9]利用引文分析思想计算文献的学术价值, 并以此计算文献和引用文献的词语共现对权重值, 完成本体结构中层次概念联系的表达和设计.吴清强等[23]认为高影响因子期刊上或被引次数较高的文献中的词更具有代表性, 根据文献的来源期刊、被引次数等属性赋予关键词不同的权值, 从而构建基于论文属性的加权共词分析模型.葛菲等[24]提出引文分析能较好地反映文献集中存在引用关系的主题, 内容词分析方法反映的是已有文献集中关心的主题, 将二者结合起来在揭示科学结构方面能产生更好的效果. ...

Research in the Weighted Co-word Analysis Based on the Attributes of Articles

... 近年, 部分学者提出将引文关联关系引入词语共现或实体共现分析中, 提出结果更为有效、思路更为可靠的新方法[9,21].例如, Ding等[21]提出实体计量用来衡量不同层次知识单元的影响, 以Metformin药物为例构建实体-实体引文网络(Entity-Entity Citation Network), 通过对比验证了该方法可以有效发现知识实体之间的关联.Song等[22]提出施引文献和被引文献的知识实体之间存在相关关系, 并构建了生物医学文献中基于基因实体的引用共词网络(Gene-Citation- Gene Network), 通过与传统的共词网络(Gene-Gene Network)对比, 发现前者更能揭示知识实体之间的一些隐含关系.李树青[9]利用引文分析思想计算文献的学术价值, 并以此计算文献和引用文献的词语共现对权重值, 完成本体结构中层次概念联系的表达和设计.吴清强等[23]认为高影响因子期刊上或被引次数较高的文献中的词更具有代表性, 根据文献的来源期刊、被引次数等属性赋予关键词不同的权值, 从而构建基于论文属性的加权共词分析模型.葛菲等[24]提出引文分析能较好地反映文献集中存在引用关系的主题, 内容词分析方法反映的是已有文献集中关心的主题, 将二者结合起来在揭示科学结构方面能产生更好的效果. ...

基于文献计量学的科学结构及其演化的研究方法述评

... 近年, 部分学者提出将引文关联关系引入词语共现或实体共现分析中, 提出结果更为有效、思路更为可靠的新方法[9,21].例如, Ding等[21]提出实体计量用来衡量不同层次知识单元的影响, 以Metformin药物为例构建实体-实体引文网络(Entity-Entity Citation Network), 通过对比验证了该方法可以有效发现知识实体之间的关联.Song等[22]提出施引文献和被引文献的知识实体之间存在相关关系, 并构建了生物医学文献中基于基因实体的引用共词网络(Gene-Citation- Gene Network), 通过与传统的共词网络(Gene-Gene Network)对比, 发现前者更能揭示知识实体之间的一些隐含关系.李树青[9]利用引文分析思想计算文献的学术价值, 并以此计算文献和引用文献的词语共现对权重值, 完成本体结构中层次概念联系的表达和设计.吴清强等[23]认为高影响因子期刊上或被引次数较高的文献中的词更具有代表性, 根据文献的来源期刊、被引次数等属性赋予关键词不同的权值, 从而构建基于论文属性的加权共词分析模型.葛菲等[24]提出引文分析能较好地反映文献集中存在引用关系的主题, 内容词分析方法反映的是已有文献集中关心的主题, 将二者结合起来在揭示科学结构方面能产生更好的效果. ...

Review of Science Structure and Evolution of Bibliometric Methods

... 近年, 部分学者提出将引文关联关系引入词语共现或实体共现分析中, 提出结果更为有效、思路更为可靠的新方法[9,21].例如, Ding等[21]提出实体计量用来衡量不同层次知识单元的影响, 以Metformin药物为例构建实体-实体引文网络(Entity-Entity Citation Network), 通过对比验证了该方法可以有效发现知识实体之间的关联.Song等[22]提出施引文献和被引文献的知识实体之间存在相关关系, 并构建了生物医学文献中基于基因实体的引用共词网络(Gene-Citation- Gene Network), 通过与传统的共词网络(Gene-Gene Network)对比, 发现前者更能揭示知识实体之间的一些隐含关系.李树青[9]利用引文分析思想计算文献的学术价值, 并以此计算文献和引用文献的词语共现对权重值, 完成本体结构中层次概念联系的表达和设计.吴清强等[23]认为高影响因子期刊上或被引次数较高的文献中的词更具有代表性, 根据文献的来源期刊、被引次数等属性赋予关键词不同的权值, 从而构建基于论文属性的加权共词分析模型.葛菲等[24]提出引文分析能较好地反映文献集中存在引用关系的主题, 内容词分析方法反映的是已有文献集中关心的主题, 将二者结合起来在揭示科学结构方面能产生更好的效果. ...

The Anatomy of a Large-Scale Hypertextual Web Search Engine

... PageRank算法是1998年由Brin等[25]提出的一种基于链接分析的网页排序算法, 通过分析网络的链接结构获得网络中网页的重要性排名.基本思想是将所有网页及网页之间的链接视为一个有向图, 节点是网页, 节点重要性由链接该节点的其他节点的重要性和数量决定.由于关键词共现网络与网页链接网络本质相同, 均为有向图, 在关键词共现网络有向图中, 一个节点代表一个关键词, 节点之间的连线代表关键词的共现关系或引用共现关系, 将PageRank算法应用在共词网络中, 可以同时兼顾词汇的质量和数量.因此, 本文将PageRank算法引入到共词网络中用于领域基础词汇的发现, 得到词汇PageRank值的计算如公式(1)所示. ...

Ranking Themes on Co-Word Networks: Exploring the Relationships Among Different Metrics

... 在关键词构成的引用共词网络中, 词汇节点之间的关系强度不是均匀的, 因为同一种词语共现对会在不同引文关系中多次出现, 而被引次数越多的关键词其重要性越高, 因此, 将共现词语对之间的权重考虑进来[26], 构建基于加权的PageRank计算公式如公式(2)所示. ...

领域知识分析中的关键词选择方法研究——一种以学科为背景的全局视角

... 上述分析从定性角度对实验结果进行了探讨, 为进一步对上述方法的实验结果进行量化评估, 本文参考文献[27]设计了一种基于盲选实验的量化评估方法.由于加权和未加权的引用共词网络效果相差不大, 在盲选实验中仅以词频法、共词分析法和未加权的引用共词分析法三种实验结果为对象进行评估.具体评估过程为: 将三种实验得到的领域基础词汇候选集进行混合, 并打乱次序, 得到不重复的87个候选词, 邀请实验者从这些候选词中选出能够表征计算机领域的基础词汇.受邀者为从事计算机领域相关研究且具备多年研究经验的科研人员, 共计三人. ...

A Keyword Selection Method Based on the Combination of Popularity and Domain Relevancy of Keywords: A Holistic Perspective

... 上述分析从定性角度对实验结果进行了探讨, 为进一步对上述方法的实验结果进行量化评估, 本文参考文献[27]设计了一种基于盲选实验的量化评估方法.由于加权和未加权的引用共词网络效果相差不大, 在盲选实验中仅以词频法、共词分析法和未加权的引用共词分析法三种实验结果为对象进行评估.具体评估过程为: 将三种实验得到的领域基础词汇候选集进行混合, 并打乱次序, 得到不重复的87个候选词, 邀请实验者从这些候选词中选出能够表征计算机领域的基础词汇.受邀者为从事计算机领域相关研究且具备多年研究经验的科研人员, 共计三人. ...



上一篇:英语四级必备词汇带音标:F字母开头

下一篇:引用的单词_引用引用引用引用_引用引用引用引用帅哥