品书网
返回上一页

近年来大数据技术前沿与热点研究<br/>——基于2015—2021年VOSviewer相关文献的高频术语可视

时间:2023-04-12 07:28:01

孙晨霞 施羽暇

(1. 北京印刷学院新闻与出版学院,北京 102600; 2.中国信息通信研究院政策与经济研究所数字经济研究部,北京 100191)

引言

大数据这一科技术语并不是近几年才出现的。2008年9月,Nature杂志推出Bigdata:ThenextGoogle专刊,讨论大数据技术用于处理未来可能会遇到的问题,其中便首次使用了“大数据”的说法[1]。而首次提出大数据的定义是在2011年,麦肯锡全球研究院 ( MGI) 在其发布的《大数据: 创新、竞争和生产力的下一个前沿领域》 (Bigdata,Thenextfrontierforinnovation,competition,andproductivity)研究报告中清晰表述:大数据是指其大小超出了常规数据库工具获取、储存、管理和分析能力的数据集[2]。

随着信息和通信技术的发展,大数据不再只是一个概念,而是逐渐融入人们生产和生活的方方面面,社会呈现出万物互联的趋势。大数据技术的繁荣与各个国家的政策和经济投入密切相关。2020年3月,数据首次被纳入生产要素范围,成为继土地、劳动力、资本和技术之外的第五大生产要素[3]。数字技术发展到今天,计算机算法越来越复杂、稳定和科学,数据的产生、传输和处理的方式也发生了翻天覆地的变化,深刻地影响着人们的生活方式。大数据的基础技术是基于云计算对数据进行存储、管理、挖掘和分析,核心技术包括数据采集、机器学习、数据预处理、数据库等。大数据技术意味着数字化进程的新阶段,驱动人类社会发展,推动社会生产格局的调整。《2021年IDC全球大数据支出指南V1》(IDCWorldwideBigDataandAnalyticsSpendingGuide, 2021V1)[4]中,对全球大数据市场的未来发展做出推断,称到2025年IT投资规模将得到巨幅增长,数额将超过3500亿美元,其复合增长率(CAGR)也将达到12.8%左右。IDC中国新兴科技研究组分析师王丽萌认为,随着互联网经济的升级和加速发展,政府、企业等终端用户正在广泛开展数字化转型,完善数据全生命周期管理,运用大数据分析和解决方案提升管理决策水平、改善内外部用户体验、支持创新应用,中国大数据市场支出将在五年内稳定增长。政府、企业对大数据技术投之以更多的关注。

信息和数据规模增长,人们的思维方式也受到大数据技术的影响发生改变,学界也涌现出大量大数据领域的相关研究。随着国内外研究深度和广度的不断延伸,形成了复杂的研究网络,这些庞杂的文献数据信息亟须梳理和总结。知识图谱法和文献计量分析方法中的共词共现法是分析学术领域研究态势的基本方法,科技术语和高被引论文可以在一定程度上代表学科领域的研究内容,显示出该学科领域的学者对某一方向的重视程度和研究倾向。因此,本文以VOSviewer可视化软件为工具,以Web of Science核心合集检索到的大数据领域的高被引论文为数据源,构建关于大数据领域的科技术语知识图谱,然后对该领域的前沿和热点进行挖掘、分析和解读。

1 数据准备

1.1 数据收集

研究数据来源于2015—2021年Web of Science核心合集中大数据领域的文献,通过主题字段检索,检索标题、摘要、作者关键词和Keywords Plus,以“big data technology”作为主题词,截止到2022年4月9日,共检索出8944篇文献,为了使数据分析的结果更有意义,对这些文献进行清洗,过滤掉信函、会议摘要、综述论文、被撤回论文等无效文献,最终以7169篇文献为样本。然后根据被引频次从高到低进行排序,选取出前1000篇高被引论文。最后将这些文献数据信息以纯文本文件的格式导出,作为本文的数据源。

1.2 研究方法

主要采用文献计量分析方法和知识图谱法,以Web of Science核心合集中的论文为研究对象,以大数据技术为主要研究领域,时间跨度为2015—2021年,借助科学知识图谱软件VOSviewer对从Web of Science导出的文献数据信息进行Author keywords和Keywords plus共现可视化,从而确定大数据技术的研究热点,构建关键词共现矩阵,并通过呈现出的聚类谱系图、标签视图、密度视图进行聚类分析,以便直观和动态地揭示大数据技术的知识结构和演化路径,从而实现对2015—2021年大数据技术文献的前沿和热点研究。

1.3 数据预处理

将1000篇高被引论文作为源数据导入VOSviewer软件,共析出5130个关键词,关键词的选取规则为:共现次数达到5次及以上,共得到252个关键词。但是软件自动合并出的结果中存在一些未达到共现分析要求的无效关键词以及重复关键词,需要进行手动筛选。在新建txt文档中加入如下关键词处理规则:(1)去除语义过于笼统、意义过于宽泛以及无意义的词,如big data、things和0等;(2)统一单词单复数,如network与networks,model与models;(3)合并同义词,如:network与Internet,industry 4与industry 4.0。最终得到174个符合共现要求的关键词。

2 大数据领域论文计量分析

2.1 年度发文数量分析

Web of Science 核心合集2015—2021年共发表了23 540篇大数据相关论文,图1是2015—2021年该领域所发表的相关研究的逐年趋势。可以看出,近几年大数据相关研究文献的发表数量呈现出逐年稳定上升的趋势,学界对大数据技术的研究在7年间从每年331篇上升到2075篇。

图1 2015—2021年大数据相关研究论文逐年分布

大数据相关研究论文近年来的持续增长,究其原因,主要在于大数据技术进入各行各业,从而导致全社会出现了对大数据技术的应用需求。从国家层面讲,大数据技术已经成为国家建设数字强国的强大驱动力;从企业层面而言,大数据技术在生产、传播和反馈信息方面具有突出作用;在科研领域,大量学科领域均有基于大数据技术的应用研究。除此之外,也离不开人们对数据本身的采集、管理、处理、分析等技术需求。社会生产活动需要用到大数据技术以及大数据的思维方式,因此,对大数据技术的需求与日俱增。大数据技术产生自数据库,集大成于分布式系统,现在又重新落地于数据库系统。近年来,人们不断追求和改进现有的技术,推动了对大数据技术的研究。如今新型分布式关系数据库技术和以分布式计算为特征的云计算技术将我们带入人工智能和信息化社会,大数据技术的相关研究仍在继续,在大数据领域相关研究文献数量逐年上升的大趋势和分布式计算的技术背景下,未来几年对数据库和云计算的研究将持续增长。

2.2 高被引论文分析

高被引论文之所以被多次引用,一方面在于其研究具有一定的代表性,学者们普遍认可论文成果在学术领域的贡献;另一方面也和论文关注的领域发展较快有关。因此,高被引论文可以在很大程度

提醒您:因为《近年来大数据技术前沿与热点研究<br/>——基于2015—2021年VOSviewer相关文献的高频术语可视》一文较长还有下一页,点击下面数字可以进行阅读!

《近年来大数据技术前沿与热点研究<br/>——基于2015—2021年VOSviewer相关文献的高频术语可视》在线阅读地址:近年来大数据技术前沿与热点研究<br/>——基于2015—2021年VOSviewer相关文献的高频术语可视

123
经典故事
工作的“种子”
丢掉的工作
局长的包
不是告状,胜似告状
被丢弃的财富
玩细菌,赚财富
倒霉时刻
实习考试
老板心太软
骑单车的老板
热门书籍