大数据环境下,舆情研究方法如何迭代?

王荣

2020年08月18日08:26  来源:网络传播杂志
 
原标题:大数据环境下,舆情研究方法如何迭代?

编者按 传统舆情是基于简单信息的搜集整理工作。但数字时代数据量巨大、冗余信息繁杂。在信息和数据形式不断更新的情况下,舆情研究方法同样需要迭代。当下,舆情研究方法存在哪些问题?复杂的数据环境对研究方法又提出了哪些新要求?一起来看。

现有研究方法存在哪些问题?

“大数据”已俨然成为时代热词,社会学家说它是一座蕴含了大量信息的富矿,统计学家却认为庞杂的结构为数据分析带来了巨大的挑战,从中提取有用信息犹如大海捞针。

相比于传统数据类型,大数据的分析难度不言而喻。

如何用好这些数据,高效提取有价值的信息,是在数据丰富的今天需要探讨的话题。

大数据舆情分析面临着数据量大、维度多样、结构复杂等问题。研究对象也从受众个体发展到了受众之间、传受之间的复杂网络关系,甚至杂糅了时间、空间维度等场景化信息。但现有的研究仍以数量统计和词频分析为主,难以深入挖掘大数据的潜在价值。

不同维度的数据都需要专业的分析方法,继而革新了舆情研究的思维方式。基于丰富的舆情分析理论和经验,科学研究方法才能使舆情研究如虎添翼。

科学分析大数据有助于研究者打开视野,从更开阔的角度切入研究。根据不同研究意图搭建复杂模型检验,深入因果推论,可以实现舆情研究的数据化、动态化,也可以加强趋势研判的延展性、科学性。

采用科学的研究方法、纳入大数据模型,也是互联网环境下舆情研究的发展趋势,为更加全面立体地掌握舆情动态奠定了科学基础。

科学研究方法的3大“用武之地”

笔者结合日常实践,梳理了科学舆情研究方法在大数据层面的具体运用。

1、基础统计分析方法:掌握舆情全貌

基础统计分析方法是掌握舆情全貌的重要基础。

舆情发展是一个分阶段的动态过程,通过对数据所包含的维度进行基础统计计算,能够获得横向切面和纵向发展的双向描述,进而掌握舆情全貌。

一是横向比较横截面数据,描绘当下舆论情况。

例如,在国际传播研究中,首先要了解国际舆情。通过统计给定时间内的舆情数量规模、情感倾向、话题细分等数据,能够快速勾勒基本轮廓,便于研究者了解某一时段的静态舆情特征。

二是纵向对比时间序列数据,动态追踪舆情态势。

为深入研究国际舆情,还需长期追踪基础统计量。持续累积同口径数据列,便能回溯其发展趋势,并通过时间序列模型预测舆情发展态势。

2、传统量化研究方法:推动舆情研判

传统量化研究方法是推动舆情研判的重要保障。

舆情研判是指通过特定方法对舆情信息的特性、态势、走向进行研究判断的专业工作。大数据舆情研判需要借力传统量化研究方法,采用相关分析探索不同变量间相互作用的关系,采用回归分析探索变量间的依赖关系,并预测变量的发展趋势。

一方面,将相关分析用于舆情研究,适用于分辨看似无关的信息间潜在的相互关联,能够从庞杂的数据中发掘足以影响全局的非确定关系,从而确定如何在复杂环境中精准研判舆情态势。

2018年6月23日,泰国一支青少年足球队被困洞穴,7月10日获救。该事件引发全球媒体和公众广泛持续的关注。笔者在分析该事件时发现,传统媒体报道和社交平台热议话题间存在相关关系,两个舆论场相互影响的复杂渐变关系还原了舆论触发和影响机制。

另一方面,回归分析应用到舆情分析领域,能够探究相关变量间的因果关系及发展走势,寻找舆情演变规律模型。通过建模分析,不仅可以判断不同议题、国家、媒体间的关系,还能进一步探究相关舆论的未来走势。

例如,以各国媒体就新冠肺炎疫情的报道为素材建模,能够从宏观角度把握国际舆论,并直观展现各国媒体新闻叙事的关系,探明媒体报道与国际舆论的相互影响,找到国际舆情的演变路径。

3、量化文本分析方法:深度挖掘舆情

量化文本分析方法是深度挖掘舆情的重要助力。

大数据背后隐藏着肉眼难以识别的深层信息,尤其是在面对大量文本数据时,难以靠传统分析方法直接获得全面信息。

以往针对文本的分析方法分析周期长、研究耗时长、人工工作量大,难以适应舆情研究求快求全的现实要求。因此便需借力量化文本分析方法,集中处理数十万乃至数千万量级的文本内容。

笔者在实践中总结了适用于舆情研究的部分量化文本分析方法:

LDA主题模型算法

LDA(Latent Dirichlet Allocation)是统计学中常用的一种降维分析方法,即降低复杂的文本数据包含的维度。通过运算归类,具有相同特性的文本被识别为一组,进而实现文本主题的机器分类。这一算法常用来提取子话题。

这种方法能够大大缩短文本处理时间,通过计算实现文本内容归类,提高舆情子话题提取效率。

文本位置估计模型

文本位置估计模型是政治学领域的成熟算法,旨在通过计算文本中包含的政治学词汇特征,判断文本的左右派倾向。舆情研究可以借用该算法原理,通过计算词频、词距、词语间共现关系等信息,计算特定文本的相对位置,判断研究对象的态度倾向差异。

例如,以此分析中美关系舆情,可以直观看到中美受众的不同立场表达,并根据文本位置距离判断未来发展趋势。

基于社会网络分析方法的词语共现关系分析

如前文所述,文本之中也隐藏着复杂的词语网络。探询文本的共现网络,是还原语境的重要路径。

前文的分析方法多将文本分裂为词组,计算使用的矩阵也常常忽略了语句连接在一起的整体含义。采用社会网络分析方法,可以描绘出词语间的距离与联系,可以在一定程度上探索其出现的语境,还原断裂的文本。

数据舆情时代,研究方法的3大变迁

把握舆论脉搏,洞悉舆情走向,是信息化社会了解民意的重要因素。数据与舆情结合的产物——数据舆情也已应时代要求而生,亟待从业人员理论结合实践,吸纳科学分析方法,提升数据处理和舆情研判能力。

1、加强数据挖掘能力

数据是所有分析的原材料,没有数据再精巧的方法也难为无米之炊。

数据舆情行业研究,需要以数据积累为目的长期挖掘和存储,注重日常数据的挖掘和积累,不断拓展数据边缘。搭建庞大的数据仓库,提升数据使用效率,是发展数据舆情的首要条件。

2、提升数据分析能力

在掌握了大量数据之后,分析能力便成为了挖掘舆情的主要难题。

在舆情研究领域,数据分析能力具体体现为科学研究方法的掌握和使用能力。为进一步提高舆情分析的效率和质量,强化量化研判与舆情工作的深度融合,提升数据分析能力,是发展数据舆情的必要条件。

3、强化数据合作共享

数据是取之不尽的可再生资源,研究者根据日常工作的专长和角度不同,掌握的数据形式大为不同。

因此,强化以行业实践为基础的合作机制,是推动数据舆情化和舆情数据化的大势所趋。

(本文作者系中国日报社国际传播研究室数据分析师)

 

(责编:袁勃、李娅琦)