基于大数据的重大突发公共卫生事件网络舆情预测

黄如花 洪亮 黄雨婷

2020年03月13日08:30  来源:人民网-舆情频道
 

舆情应对是重大突发公共卫生应急管理中的重要问题。自2019年底新型冠状病毒肺炎爆发以来,互联网成为这次疫情最大的信息源,网上关于疫情的各种信息真伪混杂、谣言和未经证实的信息的产生与传播引发一波又一波舆情,严重扰乱疫情防控,网络由此被称为此次战“疫”的“第二战场”。因此,亟待对网络舆情进行有效预测,从源头上预防和降低舆情风险、有效防范舆情事件发生及蔓延,为疫情防控营造有利的舆论场。

大数据作为国家基础性战略资源,与人工智能、云计算等数字技术的综合运用,能够精准地助力网络舆情的预测、引导和智能管控,推动决策的科学化,提升重大突发公共卫生事件应急管理能力。充分发挥大数据在重大突发公共卫生事件网络舆情应对中的重要作用,需要做好以下三个方面的工作。

一、舆情数据的采集

首先,需要确定数据的来源渠道。最简单易行的方法是借助于新浪舆情通、众云大数据平台等舆情监测平台,但这些平台数据的实时性取决于其爬取网页的速度。为获取覆盖面更广、更新更为及时的数据,则需要考虑多个媒体平台。中国互联网络信息中心的调查表明,个人即时通信工具中,微信和QQ的用户占比分别高达92.6%和87%,是中国网民使用最多的社交工具,但其中聊天等数据的爬取涉及公民隐私权保护等问题。新浪微博是我国具有代表性的自媒体平台,其使用率达37.1%,被视为舆情监测首选的数据来源。此外,百度贴吧、豆瓣、知乎、天涯社区等社交应用分别占有34.4%、8.1%、7.6%、7.0%的市场份额,为使数据采集更加全面,可以同时从上述更多元化的平台获取数据。另据艾瑞数据研究报告,以抖音和快手等为代表的短视频行业市场规模将进一步扩大,预计2020年短视频市场的同比增长率将达70.9%;视频类媒体的数据采集在视频的解析方面有更高的技术要求,其版权侵权的风险也更大,不同形式的舆情数据采集都可能涉及版权问题,视频成为作品的可能性更大,故侵犯著作权的风险也更大。

其次,选择数据采集的方式。在法律允许的范围内,可以选择目前广泛使用的八爪鱼等爬虫软件;也可以编写网络爬虫、爬取网页资源;或者通过网站提供的数据API接口获得有价值的数据。

最后,清洗数据。为确保数据质量,对于从上述不同渠道采集而来的数据,需要通过观察数据的规律,设定清洗规则、进行数据清洗。

二、舆情数据的提取与结构化处理

为了自动化处理和分析舆情大数据,实时地对舆情进行研判和预测,需要对舆情数据进行提取和结构化处理。

(一)多维揭示数据

在数据特征的提取中,主要考虑的维度有:用户特征、时间特征、空间特征和内容特征。不同人群对同一事件的看法和反应,及其参与讨论所造成的后果呈现出不同特征,有必要提取其性别、年龄、受教育水平、职业、行业等用户特征数据。在时间特征方面,舆情事件生命周期一般分为潜伏期、形成期、波动期、消退期等必经阶段,提取事件生命周期有利于精准地预测舆情所处的发展阶段。某一主题在一天中不同时间段内所受的关注程度也是网络舆情分析的常见要素。关于疫情的舆情和地理空间紧密相关,可以通过舆情的地理分布规律,预测舆情在不同地理区域的分布和某一地理空间的历时变化。内容特征的揭示在这个环节占据重要比重,包括文本主题、文本结构、事件关键字等内容,也包括文本的情感倾向因素。

(二)采用多种相关技术

由于舆情数据的多元化与海量化,传统的对网页信息的人工提取、标引、分类耗费的时间成本高、速度慢、且不可避免地带有主观倾向,不能有效满足快速预测舆情的需要,有必要借助于自动化的分类标引方法、潜在语义标引技术、开放关联数据等技术,如利用自然语言处理与信息检索共享平台(NLPIR)和语言技术平台(LTP)等具备高效和高精度的词法、句法和语义分析与标引功能的开放中文自然语言处理系统,甚至进一步运用词频、逆文档指数(TF-IDF)和隐狄利克雷分配模型(LDA)算法对热点主题进行统计和甄别。

(三)遵循相关的标准

舆情数据的分类、标引质量直接影响到后续的舆情数据分析工作,建议在数据处理工作中遵循一定的质量标准与活动原则。信息资源的分类与标引是图书情报学的核心研究领域,其理论与方法值得借鉴于舆情数据处理中,如分类学要求对信息资源的分类标引工作遵循“准确、一致、适度、实用”的质量标准,即主题分析准确、归类一致、标引深度适中、有针对性。对舆情数据文本主题和事件关键字的内容揭示,可以使用《汉语主题词表》或者《医学主题词表》(MeSH)对舆情主题、关键词进行标引以提高标引的准确度;用资源描述框架(RDF)、网络本体语言(OWL)、统一资源定位符(URL)等关联数据技术存储、发布舆情数据,为其赋予语义以建立与其他数据开放平台的互联互通。对舆情数据的时间特征描述可以采用国际化标准组织(ISO)用于表示日期和时间的国际标准(ISO 8601)或万维网联盟制定的《时间和日期编码规则》(W3CDTF)。对舆情数据空间特征的名称描述可用《Getty地理名称叙词表》、代码可用国际标准组织(ISO)的国家和地区代码国际标准(ISO 3166)。这些标准的应用有助于提升舆情数据分析的效率,增强大规模舆情知识库和舆情查询分析系统的互操作性。

三、舆情数据的分析

舆情数据的分析旨在从海量多源数据中迅速地识别关键信息,厘清民众的主要观点和情绪、揭示舆情事件的事实和趋势,帮助相关部门做出正确的研判和及时应对。

舆情数据分析可从舆情的参与人群、传播路径、情感倾向,以及影响力等角度出发。参与舆情讨论人群的社会角色、利益诉求、认知水平等方面的差异将引导舆情向不同的方向发展,需要利用用户特征数据,通过标签提取和聚合分析等方法构建语义化、标准化的用户画像模型,并进一步分析舆情参与者的群体特征。传播路径分析通过挖掘不同主题舆情的传播路径与舆情平台的关联规则,揭示主题与舆情平台的关联模式,进而发现不同舆情平台的主题倾向性。舆论情感分析则暗示着舆论文本中携带的情感倾向,如在新型冠状病毒肺炎疫情防控中,面对疫情爆发、救援物资紧缺,舆论普遍带有焦虑、不安、恐惧、怀疑等负面情绪;在抗“疫”工作取得进展时,舆论情感倾向则明显转向积极、乐观。

舆情影响力分析是舆情数据分析的重点。有助于识别近期受关注的热点话题、地区和人群关注度,研判与疫情消息、救援进展、政府应对等方面的舆情事件的热点。从空间上来看,舆情影响力可以是单平台的、局限于部分群体的;而在重大突发公共卫生事件中,更有可能具有跨平台、波及全民的特性;从时间上看,在舆情生命周期的不同阶段,舆论影响力程度也存在差别;应从舆情影响力入手,借助图悦等词频分析工具精准定位舆论热点事件、热点区域,展示舆情词云。为了更好地展示数据分析结果,不妨借助百度ECharts、数据观、微博足迹可视化等数据可视化工具,以便直观地观察舆情演化与发展态势;通过回溯舆情传播的信息链、时间链和发展链、确定关键节点,最终锁定舆情生成源头,进一步利用清博舆情系统等舆情分析工具,能够更加全面、多维地挖掘舆情数据,进行科学评估、判断和重大预警。

人工智能相关技术的发展为智能分析舆情数据带来了可能。首先,对结构化的舆情数据进一步语义化,建立用户画像、舆情主题、舆情事件等要素之间的知识关联;然后,经过知识融合、知识加工和质量评估,自动化地构建大规模舆情知识库,使用gStore等图数据库管理系统对知识图谱进行存储和管理,并在此基础上建立基于大规模知识库的舆情查询分析系统,具备语义检索、智能问答、交互分析、知识推理等功能;利用特征抽取技术发现影响舆情事件的重要因素,如主题关注度、情感倾向等,建立舆情预警模型;最后,基于舆情查询分析系统实现舆情事件的智能分析和预警,当模型综合各个特征的计算结果超出阈值,则触发预警,从而支持重大突发公共卫生事件的应急管理和决策。

(作者:黄如花为武汉大学信息管理学院副院长、教授;洪亮,武汉大学信息管理学院副教授;黄雨婷,武汉大学信息管理学院研究生) 

(责编:邱越、袁勃)