李伟:舆情事件等级评估及基于语义理解实现文本精细化分类

2020年07月22日16:16  来源:人民网-舆情频道
 

7月17日,由人民网舆情数据中心/人民在线主办的第二届“人民云社会评价科技大会”在线上顺利举行,主题为“重大风险评估体系建设”。与会的数据建模、计算机技术应用、舆情领域专家学者就如何有效地利用新技术完善重大风险评估体系建设进行了分享和探讨。人民网舆情数据中心主任数据分析师李伟分享的主题是:舆情事件等级评估及基于语义理解实现文本精细化分类。

舆情事件等级评估

舆情事件等级评估,李伟从四个方面进行了阐释:一是当前舆情行业等级评估主要方法以及存在问题。当前行业内使用的指标主要是热度值。虽然搜索的热度值或报道的数量能反映一个事件社会关注度,但却存在着指标单一、数据不全、无法针对用户特点提供个性化服务等问题。因此评估舆情事件严重程度需要有能容纳原有方法,但更全面、多维、面向用户个性化需求的模型来实现。

二是舆情事件等级综合评估模型设计的原则,这涉及到两个方面。一是要考虑到模型里面有哪些变量,二是建立模型应该遵循的原则。变量因素主要有三点考量,第一点要考虑利益相关方,第二点要考虑其面向的用户,第三点是事件的严重程度,以这样的思路构造模型结构。利用机器学习理念,通过训练得到模型参数,这也是本研究创新之处。当然,不是通过梯度下降等等典型反向传播方法由机器自动实现,而是人工按照一定规则调试。构建模型时,需要考虑其健壮性和鲁棒性,同时,一定要充分利用舆情专家的经验。

李伟结合案例,从目的和数据两个方面对舆情事件等级评估进行了阐释。他提出在目的方面要遵循输入简单、契合用户行业特点、逻辑简单明了、基本符合直觉、客观科学的要求。而数据主要依靠系统的自动采集、用户简单查询,辅以用户少量主观判断。评分模型结构包括评分和评级两个部分共三个环节。见图 1 利用模型对舆情事件评价过程:

图 1 利用模型对舆情事件评价过程

对于评分模型,李伟依据这一公式进行考量:

舆情事件原始得分 =(传播热度+影响因子)* 用户相关系数 * 事件严重程度

其中传播热度是基础、基本面,影响因子是局部叠加的,用户相关系数和事件严重程度二者是全局性影响因素。在模型中,即使没有任何痕迹事件(因某些原因网上没有任何报道),在百分制传播热度中也能有基础的60分,这种设计保证了模型健壮性。李伟还强调,事件中敏感因子得分总量不超过13分,这样既没有影响事件基本面特征,又能反应事件客体起的局部叠加影响作用,让模型不会因为一些变量数值小变动而对结果产生很大影响,保障了模型鲁棒性。

三是对一个政府部门用户进行了实例化分析。请人民网舆情专家就36个舆情事件(类别基本平衡)进行了评级,充分利用了专家知识,通过这些打了标记样本训练参数。把不同类别案例得分区间理想状态下没有交叉,(如“一般”类别的最高分要 < 临近的“敏感”类型的最低分),而且各类别得分间隔要大致相等作为损失函数,得到的多分类模型具有相当不错准确性。当前使用这个监督学习方法是可行的。

最后李伟针对当前模型提出了一些存在问题和改进方法。首先,当前样本量还不够,需要专家评分标记;其次,对于不同的等级事件,如遇分值交叉情况,阈值该如何确定。针对这两个问题,李伟提出,第一要扩大样本,并把未用于训练的一些专家评分样本作为“验证集”使用。通过此方法来迭代,让参数更合理。第二要扩大采集对象。当前热度值采集对象只是关于某个事件关键词报道的文章、网页,后续采集可以把文章本身的点赞、转发等都加上去。第三要为不同等级事件评分的交叉部分以及阈值的确定方法考虑更详细规则。

基于知识图谱和NLP的文本精细化分类

李伟首先阐述了知识图谱和NLP的文本精细化分类的现实需求。在当前的文本分类,一般是结合上下文的情况进行分类,在语句层面以及“词”的层面理解都不够到位。因此需要进一步基于知识图谱,利用NLP技术消除词的歧义,对文本进行语义识别实现精细化分类,从词和语句两个层面来解决问题。李伟对NLP和知识图谱也做出了简单介绍。NLP就是让人类和机器之间可以无障碍通信,让计算机能没有困难地理解人类自然语言。人类对自然语言处理的研究主要包括以下方面:对语句中词进行词性标注、句法分析、自然语言生成、文本分类问题、海量信息检索、重要信息抽取、自动朗读文本、人机之间问答系统、机器翻译和提取文章摘要等等。要满足以上应用,语义分析成为自然语言处理技术的几个核心任务之一。知识图谱是结构化语义知识库,用于以符号形式描述物理世界中概念及其相互关系。其基本组成单位是“实体-关系-实体”或“实体-属性-属性值”三元组,实体间通过关系相互联结,构成网状知识结构。知识图谱包含三层含义:1)知识图谱本质是一个具有属性实体(E)通过关系(R)链接而成的网状知识库(S)。2)从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边。3)知识图谱是对物理世界的一种符号表达。知识图谱由数据层 (data layer) 和模式层 (schema layer)两部分构成,大多只有数据层,除非要进行知识推理时候才需要模式层。

知识图谱有人工构建和机器自动构建两种方式。见图 2 知识图谱自动构建方法:

图 2 知识图谱自动构建方法

对于句子级的语义分析,李伟表示主要是通过语义标注来了解句子含义。语义标注首先需要处理最小对象——知识元,也就是词,需要先了解知识元含义,然后明确知识元联结方式,二者共同构成句子含义,从而实现句子级语义理解。知识元/词含义需要有两个方面工作:分词和消除歧义,知识元联结方式包括词与词之间关系,还有词与词之间的组合方法。见 图 3 知识图谱应用于句子级语义理解:

图 3 知识图谱应用于句子级语义理解

优化词嵌入算法,引入知识图谱,实现分类优化,见图 4 分词有序嵌入到词向量空间中。李伟提出四个方面:一是分词有序进入到词向量空间中,要把自然语言转化到机器语言,这时机器才能对自然语言进行一个理解;二是关键词的提取,运用了TextRank算法;三是利用知识图谱实体对齐方法,消除分词歧义,将基于属性相似性评分匹配问题转化为分类问题;四是利用基于共同邻居计数方法的结构相似性函数分辨词义远近。

图 4 分词有序嵌入到词向量空间中

基于句子级语义理解,知识图谱NLP精细化理解文本的方法,李伟提出首先要基于句子级语义分析,结合知识图谱,精确爬取文本。其次要引入知识图谱进行第二次文本分类,这也是本研究创新点。句子级语义分析首先要提取出关键词,并找到其对应领域知识图谱,进行第二次的分类匹配。在第二次细分文本的过程中,首先对文章进行摘要,并定位关键词段落,每一个关键词找到5个三元组,从而建设好知识图谱。

运用知识图谱进行二次文本分类即对上述过程进行更具体地细化。首先对文本进行分词,找到含有歧义的段落,嵌入词向量空间,通过LSTM进行文本摘要,得到三个以上关键词。通过构建图谱抽取5个三元组,在与对应领域匹配比对,从而实现文本的第二次分类。见图 5 引入知识图谱实现第二次文本精细化分类:

图 5 引入知识图谱实现第二次文本精细化分类

在测试结果及改进问题上,李伟与技术专家共同研讨后发现,通过自动构建的知识图谱与文本中的三元组匹配,相似度没有想象中的那么高。其误差原因可能在于运用通用型语言构建图谱,缺乏针对性。因此需要有更专业的素材来创建领域知识图谱。最后李伟总结,将知识图谱结合NLP方法是一条可行的路径,这个方法在很多其他课题中也同样适用。

(责编:袁勃、李娅琦)