亚虎yahu999
教学和师资
当前位置: 首页 > 教学和师资 > 教师观点 > 正文

郭崇慧教授:用大数据解读政府工作报告

发布者:   时间:2019-04-03


DA15


郭崇慧教授:用大数据解读政府工作报告

——新词、热词描绘中国热点变化与社会活力图谱


每年全国两会的国务院政府工作报告都成为各界人士关注的焦点,2019年两会落幕,对政府工作报道的关键词梳理又集中出现,如税收、环保、精准脱贫、互联网+农业、农村公路等等。

作为具有施政纲领性质的综合政策性文本,国务院政府工作报告具有极其重要的指引意义。而各界分析人士对政府工作报告的解读有所侧重,历年国务院政府工作报告内容篇幅较长,采用人工阅读方式把握其整体动态演化情况,是一项极耗时的工作,因此如何高效智能地理解政府工作报告、提取相关重要内容,成为相关学术研究重点。

近五年该方面研究进入到了空前的繁荣阶段,但如何有效地挖掘历年政府工作报告研讨的共性问题?如何挖掘热点问题及变化规律、度量历年社会活力变化?亚虎yahu999郭崇慧教授团队进行的《国务院政府工作报告(1954 —2017)文本挖掘及社会变迁研究》,给出了一个有效、科学的操作方式。


频繁词、热词、新词勾勒发展历程

我国首份国务院政府工作报告产生于1954年,由于一些历史原因,1961~1963年、1965~1974年以及1976~1977年间政府工作会议无法正常举行,导致这些年间的国务院政府工作报告缺失。直到1978年以后,国务院政府工作报告才进入正常化,每年都如期举行。

截至2017年,国务院政府工作报告共49份,总自然段落数约0.52万,总字数达104万。

该篇研究中,对国务院政府工作报告以频繁词、热词以及新词的划分,进行了专项定量分析。

在关于政府工作报告的媒体报道中,社会通常以频繁词与关键词来进行分析研究,而在郭崇慧教授团队的该项研究中,频繁词、热词及新词,三种词具有特定的含义与功能。

研究结果表明,抽取出的频繁词、热词以及新词能够反映出工作报告中探讨的共性问题、热点问题及其演化规律以及历年社会活力波动情况;根据特征词时间序列聚类结果和整个时间阶段合理的划分结果,发现了历年来国务院工作报告中存在的9种特征词时间序列模式和12类主题。“经济改革”是拥有特征词数量最多的主题,占据了前1000个特征词的23.13%。相对较大的主题如“农业”、“国内外环境与外交政策”以及“政府建设”,其特征词个数所占比例分别为15.31%、12.5%和9.79%。相对较小主题如“人口、资源与环境”、“文化、卫生和体育”、“对外贸易”、“国防军事”、 “人力资源与社会保障”、 “港澳台”、 “科学技术”以及“教育”,其特征词个数所占比例分别为7.5%、6.67%、5.31%、5.1%、4.06%、3.96%、3.85%和2.81%。各个主题下的特征词个数所占比重如下图所示。


9EA6


频繁词:“发展”始终是第一要务

频繁词就是单纯指报告中出现次数最多的词吗?这么定义显然是不科学的,语料库中文档篇幅长短分布不均匀都会影响频繁词。因此本研究利用四种特征词筛选方法的组合对语料库频繁词进行抽取,综合得到所研究时间段内的高频繁词。

研究结果显示,高频繁词能够反映出政府持续关注的一些共性问题。根据与频繁词筛选相关的四个指标,分别计算并统计出整个时间段内语料库中四个指标取值排名前 30 位的(可以根据特定需求进行改变)特征词。

根据四个指标共同包含的排名前 30 位的特征词,可以考察历年国务院工作报告中重点关注的共性问题。四个指标中全部包含的特征词,即发展、改革、农村、农民、农业、就业、国民经济;其次有三个指标包含的特征词,即经济建设、金融、劳动、监督、计划生育、和平、国有企业、国防、对外开放、出口以及安全等。

从频繁词的筛选结果可以看出,“发展”始终是我们党执政兴国的第一要务,“国民经济”的提高是国家坚持不懈奋斗的重要目标,同时发展过程中离不开有效的“改革”,整个过程中,“三农”、“就业”是国家重点关注的问题。


热词:反映历年社会关注热点演化

许多应用性研究文献把热词作为研究对象,而在其热词的选择过程中大多直接根据自己的研究兴趣和社会背景而直接给定,缺乏一些定量的选择方法。

热词,即若某词在某年文档中使用频率较高,而在其它时间文档中使用频率较小,则可称该词为该年文档的热词。热词不同于文本中的频繁词,热词是某一段时间内频繁出现的词;某年的热词很可能是该年的频繁词,而不一定是其它年份的频繁词。热词能够在一定程度上反应出当年关注的并异于其它时间年份的热点、焦点和重点话题。

依据热词权重的计算方法,可以得到每年国务院政府工作报告中关注的热点词汇,通过对热点词汇的分析,能够大概了解到当年关注的热点问题,进一步能够进行历年社会关注热点演化分析。

从年度工作报告中排名靠前的30个热词,可以得出每年国务院政府工作报告中主要讨论的热点。1959年主要讨论热点集中于五年计划、大跃进、整风运动以及西藏局势等。 1984年主要热点集中于世界各国军备竞赛和开放经济特区及港口城市等。 1999年主要讨论热点集中于亚洲金融危机、下岗、洪涝灾害、国有企业改革及祖国和平统一等。2004年讨论热点集中于抗击非典胜利、就业和社会保障以及新型农村建设等。2017年主要集中于产能、“一带一路”、经济改革、民生以及生态保护等。



新词:反应当年所关注的重要问题

新词是随着时代的发展而新出现或旧词新用的词,基于此标准,并根据国务院政府工作报告文本语言的特性,本研究对新词进行了扩展性的重新定义。

根据新词的定义,新词除了具备新颖性和传承性之外,该词还是文档中重要的并有区分性的词,所以在进行新词筛选的时候,需要综合考虑此三方面的因素。

从研究结果中可以直观地看出历年国务院政府工作报告中出现的较为重要的新词,如1959年的“人民公社”、“大跃进”、“西藏地方政府”等,1984年的“核裁军”、“军备竞赛”、“利改税”等,1999年的“扩大内需”、“澳门特别行政区”、“扩大财政赤字”等,2004年的“区域协调发展”、“新型农村”、“科学发展观”等,以及2017年的“全面从严治党”、“三去一降一补”、“河长制”、“人工智能”等。这些效果良好的新词反应了历年所关注的新的、重要的问题,结合历史背景,也说明了本研究所提出的新词筛选方法的合理性。


新词给出社会活力定量计算方法

国务院政府工作报告中语言新词的更新程度,也反应了人的积极性与创造性,即社会活力曲线。

活力存在于变化之中,所谓社会活力,就是蕴生于社会实践基础之上,通过社会交往,社会有机体焕发出来的生命力、创造力、持续力的总称。

所以本研究从社会宏观背景和国家政策语境出发,尝试性地讨论了社会活力的定量计算方法。

利用新词综合权重筛选出每篇文档的前100个特征词,然后通过计算100个特征词的新词权重的均值作为整篇文档的权重,该权重一定程度上能够反应文档所在时间年份的社会活力。

统计中可以看出,从1954年到2017年,整体社会活力呈现与时增加的趋势,尤其自2014年以来,受国家改革发展进入活跃期的影响,社会活力处于全时段最高阶段。

社会活力值的大小,受当年社会发生的一系列变革的密切影响。如2013年之前的时间阶段内,因为受当年中央一号文件“农民增收”出台以及“三农”相关政策、重大传染病艾滋病、亚洲禽流感、抗击非典的胜利、法制建设以及维护社会稳定等突出问题的影响,致使2004年的社会活力指数较高。




郭崇慧教授研究团队经过数年对国务院政府工作报告进行了从微观到宏观的综合性分析,并得到了一些极有意义的结果,探究了历年来关注的共性问题以及热点的发展变化规律,给出了社会活力的动态变化图,得出了与已有研究相吻合的时间阶段划分,并发现了所有国务院政府工作报告中9种特征词序列模式。同时构建了国务院政府工作报告特定领域词典、领域停用词词典以及领域同义词词典,这些工具可以为后续学者的研究提供方便。



来源:《国务院政府工作报告(1954-2017)文本挖掘及社会变迁研究》研究成果



郭崇慧

亚虎yahu999经济管理学院教授,博士生导师,系统工程研究所所长,大数据与智能决策研究中心主任,大连市数据科学与知识管理重点实验室主任。中国系统工程学会常务理事,管理科学与工程学会常务理事,国家自然科学基金委创新研究群体学术骨干,《系统工程理论与实践》和《系统工程与电子技术》期刊编委。入选教育部“新世纪优秀人才支持计划”和“辽宁省百千万人才工程”人选。曾任澳大利亚悉尼科技大学和美国新泽西州立大学高级研究学者。主要研究方向为大数据与智能决策、复杂系统建模与优化、信息与知识管理。主持国家自然科学基金项目5项,国家软科学研究计划重大项目1项。在国内外学术期刊发表论文100余篇,其中被SCI收录40余篇,EI收录60余篇。出版著作及教材6部,译著1部。




分享到: