技术分享 | 数据分析报告是怎样“炼成”的(附疫情报告演示案例)

2022-04-18

分享到

前言

当前国内的数字经济正在如火如荼地发展,数字社会、数字政府、企业数字化转型等等一系列新提法、新技术在也不断产生。在这个过程中,如何将数据资源的价值释放出来提供生产要素,是数字经济的杀手锏与核心所在,即数据智能。


数据分析(报告)是数据智能的主要手段之一。从当年被人们津津乐道的沃尔玛“啤酒+尿布”营销开始,人们(尤其是中国人)逐步认识到数据分析的威力和价值所在。随着数据资源的不断积累和开放,政府机关、企业的精细管理、科学决策需求对数据分析(报告)的广度、速度、深度不断提出新的要求。


本文就来谈一谈数据分析报告相关的内容。如果您对数据分析报告是如何撰写的,这当中有哪些实际痛点,以及我们如何用大数据、人工智能技术提出解决方案解决这些痛点,等此类话题感兴趣,建议继续阅读本文。


文末还附了一个小Demo,直观展示本文技术成果的同时,也希望能为战胜新冠疫情尽到我们的一份力。


数据分析报告的撰写步骤

我们以常见的国家统计局数据报告为例,说明数据分析报告的撰写步骤。国家统计局会定期(每月、每季度、每年)发布多个指数的数据报告,每个周期都需要按以下步骤进行数据分析并形成分析报告:


第一步,领域模型的计算。该模型是此项数据分析任务的核心,例如,和我们生活息息相关的消费物价指数(CPI),就是国家统计局月季年各周期关注的核心模型之一。计算CPI指数时,需要收集指标商品(8大类268个基本分类大约700余种)的当期价格及商品权重,根据CPI的计算公式,计算出当期CPI的值。CPI指数是一个体系,除了一个总体值之外,还会从不同维度进行分类,例如:城市/农村、食品/非食品、消费品/服务、8大商品类别等等。


第二步,进行常见指标分析。有了核心指数,就可以利用统计学的各项常用指标对其进行分析。例如,将当期值与往期值放在一起,计算累计值、同比、环比;将同级的当期值放在一起,计算均值、中位数、占比、贡献度;等等。


第三步,进行复杂序时分析。因为上述的指数和指标值在时间维度上形成序列,于是可以围绕其在时间上的趋势给出分析,例如,CPI同比是保持平稳、连续数月增长还是转头向下,住房价格对CPI走低的影响是否越来越大;等等诸如此类。


第四步,分析结果解读。这一步主要是将数据分析结果以文字的形式表达出来,将有亮点的数据结论单独重点论述,并试图给出数据变化可能的原因。这一步通常需要有经验的数据分析师付出大量的人力才能完成。


第五步,将前面所有的分析结果,包括表格、图表、文字等,进行合理、有效地组织和呈现,最终一篇完整的数据分析报告就“炼成”了。


数据分析报告的痛点

从数据分析报告出炉的过程来看,数据分析报告作为政府、企业数字化转型中的数据智能辅助决策的重要一环,当前的实践中普遍面临以下痛点问题:


(1) 目前政务部门数据统计分析与报告编写大多停留在人工处理阶段,数据分析和报告编写工作量大,费时费力,效率低下,且人工数据统计分析易于出错,报告质量难以得到保证。


(2) 企业当前会使用一些商业智能(BI)工具进行数据分析,但当前BI工具大多难以实时处理大规模数据,并且BI工具通常只能以数据表格或报表的形式呈现,无法自动形成结论性的文字,因此撰写报告时仍有大量的工作要做。


我们的解决方案

本公司通过在大数据、人工智能领域多年的技术积累和行业经验,运用这些技术构建了一键式自动化数据分析报告生成平台(暂定名)。该平台能够快速进行数据统计、序时等分析,生成图表并自动给出文字结论,其中包括数据分析结果的描述,以及数据变化的可能原因,从而解决了前述数据分析报告撰写的痛点。平台架构如下图所示:



该平台的几个核心技术点分别如下:


(1) 海量的数据管理


底层基于大数据存储与计算平台,支持数据以文件、数据库等多种形式接入、采集、处理、检验、存储,并支持维护数据的指标目录树,为查询及组成分析提供支持。

(2) 数据分析引擎


平台设计实现了灵活的查询引擎,支持灵活条件的序时查询、组合查询,可自由添加行列,设置时间频率、数据单位,查询起止时间,查询条件等,并基于原始数据内置了同比、环比的增速、增量等计算指标,便于直接查询计算后的数据并展示。若默认计算指标不满足要求,可自行添加公式,设置自定义计算指标,满足不同业务需求。查询结果支持多种可视化图表展示,并可保存为模板,方便再次使用。查询结果也支持通过趋势分析、排名分析、组成分析等进行多种组成分析并组成本查询指标的分析结果供参考。

(3) 智能报告引擎


通过数据分析引擎分析到的结果,如果认为有价值,可插入报告模板中,并设置语句输出条件及不同条件下的描述语句,用户也可针对该数据通过归因分析分析指标内在的关联原因、组成原因等,提供更具深度的分析结果。多条语句按照报告主题组合就形成了一份完整的报告。


修改报告日期、语句规则的公共参数,可一键生成不同日期、不同维度的报告,大大提高了报告生成的效率,并积累形成行业模板,例如宏观经济分析报告、产业/行业分析等报告。

(4) 智能语句库


平台还运用自然语言处理、深度学习、知识图谱等技术,智能化阅读各类行业报告或政策文本,实现 “人工经验+智能化”的原因要素分析提取,形成报告分析行业原因语句库,提升归因分析的全面准确性。



(5) 灵活的规则引擎


强大的数据分析引擎和智能报告引擎的一个基础是规则引擎,通过规则原语与统一的接口,屏蔽了需要技术人员编写的数据查询语句及复杂代码逻辑,通过简单配置即可实现复杂的业务指标计算处理及判断输出,若业务逻辑过于复杂,也可通过低代码方式进行业务代码编写,满足了不同用户的需求,大大降低了用户的学习成本,业务人员自己即可实现复杂业务编写,不需要再寻求开发技术人员进行技术实现。




总结

总的来讲,在政府单位、企业的数字化转型过程中:


· 数据库解决了数据存储“查询”的问题;


· 商业智能进一步解决了数据的“查询——分析”的问题;

· 我们的一键式自动化数据分析报告生成平台,通过大数据分析引擎、智能文本引擎,解决了数据的“查询——分析——结论”的问题,在数据智能辅助决策的道路上更进一步。


我们的一键式自动化数据分析报告生成平台仍在积极开发中,未来会变得更加强大和智能。与此同时,当前的版本已可初步对外使用,欢迎感兴趣的读者前来垂询和试用。


疫情分析预测与报告生成服务演示案例


自3月初开始的国内本轮疫情形势严峻,为了帮助政府和社会大众及时了解各地疫情发展态势,我们使用该智能化报告生成工具,制作了一个疫情分析预测查询与报告生成服务网站,通过采集国内外疫情数据,可以多维度灵活地查询各地的疫情态势,并自动生成国内外任意地区的疫情态势日/周/月报,为政府疫情防控决策提供参考依据,为企业和社会大众及时了解当地疫情态势提供便捷手段。


网址:https://yqts.jshcbd.com.cn/。目前该疫情分析预测与报告生成服务平台是首次开发完成的演示版本,功能还在不断完善中,请各位读者试用并提出宝贵意见,或者有特别的分析预测服务需求,也可以联系我们。