【产品介绍】海豚——全流程数据治理与统一数据中台

2020-08-06

分享到

海豚——全流程数据治理与统一数据中台简介

数字经济发展战略驱动下,数据已经成为跟传统生产要素同等重要的生产要素。10多年来,行业数据规模迅猛增长,在数字经济的推动下,各行业对数据资源的汇聚及其分析挖掘利用越来越重视。然而,目前各行业普遍面临严重的数据质量问题,缺少有效的数据采集汇聚和清洗治理方法与工具,这业已成为行业大数据智能化分析应用落地的瓶颈。为此,需要提供有效的大数据采集汇聚和清洗治理方法与工具。数据治理与统一数据中台是鸿程大数据研究院技术团队研发的一款软件工具平台,该平台整合了研究院的大数据能力,在数据治理侧和使能侧同时推进,研发并提供数据采集、汇聚、清洗、治理、存储、分析、服务功能,致力于为企业、单位、政府客户提供一站式的数据全生命周期治理与分析应用能力。依托完善的数据治理理念与功能,提升行业数据质量,建立行业数据体系,摆脱数据脏乱差、难以利用的困境。同时,数据中台可与建模平台搭配使用,快速构建高质量的数据模型与应用。


一、需求与痛点

随着大数据技术日趋成熟,越来越多的政府和企业用户迫切需要解决数据治理问题,需要构建数据中台,提供端到端全生命周期的大数据治理能力,以达到降本提效或数据赋能的目的。但数据治理与数据中台是一个较为复杂的系统工程,研究开发往往会面临以下技术难点和问题:

1. 自建数据治理与数据中台技术门槛高:客户自建数据治理与数据中台,需要技术团队在大数据、数据治理、人工智能、现代软件架构等技术领域均有雄厚的实力,故自建数据治理与数据中台的投入和难度较高。


2. 现有数据治理工具平台散乱不通用:现有的大数据治理工具平台大多为了支撑有限的几种大数据业务而简单拼凑设计,在技术上没有经过良好规划研究与落地,且与业务高度耦合,无法提供统一化和简洁易用的大数据治理能力,去支撑和使能客户各个业务场景。


3. 数据治理功能不完善:作为沉淀数据资源的平台,现有的数据治理和数据中台产品,主要关注数据分析与应用能力,大多不具备完善的数据治理功能体系,难以通过平台沉淀质量高、有组织条理的数据资源,上层的数据分析与应用也难以取得很好的应用效果。


二、平台功能简介

在功能层面,全流程大数据治理与统一数据中台,需要具有数据采集、清洗、治理、存储管理、数据分析、数据服务等方面的功能。目前数据治理功能细碎,缺乏体系。本平台产品将数据治理分为数据组织、数据质量、数据权限三个维度。经过功能解耦后,形成了数据导入清洗、数据组织、数据质量、权限管理、智能分析、开放共享、安全保护等主要模块。平台的整体功能构架如图所示(功能架构以政务场景为例)。


图1:全流程数据治理与统一数据中台软件功能架构


数据导入清洗:目标是建立面向多源异构数据的插件化数据采集与数据导入机制,支持包括数据库表、文件集、接口调用、流式数据等多源异构数据的导入和存储管理。在导入过程中可嵌入数据治理中的清洗环节,清洗方法可手动指定或根据质量标准自动获取,形成完备的数据准入体系。对不符合数据准入标准的异常数据,平台提供人工修复方法与工具,可由人工审核确认后重新进入平台。


数据梳理组织:主要解决数据散乱、缺乏梳理的问题。依据数据治理技术方法和体系,本平台提供元数据管理工具体系,帮助用户管理每个数据集的基本信息、属性结构、关联关系;提供数据组织工具体系,帮助用户建立基础数据、数据主题、数据专题,并将数据合理地编入上述组织体系,处理数据组织过程中的不一致问题,形成全局化、条理清晰的数据资源目录。其中,由于原始数据集之间关联关系复杂,极大增加了基础数据体系梳理和构建难度。针对该问题,现有做法一般是由人工梳理数据关系后手工编写代码建立基础数据,本平台实现了大规模基础数据自动化构建技术,根据数据集之间的关联关系自动构建基础数据,提高了数据组织的效率。


数据质量管理:主要解决数据本身的错误、重复、缺失、缺乏规范等数据异常问题。本平台将数据质量工作解耦为质量工具和质量标准两个模块的功能,同时将这些功能嵌入到数据处理的各个流程中,提供更简洁、更系统化的用户体验。质量工具是平台上的数据质量检测与修复工具集合,提供异常数据检测方法以及数据规范化方法,可根据数据科学的研究进展以及具体业务场景的需要,插件化地扩展基于逻辑判断、基于统计、基于人工智能的数据质量检测与修复工具。质量标准旨在使用上述质量工具描述合法数据需要满足的条件,与不满足这些条件的处理方式,而后平台自动形成数据导入时的清洗任务,用以落实数据质量标准。同时,用户也可以方便地发起数据稽核,针对存量数据进行质量检测与修复。


权限管理服务:由于数据平台的特殊性,传统的RBAC功能权限体系并不能有效控制用户对具体数据的访问和操作权限。所以本平台设计了展示权限、功能权限和数据权限三个维度的权限中心。管理员可以按照通用权限管理系统的使用习惯控制用户的展示权限和操作权限,同时基于平台内的数据资源目录体系对数据主题、数据集、字段进行细粒度的权限控制。


数据智能分析服务:基于大数据并行计算技术向用户提供数据智能分析所需的基础能力。该模块分为分析算法与建模方式两大部分。分析算法模块基于平台内的Spark、Flink、TensorFlow等大数据基础设施,提供各种即席查询、统计分析、机器学习、深度学习、数据可视化等分析算法。其中部分算法为鸿程自研,相较于开源通用算法在运行时间和算法结果上均有改进。建模方式方面,平台提供了代码编程建模、无代码拖拽式建模、自动化机器学习建模(AutoML)等建模方式,方便不同需求和习惯的用户方便地使用上述算法。其中,自动化机器学习为鸿程技术团队自研国内领先,国际先进的建模方式。可以高效地完成自动化特征工程、自动化模型选择、超参调优、深度神经网络架构搜素等功能,极大提升了建模效率,降低了AI应用的门槛。智能分析模块既可以整合在数据中台中,也可以作为智能中台独立使用。


数据开放共享服务:基于领先的函数即服务(FaaS)技术,以API的形式建立“数据、模型、应用”三层共享服务体系与服务方法。平台提供开放共享服务模版,用户无需编程开发,只需进行少量声明即可创建数据API、模型API,未来也可创建应用API。每个API以独立的FaaS服务形式运行,做到了容器级别的快速启停、按需伸缩、故障隔离,支撑各个共享服务可靠运行。特别地,在数据共享时可以配置数据脱敏规则。


数据安全保护:为整个平台提供数据安全、隐私保护以及平台运维。支持敏感数据定义、异常行为监控、数据备份恢复、平台巡检、运维指标监控告警、应急故障处理等功能。

 

三、核心优势

3.1 大数据服务网格软件架构

平台基于云原生服务网格架构,业务功能和大数据组件容器化微服务化,平台流量去中心化,从而为整个平台提供了云应用级别的快速启停、弹性伸缩、滚动升级、流量治理、故障隔离等高级特性。为承载数据中台和智能中台上的高并发、大规模、低延时、高负载的各类大数据智能业务提供稳定可靠支撑。

3.2 简洁易用、全流程化的数据治理业务流程

数据中台不仅提供数据组织、数据质量管理、数据标准管理、数据权限控制等单点的数据治理功能,在单点功能中还加入智能化数据治理方法,并且将治理功能嵌入各个数据处理流程,形成更简洁易用、更系统化的数据治理功能体系。

3.3完善权限控制基础上的数据共享应用服务平台

平台提供“展示权限-操作权限-数据权限”三位一体的细粒度权限机制,精细控制对每个用户的数据可访问性、数据操作、脱敏、共享级别,粒度可到字段级。在此基础上基于FaaS技术形成数据开放服务、模型开放服务、应用服务三位一体的数据开放共享和赋能机制,并为每个开放服务实例提供云原生应用的先进特性,保证每个数据服务的稳定可靠。


四、用户界面展示


图2:大数据任务运行状态监控界面


图3:基础数据构建界面