蓝鲸——跨平台统一大数据分析处理与可视化编程平台

产品介绍:


大数据和人工智能已经成为国家重要战略,数据更是成为与传统生产要素同等重要的生产要素。为了有效完成大数据处理与智能化分析应用,过去10多年来,大数据编程计算技术得到快速发展,国内外出现了众多大数据系统平台,为行业大数据分析应用提供了多样化的选择。


但与此同时,众多系统平台相互不统一,缺少互操作性,编程方法与编程语言环境不同,并且编程技术门槛高,难以为普通行业大数据分析人员学习和使用。同时,行业大数据综合分析应用,往往不是单一的分析处理,而是会涉及到多种不同的数据模型和计算模式,例如,数据库查询分析、机器学习、深度学习、图计算、以及流式计算。为此,需要提供一种易于学习和操作使用、跨平台统一化的大数据分析处理与编程开发平台。


为此,江苏鸿程大数据研究院推出了跨平台统一大数据分析处理与可视化编程平台。本平台可提供丰富的数据存储管理与数据处理能力,提供数据库查询分析、机器学习、图计算、流式计算等多种大数据计算模式与建模分析功能,这些功能以图标化算子形式内置在系统中,用户能通过拖拽方式,在无需代码编程的情况下,方便快捷地开发数据分析处理程序和算法模型。平台底层可根据需要集成使用各种主流大数据存储与计算系统,实现跨平台统一大数据处理与智能分析编程与应用开发。平台可广泛应用于各类行业和企业的大数据处理与智能化分析应用开发,从而大大降低大数据分析处理与建模门槛,提升大数据智能化应用开发效率。

图1:可视化拖拽式建模分析界面


图2:编程工作空间界面



产品功能:
  • 系统监测与运维功能

    平台底层基于开源可靠的企业级前后端框架,利用Docker容器化一站式快速部署,内置Netdata资源监控面板,提供整个系统及平台后端应用运行状态的监测能力,提供高效的系统运维管理能力。

  • 用户管理与多租户资源共享

    平台支持管理员、租户管理员和普通租户等多种用户的操作使用权限管理,并支持多租户资源共享调度和隔离,在提升资源共享使用效率的同时,提供资源安全隔离保护能力,保证用户计算资源的安全使用和应用系统的稳定运行。

  • 高效的模型管理与共享使用能力

    支持用户开发共享复杂业务模型,对计算流图中的分析模型可进行一键保存,将训练好的模型加入模型库,保存后的模型可提供方便的共享复用,并支持快速部署上线服务,并能以RESTful API接口对外提供模型预测服务。

  • 文本图像标签管理

    内置标签管理,支持图片数据、文本数据的多分类、多标签、目标检测、词性标注等任务在线打标,从而实现依托于平台的全流程文本图像任务训练。

  • 丰富的可视化数据分析与展现

    集成Echarts报表可视化插件包,支持柱状图、散点图、饼图、热力图以及网络关系图等丰富多样的数据可视化展现方式,同时也支持常用算法模型的可视化,可帮助用户从多个维度了解建模流程中的数据变化情况。

  • 集成自动化AI建模技术

    内置国际先进水平的AutoML自动化建模工具,支持传统机器学习和深度学习自动化建模,可自动化完成包含数据与处理、特征工程、模型选择、超参数优化在内的AI建模,大幅降低AI建模门槛,提升建模效率,减少人力成本。

  • 丰富的数据分析处理算法

    以算子形式提供近80个性能优异的数据分析处理算法,包括常用数据处理、数据查询、统计分析、机器学习、深度学习、图计算、文本分析算子,满足用户多样化数据分析需求。支持用户自定义复合算子,提供行业复杂业务算子构建能力。

  • 多数据存储管理系统支持

    支持HDFS/Alluxio等分布式文件系统、HBase/Hive分布式数据库、MySQL及Oracle等关系数据库、以及Neo4j等图数据库,并可根据需要集成各种主流分布式数据库,实现企业多数据源的无缝集成和使用。

  • 多模式跨平台统一大数据分析处理

    跨平台统一的大数据编程计算环境,支持数据查询、图计算、机器学习、深度学习、流式计算等多种计算模式,底层可集成使用Hadoop、Spark、Tensorflow、Scikit-learn、Flink等各种主流大数据系统,支持平台选择和混合调度。

  • 可视化拖拽式与程序代码双编程模式

    面向普通数据分析人员,支持基于可视化计算流图和算子免代码拖拽式编程,可视化流程图和算子可提供算法名称和业务名称双模式显示。同时也支持Python、R、Scala程序设计语言代码编程开发模式。

  • 政策大数据统计分析

    为政策主管部门提供服务平台中政策使用数据信息的统计分析,统计企业搜索和关注的热点政策,结合企业数据进行惠企政策实际效用分析,企业成长性和产业结构分析,并以可视化的形式进行展示,快速发现企业关注的热门政策以及惠企政策的效果,为企业服务和产业扶持政策制定与调整提供科学依据。

  • 用户服务管理

    服务平台提供企业用户、政策主管部门用户与管理员用户三种角色。企业用户可以提供自身信息获得政策匹配与推荐结果。政策主管部门用户可以对政策进行发布、管理、政策要素分解检查和修正等。管理员用户能够对用户角色进行管理,实现服务平台信息的配置和管理等功能。

  • 政策匹配与推荐

    基于政策与企业知识图谱,自动化地将政策与企业进行匹配,匹配结果推荐给相关企业,助力惠企政策精准化落地。

  • 政策与企业知识图谱构建

    基于深度学习技术实现政策与企业知识图谱构建功能,为政策匹配推荐和搜索功能提供核心支撑。

  • 企业信息获取

    从互联网公开数据来源自动化获取企业基本信息,为政策自动化匹配提供数据基础,减少用户信息输入,持续优化用户体验。

  • 政策分解

    基于深度学习与文本语义分析技术,实现对于政策文本的智能化、自动化分解功能,提取政策要素,并且提供专家检查修正与新增政策要求的功能。

  • 政策搜索

    提供基于关键词、分类和各种政策属性(行业、主题、有效期、政策类型等)的政策搜索服务功能。

  • 数据安全保护

    为整个平台提供数据安全、隐私保护以及平台运维。支持敏感数据定义、异常行为监控、数据备份恢复、平台巡检、运维指标监控告警、应急故障处理等功能。

  • 数据开放共享服务

    基于领先的函数即服务(FaaS)技术,以API的形式建立“数据、模型、应用”三层共享服务体系与服务方法。平台提供开放共享服务模版,用户无需编程开发,只需进行少量声明即可创建数据API、模型API,未来也可创建应用API。每个API以独立的FaaS服务形式运行,做到了容器级别的快速启停、按需伸缩、故障隔离,支撑各个共享服务可靠运行。特别地,在数据共享时可以配置数据脱敏规则。

  • 数据智能分析服务

    基于大数据并行计算技术向用户提供数据智能分析所需的基础能力。该模块分为分析算法与建模方式两大部分。分析算法模块基于平台内的Spark、Flink、TensorFlow等大数据基础设施,提供各种即席查询、统计分析、机器学习、深度学习、数据可视化等分析算法。其中部分算法为鸿程自研,相较于开源通用算法在运行时间和算法结果上均有改进。建模方式方面,平台提供了代码编程建模、无代码拖拽式建模、自动化机器学习建模(AutoML)等建模方式,方便不同需求和习惯的用户方便地使用上述算法。其中,自动化机器学习为鸿程

  • 权限管理服务

    由于数据平台的特殊性,传统的RBAC功能权限体系并不能有效控制用户对具体数据的访问和操作权限。所以本平台设计了展示权限、功能权限和数据权限三个维度的权限中心。管理员可以按照通用权限管理系统的使用习惯控制用户的展示权限和操作权限,同时基于平台内的数据资源目录体系对数据主题、数据集、字段进行细粒度的权限控制。

  • 数据质量管理

    主要解决数据本身的错误、重复、缺失、缺乏规范等数据异常问题。本平台将数据质量工作解耦为质量工具和质量标准两个模块的功能,同时将这些功能嵌入到数据处理的各个流程中,提供更简洁、更系统化的用户体验。质量工具是平台上的数据质量检测与修复工具集合,提供异常数据检测方法以及数据规范化方法,可根据数据科学的研究进展以及具体业务场景的需要,插件化地扩展基于逻辑判断、基于统计、基于人工智能的数据质量检测与修复工具。质量标准旨在使用上述质量工具描述合法数据需要满足的条件,与不满足这些条件的处理方式,而后平台自动形

  • 数据梳理组织

    主要解决数据散乱、缺乏梳理的问题。依据数据治理技术方法和体系,本平台提供元数据管理工具体系,帮助用户管理每个数据集的基本信息、属性结构、关联关系;提供数据组织工具体系,帮助用户建立基础数据、数据主题、数据专题,并将数据合理地编入上述组织体系,处理数据组织过程中的不一致问题,形成全局化、条理清晰的数据资源目录。其中,由于原始数据集之间关联关系复杂,极大增加了基础数据体系梳理和构建难度。针对该问题,现有做法一般是由人工梳理数据关系后手工编写代码建立基础数据,本平台实现了大规模基础数据自动化构建技术

  • 数据导入清洗

    目标是建立面向多源异构数据的插件化数据采集与数据导入机制,支持包括数据库表、文件集、接口调用、流式数据等多源异构数据的导入和存储管理。在导入过程中可嵌入数据治理中的清洗环节,清洗方法可手动指定或根据质量标准自动获取,形成完备的数据准入体系。对不符合数据准入标准的异常数据,平台提供人工修复方法与工具,可由人工审核确认后重新进入平台。

  • 系统运行维护与扩展

    支持对集群上分布式系统的状态监控运维,提供系统失效容错恢复能力,并可根据需要快速扩展集群规模

  • 多租户共享平台与资源

    支持基于YARN的资源共享使用和调度,提供对Spark、Hadoop计算资源多租户共享使用和调度管理能力

  • 用户统一认证与权限管理

    为平台用户提供统一管理能力,完成用户注册、登录、认证、权限管理,以及资源使用和用户操作情况审计

  • 多数据源支持

    可集成HDFS、Alluxio、HBase、Hive、Presto等主流分布式文件系统与数据库,可基于Web界面统一展示管理

  • 大数据分析算法与可视化展现

    提供大数据分析与机器学习算法,支持柱状图、散点图、热点图以及网络关系图等数据可视化展现

  • 内置主流大数据平台

    内置Hadoop、Spark等多种大数据计算平台,支持稳定可靠的大规模数据分析处理与计算任务

  • 大数据与AI教学科研编程平台

    可扩展为大数据与AI教学实践与科研实训平台,为高校提供大数据与AI教学科研实训平台

  • Jupyter Notebook/ Jupyter Hub编程环境无缝融合

    无缝兼容基础Jupyter开发编译平台,支撑大数据应用的高效研发,并且可与企业原有项目代码实现一键导入

  • 主流大数据编程语言与Web开发环境

    提供最为常用的Python、Scala、Java大数据分析编程语言环境以及基于Web的开发环境,系统免安装

  • 轻量级、通用化、便捷化

    易学易用的轻量级交互式统一大数据编程计算平台,可方便快速完成行业大数据分析编程与应用开发

  • 底层算法丰富,业务场景广泛

    PASA-AutoML通过跨平台统一的算法接入层,用户可以灵活地接入不同计算平台下的机器学习算法实现,目前底层已经包含SK-Learn、XGBoost、LightGBM、TensorFlow 、Spark MLlib等算法库。并且本平台是一个通用建模工具,支持多场景的AI自动化建模,因此可以支撑多种多样的AI落地应用场景,例如互联网金融、政务民生、公安警务等,具有非常广泛的应用场景,可以助力AI行业的多种领域的客户。

  • 减少学习成本,支持云端和本地端两种部署方式

    PASA-AutoML提供了一系列高层易用的API和丰富的开发应用案例,可以以非常低的学习成本快速上手,快速完成AI建模应用。产品可部署在云端和本地端,云端产品提供了可视化的Web编程平台,其部署在江苏鸿程大数据研究院的海星交互式统一大数据编程计算平台下,通过Jupyter Hub进行登录,选取AutoML内核后即可使用。基于Jupyter的可视化编程方式大大减少了用户的学习和安装部署成本,用户将数据和代码在云端部署运行,即开即用、节省自身算力资源。另外,本产品也可以提供本地化SDK开发工具,用

  • 节省建模时间,聚焦业务场景

    PASA-AutoML基于南大PASA实验室的核心研发能力,打通了机器学习中特征工程、模型选择、超参优化三大功能,解决了机器学习建模问题的三大难题,并且集成了神经网络架构搜索以及神经网络超参调优等自动化深度学习技术,大大减少了AI建模人力研发成本,节省了用户建模的时间,让用户把更多的精力放在处理业务场景上。

  • 自动机器建模,降低使用门槛

    PASA-AutoML以强化学习的方法为主体框架提供了一个高效易用的自动化机器学习算法系统。用户只需要提供数据和预算时间便可以开始使用机器学习技术来解决手中的AI任务或找到调优的方向。

产品界面:


3:可视化数据分析界面




4:文本数据打标签界面




5:图数据库可视化



产品优势:
  • 完善权限控制基础上的数据共享应用服务平台

    平台提供“展示权限-操作权限-数据权限”三位一体的细粒度权限机制,精细控制对每个用户的数据可访问性、数据操作、脱敏、共享级别,粒度可到字段级。在此基础上基于FaaS技术形成数据开放服务、模型开放服务、应用服务三位一体的数据开放共享和赋能机制,并为每个开放服务实例提供云原生应用的先进特性,保证每个数据服务的稳定可靠。

  • 简洁易用、全流程化的数据治理业务流程

    数据中台不仅提供数据组织、数据质量管理、数据标准管理、数据权限控制等单点的数据治理功能,在单点功能中还加入智能化数据治理方法,并且将治理功能嵌入各个数据处理流程,形成更简洁易用、更系统化的数据治理功能体系。

  • 大数据服务网格软件架构

    平台基于云原生服务网格架构,业务功能和大数据组件容器化微服务化,平台流量去中心化,从而为整个平台提供了云应用级别的快速启停、弹性伸缩、滚动升级、流量治理、故障隔离等高级特性。为承载数据中台和智能中台上的高并发、大规模、低延时、高负载的各类大数据智能业务提供稳定可靠支撑。

  • 统一平台,使用方便

    课程综合平台以研究院研发的交互式统一大数据编程平台作为技术支撑。实验环境容器化,无需对诸多大数据软件进行复杂的配置和联调,即装即用,原生体验。解决大数据软件配置繁琐难以使用的痛点,能够让学生直接接触并快速掌握大数据编程技巧。

  • 训战结合,以赛代练

    每一模块的知识都配有详尽的讲解视频以及实验安排,最后附有十余个综合运用各种技术、各个行业的数据分析应用案例,以及案例涉及的真实数据,全面提升动手能力和实战经验。

  • 由浅入深,内容为王

    从Linux基本操作、相关编程语言的基本知识开始授课,逐步深入到具体大数据技术的使用方法以及实际应用,更高阶内容有原理架构等理论知识,带你一级级跨过高门槛。

  • 主流新潮,一网打尽

    依托学术界大数据方向的研究积累以及前瞻视角,优选技术工具。课程内容不仅涵盖业界主流的Hadoop,Spark,HBase,Hive等技术,也有新潮的Alluxio、Presto。

产品示例图:

AutoML自动化AI建模

本平台内置了南京大学PASA大数据实验室与江苏鸿程大数据研究院共同自主原创、国际先进的AutoML技术。用户仅需给定数据和预算时间,无需人工干预,平台即可自动化实现机器学习流水线的自动化设计,将数据预处理、特征工程、模型选择以及超参数调优等步骤交由平台自动完成,从而实现AI模型的自动化构建。平台支持传统机器学习和深度学习的自动化建模,并可面向宽表、多表、图像、语音、文本、时序数据等不同数据类型完成自动化建模。在模型性能不低于人工专家的前提下,能够大幅提高AI建模效率,从而降低AI使用门槛,让AI为人人所用。

图6:AutoML建模和人工专家建模对比


PASA-AutoML连续多次在国际著名的AutoML大赛中以优异成绩获奖(PAKDD 2018 AutoML、NeurIPS 2018 AutoML、 KDD Cup 2019 AutoML、NeurIPS 2018 AutoDL等),其中NeurIPS、KDD、PAKDD均为人工智能/数据挖掘领域的国际顶级会议。因此,PASA-AutoML总体处于国际先进水平。另外,该技术已在华为、奇虎360等IT企业和其他行业中落地应用,并于2019年10月在第五届中国“互联网+”大学生创新创业大赛中荣获全国金奖。

图7:PASA-AutoML所获奖项


平台产品架构

平台底层支持Alluxio、HDFS、HBase、Hive、关系型数据库、分布式数据库、图数据库等存储系统,上层通过跨平台统一计算任务调度实现了单机Scikit-learn、Spark、Flink、Tensorflow、Pytorch等主流计算平台的混合调度,从而支持数据查询分析、机器学习、图计算、深度学习等数据分析任务以及AutoML自动化AI建模和调优。基于计算流图的可视化拖拽式编程,可以快速构建业务模型并上线部署,从而服务于各行业的大数据分析和应用,为大数据分析建模降本提效,加速产业数字化应用落地。

图8:平台总体架构


图9:银行评分卡案例程序流程