跨平台统一的可视化大数据智能分析平台

产品介绍:

随着大数据技术的快速发展,目前已经出现了众多大数据分析处理和机器学习系统平台。“战国时代,百花齐放”,为不同的大数据应用分析提供了众多选择。但是,众多的系统平台令人眼花缭乱,难以选择和学习使用。另外,综合大数据分析往往会涉及到各种不同的计算模型,例如,数据库的表模型、矩阵模型、张量模型、图模型、数据流模型等,已有的大数据系统缺少可覆盖各种计算模型、能集成使用各种不同主流大数据系统的能力。

针对上述问题,本产品提供了跨平台统一的大数据分析处理与可视化编程系统平台。该平台基于跨平台统一的大数据编程模型和编程框架,向上提供了覆盖各种计算模型的高层计算算子以及全流程化大数据分析处理方法,向下提供了异构开放式大数据系统集成框架,能够在统一编程空间内集成使用各种不同主流大数据系统。

产品功能:
  • ● 跨平台统一的大数据编程模型:

    提供覆盖表、矩阵、图、张量、数据流等多种计算模型的跨平台统一计算算子。算子类型丰富,包括数据预处理、特征工程、机器学习、深度学习、图计算及文本分析等。另外,所有算子均采用高层统一抽象、计算平台无关的方式进行封装,用户在不了解底层计算平台的前提也可灵活方便使用。

  • ● 异构开放式的大数据系统集成框架:

    能够轻松集成Spark、Flink、Graph X、scikit-lear、 TensorFlow等常用的数据分析、机器学习、图计算和深度学习平台。用户可根据数据规模和计算模型灵活选择底层的大数据系统平台,无须关注底层平台具体实现细节。

  • ● 跨平台统一作业调度器:

    通过作业调度、任务调度及平台调度三级调度器,统一将上层计算作业调度到不同的计算平台。为降低不同计算平台之间的数据迁移开销,采用跨平台统一数据交换引擎,实现数据交换格式和中间数据存储的统一。

  • ● 基于计算流图的可视化大数据分析编程:

    提供拖拽式的可视化大数据分析编程方法和编程工具,用户通过简单的算子拖拽操作即可构建涵盖数据预处理、特征工程、算法选择及模型评估等全生命周期的大数据分析处理流程,并可实现一键运行。

  • ● 自动化机器学习(AutoML):

    支持算法自动选择和超参数优化,能够根据任务类型自动地选择最优的分析算法模型以及模型超参数,减少数据分析建模的人力和时间成本,提高数据分析建模的效率。

  • • 基于Web的集成化大数据开发环境:

    给用户提供一个基于Web的集成化开发环境,避免用户需要到底层手动配置不同系统或切换不同开发平台。

  • • 内置主流大数据平台支撑:

    内置了对Hadoop、Spark、HBase、Hive、Impala等各类大数据存储和计算的支撑,并且支持扩展对接新的组件。

  • • 与Python语言和Jupyter Notebook无缝融合:

    无缝融合基础了Python Jupyter开发编译平台,现有相关遗产项目或代码可以实现一键导入。

  • • 用户权限的统一管理与审计:

    通过集成化开发环境,可以对统一用户对大数据平台的使用权限进行统一的管理与资源使用情况审计。

  • ● 机器学习流水线自动化设计:

    能够自动化地设计机器学习流水线,包含数据预处理、特征工程、算法选择、模型评估等阶段,全程自动化,无需数据分析人员参与。

  • ● 机器学习任务多样化:

    支持多种常见的机器学习任务,包括分类任务(二分类、多分类、多标签分类)、回归任务、聚类任务等。

  • ● 超参数调优:

    不仅支持传统机器学习模型的超参数调优,而且也支持面向深度神经网络的超参数调优。

  • ● 计算平台无关的算法接入层:

    用户可以灵活地接入不同计算平台下的算法,如scikit-learn、Spark MLlib、TensorFlow等。用户也可以接入自定义的算法模型作为AutoML过程中可选的算法模型。

  • ● 元学习:

    无缝对接元学习,实现模型选择阶段的热启动,加速模型选择过程,提升AutoML效率。

  • ● 集成学习:

    对性能Top-K的模型进行集成学习,降低过拟合风险,提升AutoML的稳定性。

  • GPU资源共享:

    通过在深度学习框架中设置参数等方式,限制单个任务的资源使用,以此来保证多个任务对GPU资源的共享。

  • AI任务全流程支持:

    关注AI任务中从程序编写、测试,到部署以及升级的全流程,做到易用高效的人工智能任务调度平台。

  • 外挂存储支持:

    在实际场景中,数据可能存放在分布式文件系统中,该平台需要支持将数据等从外挂存储导入。

  • 与现有大数据平台深度融合:

    支持与现有大数据平台Hadoop、Spark等实现数据融合交互。

  • 动态增减集群节点:

    支持故障机器热剔除、集群升级对用户无感知。

  • CPU/GPU混合调度:

    支持混合调度,并且支持灵活的调度策略。

  • 支持集群管理组件或者工具:

    整个产品的容器化部署编排,产品化程度更高

  • 接口访问的安全认证:

    用户管理、组管理、配额管理

  • 资源的动态分组隔离:

    现有技术中采用了强隔离,即分组资源固定,每个任务只能只用该分组的资源,如果配置不合理,容易造成整体资源利用率下降。在基于分组的概念上引入私有资源与公共资源的划分,尽可能平衡整体资源利用率与资源竞争。同时,综合历史情况,采用相关算法智能的调整分组似有资源的划分,保证高优先级任务的成功执行。

  • ● 平台选择优化器:

    支持多粒度的平台选择优化。用户可以手动设置算子/模块/计算流图等对应的底层计算平台,也可交由机器,根据计算模型和数据规模等多种要素自动选择最优的计算平台及其组合,实现计算平台利用率最大化。

产品界面:
产品优势:
  • ● 易用性:

    用户可采用拖拽式的可视化编程方式快速构建端到端的大数据分析流程,并且无须关注计算算子的具体实现细节,大大降低大数据分析处理的门槛。

  • ● 跨平台:

    提供可覆盖各种大数据计算模型、跨平台统一的大数据编程模型和编程框架。底层可集成各种不同计算模式下的主流大数据系统。

  • ● 灵活性:

    在同一个编程空间内可以灵活使用不同的大数据分析系统。根据大数据分析处理流程各个环节的计算特点,选择最合适的大数据分析系统,充分发挥各个大数据分析系统的优势。

  • ● 高性能:

    依托近十年的大数据并行计算技术积累,沉淀了一系列计算性能突出的大数据并行计算算法和模型,如分类、聚类、回归、推荐、关联性分析、图计算、文本分析等。性能普遍优于Spark MLlib内置的算法模型。

  • ● 全流程:

    提供涵盖数据预处理、统计分析、特征工程、算法选择以及模型评估等一系列功能丰富的计算算子,支持全生命周期流程的大数据综合分析处理,能够实现数据分析流程的一键运行。

  • ● 自动化机器学习:

    支持算法模型自动化选择和超参数自动调优,缩短数据分析建模周期,降低机器学习技术门槛。

  • ● 多数据源支持:

    可集成HDFS、Alluxio、Hive等主流的分布式文件系统以及数据仓库,所有数据源可基于Web界面统一展示。

  • ● 提供基于Web UI的易用开发平台,方便开发程序员使用

  • ● 提供大数据开发人员工作效率,减少反复在后端平台调配的时间投入

  • ● 提供集成主流大数据存储和计算平台,功能强大

  • ● 提供开发用户统一权限认证和审计功能,便于综合管理

  • ● 较好的预测性能:

    采用基于强化学习的三阶段AutoML策略。与基于贝叶斯优化的方法相比,该产品在公开通用的数据集上能取得更好的预测性能,其性能已也得到华为等公司的测试和认可。

  • ● 支持丰富的业务场景:

    不仅能够支持二分类、多分类、多标签分类等各种分类业务场景,同时也支持回归分析和聚类分析场景。

  • ● 易用的高层API

    通过设计高层抽象API编程接口减少编程的复杂性,进而提升系统的易用性。

  • ● 可扩展性:

    通过计算平台无关的算法接入层,用户可以灵活地接入不同计算平台下的算法,提升系统可扩展性。

  • ● 灵活易配置:

    用户可以快速灵活的配置机器学习流水线上每个阶段可选的算法,以及每个算法的超参数取值类型和范围。

  • ● 全面的模型评价指标:

    针对特定业务场景,如分类、回归及聚类,提供了更加全面的模型评价指标。用户可以灵活地选择合适的评价指标开展AutoML。

  • ● GPU资源统一管理与分配:

    整合所有GPU相关资源,并具体记录详细GPU型号、所在节点资源情况以及全局网络拓扑结构等静态信息;定时向中心管理器汇报各个节点上的资源使用情况等动态信息;根据下发的任务,综合考虑系统当前负载以及任务需求分配合适的GPU资源。

  • ● 计算任务合理调度:

    针对任务需求,结合分析系统当前的负载情况,决定调度该任务的时刻,做到提供足够的资源并在规定时间之内完成。通过划分优先级、预留资源、虚拟分组、任务分配等策略,满足不同的应用场景。

  • ● 资源细粒度分配与调度的自动优化:

    主要任务是收集整理任务在以往多次运行过程中的资源使用随时间变化的规律,结合任务的运行需求,自动的调整任务所需的资源以及调度时间,做到在满足任务需求的基础上降低资源占用率。

  • ● 通过资源共享提高整体资源利用率:

    将所有资源集中管理,用户只需在需要运行训练任务时提交任务,而不再需要原有的漫长申请等待。此外,通过任务级别的分配策略,有效避免分组内的闲置率。同时基于以往的任务执行情况,能够保证未来高优先级任务能够尽快的获得资源。

  • ● 更好的满足时间约束要求:

    不同的任务有着不同的时效要求,框架通过考虑这些时间约束,通过优先调度紧急任务并推迟其他任务,能够保证更好的满足整体的时间约束要求。

  • ● 数据和模型可视化:

    支持柱状图、散点图、热点图以及网络关系图等多种数据可视化展现方式,同时也支持常用算法分析模型的可视化。

产品示例图:
使用场景:

大数据分析处理与人工智能建模。数据分析人员可以采用可视化拖拽的方式快速构建全生命周期的大数据分析流程,无需关注底层大数据计算平台的技术细节,从而降低大数据分析编程的技术门槛。