【产品介绍】海星——交互式统一大数据编程计算平台

2019-09-02

分享到

海星——交互式统一大数据编程计算平台简介

大数据与数字经济正逐步成为经济增长与社会发展的新引擎,大数据技术产业落地正当其时。但是很多企业和高校用户在建设自己的大数据平台时经常遇到选型困难,安装配置门槛高,统一用户管理不便,本地开发环境较难搭建等一系列问题。


针对上述痛点,江苏鸿程大数据研究院推出海星——交互式统一大数据编程计算平台。本平台是一个轻量级、通用化、易学易用的交互式统一大数据编程计算软件平台,可支持常用大数据系统的便捷化操作,方便快速地完成行业大数据交互式分析编程,并可扩展为大数据与AI教学实践、科研实训与应用研发工具平台。


系统提供广为使用的Python、Scala、Java数据分析编程语言与环境,以及基于Web界面的操作使用和开发环境,底层可集成和支持Hadoop、Spark、HBase、Hive、Presto多种主流大数据存储计算平台,提供大数据分析算法与可视化展现能力,提供统一用户认证管理和多租户资源共享使用能力以及良好的系统运维能力,系统具有良好的可靠性和高可扩展性。


一、产品主要功能

■ 轻量级、通用化、便捷化:易学易用的轻量级交互式统一大数据编程计算平台,可方便快速完成行业大数据分析编程与应用开发

■ 主流大数据编程语言与Web开发环境:提供最为常用的Python、Scala、Java大数据分析编程语言环境以及基于Web的开发环境,系统免安装

■ Jupyter Notebook/ Jupyter Hub编程环境无缝融合:无缝兼容基础Jupyter开发编译平台,支撑大数据应用的高效研发,并且可与企业原有项目代码实现一键导入

■ 大数据与AI教学科研编程平台:可扩展为大数据与AI教学实践与科研实训平台,为高校提供大数据与AI教学科研实训平台

■ 内置主流大数据平台:内置Hadoop、Spark等多种大数据计算平台,支持稳定可靠的大规模数据分析处理与计算任务

■ 大数据分析算法与可视化展现:提供大数据分析与机器学习算法,支持柱状图、散点图、热点图以及网络关系图等数据可视化展现

■多数据源支持:可集成HDFS、Alluxio、HBase、Hive、Presto等主流分布式文件系统与数据库,可基于Web界面统一展示管理

■ 用户统一认证与权限管理:为平台用户提供统一管理能力,完成用户注册、登录、认证、权限管理,以及资源使用和用户操作情况审计

■ 多租户共享平台与资源:支持基于YARN的资源共享使用和调度,提供对Spark、Hadoop计算资源多租户共享使用和调度管理能力

■ 系统运行维护与扩展:支持对集群上分布式系统的状态监控运维,提供系统失效容错恢复能力,并可根据需要快速扩展集群规模


二、产品架构与展示

图1:产品系统架构


2:产品大数据Notebook环境


3:产品大数据作业提交运行监控界面


4:产品底层系统平台硬件资源环境


此外,针对业内普遍缺乏大数据专业人才的现状,依托海星平台以及在南京大学开展大数据课程教学与学生培养的10年经验,研究院同时推出大数据教学实训平台。“理论+实验+案例”的立体化教学方式,辅以灵活易用的实训平台,全面助力大数据人才教育事业的发展。


三、痛点诉求

■ 需求迫切:面对百万人才缺口,全国现有500所高校开设了数据科学与大数据技术专业,大数据相关的培训机构更是层出不穷,普遍需要大数据课程教学与编程实践平台。

■ 学习曲线陡:大数据技术是一个庞大的生态,学习需要良好的计算机功底。配置调测大数据软件也需要较长的试错时间。

■ 技术更新快:生态的活跃以及需求的多样使得大数据领域新技术频出,主流大数据软件也在快速迭代进化,很有可能学到即过时。

■ 缺少实操思路:学会各个单点的大数据技术远远不够,面对实际的数据集,学生仍然没有思路串联实现整个数据处理分析过程。

核心特性

■ 主流新潮,一网打尽:依托学术界大数据方向的研究积累以及前瞻视角,优选技术工具。课程内容不仅涵盖业界主流的Hadoop,Spark,HBase,Hive等技术,也有新潮的Alluxio、Presto。

■ 由浅入深,内容为王:从Linux基本操作、相关编程语言的基本知识开始授课,逐步深入到具体大数据技术的使用方法以及实际应用,更高阶内容有原理架构等理论知识,带你一级级跨过高门槛。

■ 训战结合,以赛代练:每一模块的知识都配有详尽的讲解视频以及实验安排,最后附有十余个综合运用各种技术、各个行业的数据分析应用案例,以及案例涉及的真实数据,全面提升动手能力和实战经验。

■ 统一平台,使用方便:课程综合平台以研究院研发的交互式统一大数据编程平台作为技术支撑。实验环境容器化,无需对诸多大数据软件进行复杂的配置和联调,即装即用,原生体验。解决大数据软件配置繁琐难以使用的痛点,能够让学生直接接触并快速掌握大数据编程技巧。


四、产品展示

5:详尽的实验手册