PASA-AutoML——人工智能自动化建模工具平台

产品介绍:

人工智能已经成为国家重要战略之一。“AI 赋能行业”的应用模式在未来将迎来高速成长。但是,人工智能的普及和应用面临技术门槛高、专业人才严重短缺、大量依赖专家经验、建模周期长等瓶颈和制约。尤其是人工智能在为各领域提供智能化应用的同时,人工智能模型的构建仍是专家手工作坊式的生产方式,成本高、效率低


为了降低AI应用门槛,加速AI应用落地,江苏鸿程大数据研究院推出了PASA-AutoML——人工智能自动化建模工具平台。本平台连续三次在国际著名的AutoML大赛中以优异成绩获奖,核心技术性能优异、国际先进、国内领先,产品功能丰富、简单易用。用户仅需给定数据和预算时间,平台即可利用机器去实现人工智能建模流水线的全过程自动化设计,将数据预处理、特征工程、模型选择以及超参数调优等步骤交由PASA-AutoML自动决策完成,从而实现AI模型的自动化构建,无需任何人工干预。


平台有两种产品形态,可以灵活服务于不同水平的用户:对于有编程基础的开发人员,提供有基于Python环境的Web端编程平台,用户可以在云端使用高层易用的Python API 构建AutoML 应用,另外也可以提供SDK开发工具,支持本地化安装部署;对于编程能力较低的用户,提供有Web可视化的开发环境,用户通过拖拽AutoML 算子到数据分析流程图中并一键运行AutoML



产品功能:
  • 底层算法丰富,业务场景广泛

    PASA-AutoML通过跨平台统一的算法接入层,用户可以灵活地接入不同计算平台下的机器学习算法实现,目前底层已经包含SK-Learn、XGBoost、LightGBM、TensorFlow 、Spark MLlib等算法库。并且本平台是一个通用建模工具,支持多场景的AI自动化建模,因此可以支撑多种多样的AI落地应用场景,例如互联网金融、政务民生、公安警务等,具有非常广泛的应用场景,可以助力AI行业的多种领域的客户。

  • 减少学习成本,支持云端和本地端两种部署方式

    PASA-AutoML提供了一系列高层易用的API和丰富的开发应用案例,可以以非常低的学习成本快速上手,快速完成AI建模应用。产品可部署在云端和本地端,云端产品提供了可视化的Web编程平台,其部署在江苏鸿程大数据研究院的海星交互式统一大数据编程计算平台下,通过Jupyter Hub进行登录,选取AutoML内核后即可使用。基于Jupyter的可视化编程方式大大减少了用户的学习和安装部署成本,用户将数据和代码在云端部署运行,即开即用、节省自身算力资源。另外,本产品也可以提供本地化SDK开发工具,用

  • 节省建模时间,聚焦业务场景

    PASA-AutoML基于南大PASA实验室的核心研发能力,打通了机器学习中特征工程、模型选择、超参优化三大功能,解决了机器学习建模问题的三大难题,并且集成了神经网络架构搜索以及神经网络超参调优等自动化深度学习技术,大大减少了AI建模人力研发成本,节省了用户建模的时间,让用户把更多的精力放在处理业务场景上。

  • 自动机器建模,降低使用门槛

    PASA-AutoML以强化学习的方法为主体框架提供了一个高效易用的自动化机器学习算法系统。用户只需要提供数据和预算时间便可以开始使用机器学习技术来解决手中的AI任务或找到调优的方向。

产品优势:
产品示例图:

平台底层基于强化学习的三阶段机器学习流水线Pipeline自动化设计,包含元学习、强化学习和集成学习三阶段。元学习阶段负责收集多个数据集进行预训练,实现强化学习阶段的热启动,加速强化学习收敛。强化学习阶段将每个阶段中的每一个可选方法视为状态,利用强化学习Q-learning算法选择最优的机器学习流水线。集成学习阶段使用Stacking 或者Ensemble Selection方法对多个性能较好的机器学习流水线进行集成, 降低过拟合风险,提升算法鲁棒性。


平台提供的基于Python 环境的Web 端编程平台,用户只需通过简单的若干行代码便可实现自动化机器学习。对于毫无编程能力的用户,平台提供有Web 可视化的开发环境,用户通过拖拽AutoML 算子到数据分析流程图中并一键运行AutoML。

图1:产品系统架构


图2:Web编程平台


图3:Web编程平台使用示例


图4:Web可视化平台



使用场景:

产品所获荣誉



平台研发依托于南京大学PASA大数据实验室AutoML技术团队,凭借自主原创、性能卓越的AutoML 技术,连续多次在国际著名的AutoML 大赛中以优异成绩获奖(PAKDD 2018 AutoML、NeurIPS 2018 AutoML、 KDD Cup 2019 AutoML,ACML 2019 AutoDL),其中PAKDD、NeurIPS 、KDD和ACML 均为人工智能/数据挖掘领域的国际顶级会议,大赛吸引了包括清华大学、北京大学、麻省理工大学等国内外知名高校以及微软、腾讯、阿里巴巴等科技巨头公司在内的众多参赛队伍。本项目团队从众多参赛队伍中脱颖而出,并获邀去澳大利亚、美国做技术报告。


至此,PASA实验室在2018年来一系列著名的AutoML国际大赛中,均以优异战绩获奖,体现了实验室在全流水线AutoML、全生命周期AutoML、时序与关系数据AutoML、图像文本语音非关系型数据AutoML等多种不同类型和特性的自动化机器学习技术方面,均具有很强的技术实力,总体处于国际先进水平。


2019年10月15日,南京大学PASA大数据实验室和江苏鸿程大数据研究院朱光辉、顾荣、王肇康等成员组成的团队, 以“PASA-AutoML:人工智能自动化建模工具平台”参赛项目,在第五届中国“互联网+”大学生创新创业大赛中荣获全国金奖。同时南京大学PASA大数据实验室与研究院负责人黄宜华教授荣获大赛优秀指导教师奖。


图5:AutoML 大赛所获荣誉


图6:第五届大学生创新创业大赛全国总决赛获得金奖



应用案例:

产品用户和合作伙伴

PASA-AutoML 已广泛落地应用于华为以及奇虎360 等公司,产品的性能和成熟度经过了华为以及360公司的严格测试和高度认可。在模型性能基本持平甚至超越人工专家设计模型的前提下,人工智能建模效率可提升30 倍左右,人力研发成本可降低90%以上

基于对产品的高度认可,360公司与本项目团队在AutoML 技术领域成立了“PASA-360-鸿程联合实验室”,后续会在“大安全”领域开展更广泛的合作。另外,除了大型互联网和IT 企业,PASA-AutoML 目前已在多个行业内实现落地应用验证,例如政务、公安、电力、能源、制造等。


图7:产品的主要用户和合作伙伴




图8:与360共建联合实验室