近日,国家工信部工信安全发展研究中心正式发布了2020年人工智能优秀产品和应用解决方案入围名单。经过材料征集、形式审查、专家初审、终审答辩、网上公示等层层严格筛选,江苏鸿程大数据研究院研发的“PASA-AutoML:人工智能自动化建模平台产品”脱颖而出,成功入选国家工信部2020年人工智能优秀产品。
本次评选由工业和信息化部直属事业单位国家工信安全中心组织,该单位是国家级的信息安全研究与推进机构,同时也是国家工信安全保障权威结构、国家战略决策高端智库。此次评选吸引了全国数百家知名的人工智能企业参与,共有数百个人工智能产品参与角逐,竞争异常激烈,最终仅有18家企业入选2020年人工智能优秀产品。
此次成功入选工信部优秀人工智能产品,是对本研究院PASA-AutoML人工智能自动化建模技术和产品的高度认可,这代表着PASA-AutoML自动化建模产品在关键技术、产品质量、成熟度等方面处于国内领先水平,并具有巨大的应用价值和市场应用前景。 2018年,南京大学PASA大数据实验室“跨平台统一大数据综合分析与可视化编程系统平台“项目,荣获国家工信部2018年大数据产业发展示范项目,本次PASA-AutoML人工智能自动化建模平台产品再次入选工信部优秀产品,体现了本实验室和研究院在大数据与人工智能技术领域,具有雄厚的技术基础以及实际落地化应用产品研发能力。
▌PASA-AutoML人工智能
人工智能已经成为国家重要战略,未来AI将进入各个行业与应用领域,“AI 赋能行业”的应用模式在未来将迎来高速成长。但是,人工智能的普及和应用面临技术门槛高、大量依赖专家经验、行业缺少专业人才、建模周期长、成本高、效率低等瓶颈和制约。为了能够让更多普通行业和企业完成大数据智能分析应用,加速大数据和AI应用落地,迫切需要一种高效易用的自动化AI建模方法和工具,提高AI建模效率,同时减少对AI人工专家的依赖,让AI建模技术平民化和普及化。
为此,江苏鸿程大数据研究院推出了PASA-AutoML自动化机器学习与AI自动化建模工具平台,内置了南京大学PASA大数据实验室自主原创、国际先进的AutoML自动化机器学习与AI建模技术。PASA-AutoML自动化建模平台功能丰富,简单易用。用户仅需给定训练数据集和预算时间,无需人工干预,即可实现AI模型的自动化构建。平台支持传统机器学习和深度学习的自动化建模,可实现传统机器学习流水线的全过程自动化设计,自动化完成数据预处理、特征工程、模型选择以及超参数调优等步骤,同时也支持深度学习自动化建模,实现深度神经网络和深度集成学习网络结构的自动化搜索和超参数调优。此外,产品还支持单表、多表、图像、视频、语音、文本、时间序列以及图结构数据等不同数据类型的自动化建模。通过使用自动化AI建模工具平台,在模型性能不低于人工专家的前提下,能够大幅提升AI建模效率,并降低AI建模门槛,让普通行业的数据分析应用开发与业务人员,能方便快速地完成AI建模,让AI技术普及化和平民化,让AI为人人所用。
PASA-AutoML自动化建模平台有两种产品形态,可以灵活服务于不同水平的用户:对于有编程基础的开发人员,提供基于Python环境的Web端编程平台和API编程接口,用户可以在云端使用高层易用的Python API 构建AutoML 应用,也能提供SDK开发工具,支持本地化安装部署。对于编程能力较低的行业数据分析建模用户,提供可视化拖拽式开发环境,用户可通过拖拽AutoML 算子,系统后台一键运行AutoML,自动化完成AI建模,并将自动化选择的最优AI模型和超参数添加到数据分析应用流程图中,从而高效方便地完成自动化AI建模。
◆自动化建模功能丰富:支持机器学习流水线的全过程自动化设计,支持分类、回归、聚类以及深度学习等自动化算法模型选择和超参数调优,支持深度神经网络结构自动化搜索、深度集成学习网络结构自动化搜索,以此提高AI建模效率,降低AI技术门槛
◆多数据类型自动化建模:除通用化的自动化建模能力外,支持宽表、多关系表、时间序列数据、图像、语音、文本等多种不同类型数据的自动化建模,并可根据特定数据类型,进行自动化数据增强和特征选择,利用特定数据类型的固有特征,进一步提高建模精度◆技术原创,建模性能优异:性能优于已有的开源AutoML系统,并在NIPS、KDD、PAKDD等顶级国际人工智能和数据挖掘会议举办的各类AutoML国际大赛中,多次荣获大奖,核心技术原创,技术水平国际先进,产品技术已应用于华为、360等企业◆落地化系统,扩展性强:基于所研发的先进AutoML技术开发完成落地实用化AutoML产品平台,底层可集成不同计算平台及AI算法,支持TensorFlow、SparkMLlib、Scikit-learn、XGBoost等各种开源的人工智能算法平台 ◆方便高效,简捷易用:可与研究院的统一大数据分析可视化编程平台集成使用,可在拖拽式可视化编程环境中,针对特定建模问题,通过AutoML算子,让机器在后台自动化选择最佳的AI算法模型和超参数,也可提供简单易用的AutoML编程API,供程序设计语言代码编程时调用
▌产品应用价值与案例
国际著名咨询机构Gartner公布的2019年人工智能领域热点技术中,AutoML自动化AI建模成为AI领域最为热门的技术,AutoML业已成为大型互联网企业大数据智能分析平台的必备工具与能力。在Gartner公布的2020十大战略性技术趋势中,“超自动化”和“专业知识的民主化”这两个重大技术趋势,都与AutoML自动化机器学习技术密切相关,亦即,未来包括AutoML在内的各种自动化软件编程开发技术与工具,将得到普遍应用,提高软件与应用开发效率,让类似于AI建模这样的专家知识与技能,变得平民化和普及化,能广泛为各行各业的普通开发人员所使用。
上图显示了利用AutoML自动化建模解决转炉炼钢生产工艺参数优化的应用案例。转炉炼钢生产参数优化,可以采用机器学习方法进行智能化建模。传统方法需要由人工智能专家完成特征预处理与特征选择、手工尝试不同的机器学习模型并进行模型的超参数调优,这个过程如上图中手工建模算法流程所示。
为了降低对人工AI建模专家的依赖,我们可以用AutoML工具平台来替代上述人工AI专家的建模过程。基本过程是,在可视化编程界面上,从数据库中读出原始数据集后,代之以人工AI专家选择AI算法模型和超参数,只需要选择AutoML算子,然后系统后台自动搜索出效果最佳的AI算法模型及超参数,并反馈到可视化编程界面上,以此即可完成转炉炼钢生产参数优化应用的自动化建模。PASA-AutoML人工智能自动化建模技术是来自于南京大学PASA大数据实验室多年来的研究成果,连续10多次荣获国际著名AutoML大赛奖项,此外,还荣获2019年第五届中国“互联网+”大学生创新创业大赛全国金奖。该项技术成果已成功应用于华为、360等知名企业,并通过南京大学授权转让给本研究院进行产品化开发。2020年KDD Cup 图数据AutoML自动化建模国际大赛第2名2020年NIPS AutoDL自动化深度学习建模大赛国际第3名2020年NIPS AutoDL/AutoSpeech 自动化语音建模大赛国际第1名2020年InterSpeech AutoSpeech2自动化语音建模大赛国际第2名2019年ACML AutoSpeech自动化语音识别大赛国际第1名2019年KDD Cup 多表时序关系数据AutoML自动化建模大赛第8名2019年ACML AutoWSL自动化弱监督学习大赛国际第4名2019年WAIC世界人工智能大会自动化自然语言处理建模大赛国际第7名2018年NIPS2018 AutoML自动化终生学习国际大赛国际第3名2018年PAKDD2018 AutoML自动化机器学习国际大赛国际第3名