【新闻动态】PASA实验室在KDD Cup 2019 AutoML自动化机器学习国际大赛中荣获TOP 10优胜奖

2019-07-30

分享到



7月20日,在素有“数据世界杯”之称的KDD Cup 2019数据挖掘国际大赛AutoML自动化机器学习竞赛中,南京大学PASA大数据实验室代表队PASA-NJU,在全球860多支参赛队中,经过3个多月多轮激烈角逐,最终荣获大赛TOP 10优胜奖,评测成绩排名国际第8位。TOP10获奖者团队收到KDD Cup AutoML大赛主办方邀请赴美国参加KDD2019大会,参加颁奖仪式并做技术分享。


参加本次AutoML大赛的实验室团队成员包括:朱光辉博士(队长)、以及郭旭、方鑫、许卓尔三位硕士生同学。




近几年来,人工智能技术在国内外掀起了巨大的发展浪潮。著名计算机专家李开复预计,到2025年,AI将无处不在,“AI赋能行业”应用模式在未来将迎来高速成长。然而AI在行业应用时,存在着技术门槛高、专业人才短缺、依赖专家经验和手工作坊式生产、费时费力、建模周期长、效率低下的痛点,给行业AI应用落地带来诸多困难。


为此,近几年来,国内外出现了AutoML自动化机器学习技术,其目标是以机器替代人工建模,以AI设计AI,以此大幅提高建模效率,降低人工智能使用门槛。


南京大学PASA大数据实验室自2017年初开始从事AutoML自动化机器学习技术研究,是国内较早进入AutoML领域的研究团队。2018年,实验室在著名数据挖掘国际会议PAKDD 2018 举办的AutoML 挑战赛和国际人工智能顶级会议NIPS 2018举办的Life-long AutoML大赛中,连续两次荣获国际第三名的优异战绩。本次是实验室继前两次国际AutoML大赛获奖后,第三次在国际AutoML大赛中创造优异成绩!


至此,PASA实验室在2018年来三大著名AutoML国际大赛中,均以优异战绩获奖,体现了实验室在全流水线AutoML、全生命周期AutoML、以及时序与关系数据AutoML等多种不同类型和特性的自动化机器学习技术方面,均具有很强的技术实力,总体处于国际先进水平。


KDD是数据挖掘领域的顶级国际会议。KDD Cup由美国计算机协会知识发现与数据挖掘专委会(ACM SIGKDD)主办,是目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,吸引世界顶尖的专家、学者、工程师、学生等前来参赛,素有“数据世界杯”之称。每年有很多杰出的学术组织及科技巨头申请承办KDD Cup



KDD Cup已经在常规机器学习和强化学习领域举办了22次大赛。由于近年来自动化机器学习成为全球AI领域广为关注的热点技术,今年KDD Cup首次引入AutoML 自动化机器学习挑战赛赛道,受到全球学术及工业界的广泛关注。对于打破历来传统的数据挖掘方向赛事,增设AutoML赛道,KDD Cup大赛组委会主席表示,AutoMLAI落地的关键性技术之一,也是今年KDD国际会议关注的重点。


首届KDD Cup AutoML挑战赛由第四范式(4Paradigm)主办,由AutoML领域权威学术组织ChaLearn以及微软协办。通过本次AutoML大赛,主办方希望吸引全球范围内的AI专业技术人员和技术爱好者参与到AutoML研究进程中,为AutoML的探索发展和落地应用作出贡献,推动解决AI规模化落地的难题。


此次AutoML大赛设置了难度最高的比赛项目——基于时序关系型数据的AutoML自动化学习。时序关系型数据在在线广告、推荐系统、金融市场分析、医疗等实际应用场景中非常常见,往往需要充分利用这类数据的特性,进行机器学习模型设计和优化,以此提升智能化分析建模应用的效果。本次赛题主要考核的是参赛队伍在时序和多表关系数据学习时,在时序关系多表数据特征工程自动化选择处理上的技术方法和能力。赛事主要负责人、第四范式资深算法科学家涂威威表示,这是AutoML比赛历史上首次考虑时序关系型多表数据。与以往单表的自动机器学习比赛相比,本次挑战赛重点考察AutoML解决实际问题的能力,以此解决关系型、时序等多表类型数据学习和建模的挑战。


KDD Cup AutoML大赛于41日正式拉开帷幕,前后经历了3个多月的时间。比赛分为Feedback(反馈)、Check(检验)、AutoML(盲测)3个阶段。期间,各参赛队伍需要反复研讨探索和改进各自的技术方法。反馈阶段,参赛者基于公开数据集设计并提交AutoML方案;检验阶段,在参赛者无法看到比赛结果的条件下,在私有数据集上进行测试;盲测阶段,参赛队伍将各自方案在私有数据集上运行,在无人为干预情况下完成训练和预测。最终根据AUC排名选出TOP 10优胜团队。


2017年初以来,南京大学PASA大数据实验室在AutoML技术领域开展了一系列系统深入的研究开发工作。除了参加三次AutoML国际大赛所涉及的全流水线AutoML、全生命周期AutoML、以及时序与关系数据AutoML技术外,实验室还进行了深度神经网络结构自动化搜索与超参优化、深度集成学习网络结构自动化搜索、复合模型学习、资源受限场景学习等诸多AutoML技术的研究开发,并取得一系列实际技术成果。实验室所积累的系列AutoML技术成果,已经形成完整的AutoML软件系统工具平台,并已由南京大学授权研究院进行成果转化。



20197月,实验室代表南京大学参赛队伍,以AutoML技术与软件平台参加“全国互联网+大学生创新创业大赛”江苏省赛和国赛选拔赛,最终荣获省赛一等奖,并获得10月份参加全国总决赛的资格。


目前,实验室的相关AutoML技术与软件已在华为、360等知名企业得到推广应用,在保持模型性能不低于专家人工设计模型的前提下,自动化建模效率可提升20-30倍。


不仅大型IT和互联网企业会需要AutoML技术,AutoML更可进一步广泛应用于诸多缺少AI技术人才的行业/企业,以自动化和高效易用的方式,支持行业大数据智能化分析建模与应用的快速开发。


AutoML的目标是,让AI建模本身也变得自动化、智能化、高效化,让人工智能普及化、平民化,让AI惠及更多的行业和企业,以此让AI真正普及并赋能行业应用。