12月11日,由浦发银行和百度智能云主办、电子商务与电子支付国家工程实验室战略合作的2020“智荟杯”浦发百度高校极客挑战赛落下帷幕。本次大赛面向定向邀请的高校在校学生,共15支高校参赛队进入线下比赛,决出优胜。在计算机科学与技术学院自然语言理解团队的兰曼老师指导下,由李德健、赵尚卿、张甜甜三位研究生组成的算法赛参赛团队经过激烈的比拼,喜获本次大赛三等奖。
图1算法赛排行榜
本次大赛分为算法赛和方案赛两种赛制,方案赛参赛作品围绕金融数字化、智能化、普惠金融,聚焦AI、大数据、区块链等技术领域,解决或改进目前金融业发展过程中所面临的挑战;算法赛围绕自然语言处理技术搜索多领域泛金融数据,赛题是NL2SQL任务,即将用户的自然语言查询语句转化为数据库可执行的SQL语句,以便降低数据库使用的门槛,在用户不了解数据库编程语言的情况下,依然能够完成数据的查询与处理。本次赛题提供了多领域的数据资源,参赛团队需结合自然语言处理相关技术,实现自然语言至SQL语句的自动转换。
比赛现场
获奖团队参与了本次大赛的算法赛道,获奖系统由李德健、赵尚卿、张甜甜协作完成。在前期准备阶段,队员们调研了当前NL2SQL任务的数据集和SOTA模型,而在紧张的线下比赛阶段,他们根据大赛训练集、初始测试集中的SQL语句的类型及占比,基于现有模型IRNet设计了结合IRNet和抽取式阅读理解(MRC)的NL2SQL模型。模型在预处理时针对嵌套SQL语句进行了分解操作,之后使用IRNet模型执行基于语法规则指导的SQL语句的中间表示生成,对于其中查询的条件语句数值缺失和不准确的情况,设计了基于抽取式机器阅读理解模型从自然语言问句中抽取相应的数值进行充填和校验。在线下比赛的有限时间内,参赛队员们认真分析比赛数据,充分利用现有资源,经过良好的团队协作,在紧张激烈的竞赛中取得了三等奖的好成绩。
图2系统示意
本次大赛,获奖团队基于IRNet和抽取式MRC来解决NL2SQL任务,团队成员分工协作,经过两天在上海浦发银行上海总部的线下比赛,与来自上海、北京、杭州、西安等城市的高校队伍线上竞争,在大赛中取得了三等奖的成绩。团队成员在与兰曼老师,主办方以及其他高校的交流分享中也学习到了NL2SQL任务的难点、解决方法和未来前景,收获满满。
2020“智荟杯”浦发百度高校极客挑战赛
竞赛背景
为加强金融科技领域沟通与协作,引导金融科技研究和应用创新,激发高校大学生的创新意识和创业精神,搭建金融科技产学研共享平台、合作交流平台、创新创业平台,助力高校推动金融科技相关学科的深化发展,助力金融科技产业人才培养,并通过赛事进一步推动金融科技产学研深度融合发展,共同探索未来金融科技领域的发展方向,由浦发银行和百度智能云共同发起举办2020“智荟杯”浦发百度高校极客挑战赛。
本比赛采用定向邀约的参赛方式。本届大赛分两个赛道:方案赛道和算法赛道。由各参赛队代表所在高校直接进入线下比赛,决出优胜。
算法赛赛题名称
基于自然语言处理技术的多领域泛金融数据搜索
NL2SQL任务是将用户的自然语言查询语句转化为数据库可执行的SQL语句,其降低了数据库使用的门槛,在用户不了解数据库编程语言的情况下,依然能完成数据的查询与处理。本次赛题将提供多领域的数据资源,参赛队需结合自然语言处理相关技术,实现自然语言至SQL语句的自动转换。赛题有以下几个特点:
(1)赛题规模大。数百数据库,千张数据表,数万自然语言问题-SQL语句对,确保选手模型有充分训练空间。
(2)金融背景强。过半数据涉及金融领域,为业界首次公布的较大规模金融领域NL2SQL数据。
(3)领域覆盖广。金融领域之外,赛题也涉及天文、地理、历史、人文、科学、计算机等数十个领域,确保模型的泛化能力得到认可。
(4)SQL查询全。大赛题目设计多领域的跨表复杂查询,涉及多种关键词、复杂查询子句,使赛题更加贴近现实应用场景,提升模型的实际应用价值。
(5)现实联系密。赛题参照现实SQL应用场景,模拟可能出现的模糊表述等情景,加入了部分噪声数据,场景更真实。
中山北路3663号理科大楼 200062
沪ICP备05003394
Copyright 2019计算机科学与技术学院