深度探索NLP技术路线和应用新场景 2022语言与智能技术竞赛圆满结束
9月18日,由中国中文信息学会(CIPS)和中国计算机学会(CCF)合营提议并结合主办的第七届说话与智能岑岭论坛召开。论坛上,2022说话与智能技巧比赛赛事组委会为各获奖团队举办了颁奖,赛事各冠军团队就参赛技巧筹划作具体申报。
赛事优胜团队在参赛筹划中均应用了预练习说话模型,也提出了很多立异思路和筹划,并取得了大年夜幅的后果晋升。相较于赛事官方的基线成就,段落检索义务晋升了15.40%,常识对话义务晋升了142.86%,情感可解释义务晋升了77.12%,视频语义懂得义务晋升了50%,各团队的技巧筹划有力地推动了相干义务的技巧摸索。在论坛的评测申报环节,四大年夜义务的冠军团队对各自的参赛筹划做了分享。
说话与智能技巧比赛由中国中文信息学会和中国计算机学会结合主办,百度、中国中文信息学会评测工作委员会和中国计算机学会天然说话处理专委会承办。自2018年举办以来,凭借面向真实应用处景的义务设计和源自真实场景的数据集,该比赛已成为全球最威望、最热点的中文NLP赛事之一。2022届比赛进一步进级,结合“千言”数据集开源项目,设置了段落检索、常识对话、情感可解释、视频语义懂得四大年夜义务,覆盖了跨模态、常识驱动、可托进修等前沿课题,具有较高的学术和家当价值。
赛题义务的周全进级受到了来自学术界与家当界的广泛存眷。据统计,本届比赛共计约2500支团队报名,参赛选手覆盖全球262所高校和208家企业,提交有效成果跨越7000份。个中,高校选手占比约52%,来自清华大年夜学、北京大年夜学、复旦大年夜学、中国人平易近大年夜学、中国科学院大年夜学、伊利诺伊理工大年夜学、悉尼大年夜学等国表里有名高校;企业选手占比约34%,来自中国移动、联通、安然保险、华为、腾讯、网易、小米、小鹏汽车、海康威视、施耐德电气等有名企业,覆盖了金融、互联网、传媒、通信、工程机械、能源、生物等多个行业。
经由激烈的竞争,最终来自中国科学技巧大年夜学、喷鼻港中文大年夜学、阿里巴巴、腾讯、商汤科技等高校与企业的共计16支团队获奖。
段落检索赛题获奖团队
常识对话赛题获奖团队
千言官网
情感可解释赛题获奖团队
视频语义懂得赛题获奖团队
在段落检索义务中,来自中国科学技巧大年夜学的“young的团队”提出了一种基于弱监督数据预练习的开放问答段落检索办法,该办法可以有效晋升检索精确率。在常识对话赛题中,来自腾讯的“拿件T恤就溜”团队,设计了一个基于及时常识搜刮API的常识对话体系,实验注解该筹划可以明显晋升对话整体的连贯性和吸引力。在情感可解释义务中,阿里巴巴的“Ali_农平易近工团队”提出了一个基于通用信息抽取同一框架 UIE的情感可解释分析办法,该办法根据情感可解释义务的特点,应用few-shot、文本聚类等办法,进步了模型的合理性、忠诚性。在视频语义懂得义务中,来自商汤科技&喷鼻港科技大年夜学的“商汤NLP×La Vi的团队”针对分类标签猜测义务和语义标签猜测义务,分别设计了对应筹划,提出了基于多模态进修的视频语义懂得模型,并经由过程数据加强、数据加权和多模型集成进一步晋升筹划机能,最终脱颖而出。
针对此次比赛,百度天然说话处理部主任架构师刘?进行了总结,他表示:“四大年夜义务的优胜筹划相对基线均大年夜幅晋升。各优胜部队均基于预练习模型进行了一系列的立异,如采取prompting技巧、面向义务的预练习等,有效地推动了技巧的进步。今朝来看,常识融合、可托进修、跨模态等技巧在应用落地中还存在很多挑衅,将来须要更大年夜地冲破。”
值得一提的是,本次比赛数据集均来自于千言中文开源数据集项目。千言是面向天然说话处理的中文开源数据共建项目,由中国计算机学会、中国中文信息学会和百度结合提议,今朝已有近20家单位的数据集作者介入共建,已有覆盖文本生成、情感分析、浏览懂得等15个义务偏向的近60个中文NLP开源数据集入驻。
2022说话与智能比赛宣布了首个来自搜刮引擎的大年夜范围中文段落检索数据集DuReader_retrieval、首个办事信息加强对话数据集DuSinc、首个细粒度中文情感可解释评测数据集DuExplain、视频语义懂得数据集 DuVideoTag。赛后,开辟者可持续在千言数据集官网下载应用以上数据集,并介入响应的榜单评测,赓续晋升技巧程度,实现立异成长。
说话是人类信息传递最重要的序言,近年来天然说话处理范畴获得了产学研各界的持续存眷。说话与智能技巧比赛将持续供给面向真实应用处景的数据集和富有挑衅性的义务设定,引领学术研究面向真实应用,晋升说话懂得与人机交互智能程度,为推动说话与智能范畴技巧成长和应用供献力量。
(责任编辑:ysman)