超过现有最先进模型!网易云音乐2篇论文入选ICASSP2023
近日,网易云音乐2篇论文《TG-Critic: A Timbre-Guided Model for Reference-Independent Singing Evaluation》《TrOMR:Transformer-based Polyphonic Optical Music Recognition》入选ICASSP2023,论文提出的两种算法模型均优于现有最先辈模型。
三大年夜技巧立异拆解“开口跪”,将全球最优算法精确率至少晋升4%
一种是歌唱评价算法模型TG-Critic,应用它可以仅依附一段演唱音频断定歌手演唱程度,实验成果注解,算法模型评估的歌曲与人工专家评价“演唱程度好”的歌曲,类似度达91%;另一种是辨认图像乐谱的算法模型,经由过程模型辨认图片中的五线谱,实验成果在复音乐谱上的缺点率最高也仅为2.1%。
据懂得,ICASSP(International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与旌旗灯号处理会议,是IEEE主办的全世界最大年夜的,也是最周全的旌旗灯号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力。此次入选,代表了网易云音乐在国际舞台上,展示出了在音乐音频范畴的技巧实力。
并且凭借在音乐技巧范畴的积聚立异,网易云音乐也赓续将前沿范畴研究成果应用于实践。依附今朝精确率最高的歌曲质量评价算法,歌唱评价将不再依附人力手工预备模板物料,歌手也不再须要模仿模板以获取高分,更鼓励歌手的个性化演绎。并且比拟卡拉ok中的传统歌唱评价,该模型将来将用于加倍丰富的应用处景,如歌曲分发、优质歌手发掘、声音社交等等范畴。而应用辨认图像乐谱的算法模型,可以将模糊的图片乐谱精确辨认,便利转换为应用率更高的格局,办事于音乐人、用户在观赏、教导、创作等场景的须要。
当歌唱师长教师和专家听到一首歌,就能敏捷可以断定出歌手的演唱程度,而通俗人则会用“开口跪”表达夸赞。当人们评价歌声质量时,人声的音色是影响断定的重要身分。受其启发,网易云音乐开创提出了一个音色为指导的歌唱评价模型:TG-Critic,将全球最优算法精确率晋升4%以上。
据介绍,网易云音乐音频实验室在歌唱评价模型的设计过程中引入了三个重要立异点:
2.迁徙高分辨率收集构造处理声谱特点:除了音色特点输入,团队从音频样本中提取CQT声谱特点作为模型的重要输入。为懂得决卷积收集局部性带来的问题,团队将图像瓜分范畴较为常用的“高分辨率收集”迁徙到歌声评价义务中,分别经由过程高、中、低三个不合的分辨率分支分别处理特点。经由过程高分辨率特点捕获局部信息(如演唱技能、小瑕疵等)、低分辨率特点捕获长距离信息(气味稳定性、音准等),从而实现保持高效性的同时,晋升模型提取有效信息的才能。
1.初次在模型中显式引入音色信息帮助歌声评价:研究注解,歌手的"音色"是影响人们对于歌声感触感染的重要身分。但不合于音准、节拍等较为简单的属性,音色是一系列复杂而抽象的感触感染的集合,是以其提取过程更为复杂,更难被模型直接捕获到。至今为止的歌声主动评价体系中,还没有研究聚焦音色特点对于模型猜测的影响。 为了弥补这一空白,团队立异性地应用本来为“歌手辨认”义务设计的预练习模型,提取与音色相干的高等特点,并将其用作歌声评价模型的输入。尽管这些特点本来并非为歌声质量设计,然则来自质量标签为“好”和“差”的样本的特点,在高维空间平分别出现出较明显的集合现象,证清楚明了其与歌声质量的相干性。
3.提出轮回主动数据标注降低人工成本: 对于一个模型的练习,靠得住的标注数据尤为重要。团队收集了3万余条歌声数据样本,以及其对应的机械打分(针对音准、节拍等)、红心数、评论数等可以必定程度反应歌声质量的元数据。经由过程一个轮回迭代过程,只须要人工标注个中小部分样本,便能获得足够靠得住的主动数据标签,大年夜大年夜降低了标注所需的人工成本。
跟着深度进修办法的应用,OCR(图像文字辨认 )近年获得了长足的进步,而OMR(图像乐谱辨认)却始终处于研究应用的初级阶段。因为这个偏向属于交叉学科,既要懂视觉算法又要懂乐理。今朝市情上的贸易或开源软件都不具备可用的精确率。
实验成果注解,在各类公开数据集上,网易云音乐提出的TG-Critic均达到国际最先辈程度,比拟已有算法,精确率晋升至少4%,部分数据集晋升10%以上。并且应用于网易云音乐营业测听的成果显示:在音乐人营业:运营评估歌曲推荐值≥3共159首歌曲中,算法评价为“演唱程度好”共144首,精确率达90.5%;在直播营业:运营供给100首算法剖断“演唱程度好”歌曲的人工验证,精确率91%;在500+全演唱水等分类实验中,精确率81.2%。
据懂得,TG-Critic歌曲质量评价模型将进一步削减人力依附并扩大年夜应用处景在直播、音乐人等内容分发场景,可协助人工遴选优质内容,可办事于作品审核、分发或推荐,优质歌手发掘在社交、游戏等C端场景,可供给“开口跪挑衅”等运营弄法。
懂AI又懂乐理,看图识谱技巧上的又一次冲破
是以,网易云音乐音视频实验室采取基于端到端的算法辨认路线,优化辨认流程:1)拿到一个乐谱图片,检测图片中的乐谱地位坐标;2)提取乐谱区域,进行乐谱辨认,辨认出乐谱中的内容信息,如下图:
针对该乐谱辨认模型,网易云音乐音频实验室也做了多方面的立异,大年夜大年夜进步了精确性。例如,将Transformer引入到乐谱辨认义务中,经由过程该构造可以实现更大年夜的感触感染野,有利于对长序列进行猜测,晋升辨认精确率;同时,将乐谱的信息维度将乐谱符号分为:乐谱符号全局表征+乐谱符号局部表征+音符音高。如许的拆分方法更利于机械懂得和进修。
值得留意的是,团队还精心设计了一套乐谱图片拍摄的筹划。为了收集大年夜量真实的数据,应用手机作为摄影对象,模仿最真实的摄影场景,对明、暗光场景的纸质乐谱进行摄影,以及对显示在显示屏上的乐谱进行摄影。
实验成果表示,网易云音乐的乐谱辨认算法的精确性已经跨越今朝最好的端到端音乐谱辨认办法,大年夜幅降低缺点率。下图中第一行动精确的乐谱辨认成果,第二行动今朝最好的复音乐谱辨认办法的辨认成果,第三行动本技巧提出筹划的辨认成果,红框标记的为缺点区域。
据介绍,该办法可以精确地将图片乐谱转换为midi、musicxml等格局,将来可用于音乐帮助教导、听歌搜谱等场景中,致力于在音乐观赏、教导、创作等场景上,为音乐人、用户供给更好的办事。
(责任编辑:ysman)