AI,让音乐创作更加民主化?这是浙大博四学生王子豪的梦想。
他目前是浙江大学计算机科学与技术学院 NEXT Lab 的一名博士生,在过去五年中专注于研究 AI 音乐。
同时,自 2019 年以来王子豪一边读书一边实践,曾担任爱歌科技创始人兼 CEO、对牛弹琴科技联合创始人兼技术总裁。
在今年夏天的 2024 年全球数字经济大会上,由对牛弹琴科技的深度合成算法所创作的主题曲《数字北京欢迎您》在现场展出,展示了公司产品的落地愿景。
王子豪的创业历程开始于本科阶段。作为较早进入这一领域的开发者之一,王子豪最初在爱歌科技带队研发的初创产品叫做“爱写歌”,它能将用户的清唱转化为带有编曲伴奏与混音的完整歌曲作品。
完成这一款面向专业音乐人的小众项目之后,他希望推进音乐创作的民主化,即让一个人无论是否具备音乐灵感或歌唱才能,都能用 AI 来生成音乐的方式表达心中所感。
用 AI 赋能音乐艺术创作和心理治疗
2023 年,在导师张克俊教授的指导下,王子豪与创业公司的同事、NEXT Lab 成员们提出一款名为 MuSiT 的与普通人日常用语对齐的 AI 音乐生成机制。
该机制除了用于自身模型生成外, 还可以广泛用于业界通用模型上,增强其对通俗口语描述的理解能力。
MuSiT 能够显著增强 AI 对于通俗日常表达的解析能力,从而能够有效弥合用专业音乐术语训练的 AI 系统 与业余普通人在表达和认知上的鸿沟。
在个性化音乐创作领域:
这套机制可以让用户能以日常口语的形式来传达个人情感、生活体验或定制需求,进而使用 AI 创作独一无二的原创音乐。
比如,在驾车途中用户心有所感时,只需简单的表达就能让 AI 创作出符合语境的精准歌曲。
再比如,当视频创作者或游戏制作者给视频或游戏配乐时,也可以通过非专业的表达来生成匹配氛围的音乐。
而在音乐治疗和心理咨询领域:
通过理解患者的口语化通俗描述,AI 能够生成有助于情感表达和心理疏导的歌曲。
比如,患者通过描述自己的情绪状态,能让 AI 生成对应的音乐,从而帮助他们更好地表达和理解自己,进而辅助于心理治疗和情绪调节等。
总的来说,本次技术不仅在音乐艺术层面开辟了个性化创作的新路径,也在心理健康等跨学科领域展现了潜在价值。
打造能听懂业余人士心声的 AI 音乐创作模型
事实上,根据给定数据自动创作音乐的 AI 音乐模型并非新鲜事。但是,在此之前这些软件距离人们的期待还有一定的落差。
要想理解这种落差首先得从“AI 对齐”说起。它指的是让 AI 理解并适应人类价值观,从而让其在执行任务时更加符合人类的期望。
比如,对于 AI 自动歌曲创作来说,人们的主要期待有:能否充分理解人类指示?能否生成满足人类听觉需求、以及符合预期结构的歌曲?
此前该领域的现状是:虽然有许多工具在某些方面已经相当不错,例如可以从文字生成音乐,以及可以从乐谱生成歌曲等。但是,依旧缺少一款能够真正理解业余人士诉求的工具。
因此,对于那些喜欢以通俗日常用语方式来描述自己思维的普通用户来说,仍然很难生成让其满意的 AI 音乐。
该团队认为导致上述局面的原因主要有两个:
首先,是因为缺乏高质量的大规模数据集,尤其是缺乏能够解析“通俗日常用语”歌曲描述的数据。
其次,是因为现有的 AI 模型的训练和推理过程还不足以充分理解“通俗日常用语”的词汇和句子,自然也就无法准确地生成符合人类用户想法的歌曲。
为此张克俊建议王子豪等人攻关这样一个课题:让通俗日常描述也能实现 AI 歌曲生成。即让 AI 能够充分理解非专业人士的口头描述,从而创作出符合用户要求的音乐作品。
要想实现这一目标:一是要对“通俗日常用语”表达方式进行深入理解;二是要能够精准把握歌曲中的复杂结构,比如曲段构成和韵律结构。
研究中:
他们面临的第一个问题是如何解决通俗描述-音乐配对数据的稀缺问题。对于这些数据来说,它必须包含各种通俗日常描述、音乐结构、流派以及情感等信息。
他们面临的第二个问题是要解决人机对齐的问题。目前,对于使用 AI 音乐生成产品的普通用户来说,往往存在口语描述和 AI 音乐模型反馈行为无法良好匹配的问题。
为了解决数据稀缺的问题,王子豪等人创建了 Muer 音乐注释平台(MuerAP),通过实施多人、多阶段的质量保证流程,来保证数据注释的准确性和一致性。
同时,他们分别邀请一批专业音乐家标注者和业余普通人标注者,让双方针对同一首歌进行标注。
不过在标注时,让他们分别使用不同的标签集合,从而能够针对同一首歌曲获得两种不同视角的结果,借此形成一个高精度的与公众理解一致的数据集(即 Muer 音乐数据集(MuerData))
王子豪表示:“MuerData 是第一个包含中文口语化通俗描述的开源音乐数据集,涵盖音乐专业人士和业余人士两种不同视角下的口语描述(风格和情感等维度),同时也涵盖了音乐结构的各个层次,旨在为端到端模型的微调训练提供精准的数据。”
相比已有的其他公开数据集,MuerData 更加适合从业余描述到歌曲的端到端模型微调,让模型能够充分理解业余人士的表达,从而可以满足大众的音乐欣赏诉求。
而为了解决人机对齐的问题,王子豪等人提出一种单阶段通俗日常描述到歌曲生成框架,并将其命名为 MuSiT。
MuSiT 能在通俗日常描述和音乐音频听感之间进行跨模态理解,从而能在生成音乐时能与用户对齐。
据王子豪介绍,在已有的开源文本-音频对比预训练模型的训练文本中,并未出现过中文通俗日常通俗描述的词汇和短语。为此,他们基于文本-音频跨模态理解模型的通用架构,采用 MuerData 数据集来训练 ChinMu Cross-Modal Encoder。
此外,MuSiT 使用用 fine-tuned LLM 来生成 Lyrics,因此可以通过相应的口语描述,来生成带有乐句结构和押韵方案等附加信息的歌词。
而对于歌词以及额外的结构信息,王子豪等人采用交叉注意机制,来将它们作为 DiT(Diffusion Transformer)和 SiT(Scalable Interpolant Transformer)捕捉歌词和音频之间相关性的条件。
除了歌词之外,只需使用一个 DiT/SiT 模型,就能以端到端的形式生成 人声、伴奏、旋律、和声、混响 等全部音乐内容。
这样的好处在于:所生成歌曲的各个音乐内容之间,在听感上非常协调,不存在割裂感。
然后,他们将上述控制条件为输入,并使用在变分自编码器潜在空间中运行的、基于 Transformer 的扩散模型(DiT/SiT),来生成与口语描述贴合的高质量歌曲。
同时,还使用变分自编码器的 Decoder 来将歌曲内容解码为 wav 文件。
在训练上,他们先是基于私有的大规模“歌词-歌曲音频”成对数据集,来针对变分自编码器进行无监督预训练、针对 DiT/SiT 做有监督预训练。
接着,他们在“通俗描述 to 歌曲”的任务上,基于 MuerData 数据集,来针对 DiT/SiT 进行微调训练,以便生成贴合人类通俗描述的、结构良好的歌曲。
让普通人也能实现音乐家梦想
作为第一作者王子豪认为,正是因为有了导师的指导,以及创业公司的同事们、实验室师兄师姐师弟师妹们的大力支持,才让本次研究得以顺利完成。
他们通过采用有监督学习的方法、以及采用专业人士-业余人士双视角的数据标注,并使用端到端的 single-stage 方式来完成了模型训练。
借此确保了 AI 生成音乐与人类诉求的协调和对齐,同时也让 AI 模型得以更好保持人类音乐的结构规范。
日前,关于数据集和标注平台的论文以《MuChin:一种用于评估音乐领域语言模型的中文通俗日常用语描述基准》(MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music)为题发表在 2024 年国际人工智能联合会议(IJCAI,International Joint Conference on Artificial Intelligence)上[1],相关数据集已开源 [2],后续研究工作也正有序开展 [3-5]。
关于未来的研究,他们也制定了一些计划。
首先,要进一步深挖专业人士和业余人士对相同歌曲的语义描述差异,并结合脑电和核磁等手段对相同歌曲在不同背景人类脑区所造成的差异性影响。
这将有助于相关算法在音乐的心理疗愈上发挥更大作用,并且将 MuerData 数据集从文本-音频扩充到更多的模态表示上。
其次,会更加关注大模型的安全和法律问题,在未来研究方向上也会涉及到 AI 大模型对于音乐版权的自动鉴定侵权与自动治理,确保模型输出的合法性。
“希望不仅能满足那些记谱高手和写歌高手的需求,更能让普通大众用音乐来感受内心世界里的万千波澜,让每个有音乐梦想的普通人都能实现自己的音乐家梦想。”王子豪表示。
来源:DeepTech深科技
分布于全国1000个城市的中国邻居儿童音乐学院CSMES学位房,是由中音联智库领衔的大师级设计团队统一打造,给予家庭儿童成员一个最为和谐与精致的生活及音乐文化学习小环境。......
CSMES艺术院校联盟小微乐器培训师专业联合招生,考前培训机构加盟认证及授权平台,专生输送,区域代理。......
微信公众号
扫一扫立即关注移动端网站
扫一扫手机访问中音联小程序
新城市核心示范区
扫一扫立即关注