今年AI绘画（Text to Image，文生图）出圈后，AI音乐也有新的技术发展。（相关阅读：《不明觉厉的AI绘画，对内容创作者来说有什么用？》）

你试过文字生成音乐（Text to Music）吗？比如输入文字“赛博朋克街道（cyberpunk street）”，选择时长15秒并提交，等待3秒钟后，AI就生成了以下这段音乐——

听起来是不是有点行走在未来都市的感觉呢？

在此基础上再结合文生图的技术，图片生成音乐（Image to Music）也能实现了。让我们上传一张哭泣的甄嬛，听听AI能作出什么音乐——

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

低沉的前奏契合了甄嬛此时悲伤的心境，但20秒之后曲调突然变得欢快起来，莫非AI猜到了后来钮祜禄·甄嬛回宫复仇的故事（不是。

对于非专业人士来说，像这样给AI输入关键词或参考图，似乎就能轻松作出各种风格的音乐了。那么内容创作者可以借助AI生成音乐做些什么呢？作为视频配乐是否可行呢？我们带着好奇体验了一番。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

一句话，让AI生成个性化音乐

进入Hugging Face（一个AI社区）的“Text-to-Music”项目页面，我们在“prompt”框内输入文字，首先试试“旅行，自然，钢琴，美好”，默认时长30秒，勾选循环形式，点击提交。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

https://huggingface.co/spaces/Mubert/Text-to-Music

很快我们得到了这段颇有民族感的音乐，表达的情绪偏柔和。

再试试复杂一点的剧情描述，输入“雨天小猫在草丛中奔跑，身后有一只狗在追它，紧张，流行音乐”，不勾选循环，时长还是30秒。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

这次花费的时间长了些，但结果还挺惊艳的，紧凑的节拍一下子就带入画面感了。

我们给AI再加点难度，做一首甲方都想要的“高大上”商业音乐，输入“上流人士登上舞台发表演讲，好莱坞史诗，大气节拍，广告音乐”，不勾选循环，时长改为1分钟。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

结果虽然跟想象中颁奖仪式的隆重音乐不太一样，但放在时尚秀场就对了，已经能联想到相机咔咔的声音了。

你可能会好奇以上这些AI音乐在技术上是怎么实现的？

其实这里调用的是Mubert的接口，一个人工智能音乐生成平台，它将音乐家与AI配对，基于庞大的曲目数据库共同创作音乐。与AI绘画不同的是，Mubert的所有音乐都是由人创作的，不是由任何神经网络合成的，即“真人谱曲+AI组曲”。

据官网介绍，训练库包含来自4000多名音乐家的100多万个样本，平台购买了这些音乐demo的版权，然后通过AI进行识别、分类，打上标签，用户可以选择不同的风格流派、情绪和时长来生成一段音乐。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

在输入文字描述时，AI并不是从已有曲库中抓取相应的音乐，而是实时生成一个独特的声音组合，AI会为文字选择最接近的标签向量，同样的文字也可能生成不同的音乐，重复的概率很小。

就像刚刚那首“高大上”音乐，AI匹配的标签是“广告，艺术家，独立舞曲”。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

既然文字可以生成音乐，AI绘画也体现了文字可以和图片建立关联，那么能不能直接用图片生成音乐呢？

没问题，让我们打开“img-to-music”项目网页（https://huggingface.co/spaces/fffiloni/img-to-music），上传图片后，经由CLIP Interrogator生成文字描述，然后重复上面Mubert文字生成音乐的流程就可以了。

随便从相册里翻出一些照片来试试，上传一碗打工人常吃的沙县河粉，AI会给出类似中华小当家的美食配乐吗？

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

答案是不，可能是因为AI没看过这部经典动画，但听过歌曲《We Will Rock You》，前面18秒是类似的拍手声，后面10秒则加了一种悠扬的乐声，反正跟美食不太搭。

换一只可爱的小猫咪看看，AI会不会更容易理解？

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

的确是更贴近了，虽说不是想象中《恋爱循环》那样的甜蜜，但有种灵动俏皮的感觉。

除了平时拍摄的生活照片，我们还可以试着上传AI生成的图片，让AI自己画、自己奏乐。

比如日本网友“zyakobee”最近用NovelAI生成了一张明日香观看月全食的图片，我们把它转成音乐，听出了一种辽阔、神秘的意境，意外跟图片比较契合。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

而我们用文心一格生成的一幅古典园林，AI却配上了动感的现代电子音乐，也许曲库里缺少中国风的音乐吧。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

沿着AI自动生成绘画和音乐的思路，博主“大谷Spitzer”写了一个在线的可玩小工具，直接输入文字，AI帮你完成剩下的出图与配乐部分同时拼合成视频，“Text to Image to Music to Video”一条龙搞定了。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

https://huggingface.co/spaces/DGSpitzer/TXT-2-IMG-2-MUSIC-2-VIDEO?continueFlag=44ca945e9589f8672e34375b95ee34a3

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

AI给视频配乐，可行吗？

AI音乐不是今年才兴起的，2016年就有AI作曲了，AIVA深度学习了1.5万首交响音乐，是最早获得国际认证的虚拟作曲家之一，其作品被广泛用于网络视频的自动配乐。

此外，人工智能音乐创作工具还包括：

Amper Music：https://www.ampermusic.com/

Ecrett Music：https://ecrettmusic.com/

Google Magenta：https://magenta.tensorflow.org/get-started

Sony Flow Machines：https://www.flow-machines.com/

Soundraw：https://soundraw.io/

网易天音：https://tianyin.163.com/

……

大部分平台只要用户选择一些预设的场景、情绪和类型，就可以快速生成音乐，如果是专业创作者，不满意的地方自己可以进一步调整和修改。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

对于音乐人来说，AI已是辅助创作的一大利器。

索尼音乐制作人Richard Frenneaux曾在B站分享了几个AI工具可用于音色转变、人声分离、轨道分离、母带制作等创作流程。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

随着AI技术的发展，音乐创作的参与门槛降低了，不懂乐理的人也有机会作出自己想要的音乐，进而应用于视频配乐、播客背景音乐等场景。

更重要的是，AI提供了个性化、定制化的音乐，能为创作者节省挑选音乐的时间，提高内容生产效率。

短剧类博主“给我一个镜头V”的主创陈一川告诉新榜编辑部：“平时为了配个有感觉的音乐，单单找音乐都找了一天。无版权音乐太少了，很多音乐不一定是我想要的感觉，限制性太大。”

找到合适的音乐是一方面，另一方面，创作者使用AI生成的音乐能在一定程度上避免版权纠纷。

一旦音乐侵权，比如YouTube会将视频收益全部归为音乐版权方。但购买版权音乐并不便宜，在某网站购买一首音乐用于“自媒体/短视频/vlog/直播/录播”场景下永久授权的价格近3000元。

相比之下，创作者可以免费使用AI音乐或者花费较低的成本购买用于商业项目。

通过Mubert生成的免版权音乐，用户只需要标注出处，即可在视频、帖子、播客等个人内容中免费使用。如果商用的话需要付费，每月39美元，最多下载500首曲目。还有更便宜的平台，月付费价格仅4.99美元。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

“给视频配乐这种应用场景，我觉得AI是完全可以囊括的。”博主“小狮日记”曾做过AI音乐相关的项目，他认为未来AI音乐会发展得更加完善，现在的问题可能是技术还不够，或者说产品化的能力还达不到，导致没有成熟的AI音乐产品出现，瑕疵较多。

从专业角度来看，音乐人“只写小调的A-39”在Mubert相关视频下表示AI生成的音乐质量一般，“学习没几个月的新手用上预置和采样可以做出比这个好不少的片段”。

或许非专业人士听不出太多门道，但我们在体验中也发现AI音乐的准确度不佳，尤其是图片生成音乐的结果可能大相径庭，这与图片提取文字信息的局限性有关，文字和音频目前很难一一对应。

比如上传了一张蓝天白云大草原的经典壁纸，原以为会生成自然平和的音乐，结果变成了有些恐怖的阴沉鼓声。

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

看到梵高的《星月夜》，AI却生成了奇怪的呻吟声……

看到甄嬛哭泣表情包，AI当场花3秒作曲一首

由于一篇微信文章最多只能添加10个音频，大家可以自行尝试体验

随机性太强、音乐生成质量不够稳定可能是制约创作者选择AI音乐的一个原因。

但放眼未来，AIGC的浪潮来势汹汹，前有AI绘画，之后说不定“人人都能玩AI音乐”。

作者 | 卷毛

编辑 | 张洁

校对 | 云飞扬

本文系作者：新榜授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词

AI绘画

新媒体运营