Stability AI 发布音频生成模型 Stable Audio 2.0,现在允许用户上传自己的音频样本,然后通过提示转换音频样本并免费创造 AI 生成的歌曲。
与之前的版本,升级后的 Stable Audio 能从但同一的自然语言提示生成高质量、且有连贯音乐结构的完整音轨,最长可达三分钟,音质为 44.1 kHz 立体声,适合电台播放。此外,Stable Audio 2.0 不仅支持文本到音频的转换,还新增了音频到音频的功能,允许用户上传音频样本并将其转换为各种声音。
这一更新扩展了生效生成和风格转换功能,提供了更大的灵活性和控制权。
其中一个显著特点是其生成的歌曲结构更加完整,包括序幕、进展和尾声,使其更接近真实歌曲。
不过,一些体验者认为 AI 生成的歌曲在表达情感和灵魂方面仍有较大差距。目前,用户可以通过调整提示程度和上传音频的部分来使作品更贴近个人喜好。
Stability AI 表示,Stable Audio 2.0 是基于 AudioSparx 的音频库进行训练的,该库拥有超过 80 万个音频文件。同时,公司也在努力解决版权问题,与 Audible Magic 合作以防止版权音频进入平台。
同时,Stable Audio 目前免费向公众开放,未来还将提供 API 接口。
资料来源:综合报道;图片来源:Stability AI 官网视频截图