今日转得快的读音(转得快的拼音)
您好,来为大家解答以上问题。转得快的读音,...
克雷西 发自 凹非寺
(资料图)
量子位 | 公众号 QbitAI
“再多看一眼就会爆炸,再靠近点就快被融化”到底是个什么感觉?
(这是一句《只因你太美》中的歌词)
下面的音乐或许能让你体会到这种“从来未有”的feel,坤坤听了都会直呼内行。
这段音乐来自Meta最新推出的文生音乐工具MusicGen。
只需要输入一段文字,点击生成按钮就能得到一段最长30秒的音乐,而且支持中文。
不懂乐理也没关系,MusicGen还可以上传已有的音乐作为参照。
【更多音频效果,请移步公众号文章】
比如上面这段音乐就是结合了原曲旋律重新生成的。
如果你实在不知道怎么prompt,也可以像这位网友一样问问ChatGPT:
无论是国风还是摇滚风都能轻松驾驭,甚至是两者结合。
【更多音频效果,请移步公众号文章】
哪怕国风伴奏也难不倒MusicGen。
【更多音频效果,请移步公众号文章】
测试结果显示,MusicGen的综合评分比谷歌的MusicLM高出了5.36%。
有网友给出了详细的测评体验:
这个模型似乎没有专门针对乐队名称进行训练,但用已有的风格生成音乐时表现非常好。……尽管(项目)网站中的示例是(开发者)挑选过的,但这并不能否定它可以生成好的作品。
音乐的合成涉及多段旋律以及多种音色(乐器)之间的协调。
而不同于语音合成,人类对音乐之中的不和谐因素更为敏感。
那么MusicGen是如何完成这一复杂任务的呢?
我们先来看看它的训练数据。
Meta团队一共使用了两万小时的音乐。
这之中包括一万条内部搜集的高质量音轨以及ShutterStock和Pond5素材库中的数据。
来自后两者的数据量分别为2.5万和36.5万。
这些音乐数据在32kHz下被重新采样,都配有流派、BPM等基本信息和复杂一些的文字说明。
除了上述训练数据,Meta团队还准备了评价数据集MusicCaps。
MusicCaps由5500条专业作曲家谱写的10秒长的音乐构成,其中包括一千条平衡各个音乐流派的子集。
说完训练数据,我们来具体看看MusicGen的工作流程。
第一步是将声音信息转化为token。
这一步使用的是Meta去年研发的卷积网络编码器EnCodec。
至于编码方式,Meta团队通过实验对四种不同的方式进行了测试。
最终,团队选择了延时模式(下图右下)并进行了精准建模。
最核心的Transformer部分,团队训练了300M、1.5B、3.3B三个不同参数量的自回归式Transformer。
在混合精度下,训练上述三个参数量的Transformer分别使用了32、64和96块GPU。
对于文字处理,在评估了多个前人成果后Meta团队最终选用了Google团队2020年提出的T5模型。
对于音乐旋律的调整,团队选用了无监督的方式进行,规避了监督数据不佳导致的过拟合问题。
最终,Transformer输出的数据被转换为对数形式,然后根据编码本生成最终的成品。
目前,想要体验MusicGen,一共有三种方式。
第一种方式是直接用官方在Hugging Face发布的DEMO。
(传送门见文末)
这种方法操作最为简单,点进链接就能用。
缺点是得排队,有时候还会赶上服务器被挤爆、重新building等情况。
第二种是通过谷歌Colab搭建。
比第一种多了个一键部署的步骤,不过也比较简单,官方已经把部署要用的代码准备好了。
(传送门见文末)
进入之后,点击左上角的运行按钮即可完成一键部署,然后会得到一个专属链接,点进去就可以体验了。
不过这种操作方式需要谷歌账号才能用。
第三种方式则是自行部署。
你需要有足够性能的GPU,且已经安装了PyTorch2.0或以上版本。
使用下面的命令即可完成安装:
安装好后,使用【python app.py】命令即可运行。
传送门Hugging Face:https://huggingface.co/spaces/facebook/MusicGen谷歌Colab:https://colab.research.google.com/drive/1-Xe9NCdIs2sCUbiSmwHXozK6AAhMm7_i?usp=sharing
论文地址:https://arxiv.org/abs/2306.05284GitHub页面:https://github.com/facebookresearch/audiocraft参考链接:[1]https://twitter.com/dr_cintas/status/1667597176145313793[2]https://twitter.com/nikhilaravi/status/1667692767534006273[3]https://news.ycombinator.com/item?id=36271926
— 完 —
量子位 QbitAI · 头条号签约
关键词:
彩虹喷泉、火山喷发、浓烟瀑布……为了吸引家长购买,部分商家将化学实验搬到了孩子们的玩耍场景中。近日,北京商报记者调查发现,电商平台
北京商报 2022-07-08一季度家电行情双线下滑、疫情面扩大消费受到影响、工商业生产和供应链受到影响,这三个因素或对618电商大促产生重要的影响。今年3月以来,
蓝科技 2022-05-20深陷亏损中的生猪行业,笑到最后的选手或不仅有家底,更要会审时度势。4月生猪价格上涨后,头部上市猪企的销售收入随即上涨。不过,不少上
中国商报网 2022-05-205月17日,人民币对美元汇率迎来久违的大涨。人民币对美元即期汇率当日收盘报6 7472,较上一交易日涨495个基点,创出了一年多的最大升值幅度
深圳商报 2022-05-20国家统计局近日发布的数据显示,今年1—4月餐饮收入13262亿元,同比下降5 1%;其中4月餐饮收入2609亿元,同比下降22 7%。值得关注的是,近几
中国商报网 2022-05-20今年以来,广西各级农业农村部门提早谋划、主动作为,积极抓好农业生产。据农情统计,全区春种粮食作物面积已超过全年任务的一半,超额完成
农民日报 2022-05-20源飞宠物IPO近日过会,拟登陆深交所主板,成为宠物牵引用具第一股。 资料显示,源飞宠物主营宠物用品和宠物零食的研发、生产和销售,主要
深圳商报 2022-05-20彩虹喷泉、火山喷发、浓烟瀑布……为了吸引家长购买,部分商家将化学实验搬到了孩子们的玩耍场景中。近日,北京商报记者调查发现,电商平台
北京商报 2022-07-08一季度家电行情双线下滑、疫情面扩大消费受到影响、工商业生产和供应链受到影响,这三个因素或对618电商大促产生重要的影响。今年3月以来,
蓝科技 2022-05-20深陷亏损中的生猪行业,笑到最后的选手或不仅有家底,更要会审时度势。4月生猪价格上涨后,头部上市猪企的销售收入随即上涨。不过,不少上
中国商报网 2022-05-205月17日,人民币对美元汇率迎来久违的大涨。人民币对美元即期汇率当日收盘报6 7472,较上一交易日涨495个基点,创出了一年多的最大升值幅度
深圳商报 2022-05-20国家统计局近日发布的数据显示,今年1—4月餐饮收入13262亿元,同比下降5 1%;其中4月餐饮收入2609亿元,同比下降22 7%。值得关注的是,近几
中国商报网 2022-05-20今年以来,广西各级农业农村部门提早谋划、主动作为,积极抓好农业生产。据农情统计,全区春种粮食作物面积已超过全年任务的一半,超额完成
农民日报 2022-05-20源飞宠物IPO近日过会,拟登陆深交所主板,成为宠物牵引用具第一股。 资料显示,源飞宠物主营宠物用品和宠物零食的研发、生产和销售,主要
深圳商报 2022-05-20您好,来为大家解答以上问题。转得快的读音,...
2023年9月9日12:15 来源:中新网重庆
古装剧《云之羽》原本因为虞书欣、张凌赫这对...
本报北京9月8日电(记者施芳、潘俊强)9月8日上...
近日,索泰推出了一款采用无风扇被动散热设计...
山西长子“羊倌”养羊20余年 带动700余户养殖户发“羊财”
上海首个“两山”实践创新基地成功创建
广西医科大一附院向越南捐赠医疗防疫物资
黄埔海关破获案值5.5亿元走私进口二手挖掘机案
黄河内蒙古段今年首次出现流凌
Copyright 2015-2022 大河仓储网版权所有 备案号:京ICP备2022022245号-75 联系邮箱:435 226 40@qq.com