今天做的最成功的事情就是,搞定了口播智能体的声音。确切的说,是搞定了克隆声音逼真度的问题。
在众多声音克隆工具中,我没有一一去测试哪家的工具克隆中文最逼真,而是直接把问题甩给了AI,几个AI给出了答案:minimax。
那就无脑选,不去测试了,因为教程也正好是minimax的声音克隆和调用api的教程。
跟着步骤下来,很快配置好了,上传原音,克隆声音,听效果,不错就配置api到口播智能体工具中。
除了自己这个二手的1660显卡,其他的都没问题。
因为显卡差,所以我一个2分50秒的视频生成花了半小时。如果这真是自己刚需的话,要么升级显卡,要么用云电脑,没有别的选项。
minimax无敌!
声音搞定,现在就差形象了。因为我使用的是公司房产主播Y的形象,所以我采集了他以前的形象。
但发现他以前的形象用不了,因为好多侧脸拍摄,转动的幅度太大,会导致嘴巴识别不全,出来的效果就是嘴巴模糊。
我告诉主播,要重新采集形象,要拍全身进去,或者至少半身进去;要正脸;要默念12345678,等等规则。
通过配好了声音(克隆声音效果不错),我发现自己之前一直没重视的数字人口播,居然又行了。
这对于IP打造,太香了。
-
祝
好好学习天天向上~
每天都要充满希望~