作者/宇中 编辑/郭吉安

在李佳琦和薇娅早已成为直播带货的代名词时,我们无法想象,虚拟偶像洛天依在淘宝直播的坑位费竟然高达90万元,是薇娅的五倍之多。

即便你不是虚拟偶像的受众,你也无法否认,它们正声势浩大的进军各个领域,寻求更多商业化的可能。当洛天依、我不是白吃等先行者在虚拟直播中取得不错成绩后,一众虚拟偶像们跃跃欲试,加入进来。

然而随着直播次数的增加,虚拟偶像背后的公司发现,其毫无情绪的、容易产生杂质等问题的声音,竟然成为阻碍它们收获更好直播效果的因素。他们寻求一项技术,能够赋予虚拟偶像们更为鲜活的生命特性。

“我是不白吃”“狗哥杰克苏”等虚拟偶像已经做出尝试,他们与标贝科技,一家提供AI声音转换技术的公司进行合作,试图解决这个问题。

当洛天依们遇上AI变声神器,虚拟偶像终于能说人话了

虚拟ip直播崭露头角,声音却成一大痛点

2020年,短视频或者直播,总有一个风口让人不想错过。继明星、央视主持人、罗永浩等陆续入局直播后,虚拟偶像强势袭来。

国内虚拟偶像顶流洛天依先是做客李佳琦直播间,后与天猫青年实验室合作在五一期间进行直播。有媒体报道,洛天依的淘宝直播坑位费是当下头部带货主播的10倍,高达90万元。相比之下,李佳琦和薇娅的报价则分别为32万和18万。

当洛天依们遇上AI变声神器,虚拟偶像终于能说人话了

如此高偿回报的诱惑下,一禅小和尚、狗哥杰克苏等虚拟偶像们纷纷入局。人潮涌入的背后,问题逐渐浮现。除了虚拟偶像无法自主直播带货,需要一位真正的主播在一旁配合外,声音成为一大问题。

4月21日洛天依在李佳琦直播间内表演才艺“唱歌”时,就因声音没有出来,李佳琦却在旁边感叹道“好好听哦”,引发观众群嘲。

其实对于观众而言,虚拟主播“好看”“好听”的特质是吸引他们的首要因素,观众对虚拟主播们的声音很是敏感。打开知乎搜索“洛天依声音”,首页满是质疑其“声音奇怪”的提问。

当洛天依们遇上AI变声神器,虚拟偶像终于能说人话了

原本,对于国内虚拟偶像来说声音就是一大难点,容易因为配音杂质等问题导致效果不佳。在日本,许多VTuber背后都有经过专业训练的声优和整个专业团队进行配合。现在的虚拟直播更是对国内虚拟偶像提出更高的声音要求。

首先,主播每次直播时间普遍较长。靠原来的声音技术,很容易中间出现小差错,导致粉丝离开直播间;

其次,对于虚拟主播背后的配音而言,很难一个人坚持这么长时间的直播,如果采取几个配音轮流上阵的做法,又容易让观众听出差别。万一这些配音突然辞职,虚拟主播的声音更加难以连续;

最后,如果是直播带货,则需要虚拟主播的声音中有更加丰富的情绪。你很难想象,李佳琦如果用平淡的语气说出“所有女生,买她”,还会产生这么高的销售量么?

这些问题,在虚拟主播大量使用合成器来实现声音的当下,其实很常见。确实,如果使用变声器,容易出现声音机械感强、无法场景化、需要人工反复调节声音参数导致不稳定的等情况。况且有行业内人士透露,目前头部IP在声音情感方面有更高要求。

针对这些问题,使用AI声音转换技术是目前比较好的解决方法。据了解,“我是不白吃”“狗哥杰克苏”等虚拟主播就即将采用一家名叫标贝科技的公司提供的该项技术。

AI声音转化,助力虚拟偶像像“真人”般发声

AI声音转化技术究竟如何解决这些痛点呢?

此前运用传统变声器易导致声音效果不稳定的问题,使用AI声音转化后可在免去人工调节声音参数环节的基础上,实现一站式自动声音变化,还能保障声音的稳定连贯。

当洛天依们遇上AI变声神器,虚拟偶像终于能说人话了

如果你担心因配音者变化给虚拟偶像带来影响,则可通过AI声音转化提前对虚拟偶像进行声音定制。配音师耗费十几个小时才能完成的声音效果,AI模型只需要几个小时的训练就可以定制出独特的声音,亚马逊就运用这项技术成功为Alexa定制出新声音。

目前,国内的标贝科技已经掌握这项技术,通过深度学习可以为虚拟偶像定制出个性化的声音。

为了实现声音定制,标贝科技收集了一个大概100人左右规模的语音库,这些人覆盖儿童、青年、老年等不同年龄段,每个人会说500句话,其中300句话是相同的,200句话是不同的。在不同人之间,存在一些共性,比如情绪,也存在一些不同的东西,比如声音特点。

当洛天依们遇上AI变声神器,虚拟偶像终于能说人话了

对这个语音库进行机器学习后,可以吸取不同年龄段人群说话的特点,这些特点可能受说话人的知识背景、生活环境影响,也可能受生理因素(比如声带的发育阶段,声带的老化情况等)影响,最终实现虚拟主播的声音定制化。

更为重要的是,AI声音转化技术还可以保留原说话人的语气和情感,让声音富有情绪,不再顿挫、冰冷,使得虚拟偶像的形象更为鲜活。

标贝建立起一个语音数据总规模时长超10万小时的数据库,帮助他们训练出声音中的不同情感,无论是高兴还是忧伤,情感程度或强或弱,都能通过这项技术实现。

当洛天依们遇上AI变声神器,虚拟偶像终于能说人话了

在标贝科技运用AI声音转换技术生成的一段音频中,当主人公说到“真是太可怕了,世界上到处充满了恐怖”,我们能明显听出说话人担心焦虑的情绪;当音频下一句进行到“我决心已定,我从未见过大海,现在应该去看看啦”时,说话人的情绪又立即转换为开心。

该项技术并非停留在试验阶段,标贝科技已将其投入于自己开发的智能语音APP恐龙贝克中。他们不仅为虚拟偶像恐龙贝克定制出独特的声音,还让其复刻配音员话语中的情绪,用抑扬顿挫的语气,向小朋友讲述童话故事。

他们现在正与MCN建立合作,将这项技术正式投入虚拟偶像中使用。

智能生活,影视综音,AI声音技术的广阔未来

虚拟偶像产业在国内已形成千亿级市场规模,商业化却始终做的不够。AI声音转换技术能显著提升国内虚拟偶像的声音质感,或许是助其通向更多商业化的第一步。

其实在人工智能领域,像AI声音转换这样的智能语音技术目前的产业化程度相对成熟,是一个产业规模较大的细分领域。据前瞻经济学人APP的数据显示,2014年国内智能语音时长规模只有30亿元,到2019年已经增长至204亿元。但在虚拟直播、明星IP开发、影视剧等领域中,却尚未普及。

以虚拟直播为例,通过AI声音转换技术缩短虚拟偶像的声音定制等耗费的前期投入时间;在直播过程中,省去人工调配声音的成本,还能避免声音出错;饱含情感的声音,能够调动观众情绪,激发他们的购买行为。使得虚拟直播成为虚拟偶像获得商业回报的有力途径。

现在,有明星开始尝试通过开发虚拟形象来拓展自己个人IP的商业价值。黄子韬就曾推出过以自身形象为原型的虚拟偶像“韬斯曼”,运用到条漫、插画、动态漫画和有声漫画市场。如果声音问题能够解决,未来这类明星虚拟偶像可以涉足直播,甚至与当下大热的虚拟直播带货结合在一起,开启新玩法。

当洛天依们遇上AI变声神器,虚拟偶像终于能说人话了

虚拟偶像参与综艺也是近些年来虚拟偶像在商业化中做出的尝试。三年前,一位名叫“荷兹HeZ”的虚拟偶像作为选手参与到选秀节目《明日之子》中,突破大众对虚拟偶像的有限想象,如果虚拟偶像能够从这一赛道中脱引而出,将来可以开发出在明星代言、音乐等领域的商业价值。上综艺节目,通常考验的是虚拟偶像在颜值、嗓音和表现力力三方面的实力,如果能够运用AI声音转换技术,对虚拟偶像的声音有所提升,将助力虚拟偶像参与更多综艺,拓展其商业价值。

当洛天依们遇上AI变声神器,虚拟偶像终于能说人话了

甚至在影视制作的配音过程中,AI声音转换技术也有潜在的利用空间。国内,像边江这样顶级的配音演员数量有限,很多影视剧可能想找他配音,却无奈因为他排不出档期而错失机会。如果能够运用AI声音转换技术,定制出和边江一模一样的声音,可以有效提高优质配音演员的产出。

除此以外当AI声音转换技术运用到娱乐互动领域,娱乐玩具可以跟你对话、可以rap、可以唱歌;到游戏领域,你可以在游戏中秒变大叔、萝莉,不用担心自己的声线单一;到匿名社交领域,进行个性化通话时,可以隐藏自己的声音。

可见AI声音转换技术一旦被普及,不仅可以拓宽虚拟偶像的商业化途径,对于影视制作、游戏,乃至社交领域都可能产生不小影响。

目前,标贝科技正作为先行者尝试将技术落地产业,特别是在虚拟直播领域已经同“我是不白吃”“狗哥杰克苏”等虚拟偶像达成合作关系。而未来随着AI技术对声音领域的赋能进一步落地升级,一个个更科技化的娱乐生活场景或将到来。