星期日 , 12月 15 2024
首页 / 人工智能 / AI / 让霉霉说地道中文的AI,又惊艳升级了

让霉霉说地道中文的AI,又惊艳升级了

你应该在短视频平台刷到过各种 AI 配音:猴哥、紫薇、四郎……

初听有趣,但听多了容易腻,因为真人不这么讲话,原型也不是每时每刻都处在半死不活或者被掐着脖子的状态。

尤其当它们都在说“家人们谁懂啊”,会让不慎刷到的人暴躁到崩溃,上演猴哥甩头表情包:烦死了·GIF。

其实,AI 配音未必都这么有特点,而是越来越像你我一样普通,难以和真人分辨开来,这或许才是更可怕、也更有意思的。

一、不独立行走的 AI,把人类吓坏了

前段时间,X 上有个超火的“带货视频”,一个女子坐在汽车前排,直视着镜头,手舞足蹈、眉飞色舞地推销湿巾。

大多数网友的关注点,不在于她带了什么货,而是判断她是不是真人。

他们看她的手和口型,数她瞪白眼的时间,甚至观察她的发丝、面部肌肉、脸颊光影,势要找出证据把 AI 锤死。

为技术焦虑的悲观主义者说,AI 都这么真实了,人类要完蛋了。对技术半信半疑但维权意识强烈的网友说,这是真人的素材被盗了。

然而,两种说法都不对,事情走向了最平淡的结局:视频主角真实存在,她叫 Ariel Marie,今年 24 岁,自愿给 AI 打工。

去年 12 月,Marie 通过零工平台 Fiverr 接单,向法国 AI 公司 Arcads 提供了自己的声音和肖像,按照对方的要求,录制了 9 个不同场景的视频,包括边走边说的、坐在车里的。

最近爆火的视频,她没能第一个知道。等到出圈之后,朋友的朋友发来视频,问她是不是被 AI 偷脸了,她才了解到网友们都在关心自己是否是人类的一份子。

打开视频的瞬间,连 Marie 自己都愣了一下,冷静下来细看,这个数字人是她又不是她,她不会这么推销产品。

Ariel Marie 本人

所以,视频并非纯 AI,而是基于真人演员的预录制,再使用了 DeepFake、AI 配音、口型匹配等技术。

AI 是否独立行走,或许不重要,哪怕没有从头到尾使用 AI,只要最终效果逼真,也是成功的“造假”。网友们第一反应里的疑惑和惶恐,已经说明了问题所在。

AI 甚至不需要比真人做得更好,水平相当就能过关,比如作为绿幕素材插入视频,反而让人觉得是刻意为之,粗制滥造的效果别有风味。

毕竟,我们刷短视频时,可能正处在最分心的状态,坐在沙发,躺在床上,或者在厕所蹲坑,注意力不足以识别是不是 AI。

Marie 为 AI 拍摄的 5 个视频,报价和接单平台的普通视频差不多,15 秒广告的起价约为 70 美元,60 秒广告的起价约为 130 美元。

同时,Arcads 的套餐收费不低,每月 100 欧元 10 个视频,但创作者们还是能节省时间、金钱和精力。

他们输入文字内容、挑选符合风格的演员,几分钟就能生成视频素材,比招聘真人要便宜,还不需要反复沟通和寄出产品。

图片来自:YouTube@Alex Cooper

自从 Marie 走红,更多 AI 公司向她抛去了橄榄枝。人类成为 AI 产品的素材,或许也是一条短暂可行的生财之道。

二、AI 的言行举止,更像普通人了

同在 AI 视频领域,之前让霉霉说中文爆火的 HeyGen,最近也整了新活。

他们的 AI 角色 Nik,在阳光正好的公园里步履款款,边走边说左手插兜右手自然摆动,甚至还会走累了坐下,丝滑切换英语、德语和西班牙语。

效果已经有些难辨真假,不是只能在镜头前面正襟危坐、除了对口型八风不动的状态了。

这说明 AI 角色在两个方面取得了进步,一是可以识别和跟踪用户的身体动作,包括手部,二是在保持口型同步的同时,切换语言还能克隆用户的语音语调。

其实,HeyGen 的 AI 角色也是取材于真人演员,默认的 AI 角色有上百个,拥有不同种族、年龄、手势。

同时,HeyGen 也支持我们定制自己的 AI 角色,但是对拍摄设备和场地的要求稍高。

所以在不久的未来,我们应该可以创建自己的数字替身,让它精准地复制自己的动作和说话方式,同时又无痛掌握多国语言。

虽然最新的功能还没有开放使用,但 HeyGen 放出了 Demo,欢迎网友们输入文本随意尝试口型同步功能,我便让 Nik 读《岳阳楼记》,4 分钟左右就生成完毕,效果有些幽默。


AI读岳阳楼记

Nik 在普通话里混了外国口音,谪守的谪、浩浩汤汤的汤没读对,口型似乎对上了又没有完全对上,更没有投入什么感情,看着他皱起的眉头,仿佛他自己也越念越疑惑。

值得一提的是,HeyGen 背后有 OpenAI 的支持,他们的视频翻译,使用了 OpenAI 前不久官宣的语音模型“Voice Engine”,既可以把声音翻译成多种语言,还保留母语的口音。

官宣,但不是对外发布,OpenAI 的理由是担心滥用,毕竟门槛太低了——使用文本输入和一个 15 秒音频样本,他们的模型就能生成与原始说话者非常相似的自然语音。

但 OpenAI 的普通话说得还不够好,咬字奇怪,声调读不准,当然,考虑到是外国友人,带点口音才显得纯正。


OpenAI普通话

微软,OpenAI 的金主,也在拟人语音方面颇有建树,最近推出了 9 种更真实的 AI 语音,主要服务于对话场景,这和 ChatGPT 等更加通用的产品不同,更加强调人情味。

其中还有两段中文,领先了 OpenAI,甚至不逊色普通话一级甲等的国人。

字正腔圆,没有一点杂音,像播音主持专业毕业生坐在录音棚聊天,咬字、语气、笑声、停顿都非常像真人,听起来确实非常自然,在抖音和视频号前途无量。


微软AI语音对话


微软AI语音播客

以后我们看的五分钟电影解说里的“注意看这个男人叫小帅”,或许不再那么有机器味了。而在一些露脸的视频里,博主们也完全可以用自己的数字替身代劳。

那些相貌出众但不真实的 AI 颜值博主会过时,难以分辨的 AI 普通人博主才是职业生涯长青的赛博打工人。

与其焦虑被偷家,不如自己拥抱数字替身

面对越来越“普通人”的 AI,深感焦虑的,除了怕被诈骗的大众,还有从业者们,这直接关乎到他们的饭碗。

克隆声音,从文本生成音频,用你的声音说出你不会说的话,正在变得越来越容易。OpenAI 语音模型所需的样本,只有短短的 15 秒,短视频都比这长。

行业头部或许还站如松坐如钟,但刚入行、不出名、充当背景板的配音演员们悬起了心。

配音演员 Jared Butler 就是其中一位,他擅长模仿名人的声音,曾是德普的“嘴替”,在《加勒比海盗 3:世界的尽头》等大片为杰克船长配过音。

然而,比他更会模仿声音的 AI 来了。Jared Butler 深感打击:“你可能觉得,它们听起来是糟糕的客服机器人,但我必须说,这项技术的准确性让人恐惧。”

但也因为没有什么可以失去,对于一些配音演员来说,AI 反而是个就业机会。AI 公司们和这些配音演员,属于双向奔赴。

当对数据质量的要求越来越高,同时公开来源的数据搜集是否道德、是否经过本人同意存在舆论争议,AI 公司和专业人士达成你情我愿的合作,成了最稳妥的方式。

Replica Studio 是较为出名的一家 AI 语音技术公司,已经搭建起了一个游戏角色语音库。

与之合作的一位配音演员透露,对于每个角色,他都会录制不同情绪的台词,快乐的、悲伤的、压力山大的。每种情绪大约有 7000 个单词,最终的音频数据集长达几个小时。

虽然在短视频之外,AI 配音还不那么普及,但嗅到危机的一些配音演员决定主动出击,变相转行,翻身做老板,手把手教 AI 代替自己。

为《博德之门 3》等游戏大作配过音的配音演员 Cissy Jones,发现自己被偷了声音对方还不道歉之后,怒而开了一家 AI 语音初创公司 Morpheme。

她保证和那些小偷的道德标准不一样,在争得演员同意之后,才创建他们的数字替身,让他们从中盈利,演员们也可以选择结束合作。

与此同时,Cissy Jones 自己也想省力,让 AI 帮自己做最累的配音部分,尖叫声、沉重的呼吸声,诸如此类。

说回文章开头提到的 AI 带货视频,起初,Ariel Marie 对 AI 只有一个模糊的概念。在贡献自己的声音和肖像之后,她问 Arcads 这些素材会用来做什么。

对方回答,你的肖像会被放在网站上,让别人输入他们想说的话,然后你说给他们听。这个简单的答案,反而打动了 Ariel Marie,她觉得有点可怕,但更多是觉得,这太酷了。

AI 不会倒退,诈骗等负面影响可能也很难禁绝,但同时 AI 只会变得更好、更快、更便宜、更接近人类。

站在原地讨论人的创造力和人性如何保留,或许是苍白而无力的。我们在一次次案例里被迫承认,AI 在某些方面已超过普通人,比如我们无法在思考几秒之后,就字正腔圆、情绪饱满地说出几十秒的话。

但在人与人之间,起跑线或许差别不大,焦虑的情绪彼此共鸣,如何让 AI 为自己所用,如何避免 AI 剥夺自己,不排斥看到新的世界的机会,也是人类创作力的体现。

关于 声波

声波
发现不同的声音

检查

陶哲轩对谈OpenAI高管:“也许很快OpenAI就能证明陶哲轩是错的”

“也许很快OpenAI将能证明 …

发表评论

邮箱地址不会被公开。 必填项已用*标注