起猛了,郭德纲开始讲英文相声了?

近日,一段AI技术合成的郭德纲讲英语相声的视频在各大社交平台上广泛传播。视频中,这位被称为“相声界泰斗”的顶级笑星,用一口流利的英语,在麻省理工大学说相声,引发网友关注。

视频中,郭德纲不仅英语发音准确,而且声音和说中文时一样风趣幽默,连嘴型都十分自然。

有网友纷纷称赞这种语音转换是“没有翻译腔的真正翻译”,认为即使是真人配音也无法达到这样逼真的效果。

01 AI技术让视频“跨国”传播

郭德纲讲英语的再次出圈,让人不禁想起前段时间火遍全网的AI孙燕姿翻唱。

AI孙燕姿是一种利用人工智能技术模仿新加坡歌手孙燕姿的声音和风格的虚拟歌手,它可以用孙燕姿的音色和唱腔来翻唱其他歌手的歌曲,达到接近原唱的效果。

不同的是,AI孙燕姿背后的核心技术是Sovits4.0歌声转换模型,它基于so-vits-svc的开源项目制作。Sovits4.0模型是一种歌声转换模型,它可以将一个人的声音转换成另一个人的声音,具有极高的准确性和逼真度。

而AI郭德纲则是一种利用人工智能技术模仿相声大师郭德纲的声音和风格的虚拟演说家。它可以用郭德纲的音色和说相声的方式来演讲其他主题或语言,达到接近原说者的效果。

不止如此,网传热门视频中还出现了讲英文脱口秀的蔡明,说普通话的泰勒·斯威夫特、特朗普、憨豆、埃玛·沃森等等。除了中英互换之外,国外还有人尝试将英语翻译成日语等其他6种语言,效果十分惊艳。

据了解,AI郭德纲背后的技术来自HeyGen,HeyGen是一款AI视频工具,可以让用户轻松地用不同语言说话。

用户只需上传视频,选择语言,就能生成自动翻译、音色调整、嘴型匹配的视频。虽然HeyGen还不够完美,需要手动添加字幕,而且情感表达有些缺失,但它已经吸引了很多创作者的关注。HeyGen现在有付费版和免费试用版,免费版可以生成1分钟的视频。不过,由于需求太大,有创作者说他们要等7000个视频才能轮到自己。

02 视频大火的背后是中国公司

HeyGen的背后,是一家名叫诗云科技的中国公司,成立于 2020 年,他们最初致力于做 AI 数字人生成,创始人 Joshua Xu 曾在 Snapchat 担任主要工程师,负责机器学习领域。

现在,HeyGen不仅可以让视频中的人物用不同语言说话,也支持40多种语言。这样就可以轻松地跨越语言障碍,与全球观众沟通。

HeyGen主要提供四项功能,可以让你用AI视频工具制作各种用途的视频,比如产品营销、内容营销、销售推广、学习培训等。你可以用HeyGen节省时间、金钱和精力,提高效率和效果。

在网站中,AI Avatar是最受欢迎的功能。用户只需录制一段大约2分钟左右的视频,等待几分钟,就能创建出自己的数字人形象,和真人相差无几。

与以往常见的AI换脸软件不同,在HeyGen中,数字人打破了过去的刻板影响,不再是简单地模仿面部表情和肢体动作,而是能够惟妙惟肖地展示出人类的各种情感和神态。此外,用户还可以通过在线AI制作或上传图片来生成影像,这一功能可以让静态的照片焕发活力,甚至能够开口说话。

HeyGen背后的技术原理并不复杂。网友经过调查发现,它基本上是在开源方案的基础上进行整合优化的,而这些开源方案单独使用时没有这么直接的一键转换效果。

根据推特博主@Gorden_Sun的总结,HeyGen中的文本翻译部分采用了GPT模型,语音转文字采用了whisper模型,声音克隆和新音频生成采用了so-vits-svc模型,最后的口型匹配采用了GeneFace++模型。通过整合优化这些开源模型,HeyGen才实现了当前流畅的一键中英文语音转换效果。

未来,这种深度合成转换技术必将广泛应用到更多领域。

例如,通过AI技术,可以实现影视作品中演员的语音无缝转换,让不同语言区的观众都能听到原汁原味的对白。也可以“复活”已故或退休的著名演员,让他们的经典配音在新电影电视中“重现”,为观众带来新鲜的视听体验。

随着AIGC时代的到来,AIGC技术将为创作者提供更高效、更智能的工具,协助他们解放生产力,投入更多精力进行创作。在这个过程中,创作者更需要敏锐的洞察力,灵活掌握新技术,积极探索新的创作方式和商业模式。

随着相关技术的不断成熟,我们有理由期待会出现更多有趣的语音合成场景,给观众带来更加丰富多彩的视听娱乐体验。