OpenAI的新“语音引擎”只需15秒即可克隆语音_全球资讯热分享网(专注热点收集平台)

数字货币网报道：

主导生成人工智能工具ChatGPT背后的人工智能公司OpenAI推出了一种新的语音克隆技术，称之为“语音引擎”。这种音频模型可以基于相对较小的原始音频样本复制一个人的声音、语调和其他明显的人类语音模式。

该公司在周五的博客文章中表示：“值得注意的是，一个15秒样本的小模型可以创造出情绪化和现实的声音。”。

相比之下，人工智能语音平台ElevenLabs提供了一个即时语音克隆工具，需要至少一分钟的样本。为了获得最佳效果，其专业服务水平需要近10分钟的连续演讲。

该公司展示了这项技术的不同功能。在一个例子中，一位因血管性脑瘤而失去大部分说话能力的年轻患者的声音是使用她为一个学校项目制作的旧录音克隆的。据OpenAI报道，这就是她今天的声音。

OpenAI与布朗大学医学院附属的非营利组织Lifespan合作，并创建了一款名为Livox的工具，这是一款为残疾人构建的“替代通信应用程序”。该团队能够处理该女子为学校演讲制作的录音：

然后，开放式人工智能语音引擎能够提供即时文本到语音的功能，使患者能够有效地用自己的声音说话：

OpenAI还展示了HeyGen如何使用其技术将以特定语言上传的语音生成另一种语言的自然翻译。

该公司表示，语音引擎于2022年底首次开发，目前已用于为OpenAI的文本到速度API以及ChatGPT的语音和朗读功能中的预设语音提供动力。随着最新进展，该公司表示，在更广泛的发布之前，将保持谨慎。

OpenAI写道：“我们希望就负责任地部署合成声音以及社会如何适应这些新功能展开对话。

事实上，Meta去年夏天披露，其人工智能语音工具被搁置，特别是因为“潜在的滥用风险”

OpenAI解释道：“根据我们对人工智能安全的态度和我们的自愿承诺，我们选择预览但目前不广泛发布这项技术。”。

甚至在公开发布之前，OpenAI就对语音引擎进行了限制，包括一份不会效仿的知名人士名单。

OpenAI写道：“我们认为，合成语音技术的任何广泛部署都应该伴随着语音认证体验，以验证原始说话者是否有意将自己的语音添加到服务中，以及一个禁止语音列表，该列表可以检测并防止产生与知名人物过于相似的语音。”。

今天测试语音引擎的合作伙伴已经同意OpenAI的使用政策，该政策禁止未经同意冒充其他个人或组织。此外，该公司需要原始演讲者的明确和知情同意，他们不允许开发者为个人用户克隆自己的声音。

博客文章写道：“根据这些对话和这些小规模测试的结果，我们将对是否以及如何大规模部署这项技术做出更明智的决定。”。

除了语音引擎，开放人工智能正在并行处理多个项目。首席执行官Sam Altman透露，该公司正致力于今年发布GPT-5。该公司还展示了其生成视频工具Sora。该公司声称索拉将成为市场上最先进的视频生成器，超过Pika、Stable video Diffusion和Runway ML等型号。

索拉目前只适用于Open AI招募的“红队成员”，以确保其不会被滥用。

语音引擎肯定会胜过其他语音克隆工具，包括Meta、ElevenLabs、WellSaid Labs和RVC等开源模型。

Open AI也在进行一个名为Q*的秘密项目，其中只有它的名字被泄露了。萨姆·奥特曼拒绝透露任何细节，但表示研究团队专注于寻找让人工智能推理变得更好的技术和方法。

由Ryan Ozawa编辑。

编辑：web3528btc 来源：加密钱包代币

OpenAI的新“语音引擎”只需15秒即可克隆语音