OpenAI再发大招推出Voice Engine!让失语者发声只需要15秒音频..._全球资讯热分享网(专注热点收集平台)

OpenAI再发大招推出Voice Engine!让失语者发声只需要15秒音频...


OpenAI再发大招推出Voice Engine!让失语者发声只需要15秒音频...

  2024-04-04 09:01:38     简体|繁體
http://refenxiang.com/1059714.html

数字货币网报道:


作者:小岩

编辑:彩云

许久没有新动作的OpenAI最近显得颇为低调。但事实上,对于这些卷的不能再卷的AI头部公司而言,没有人是敢躺平的。大家不是在发布新品,就是在研发新品的路上。

3月30日,OpenAI宣布推出全新的人工智能模型——Voice Engine。这并非是一个全新的模型,事实上,自2022年开始,OpenAI便默默布局,开展了对于该模型的研发工作。


工作原理简单而高效!能够驾驭合成声音所带来的挑战和机遇。

对于这款最新发布的模型,OpenAI官方推特的措辞异常小心而谨慎,它表示,“我们正在分享从 Voice Engine模型的小规模预览中获得的经验体会”。事实上,Voice Eengine所呈现出来的工作效率的确是简单而高效的。



Voive Engine最大的特点在于语音克隆。其中的工作原理很简单:用户仅需通过电话或电脑麦克风录制一段15秒的声音片段,OpenAI的语音引擎便能生成“与其声音高度相似的自然语音”。在此之后,无论是面对什么样的文本,它都能以近乎完美的克隆声音进行朗读。

这项技术的问世,显然会对那些经常录制自己语音的人,诸如播客,配音艺术家,口语表演者,有声书和广告解说员,游戏玩家,流媒体主播,客户服务代理,销售人员等众多职业产生重大影响。

除此之外,OpenAI还特别强调了语音引擎在支持非语言个体方面的独特能力。它能为这些个体提供个性化的,非机械化的声音,为那些有语言障碍或学习需求的人提供治疗和教育方面的帮助。



一旦技术得以成行,Voice Engine不仅能实现更真实的人声复刻,更重要的是,它还能适用于各种场景的应用,诸如为孩童朗读故事,企业产品介绍,医疗咨询服务,为语言障碍者提供帮助等。它不仅支持多种语言,更能模仿出不同的语调和情感,应用不可谓不广泛。


Voice Engine由来已久,相关应用早已有之。

正如我们前文所提到的那样,早在 2022 年底,OpenAI 便开发了 Voice Engine 并将其用于支持文本到语音 API 中的预设语音以及 ChatGPT 语音和朗读。所以,在展望Voice Engine未来可能产生的广泛应用场景之前,我们不妨看看它曾经有过哪些实用案例。

首先,Voice Engine可以通过自然,富有感情的声音为非阅读者和儿童提供阅读帮助。这些声音不是呆板的预设声音,它代表了更广泛的说话者。譬如一家名为Age of Learning 的教育技术公司就一直在使用 Voice Engine 生成预设的画外音(voice-over)内容。他们还利用 Voice Engine 和 GPT-4 创建实时且个性化的回应,从而与学生进行互动。



其次,Voice Engine可以翻译视频和播客等方面的内容。通过使用Voice Engine,创作者和企业可以用自己的声音流利地向世界各地更多的人进行传播。据悉,HeyGen便是这方面的早期应用者之一。HeyGen是一个人工智能视觉故事平台,通过使用 Voice Engine 进行视频翻译,将演讲者的声音翻译成多种语言,从而覆盖全球受众。值得一提的是,即便是翻译,Voice Engine也会保留原说话者的母语口音,譬如带有法语口音的英语等。



此外,Voice Engine可以为不会说话的人群提供支持:为患有影响语言的疾病的人群提供治疗应用;为有学习需求的人群提供教育增强功能等。譬如它能够为不会说话的人群提供多种语言的独特非机器人语音。用户可以选择最能代表自己的语音,对于多语种用户,它也能使每种口语都保持一致的语音。


担心合成技术可能会被滥用,暂时没有完全公开的计划。

尽管语音生成式AI被认为是OpenAI的又一次巨大突破,但很显然,官方并不急于向外界完全公开Voice Engine。究其原因,主要是因为合成语音技术具有巨大的风险,很可能会被滥用。特别是最近一段时期,由合成语音引发的电信诈骗,版权侵害等社会风险问题层出不穷,这些都是OpenAI做出“暂不公开”选择的重要原因。OpenAI也表示,在开发的过程中,一直在与政府,媒体,教育等社会各界的美国和国际合作伙伴接触,保证听取和采纳反馈。特别当下这处于美国大选时期,OpenAI又正与政府和外部企业合作,势必会采取必要的安全措施和谨慎的态度。

无独有偶,OpenAI于2月推出了视频生成AI“Sora”也同样未对外界公开。面对生成式AI技术日益普及所引发的滥用风险,OpenAI对商用化明显采取了较审慎的态度,以确保安全和负责任的使用。



当然,我们无法否认,生成式AI的潜力是无穷的,终究要有落地应用的一天。相较于始终保持“审慎开放”,乃至“拒绝开放”的态度,我们莫不如提前做好评估和防范。譬如要逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施;教育公众了解AI技术的能力和局限性,包括存在欺骗性AI内容的可能性;加快开发和采用追踪视听内容来源的技术,以便随时明确您是与真人还是与AI互动等举措,都是势在必行的。无论OpenAI是否会广泛部署这项技术,我们大家都要了解它的发展方向。

最后,我们再来讨论一个问题:在生成式AI领域,OpenAI是否依旧领跑?

从2022年便孵化出了Voice Engine这一点来看,OpenAI是早就开始布局合成语音这一赛道了。从某种程度上说,现在分享的最早期版本很可能只是在小秀肌肉,内部应该已经完成了强力迭代。而且,根据The Information的独家报道,微软和OpenAI将合力打造一台成本高达1000亿美元,拥有数百万个GPU的超级计算机“Stargate (星门)”。它将为OpenAI的人工智能提供巨大的动力和算力会,不夸张的说,照比现在微软给OpenAI的支持直接提升几个量级。

此外,从OpenAI通篇官宣文来看,OpenAI不会在短期内向公众推出合成语音领域的更新了,毕竟这个赛道日趋敏感。这或许是出于重塑企业形象和公信力的需要。未来我们或许可以期待OpenAI将Sora和Voice Engine以怎样的模式集成到下一代 GPT。一旦这样的GPT得以成行,OpenAI在生成式领域的霸主地位将不可动摇。




编辑:彩云

许久没有新动作的OpenAI最近显得颇为低调。但事实上,对于这些 来源:加密钱包代币


分享到:

  • 上一篇
    下一篇

  • 分享知识|收获智慧

    全球资讯热分享网(专注热点收集平台)
    手机查看(二维码扫一扫)

    全球资讯热分享网,最有影响力热点信息分类网站,主要集合图文、知识、日常、娱乐、财经、文化、生活、致富、女性、地区、科技等多类信息分享交流,免费提供最有价值的头条信息平台。
    « 2024年 » « 11月 »
    123
    45678910
    11121314151617
    18192021222324
    252627282930

    最新资讯

    男女主角是姜念夏陆时越的小说 明月何年照我心小说全文在线阅读
  • 2024-11-16 15:27:31

     

    萧擎川清媛卿真真最后结局 萧擎川清媛卿真真完结版免费阅读
  • 2024-11-16 15:21:26

     

    重生后我团灭渣男一家全集在线阅读 谢瑾言白霜霜小说免费看
  • 2024-11-16 15:15:21

     

    周超秦楠秦蓓全文阅读 周超秦楠秦蓓小说最新章节
  • 2024-11-16 15:09:16

     

    淘宝售后服务全解析:撤销后还能再申请吗?期限到底是多久?
  • 2024-11-16 15:03:11

     

    淘宝商品定价策略:方式多样,如何定得恰到好处?
  • 2024-11-16 14:57:07

     

    淘宝价格调整策略:如何改价不影响权重?价格真的能随便改吗?
  • 2024-11-16 14:51:01

     

    淘宝卖家必备攻略:店铺优惠券入口在哪?如何高效创建优惠券?
  • 2024-11-16 14:44:56

     

    拼多多多店铺运营:会影响权重吗?权重低该如何破局?
  • 2024-11-16 14:38:51

     

    拼多多客服回复率:合格标准是多少?如何有效提升?
  • 2024-11-16 14:32:46

     

    拼多多商家必看:如何将4星评价升级为5星?怎样赢得更多好评?
  • 2024-11-16 14:26:41

     

    拼多多推广秘籍:溢价比例如何设置?在哪里操作?
  • 2024-11-16 14:20:35

     

    拼多多新店启航:流量扶持何时开始?多久能做起来?
  • 2024-11-16 14:14:31

     

    抖音店铺评分揭秘:多少分限流?最高能达多少?
  • 2024-11-16 14:08:26

     

    抖店体验分提升攻略:必须花钱吗?多少单才能出分?
  • 2024-11-16 14:02:20