又来了?OpenAI首次展示语音生成模型“Voice Engine”
艾媒网(iimedia.cn)获悉,当地时间3月29日,OpenAI在官网首次展示了名为“Voice Engine”的语音生成模型。Voice Engine模型是OpenAI继前不久的Sora后的又一新作,这一模型能够仅凭15秒的音频样本,生成与原声高度相似的自然语音。
AIGC技术旨在通过训练模型来生成新的、富有创意的数据,包括图像、文本、音频和视频等多种形式。OpenAI的Voice Engine正是这一技术理念在语音领域的成功实践。它不仅能够理解并模仿人类的语音特征,还能够生成具有连贯性和自然度的全新语音,这在很大程度上提升了AIGC技术在语音合成方面的能力。
值得注意的是,Voice Engine模型的开发并非一蹴而就。OpenAI在2022年底就已经开始了该模型的研发工作,并成功将其应用于文本转语音API以及ChatGPT语音和朗读功能中的预设语音。这一研发过程不仅体现了OpenAI在深度学习、声音识别以及语言模型优化等多方面的技术积累,也显示了其在将先进技术应用于实际场景中的敏锐洞察力和高效执行力。然而,OpenAI对于Voice Engine模型的发布态度却显得异常谨慎。公司表示,由于合成语音存在被滥用的潜在风险,因此将采取小规模预览的方式进行更广泛的发布。
从AIGC行业的角度来看,OpenAI的Voice Engine模型无疑为整个行业带来了新的发展动力。随着技术的不断进步和应用的不断拓展,AIGC将在未来发挥更加重要的作用。一方面,它将在教育、娱乐、广告等领域创造出更多的应用场景,提升用户体验和服务质量;另一方面,它也将为企业和开发者提供更多的创新机会和商业模式,推动整个行业的快速发展。
与此同时,AIGC技术的发展也面临着一些挑战和问题——如何确保技术的合规性和伦理性,如何防范技术的滥用和误用,以及如何保障用户的数据安全和隐私权益等,都是需要我们深入思考和解决的问题。