快捷搜索:

bark,热门开源的文本转语音的AI模型

 

Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。

from bark import SAMPLE_RATE, generate_audio from IPython.display import Audio text_prompt = """ Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe. """ audio_array = generate_audio(text_prompt) Audio(audio_array, rate=SAMPLE_RATE)

这个文本是在介绍Bark语音合成软件的特点。Bark支持多种语言,并且能够自动识别输入文本的语言。当输入的文本是多种语言混合时,Bark会尝试使用各自语言的本地口音进行朗读。目前英语的质量是最好的,但随着规模的扩大,我们预计其他语言的质量也会进一步提高。

其中使用的技术术语包括语音合成、自然语言处理、语言识别等。

text_prompt = """ Buenos días Miguel. Tu colega piensa que tu alemán es extremadamente malo. But I suppose your english isn't terrible. """ audio_array = generate_audio(text_prompt)

Bark可以生成各种类型的音频,在原则上不区分语音和音乐。有时,Bark选择将文本生成为音乐,但您可以通过在歌词周围添加音乐符号来帮助它。

text_prompt = """ ♪ In the jungle, the mighty jungle, the lion barks tonight ♪ """ audio_array = generate_audio(text_prompt)

[注:本文部分图片来自互联网!未经授权,不得转载!每天跟着我们读更多的书]


互推传媒文章转载自第三方或本站原创生产,如需转载,请联系版权方授权,如有内容如侵犯了你的权益,请联系我们进行删除!

如若转载,请注明出处:http://www.hfwlcm.com/info/136343.html