bark,热门开源的文本转语音的AI模型
Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。
from bark import SAMPLE_RATE, generate_audio
from IPython.display import Audio
text_prompt = """
Hello, my name is Suno. And, uh — and I like pizza. [laughs]
But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)
Audio(audio_array, rate=SAMPLE_RATE)
这个文本是在介绍Bark语音合成软件的特点。Bark支持多种语言,并且能够自动识别输入文本的语言。当输入的文本是多种语言混合时,Bark会尝试使用各自语言的本地口音进行朗读。目前英语的质量是最好的,但随着规模的扩大,我们预计其他语言的质量也会进一步提高。
其中使用的技术术语包括语音合成、自然语言处理、语言识别等。
text_prompt = """
Buenos días Miguel. Tu colega piensa que tu alemán es extremadamente malo.
But I suppose your english isn't terrible.
"""
audio_array = generate_audio(text_prompt)
Bark可以生成各种类型的音频,在原则上不区分语音和音乐。有时,Bark选择将文本生成为音乐,但您可以通过在歌词周围添加音乐符号来帮助它。
text_prompt = """
♪ In the jungle, the mighty jungle, the lion barks tonight ♪
"""
audio_array = generate_audio(text_prompt)
[注:本文部分图片来自互联网!未经授权,不得转载!每天跟着我们读更多的书]
互推传媒文章转载自第三方或本站原创生产,如需转载,请联系版权方授权,如有内容如侵犯了你的权益,请联系我们进行删除!
如若转载,请注明出处:http://www.hfwlcm.com/info/136343.html