bark，热门开源的文本转语音的AI模型

互推小编 2023-09-11

Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流，如大笑、叹息和哭泣。

from bark import SAMPLE_RATE, generate_audio from IPython.display import Audio text_prompt = """ Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe. """ audio_array = generate_audio(text_prompt) Audio(audio_array, rate=SAMPLE_RATE)

这个文本是在介绍Bark语音合成软件的特点。Bark支持多种语言，并且能够自动识别输入文本的语言。当输入的文本是多种语言混合时，Bark会尝试使用各自语言的本地口音进行朗读。目前英语的质量是最好的，但随着规模的扩大，我们预计其他语言的质量也会进一步提高。

其中使用的技术术语包括语音合成、自然语言处理、语言识别等。

text_prompt = """ Buenos días Miguel. Tu colega piensa que tu alemán es extremadamente malo. But I suppose your english isn't terrible. """ audio_array = generate_audio(text_prompt)

Bark可以生成各种类型的音频，在原则上不区分语音和音乐。有时，Bark选择将文本生成为音乐，但您可以通过在歌词周围添加音乐符号来帮助它。

text_prompt = """ ♪ In the jungle, the mighty jungle, the lion barks tonight ♪ """ audio_array = generate_audio(text_prompt)

[注：本文部分图片来自互联网！未经授权，不得转载！每天跟着我们读更多的书]