Português

Configuração

Parâmetros de Inicialização para `TextToAudioStream`

Quando você inicializa a classe TextToAudioStream, você tem várias opções para personalizar seu comportamento. Aqui estão os parâmetros disponíveis:

`engine` (BaseEngine)

Tipo: BaseEngine
Obrigatório: Sim
Descrição: O mecanismo subjacente responsável pela síntese de texto para áudio. Você deve fornecer uma instância de BaseEngine ou sua subclasse para habilitar a síntese de áudio.

`on_text_stream_start` (callable)

Tipo: Função chamável
Obrigatório: Não
Descrição: Esta função de callback opcional é acionada quando o fluxo de texto começa. Use-o para qualquer configuração ou registro que você possa precisar.

`on_text_stream_stop` (callable)

Tipo: Função chamável
Obrigatório: Não
Descrição: Esta função de retorno de chamada opcional é ativada quando o fluxo de texto termina. Você pode usar isso para tarefas de limpeza ou registro.

`on_audio_stream_start` (callable)

Tipo: Função chamável
Obrigatório: Não
Descrição: Esta função de callback opcional é invocada quando o fluxo de áudio começa. Útil para atualizações de UI ou registro de eventos.

`on_audio_stream_stop` (callable)

Tipo: Função chamável
Obrigatório: Não
Descrição: Esta função de callback opcional é chamada quando o fluxo de áudio para. Ideal para limpeza de recursos ou tarefas de pós-processamento.

`on_character` (callable)

Tipo: Função chamável Não
Descrição: Esta função de retorno de chamada opcional é chamada quando um único caractere é processado.

`output_device_index` (int)

Tipo: Inteiro
Obrigatório: Não
Padrão: Nenhum
Descrição: Especifica o índice do dispositivo de saída a ser usado. Nenhum usa o dispositivo padrão.

`tokenizer` (string)

Tipo: String
Obrigatório: Não
Padrão: nltk
Descrição: Tokenizador a ser usado para divisão de sentenças (currently "nltk" and "stanza" are supported).

`language` (string)

Tipo: String
Obrigatório: Não
Padrão: en
Descrição: Idioma a usar para a divisão de frases.

`muted` (bool)

Tipo: Bool
Obrigatório: Não
Padrão: Falso
Descrição: Parâmetro global de mudo. Se True, nenhum fluxo pyAudio será aberto. Desativa a reprodução de áudio pelos alto-falantes locais (caso você queira sintetizar para um arquivo ou processar pedaços de áudio) e substitui a configuração de silenciamento dos parâmetros de reprodução.

`level` (int)

Tipo: Inteiro
Requerido: Não
Padrão: logging.WARNING
Descrição: Define o nível de registro para o logger interno. Isso pode ser qualquer constante inteira do módulo logging embutido do Python.

Exemplo de Uso:

engine = YourEngine()  # Substitua pelo seu motor
stream = TextToAudioStream(
    engine=engine,
    on_text_stream_start=my_text_start_func,
    on_text_stream_stop=my_text_stop_func,
    on_audio_stream_start=my_audio_start_func,
    on_audio_stream_stop=my_audio_stop_func,
    level=logging.INFO
)

Métodos

`play` e `play_async`

Esses métodos são responsáveis por executar a síntese de texto para áudio e reproduzir o fluxo de áudio. A diferença é que play é uma função bloqueante, enquanto play_async é executada em uma thread separada, permitindo que outras operações prossigam.

Parâmetros:

`fast_sentence_fragment` (bool)

Padrão: True
Descrição: Quando definido como True, o método priorizará a velocidade, gerando e reproduzindo fragmentos de frases mais rapidamente. Isso é útil para aplicações onde a latência é importante.

`fast_sentence_fragment_allsentences` (bool)

Padrão: False
Descrição: Quando definido como True, aplica o processamento rápido de fragmentos de sentenças a todas as sentenças, não apenas à primeira.

`fast_sentence_fragment_allsentences_multiple` (bool)

Padrão: False
Descrição: Quando definido como True, permite gerar múltiplos fragmentos de frase em vez de apenas um único.

`buffer_threshold_seconds` (float)

Padrão: 0.0
Descrição: Especifica o tempo em segundos para o limite de buffer, o que impacta a suavidade e a continuidade da reprodução de áudio.
Como Funciona: Antes de sintetizar uma nova frase, o sistema verifica se há mais material de áudio restante no buffer do que o tempo especificado por buffer_threshold_seconds. Se for o caso, ele recupera outra frase do gerador de texto, assumindo que pode buscar e sintetizar essa nova frase dentro da janela de tempo fornecida pelo áudio restante no buffer. Este processo permite que o mecanismo de texto-para-fala tenha mais contexto para uma melhor síntese, melhorando a experiência do usuário.

Um valor mais alto garante que haja mais áudio pré-bufferizado, reduzindo a probabilidade de silêncio ou lacunas durante a reprodução. Se você experimentar quebras ou pausas, considere aumentar este valor.

`minimum_sentence_length` (int)

Padrão: 10
Descrição: Define o comprimento mínimo de caracteres para considerar uma string como uma frase a ser sintetizada. Isso afeta como os trechos de texto são processados e reproduzidos.

`minimum_first_fragment_length` (int)

Padrão: 10
Descrição: O número mínimo de caracteres exigido para o primeiro fragmento de frase antes de ceder.

`log_synthesized_text` (bool)

Padrão: False
Descrição: Quando ativado, registra os trechos de texto à medida que são sintetizados em áudio. Útil para auditoria e depuração.

`reset_generated_text` (bool)

Padrão: True
Descrição: Se verdadeiro, redefina o texto gerado antes de processar.

`output_wavfile` (str)

Padrão: None
Descrição: Se definido, salve o áudio no arquivo WAV especificado.

`on_sentence_synthesized` (callable)

Padrão: Nenhum
Descrição: Uma função de callback que é chamada após um único fragmento de sentença ser sintetizado.

`before_sentence_synthesized` (callable)

Padrão: Nenhum
Descrição: Uma função de callback que é chamada antes que um único fragmento de frase seja sintetizado.

`on_audio_chunk` (callable)

Padrão: Nenhum
Descrição: Função de callback que é chamada quando um único pedaço de áudio está pronto.

`tokenizer` (str)

Padrão: "nltk"
Descrição: Tokenizer a ser usado para a divisão de sentenças. Atualmente suporta "nltk" e "stanza".

`tokenize_sentences` (callable)

Padrão: None
Descrição: Uma função personalizada que tokeniza sentenças a partir do texto de entrada. Você pode fornecer seu próprio tokenizador leve se não estiver satisfeito com o nltk e o stanza. Deve receber o texto como uma string e retornar as sentenças divididas como uma lista de strings.

`language` (str)

Padrão: "pt"
Descrição: Idioma a ser usado para a divisão de frases.

`context_size` (int)

Padrão: 12
Descrição: O número de caracteres usados para estabelecer o contexto para a detecção de limites de sentenças. Um contexto maior melhora a precisão na detecção de limites de sentenças.

`context_size_look_overhead` (int)

Padrão: 12
Descrição: Tamanho adicional do contexto para olhar à frente ao detectar limites de sentenças.

`muted` (bool)

Padrão: Falso
Descrição: Se verdadeiro, desativa a reprodução de áudio pelos alto-falantes locais. Útil quando você quer sintetizar para um arquivo ou processar trechos de áudio sem reproduzi-los.

`sentence_fragment_delimiters` (str)

Padrão: ".?!;:,\n…)]}。-"
Descrição: Uma sequência de caracteres que são considerados delimitadores de frases.

`force_first_fragment_after_words` (int)

Padrão: 15
Descrição: O número de palavras após o qual o primeiro fragmento de frase é forçado a ser gerado.

Português

Configuração

Parâmetros de Inicialização para TextToAudioStream

engine (BaseEngine)

on_text_stream_start (callable)

on_text_stream_stop (callable)

on_audio_stream_start (callable)

on_audio_stream_stop (callable)

on_character (callable)

output_device_index (int)

tokenizer (string)

language (string)

muted (bool)

level (int)

Exemplo de Uso:

Métodos

play e play_async

Parâmetros:

fast_sentence_fragment (bool)

fast_sentence_fragment_allsentences (bool)

fast_sentence_fragment_allsentences_multiple (bool)

buffer_threshold_seconds (float)

minimum_sentence_length (int)

minimum_first_fragment_length (int)

log_synthesized_text (bool)

reset_generated_text (bool)

output_wavfile (str)

on_sentence_synthesized (callable)

before_sentence_synthesized (callable)

on_audio_chunk (callable)

tokenizer (str)

tokenize_sentences (callable)

language (str)

context_size (int)

context_size_look_overhead (int)

muted (bool)

sentence_fragment_delimiters (str)

force_first_fragment_after_words (int)

Parâmetros de Inicialização para `TextToAudioStream`

`engine` (BaseEngine)

`on_text_stream_start` (callable)

`on_text_stream_stop` (callable)

`on_audio_stream_start` (callable)

`on_audio_stream_stop` (callable)

`on_character` (callable)

`output_device_index` (int)

`tokenizer` (string)

`language` (string)

`muted` (bool)

`level` (int)

`play` e `play_async`

`fast_sentence_fragment` (bool)

`fast_sentence_fragment_allsentences` (bool)

`fast_sentence_fragment_allsentences_multiple` (bool)

`buffer_threshold_seconds` (float)

`minimum_sentence_length` (int)

`minimum_first_fragment_length` (int)

`log_synthesized_text` (bool)

`reset_generated_text` (bool)

`output_wavfile` (str)

`on_sentence_synthesized` (callable)

`before_sentence_synthesized` (callable)

`on_audio_chunk` (callable)

`tokenizer` (str)

`tokenize_sentences` (callable)

`language` (str)

`context_size` (int)

`context_size_look_overhead` (int)

`muted` (bool)

`sentence_fragment_delimiters` (str)

`force_first_fragment_after_words` (int)