Skip to content

हिंदी

कॉन्फ़िगरेशन

TextToAudioStream के लिए प्रारंभिक पैरामीटर

जब आप TextToAudioStream क्लास का इनिशियलाइज़ेशन करते हैं, तो आपके पास इसके व्यवहार को कस्टमाइज़ करने के लिए विभिन्न विकल्प होते हैं। यहाँ उपलब्ध पैरामीटर हैं:

engine (BaseEngine)

  • प्रकार: BaseEngine
  • आवश्यकता: हाँ
  • विवरण: टेक्स्ट-से-ऑडियो सिंथेसिस के लिए ज़िम्मेदार आधार इंजन। आपको ऑडियो सिंथेसिस को सक्षम करने के लिए BaseEngine या इसके सबक्लास का एक इंस्टेंस प्रदान करना होगा।

on_text_stream_start (callable)

  • प्रकार: कॉल करने योग्य फंक्शन
  • आवश्यकता: नहीं
  • विवरण: यह वैकल्पिक कॉलबैक फंक्शन तब ट्रिगर होता है जब टेक्स्ट स्ट्रीम शुरू होती है। इसे किसी सेटअप या लॉगिंग के लिए उपयोग करें।

on_text_stream_stop (callable)

  • प्रकार: कॉल करने योग्य फंक्शन
  • आवश्यकता: नहीं
  • विवरण: यह वैकल्पिक कॉलबैक फंक्शन टेक्स्ट स्ट्रीम समाप्त होने पर सक्रिय होता है। इसे क्लीनअप कार्यों या लॉगिंग के लिए उपयोग किया जा सकता है।

on_audio_stream_start (callable)

  • प्रकार: कॉल करने योग्य फंक्शन
  • आवश्यकता: नहीं
  • विवरण: यह वैकल्पिक कॉलबैक फंक्शन तब चालू होता है जब ऑडियो स्ट्रीम शुरू होती है। यह UI अपडेट या इवेंट लॉगिंग के लिए सहायक है।

on_audio_stream_stop (callable)

  • प्रकार: कॉल करने योग्य फंक्शन
  • आवश्यकता: नहीं
  • विवरण: यह वैकल्पिक कॉलबैक फंक्शन ऑडियो स्ट्रीम समाप्त होने पर कॉल किया जाता है। यह संसाधन क्लीनअप या पोस्ट-प्रोसेसिंग कार्यों के लिए आदर्श है।

on_character (callable)

  • प्रकार: कॉल करने योग्य फंक्शन
  • आवश्यकता: नहीं
  • विवरण: यह वैकल्पिक कॉलबैक फंक्शन तब कॉल किया जाता है जब एकल कैरेक्टर प्रोसेस किया जाता है।

output_device_index (int)

  • प्रकार: इंटीजर
  • आवश्यकता: नहीं
  • डिफ़ॉल्ट: None
  • विवरण: उपयोग करने के लिए आउटपुट डिवाइस इंडेक्स निर्दिष्ट करता है। None डिफ़ॉल्ट डिवाइस का उपयोग करता है।

tokenizer (string)

  • प्रकार: स्ट्रिंग
  • आवश्यकता: नहीं
  • डिफ़ॉल्ट: nltk
  • विवरण: वाक्य विभाजन के लिए उपयोग किए जाने वाले टोकनाइज़र (वर्तमान में "nltk" और "stanza" समर्थित हैं)।

language (string)

  • प्रकार: स्ट्रिंग
  • आवश्यकता: नहीं
  • डिफ़ॉल्ट: en
  • विवरण: वाक्य विभाजन के लिए उपयोग की जाने वाली भाषा।

muted (bool)

  • प्रकार: बूल
  • आवश्यकता: नहीं
  • डिफ़ॉल्ट: False
  • विवरण: ग्लोबल म्यूटेड पैरामीटर। अगर True है, तो कोई pyAudio स्ट्रीम नहीं खोली जाएगी। स्थानीय स्पीकरों के माध्यम से ऑडियो प्लेबैक को अक्षम करता है और प्ले पैरामीटर म्यूट सेटिंग को ओवरराइड करता है।

level (int)

  • प्रकार: इंटीजर
  • आवश्यकता: नहीं
  • डिफ़ॉल्ट: logging.WARNING
  • विवरण: आंतरिक लॉगर के लिए लॉगिंग स्तर सेट करता है। यह पायथन के बिल्ट-इन logging मॉड्यूल से कोई भी इंटीजर कॉन्स्टेंट हो सकता है।

उदाहरण उपयोग:

engine = YourEngine()  # अपने इंजन के साथ प्रतिस्थापित करें
stream = TextToAudioStream(
    engine=engine,
    on_text_stream_start=my_text_start_func,
    on_text_stream_stop=my_text_stop_func,
    on_audio_stream_start=my_audio_start_func,
    on_audio_stream_stop=my_audio_stop_func,
    level=logging.INFO
)

मेथड्स

play और play_async

ये मेथड्स टेक्स्ट-से-ऑडियो सिंथेसिस को निष्पादित करने और ऑडियो स्ट्रीम प्ले करने के लिए जिम्मेदार हैं। play एक ब्लॉकिंग फंक्शन है, जबकि play_async एक अलग थ्रेड में चलता है, जिससे अन्य ऑपरेशंस जारी रह सकते हैं।

पैरामीटर:
fast_sentence_fragment (bool)
  • डिफ़ॉल्ट: True
  • विवरण: जब True पर सेट किया जाता है, तो यह विधि स्पीड को प्राथमिकता देगी, और वाक्यांशों को तेजी से जनरेट और प्ले करेगी। यह ऐसे अनुप्रयोगों के लिए सहायक है जहाँ विलंबता मायने रखती है।
fast_sentence_fragment_allsentences (bool)
  • डिफ़ॉल्ट: False
  • विवरण: जब True पर सेट किया जाता है, तो सभी वाक्यों पर फास्ट वाक्यांश प्रोसेसिंग लागू करता है।
fast_sentence_fragment_allsentences_multiple (bool)
  • डिफ़ॉल्ट: False
  • विवरण: जब True पर सेट किया जाता है, तो यह एकल के बजाय एकाधिक वाक्यांश उत्पन्न करने की अनुमति देता है।
buffer_threshold_seconds (float)
  • डिफ़ॉल्ट: 0.0
  • विवरण: बफ़रिंग सीमा के लिए समय को सेकंड में निर्दिष्ट करता है, जो ऑडियो प्लेबैक की स्थिरता और निरंतरता को प्रभावित करता है।

  • कैसे काम करता है: नए वाक्य का सिंथेसिस करने से पहले, सिस्टम यह जांचता है कि क्या बफ़र में निर्दिष्ट समय से अधिक ऑडियो सामग्री बची है। इससे यह सुनिश्चित होता है कि अधिक प्री-बफ़र किए गए ऑडियो से प्लेबैक में मौन या अंतराल कम हो।

minimum_sentence_length (int)
  • डिफ़ॉल्ट: 10
  • विवरण: एक स्ट्रिंग को सिंथेसाइज़ करने के लिए वाक्य के रूप में मानने के लिए न्यूनतम कैरेक्टर की लंबाई सेट करता है।
minimum_first_fragment_length (int)
  • डिफ़ॉल्ट: 10
  • विवरण: पहले वाक्यांश के लिए आवश्यक न्यूनतम कैरेक्टर की संख्या सेट करता है।
log_synthesized_text (bool)
  • डिफ़ॉल्ट: False
  • विवरण: सक्षम होने पर, ऑडियो में सिंथेसाइज़ होते समय टेक्स्ट के अंशों को लॉग करता है।
reset_generated_text (bool)
  • डिफ़ॉल्ट: True
  • विवरण: अगर True है, तो प्रोसेसिंग से पहले जनरेट किए गए टेक्स्ट को रीसेट करता है।
output_wavfile (str)
  • डिफ़ॉल्ट: None
  • विवरण: यदि सेट है, तो ऑडियो को निर्दिष्ट WAV फाइल में सहेजता है।
on_sentence_synthesized (callable)
  • डिफ़ॉल्ट: None
  • विवरण: एकल वाक्यांश सिंथेसाइज़ होने के बाद कॉल किया जाने वाला एक कॉलबैक फंक्शन।
before_sentence_synthesized (callable)
  • डिफ़ॉल्ट: None
  • विवरण: एकल वाक्यांश सिंथेसाइज़ होने से पहले कॉल किया जाने वाला एक कॉलबैक फंक्शन।
on_audio_chunk (callable)
  • डिफ़ॉल्ट: None
  • विवरण: एकल ऑडियो टुकड़ा तैयार होने पर कॉल किया जाने वाला कॉलबैक फंक्शन।
tokenizer (str)
  • डिफ़ॉल्ट: "nltk"
  • विवरण: वाक्य विभाजन के लिए टोकनाइज़र। वर्तमान में "nltk" और "stanza" का समर्थन है।
tokenize_sentences (callable)
  • डिफ़ॉल्ट: None
  • विवरण: टेक्स्ट से वाक्य को टोकनाइज़ करने

वाला एक कस्टम फंक्शन। यदि आप nltk और stanza से संतुष्ट नहीं हैं, तो अपना स्वयं का टोकनाइज़र प्रदान कर सकते हैं।

language (str)
  • डिफ़ॉल्ट: "en"
  • विवरण: वाक्य विभाजन के लिए उपयोग की जाने वाली भाषा।
context_size (int)
  • डिफ़ॉल्ट: 12
  • विवरण: वाक्य सीमा का पता लगाने के लिए संदर्भ स्थापित करने के लिए प्रयुक्त कैरेक्टर की संख्या।
context_size_look_overhead (int)
  • डिफ़ॉल्ट: 12
  • विवरण: वाक्य सीमा का पता लगाते समय आगे देखने के लिए अतिरिक्त संदर्भ आकार।
muted (bool)
  • डिफ़ॉल्ट: False
  • विवरण: यदि True है, तो स्थानीय स्पीकर के माध्यम से ऑडियो प्लेबैक को अक्षम करता है।
sentence_fragment_delimiters (str)
  • डिफ़ॉल्ट: ".?!;:,\n…)]}。-"
  • विवरण: उन कैरेक्टर की स्ट्रिंग जो वाक्य सीमाओं के रूप में माने जाते हैं।
force_first_fragment_after_words (int)
  • डिफ़ॉल्ट: 15
  • विवरण: पहले वाक्यांश को उत्पन्न करने के लिए आवश्यक शब्दों की संख्या।