llm-translate/doc/ru/plugins-file-processing/file_media_whisper.md
APodoinikov deed8d176b whisper
2025-10-11 12:55:30 +07:00

3.1 KiB

Плагин обработки файлов: media

Часть параметров, общих для всех плагинов, описана здесь.

Параметры плагина

  • model - модель для распознавания звука. Модели можно увидеть например здесь. Вот этот список: tiny.en, tiny, base.en, base, small.en, small, medium.en, medium, large-v1, large-v2, large-v3, large, large-v3-turbo, turbo

  • cuda - true - использовать видеокарту (быстрее), false - использовать cpu (медленнее).

  • cuda_device_index - если в системе несколько видеокарт, можно выбрать ту, в которую будет загружена модель. Номер и имя видеокарты указывается при старте приложения в логе, вида INFO GPU #0: NVIDIA GeForce RTX 4090. 0 - указываемый в параметре номер.

  • unload_model_after_processing - выгружать модель из памяти после завершения обработки списка файлов. Можно использовать, если на карте мало памяти.

  • translate_after_processing - переводить субтитры сразу после распознавания. По умолчанию, будет запущен обработчик srt-Файлов.

  • output_file_name_template - шаблон для имени файла.

Следующие пункты подробно описаны в документации к Whisper, например здесь https://github.com/openai/whisper/blob/main/whisper/transcribe.py, поэтому ниже общее описание.

  • temperature - массив значений точности распознавания.

  • condition_on_previous_text - основываться на предыдущем тексте.

  • word_timestamps - временные метки для слов - нужно для корректного создания субтитров.

  • hallucination_silence_threshold - порог галлюцинаций (додумывания текста) при распознавании.

  • carry_initial_prompt - если True, то значение initial_prompt будет добавлено в каждый вызов функции декодирования.

  • initial_prompt - подсказки дял перевода, например, чтобы помочь распознавать трудные слова.

  • compression_ratio_threshold - считать распознавание неудачным при значении выше этого параметра.

  • logprob_threshold - если средняя логарифмическая вероятность ниже этого значения, считать распознавание неудачным