mirror of
https://github.com/illian64/llm-translate.git
synced 2026-04-30 04:39:55 +00:00
38 lines
3.1 KiB
Markdown
38 lines
3.1 KiB
Markdown
# Плагин обработки файлов: media
|
|
|
|
Часть параметров, общих для всех плагинов, описана [здесь](../processing_files.md).
|
|
|
|
## Параметры плагина
|
|
|
|
* **model** - модель для распознавания звука. Модели можно увидеть например [здесь](https://github.com/openai/whisper/blob/main/whisper/__init__.py).
|
|
Вот этот список: tiny.en, tiny, base.en, base, small.en, small, medium.en, medium, large-v1, large-v2, large-v3, large, large-v3-turbo, turbo
|
|
|
|
* **cuda** - `true` - использовать видеокарту (быстрее), `false` - использовать cpu (медленнее).
|
|
|
|
* **cuda_device_index** - если в системе несколько видеокарт, можно выбрать ту, в которую будет загружена модель.
|
|
Номер и имя видеокарты указывается при старте приложения в логе, вида `INFO GPU #0: NVIDIA GeForce RTX 4090`.
|
|
`0` - указываемый в параметре номер.
|
|
|
|
* **unload_model_after_processing** - выгружать модель из памяти после завершения обработки списка файлов. Можно использовать, если на карте мало памяти.
|
|
|
|
* **translate_after_processing** - переводить субтитры сразу после распознавания. По умолчанию, будет запущен обработчик [srt-Файлов](file_srt.md).
|
|
|
|
* **output_file_name_template** - шаблон для имени файла.
|
|
|
|
Следующие пункты подробно описаны в документации к Whisper, например здесь https://github.com/openai/whisper/blob/main/whisper/transcribe.py, поэтому ниже общее описание.
|
|
|
|
* **temperature** - массив значений точности распознавания.
|
|
|
|
* **condition_on_previous_text** - основываться на предыдущем тексте.
|
|
|
|
* **word_timestamps** - временные метки для слов - нужно для корректного создания субтитров.
|
|
|
|
* **hallucination_silence_threshold** - порог галлюцинаций (додумывания текста) при распознавании.
|
|
|
|
* **carry_initial_prompt** - если True, то значение `initial_prompt` будет добавлено в каждый вызов функции декодирования.
|
|
|
|
* **initial_prompt** - подсказки дял перевода, например, чтобы помочь распознавать трудные слова.
|
|
|
|
* **compression_ratio_threshold** - считать распознавание неудачным при значении выше этого параметра.
|
|
|
|
* **logprob_threshold** - если средняя логарифмическая вероятность ниже этого значения, считать распознавание неудачным
|