## Голосовой ввод для кода и LLM: WisprFlow, GigaAM v3 и битва моделей за русско-английскую смесь
Голосовой ввод обещает скорость, но реальный тест — это диктовка на русско-английской смеси, на которой говорят с LLM и пишут код. Запросы вроде «объявь переменную loop», «открой в Cursor» или «проверь deploy» ломают большинство систем. За полгода практического тестирования пяти приложений и пяти моделей выявились лидеры и неожиданные провалы, определяющие, что действительно работает в 2026 году.

На поле боя сошлись облачные сервисы (WisprFlow, SpeakFlow) и open-source решения (OpenWhispr, SuperWhisper), а также локальный клиент Handy. Ключевой прорыв — замена платного WisprFlow на бесплатный open-source стек без потери качества распознавания. Еще одна находка — простой текстовый промпт, который почти в 100% случаев чинит пропадающую пунктуацию, обходясь без тяжелых LLM-постпроцессоров и задержек. На аппаратном фронте тесты на RTX 5070 Ti показали, что Whisper Large v3 на Vulkan (для архитектуры Blackwell) внезапно обгоняет версию на CUDA на 50%.

Однако новые модели от крупных игроков демонстрируют сырость. GigaAM v3 от Сбера и Canary 1B v2 от NVIDIA в некоторых задачах конкурируют с Whisper, но в других — катастрофически ломают английские слова, транслитерируя их в кириллицу (например, «Gemini» превращается в «Jemni»). Это критический недостаток для разработки, где точность терминов — всё. Итог тестов — карта экосистемы, где выбор между платным удобством, бесплатным контролем и сырой, но мощной новизной определяет эффективность работы голосом уже сегодня.
---
- **Source**: Habr
- **Sector**: The Lab
- **Tags**: голосовой_ввод, распознавание_речи, искусственный_интеллект, нейросети, разработка
- **Credibility**: unverified
- **Published**: 2026-04-17 12:52:43
- **ID**: 69495
- **URL**: https://whisperx.ai/en/intel/69495