## Positive Technologies: хаос в бенчмарках для LLM в кибербезопасности ставит под вопрос их эффективность
Отраслевые бенчмарки для оценки языковых моделей в сфере кибербезопасности находятся в состоянии полного хаоса и лишены системности. По словам Андрея Кузнецова, ML-директора Positive Technologies, попытка разобраться в существующих инструментах измерения обернулась неожиданными сложностями. Популярные в 2024 году тесты могут полностью игнорироваться в исследованиях 2025 года, а широко цитируемые датасеты зачастую составлены крайне небрежно, что ставит под сомнение саму суть их измерений.

Проблема кроется в фундаментальном отсутствии стандартов. Перед тем как анализировать конкретные примеры, необходимо четко определить типы существующих бенчмарков и их целевое назначение. Однако текущий ландшафт напоминает беспорядочное нагромождение инструментов, где сложно отделить релевантные метрики от шума. Это создает серьезные препятствия для объективной оценки реальных способностей LLM в таких критически важных областях, как анализ уязвимостей, расследование инцидентов или генерация защитного кода.

Сложившаяся ситуация напрямую влияет на доверие к технологиям и эффективность их внедрения в продуктовые решения компаний, подобных Positive Technologies. Отсутствие надежных, воспроизводимых и актуальных методов измерения не только замедляет прогресс, но и повышает риски внедрения недостаточно проверенных моделей в реальные системы защиты. Индустрия остро нуждается в консолидации усилий для создания прозрачной и структурированной системы валидации ИИ-инструментов для кибербезопасности.
---
- **Source**: Habr
- **Sector**: The Lab
- **Tags**: LLM, кибербезопасность, бенчмарки, искусственный интеллект, оценка
- **Credibility**: unverified
- **Published**: 2026-04-16 08:22:49
- **ID**: 67113
- **URL**: https://whisperx.ai/en/intel/67113