## Microsoft раскрыла фундаментальный разрыв в надежности LLM при делегировании профессиональных задач
Корпорация Microsoft опубликовала DELEGATE-52 — общедоступный инструмент для оценки готовности языковых моделей к выполнению задач, делегируемых в профессиональной среде. В рамках исследования специалисты компании смоделировали сценарии передачи интеллектуальных функций большим языковым моделям (LLM) в 52 профессиональных доменах, охватывающих широкий спектр от юриспруденции до медицинской диагностики. Результаты масштабного моделирования выявили фундаментальный пробел в надёжности современных языковых моделей, который напрямую подрывает доверие к автоматизации интеллектуального труда.

DELEGATE-52 позиционируется как инструмент бенчмаркинга, позволяющий работодателям и разработчикам систем искусственного интеллекта количественно оценить границы применимости LLM в конкретных профессиональных контекстах. Исследование фиксирует, что при делегировании задач качество работы моделей существенно деградирует в задачах, требующих точного следования инструкциям, соблюдения нормативных ограничений и воспроизводимости результатов. Проблема носит не технический, а архитектурный характер — она встроена в саму природу статистических моделей, генерирующих текст на основе вероятностей.

Для корпоративного сектора и регуляторов эти данные формируют зону серьёзного риска. Компании, массово внедряющие ИИ-ассистентов для замещения или дополнения квалифицированного труда, сталкиваются с неочевидными для конечного пользователя искажениями в выходных данных. Это ставит вопрос о необходимости обязательного аудита систем на базе LLM перед их допуском в регулируемые отрасли и создаёт правовую неопределённость в части ответственности за ошибки, порождённые « делегированным » ИИ.
---
- **Source**: Habr
- **Sector**: The Lab
- **Tags**: Microsoft, DELEGATE-52, LLM, искусственный интеллект, надежность ИИ
- **Credibility**: unverified
- **Published**: 2026-05-05 13:01:43
- **ID**: 79470
- **URL**: https://whisperx.ai/en/intel/79470