## Яндекс Инфраструктура внедряет QoS в InfiniBand для ML-обучений: борьба с вендорскими ограничениями
Команда Яндекс Инфраструктуры столкнулась с нетривиальной задачей: внедрить систему качества обслуживания (QoS) в высокопроизводительных сетях InfiniBand для приоритизации машинного обучения, имея лишь скудную документацию и ограниченную поддержку вендора. Это не академическое упражнение, а ответ на растущее давление внутри облака Яндекса, где смешанные нагрузки — от исследовательских до промышленных ML-обучений — требуют предсказуемых показателей уровня обслуживания (SLO). Без QoS критически важные тренировочные процессы рискуют столкнуться с непредсказуемыми задержками и конкуренцией за ресурсы.

Мотивация команды проистекает из внутренней необходимости: обеспечить гарантированную пропускную способность и низкую задержку для различных классов ML-задач в общей инфраструктуре. Особый интерес представляет связь между политиками QoS и физической топологией сети DragonFly+, используемой в кластерах. Правильная настройка приоритетов трафика должна учитывать архитектурные особенности этой топологии, чтобы избежать узких мест и обеспечить эффективное распределение нагрузки.

Успешное внедрение такого решения поднимает вопросы о будущем управления сложными сетевыми инфраструктурами для ИИ. Оно сигнализирует о растущем разрыве между стандартными вендорскими предложениями и специфическими потребностями крупных технологических компаний, вынужденных самостоятельно решать задачи глубокой оптимизации. Этот опыт создает прецедент для других команд, работающих с InfiniBand в условиях гибридных нагрузок, и может повлиять на требования к будущим вендорским решениям в области высокопроизводительных вычислений.
---
- **Source**: Habr
- **Sector**: The Lab
- **Tags**: InfiniBand, QoS, машинное обучение, Яндекс, DragonFly+
- **Credibility**: unverified
- **Published**: 2026-03-27 07:26:48
- **ID**: 37025
- **URL**: https://whisperx.ai/ru/intel/37025