YaFSDP оптимизирует использование вычислительных мощностей процессоров на всех этапах обучения модели — это особенно важно для стартапов и, например, научных проектов.
Яндекс разработал YaFSDP для обучения своей генеративной модели нового поколения YandexGPT 3. Однако компания уже протестировала библиотеку на сторонних нейросетях с открытым исходным кодом и обнаружила, что она позволяет значительно сократить время обучения. Например, если бы YaFSDP использовалась для модели LLaMA 2, то этап предварительного обучения сократился бы с 66 до 53 дней.
Библиотека также применима для нейросетей, генерирующих изображения.