Открытые обучающие фреймворки: новая эра для исследований в ИИ

В области машинного обучения и искусственного интеллекта доступность открытых весов является значительным шагом вперед, но это лишь начало. Чтобы действительно продвинуть открытые исследования в этих областях, нам необходимы открытые обучающие фреймворки, которые делают больше, чем просто выполняют задачи. Эти фреймворки должны обеспечивать видимость, понятность и модифицируемость в процессе обучения, позволяя исследователям, инженерам и практикам создавать новые алгоритмы без борьбы с непрозрачными системами.

Эта необходимость вдохновила на создание FeynRL (произносится как 'ФайнРЛ') — фреймворка, адаптированного для обучения с подкреплением (RL) после обучения языковых моделей (LLM), моделей языка и зрения (VLM) и агентов. Сложность RL уже является вызовом, а когда она применяется к LLM и VLM, ситуация становится еще более запутанной. Такие факторы, как движки развертывания, вычисление вознаграждений, распределенное обучение, синхронизация весов, распределение кредитов и поведение на длинных горизонтах, вносят множество мелких деталей реализации, которые могут тихо саботировать прогресс.

FeynRL разработан с простым основным принципом: алгоритмы должны оставаться отдельными от систем, на которых они работают, позволяя исследователям и практикам понимать полный цикл обучения от начала до конца без значительных временных затрат. Фреймворк четко спроектирован, охватывая все аспекты от загрузки данных и генерации развертываний до вычисления вознаграждений, построения потерь, оптимизации и оценки.

Содействуя разработке новых алгоритмов, рецептов обучения, дизайнов вознаграждений, стратегий развертывания и методов оптимизации, FeynRL устраняет разочарование, связанное с навигацией по запутанным и скрытым системам. В настоящее время он включает примеры для контролируемой тонкой настройки (SFT), оптимизации процессов принятия решений (DPO) и постобучения в стиле RL для конфигураций как VLM, так и LLM, поддерживая настройки от одиночного GPU до многопроцессорных и кластерных окружений.

Обратная связь приветствуется, и сообщество поощряется делиться мыслями о том, какие аспекты инфраструктуры постобучения RL остаются слишком неясными, трудными для отладки или сложными для модификации.

Материал подготовлен AI-редакцией и проверен редактором.

Необходимость открытых обучающих фреймворков в исследовании ИИ

Похожие статьи