В области машинного обучения и искусственного интеллекта доступность открытых весов является значительным шагом вперед, но это лишь начало. Чтобы действительно продвинуть открытые исследования в этих областях, нам необходимы открытые обучающие фреймворки, которые делают больше, чем просто выполняют задачи. Эти фреймворки должны обеспечивать видимость, понятность и модифицируемость в процессе обучения, позволяя исследователям, инженерам и практикам создавать новые алгоритмы без борьбы с непрозрачными системами.
Эта необходимость вдохновила на создание FeynRL (произносится как 'ФайнРЛ') — фреймворка, адаптированного для обучения с подкреплением (RL) после обучения языковых моделей (LLM), моделей языка и зрения (VLM) и агентов. Сложность RL уже является вызовом, а когда она применяется к LLM и VLM, ситуация становится еще более запутанной. Такие факторы, как движки развертывания, вычисление вознаграждений, распределенное обучение, синхронизация весов, распределение кредитов и поведение на длинных горизонтах, вносят множество мелких деталей реализации, которые могут тихо саботировать прогресс.
FeynRL разработан с простым основным принципом: алгоритмы должны оставаться отдельными от систем, на которых они работают, позволяя исследователям и практикам понимать полный цикл обучения от начала до конца без значительных временных затрат. Фреймворк четко спроектирован, охватывая все аспекты от загрузки данных и генерации развертываний до вычисления вознаграждений, построения потерь, оптимизации и оценки.
Содействуя разработке новых алгоритмов, рецептов обучения, дизайнов вознаграждений, стратегий развертывания и методов оптимизации, FeynRL устраняет разочарование, связанное с навигацией по запутанным и скрытым системам. В настоящее время он включает примеры для контролируемой тонкой настройки (SFT), оптимизации процессов принятия решений (DPO) и постобучения в стиле RL для конфигураций как VLM, так и LLM, поддерживая настройки от одиночного GPU до многопроцессорных и кластерных окружений.
Обратная связь приветствуется, и сообщество поощряется делиться мыслями о том, какие аспекты инфраструктуры постобучения RL остаются слишком неясными, трудными для отладки или сложными для модификации.



