Исследования в области искусственного интеллекта (ИИ) традиционно требуют огромных финансовых вложений, но команда из Университета Калифорнии в Беркли доказала, что это не всегда так. Им удалось воспроизвести ключевые возможности модели DeepSeek R1-Zero всего за $30. Их проект, названный TinyZero, демонстрирует, что передовые модели ИИ для решения сложных задач могут быть доступными и не требовать миллионных бюджетов.
Что такое TinyZero?
Проект TinyZero, возглавляемый исследователем Цзяи Паном, направлен на воссоздание модели рассуждений DeepSeek с использованием обучения с подкреплением (Reinforcement Learning, RL). Вместо того чтобы полагаться на дорогостоящие облачные сервисы или мощные вычислительные ресурсы, команда использовала базовую языковую модель, простой запрос и систему вознаграждений для обучения TinyZero.
Пан поделился своим восторгом в X (ранее Twitter), написав: «Вы можете сами испытать момент „Эврики“ менее чем за $30». Он также описал TinyZero как первую открытую репродукцию моделей рассуждений, которая научилась проверять и улучшать свои ответы.
We reproduced DeepSeek R1-Zero in the CountDown game, and it just works
— Jiayi Pan (@jiayi_pirate) January 24, 2025
Through RL, the 3B base LM develops self-verification and search abilities all on its own
You can experience the Ahah moment yourself for < $30
Code: https://t.co/B2IsN1PrXV
Here's what we learned pic.twitter.com/43BVYMmS8X
Как разрабатывался TinyZero?
Для тестирования модели исследователи использовали игру Countdown, где игроки должны достичь целевого числа, используя базовые математические операции. Изначально TinyZero давал случайные ответы, но со временем научился проверять их, искать более точные решения и корректировать свои действия.
Команда экспериментировала с моделями разного размера — от 500 миллионов до 7 миллиардов параметров. Результаты показали, что меньшие модели (0,5 млрд параметров) просто угадывали ответы и останавливались. Более крупные модели (1,5 млрд+ параметров) научились самостоятельно проверять ответы, улучшать решения и значительно повышать точность.
Почему TinyZero впечатляет?
Главное преимущество TinyZero — его низкая стоимость по сравнению с традиционными моделями ИИ. Вот сравнение затрат:
-
API OpenAI: $15 за миллион токенов.
-
DeepSeek-R1: $0,55 за миллион токенов.
-
Общая стоимость TinyZero: $30 (одноразовые затраты на обучение).
Это означает, что экспериментировать с моделями ИИ для рассуждений теперь могут не только крупные компании, но и отдельные исследователи или небольшие команды.
Доступность TinyZero
TinyZero является открытым проектом и доступен на GitHub, что позволяет любому желающему изучить и доработать его. Хотя на данный момент модель тестировалась только в игре Countdown, Пан надеется, что этот проект сделает исследования в области обучения с подкреплением более доступными.
«Конечно, есть оговорка: модель проверена только на задаче Countdown, а не в общей области рассуждений», — признал Пан. Однако даже с этим ограничением TinyZero демонстрирует, что разработка ИИ не обязательно должна быть дорогостоящей. С такими проектами, как TinyZero, доступный и открытый ИИ может стать будущим этой области.
TinyZero — это яркий пример того, как инновации могут сделать передовые технологии доступными для всех. Благодаря усилиям исследователей из UC Berkeley, эксперименты с ИИ больше не требуют огромных бюджетов.