
Ещё пару лет назад вопрос «Какой ChatGPT лучше?» сводился к простому выбору: что за версию использовать — «тройку» или «четвёрку»? Теперь всё сложнее, и не всегда с ходу понятно, чем одна модель отличается от другой. OpenAI больше не делает ставку на одну универсальную, а предлагает линейки моделей, где каждая специализируется на чём‑то своём: одна лучше рассуждает, другой удобнее писать код, третья идеально подходит для повседневных задач (генераций и др.).
Кажется, пора перестать мыслить категориями «лучше — хуже» и начать рассматривать нейросети как инструменты. В этом обзоре я расскажу, какая модель ChatGPT лучше для каких областей, то есть как выбрать ту, которая будет решать вашу задачу лучше остальных. Спойлер: для разных предназначений мы выберем всего три‑четыре модели, чтобы закрыть максимальное число вопросов наиболее способными нейросетями.
Немного предыстории
Всё началось в 2018 году, когда инженеры стартапа OpenAI вывели на сцену первую большую языковую модель — GPT-1. Её обучали на текстовых материалах и интерактивных задачах, причём процесс разработки держали в секрете. Модель была как проба пера — интересная, но довольно ограниченная.
Открытый релиз GPT-2 состоялся в феврале 2019-го. Причём тут было не одно, а сразу четыре «издания», с числом параметров от 0,117 до 1,5 млрд. С увеличением размеров модели возникла необходимость в более масштабном датасете. Для её обучения создали новый корпус данных WebText, собрав 45 миллионов веб‑страниц, — он значительно превосходил по объёму данные, использованные при предобучении GPT-1. Кроме того, были применены различные методы очистки и отбора данных для повышения их качества.
И всё же, несмотря на успехи, GPT-2 была не без изъянов: в задачах вроде понимания текста, машинного перевода и ответов на вопросы она всё ещё проигрывала узкоспециализированным моделям. Именно поэтому разработка GPT-3 стала следующим логичным шагом.
В процессе разработки GPT-2 и GPT-3 инженеры сосредоточились на переходе от дообучения к разработке универсального ИИ. Ведь дообучение неплохо работает в чётко определённых задачах, но далеко не во всех, и вообще идея сбора специализированного набора данных для обучения на каждой подзадаче делало процесс крайне неэффективным. Кроме того, исследования показывали, что по мере увеличения размеров моделей появлялось всё больше риска переобучения на случайные закономерности в данных. Возникал парадокс: чем больше модель, тем больше информации она может усвоить; но чем уже и менее разнообразен набор данных для дообучения, тем хуже она обобщает знания и адаптируется к новым данным.
Кроме того, люди по своей природе не требуют огромных размеченных датасетов, чтобы овладеть знаниями. Поэтому, если мы хотим, чтобы ИИ‑модели действительно стали гибкими и универсальными, они должны учиться так же, как человек, — без необходимости подстраивать их под каждую новую задачу вручную. В результате при разработке GPT-2 и GPT-3 инженеры сосредоточились на таких аспектах, как:
- Обучение без привязки к конкретным задачам. Модель осваивает широкий набор навыков ещё на этапе обучения, а затем применяет их в реальных задачах, адаптируясь к новым условиям без дополнительного дообучения. В результате этого подхода оказалось, что ИИ действительно может обучаться более гибко и обобщённо.
- Обучение в контексте. Похожий принцип: модель учится понимать, что важно в данный момент, и реагировать на это.
- Гипотеза масштабирования. Одна из самых значимых идей, лежащих в основе GPT-2 и GPT-3: по мере увеличения размера модели и объёма данных в процессе обучения нейросеть может развивать новые способности самостоятельно, без явного программирования. Это так называемые проявляющиеся способности — когда модель, никогда не учившаяся решать конкретную задачу, вдруг оказывается способна её выполнить.
Благодаря этим подходам, модели GPT стали гибкими и применимыми к самым разным задачам.
GPT-3 сохранила основные архитектурные принципы GPT-2. В рамках исследования было обучено восемь моделей разного масштаба — от 0,125 до 175 млрд параметров. Эта версия была обучена на ещё более масштабных наборах данных, чем её предшественники. При этом дело было не только в количестве данных, но и в их качестве: вместо того чтобы просто набросать в датасет побольше текстов, приоритизировали надёжные источники.

