AI21 Labs: Новая модель искусственного интеллекта, способная работать с большим количеством контекста, чем большинство других

5 апреля, 2024

By Aurora Oddi

Индустрия искусственного интеллекта все больше переходит к генеративным моделям с более широким контекстом. Однако модели с широкими контекстными окнами, как правило, требуют больших вычислительных затрат. Ор Даган, менеджер по продуктам в стартапе искусственного интеллекта AI21 Labs, утверждает, что это не обязательно так, и его компания выпускает генеративную модель, чтобы доказать это.

(adsbygoogle = window.adsbygoogle || []).push({});

Контексты, или контекстные окна, относятся к входным данным (например, тексту), которые модель учитывает перед тем, как сгенерировать выход (больше текста). Модели с маленькими контекстными окнами склонны забывать содержание даже очень недавних разговоров, в то время как модели с большими контекстами избегают этой проблемы и, кроме того, лучше понимают поток обрабатываемых ими данных.

(adsbygoogle = window.adsbygoogle || []).push({});

Новая модель генерации и анализа текста от AI21 Labs под названием Jamba может выполнять многие из тех же задач, что и такие модели, как ChatGPT от OpenAI и Gemini от Google. Обученная на сочетании публичных и собственных данных, Jamba может составлять тексты на английском, французском, испанском и португальском языках.

(adsbygoogle = window.adsbygoogle || []).push({});

Уникальной особенностью Jamba является ее способность обрабатывать до 140 000 лексем с помощью одного графического процессора с не менее чем 80 ГБ памяти, например, мощного Nvidia A100. Это соответствует примерно 105 000 слов, или 210 страницам — размер, достаточный для романа хорошего размера.

Для сравнения, контекстное окно Llama 2 от Meta составляет 32 000 лексем— меньший размер по сегодняшним меркам, но для его работы требуется GPU с памятью около 12 Гб. (Контекстные окна обычно измеряются в токенах, которые представляют собой фрагменты необработанного текста и других данных).

На первый взгляд, Jamba может показаться обычной моделью. Существует множество свободно распространяемых и загружаемых генеративных моделей искусственного интеллекта, таких как недавно выпущенная DBRX от Databricks и вышеупомянутая Llama 2.

Уникальность Jamba заключается в том, что находится под капотом. Она использует комбинацию двух архитектур моделей: трансформаторов и моделей пространства состояний (SSM).

(adsbygoogle = window.adsbygoogle || []).push({});

Трансформаторы — это предпочтительная архитектура для сложных задач рассуждения, на которой построены такие модели, как GPT-4 и вышеупомянутый Google Gemini. У них есть несколько уникальных особенностей, но отличительной характеристикой трансформаторов, несомненно, является их«механизм внимания«. Для каждой порции входных данных (например, предложения) трансформаторы«взвешивают» релевантность всех других входных данных (других предложений) и используют их для создания выходных данных (нового предложения).

С другой стороны, SSM сочетают в себе различные качества старых типов моделей искусственного интеллекта, таких как рекуррентные нейронные сети и конволюционные нейронные сети, чтобы создать более эффективную с точки зрения вычислений архитектуру, способную обрабатывать длинные последовательности данных.

SSM имеют свои ограничения. Однако некоторые ранние воплощения, включая модель с открытым исходным кодом под названием Mamba, разработанную исследователями из Принстона и Карнеги-Меллона, могут обрабатывать большие входные данные, чем их эквиваленты на основе трансформаторов, и превосходят их в задачах генерации языка.

Jamba фактически использует Mamba как часть базовой модели, и Даган говорит, что она обеспечивает в три раза большую пропускную способность на длинных контекстах по сравнению с моделями на основе трансформаторов сопоставимого размера.

‘Хотя есть несколько ранних академических примеров моделей SSM, это первая производственная модель коммерческого уровня‘, — сказал Даган.

сказал Даган в интервью TechCrunch.

«Эта архитектура, помимо того, что является инновационной и интересной для дальнейших исследований сообщества, открывает большие возможности для повышения эффективности и пропускной способности«.

Хотя Jamba была выпущена под лицензией Apache 2.0, лицензией с открытым исходным кодом, имеющей мало ограничений на использование, Даган подчеркивает, что это релиз для исследовательских целей и не предназначен для коммерческого использования. В модели не предусмотрены средства защиты от создания токсичных текстов или смягчения возможных предубеждений; в ближайшие недели будет выпущена доработанная и предположительно «более безопасная» версия.

Тем не менее, Даган говорит, что Jamba уже демонстрирует потенциал архитектуры SSM даже на этой ранней стадии.

«Особенность этой модели, как с точки зрения ее размера, так и с точки зрения ее инновационной архитектуры, заключается в том, что ее можно легко адаптировать к одному графическому процессору«.

сказал он.

«Мы уверены, что производительность еще больше возрастет с дальнейшими оптимизациями Mamba«.

Преимущества моделей искусственного интеллекта с широким контекстом

По мере того, как индустрия искусственного интеллекта продолжает развиваться, она все больше переходит к использованию генеративных моделей с более широким контекстом. Такие модели, например, Jamba от AI21 Labs, позволяют учесть больше информации, прежде чем сгенерировать желаемый результат.

Модели с широким контекстом имеют ряд преимуществ перед моделями с меньшим контекстным окном. Во-первых, модели с широким контекстом обладают большей способностью понимать и хранить важную информацию из предыдущих разговоров. Это означает, что модель может создавать более последовательные и точные результаты, избегая повторений или ошибок из-за отсутствия контекста.

Кроме того, модели с широким контекстом лучше понимают поток данных, который они рассматривают. Это означает, что они могут лучше понимать общий контекст и создавать результаты, которые лучше соответствуют конкретному контексту, в котором они используются.

Практическим примером полезности моделей с широким контекстом является сфера чат-ботов. Чат-боты, основанные на моделях с широким контекстом, могут лучше понимать предыдущие разговоры и более точно и последовательно отвечать на вопросы пользователей. Это приводит к улучшению и повышению удовлетворенности пользователей.

Кроме того, модели с широким контекстом могут использоваться в различных отраслях и приложениях. Например, с их помощью можно автоматически генерировать тексты, переводить с одного языка на другой, создавать реалистичные диалоги для видеоигр или фильмов и многое другое.

Jamba: потенциал SSM-моделей

Интересным аспектом модели Jamba от AI21 Labs является использование комбинации двух архитектур моделей: трансформаторов и моделей пространства состояний (SSM). Трансформаторы, как известно, очень эффективны в сложных задачах рассуждения, в то время как SSM способны обрабатывать более длинные последовательности данных.

Совместное использование этих двух архитектур позволяет Jamba получить лучшее из обоих миров. Трансформаторы предоставляют возможности сложных рассуждений, таких как анализ контекста и генерация связного текста, а SSM позволяют обрабатывать более длинные последовательности данных без ущерба для производительности.

Было доказано, что такой гибридный подход обеспечивает в три раза большую пропускную способность при работе с длинными контекстами по сравнению с моделями сопоставимого размера, использующими только трансформаторы. Это означает, что Jamba способен генерировать последовательный, высококачественный текст в длинных последовательностях данных, предлагая значительное преимущество перед другими моделями, доступными на рынке.

Источник статьи здесь.