ИИ-модели говорят на множестве языков, но у них есть родной

Исследователи Федеральной политехнической школы Лозанны (EPFL) показали, что большие языковые модели, первоначально обученные на английских текстах, похоже, сами используют английский для внутренних задач, даже когда получают подсказки (промпты) на другом языке. Поскольку ИИ все сильнее вмешивается в нашу жизнь, такое превалирование английского может иметь самые серьезные последствия в отношении языковых и культурных предубеждений.
ИИ-модели говорят на множестве языков, но у них есть родной
На каком бы языке ни говорили большие языковые модели, думают они по-английски. DALLE-3
Большие языковые модели, такие как ChatGPT, покорили мир, удивив нас своей способностью понимать наши слова и отвечать на нашем родном языке — гладко и связанно. Но есть нюанс: оказывается у них есть родной язык, и этот язык — английский.

Хотя с большими языковые моделями (LLM), такими как ChatGPT от Open AI и Gemini от Google, можно взаимодействовать на любом языке, первоначально они обучены работе с сотнями миллиардов текстовых параметров, в основном, на английском. Некоторые исследователи выдвинули гипотезу, что большую часть внутренней обработки LLM выполняют на английском языке и переводят полученный текст на целевой язык в самый последний момент. Однако доказательств этому до сих пор было мало.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Тестирование Llama

Исследователи Федеральной политехнической школы Лозанны (EPFL) изучили LLM с открытым исходным кодом Llama-2 (Large Language Model Meta AI), чтобы определить, какие языки использовались на каких этапах вычислительной цепочки.

«Большие языковые модели обучены предсказывать следующее слово. Они делают это, сопоставляя каждое слово с вектором чисел, по сути, с точкой в многомерном пространстве данных. Например, слово "the" всегда будет находиться в одной и той же фиксированной точке координат», — пояснил профессор Роберт Уэст, возглавивший исследование.

«Модели объединяют, скажем, 80 слоев идентичных вычислительных блоков, каждый из которых преобразует один вектор, представляющий слово, в другой вектор. В конце этой последовательности из 80 преобразований получается вектор, представляющий следующее слово. Количество вычислений ограничено количеством слоев вычислительных блоков — чем больше вычислений выполняется, тем мощнее ваша модель и тем больше вероятность того, что следующее слово будет угадано правильно».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как своей новой работе ученые вместо того, чтобы позволить модели завершить вычисления на всех 80 слоях, каждый раз, когда LLM пыталась предсказать следующее слово, Уэст и его команда заставляли ее выдавать ответ после каждого слоя. И тогда ученые увидели, какое слово модель может предсказать еще не дойдя до конца. Ученые ставили различные задачи, например, просили модель переводить с французского на китайский.

«Мы дали LLM французское слово, затем китайский перевод, еще одно французское слово и его, китайский перевод и т. д., чтобы модель знала, что она должна перевести французское слово на китайский. В идеале модель должна выдавать со 100% вероятностью именно китайское слово, но когда мы заставили ее делать прогнозы перед последним слоем, мы обнаружили, что большую часть времени — на промежуточных слоях — LLM предсказывала английский перевод французского слова, хотя английский нигде не упоминался. Только в последних четырех-пяти слоях, LLM выдавала китайский с большей вероятностью, чем английский», — говорит Уэст.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

От слов к понятиям

Родной язык все-таки — один, на скольких бы языках мы не говорили
Родной язык все-таки — один, на скольких бы языках мы не говорили
DALLE-3

Простая гипотеза заключалась бы в том, что модель сначала переводит весь ввод на английский и в конце переводит на целевой язык, но при анализе данных исследователи пришли к гораздо более интересной теории.

На первом этапе вычислений модель еще не может угадать ни одного слова. Она сосредоточена на работе с входными данными. На втором этапе, когда уже доминирует английский язык, модель как бы выходит в своего рода абстрактное семантическое пространство, где речь идет не о словах, а о других видах представлений, которые связаны с понятиями, универсальными для любого языка и, скорее, являются моделью любого языка. Это важно, потому что для того, чтобы хорошо предсказать следующее слово, модель должна много знать о мире, и один из способов сделать это — иметь такое представление о понятиях.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Мы предполагаем, что такое представление мира с точки зрения понятий смещено в сторону английского языка. Это имело бы большой смысл, поскольку эти модели учитывали около 90% данных обучения английскому языку. Модели отображают входные слова из входного слоя в более глубокое смысловое пространство понятий, где есть представления о том, как эти понятия соотносятся друг с другом в мире. Но эти понятия связаны аналогично связям английских слов, а не слов на языке ввода», — говорит Уэст.

Монокультура и предвзятость

Ключевой вопрос, который возникает из-за доминирования английского: «Имеет ли это значение»? Исследователи полагают, что да. Существуют серьезные исследования, показывающие, что структуры, существующие в языке, формируют то, как мы конструируем реальность, и слова, которые мы используем, глубоко связаны с тем, как мы думаем. Уэст предлагает начать исследование психологии языковых моделей, в которых люди общались бы с LLM как с людьми и на разных языках расспрашивали их, проводили поведенческие тесты и оценивали степень предвзятости.

«Я думаю, что наше исследование действительно задело за живое, поскольку люди все больше беспокоятся о проблемах возникновения монокультуры. Мы можем потерять очень много, потому что то, что вы не можете выразить на английском языке, останется невыраженным. А это совсем не здорово», — заключил Уэст.