Новый алгоритм ИИ научит чат-боты размышлять, прежде чем дать окончательный ответ

Исследователи искусственного интеллекта из Стэнфордского университета и компании Notbad AI Inc. разработали алгоритм, который позволяет современным чат-ботам обдумывать возможные ответы на запрос, прежде чем дать окончательный ответ. Это приводит к небольшой задержке, но серьезно повышает качество ответа. Алгоритм может быть подключен к любому чат-боту.
Новый алгоритм ИИ научит чат-боты размышлять, прежде чем дать окончательный ответ
Робот-мыслитель. DALLE-3
Чего не хватает современным моделям ИИ, так это небольшой толики сомнения в своей правоте. Они начинают исправлять свои ошибки, только после того, как их укажет пользователь. Почему бы не обдумать ответ заранее?

Исследователи искусственного интеллекта из Стэнфордского университета и компании Notbad AI Inc. разработали алгоритм, который позволяет современным чат-ботам обдумывать возможные ответы на запрос, прежде чем дать окончательный ответ.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как отмечают исследователи, общий подход современных чат-ботов заключается в формулировке ответа на запрос, с использованием обучающих данных. Ни один из чат-ботов, используемых в настоящее время, не останавливается, чтобы обдумать несколько возможных ответов на запрос, прежде чем выдать тот, который, по его мнению, наиболее вероятен. Если бы человек ответил таким образом, мы бы сказали, что он выпалил первое, что в голову пришло.

ИИ учится оценивать свои ответы

Quiet-STaR. Визуализация алгоритма в процессе обучения на одной мысли (thought). Алгоритм генерирует мысли параллельно после всех лексем в тексте (think). Модель выдает набор предсказаний следующего слова с мыслью и без нее (talk). Применяется REINFORCE (обучение с подкреплением), чтобы увеличить вероятность мыслей, которые помогают модели предсказать будущий текст, и отбрасываем мысли, которые делают будущий текст менее вероятным (learn).
Quiet-STaR. Визуализация алгоритма в процессе обучения на одной мысли (thought). Алгоритм генерирует мысли параллельно после всех лексем в тексте (think). Модель выдает набор предсказаний следующего слова с мыслью и без нее (talk). Применяется REINFORCE (обучение с подкреплением), чтобы увеличить вероятность мыслей, которые помогают модели предсказать будущий текст, и отбрасываем мысли, которые делают будущий текст менее вероятным (learn).
arXiv (2024). DOI: 10.48550/arxiv.2403.09629
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В этом новом исследовании группа дала чат-ботам возможность немного подумать, прежде чем ответить. Ученые считают, что предложенный способ, позволит чат-ботам быть гораздо более точными и отвечать на вопросы немного по-человечески.

Алгоритм Quiet-STaR сначала просит чат-бота дать несколько ответов на заданный запрос. Затем он сравнивает ответы с исходным запросом, чтобы решить, какой из них окажется лучшим. Затем он предписывает чат-боту дать тот ответ пользователю, который выбрал алгоритм. Команда также дала алгоритму возможность учиться на собственном опыте, чтобы со временем улучшать его возможности анализа.

Чтобы проверить свой алгоритм, исследователи добавили его в чат-бот Mistral 7B с открытым исходным кодом и протестировали его с помощью стандартного теста на рассуждения — он набрал 47,2%. Без алгоритма Mistral 7B набрал 36,3%. С добавленным алгоритмом Mistral 7B намного лучше справился с тестом по математике.

Исследовательская группа отмечает, что их алгоритм можно подключить к любому из используемых в настоящее время чат-ботов, хотя это должны будут сделать их создатели. По мнению ученых, такая способность немного подумать прежде чем отвечать, повысит точность ответов чат-ботов.