Искусственный интеллект не смог бы поступить в институт: физики проверили знания ChatGPT и ужаснулись

Эксперты МФТИ в качестве эксперимента протестировали генеративную нейросеть Chat GPT-4 Turbo в решении задач ЕГЭ по физике. По результатам искусственный интеллект не дотянул до успешного абитуриента МФТИ и получил менее 85 баллов – ниже проходного барьера для Физтеха, допустив несколько очевидных ошибок.
Искусственный интеллект не смог бы поступить в институт: физики проверили знания ChatGPT и ужаснулись
Kandinsky 3.0

Леонид Колдунов, кандидат физико-математических наук, преподаватель МФТИ, эксперт по работе со школьниками, разобрал задачи из разных разделов технических наук: физики, механики, оптики, термодинамики, электричеству и кинематике. По его словам, ошибки нейросети в решении и объяснении задач касались как финальных расчетов, так и использования терминов в решении и понимании физики процесса.

Иногда ИИ делал совсем нелогичные выводы, путаясь в формулировке ответа.

«Успешные решения GPT ограничиваются простыми задачами, требующими формального подхода. Он не способен анализировать процессы или явления, требующие фантазии или более сложных объяснений. Также он не способен интерпретировать условия. Например, он не смог решить задачу, в которой сказано, что длина волны изменится в два раза, но не указано, увеличится она или уменьшится. Здесь нейросеть не смогла выполнить анализ, только описать формулы и ими оперировать. Безусловно, с таким уровнем знаний нейросеть не смогла бы поступить в институт», – рассказал Леонид Колдунов.

«Безусловно, с таким уровнем знаний нейросеть не смогла бы поступить в институт»
Леонид Колдунов кандидат физико-математических наук, преподаватель МФТИ, эксперт по работе со школьниками

Эксперимент решения задач с помощью Chat GPT-4 также удалось оценить главному аналитику Центра искусственного интеллекта МФТИ, директору одной из ведущих конференций по ИИ в России OpenTalks.AI Игорю Пивоварову. Как заметил эксперт, несмотря на допущенные ошибки и невозможность творческого подхода в решении задач, модели генеративного интеллекта можно обучить.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Kandinsky 3.0

«Меня в целом не удивляет, что система не решает сложно составленные задачи, так как у всех этих систем, в частности, у Chat GPT, есть проблемы с математикой и с логикой, с цепью рассуждений. Люди, для того чтобы повысить точность модели, дают ей определенные промты и контекст, которые сильно повышают качество. Когда нейросеть начинает рассуждать по шагам, качество ответа сильно вырастает», – отметил Игорь Пивоваров.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Специалисты сходятся во мнении: пока у всего класса подобных систем ИИ есть проблемы с цепью логических рассуждений, несмотря на то, что в отдельных примерах они демонстрируют приемлемый уровень.

«Если нечто ходит, как утка, крякает как утка и похоже на утку, то наверное, это и есть утка. Но, на самом деле, не факт, что это утка. В этом смысле, если модель выдает текст, похожий на человеческий, это не означает, что у нее есть понимание. Одно дело выдать правильный ответ на задачу, а другое дело — понимать глубинно физику. Ощущение понимания есть, но оно иллюзорно»
Игорь Пивоваров главный аналитик Центра искусственного интеллекта МФТИ, директор конференции OpenTalks.AI

Параметр последовательной логики у ИИ пока на порядок ниже, чем у человека, поэтому, увы, при решении сложных, требующих нетривиальных ходов, математических задач генеративные модели допускают ошибки.