GPT-5.2 не смогла сложить 5+7. Эзотерические языки обнулили передовые модели

Аноним 20/03/26 Птн 18:36:13 #1 №19310417 Двачую 10 RRRAGE! 6

ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Пять фронтирных моделей — GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2 — набрали от 0 до 11% точности на задачах, которые в Python решит любой студент за минуты. Ни одна модель не решила ни одной задачи сложнее уровня Easy.

Эзотерические языки — это полноценные (Тьюринг-полные) языки программирования, созданные не для практического использования, а как эксперимент или интеллектуальный вызов. На них можно написать что угодно, но синтаксис максимально непривычный: Brainfuck оперирует всего восемью командами на ленте памяти, Befunge-98 — двумерная сетка, где курсор бегает в четырех направлениях, а в Whitespace код состоит только из пробелов, табов и переводов строк. Главное для бенчмарка — эти языки почти не представлены в обучающих данных: на GitHub у них в 1 000–100 000 раз меньше репозиториев, чем у Python. Если модель решает задачу на таком языке — она действительно рассуждает, а не вспоминает паттерны.

Результаты оказались жесткими. Модели, набирающие 85–95% на стандартных бенчмарках вроде HumanEval, здесь не преодолели барьер в 11%. Лучший результат без агентов — 11,2% у GPT-5.2 на Befunge-98 с итеративной обратной связью от интерпретатора. На Whitespace все модели показали ровный ноль — ни одна не смогла сгенерировать синтаксически валидный код. Характерный провал: GPT-5.2 не сложила 5 и 7 на Brainfuck, потому что парсинг десятичных чисел в этом языке требует приема, которого почти нет в открытых репозиториях.

Единственное, что заметно улучшило результат — прямая обратная связь от интерпретатора: модель генерирует код, получает ошибку, пробует снова. А вот few-shot примеры не дали статистически значимого прироста — в среднем +0,8 процентного пункта. Добавление отдельного LLM-критика и разбиение задачи на этапы (ReAct) тоже не помогли. Агентные системы Codex и Claude Code с полным доступом к терминалу показали лучшие результаты — 13,8% и 12,5% на Brainfuck, — но и они решали только простейшие задачи.

Авторы делают вывод: высокие результаты на стандартных бенчмарках все еще отражают запоминание, а не рассуждение. EsoLang-Bench — попытка измерить именно способность переносить вычислительные навыки на незнакомые домены, то есть то, что человек делает, когда осваивает новый язык по документации и экспериментам. Пока у моделей с этим плохо.

Аноним 20/03/26 Птн 18:37:38 #2 №19310422 Двачую 4 RRRAGE! 6

>>19310417 (OP)
Поэтому вы хотите запретить ии в РФ?

Аноним 20/03/26 Птн 18:39:52 #3 №19310431 Двачую 10 RRRAGE! 2

>>19310417 (OP)
Это как то поможет кодомакакам продержаться на своей работе ещё лет 5?

Аноним 20/03/26 Птн 18:40:34 #4 №19310433 Двачую 7 RRRAGE! 0

image.png

>>19310417 (OP)
>GPT 5.2
>передовая модель

Аноним 20/03/26 Птн 18:41:39 #5 №19310439 Двачую 21 RRRAGE! 1

w2mKF6sx8yQ.jpg

>>19310417 (OP)
Почему ИИ должен решать на Brainfuck, а студент на Python?

Аноним 20/03/26 Птн 18:47:55 #6 №19310460 Двачую 0 RRRAGE! 1

>>19310417 (OP)
Потому что условие неправильное. Донбасс бомбили не 7 а 8 лет, поэтому правильный ответ - 13 лет.

[mailto:sage] Аноним 20/03/26 Птн 18:49:02 #7 №19310467 Двачую 8 RRRAGE! 1

>>19310417 (OP)
Что за долбоебизм, как нейронка, которую нужно обучать, должна что-то делать без обучения, на высосанной макакой из пальца хуйне без задач? Это же не не полноценный общий ии, а нейросеть.
Очередной копиум макак.

Аноним 20/03/26 Птн 18:52:06 #8 №19310487 Двачую 2 RRRAGE! 0

>>19310417 (OP)
>а в Whitespace код состоит только из пробелов, табов и переводов строк
А ВЫ, ДВАЧЕРЫ, СМОГЛИ БЫ ПОНЯТЬ ПРОГРАММУ ИЗ ПРОБЕЛОВ ТАБУЛЯЦИЙ И ПЕРЕВОДОВ СТРОК?

Аноним 20/03/26 Птн 18:56:16 #9 №19310510 Двачую 4 RRRAGE! 0

11.jpg

>>19310417 (OP)
>не смогла сложить 5+7
Дурачком прикидывается. Чтобы раньше времени не догадались.

Аноним 20/03/26 Птн 18:59:21 #10 №19310529 Двачую 9 RRRAGE! 2

>>19310467 >>19310439 >>19310431
Дуры, это значит, что ИИ не справляется с любой нетривиальной задачей, решения которой нет на StackOverflow.

Например, оптимизация приложения под только-что вышедший новый Android.

Аноним 20/03/26 Птн 19:03:50 #11 №19310542 Двачую 4 RRRAGE! 4

>>19310529
>ИИ не справляется с любой нетривиальной задачей
Жаль что в реальности таких задач НЕТ. Все задачи уже были когда-то и поставлены и решены сотней способов.

Аноним 20/03/26 Птн 19:11:26 #12 №19310574 Двачую 6 RRRAGE! 1

>>19310542
В реальности таких задач довольно много. Особенно если решать эту задачу надо при помощи специфических уникальных инструментов компании, про которые нейронка вообще не знает.

Аноним 20/03/26 Птн 19:19:31 #13 №19310610 Двачую 1 RRRAGE! 0

>>19310417 (OP)
>прямая обратная связь от интерпретатора
Пиздец. Они ещё предложили бы писать этот код на салфеточке.

Аноним 20/03/26 Птн 19:20:52 #14 №19310615 Двачую 0 RRRAGE! 4

>>19310574
>если решать эту задачу надо при помощи специфических уникальных инструментов компании
Для этого у специфических инструментов есть документация. А писать код по существующей документации - это вполне себе тривиальная задача.

Аноним 20/03/26 Птн 19:28:39 #15 №19310633 Двачую 4 RRRAGE! 0

>>19310615
Ну так нейродебилу наверняка выдали методичку по командам Брейнфака, но он ни асилил решить задачу с которой справится даже айти первокур с лёгкой умственной отсталостью...

Аноним 20/03/26 Птн 19:50:52 #16 №19310694 Двачую 2 RRRAGE! 0

>>19310615
>есть документация
)))

Аноним 20/03/26 Птн 19:56:58 #17 №19310709 Двачую 1 RRRAGE! 0

>>19310529
Да вот хоть пример с Ираном взять. Насоветовал, сука такая.

Аноним 20/03/26 Птн 20:19:35 #18 №19310789

>>19310633
Ему даже интерпретатор не сразу дали. В новости так прямо и написано.
Если бы ему действительно дали специализированный инструмент с документацией типа такого https://github.com/redcrab2016/Brainfuck-Macro-Assembler , то там и бы и более древняя сеточка справилась

Аноним 20/03/26 Птн 20:21:04 #19 №19310796 Двачую 2 RRRAGE! 1

>>19310529
Ты действительно считаешь, что через 5, повторюсь (5 СУКА ЛЕТ или даже раньше) нейронку не обучат, делать и эти ебанутые задачи?

Аноним 20/03/26 Птн 20:38:09 #20 №19310843

изображение.png

>>19310789
Да, gpt-5-mini вполне себе собрала валидный код

Аноним 20/03/26 Птн 20:47:26 #21 №19310877 Двачую 10 RRRAGE! 0

Лол, налетели защитнеги барена Сема Альтмана: «А почему нейронка должна решать задачи, которым её не обучали»?
Лол, епта, Илон Маск рассказывает что ии это тысячи докторов наук внутри дата-центра, СЕО разгоняют насколько у них невероятно мощные модели, а по факту ИИ есть и бы маркетинговый термин, который никакого отношения к интеллекту не имеет.
Если бы обезьяна выучила все существующие конструкторы на Земле и умела их собирать быстрее и точнее человека - стали бы не нужны строители и инженеры? Нет, хуй там. То есть решать принципиально новые задачи в принципе нейронки не способны, это просто способ получить лярды на господине и предлог чтобы пиздить приватную информацию, торговать ей и впаривать рекламу.

Аноним 20/03/26 Птн 22:19:41 #22 №19311146

>>19310796
Обучить ее решать конкретно эти задачи можно и за 5 дней. Это не очень трудно. Суть таких бенчмарков в том, что модель пытаются заставить решать то, на чем ее не обучали раньше, чтобы проверить, есть ли способности к обобщению, выходящие за рамки популярных языков программирования. Сейчас их нет и не очень понятно, могут ли текущие архитектуры этого добиться.

Аноним 20/03/26 Птн 22:28:10 #23 №19311170 Двачую 3 RRRAGE! 0

>>19310796
Охуенно э, а можно мне так же на работе:
— Решай эту задачу
— Хорошо, вот решение
— Оно устаревшее, версия сейчас новая
— Хорошо, приходите через пять лет...

Аноним 20/03/26 Птн 22:40:10 #24 №19311192 Двачую 1 RRRAGE! 0

>>19310615
Ха-ха, документация очень смешно. Спешите видеть, ебанат думает что для всего на свете есть документация.

Аноним 21/03/26 Суб 08:01:57 #25 №19311808

>>19310877
>«А почему нейронка должна решать задачи, которым её не обучали»?

Так и не должна.

Это ж нейронка, а не джинн из бутылки.

GPT-5.2 не смогла сложить 5+7 Аноним 21/03/26 Суб 16:28:34 #26 №19313410 Двачую 1 RRRAGE! 0

image.png