ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Пять фронтирных моделей — GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2 — набрали от 0 до 11% точности на задачах, которые в Python решит любой студент за минуты. Ни одна модель не решила ни одной задачи сложнее уровня Easy.
Эзотерические языки — это полноценные (Тьюринг-полные) языки программирования, созданные не для практического использования, а как эксперимент или интеллектуальный вызов. На них можно написать что угодно, но синтаксис максимально непривычный: Brainfuck оперирует всего восемью командами на ленте памяти, Befunge-98 — двумерная сетка, где курсор бегает в четырех направлениях, а в Whitespace код состоит только из пробелов, табов и переводов строк. Главное для бенчмарка — эти языки почти не представлены в обучающих данных: на GitHub у них в 1 000–100 000 раз меньше репозиториев, чем у Python. Если модель решает задачу на таком языке — она действительно рассуждает, а не вспоминает паттерны.
Результаты оказались жесткими. Модели, набирающие 85–95% на стандартных бенчмарках вроде HumanEval, здесь не преодолели барьер в 11%. Лучший результат без агентов — 11,2% у GPT-5.2 на Befunge-98 с итеративной обратной связью от интерпретатора. На Whitespace все модели показали ровный ноль — ни одна не смогла сгенерировать синтаксически валидный код. Характерный провал: GPT-5.2 не сложила 5 и 7 на Brainfuck, потому что парсинг десятичных чисел в этом языке требует приема, которого почти нет в открытых репозиториях.
Единственное, что заметно улучшило результат — прямая обратная связь от интерпретатора: модель генерирует код, получает ошибку, пробует снова. А вот few-shot примеры не дали статистически значимого прироста — в среднем +0,8 процентного пункта. Добавление отдельного LLM-критика и разбиение задачи на этапы (ReAct) тоже не помогли. Агентные системы Codex и Claude Code с полным доступом к терминалу показали лучшие результаты — 13,8% и 12,5% на Brainfuck, — но и они решали только простейшие задачи.
Авторы делают вывод: высокие результаты на стандартных бенчмарках все еще отражают запоминание, а не рассуждение. EsoLang-Bench — попытка измерить именно способность переносить вычислительные навыки на незнакомые домены, то есть то, что человек делает, когда осваивает новый язык по документации и экспериментам. Пока у моделей с этим плохо.
И что? Охуеть, модель плохо пишет на Brainfuck, что же я буду делать!!! >Если модель решает задачу на таком языке — она действительно рассуждает, а не вспоминает паттерны. И что, блять? Ну вспоминает паттерн, и что? Мне какая разница, как мне компьютер высирает код на Python, если он работает, и делает то, что я попросил? Мне все равно, "вспоминает" ли там он что-то или "рассуждает".
А еще не вижу результатов бенчмарков Thinking моделей.
>>331018806 >А еще не вижу результатов бенчмарков Thinking моделей. Лол. Такие модели отличаются от обычных только тем, что дробят задачу на более мелкие и выстраивают в "скрытом" диалоге цепочку рассуждений. Как дробление задачи поможет решить нейросети задачу у которой: 1. нет постановки задачи 2. нет решения в открытом доступе
>>331018858 Этот репромптинг модели самой себя на самом деле ОЧЕНЬ влияет на качество генерации. А если там еще и доступ к интернету есть, чтобы модель могла загуглить ошибку компилятора или посмотреть документацию к языку... Ууу, там вообще разъеб. Все эти проблемы описанные в оп посте что модель не знает как работают числа в Brainfuck, просто исчезают.
>>331018760 (OP) Ну интересно конечно в целом. Вот только моя работа на 95% состоит их паттернов архитектуры и кода, и даже с запоминанием модели вполне справляются с тем чтобы порезать больше половины моей команды и отправить их на мороз, просто по факту того что происходит.
>>331018760 (OP) >высокие результаты на стандартных бенчмарках все еще отражают запоминание, а не рассуждение Где архитектуре LLM заложено рассуждение? А нигде нахуй. Оно просто угадывает следующий токен.
>>331019287 Но ведь хорошо угадывает. У людей очень много типовых проблем, даже когда сами люди ещё не подозревали, насколько их проблема типовая и как легко теперь решается. Этим и охуенны.
>>331018760 (OP) Похуй. 99% современного ойти это стандартные CRUDы, формошлепство и перекладывание JSON. И уж с этим нейронки справляются на отлично. Так что не очень понятно, что ты пытаешься доказать.
Эзотерические языки — это полноценные (Тьюринг-полные) языки программирования, созданные не для практического использования, а как эксперимент или интеллектуальный вызов. На них можно написать что угодно, но синтаксис максимально непривычный: Brainfuck оперирует всего восемью командами на ленте памяти, Befunge-98 — двумерная сетка, где курсор бегает в четырех направлениях, а в Whitespace код состоит только из пробелов, табов и переводов строк. Главное для бенчмарка — эти языки почти не представлены в обучающих данных: на GitHub у них в 1 000–100 000 раз меньше репозиториев, чем у Python. Если модель решает задачу на таком языке — она действительно рассуждает, а не вспоминает паттерны.
Результаты оказались жесткими. Модели, набирающие 85–95% на стандартных бенчмарках вроде HumanEval, здесь не преодолели барьер в 11%. Лучший результат без агентов — 11,2% у GPT-5.2 на Befunge-98 с итеративной обратной связью от интерпретатора. На Whitespace все модели показали ровный ноль — ни одна не смогла сгенерировать синтаксически валидный код. Характерный провал: GPT-5.2 не сложила 5 и 7 на Brainfuck, потому что парсинг десятичных чисел в этом языке требует приема, которого почти нет в открытых репозиториях.
Единственное, что заметно улучшило результат — прямая обратная связь от интерпретатора: модель генерирует код, получает ошибку, пробует снова. А вот few-shot примеры не дали статистически значимого прироста — в среднем +0,8 процентного пункта. Добавление отдельного LLM-критика и разбиение задачи на этапы (ReAct) тоже не помогли. Агентные системы Codex и Claude Code с полным доступом к терминалу показали лучшие результаты — 13,8% и 12,5% на Brainfuck, — но и они решали только простейшие задачи.
Авторы делают вывод: высокие результаты на стандартных бенчмарках все еще отражают запоминание, а не рассуждение. EsoLang-Bench — попытка измерить именно способность переносить вычислительные навыки на незнакомые домены, то есть то, что человек делает, когда осваивает новый язык по документации и экспериментам. Пока у моделей с этим плохо.