Сохранен 17
https://2ch.su/b/res/331018760.html
К сожалению, значительная часть сохранённых до 2024 г. изображений и видео была потеряна (подробности случившегося). Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языка

 Аноним 21/03/26 Суб 04:28:33 #1 №331018760 
image.png
ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Пять фронтирных моделей — GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2 — набрали от 0 до 11% точности на задачах, которые в Python решит любой студент за минуты. Ни одна модель не решила ни одной задачи сложнее уровня Easy.

Эзотерические языки — это полноценные (Тьюринг-полные) языки программирования, созданные не для практического использования, а как эксперимент или интеллектуальный вызов. На них можно написать что угодно, но синтаксис максимально непривычный: Brainfuck оперирует всего восемью командами на ленте памяти, Befunge-98 — двумерная сетка, где курсор бегает в четырех направлениях, а в Whitespace код состоит только из пробелов, табов и переводов строк. Главное для бенчмарка — эти языки почти не представлены в обучающих данных: на GitHub у них в 1 000–100 000 раз меньше репозиториев, чем у Python. Если модель решает задачу на таком языке — она действительно рассуждает, а не вспоминает паттерны.

Результаты оказались жесткими. Модели, набирающие 85–95% на стандартных бенчмарках вроде HumanEval, здесь не преодолели барьер в 11%. Лучший результат без агентов — 11,2% у GPT-5.2 на Befunge-98 с итеративной обратной связью от интерпретатора. На Whitespace все модели показали ровный ноль — ни одна не смогла сгенерировать синтаксически валидный код. Характерный провал: GPT-5.2 не сложила 5 и 7 на Brainfuck, потому что парсинг десятичных чисел в этом языке требует приема, которого почти нет в открытых репозиториях.

Единственное, что заметно улучшило результат — прямая обратная связь от интерпретатора: модель генерирует код, получает ошибку, пробует снова. А вот few-shot примеры не дали статистически значимого прироста — в среднем +0,8 процентного пункта. Добавление отдельного LLM-критика и разбиение задачи на этапы (ReAct) тоже не помогли. Агентные системы Codex и Claude Code с полным доступом к терминалу показали лучшие результаты — 13,8% и 12,5% на Brainfuck, — но и они решали только простейшие задачи.

Авторы делают вывод: высокие результаты на стандартных бенчмарках все еще отражают запоминание, а не рассуждение. EsoLang-Bench — попытка измерить именно способность переносить вычислительные навыки на незнакомые домены, то есть то, что человек делает, когда осваивает новый язык по документации и экспериментам. Пока у моделей с этим плохо.
Аноним OP 21/03/26 Суб 04:29:46 #2 №331018768 
Адепты ИИ, ебальнички к осмотру бля.
Аноним 21/03/26 Суб 04:35:27 #3 №331018806 
И что? Охуеть, модель плохо пишет на Brainfuck, что же я буду делать!!!
>Если модель решает задачу на таком языке — она действительно рассуждает, а не вспоминает паттерны.
И что, блять? Ну вспоминает паттерн, и что? Мне какая разница, как мне компьютер высирает код на Python, если он работает, и делает то, что я попросил? Мне все равно, "вспоминает" ли там он что-то или "рассуждает".

А еще не вижу результатов бенчмарков Thinking моделей.
Аноним 21/03/26 Суб 04:35:29 #4 №331018807 
>>331018760 (OP)
>высокие результаты на стандартных бенчмарках все еще отражают запоминание, а не рассуждение
срыв ковров
Аноним 21/03/26 Суб 04:43:01 #5 №331018858 
>>331018806
>А еще не вижу результатов бенчмарков Thinking моделей.
Лол. Такие модели отличаются от обычных только тем, что дробят задачу на более мелкие и выстраивают в "скрытом" диалоге цепочку рассуждений. Как дробление задачи поможет решить нейросети задачу у которой:
1. нет постановки задачи
2. нет решения в открытом доступе
Аноним 21/03/26 Суб 04:49:16 #6 №331018902 
>>331018858
Этот репромптинг модели самой себя на самом деле ОЧЕНЬ влияет на качество генерации. А если там еще и доступ к интернету есть, чтобы модель могла загуглить ошибку компилятора или посмотреть документацию к языку... Ууу, там вообще разъеб. Все эти проблемы описанные в оп посте что модель не знает как работают числа в Brainfuck, просто исчезают.
Аноним 21/03/26 Суб 04:55:02 #7 №331018938 
>>331018760 (OP)
Эзотерические япы не всегда Тьюринг полные так то, и вообще не обязаны ими быть
Аноним 21/03/26 Суб 05:03:27 #8 №331019002 
>>331018902
>чтобы модель могла загуглить ошибку компилятора или посмотреть документацию к языку
так ты же сейчас обычного вкатуна описываешь
Аноним 21/03/26 Суб 05:21:18 #9 №331019172 
>>331018760 (OP)
Ну интересно конечно в целом. Вот только моя работа на 95% состоит их паттернов архитектуры и кода, и даже с запоминанием модели вполне справляются с тем чтобы порезать больше половины моей команды и отправить их на мороз, просто по факту того что происходит.
Аноним 21/03/26 Суб 05:33:08 #10 №331019287 
>>331018760 (OP)
>высокие результаты на стандартных бенчмарках все еще отражают запоминание, а не рассуждение
Где архитектуре LLM заложено рассуждение? А нигде нахуй. Оно просто угадывает следующий токен.
Аноним 21/03/26 Суб 05:43:27 #11 №331019388 
>>331019287
Но ведь хорошо угадывает. У людей очень много типовых проблем, даже когда сами люди ещё не подозревали, насколько их проблема типовая и как легко теперь решается. Этим и охуенны.
Аноним 21/03/26 Суб 06:04:27 #12 №331019563 
>>331018760 (OP)
Похуй. 99% современного ойти это стандартные CRUDы, формошлепство и перекладывание JSON. И уж с этим нейронки справляются на отлично. Так что не очень понятно, что ты пытаешься доказать.
Аноним 21/03/26 Суб 06:04:53 #13 №331019568 
1756035361345138410.jpg
>>331018806
Аноним 21/03/26 Суб 06:05:51 #14 №331019578 
>>331019002
Вкатун кстати тупее обычно.
Аноним 21/03/26 Суб 06:13:00 #15 №331019621 
>>331018760 (OP)
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
@
НИКАКОГО ИНТЕЛЛЕКТА НЕТ
Аноним 21/03/26 Суб 06:14:10 #16 №331019629 
>>331019621
Так и есть. ЛЛМ модель с гигантской переборной логикой.
Аноним 21/03/26 Суб 08:01:35 #17 №331020786 
бамп
comments powered by Disqus