Сохранен 17

https://2ch.su/b/res/331018760.html

/b/ - Бред 2ch

К сожалению, значительная часть сохранённых до 2024 г. изображений и видео была потеряна (подробности случившегося). Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языка

Аноним 21/03/26 Суб 04:28:33 #1 №331018760

ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Пять фронтирных моделей — GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2 — набрали от 0 до 11% точности на задачах, которые в Python решит любой студент за минуты. Ни одна модель не решила ни одной задачи сложнее уровня Easy.

Эзотерические языки — это полноценные (Тьюринг-полные) языки программирования, созданные не для практического использования, а как эксперимент или интеллектуальный вызов. На них можно написать что угодно, но синтаксис максимально непривычный: Brainfuck оперирует всего восемью командами на ленте памяти, Befunge-98 — двумерная сетка, где курсор бегает в четырех направлениях, а в Whitespace код состоит только из пробелов, табов и переводов строк. Главное для бенчмарка — эти языки почти не представлены в обучающих данных: на GitHub у них в 1 000–100 000 раз меньше репозиториев, чем у Python. Если модель решает задачу на таком языке — она действительно рассуждает, а не вспоминает паттерны.

Результаты оказались жесткими. Модели, набирающие 85–95% на стандартных бенчмарках вроде HumanEval, здесь не преодолели барьер в 11%. Лучший результат без агентов — 11,2% у GPT-5.2 на Befunge-98 с итеративной обратной связью от интерпретатора. На Whitespace все модели показали ровный ноль — ни одна не смогла сгенерировать синтаксически валидный код. Характерный провал: GPT-5.2 не сложила 5 и 7 на Brainfuck, потому что парсинг десятичных чисел в этом языке требует приема, которого почти нет в открытых репозиториях.

Единственное, что заметно улучшило результат — прямая обратная связь от интерпретатора: модель генерирует код, получает ошибку, пробует снова. А вот few-shot примеры не дали статистически значимого прироста — в среднем +0,8 процентного пункта. Добавление отдельного LLM-критика и разбиение задачи на этапы (ReAct) тоже не помогли. Агентные системы Codex и Claude Code с полным доступом к терминалу показали лучшие результаты — 13,8% и 12,5% на Brainfuck, — но и они решали только простейшие задачи.

Авторы делают вывод: высокие результаты на стандартных бенчмарках все еще отражают запоминание, а не рассуждение. EsoLang-Bench — попытка измерить именно способность переносить вычислительные навыки на незнакомые домены, то есть то, что человек делает, когда осваивает новый язык по документации и экспериментам. Пока у моделей с этим плохо.

Аноним OP 21/03/26 Суб 04:29:46 #2 №331018768

Адепты ИИ, ебальнички к осмотру бля.

Аноним 21/03/26 Суб 04:35:27 #3 №331018806

И что? Охуеть, модель плохо пишет на Brainfuck, что же я буду делать!!!
>Если модель решает задачу на таком языке — она действительно рассуждает, а не вспоминает паттерны.
И что, блять? Ну вспоминает паттерн, и что? Мне какая разница, как мне компьютер высирает код на Python, если он работает, и делает то, что я попросил? Мне все равно, "вспоминает" ли там он что-то или "рассуждает".

А еще не вижу результатов бенчмарков Thinking моделей.

Аноним 21/03/26 Суб 04:35:29 #4 №331018807

>>331018760 (OP)
>высокие результаты на стандартных бенчмарках все еще отражают запоминание, а не рассуждение
срыв ковров

Аноним 21/03/26 Суб 04:43:01 #5 №331018858

>>331018806
>А еще не вижу результатов бенчмарков Thinking моделей.
Лол. Такие модели отличаются от обычных только тем, что дробят задачу на более мелкие и выстраивают в "скрытом" диалоге цепочку рассуждений. Как дробление задачи поможет решить нейросети задачу у которой:
1. нет постановки задачи
2. нет решения в открытом доступе

Аноним 21/03/26 Суб 04:49:16 #6 №331018902

>>331018858
Этот репромптинг модели самой себя на самом деле ОЧЕНЬ влияет на качество генерации. А если там еще и доступ к интернету есть, чтобы модель могла загуглить ошибку компилятора или посмотреть документацию к языку... Ууу, там вообще разъеб. Все эти проблемы описанные в оп посте что модель не знает как работают числа в Brainfuck, просто исчезают.

Аноним 21/03/26 Суб 04:55:02 #7 №331018938

>>331018760 (OP)
Эзотерические япы не всегда Тьюринг полные так то, и вообще не обязаны ими быть

Аноним 21/03/26 Суб 05:03:27 #8 №331019002

>>331018902
>чтобы модель могла загуглить ошибку компилятора или посмотреть документацию к языку
так ты же сейчас обычного вкатуна описываешь

Аноним 21/03/26 Суб 05:21:18 #9 №331019172

>>331018760 (OP)
Ну интересно конечно в целом. Вот только моя работа на 95% состоит их паттернов архитектуры и кода, и даже с запоминанием модели вполне справляются с тем чтобы порезать больше половины моей команды и отправить их на мороз, просто по факту того что происходит.

Аноним 21/03/26 Суб 05:33:08 #10 №331019287

>>331018760 (OP)
>высокие результаты на стандартных бенчмарках все еще отражают запоминание, а не рассуждение
Где архитектуре LLM заложено рассуждение? А нигде нахуй. Оно просто угадывает следующий токен.

Аноним 21/03/26 Суб 05:43:27 #11 №331019388

>>331019287
Но ведь хорошо угадывает. У людей очень много типовых проблем, даже когда сами люди ещё не подозревали, насколько их проблема типовая и как легко теперь решается. Этим и охуенны.

Аноним 21/03/26 Суб 06:04:27 #12 №331019563

>>331018760 (OP)
Похуй. 99% современного ойти это стандартные CRUDы, формошлепство и перекладывание JSON. И уж с этим нейронки справляются на отлично. Так что не очень понятно, что ты пытаешься доказать.

Аноним 21/03/26 Суб 06:04:53 #13 №331019568

1756035361345138410.jpg

Аноним 21/03/26 Суб 06:05:51 #14 №331019578

>>331019002
Вкатун кстати тупее обычно.

Аноним 21/03/26 Суб 06:13:00 #15 №331019621

>>331018760 (OP)
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
@
НИКАКОГО ИНТЕЛЛЕКТА НЕТ

Аноним 21/03/26 Суб 06:14:10 #16 №331019629

>>331019621
Так и есть. ЛЛМ модель с гигантской переборной логикой.

Аноним 21/03/26 Суб 08:01:35 #17 №331020786

бамп

comments powered by Disqus