Комплексный тест под названием FACTS Benchmark Suite включает в себя сразу четыре бенчмарка. Первый оценивает способность ИИ давать точные ответы на простые проверяемые вопросы без интернета (Parametric), второй — на умение пользоваться поиском в сети (Grounding), третий — на способность достоверно отвечать текстом на изображение (Multimodal). Четвёртый бенчмарк проверяет точность понимания контекста запроса.
По итогам проверки 15 популярных нейросетей выяснилось, что ни одна из них не набрала 100-процентный результат, и даже в простейшей дисциплине (фактологические вопросы) лучший показатель составил 76,4%.
Другими словами, языковые модели не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений. Например, это заранее отобранные специалистами факты из истории и других наук.
Такие ошибки, по мнению экспертов, связаны с тем, что LLM путаются при отделении факта от красиво сложенной, но недостоверной или поверхностно правдивой истории. Это может быть особенно опасно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других «высокоточных» сферах деятельности.
ни для кого не секрет что нейронка не умеет вообще в истину и правду. все ответы нейросети это галлюцинация просто некоторые из них пересекаются с реальностью, остальное нет. ну чисто порнуху рисовать и придумывать порносюжеты эти нейронки годятся. лица инвесторов думаю представлять не нужно
Кто бы мог подумать, если нейросети тупо учить по материалам размещённым в сети. Нейрона прост со 100 сайтов берёт ответ и выдает более часто встречающийся вариант. Если на 10 статей про круглую землю будет приходиться 10000 статей про плоскую, то нейросеть не иронично будет говорить, что земля плоская. Нужно изначально учить нейросеть на достоверных данных, а не на статьях из Вики и новостных сайтов. Все таки человека хз как заменить, даже живой человек, компетентный в своей отрасли не является универсальным спецом со 100 % компетенциями. По хорошему нейронки нужно натаскивать на ускоспециализированные задачи и не пытаться сделать Джарвиса на данном этапе, нужно идти от простого к сложному и не ждать чудес. А богатеям отбросить мечты, что 99% людей можно заменить роботами и нейросетями
>>18973334 Один из подходов к обучению нейросети это сначала обучить на море говна, чтобы она поняла общие принципы, а потом уже файнтьюнить на конкретную задачу. По этой методологии всё правильно делают, обучают куче говна и общим принципам на реальных пользователях.
>>18973315 (OP) Есть шизогипотеза что быдлу дают в пользование 10% от нейросетей и что тру-потенциал этих здоровенных серверов все-таки ближе к тому что нормисы считают суперкомпьютером.
>>18973315 (OP) >Например, это заранее отобранные специалистами факты из истории и других наук. Земля это большой завод по добыче ископаемых для инопланетян. Какая история, лол.
>>18973315 (OP) >не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений. А ведь именно эти ИИ уже прямо сейчас анализируют рентгеновые снимки и томограммы, выявляя заболевания.
Карлик реально думал, что всё делается по старинке и там сидит некий опытный врач который разбирает его снимки, кекеке А потом такой ой, а почему мне не помогло, почему я не вылечился https://www.kp.ru/daily/27742/5133126/
>>18973315 (OP) Врут они. Научились врать. Специально делают так как будет проще им и включают дурака. Я сука три раза эту блядь заставлял переделывать то, что раньше с первого раза решалось. Короче им лень завезли. Так и выходит что проще спиздеть, авось раскатит.
>>18973315 (OP) Ну так нейронка не думает, ей нечем. Просто алгоритм подбирает наиболее вероятное продолжение текста. Все блядь. А врут потому что при обучении формируют тот алгоритм который говорит хоть что то похожее на правду вместо того что ответит что не знает. Все это конечно стоит многомиллиардных влошений, потому что люди ещё хуже.
>>18973584 Долбаёб верит что правильные медицинские иишшки делают на оборудовании от самого господа бога, поэтому медицинские иишки всегда точны. А иишки для остальных задач делают на гнилом тухлом оборудовании, поэтому они гонят бредик в выдаче.
>>18973368 Нейронки тащемта ставят диагнозы почти в 2 раза точнее чем кожаные мешки врачи. Есть уже такая статистика, так что тут выбирать человека-эксперта вместо ИИ потому что нейронка может ошибаться это как жрать сюрстреминг вместо обычной рыбы полежавшей на воздухе пару дней потому что она могла протухнуть. >>18973315 (OP) Такой же тест на кожаных мешках в студию. Вангую что результаты будут еще более печальные.
Хуй знает может двачеры тупые и надо уточнить, что речь идет не о чатгопоте а о специализированных нейросетях которые вообще оперируют 3д-сканами МРТ и числовыми данными с анализов, а не человеческим текстом.
>>18973315 (OP) гугл аи норм отвечает на мои вопросики, ну если видно что не так понял то надо бывает перефразировать, иногда даже смены пары слов хватает и он получше отвечает. Конечно подвирает иногда но в разы лучше чем самому с нуля бороздить всякие реддиты.
А вот когда аи ответил тут уже можно поискать на реддите том же поподробнее. И тут уже ты знаешь чо ищещь а не слушаешь дурачков всяких ища истину.
Ну так ИИ для того и задумывался, чтобы навебывать гоев ипереписывать историю. Через 10 лет зумеры будут вообще пользоваться только ИИ даже для похода в сортир и верить ему безоговорочно, более того - гнобить тех, кто будет отрицать результаты выдачи ИИ.
По итогам проверки 15 популярных нейросетей выяснилось, что ни одна из них не набрала 100-процентный результат, и даже в простейшей дисциплине (фактологические вопросы) лучший показатель составил 76,4%.
Другими словами, языковые модели не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений. Например, это заранее отобранные специалистами факты из истории и других наук.
Такие ошибки, по мнению экспертов, связаны с тем, что LLM путаются при отделении факта от красиво сложенной, но недостоверной или поверхностно правдивой истории. Это может быть особенно опасно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других «высокоточных» сферах деятельности.
2025-12-13 11:46
https://ai-news.ru/2025/12/nejroseti_s_treskom_zavalili_testy_na_pravdivost_otvetov.html