Нейросети с треском завалили тесты на правдивость ответов

Аноним 14/12/25 Вск 01:36:26 #1 №18973315 Двачую 13 RRRAGE! 6

Комплексный тест под названием FACTS Benchmark Suite включает в себя сразу четыре бенчмарка. Первый оценивает способность ИИ давать точные ответы на простые проверяемые вопросы без интернета (Parametric), второй — на умение пользоваться поиском в сети (Grounding), третий — на способность достоверно отвечать текстом на изображение (Multimodal). Четвёртый бенчмарк проверяет точность понимания контекста запроса.

По итогам проверки 15 популярных нейросетей выяснилось, что ни одна из них не набрала 100-процентный результат, и даже в простейшей дисциплине (фактологические вопросы) лучший показатель составил 76,4%.

Другими словами, языковые модели не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений. Например, это заранее отобранные специалистами факты из истории и других наук.

Такие ошибки, по мнению экспертов, связаны с тем, что LLM путаются при отделении факта от красиво сложенной, но недостоверной или поверхностно правдивой истории. Это может быть особенно опасно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других «высокоточных» сферах деятельности.

2025-12-13 11:46
https://ai-news.ru/2025/12/nejroseti_s_treskom_zavalili_testy_na_pravdivost_otvetov.html

Аноним 14/12/25 Вск 01:39:31 #2 №18973317 Двачую 22 RRRAGE! 9

17556738155090.jpg

>>18973315 (OP)
Всё равно на порядок умнее и честнее хохла.

Аноним 14/12/25 Вск 01:48:30 #3 №18973323 Двачую 17 RRRAGE! 4

ни для кого не секрет что нейронка не умеет вообще в истину и правду. все ответы нейросети это галлюцинация просто некоторые из них пересекаются с реальностью, остальное нет. ну чисто порнуху рисовать и придумывать порносюжеты эти нейронки годятся. лица инвесторов думаю представлять не нужно

Аноним 14/12/25 Вск 02:07:38 #4 №18973334 Двачую 12 RRRAGE! 0

Кто бы мог подумать, если нейросети тупо учить по материалам размещённым в сети. Нейрона прост со 100 сайтов берёт ответ и выдает более часто встречающийся вариант. Если на 10 статей про круглую землю будет приходиться 10000 статей про плоскую, то нейросеть не иронично будет говорить, что земля плоская. Нужно изначально учить нейросеть на достоверных данных, а не на статьях из Вики и новостных сайтов. Все таки человека хз как заменить, даже живой человек, компетентный в своей отрасли не является универсальным спецом со 100 % компетенциями. По хорошему нейронки нужно натаскивать на ускоспециализированные задачи и не пытаться сделать Джарвиса на данном этапе, нужно идти от простого к сложному и не ждать чудес. А богатеям отбросить мечты, что 99% людей можно заменить роботами и нейросетями

Аноним 14/12/25 Вск 02:17:21 #5 №18973340 Двачую 0 RRRAGE! 2

>>18973334
Один из подходов к обучению нейросети это сначала обучить на море говна, чтобы она поняла общие принципы, а потом уже файнтьюнить на конкретную задачу. По этой методологии всё правильно делают, обучают куче говна и общим принципам на реальных пользователях.

Аноним 14/12/25 Вск 02:20:21 #6 №18973342 Двачую 0 RRRAGE! 1

>>18973315 (OP)
Есть шизогипотеза что быдлу дают в пользование 10% от нейросетей и что тру-потенциал этих здоровенных серверов все-таки ближе к тому что нормисы считают суперкомпьютером.

Аноним 14/12/25 Вск 02:41:55 #7 №18973359 Двачую 1 RRRAGE! 0

>>18973315 (OP)
>Например, это заранее отобранные специалистами факты из истории и других наук.
Земля это большой завод по добыче ископаемых для инопланетян. Какая история, лол.

Аноним 14/12/25 Вск 02:42:05 #8 №18973360 Двачую 2 RRRAGE! 1

>>18973315 (OP)
>не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений.
А ведь именно эти ИИ уже прямо сейчас анализируют рентгеновые снимки и томограммы, выявляя заболевания.

Аноним 14/12/25 Вск 02:43:26 #9 №18973361 Двачую 3 RRRAGE! 0

Положительная обратная связь, не забываем. Чем больше нейрохрючева в сети - тем хуже результаты с каждым месяцем.

Аноним 14/12/25 Вск 02:45:17 #10 №18973362 Двачую 0 RRRAGE! 1

>>18973360
Использование нейросетей запрещено в медицине.

Аноним 14/12/25 Вск 02:51:09 #11 №18973364 Двачую 1 RRRAGE! 1

>>18973362
Дурач что ле
Давно и официально юзаются, или ты серьёзно думаешь что твои анализы как в совке бабка какая-то анализирует?
https://zdorovayarossia.ru/actual/neyroseti-i-vrachi-vmesto-ili-vmeste/

Аноним 14/12/25 Вск 02:54:41 #12 №18973368 Двачую 1 RRRAGE! 1

med.png

Карлик реально думал, что всё делается по старинке и там сидит некий опытный врач который разбирает его снимки, кекеке
А потом такой ой, а почему мне не помогло, почему я не вылечился
https://www.kp.ru/daily/27742/5133126/

Аноним 14/12/25 Вск 03:03:59 #13 №18973374 Двачую 6 RRRAGE! 0

>>18973323
>лица инвесторов думаю представлять не нужно
Можно предоставить эту задачу нейронке

Аноним 14/12/25 Вск 03:06:19 #14 №18973377 Двачую 1 RRRAGE! 0

>>18973334
>на статьях из Вики
Пойду-ка разузнаю у жпт о подробностях раскопок Черного моря протохохлами. Надеюсь, получится эпос

Аноним 14/12/25 Вск 04:01:44 #15 №18973424 Двачую 2 RRRAGE! 0

>>18973315 (OP)
Врут они. Научились врать. Специально делают так как будет проще им и включают дурака. Я сука три раза эту блядь заставлял переделывать то, что раньше с первого раза решалось. Короче им лень завезли. Так и выходит что проще спиздеть, авось раскатит.

Аноним 14/12/25 Вск 04:11:04 #16 №18973428 Двачую 5 RRRAGE! 3

image.png

>>18973315 (OP)
>отобранные специалистами факты из истории
>ответ на которые уже известен
>специалистами
>истории
>факты

Аноним 14/12/25 Вск 06:18:58 #17 №18973496 Двачую 1 RRRAGE! 0

>>18973414
>Нет, не "именно эти".
Ох уж эта вера в чудо, что здесь ии-шки безграмотные, зато где то там есть идеально грамотные ии-шки.

Аноним 14/12/25 Вск 06:19:10 #18 №18973497 Двачую 5 RRRAGE! 0

>>18973315 (OP)
Ну так нейронка не думает, ей нечем. Просто алгоритм подбирает наиболее вероятное продолжение текста. Все блядь.
А врут потому что при обучении формируют тот алгоритм который говорит хоть что то похожее на правду вместо того что ответит что не знает.
Все это конечно стоит многомиллиардных влошений, потому что люди ещё хуже.

Аноним 14/12/25 Вск 06:45:36 #19 №18973514 Двачую 0 RRRAGE! 1

>>18973315 (OP)
>модели не смогли достоверно ответить даже на те вопросы

Тоже хохлянка?

Аноним 14/12/25 Вск 07:39:51 #20 №18973600 Двачую 0 RRRAGE! 2

>>18973584
Долбаёб верит что правильные медицинские иишшки делают на оборудовании от самого господа бога, поэтому медицинские иишки всегда точны. А иишки для остальных задач делают на гнилом тухлом оборудовании, поэтому они гонят бредик в выдаче.

Аноним 14/12/25 Вск 08:10:22 #21 №18973634 Двачую 2 RRRAGE! 0

>>18973612
>швятой ии не может ошибаться
Верунство чистой воды

Аноним 14/12/25 Вск 08:17:57 #22 №18973641 Двачую 2 RRRAGE! 3

maxresdefault.jpg

>>18973368
Нейронки тащемта ставят диагнозы почти в 2 раза точнее чем кожаные мешки врачи. Есть уже такая статистика, так что тут выбирать человека-эксперта вместо ИИ потому что нейронка может ошибаться это как жрать сюрстреминг вместо обычной рыбы полежавшей на воздухе пару дней потому что она могла протухнуть.
>>18973315 (OP)
Такой же тест на кожаных мешках в студию. Вангую что результаты будут еще более печальные.

Аноним 14/12/25 Вск 08:54:15 #23 №18973679 Двачую 1 RRRAGE! 0

>>18973641
> Есть уже такая статистика
Авторы статистики тоже нейронки?

Аноним 14/12/25 Вск 09:51:49 #24 №18973802 Двачую 1 RRRAGE! 2

>>18973679
Авторы - ученые в области медицины.

Хуй знает может двачеры тупые и надо уточнить, что речь идет не о чатгопоте а о специализированных нейросетях которые вообще оперируют 3д-сканами МРТ и числовыми данными с анализов, а не человеческим текстом.

Аноним 14/12/25 Вск 10:25:46 #25 №18973839

>>18973340
Советская школа!

Аноним 14/12/25 Вск 11:18:11 #26 №18973920 Двачую 0 RRRAGE! 1

>>18973315 (OP)
гугл аи норм отвечает на мои вопросики, ну если видно что не так понял то надо бывает перефразировать, иногда даже смены пары слов хватает и он получше отвечает. Конечно подвирает иногда но в разы лучше чем самому с нуля бороздить всякие реддиты.

А вот когда аи ответил тут уже можно поискать на реддите том же поподробнее. И тут уже ты знаешь чо ищещь а не слушаешь дурачков всяких ища истину.

[mailto:sage] Аноним 14/12/25 Вск 11:32:29 #27 №18973946

>>18973315 (OP)
Мой знакомый через нейросеть убедил себя в существовании бога

Аноним 14/12/25 Вск 11:55:59 #28 №18973989

А из живых людей кто-нибудь проходил тесты для ллм? Какие там результаты?

Аноним 14/12/25 Вск 12:04:36 #29 №18974000 Двачую 1 RRRAGE! 0

>>18973315 (OP)
Правдивость это прошлый век, в наше время важна только эмоциональность, а с ней всё в порядке.

Аноним 14/12/25 Вск 14:54:34 #30 №18974568

>>18973334
>А богатеям отбросить мечты, что 99% людей можно заменить роботами и нейросетями
Это не мечта, а замыслы о дистопии.

Аноним 14/12/25 Вск 15:18:41 #31 №18974622

Ну так ИИ для того и задумывался, чтобы навебывать гоев ипереписывать историю.
Через 10 лет зумеры будут вообще пользоваться только ИИ даже для похода в сортир и верить ему безоговорочно, более того - гнобить тех, кто будет отрицать результаты выдачи ИИ.