Нейросеть не имеет тела. У неё нет глаз, которыми можно увидеть что-то или рук, чтобы потрогать.
Но ей нужно рассуждать об этих вещах.
Значит, ей нужно где-то взять эти знания.
И вот здесь пригождается текст. В комментариях на реддит люди часто пишут о том, какие яблоки они ели. И это ключевой момент - именно так нейросеть узнаёт, какие вообще бывают яблоки. Один человек написал про красные, она запомнила, что они бывают красны. Другой написал про зелёные, она запомнила.
Но люди не всегда дают много информации в постах. А нейросети нужно знать не только о яблоках, а обо всём. Вот для этого и нужно большое количество текста, чтобы и него высосать все свойства объектов реального мира.
>>330182403 (OP) > зачем нейросетям нужно так много данных для обучения Потому что это кривое говно сделанное на коленке. Мне например было достаточно 10 проектов с где-то с шестью параметрами и выходным параметром стоимостью, чтобы в Экселе с помощью анализа регрессом сделать калькулятор стоимости. Языковые модели - это то же самое, только где на выходе текст
Это будет серия тредов, где я буду рассказывать вам мелочи, из которых состоит работа нейросетей.
Сегодня я расскажу вам, зачем нейросетям нужно так много данных для обучения