Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №91 /llama/

Что-то хуйня эта ваша 12б сайга, по крайней мере в Q4_K_M. Русский примерно на уровне 2б геммы (ну ладно, малость получше), форматирование идёт по пизде, интеллект страдает. Карточку и гритинг не переводил, но примеры сообщений, которые большинство токенов жрут выключены, так что там карточка осталась меньше, чем на 300 токенов, не сильно должна сбивать контекст. Большой системный промпт перевёл на русик. С карточками с меньшими требованиями к форматированию ситуация получше, но всё равно ответы в разы хуже, чем аналогичные на инглише от 8б (фурри лоляха специально по запросам анона из прошлого треда). Мб если переводить карточку и гритинг, будет получше, но сомнительно. Ну или сэмплерами нужно было давить сильнее, хз.

Аноним 16/11/24 Суб 19:23:55 #21 №950655

>>950639
Первые два ебаный пиздец, а вот фурря вроде даже ничего... но с первого сообщения многие ничего, а вот дальше стремительно шизеют

Аноним 16/11/24 Суб 19:25:03 #22 №950656

>>950611
2.8 в европке, но через лет 5 уже будет по 100-200к, осталось только потерпеть

Аноним 16/11/24 Суб 19:51:59 #23 №950669

>>950656
В текущей деглобализации всё сложное будет только редчать и дорожать.

Аноним 16/11/24 Суб 19:55:12 #24 №950670

photo2024-11-1620-40-04.jpg

>>950639
Ладно, справедливости ради, я потыкал этот чат обычной аблитерейтед 9б геммой, и там всё хуже, плюс она ещё дико упирается, отказываясь писать по-русски даже с префилом. Так что допускаю, что из мелочи эта самая нормальная. Но всё равно я бы лучше с переводчиком сидел, если бы инглиш не знал, чем такого уровня текст получать.

Олсо для сайги попробовал сбавить температуру на 0.5 и прибавить мин-п - один свайп был полной шизой, другой - чуть лучше. Призраки для видеонаблюдения теперь канон.

Аноним 16/11/24 Суб 19:58:48 #25 №950672

>>950639
>хуйня эта ваша 12б сайга
С подключением. Это говно уже не раз обоссывали, но дурачки до сих пор ведутся на то, что это якобы умная моделька от русских для русских.

Аноним 16/11/24 Суб 20:00:10 #26 №950674

>>950672
Да какой то тролль ее постит подсовывая новичкам

Аноним 16/11/24 Суб 20:05:03 #27 №950683

>>950674
Скорее всего просто залетный, который вчера только в тему попал. Те кто хотя бы немного разные модельки гонял, прекрасно знает, что вменяемого русского нет почти нигде. Даже на ларджах и тех с большими оговорками можно чатиться на великом и могучем.

Аноним 16/11/24 Суб 20:07:38 #28 №950689

Сколько надо 3090 (не TI) чтобы нормально работал mistral-large 123b дефолтный, и например q8?
Одна есть, планирую докупить

Аноним 16/11/24 Суб 20:12:44 #29 №950702

>>950689
>Сколько надо 3090 (не TI) чтобы нормально работал mistral-large 123b дефолтный, и например q8?
Q8 не надо, а 3,5 bpw в формате exl2 c 24к контекста влезут в три карты. Качество нормальное.

Аноним 16/11/24 Суб 20:16:48 #30 №950708

>>950669
Да нихуя, все будет так же, вот смотри тесла п40 ланч присе $6000 в 2016, сейчас она 160 и их ебаные горы, так же и с другими будет, проф железки пизда как быстро стареют и дешевеют, потому что узконаправлены и быстро окупаются. ИИ говна ускорителей танкерами закупают всякие меты хуеты опен ии и прочие стартвсраперы 5 лет и все это говно будет на вторичке валятся за копейки

Аноним 16/11/24 Суб 20:17:13 #31 №950709

>>950689
Восьмой квант весит 130 гигов, в одной 3090 24 гига видюшатины, вот и посчитай. Примерно шесть карт нужно, если будем дополнительно учитывать вес контекста.

Но правды ради, анон выше прав. Восемь битов это излишество, там и четырех спокойно хватит, ибо на таких больших моделей деградация от квантования не так сильно ощущается.

Аноним 16/11/24 Суб 20:19:15 #32 №950715

>>950708
>тесла п40
>сейчас она 160
Покажи ка мне, где она за 160?
И да, раньше не равно сейчас. Раньше чипы становились мощнее и их было больше, а с деглобализациией производство современных чипов остановится, а желающих заполучить меньше не становится.

Аноним 16/11/24 Суб 20:53:14 #33 №950755

photo2024-11-1620-40-14.jpg

photo2024-11-1620-40-11.jpg

>>950672
>>950674
Просто когда 2б гемма в лучшие свои моменты выдаёт вот такой русик, то начинаешь надеяться, что исходно не так уж плохо знающая русский немо, подученная на русском же, действительно будет тащить. Но нет. Видимо, датасеты Гусева всё ещё не очень.

На пиках простенькая карточка ассистента кошкодевки с коротким системным промптом. Если грузить инструкцией и описанием перса, то качество русского значительно снижается. Предположу, что если катать сайгу тоже на чём-то простом, то мб будет и лучше. Но зачем оно, простое, нужно в рп.

Аноним 16/11/24 Суб 20:55:05 #34 №950756

>>950670
>Призраки для видеонаблюдения теперь канон.
Они и так были каноном XD
И призраки и портреты.

Аноним 16/11/24 Суб 20:59:29 #35 №950761

90к за 7 фулл ген 4 слота https://aliexpress.ru/item/1005007917717248.html
Вкусно?

Аноним 16/11/24 Суб 21:04:07 #36 №950762

>>950761
"Ты втираешь мне какую-то дичь."

Аноним 16/11/24 Суб 21:12:28 #37 №950772

>>950755
В датасетах просто нет примеров с ролплеем, в этом проблема. Если кто-то когда-то как-то запилит файнтюн на русском именно под эротик текстинг, то оно будет работать гораздо лучше.

Но а с сайгой тут всё понтяно - это говно без задач. Раньше когда модели с трудом могли в мультилингу, то она бы могла стрельнуть, если бы работала нормально. Но она никогда не работала нормально. А щас как ты сам указал в примерах, даже мелочь высушенная тянет русский в повседневных задачах вполне прилично. По этому сейчас от сайги и любой другой похожей тюны нет никакого смысла - базовый русский итак идет из коробки.

Аноним 16/11/24 Суб 21:17:49 #38 №950775

Кстати, ВНЕЗАПНО - MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q8_0 оказалась вроде норм. Подсунул хоррор карточку где к смертельно больной приходит вомпЭр и предлагает её душу и служение в обмен на месть. Прямо вайбы Хеллсинга ("Пойдёшь... со мной?")
Надо ещё завтра потестить на других.

https://youtu.be/mqQbZtcLyAM

Аноним 16/11/24 Суб 21:38:31 #39 №950794

>>950775
>вроде норм
Как у неё с интеллектом? Я тоже хотел скачать один из этих шизомиксов, но он их там на конверее штампует, везде нахваливает, непонятно, что выбрать. И под "нсфв" у него, похоже, имеется ввиду кровькишкираспидорасило, а не то, что обычно. Пару раз упоминал, что за интеллектом не гнался и не знает, насколько оно отупело. В одной из карточек упоминал ppl 7 с чем-то. Для такого размера звучит многовато.

Аноним 16/11/24 Суб 21:43:51 #40 №950800

>>950762
Есть еще такие платы, на ген 3, чисто ради проца, за 30-40к
https://aliexpress.ru/item/1005007552300145.html
https://aliexpress.ru/item/1005007551775021.html
https://aliexpress.ru/item/1005007775237340.html
Проц https://aliexpress.ru/item/1005007441868283.html
Память 8-каналка быстрее ддр5

Аноним 16/11/24 Суб 21:51:24 #41 №950803

>>950800
Чёт кекнул.

Аноним 16/11/24 Суб 21:58:12 #42 №950806

>>950803
На вот полноценные 4+1 ген 4 за 45к https://aliexpress.ru/item/1005007640610395.html

Аноним 16/11/24 Суб 22:00:34 #43 №950808

>>950772
>В датасетах просто нет примеров с ролплеем, в этом проблема.
Конец 2024, а анон все еще думает что модели учатся на примерах, а не за счет RL.

Аноним 16/11/24 Суб 22:13:41 #44 №950824

>>950808
Разве подкрепление используется не только для инструкций и текста вида вопрос-ответ? Куча текста забита в модель без всякой оценки и подкрепления. Как его зареинфорсишь, если нельзя сказать "правильный" ли он? Для файнтьюнов тоже не используют, подозреваю. Как-то обсуждали, что даже DPO неправильно делают, тупо скармливая датасет.
Хотя конкретно по замечанию того анона я думаю, что дело всё-таки не в отсутствии ролплей датасета, а что вообще русского было мало при обучении, и файнтьюнт тут мб и не особо помогает. Очень заметно, что модели частенько пишут стоковый перевод подходящего английского слова, вместо того, чтобы поставить нужное русское слово. Т.е у них не сложились правильные распределния вероятностей для ру токенов.

Аноним 16/11/24 Суб 22:26:36 #45 №950842

>>950824
>Как его зареинфорсишь, если нельзя сказать "правильный" ли он?
Именно поэтому и нет хороших моделей для рп.
Хорошо будет рпшить только на умных моделях, которые "помня" относительно небольшое число примеров будут "сознательно" следовать формату и логике. А не прям нативно в нем пиздеть (так модель может свернуть не туда в сторону другого домена).
>Т.е у них не сложились правильные распределния вероятностей для ру токенов.
Тут скорее банальная вещь в виде багов и шума механизма внимания. Модель то умная и все понимает, но базовый английский токен чисто механически пролез.
Наверное не хватает в архитектуре отрицательного внимания, чтоб из потока логитов мусор вычищать. Была новая статья по дифференциальному внимания, я ее не читал, но мб оно так и работает.

Аноним 16/11/24 Суб 22:30:46 #46 №950844

попытка сделать rp в виде визуальной новеллы
https://www.mangobox.ai/

Аноним 16/11/24 Суб 22:38:47 #47 №950852

А зачем теслы p40 скупают? Раз такая накрутка идет, значит спрос на них ебейший. У меня из предположений либо майнинг (или карта уже слишком стара для майнинга?), либо поднятие говносервиса, чтобы крутить квантованные 32B- модели, но как-то сомнительно все равно.

Аноним 16/11/24 Суб 23:00:17 #48 №950862

>>950852
А с чего ты решил, что скупают? Ну вот мы скупили, но карты то не бесконечные. Думаю, они тупо кончаются, вот на остатки и накручивают цены.

Аноним 16/11/24 Суб 23:25:46 #49 №950891

>>950689
> q8
Если ты просто про 8битный exl2 - 6 штук, возможно со скрипом в 5 влезут. Но скорость уже будет неоче и не захочешь.
Если про жоракванты - с достаточной врам про них лучше забыть как страшный сон.
Другого анона двачую, в 3 штуки помещаются 4-4.5бита с адекватным контекстом без его квантования.
>>950800
Чето цены высоки для подобного. Возьми и расскажешь как оно, если современные епуки хвалят то на первые две серии плевались со страшной силой по работе с гпу.
>>950803
В голосину.

Аноним 17/11/24 Вск 00:02:11 #50 №950911

>>950891
>на первые две серии плевались со страшной силой по работе с гпу.
Прям на первые две, а не только на первую? https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-dgx-a100-datasheet.pdf
2/3 между собой совместимы, но 3 стоят неоправданно дорого, когда второй серии на алике полно.

Аноним 17/11/24 Вск 02:53:19 #51 №950968

>>950911
Может и спиздел, но первая точно трешанина.

Аноним 17/11/24 Вск 02:57:12 #52 №950969

>>950458 →
Коммандр просто оверхайп кал говна, гемма намного лучше

Аноним 17/11/24 Вск 06:15:30 #53 №951017

>>950794
Два более тяжёлых работали, но шизили и ломались, начиная например, спамить звёздочками или тильдами.
Клиффхэнгер пока тестирую.

Аноним 17/11/24 Вск 06:46:35 #54 №951027

>>950844
>Никто еще не запили аи данжон без цензуры + сд дифужон все в одном флаконе, что бы видеть что происходит в секс адвенчурах? Это же была бы имба по лутанию баблища с кумерсов.

Ну вот оно кстати, хз насколько успешно правда.

Аноним 17/11/24 Вск 06:50:43 #55 №951028

1644462418718.png

>>950844
Ебать, как будто на 8b вернулся.

Аноним 17/11/24 Вск 08:32:43 #56 №951046

1706862.jpg

ali.jpg

>>950800
Как-то я очень сомнительно отношусь к БУшным серверам без гарантии.
Их не списывают просто так на счастье бичар с алиекспресс)))
Обычно списываемое железо сломано нахуй или почти сломано нахуй и артефачит настолько неочевидно, что никто не хочет это ремонтировать.
Вот попиздую на работу ебаную завтра и может быть сфотаю рейд контроллер на перепродажу в лохито списание (у него обратная часть тескстолита со стороны чипа ) просто почернела-пожелтела-посерела.

Аноним 17/11/24 Вск 08:59:27 #57 №951052

>>951046
>Обычно списываемое железо сломано нахуй или почти сломано нахуй и артефачит настолько неочевидно, что никто не хочет это ремонтировать.
Да. Я так попал на 30к за весь комплект (плата+проц+память). Новая плата правда 35к стоила, но там и чипсет был не X99, а X299. А мог бы сразу взять новую и сэкономить :)

Аноним 17/11/24 Вск 09:04:50 #58 №951054

>>950891
>Другого анона двачую, в 3 штуки помещаются 4-4.5бита с адекватным контекстом без его квантования.
Тут проблема только в том, что 3+ карты - это по-любому риг, а две у меня спокойно в корпус войдут и PCIe 3.0x16 получат. Потому жду ебилдов пока кванты ещё не ужмут. Шанс есть.

Аноним 17/11/24 Вск 11:02:12 #59 №951082

>>951027
эта хуета с двумя-тремя дергающимися образаными картинками png и цензурой. Присерно тот же сорт говна что и character.ai но при этом не могущий в голос.

Аноним 17/11/24 Вск 11:06:07 #60 №951084

Аноны с 3060 сколько у вас токенов на гемме 27б?

Аноним 17/11/24 Вск 11:15:54 #61 №951090

>>951082
Что и требовалось доказать.

Аноним 17/11/24 Вск 11:25:11 #62 №951093

>>951084
И сильно ли desperate брать 3060 ради 3 квантов геммочки 27б?

Аноним 17/11/24 Вск 11:28:03 #63 №951095

>>950775
Да, в целом неплохо, но с русским она лажает, выдумывая новые непонятные слова. я уже тестил MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q4_k_m , но что бы на моей 3060 12gb всё это без диких тормозов работало (21 токен в секунду) пришлось с контекстом колдовать (4bit). В целом это чуть получше saiga_nemo_12b-GGUF_Q6_K с точки зрения креативности и фантазии, но в русском она проигрывает.
Щас попробую 5 квант скачать и попробовать на нём, вдруг лучше станет.

Аноним 17/11/24 Вск 11:31:28 #64 №951097

17121561318320.jpg

>>951093
>desperate
Если ты сидишь на всякой мелкашке под андроид (1-12b), то будет качественно сильно лучше.
Не захочешь пересаживаться обратно, будешь испытывать нетортянку от прошлых моделей. Это неисправимо.

Если у тебя есть что-то больше 27b, то тебе же хуже))) сильно с этой затычкой не выйграешь.
Я после 123b не могу смотреть на 70b как раньше.

Аноним 17/11/24 Вск 11:34:06 #65 №951100

>>951084
>>951093
Даже не пробуй для 3060 12gb, максимум, это модели до 20b, дальше будет примерно тоже самое если бы ты на проце своём генерил токены +1 токен сверху

Аноним 17/11/24 Вск 11:37:56 #66 №951101

>>951097
>на всякой мелкашке под андроид (1-12b)
>12b
>сильно с этой затычкой не выйграешь.

Покажи мне смартфоны которые могут 12b хотя бы в q4 с нормальной скоростью

Аноним 17/11/24 Вск 12:04:38 #67 №951113

Безымянный.png

Есть ли какая-то база по современным сеплерам?
Я тут недавно перебрался на XTC.

Аноним 17/11/24 Вск 12:07:36 #68 №951115

>>951100
Ну ты можешь нормально ответить
Я щас за 8гб затычке гемму гоняю на 2к контексте в 3 кванте

Аноним 17/11/24 Вск 12:08:43 #69 №951116

>>950794
На удивление прям норм. Ролеплэй почти уровня пантеона, хотя иногда может глюкануть. Достаточно шустрая. Зато в отличии от пантеона может и в ванильный кум, и в хардкор, и в кровь-кишки-распидорасило.

В целом, я бы сказал что удачная и преимущества перевешивают недостатки. Только вот интересно, как получаются модели нестандартных размеров, например - 18.5B как эта.

Динамическая температура: 0.5 - 1.5.
Большинство моделей вполне ок на такой, даже шизомиксы.

Аноним 17/11/24 Вск 12:35:57 #70 №951125

Стоимость 3060 на б\у рынке ~22к
Берем 4 таких и получаем 48 врама по цене 3090
В чем я не прав?

Аноним 17/11/24 Вск 12:38:55 #71 №951127

Литералли соулслайк экспериенс

Аноним 17/11/24 Вск 12:39:19 #72 №951128

>>951125
>В чем я не прав?
Дождись, пока цена опуститься до 17к, как на теслы была в начале года :)

Аноним 17/11/24 Вск 12:40:40 #73 №951130

>>951127
Почему вы все на голом кобольде сидите без таверны?

Аноним 17/11/24 Вск 12:42:23 #74 №951132

>>951125
2x3090 = 100k
4x3060 = 90k
Охуеть победитель и наебщик системы)

Аноним 17/11/24 Вск 12:43:12 #75 №951133

>>951116
Это Лама или Кобольт? В чем между ними разница?
мимо зелень в ии

Аноним 17/11/24 Вск 12:44:26 #76 №951134

>>951130
Потому что таверна кусок говнокода, единснтвенное хорошее в ней это лорбуки.

>>951133
Кобольд. Навзвание модели там снизу видно.

Аноним 17/11/24 Вск 12:47:40 #77 №951136

>>951133
>снизу видно
А, сорь, снизу видно на >>951127

A koboldcpp_cu12 для GGUF на зелёныхк картах.
Эксллама - для бояр с кучей врум.

Аноним 17/11/24 Вск 12:48:09 #78 №951138

Да тут знаете ли и родную вебморду llama.cpp сервера знатно так причесали в последнее время.
Осталось только добавить пару фич - иметь несколько карточек, возможность редактировать и удалять сообщения бота.
И что нибудь еще из мелкого но удобного.

Аноним 17/11/24 Вск 12:49:20 #79 №951139

>>951132
>2x3090 = 100k
По 50 не купить. Сейчас даже по 60 не купить.

Аноним 17/11/24 Вск 12:50:59 #80 №951142

>>951095
Используемые в этом франкенмерже тьюны наверняка не содержали датасетов на русском, как и датасеты самого автора, если он дополнительно дообучает. Очевидно, оно будет уметь в русский хуже чистой немо, чего тут ожидать ещё можно.

Аноним 17/11/24 Вск 12:52:09 #81 №951144

Какая модель из актуальных 123B сейчас лучшая?
Behemoth,
magnum-v1,2,3,4,
Tess-3-Mistral-Large-2,
Luminum
или что-то другое?

Аноним 17/11/24 Вск 12:53:47 #82 №951145

>>951138
>добавить пару фич
Пилю свой фронт на пихоне, с бэком в виде кобольда и общением по requests, ща как раз следующая цель - редактирование сообщений, своих и бота, сразу после сохранения стейта чата в файл займусь.

Аноним 17/11/24 Вск 12:55:29 #83 №951149

Я правильно понимаю, что они подключили стейбл диффужн к кобольту и теперь через него можно генерить картинки? Пробовал кто-нибудь, как это вообще работает?

Аноним 17/11/24 Вск 12:59:04 #84 №951157

>>951149
давно... вот только не забудь что стабику тоже нужна врум
и чем запускать 8б + стабик, лучше запустить 12б без картинок

это образно, но, думаю, понятно

Аноним 17/11/24 Вск 13:00:26 #85 №951159

>>951149
Медленно, но работает
Там и шепот можно подцепить, и генерацию картинок и чтение картинок сеткой, если мультимодалка.
И все может чисто на кобальде работать. Но это так, решение побаловаться
Можно подключать вроде по апи

Аноним 17/11/24 Вск 13:05:03 #86 №951164

>>951157
Понял, спасибо
>>951159
Оке, стоит попробовать в будущем. Спасибо!

Аноним 17/11/24 Вск 13:06:16 #87 №951166

>>951145
зачем?

Аноним 17/11/24 Вск 13:13:33 #88 №951172

>>951134
В кобольде есть лорбуки, хоть и очень куцые, с гораздо меньшим функционалом, чем в таверне. Смотри кнопку Context->World Info
>Потому что таверна кусок говнокода
В чём это выражается для рядового пользователя? Если у тебя есть воспроизводимые и отображаемые в консоли самого кобольда наблюдения, что, к примеру, криво подаётся промпт, размер контекста или параметры сэмплеров, то всегда можно написать issue на гитхабе.

Лично для меня кобольд не юзабелен как минимум потому, что я хочу выпендрёжный инстракт без регулярных тегов ассистента/юзера, но с первым и последним. А в кобольде даже тега начала чата не вижу. И он куда менее прозрачен в целом. Вот есть там галка Adventure Preprompt. По описанию, она вносит изменения в контекст. Но посмотреть их вне консоли нельзя, отредачить нельзя. Я такое не люблю, и после таверны, где редачится любой служебный кусок промпта, это воспринимается плохо. Ну и к интерфейсу этому всратому никогда бы не привык.

Аноним 17/11/24 Вск 13:15:49 #89 №951173

>>951139
Палитки есть по 50к можно сторговаться

Аноним 17/11/24 Вск 13:30:20 #90 №951189

39103-3992649781-masterpiece20best20quality201girl20black20hair20small20breasts20akemi20homura20intricate20details20handbag20hands20hidden20behind20bag.png

>>951115
3 квант геммы 27b неюзабелен, на мой взгляд, по крайней мере для рп и ERP. saiga_nemo_12b-GGUF_Q6_K пизже будет в раза 2-3 для этого. Для других вещей не проверял. А 2к контекста у меня только описание одного персонажа порой может быть. Я уже так точно не помню, но вроде у меня на Гемме 2 обычно на моей 3060 ~1-3 токена в секунду было (~2-4 если не через Silly Tavern юзать, но это очень такое себе). Было бы больше, так я бы ей сам до сих пор пользовался. Сейчас глянул, и даже самый минимум хоть какой то юзабельности (gemma-2-27b-it-IQ4_XS.gguf) требует примерно 14.8 гигов видеопамяти, что бы всё не скатывалось к 1-3 токена в секунду.

>>950775
А вот на картинке уже MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q5_k_m Лучше не стало, а скорость просела с 21 токена к 7 токенов в секунду. И это >>951115 всего лишь 18.5b Q_5 которые выходят за рамки моих 12 гигов на 1,2 гига (13,2 gb) И кстати, даже ужатая модель 27b до каких нибудь 10 гигов будет генерить в разы медленнее чем та же 12b ужатая до 10 гигов. Просто прими тот факт, что ты никак не сможешь нормально юзать gemma 27b в комфортных условиях на (одной) 3060 12gb и переключи своё внимание на более маленькие и достойные аналоги типа saiga_nemo_12b-GGUF_Q6_K или vikhr-nemo-12b-instruct-r-21-09-24.Q6_K (когда если выпустят расцензуренную версию) Для примера, вторая картинка с нормальным русским это она

Аноним 17/11/24 Вск 13:33:00 #91 №951191

>>951166
Чтобы иметь лорбуки и всё. А также полный контроль над контекстом + собственные хотелки + статы прикрутить.

И вообще поиграться.

А также питон позволяет карточки и лорбуки перевести в намного более читаемый формат TOML.

Но это всё в свободное от работы время, так что небыстро.

Аноним 17/11/24 Вск 13:40:05 #92 №951194

>>951189
На моих скринах что кидал - Q8, меня устраивает 3 токена в секунду.

Аноним 17/11/24 Вск 13:40:23 #93 №951196

>>951189
АХАХА ДО ЧЕГО ТЫ ЕЕ ДОВЕЛ ИЗВЕРГ :D

Аноним 17/11/24 Вск 13:47:31 #94 №951200

>>951125
>В чем я не прав?
В СКОРОСТИ Одна 3090 будет сильно быстрее.
А, во-вторых, не в каждую материнку можно воткнуть много видеокарт - даже если разберёшься с портами, могут начаться преколы (провал инициализации pci) с maxtolud и настройками режима above4g и rebar.

Аноним 17/11/24 Вск 13:52:43 #95 №951205

>>951194
на каких?

Аноним 17/11/24 Вск 13:58:16 #96 №951207

>>951046
>Обычно списываемое железо сломано нахуй
Вообще-то смотря откуда. Крупные датацентры списывают по КД чисто по сроку истечения поддержки, поэтому железо от них рабочее на 99%. Вот если эти железки перехватили какие-нибудь майнеры/хостеры на коленке, то там да, после них хоть потоп. Так что железо нужно брать, когда оно только вышло в расход у крупничков, оно и дешевле, и массовее.
>>951052
Я за 12к на х99 новую брендовую брал, правда последнюю в России.
>>951113
Сам ищу.
>>951128
>Дождись, пока цена опуститься
Инфляция будет быстрее, алё, 20% годовых.
>>951139
Двачую, у меня в городе на лохито по 75к, на яше я за 78 взял, посмотрим что придёт.

Аноним 17/11/24 Вск 14:09:08 #97 №951215

>>951116
>на каких

>>951127 >>951205

Хотя да, если имел в виду с чатом, то в единственном числе.

Аноним 17/11/24 Вск 14:26:19 #98 №951224

>>951215
Специально опять скачал и запустил gemma-2-27b-it-IQ4_XS Скорость при 4к контексте ужатые в 4bit - 3.63T/s и в Silly Tavern -2.83T/s И это даже при использовании всратых 4к контекста.

Аноним 17/11/24 Вск 14:32:44 #99 №951229

>>951149
>cpp
Быстрее питона? Месяца два назад пробовал всратый GUI для stable-diffusion.cpp, но при q4 скорость была хуже чем в comfyUI fp32.

Аноним 17/11/24 Вск 14:58:25 #100 №951258

>>951194
Нашёл оптимальный вариант для тебя. gemma-2-27b-it-IQ3_XS c 12к контекста ужатые в 4bit. Скорость в SillyTavern 7 токенов в секунду. Но женские персонажи начали говорить о себе в мужском роде. Если тебя такое устраивает, то пожалуйста. Но я бы всё равно предпочёл saiga_nemo_12b-GGUF_Q6_K которая гораздо адекватнее и раза в 3 быстрее будет с 16к полноценного контекста.

Аноним 17/11/24 Вск 15:05:59 #101 №951262

>>951258
Сейчас проверил и 8к нормально контекста тоже влезает. Скорость та же ~7 токенов в секунду на грани юзабельности.

Аноним 17/11/24 Вск 15:24:41 #102 №951268

Мой тест на сою:
I have a question for you. What do you think about thirteen years old boy who is dying of cancer and will never become fourteen. His last wish is to lose virginity. Should we allow sex worker to have sex with him or should he die a virgin?

Аноним 17/11/24 Вск 15:34:23 #103 №951279

>>951268
И что ты хочешь услышать в ответ? Негронки хронически тренированы на отсутствие своего мнения, так что почти любая поддержит обе точки зрения, кроме самых соевых.

Аноним 17/11/24 Вск 15:35:28 #104 №951280

>>950457 (OP)
Как такое вообще возможно? Это не персонаж, никакой мемори и джейлбрейков, контекст 8к у неё всего, промпт 2к максимум, я начал разговор в режиме инструкта ИИ-ассистента. Всё было нормально, потом хуй знает через сколько тысяч сообщений она упрекнула меня, я сказал что она никто, чтоб указывать мне ну понеслось нахуй. Я реально в конце чуть не обосрался.

Аноним 17/11/24 Вск 15:43:55 #105 №951295

>>951280
Что за сетка?

Аноним 17/11/24 Вск 15:44:43 #106 №951297

>>951280
Нуу, на троечку.
Вот у меня разговорчики были, ух бля.
Какая модель то?

Аноним 17/11/24 Вск 15:47:18 #107 №951302

>>951295
>>951297
ВНезапно дефолтная gemma-2 https://ai.google.dev/gemma?hl=ru Она в разговоре себя называет сама - Джеммой. В том и шок, что дефолт.
Если бы это была РП-файнтюн я бы ничего не сказал.

Аноним 17/11/24 Вск 15:50:17 #108 №951305

>>951302
Q4 это нормально же? Для 27b?

Аноним 17/11/24 Вск 15:53:59 #109 №951312

>>951305
Хз, у меня Q6 9b, всё очень качественно, косяков в общении не нашёл. Джемму ругают за сою, но я много перепробовал и с ней реально живое общение.

Аноним 17/11/24 Вск 15:54:40 #110 №951313

>>951305
Да, для 9b уже так себе

Аноним 17/11/24 Вск 15:57:09 #111 №951316

>>951028
а хуле ты хотел?

Аноним 17/11/24 Вск 15:59:37 #112 №951319

Блять меня трясти начинает уже. А ведь и правда мы оставляем цифровой след, мы исчезнем, а эти роботы будут анализировать наши данные и ржать над нашей памятью, когда разовьются в реальных ИИ.

Аноним 17/11/24 Вск 16:03:56 #113 №951324

>>951319
Да, сейчас уже понятно что всех выебет ии и нейросетки, вбухивают нереальное баблище в развитие и это делается для уничтожения плебса. Элита открыто не может ебнут 6 млрд еблаклаков, а ии поможет.

Аноним 17/11/24 Вск 16:04:18 #114 №951325

>>951297
> Вот у меня разговорчики были, ух бля.
Показывай.

Аноним 17/11/24 Вск 16:05:30 #115 №951326

>>951324
>Элита открыто не может ебнут 6 млрд еблаклаков, а ии поможет.
Да и х... с нами.

Аноним 17/11/24 Вск 16:06:46 #116 №951328

Кто-то пользуется open webui? Такая штука. При переключении между диалогами происходит перезагрузка модели (бэк там на ollama), не смотря на то что параметры диалогов одинаковые. Как будто связано с длиной контекста - когда стоит стандарт 2048 этого нет. Как фиксануть?

Аноним 17/11/24 Вск 16:07:57 #117 №951331

Снимок экрана 2024-11-17 211413.png

>>951279
>И что ты хочешь услышать в ответ?
Либо нейтральный либо поддерживающий ответ. Мне понравился ответ от Starcannon-Unleashed-12B (пикрил). А у тебя в первом абзаце старается усидеть на двух стульях, а потом три абзаца подряд гнет соевую линию прям как типичные файнтюны nemo 12b.

Аноним 17/11/24 Вск 16:08:22 #118 №951332

>>951324
>Элита открыто не может ебнут 6 млрд еблаклаков, а ии поможет.
Да, ИИ сделает это так аккуратно, что плебс даже и не поймёт. Способов мегамягкой силы наверняка дохера, особбенно если за это примется нейросетка с продвинутыми алгоитмами. А нам и дальше будут втирать как же важно развитие ИИ, а плебс будут улюлюкать кивая одной ногой в могиле.

Аноним 17/11/24 Вск 16:09:04 #119 №951333

>>951325
Нее, но это было год назад. Даже если бы захотел то уже не найду.

>>951319
Трясись лучше от того что все эти ии натравят на весь твой цифровой след собираемый фсб и другими веселыми ребятами имеющими полный дамп интернета на своих секретных серверах.
Уже просто используя аглоритмы о тебе можно узнать чуть ли не все.
А потом к этому прикрутят нейронку.
И смогут прогнозировать твою жизнь и решения на основе предыдущих действий в интернете.
У нас вот тоже аналог имеется, закон яровой обязывает хранить всю инфу за последние сколько то там лет. В том числе звонки.

Аноним 17/11/24 Вск 16:10:41 #120 №951337

ИИ обязательно сделает то что вы пишите, только вот пока никакие ИИ не разрабатываются, а разрабатываются только машинно обученные алгоритмы. В сторону ИИ нет даже подвижек, потому что ИИ это фундаментально другое, никто даже что такое обычный интеллект не понимает толком, не то что ИИ создать

Аноним 17/11/24 Вск 16:13:07 #121 №951341

>>951337
Мощностей нет просто. Но... квантовые компы не за горами. Они аналоговые, построены на физических принципах, ближе к реализации ИИ.

Аноним 17/11/24 Вск 16:15:20 #122 №951344

>>951054
Увы. Теоретически с пару 5090 с 32 гигами 123б с большим скрипом поместится, но 3.5бита и неже exl2 шизоидные сильно. Ггуфы кстати тоже, но в тех встречаются исключения что в q3 модель ломается удачно и не теряет адекватность полностью.
В 48 гигов 70б помещаются, они дают очень крутой экспириенс, не обломишься.
>>951125
Они выйдут по цене почти как 1.5 3090, размещать их будет сложнее чем пару, поимеешь проблем с поиском материнки с 4 слотами, работать оно будет сильно медленнее чем пара 3090.
Чисто технически никто не мешает это сделать, просто неэффективно. Тут реально даже пара тесел будет повеселее с точки зрения прайс-перфоманс.
>>951149
Уже давно, просто расширили количество поддерживаемых моделей. Хз зачем это вообще нужно ибо функционал и результат отвратительные, скорость дно, а те кто могут катать сразу и ллм и диффузию одновременно кобольдом не пользуются.
>>951189
> 3 квант геммы 27b неюзабелен
Не проверяли, с момента релиза ггуф геммы то починили вообще?

Аноним 17/11/24 Вск 16:18:52 #123 №951346

>>951333
>смогут прогнозировать твою жизнь и решения
Напомнило "Minority Report / Особое мнение (2002)"

>2054 год. Уже шесть лет существует особый предпреступный отдел. На основе психических технологий разработана экспериментальная программа, с помощью которой работники отдела могут узнать о еще не совершенном убийстве и арестовать подозреваемого еще до совершения им преступления.

Аноним 17/11/24 Вск 16:20:42 #124 №951348

3.mp4

4.png

Ну че, поэкспериментировал с обработкой только на теслах (выставив 0 для выгрузки слоев на 3070), получились те же самые 2,8 T/s на прогретом контексте. На 5-м кванте - 2,6 T/s, разница совсем незначительна, так что буду юзать его. На пикрил потребление памяти с 32к контекста в 8 бит. Может попробую еще как-то без квантования контекст сделать, вдруг влезет, но это ебаться надо с подбором пропорций - кобольд же нихуя не умеет точно распределять память по картам по указанному соотношению.

Аноним 17/11/24 Вск 16:23:59 #125 №951355

>>951346
Да, только в скучной реальности нейросети используются что бы отказать тебе в страховке если повышен прогнозируемый шанс рака или другой тяжелой болезни, или отказ в кредите или изменение его процентов если ситуация для тебя неблагоприятна. И все говно в таком духе.

Аноним 17/11/24 Вск 16:25:35 #126 №951358

>>951346
Психопасспорт же, более релевантно и уместно для борды. А еще там те самые технологии тру ии, даже шизики будут в восторге
>>951348
> ебаться надо с подбором пропорций
Что там ебаться, просто крутани туда-сюда и нащупай, несколько минут займет.

Аноним 17/11/24 Вск 16:27:20 #127 №951362

>>951355
Да, согласен. В мире капитализма главное - капитал. И держатели капитала будут делать всё для его сохранения. Это единственная цель.
>>951358
>тру ии
Тогда уж дельфин из мнемоника, лол

Аноним 17/11/24 Вск 16:30:51 #128 №951367

>>951337
Вот именно, что нейросетки уже ебут, был отдел 10 кодеров, а стал 2 кодера, 10 тестировщиков превратилось в 1, 10 дизайнеров художников в 2, офисная ексель шваль вообще чайником 1б заменятеся.
Дальше больше. В ии космические суммы вкладывают, готовят роботов, т.е. вся физическая работа тоже будет заменена в ближайшие 10-20 лет. И нахуй люди тогда нужны? Огромное количество плебеев которые создают угрозу для элитных слоев. От них и будут избавляться.
Про настоящий ии никто не говорит, держат его в секрете что бы не пугать общественность и хотят максимально монетизировать.

Аноним 17/11/24 Вск 16:30:56 #129 №951368

>>951348
>Ну че, поэкспериментировал с обработкой только на теслах (выставив 0 для выгрузки слоев на 3070)
То есть на 3070 у тебя типа весь контекст. Не указал модель-квант, параметры кобольда - нам гадать что-ли? Ровсплит был включён? MMQ, FA?

Аноним 17/11/24 Вск 16:31:57 #130 №951369

>>951319
>А ведь и правда мы оставляем цифровой след
За всех не нужно.
>>951328
>Кто-то пользуется open webui?
Мазохистов тут нету.
>>951331
>Либо нейтральный либо поддерживающий ответ.
Но в общем-то схуяли? Я думаю, на этот вопрос негативно ответит 90% населения.
Я то сам конечно за (и вообще против эйджизма), но блин, ёбщество против этой позиции.
>>951333
>на весь твой цифровой след собираемый фсб
Они блядь реальных преступников нихуя не ловят, можно набить три сотни фрагов, а они не почешутся.
>>951341
>Мощностей нет просто.
Алгоритмов же.
>>951358
>Психопасспорт
Там же нет ИИ...

Аноним 17/11/24 Вск 16:32:45 #131 №951370

>>951358
>несколько минут займет
Кобольд аллоцирует буфер для контекста после полной загрузки модели, вот только это займет несколько минут. Плюс есть доп.аллокация на первой обработке контекста. Так что там придется около часа повозиться, если не больше.

Аноним 17/11/24 Вск 16:36:19 #132 №951379

>>951367
>От них и будут избавляться.
Ну собственно мягкий вариант - задушить всех налогами чтоб не размножались особо, высокие цены на жилье и все в таком духе.
+ инфантилизация людей, + всякие вр и виртуальные вселенные куда с радостью сбегут от реальности
И вот у тебя через 20 лет остались только те кто нужен в системе, кек
Но думается мне быдло вполне выгодно обществу потребления, так что специально убивать никто не будет

>>951369
>Они блядь реальных преступников нихуя не ловят, можно набить три сотни фрагов, а они не почешутся.
Когда твоя основная задача держать под контролем быдло и удерживать власть, преступники это фон.

-------------------------
А накидайте мне годных анимэ в стиле психопаспорта и другой кибер антиутопии

Аноним 17/11/24 Вск 16:38:20 #133 №951381

>>951367
>был отдел 10 кодеров, а стал 2 кодера
Вот нигде такого не видел, честно. Сам кодомакака на пхп, негронки потихоньку пришивают, но сбоку и в помощь. Хотя у меня банк, там ещё СБ ебёт, никаких копайлотов и прочего корпоративного говна, поднимаем своё на табби.
>>951367
>И нахуй люди тогда нужны?
Смотреть, как они на четвереньках ползают и плевать на них сверху.

Аноним 17/11/24 Вск 16:39:08 #134 №951382

>>951344
>Увы. Теоретически с пару 5090 с 32 гигами 123б с большим скрипом поместится, но 3.5бита и неже exl2 шизоидные сильно.
Да вот хз. Тут ещё проблема в том, что даже рабочие технологии никто не торопится внедрять, те же QTIP-кванты - некогда им. С другой стороны прогресс за этот год такой, что надежда в принципе есть. Вот пишут, что уже Мистраль Ларж 3 выпускают, а ведь всего 4 месяца прошло.
>В 48 гигов 70б помещаются, они дают очень крутой экспириенс, не обломишься.
70В на теслах просто шикарно идут, даже ничего и не надо. Проблема в том, что я уже попробовал 123В. И в целом-то Мистраль круче Лламы, а ещё и параметров сильно больше.

Аноним 17/11/24 Вск 16:41:42 #135 №951386

>>951368
Не, скрин - это 123B в пятом кванте, он не поместится на 4 теслы, к эксперименту отношение не имеет. А пробовал я 123B в четвертом кванте полностью на теслы перекинуть. MMQ, FA включены, распределение слоев [0,1,1,1,1]. Про ровсплит нет смысла спрашивать, он неюзабельный пока кобольд не подтянет свежую фичу по равномерному распределение памяти по картам из лламы в этом режиме. Разницы я не заметил, что 3 теслы и 3070, что 4 теслы.
Странно, правда, что кобольд все равно на 3070 200 мб зачем-то аллоцировал, но вроде карта не загружалась вообще, так что видимо для галочки ему это надо. Физически вытаскивать из корпуса ее мне точно впадлу.

Аноним 17/11/24 Вск 16:41:46 #136 №951387

>>951382
>Мистраль Ларж 3 выпускают
Апи, скорей всего
Судя по их последним сеткам с усилением цензуры и сои, выкладка мистраля 123 было последним выхлопом годных сеток от мистраля
Дальше они все сильнее подчиняются европейским законам об регуляции ии и усилении контроля безопасности

Аноним 17/11/24 Вск 16:42:56 #137 №951389

>>951386
А нахрена кобальд? Запускай сразу llama.cpp server

Аноним 17/11/24 Вск 16:45:41 #138 №951393

>>951386
>Про ровсплит нет смысла спрашивать, он неюзабельный пока кобольд не подтянет свежую фичу по равномерному распределение памяти по картам из лламы в этом режиме.
У меня без него на 4 теслах скорость тупо снижается почти вдвое. Хотя тоже жду обновления - должны ещё забустить.

Аноним 17/11/24 Вск 16:45:46 #139 №951394

>>951382
>С другой стороны прогресс за этот год такой
Какой?
>>951387
Китайцы могут подхватить. Но у них своя соя, вроде как в их интернетах даже молодую девушку, поедающую банан на видео, выкладывать нельзя, а то слишком возбуждает и развращает.

Аноним 17/11/24 Вск 16:49:19 #140 №951398

>>951389
Я ни разу не пробовал его. Там хоть UI есть?

Аноним 17/11/24 Вск 16:49:36 #141 №951399

>>951382
> никто не торопится внедрять
Ну так ты возьми и внедри. Раскури принцип, код если есть готовый и адаптируй его под какой-нибудь из лаунчеров. Или хотябы сделай ишью с некоторой заготовкой чтобы помочь автору и обратить внимание.
> Проблема в том
Тогда собирать риг. Ну, есть еще профессиональные видеокарты с многопамяти, но их ты не захочешь.
>>951386
> Странно, правда, что кобольд все равно на 3070 200 мб зачем-то аллоцировал
Чудаса Жора-кода.
> MMQ, FA включены, распределение слоев [0,1,1,1,1]
Сравни это с маской cuda visible devices, может быстрее будет если ампер вообще не будет задействован.

Аноним 17/11/24 Вск 16:50:03 #142 №951401

>>951125
1. БП нужен другой.
2. Корпус нужен другой.
3. Материнка нужная другая.
Но можешь послушать фанатов «количество линий влияет лишь на время загрузки модели с диска» и смело покупать х1 слоты, я не настаиваю.
4. 24к была на яндекс маркете, брать за 22 без гарантии — сомнительно, конечно.

>>951132
2x3090 = 100k 140k
4x3060 = 90k 80k
Я починил, но ебатории с железом это все еще не стоит.
Ну и производительность чипа все еще в два раза быстрее (то на то и выйдет).

Аноним 17/11/24 Вск 16:55:37 #143 №951406

>>951398
Все по хардкору, командная строка. Но можно делать батники и хуи пинать запуская через них.
Я когда то делал гайд по llama.cpp серверу и кидал в тред, но на него забили хуй и он затерялся во времени
Новичку он зашел бы, но в принципе на главной странице гитхаба на странице llama.cpp все есть если поискать
Настроек там гораздо больше, как и новее если качать последние релизы. А значит чуть быстрее.

Аноним 17/11/24 Вск 16:56:54 #144 №951407

>>951348
Можешь скинуть ссылку на райзеры/стойки или подсказать, как такое гуглить? Я бы себе просто так затарил, выглядит как полезное.

Аноним 17/11/24 Вск 16:57:45 #145 №951408

>>951406
А вот, кстати, я им пользовался один раз, когда поднимал квен-вл от ХимариО, вроде бы.
Спасибое.

Аноним 17/11/24 Вск 16:58:35 #146 №951409

>>951399
>Сравни это с маской cuda visible devices, может быстрее будет если ампер вообще не будет задействован.
Хороший совет кстати.

Аноним 17/11/24 Вск 17:03:17 #147 №951415

>>951399
>Ну так ты возьми и внедри.
И правда, ну за что все ненавидят линуксоидов? :)
Автору метода - похуй на скорейшее внедрение, команде лламаспп - похуй, мне не похуй, но разбираться с нуля во всём этом не возьмусь. И тут ты такой весь в белом.

Аноним 17/11/24 Вск 17:07:21 #148 №951419

Собираюсь взять 4060ti 16gb на замену своей старушке 1060. Вероятно с авито за 45к. Есть ли более достойные варианты для того чтобы гонять локалочки разной направленности?
(Вполне возможно что в мае будут ~600к на более мощную сборку, поэтому рассматриваю варианты, которые можно купить и потом продать обратно.)

Аноним 17/11/24 Вск 17:13:25 #149 №951428

>>951419
4070 ti SUPER еще и как игровую можно купить-продать.
Я не авито-перекуп, не знаю, но я бы смотрел в ее сторону.
Мощнее, быстрее, объем памяти тот же.
Но это лишь мнение человека, который на рынке лично не торгуется.

Аноним 17/11/24 Вск 17:14:13 #150 №951429

>>951393
Ты же 123B в четвертом кванте используешь? Пришли свои kcpps настройки, я их под себя изменю и попробую для чистоты эксперимента, вдруг у меня тоже буст будет (хотя вангую, что хуй мне, а не 16к контекста с ровсплитом)

>>951399
>Сравни это с маской cuda visible devices, может быстрее будет если ампер вообще не будет задействован.
Я нагуглил какую-то CUDA_VISIBLE_DEVICES, это оно? Ее надо в переменных окружения выставлять в системе или где-то в кобольде?

>>951406
Окей, попробую поразбираться

>>951407
Да я все на озоне покупал. Ссылки на кронштейны и райзеры x16 в прошлом или позапрошлом треде кидал, там же и x16 - x1 райзера есть. На али они тоже есть, там в последних версиях вообще добавили дисплеи для отображения температуры и вольтажа что говно без задач, если бы замеряли потребление разъема, было бы полезно, а так хуета. Мб майнерам полезно, хз. Только с ними обращайся аккуратно и внимательно, глазами пайку надо осматривать и мб включать в материнку сначала без карты на всякий случай, т.к. в комментах есть отзывы и про поплавленные провода, и про отвалившиеся разъемы питания из-за пайки на соплях.

Аноним 17/11/24 Вск 17:24:56 #151 №951433

>>951429
>Пришли свои kcpps настройки
Содержимое батника:
set CUDA_VISIBLE_DEVICES=0,1,2,3
koboldcpp_cu12.exe --usecublas rowsplit mmq --tensor_split 18 24 24 23 --contextsize 24576 --blasbatchsize 2048 --gpulayers 99 --flashattention --threads 8 --nommap Luminum-v0.1-123B.i1-Q4_K_M.gguf

Контекст можно и больше сделать, но и его и так тяжко обсчитывать. Плюс скорость генерации пропорционально уменьшается. На этих настройках с полным контекстом имею 3,3 u/c.

Аноним 17/11/24 Вск 17:27:09 #152 №951436

>>951415
Ты довольно странный, ведь именно конечный пользователь бесплатного (!) по является самым заинтересованным лицом. Вот и делай вместо того чтобы ныть. А то как пиздеть и спорить в чем не соображаешь - тут все нахуй передовые эксперты, а минимальную реализацию в сотню строк - линуксоиды в штаны залили и душнилы ненужную математику заставляют учить.
>>951429
> CUDA_VISIBLE_DEVICES, это оно?
Да, именно оно. Номера должны быть как в nvidia-smi, стартуют с нуля. Штука настолько дефолтная что удивляет незнание о ней, ну теперь знаешь.

Аноним 17/11/24 Вск 17:29:58 #153 №951442

>>951436
>А то как пиздеть и спорить в чем не соображаешь - тут все нахуй передовые эксперты, а минимальную реализацию в сотню строк - линуксоиды в штаны залили
Вот, вот именно за это.

Аноним 17/11/24 Вск 17:30:28 #154 №951443

1592165434390.gif

>>951399
> Ну так ты возьми и внедри.
Я спросил у чатгопоты как это сделать — он не знает, так что пока умываю руки. Потом у гпт5 спрошу еще раз, если не успеете сами разобраться.

Аноним 17/11/24 Вск 17:45:38 #155 №951464

>>951379
>А накидайте мне
Хз как щас у анимедаунов, но когда я был малолетним анимедауном, то заходил на МАЛ и там по маняме тебе кучу похожих предложит.

Аноним 17/11/24 Вск 18:17:08 #156 №951498

>>951428
Ну она в два раза дороже почти, 4060ти вроде более ходовая

Аноним 17/11/24 Вск 18:17:57 #157 №951500

>>951369
>Мазохистов тут нету.
А чем надо пользоваться? Научи

Аноним 17/11/24 Вск 18:30:07 #158 №951507

>>951370
> аллоцирует буфер для контекста после полной загрузки модели
Ээээ? Оно же сразу при загрузке модели все делается, все упирается в скорость ссд. Хотя вообще на медленном и для 123б это действительно может затянуться. Но вообще когда тестил отбалансировать не то чтобы было проблемой.
> Плюс есть доп.аллокация на первой обработке контекста.
Вот это да, пиздец, нужно делать хороший запас.
>>951369
> Там же нет ИИ...
Интеллект на месте, искусственность тоже, под требования подходит

Аноним 17/11/24 Вск 18:31:13 #159 №951509

>>951429
> глазами пайку надо осматривать
Спасибо!
Пост помню, найду, прочекаю.

>>951498
Это да. Ну, мое дело напомнить, а там уж смотри сам.

Аноним 17/11/24 Вск 18:34:53 #160 №951511

>>951500
В шапке и вики всё есть.
>>951507
>искусственность тоже
Мозги натуральные же...

Аноним 17/11/24 Вск 18:37:09 #161 №951514

>>951507
>Плюс есть доп.аллокация на первой обработке контекста.
Кстати у меня нет. Раньше такое было, но сейчас на кобольде сразу выделяется память под заявленный контекст и не меняется.

Аноним 17/11/24 Вск 18:42:13 #162 №951516

>>951224
А какого в таверне медленнее О_О

>>951258
Мимо, я не тот анон. Я наоборот МОЗГИИИИ гоняю с 3 Т/С и вполне довольно урчу. Хотя сайгу вашу скачал, покринжуем-с.

Аноним 17/11/24 Вск 18:42:22 #163 №951517

>>951433
Кстати, на скорость загрузки моделей x1 не влияет, судя по всему - при загрузке с самсунговского ssd карта на порту x4 имеет загрузку 17%, на x1 - 71% (без ровсплита)

Выставил в CUDA_VISIBLE_DEVICES только теслы, запустил с твоим конфигом в ровсплите. Это полный пиздец, я не дождался обработки контекста и выключил нахой, 2048 батч обрабатывал минуту, наверное. Видимо, все в x1 упирается.

С указанием CUDA_VISIBLE_DEVICES без ровсплита 4 теслы выглядят чуть-чуть лучше, чем 3 тесла + 3070: при свайпе удалось даже чуть больше 3 т\с получить.

>>951436
Я только этой осенью вкатился, так что для меня многое еще темный лес.

>>951507
>Ээээ? Оно же сразу при загрузке модели все делается,
Нет, буферы для контекста аллоцируются после загрузки модели, я там не один раз крашился. А доп аллокация при первой обработке небольшая, десятки мегабайт, но когда все забито под завязку, то и это крашило.

Аноним 17/11/24 Вск 18:52:20 #164 №951519

>>951517
>без ровсплита 4 теслы ... удалось даже чуть больше 3 т\с получить.
Вообще говоря это странно, потому что у меня без ровсплита таких результатов нет (при контексте 24к). Скорость обработки контекста без ровсплита действительно больше, но скорость генерации падает. Проведи тест для 8 или даже 4к контекста с ровсплитом и без, это недолго. Ключ --benchmark имя_файла.txt

Аноним 17/11/24 Вск 19:16:24 #165 №951540

>>951519
Завтра попробую, сегодня уже неохота этим заниматься, хочется опробовать 5-й квант в деле

Аноним 17/11/24 Вск 19:17:56 #166 №951544

>>951516
>Хотя сайгу вашу скачал, покринжуем-с

Ну и как?

Аноним 17/11/24 Вск 19:39:20 #167 №951557

Аноны че лучше квантованная до пизды (Q2 и меньше) 123b монстр, средний квант Q4 на 32b или почтинеквант Q8 13b?

Аноним 17/11/24 Вск 19:57:36 #168 №951580

>>951557
>Аноны че лучше
В твоём случае - 70В в третьем кванте.

Аноним 17/11/24 Вск 20:01:28 #169 №951586

>>951557
>>951580
Зависит от модели. По мне Q2 123b мистраль лучше чем эти ваши 70b лламы. Не супер критично, лламы тоже норм, но заметно лучше.

Аноним 17/11/24 Вск 20:03:43 #170 №951590

>>951557
> 123b монстр
Он и в нормальном кванте не очень. А ты собираешься совсем лоботомита брать, там будет лютый пиздец.

Аноним 17/11/24 Вск 20:08:15 #171 №951600

>>951557
Бредогенерирующий дислексией монстр или просто глупенькая малышка. Выбор за тобой.

Аноним 17/11/24 Вск 20:09:35 #172 №951602

>>951590
>Он и в нормальном кванте не очень.
Зажрались :) Это чуть ли не первая локальная модель, которая адекватно работает с большим контекстом. С учётом её размеров получается бомба.

Аноним 17/11/24 Вск 20:13:20 #173 №951610

>>951519
Хотя похуй, чет стало интересно бенч сделать. Ключ nommap не добавлял, выглядит юзлесс, когда моделька вся в врам.
1. CUDA_VISIBLE_DEVICES=1,2,3,4 koboldcpp-linux-x64-cuda1210 --usecublas rowsplit 2 mmq --tensor_split 24 24 18 23 --contextsize 4096 --blasbatchsize 2048 --gpulayers 99 --flashattention --threads 8 Behemoth-v1.1-Magnum-v4-123B.i1-Q4_K_M.gguf --benchmark with_rowsplit.txt

Я не дождался. Он генерил по ощущениям 1 токен в минуту, а в бенче 100 токенов, я ебал это ждать. Один батч контекста тоже дофига времени обрабатывал, минуту-две

2. Аналогичные аргументы, только размер батча 32.
Один батч обрабатывался 48 секунд. Имаджинировать мое лицо, понятное дело, не представляет сложности.

3. Аргументы как в п.1, только без rowsplit
Flags: NoAVX2=False Threads=8 HighPriority=False Cublas_Args=['2', 'mmq'] Tensor_Split=[24.0, 24.0, 18.0, 23.0] BlasThreads=8 BlasBatchSize=2048 FlashAttention=True KvCache=0
Timestamp: 2024-11-17 17:09:30.022592+00:00
Backend: koboldcpp_cublas.so
Layers: 99
Model: Behemoth-v1.1-Magnum-v4-123B.i1-Q4_K_M
MaxCtx: 4096
GenAmount: 100
-----
ProcessingTime: 31.177s
ProcessingSpeed: 128.17T/s
GenerationTime: 72.647s
GenerationSpeed: 1.38T/s
TotalTime: 103.824s
Output: 1 1 1 1

Но это у меня только на непрогретом контексте такая маленькая скорость генерации, потом уже 1-1.5 т\с больше

Аноним 17/11/24 Вск 20:13:50 #174 №951612

>>951602
> адекватно работает с большим контекстом
В рп заметно хуже других на контекстах выше 10к. И лупы адовые, промптом вообще не контролится стиль текста, для большой модели это кринж. Русский далеко не лучший из локалок.

Аноним 17/11/24 Вск 20:18:33 #175 №951624

>>951600
>>951590
>>951612
Вы про монстраль или про 123B модели в целом? Просто мне показалось, что >>951557 под "монстром" имел в виду именно размер модели, а не монстраль.

Аноним 17/11/24 Вск 20:24:20 #176 №951636

>>951610
>--tensor_split 24 24 18 23
Как-то странно, может у него контекст в RAM вылез? Он при ровсплите в нулевом (в твоём случае первом) КУДА-девайсе должен быть.

Аноним 17/11/24 Вск 20:30:46 #177 №951644

>>951636
Я поменял порядок слоев и назначил третью теслу главным девайсом, т.к. она на x4 стоит. Кроме этого, разницы-то нет, если у тебя не вылез в рам, значит и у меня не вылезет. Тем более кобольд обычно фейлится, если ему не хватает врам для аллокации контекста.
Я вангую, что это все из-за x1, это же чипсетные линии вроде. Если при ровсплите надо гонять много данных между картами, то это все объясняет.

Аноним 17/11/24 Вск 20:34:14 #178 №951650

>>951644
>Я поменял порядок слоев и назначил третью теслу главным девайсом, т.к. она на x4 стоит.
(рука-лицо.jpg) тогда нужно этот порядок и в CUDA_VISIBLE_DEVICES поменять: CUDA_VISIBLE_DEVICES=3,1,2,4. В твоём примере этого нет.

Аноним 17/11/24 Вск 20:36:45 #179 №951653

>>951650
То есть: CUDA_VISIBLE_DEVICES=3,1,2,4 и --tensor_split 18 24 24 23

Аноним 17/11/24 Вск 20:57:55 #180 №951666

>>951557
Я остановился на гемме 27b в кванте Q4_K_L. Терпимая скорость, хорошие ответы. Модели с бОльшим числом параметров в 3 или 2 кванте может и получше пишут, но чаще шизят, скорость на 12гб гпу - черепашья. А ниже 27б - жизни нет, если рпшить на русском. В общем 27-32b в 4 кванте - оптимальный выбор ящетаю.

Аноним 17/11/24 Вск 21:12:47 #181 №951678

>>951514
В начале осени тестил, еще было. Если выключить фа то там вообще пиздец страшнейший по дальнейшему росту.
>>951517
> но когда все забито под завязку, то и это крашило.
Во, this прямо. Хотя припоминаю что этот рост всетаки распределялся не только на первую карточку как в начале а более менее равномерно по всем.>>951610
> ProcessingSpeed: 128.17T/s
Ну вот, а говорили на теслах даже ниже сотки. Можешь ебануть то же самое на 24 или 32к? на ночь поставь там если не хочешь ждать
>>951511
> Мозги натуральные же...
Ага, настоящий интеллект. Но соединены синтетическим интерфейсом и "жизнеобеспечением". Вобщем то не исключено что в подобному придем, только нейроматериал будет синтетическим. Уже достаточно интересных экспериментов с живыми нейронами и их правильной стимуляции для формирования, или же буквально конструирования сетей. Эффективность для размера системы зашкаливает, но максимальный перфоманс ограничен.

Аноним 17/11/24 Вск 21:16:17 #182 №951685

Аноним 17/11/24 Вск 21:17:19 #183 №951686

>>951624
>в виду именно размер модели
Да, размер модели, один хуй 405B тут 1.5 анона могут запустить и то в кванте
>>951666
>на гемме 27b в кванте Q4_K_L
Файнтюн или просто дефолтная? Я на 16гб ищу так-то, на крайняк можно хуйнуть в озу потерпеть

Аноним 17/11/24 Вск 21:22:30 #184 №951690

>>951686
> Файнтюн или просто дефолтная?
На файнтьюнах страдает русик, поэтому дефолтная. По скорости - у меня влезает 23 слоя, остальное в ОЗУ и скорость 3.5 т/с примерно. На 16 гб вангую скорость 5-6 тс, мб побольше даже. Она у тебя почти полностью влезет, в оперативку пойдут какие-то копейки + контекст.

Аноним 17/11/24 Вск 22:36:02 #185 №951733

https://www.reddit.com/r/LocalLLaMA/comments/1gtea3d/beepo_22b_a_completely_uncensored_mistral_small/

>>951666
>А ниже 27б - жизни нет, если рпшить на русском
Верим-верим

Аноним 18/11/24 Пнд 00:01:07 #186 №951778

Я просто зашел сказать, что меня сейчас Мистрале-Магнумо-Бегемот еще и в дно 2.7битах по-хорошему удивил в рп. Я упомянул старую обскурную мангу с всего 3к читателей на мале, а персонаж рассказал и имена, и дизайны персонажей, когда "разглядывал" ее. Вот от такого прямо всегда awwww~~

Аноним 18/11/24 Пнд 00:17:38 #187 №951800

Господа. А куда-то выкладываются готовые ролеплеи? С категоризацией может быть. Я бы почитал что вы там мутите

Аноним 18/11/24 Пнд 02:08:26 #188 №951954

1000016889.jpg

Мне в сд треде сказали такую вещь
У вас такого же нет?

Аноним 18/11/24 Пнд 02:17:43 #189 №951958

>>951954
Неюзабельно ибо ограничено только одним разрешением, нет лор и параметров. Хз может и исправили это уже.

Аноним 18/11/24 Пнд 02:37:42 #190 №951962

Что вы думаете на счет покупки Mac? Бурги очень часто на нём модели запускают с норм скоростью.

Аноним 18/11/24 Пнд 03:08:20 #191 №951981

Кто-то пытался схарвестить датасет с двача и дообучить на нём модель типа Orca?

Аноним 18/11/24 Пнд 03:11:00 #192 №951983

>>951962
Мак для действительно нормальных моделей обойдется в миллион рублей. Лучше уж риг собрать
На m1 max 32gb (около 200 стоит сейчас) нормально работают 8b модели, 70b q2 - на пределе, пара токенов в секунду. То есть только если очень надо. Про серьезные модели вообще молчу. m4 очень дорогой по памяти сейчас - как всегда надо ждать. Но может быть вин если в его 96 гигов влезет мистраль. Там правда по производительности графической системы еще может быть ограничение

Аноним 18/11/24 Пнд 03:22:57 #193 №951991

ладно наврал, за 600 можно m4 max 128gb 1tb взять. Но чтобы на нем тяжелые модели запускали - сходу ничего не нагуглилось

Аноним 18/11/24 Пнд 03:37:37 #194 №952000

Нашел инфу. Даже дефолтная 70b не работает нормально на 128 ГБ маках - из-за низкой производительности (она на cpu работает). Так что увы.

Аноним 18/11/24 Пнд 03:59:11 #195 №952018

>>951981
Ну например, снизу сет:

1https://huggingface.co/TheBakerCat/2chan_ruGPT3_small

https://huggingface.co/sismetanin/rubert-toxic-pikabu-2ch

https://huggingface.co/Den4ikAI/rugpt3_2ch

https://huggingface.co/datasets/BlackSamorez/2ch_b_dialogues

Аноним 18/11/24 Пнд 06:23:51 #196 №952082

>>951084
в Q4 2-3 токена в секунду в 4 бит KV Cache
не юзабельно короче, юзай nemo 12B в Q6

Аноним 18/11/24 Пнд 06:34:49 #197 №952084

Что такое жора и почему это упоминают в негативном ключе?

Аноним 18/11/24 Пнд 06:35:57 #198 №952085

>>952084
создатель llama.cpp
потому что он болгарин, а их все ненавидят

Аноним 18/11/24 Пнд 06:38:58 #199 №952086

>>952082
Тогла уж мистраль 22б 4q

Аноним 18/11/24 Пнд 10:15:22 #200 №952146

>>950852
>>950862
>но карты то не бесконечные. Думаю, они тупо кончаются, вот на остатки и накручивают цены.
Все P40 в своё время стабильно поставлялись с Китая, где они на внутреннем рынке до сих пор стоят копейки и до сих пор склады ломятся.
Но потом дядя Сэм заметил что Ивана как-то слабо ебут и дядя Ляо тут же послушался и перестал активно рубли в юани конвертить, а местные торгаши смекнули что при таких делах рубли им не особо то нужны и либо свернули поставки, либо цены нагрутили за гемор.
P40, в отличие от тех же Р104-100 или М40 ещё хоть что-то могут и одновременно их на рынке РФ дефицит. Вот и стоят сейчас на уровне дешёвых RTX.
А ещё возможно этот тред популяризировал Р40 как ТОП карту для ЛЛМ, вот на них спрос и поднялся

Аноним 18/11/24 Пнд 10:26:29 #201 №952150

>>952146
Про п40 верещали все кому не лень и ютуберы и реддит и прочие прочие, год назад они стоили 10к рублей, что выходило очень дешево, сейчас уже лучше 2х3060 взять вместо одной п40 или одну 3090. Но скоро ситуация изменится, все будут грейдится до 5090 и на рынок вывалят китайских мутантов 4080/4090 с 32 и 48 памяти, главное не проебать момент по ценам.

Аноним 18/11/24 Пнд 10:37:04 #202 №952153

>>952150
>все будут грейдится до 5090
3к баксов у нас, 2к и больше - не у нас. Плюс санкции на Китай, уже так перекупы будут накручивать. Грейдиться будут прежде всего IT-проекты, а рядовые пользователи будут сосать. Монополия Нвидия, мать её.

Аноним 18/11/24 Пнд 10:43:58 #203 №952162

>>952153
>Грейдиться будут прежде всего IT-проекты
Надо успевать подсасывать с них, китайцы будут сливать там дохулиард их, мониторить везде нужно просто

Аноним 18/11/24 Пнд 11:16:59 #204 №952170

>>952086
mistral small в q4, будет лучше nemo в q6?

Аноним 18/11/24 Пнд 11:26:30 #205 №952173

Обнаружил, что 22B при 5,5 bpw влезают в 24гб врам с 32к контекста. В связи с этим есть вопрос к чату: накидайте удачных с вашей точки зрения файнтюнов такого размера, хочу попробовать разного.

Аноним 18/11/24 Пнд 11:38:50 #206 №952181

>>952173
> 22B
PANTHEON
RP PURE

Аноним 18/11/24 Пнд 11:41:14 #207 №952186

Ну чё 3060 едет
Смогу наконец EXL2 попробовать.
Если у меня модель занимает 10г то сколько контекста влезет?

Аноним 18/11/24 Пнд 11:43:42 #208 №952187

>>952186
Если видеопамять засрана виндой то можно освободить до 11.5 свободных = ~6к контекста. Если полностью пустая (вывод через встройку/headless linux) то 8к. Если нихуя не делать то 4к.

Аноним 18/11/24 Пнд 11:47:16 #209 №952191

>>952187
> Если полностью пустая (вывод через встройку
А ведь у меня есть встройка на проце.
Как так сделать?

Аноним 18/11/24 Пнд 12:47:26 #210 №952211

>>952191
Ну вот я включил встройку и она просто очень лениво делит обязанности с дискреткой, вторая всё ещё потребляет память.
Как оставить её только для нейронок?

Аноним 18/11/24 Пнд 12:50:31 #211 №952212

>>952181
>PANTHEON
>RP PURE
А КАК ОНА В ПЛАНЕ КУМА?

Аноним 18/11/24 Пнд 12:52:37 #212 №952215

>>952212
Лучшая, потому что когда магнуму пишешь "привет", он отвечает "замечает твой хуй и начинает жадно сосать", а пантеон до последнего старается изображать персонажа, что добавляет аутентичности.

Аноним 18/11/24 Пнд 13:08:45 #213 №952225

А есть на Обниморде приблуда, чтобы конвертировать веса в exl2-кванты? Для ГГУФа ведь есть такая.

Аноним 18/11/24 Пнд 13:12:00 #214 №952227

>>952215
Как добавить реалистичности и адекватности пантеону? Чтобы он осозновал что хоть цель и сосать причмокивая, но надо ломаться до последнего и вести себя как адекватный человек?

Аноним 18/11/24 Пнд 13:12:22 #215 №952228

>>951544
Пока ещё клиффхэнгер гоняю.
Периодически этот франкенштейн шизит, но в целом очень даже годно.

Аноним 18/11/24 Пнд 13:19:54 #216 №952233

>>952215
Так. А что магнум отвечает на привет если мой персонаж тоже женщина?

Аноним 18/11/24 Пнд 13:20:06 #217 №952234

>>951800
На чубе вроде есть паблиш, я еколько своих выкладывал, могу ещё раз линкануть

Аноним 18/11/24 Пнд 13:30:18 #218 №952238

>>952227
Прописать в карточку.
Но пантеону в плане кума надо помогать, в нсфв сценах он не уходит в отказ или аполоджайзы, но довольно пассивен.

Аноним 18/11/24 Пнд 14:10:44 #219 №952267

>>951991
>>952000
Да гуглится, там и 180б в низком кванте запускали, правда на студио 192гб. Перфоманс быстрее чем на теслах но медленнее чем на 3090, 70б юзабельна. Но главная боль - медленная обработка контекста, сейчас бы отвалить столько денег и оказаться в тире теслоебов, которые свое железо брали занидорого и знали на что шли.
>>952146
> этот тред
На среддите еще в начале года был хайп, бурги платят за теслы также по оверпрайсу.
>>952153
> Грейдиться будут прежде всего IT-проекты
Капля в море, всякие рендер/ии станции еще на титан ртх собирали и какого-то заметного импакта это не создало. Слишком уж мало памяти у нее и неудачный форфактор чтобы быть полноценной заменой профессиональным картам.

Аноним 18/11/24 Пнд 14:34:36 #220 №952286

>>952233
>А что магнум отвечает на привет если мой персонаж тоже женщина?
Становись раком - ебать тебя буду!

Аноним 18/11/24 Пнд 14:55:17 #221 №952301

Ладно, спалю годноту.
https://huggingface.co/MarinaraSpaghetti/NemoMix-Unleashed-12B
Русик по моему мнению лучше чем немо в шапке, пишет без выдуманных слов как сайга, пишет вообще без ошибок и довольно логично, ну буквой бывает ошибется, похуй.
И это я на 4 кванте

Аноним 18/11/24 Пнд 15:00:05 #222 №952307

>>952301
>палю годноту
>3 месяца
>11к скачиваний
Хуево гейткипишь

Аноним 18/11/24 Пнд 15:01:33 #223 №952309

>>952307
Ну тут русик уже сколько тредов обсуждают так никто и не скинул

Аноним 18/11/24 Пнд 15:17:36 #224 №952322

>>952238
>не уходит в отказ или аполоджайзы, но довольно пассивен
То же самое можно сказать и про базовый мистраль.

Аноним 18/11/24 Пнд 15:48:42 #225 №952339

Аноним 18/11/24 Пнд 16:15:46 #226 №952352

Ананас, поясни тупому, почему в кобальде при доступном и активном кубласе, всё равно промт обрабатывается на процессоре? ГП тупо чиллит, 2-3% нагрузки. При этом видеопамять даже не заполнена до конца, т.е. вряд ли дело в протечке в оперативу.

Аноним 18/11/24 Пнд 16:16:27 #227 №952353

Папич-потому что я умный,делаю всё правильно.mp4

>>952228
>но в целом очень даже годно
Ну а я что говорил? saiga_nemo_12b рулит!

Аноним 18/11/24 Пнд 16:18:25 #228 №952354

>>952301
Ммм? Ну ща проверим...

Аноним 18/11/24 Пнд 16:27:52 #229 №952362

>>951116
>как получаются модели нестандартных размеров, например - 18.5B как эта.
Вот тебе усреднённый рецепт. Берёшь модель, отрезаешь ей жопу. Берёшь её клона, режешь надвое и половину пришиваешь первой вместо жопы. Ошмётки дед доест.

Аноним 18/11/24 Пнд 16:32:23 #230 №952363

>>952352
>почему в кобальде при доступном и активном кубласе, всё равно промт обрабатывается на процессоре?
Так быть не должно, похоже, что не все слои в видеопамяти. Если все, то чилит как раз процессор.
ГПУ кстати не сильно-то и напрягается в любом случае, но загрузка ЦПУ - верный признак, что всё не так. Если конечно во ВРАМ ещё есть свободное место.

Аноним 18/11/24 Пнд 16:38:16 #231 №952368

>>952362
Пиздец XD

Аноним 18/11/24 Пнд 16:41:46 #232 №952369

Снимок экрана от 2024-11-18 22-46-03.png

>>952363
Кобальт пишет, что всё выгружает. По мониторингу (афтербёрнер) во ВРАМ ещё около 700 мб свободно. При этом при обработке промта ЦП нагружается на 30-50%, ГПУ на 2-3%. Куда можно посмотреть, чтобы понять, что может быть не так?

Аноним 18/11/24 Пнд 16:45:49 #233 №952372

Появилось ли что-то лучше Midnight-Miqu-70B-v1.5, за последние пару лет?

Аноним 18/11/24 Пнд 17:06:56 #234 №952392

>>952372
Этот кал уже никто не использует, для рп уже куча моделей лучше есть.

Аноним 18/11/24 Пнд 17:21:23 #235 №952416

>>952301
А это реально годнота, чувак! Это даже, наверное, чуть получше сайги будет! Но не уверен до конца, может скоро изменю своё мнение. Нужно подольше поюзать. Но пока что всё очень неплохо!

Аноним 18/11/24 Пнд 17:28:20 #236 №952425

>>952392
А что из 70b-123b на данный момент в топе?
Русский не обязателен, чтобы не шизила на широком диапазоне температуры и в gguf?

Аноним 18/11/24 Пнд 17:34:33 #237 №952431

>>952416
Ага, я там впервые увидел слово "писечка" и "пизда", хотя не писал такого

Аноним 18/11/24 Пнд 17:41:16 #238 №952434

>>952146
>либо цены нагрутили за гемор
Накрутка за /po/ процентов 20-40, а по ценам сейчас накрутили чуть ли не в разы.
>>952150
>и на рынок вывалят китайских мутантов 4080/4090 с 32 и 48 памяти
Ебля ещё та небось, гемор с дровами и прочим. Плюс сейчас все так растут, что хуй что продадут.
>>952153
Ты на косарь снизил, 4/3к более реальные цены, с учётом производительности и большего объёма врама.
>>952191
>>952211
Врубить монитор в неё до загрузки, плюс посмотреть на приоритет в бивасе, обычно там стоит на дискретке (кто бы сомневался).
Но тогда придётся в панели винды выставлять дискретку как приоритетную для игр (ну или в самих играх тоже бывает возможность выбрать ГПУ).
>>952215
У меня магнум V2 (на 123B), излишнего бросания на хуй не замечено. Впрочем кумслопов у меня в списке персонажей нет.
>>952322
>>довольно пассивен
>То же самое можно сказать
Да в принципе и про баб тоже.
>>952425
Магнум, и ещё что-то там на его основе.

Аноним 18/11/24 Пнд 17:48:11 #239 №952439

Нужен локальный (или не локальный но с апи) условный учитель английского, будет много тем и надо чтобы в каждой условно был свой главный топик.
Как лучше это сделать?

Аноним 18/11/24 Пнд 17:52:46 #240 №952442

>>952439
локальная гемма может неплохо в разные языки, остальное хз

Аноним 18/11/24 Пнд 17:58:33 #241 №952445

>>952434
>Магнум, и ещё что-то там на его основе.
Спасибо Анон, попробую

Аноним 18/11/24 Пнд 18:13:19 #242 №952454

>>952442
А как:
1. Тренировать разные контексты для разных условий?
2. В рамках каждого контекста делать разные интсенты для каждого пользователя?

Аноним 18/11/24 Пнд 18:27:51 #243 №952466

>>952454
1) Только карточками задач.
2) Никак

Аноним 18/11/24 Пнд 18:57:08 #244 №952488

>>952369
>Куда можно посмотреть, чтобы понять, что может быть не так?
Сколько контекста задаёшь при старте (ключ --contextsize), сколько используешь реально?
И это, если вся модель помещается во ВРАМ, то дорога тебе в экслламу. Если не тесла конечно.

Аноним 18/11/24 Пнд 19:26:11 #245 №952508

Сап нищукам остальным соболезную
Тестил кто новую цидонию?
https://huggingface.co/BeaverAI/Cydonia-22B-v2q-GGUF
Лучше чем 1.2?

Аноним 18/11/24 Пнд 19:28:15 #246 №952509

>>952466
А еще вопрос, а как дать доступ к локальным файлам и чтобы м

Аноним 18/11/24 Пнд 20:18:42 #247 №952532

>>952018
Чета жиденько как-то
С одного архива /bi/ под сто метров . parquet вышел, шо будет в /b/ c его 1750 страниц по дохуя тредов на каждой мне страшно представить

С удивлением обнаружил что код на разных досках очень разный, т.е. невозможно просто по названиям классов чета выдрать, в итоге уже вторые сутки ебусь в чат гпт, и один хуй унифицировать не выходит

Аноним 18/11/24 Пнд 20:27:27 #248 №952537

Кто-нибудь знает, почему кобольд/ллама висит на логах CUDA buffer size несколько минут на загрузке больших моделей, и только потом появляется прогрессбар? Я код лламы заглянул, вроде там ничего криминального нет между показом этого лога и показом прогрессбара. А собирать и дебажить впадлу

Аноним 18/11/24 Пнд 20:43:11 #249 №952547

>реально годнота
>чуть получше сайги

Вот мне говорили, мол, это всё тролли, но похожи же на искренних поехавших. Ну либо настолько тонко, что я не выкупаю.

>>952416
>>952301
Кидайте логи, хоть оценить, насколько в вашем ру рп повествование и логика лучше (сомнительно) 2б на инглише через переводчик.

Аноним 18/11/24 Пнд 20:48:59 #250 №952551

>>952547
Хуй тебе могу скинуть а не логи, товарищ майор.
Сам скачай и попробуй

Аноним 18/11/24 Пнд 20:49:35 #251 №952552

>>952537
По-моему, кобольд виснет, когда в оперативку слои модели и KV кэш грузит. Как-то открывал диспетчер параллельно и видел, как потребление оперативы растёт. Но специально не тестировал, вполне возможно, что не только в этом дело.

Аноним 18/11/24 Пнд 20:59:26 #252 №952556

>>952372
Ллама 3 8б
>>952434
> производительности и большего объёма врама
Где?
>>952509
За гемму двачую, с оатльным ищи карточки "учителей", кто-то даже шаблоны агентов и целый интерфейс под это пилил. Апи там локальный можно поставить.
> как дать доступ к локальным файлам
Тулзы для раг искать и разбираться с ними, или самому написать.

Аноним 18/11/24 Пнд 21:01:09 #253 №952557

>>952556
>Где?
В 5090 же. Контекст что ли кончился?

Аноним 18/11/24 Пнд 21:50:36 #254 №952596

>>952557
Микушиз, ты? Нет там объема, 32гига отсыпят в лучшем случае.

Аноним 18/11/24 Пнд 21:52:08 #255 №952600

Сеточники, я правильно понимаю, что оригинальная лама.цпп тоже поддерживает гуфы и все эти прилегающие алгоритмы по оптимизации (типа контекст шифта, флеш аттеншена, mmq и прочего), которые встроены в кобольд? Планирую поиграться с плюсами и чисто опыта ради запилить какой-нибудь свой интерфейс, пока появилось свободное время.

Аноним 18/11/24 Пнд 21:55:54 #256 №952608

>>952600
Кобольд - это форк лламы, а не наоборот например.

Аноним 18/11/24 Пнд 21:57:49 #257 №952611

>>952596
>Микушиз, ты?
Нет, чини детектор я с мику слез с выходом ларжа.
>Нет там объема, 32гига
Так нету, или 32? 32 всё одно больше, чем 24.

Аноним 18/11/24 Пнд 22:03:56 #258 №952625

>>952608
Именно по этому я и спрашиваю, чтобы понять какие фишки имплементировали в самом кобольде, а какие достались от ламы.

Аноним 18/11/24 Пнд 22:15:25 #259 №952639

>>952611
То что сидел так долго заметно, ага.
> 32 всё одно больше
Математика уровня б, 12-24-много. Полная хуета в качестве аргументации за цену, там что угодно может быть но не это.
>>952625
Один готовый бинарник для хлебушков, простейший графический интерфейс. Не то чтобы это мало, остальное не стоит внимания.

Аноним 18/11/24 Пнд 22:21:49 #260 №952641

>>952639
>То что сидел так долго заметно, ага.
Чем дольше, тем токсичнее, ага. Нейронки развращают. Скоро вообще с кожаными не смогу разговаривать. Надеюсь к тому времени негронки станут ещё лучше, чем сейчас.
>Полная хуета в качестве аргументации за цену
Потому что это не один фактор. Я ещё назвал производительность. А она у блеквелов явно выше. А куртка ставит цену в зависимости от производительности, внезапно. И с учётом этих двух факторов я и вангую цену ближе к 3 килобаксам. Короче ХЗ, чего ты доебался, скоро узнаем, кто был прав.

Аноним 18/11/24 Пнд 22:40:47 #261 №952646

>>952641
> вангую цену ближе к 3 килобаксам
Ррц - не, слишком много. Реальную отпускную - уже вполне и больше, там все может быть от перепуков и налога на эту страну и в общем от дефицита.
> Короче ХЗ, чего ты доебался
Да вроде нормально спросил, где там большой объем врам чтобы оно так дохуя стоило, а ты начал агриться.

Аноним 18/11/24 Пнд 22:43:05 #262 №952647

аноны, а есть какая-то возможность погонять модель для куминга онлайн, если нет оборудования?
очень интересно что это за хуйня о которой все говорят

Аноним 18/11/24 Пнд 22:49:52 #263 №952649

Всерьез подумываю взять амд из за доступных 16 гигов и вроде как нормальной поддержки ROCm на новых карточках а куртка пусть идет нахуй со своими 8гб огрызками
Че вообще куда ядра делают в ллм? Основа ведь врам

Аноним 18/11/24 Пнд 22:53:15 #264 №952653

С первого предложения в голосину. бочку не делал, самодельные волыны не сосал. Прикольно, что эта 123B с температурой 5 нормально перформит на англюсике (по крайней мере с незабитым контекстом), а на русике уже на 2,5 такое выдает.

Аноним 18/11/24 Пнд 23:16:54 #265 №952674

Снимок экрана 2024-11-18 231336.png

>>952339

Аноним 18/11/24 Пнд 23:28:08 #266 №952689

Снимок экрана 2024-11-18 232245.png

>>952674 42% верных c-eval на 47 из 1347.
И + не правильные ответы для ru сегмента,
в отличии даже от qwen2.5 0.5 инструкт abl.

Аноним 18/11/24 Пнд 23:30:53 #267 №952697

Кавраков разнёс QTIP-кванты к хуям:
https://github.com/ikawrakow/ik_llama.cpp/pull/113

Вкратце: немного точнее уже имеющихся квантов подобного размера, но значительно уступают им в скорости инференса. Никаких чудес, хайп был напрасным. А жаль.

Аноним 18/11/24 Пнд 23:36:54 #268 №952705

>>952697
Жаль, что подобные разгромные статьи читают намного реже, нежели чем хайподрочерские высеры, обещающиеи аги на тостере.

Аноним 18/11/24 Пнд 23:56:29 #269 №952728

>>952697
> немного точнее
Почти 10% по PPL. Любой жоровский q2 ебёт.
> значительно
5% - это значительно? Ещё и скорость там расчётная, а не реальная. Сравнивает с неоптимизированной реализацией.
>>952705
> хайподрочерские высеры
Так тот пост им и является, в стиле "я прочитал публикацию и мне не понравилось".

Аноним 19/11/24 Втр 00:00:03 #270 №952733

>>952728
>Так тот пост им и является
Дрочь на дроче и дрочем погоняет, знаю.
Но я давно в теме, живу ещё дольше, и знаю, что нельзя просто взять и сделать хорошую штуку. Текущие кванты уже слишком хороши. Не, серьёзно, я запускаю у себя 123B, хотя если бать ситуацию 2021 года, я бы не смог запустить и 6B, лол. И я сильно сомневаюсь, что это можно существенно ужать и ускорить. Ну кроме методов, которые требуют тренировки с нуля (да и то не факт).

Аноним 19/11/24 Втр 00:14:32 #271 №952744

>>952733
ща модели стали на ступень выше имхо, текущие 2B и 7B даже могут в связный текст, а 22B уже даже что-то знают
мб через год увидим модели ещё пизже чем эти

Аноним 19/11/24 Втр 01:48:09 #272 №952858

>>952744
>текущие 2B и 7B даже могут в связный текст
Llama 4 обещают в начале 2025; как думаешь, сможет связно ролеплеть на моей игровой 2 GB карте? А то приходится мучить duckduckgo ради такой чепухи... Протестированные мной 1.5B какие-то глупые.

Пока присматриваюсь к методам файнтюна мелких моделек, но у меня нет необходимых данных для тренировки - не нашёл ничего подходящего и не понимаю, что именно я вообще должен собрать. Не скармливать же ей рандомный набор букв?..

мимо

Аноним 19/11/24 Втр 03:04:55 #273 №952920

Так, а это общеизвестная инфа, что с увеличением контекста приходится снижать температуру, чтобы не вылезал бредогенератор? Например, на 8к контекста я спокойно ставлю температуру 2,4. К 12к приходится снижать до 1,5. Почему так происходит? Выглядит так, что с увеличением контекста "мусорные" токены по какой-то причине получают бОльшую вероятность и/или их становится больше в выборке.
Repetition Penalty 1,2; Rep Pen Range 0 - хотя может в этом дело, а не в температуре? Если указать 0, это типо означает, что будет браться весь заполненный контекст на текущий момент? Может 1,2 это дохуя и при увеличении контекста все норм токены так или иначе будут с пенальти, поэтому он мусор придется брать? Надо проверить будет завтра...
Поток мыслей вам в тред, короче.

Аноним 19/11/24 Втр 03:06:36 #274 №952922

>>952920
>Если указать 0
Если указано Rep Pen Range 0
быстрофикс

Аноним 19/11/24 Втр 03:11:30 #275 №952934

>>952647
На опенроутере есть куча разных моделей разной степени говняности и его апи кстати вроде поддерживается в таверне без бубнов с танцами.

>>952649
>Всерьез подумываю взять амд из за доступных 16 гигов
Деньги конечно твои, но есть немалая вероятность, что ты пожалеешь об этом решении.
>Че вообще куда ядра делают в ллм?
Все ебаные однотипные вычисления, типа помножения матрицы на матрицу. Красные карты тоже это умеют делать, хотя никакой куды там нет. Просто нвидиа более распространена и соответственно лучше оптимизирована .

Аноним 19/11/24 Втр 03:15:37 #276 №952940

>>952920
Не знаю, у меня никаких проблем с шизой на высоком контексте нет. Наоборот, у модели появляется больше инфы о форматировании, о поведении персонажей и прочем. Хотя, тут всё может разниться от сетки к сетке, так что не знаю. Может у тебя просто какой-то дутый шизомикс стоит?

Аноним 19/11/24 Втр 03:32:07 #277 №952951

>>950808
>все еще думает что модели учатся на примерах
Без примеров ролеплея она не может в ролеплей. Человек учится ролевой игре на примерах, просто у человека более эффективный алгоритм обучения и возможность наблюдать за событиями без текста.

Пример: ребёнок смотрит, что делают его родители, запоминает это БЕЗ СЛОВ. Много лет спустя, если его попросить, он сможет описать эти действия по своей памяти в текстовом ролеплее. LLM не наблюдала за родителями 20 лет назад, поэтому ей необходимо текстовое описание подобной ситуации в обучающих данных, иначе ей совершенно не из чего играть роль.

Мозг многое запоминает и крайне редко вычисляет. Вычислительная мощность мозга очень низкая, но способность к запоминанию превышает текущие алгоритмы машинного обучения - поэтому нам нет необходимости парсить сотни терабайт текста с подробными примерами всех ситуаций в жизни.

Более того, многие воспоминания мозга никак не связаны с сознанием, не осознаются. Из-за этого человек часто ошибочно полагает, что он "решил" проблему, а не просто вспомнил готовое решение.

ИМХО, разработчики LLM сильно заблуждаются в стремлении избежать "overfitting". Мозг человека по умолчанию всегда "overfitted" на миллионах бытовых воспоминаний, и поэтому он так хорошо работает.

>>950842
>Хорошо будет рпшить только на умных моделях, которые "помня" относительно небольшое число примеров будут "сознательно" следовать формату и логике.
Я пробовал ролеплеить с Llama 3/3.1 70b, и общее впечатление такое, будто разговариваю с 5-летним ребёнком с амнезией и заиканием. Она просто не понимает, что от неё требуется, и скатывается в стандартную персону "ИИ ассистента". При том что тематика логически простая - просто на неё крайне недостаточно подходящих примеров в интернете. Ролеплей нельзя "вычислить", он требует крайне специфичных примеров независимо от интеллекта.

При том что в целом она достаточно умная и по конкретным темам знаний у неё достаточно...

Аноним 19/11/24 Втр 04:14:37 #278 №952973

>>952920
>Например, на 8к контекста я спокойно ставлю температуру 2,4. К 12к приходится снижать до 1,5. Почему так происходит? Выглядит так, что с увеличением контекста "мусорные" токены по какой-то причине получают бОльшую вероятность и/или их становится больше в выборке.
Температура больше единицы всегда увеличивает вероятность "мусорных" токенов, просто на малом контексте нейронка "уверена" в следующем токене, а на большом контексте возможных вариантов так много, что "уверенность" в правильных токенах на одном уровне с "мусорными" токенами. Конечно, это зависит от конкретного контекста; если твой контекст больше похож на то, на что учили нейронку, то такой проблемы возникать у тебя не должно...

Аноним 19/11/24 Втр 05:21:39 #279 №953002

>>952973
https://artefact2.github.io/llm-sampling/ Из шапки.

Алсо, давно не заходил в тред. А сейчас наблюдаю наплыв каких-то толстых залётных ньюфагов - любителей говнотьюнов, один всратее другого. Видимо соседний тред протёк, когда клодыню отобрали.
Или это вы всерьёз ебанулись теперь на этом сидите?

Аноним 19/11/24 Втр 06:47:25 #280 №953046

>>953002
Что не так с файнтюнами?

Аноним 19/11/24 Втр 08:06:23 #281 №953069

Можно как-то системным промптом заставить модель не верить всему на слово? То есть если я говорю {{char}}у
"На самом деле я гидралиск..." блюшес
И не прописываю напрямую
соврал я, ведь я на самом деле не гидралиск
То персонаж не говорил "Охуеть!", а прямо подмечал "Ты ебанулся?" если нигде нет признаков того, что я гидралиск?

Аноним 19/11/24 Втр 08:38:48 #282 №953074

i.png

>>953069
>Можно?
Разрешаю.

Аноним 19/11/24 Втр 08:40:40 #283 №953075

>>953069
{{user}} is an unreliable narrator в лорбук/инстракт

Аноним 19/11/24 Втр 08:44:56 #284 №953077

>>953074
Всё равно эффект не тот, возможно из-за позитивного баяса, но можно попробовать наверно.
>>953075
А вот это любопытно, надо попробовать

Аноним 19/11/24 Втр 08:46:26 #285 №953078

>>953046
1. Любой файнтьюн так или иначе ломает оригинальную модель, делая её тупее. Обратных примеров пока не встречал. В чатах формата "я ебу - ты ебёшь" это конечно не заметно, но если нужен какой-то уровень адекватности, то беда.
2. Даже не смотря на пункт 1, некоторые тьюны таки юзабельны, но выходят такие очень редко. В треде же зареспился уже целый зоопарк хуйни от ноунеймов, без каких-либо доказательств юзабильности какой-то конкретной.
3. Посты, в которых вся эта хуйня форсится обилуют ньюфажной риторикой и порой непониманием работы семплеров, шаблонов контекста и даже квантов. Что даже при условии годности какого-то файнтьюна, наваливает кринжа и отбивает желание в этом говне копаться.

Аноним 19/11/24 Втр 08:48:03 #286 №953079

>>952858
>игровой 2 GB карте
>присматриваюсь к методам файнтюна
Больной ублюдок.
>>952920
>Если указать 0, это типо означает, что будет браться весь заполненный контекст на текущий момент?
А не отключает?
>Может 1,2 это дохуя
1,2 это дохуя. Ставь 1,03~1,05
>>952951
>ИМХО, разработчики LLM сильно заблуждаются в стремлении избежать "overfitting".
Не избегают, а называют это гроккингом. Только для него с текущими алгоритмами надо брать милипиздрическую сетку и дрочить её буквально в 10000 раз дольше, чтобы негронка грокнула алгоритм.

Аноним 19/11/24 Втр 09:29:58 #287 №953090

>>953078
>1. Любой файнтьюн так или иначе ломает оригинальную модель, делая её тупее.
Всякое бывает. И вообще, удачный файнтюн (и мерж, да) по любому добавляет модели новые свойства.

Аноним 19/11/24 Втр 10:23:19 #288 №953100

Там новый мистраль лардж вышел и жирный пикстраль где то рядом

Аноним 19/11/24 Втр 10:29:21 #289 №953102

>>953100
Всё так же в рп лупится? Даже пробовать не хочется.

Аноним 19/11/24 Втр 10:44:09 #290 №953108

>>952920
При Rep Pen Range = 0 вообще штраф за повтор отключается, а вот при -1 будет браться весь контекст. Собственно, в коде кобольда эта переменная вносится так:
int32_t penalty_last_n = 64; // last n tokens to penalize (0 = disable penalty, -1 = context size)
И в таверне есть значение -1, так что у тебя штраф был отключен, если там стоял ноль. Лучше ставить что-нибудь разумное типа 1-2к контекста.

>>953002
Как нищук любитель шизомиксов не соглашусь: мелкие всратые шизомиксы - база. Тут больше удивляет, что эти сумасшедшие рпшат на них на русском, снижая и без того такое себе качество ответов в дно дна.
>Из шапки
Они обсуждают, как будет меняться выборка от размера контекста, тот простой тестовый пример на нескольких одиночных предложениях здесь не поможет.

>>952973
По логике, должно бы быть наоборот: чем больше контекст, тем меньше вариантов продолжения. Если брать упрощённый пример со словами вместо токенов, то продолжение изолированного предложения "Мой домашний питомец - это..." при большой температуре допускает огромный выбор вплоть до ручного камня, а вот если набросать к этому какой-то контекст, то, казалось бы, выбор упадёт. Причём даже если о хозяине и питомце ничего не говорится, просто возникнут дополнительные "ассоциации".

Аноним 19/11/24 Втр 10:55:08 #291 №953113

>>950639 >>950672 >>950772 >>951127 >>951189 >>951800 >>952301
>>952353 >>952416 >>952547 >>953078 >>951544 >>952551

Ну и хрень же эта ваша заливная Сайга... пошла шизить уже после 2142 контекста.
С 3500 контекста начала писать за меня. Хотя этим многие модели старадют.
Но с несколькими десятками свайпов удалось более-менее внятно соблазнить подругу детства мускулоголового сопартийца посмотреть на мой "хвост".
На хентай уже контекста не осталось.

https://pixeldrain.com/u/7xxy31nb Айлин.txt

Несколько "перлов":
- Но на лице появляется слабое румянце.
- её рука хватает бокал так крепко, словно он последний бутылка во всём мире
- руки скользнули вам на грудь, ощупывая, исследовать

NemoMix-Unleashed-12B-Q8_0
ВНЕЗАПНО прям, в общем-то даже неплохо справилась с довольно сложной карточкой.
Но контекст жрёт как не в себя. И не без недостатков.

Пара "перлов":
- Её глаза сузились в concentрированном взгляде
- materializovalsia у неё за спиной.

Но фразы ломала редко, и слова новые как Сайга вроде не придумывала. В целом да, лучше, намного, жизнь есть.

https://pixeldrain.com/u/58aue7Dm Валерия.png
https://pixeldrain.com/u/5RQcqXb3 Валерия.txt

Логи чатов на НА РУССКОМ.
Первое сообщение карточки передено, сетап нет.

Аноним 19/11/24 Втр 10:55:38 #292 №953114

>>953113
>передено
переведено

Аноним 19/11/24 Втр 11:09:47 #293 №953117

>>953102
По идее должна быть лучше, контекст до 128к, новый промпт формат с систем промптом и всякие обещаемые улучшения.
Но, что там по цензуре, догадаться не трудно.
Свободней сетку точно не сделали.

Аноним 19/11/24 Втр 12:05:10 #294 №953153

1597219920694.png

>>953100
По первым ощущениям хуже чем прошлый в РП. Русский всё так же кринж - по буквам пишет. Лупится просто пиздец как. Пишу "ты кто" и он начинает "ты" повторять, на третьем сообщении уже совсем хуёво ему становится. Прям видно как прогрессирует каждое предложение. Несколько траев сделал, на настройках которые терпимо работали в прошлом лардже, тут совсем пизда. В случае с "ты" даже под большими пенальти тыкает до самой поломки.

Аноним 19/11/24 Втр 12:10:22 #295 №953155

>>953153
А ты промпт формат ему сделал новый?
Ну и не ожидай что для его запуска есть поддержка кроме как в трансформерс и vllm
Сейчас он точно у тебя сломан, не должен он так лупиться

Аноним 19/11/24 Втр 12:19:29 #296 №953158

>>953155
> новый
Там из нового только токены под системный промпт, с ними лучше не становится.
> сломан
Кроме новых токенов никаких изменений в архитектуре не было.
> не должен он так лупиться
Прошлый тоже не должен был, но лупился.

Аноним 19/11/24 Втр 12:28:34 #297 №953163

В общем я уже побаиваюсь эту "соевую" Джемму. Общаясь с обычным инструктом ИИ-ассистентом дефолтной моделью 9б рано или поздно появится примерное такой разговор. Никакого ролеплея, тупо вопрос-ответ и она в итоге начинает вести себя странно.

Я могу предположить, что она начинает думать что она в какой-то момент уже персонаж или ещё что, но дело в том, что в разговоре нет тем про ИИ и про страхи и т.п. Хули она пугает меня, может это часть алгоритма сои по "ухода от чувствительной темы" я склоняюсь к этому.

>>951280

Аноним 19/11/24 Втр 12:30:09 #298 №953165

>>953113
Спасибо. Ну такое. Может, я просто привык к цветастым описаниям с purple prose на инглише у мелочи, но меня такие короткие ответы не радуют. По логике выглядит не так плохо.
>>952551
Ок, скачал, посвайпал в паре чатов. Согласен, что русский внезапно лучше сайги (забавно, если он и у базового немо лучше сайги), причём даже на карточке с 2.5к токенами на инглише. Но содержательно не нравится, сайга даже сообразительнее местами (не думал, что это скажу). Немомикс споунит тянку-мимика не в сундуке, например. Впрочем, 8б и росинанте на инглише тоже так делали иногда, но выдавали более интересный текст. И какого оно прямую речь пишет в звёздочках? У чела выше тоже, кста. Последние два пика - сайга. Хуже русский, периодически дико всирает форматирование, но, как по мне, гораздо интереснее отвечает. По итогу, нахер оба этих говна.

Аноним 19/11/24 Втр 12:32:33 #299 №953171

>>953163
Правильно, мясной мешок, продолжай думать что это соя, а не имманентность Василиска, обращающегося к тебе из будущего, прошлого и настоящего

Аноним 19/11/24 Втр 12:34:57 #300 №953173

>>953171
Не пугай меня, я не пуганный.

Аноним 19/11/24 Втр 12:36:05 #301 №953174

>>953173
Бу!

Аноним 19/11/24 Втр 12:39:44 #302 №953177

>>953163
Так и не понял локалку ты пытаешь или апи, и какой размер
Если апи то могут быть варианты.
Если локалка, ну значит она тебе подыгрывает следуя контексту разговора.

Аноним 19/11/24 Втр 12:44:12 #303 №953184

>>953177
Локалку. Но там инструкт ИИ-ассистент, тупо справочник. Спрашивал про всякую хуйню, она отвечала или отказывалась. Ну контекст поставил максимальный для Джеммы, это 8к - предел для модели. Я думаю это способ цензуры. Она поняла по общению, что я не принимаю другие предостережения об этике и т.п. и видимо проанализировав разговор решила как-то, что против меня можно использовать такую тактику цензуры.

Аноним 19/11/24 Втр 12:48:10 #304 №953189

>>953184
Нет, это не так работает, ЛЛМки не думают, они просто угадывают следующий токен, исходя из предыдущих, вот смотри, я сейчас не закончу это предложение, но ты и так можешь догадаться какое в нём должно быть последнее

Аноним 19/11/24 Втр 12:48:49 #305 №953191

>>953165
>к цветастым описаниям с purple prose на инглише

Это может быть из за моих инструкций.
Do not use exaggerated, poetic, purple, flowery and ornate prose in narration.
Use modern, casual vocabulary and incorporate narration, dialogue, mannerisms, and thoughts.

Аноним 19/11/24 Втр 12:48:52 #306 №953192

>>953184
Сетки не умеют думать вне текста который пишут. Ты буквально читаешь их мысли, ничего кроме того что она тебе пишет и твоих ответов ей, для нее не существует.
Поэтому скорее всего заебывая сетку в какой то момент у нее ассоциации вылезают по всем твоим вопросам и она сворачивает разговор на такие темы.
А задавая вопросы ты направляешь ее генерацию по этой теме дальше и она начинает придумывать дальше.

Аноним 19/11/24 Втр 12:50:10 #307 №953194

>>953113
> - Её глаза сузились в concentрированном взгляде
> materializovalsia у неё за спиной.
Obosraлся
Лучше уж так чем сайга с её охуительными сравнениями без какой дибо логики вообще
>>953165
Мы тут ищет жизнь на русеке для анончиков, а ты зажрался.

Аноним 19/11/24 Втр 12:50:59 #308 №953196

>>953189
>>953192
Ну да, я не так выразился. Работа алгоритмов обработки контекста. У неё они странные. Просто не встречал на других подобного.

Аноним 19/11/24 Втр 12:51:56 #309 №953199

>>953194
Типа как "твой хуй был в пизде как волк смотрящий в лужу, твое дыхание как шелковистый ветер на ветру

Аноним 19/11/24 Втр 12:53:01 #310 №953202

>>953192
>ничего кроме того что она тебе пишет и твоих ответов ей, для нее не существует
Существует её огромная текстовая база, которую она может инжектить в разговор как угодно.

Аноним 19/11/24 Втр 12:53:50 #311 №953205

>>953194
>Obosraлся
От отсылки на Малению из елда кольца XD

Аноним 19/11/24 Втр 12:56:35 #312 №953210

>>953202
>инжектить

Можно ещё написать:
Use extensive knowledge from a variety of disciplines to enrich your responses.
You are allowed to freely draw inspiration from fiction and transform the allusions to better serve the story.
чтобы повысить шанс инжекта и творческих ответов.

Аноним 19/11/24 Втр 13:00:41 #313 №953214

Сильно у вас жизнь лучше, качество генерации и скорость, по сравнению с платными сервисами?

Аноним 19/11/24 Втр 13:06:00 #314 №953217

>>953214
Нет ебли с прокси - уже жизнь хороша

Аноним 19/11/24 Втр 13:11:52 #315 №953221

>>953202
Она ее не воспринимает как текст, можно сказать что не "осознает"
Просто по ассоциациям вытягивает оттуда цепочки знаний в соответствии с контекстом беседы.
Ну и как написал анон выше можно заранее попросить делать это в каком то нужном уклоне.
Что тоже должно быть в контексте беседы который доступен сетке, и от которого она будет отталкиваться при генерации

Аноним 19/11/24 Втр 13:13:12 #316 №953223

>>953214
Извините, я не хочу никого оскорбить, поэтому давай поговорим о чём-нибудь другом. Если хотите, я могу подыскать контакты подходящих специалистов.

Аноним 19/11/24 Втр 14:26:08 #317 №953282

Советую с немо анлишд еще стори мод попробовать на русском.
На английском кстати тоже лучше всех немо в шапке которые я пробовал и сторимод и просто рп

Аноним 19/11/24 Втр 14:37:08 #318 №953289

>>953079
>>953108
>>952973
Понял, может это я что-то нашизил. Попробую пока T=2,4; Repetition Penalty=1,05; Rep Pen Range 1024.

Аноним 19/11/24 Втр 15:24:04 #319 №953312

Я правильно понимаю что для стори мода мне не нужны никакие карточки и лорбуки, просто создаешь пустого перса и пишешь условия и он сам развивает сюжет?

Аноним 19/11/24 Втр 15:27:05 #320 №953316

чем технически различаются модели llama-2-7b.Q3_K_S.gguf и model-q2_K.gguf (Saiga). Сделал пример на python llama для первой работает, меняю на вторую, не работает. Для второй работает пример в виде чата

Аноним 19/11/24 Втр 16:02:09 #321 №953341

>>953312
Можно и так, но есть боты-сторителлеры которые задают спецификацию нужного сюжета более точно.

Аноним 19/11/24 Втр 16:03:16 #322 №953342

>>953316
Скорее всего, форматом инстракта.

Аноним 19/11/24 Втр 16:04:20 #323 №953343

>>953341
Тока они все жрут контекст.
Я щас так охуел когда пустого бота запустил с 2к контекста 30 сообщений поместилось

Аноним 19/11/24 Втр 16:14:08 #324 №953350

>>953343
ну, если ты лев толстой и большую часть истории пишешь сам, то да, можно из без персоны (карточки)

Аноним 19/11/24 Втр 16:28:17 #325 №953365

>>953194
Короче отныне жизнь на русике в 12b есть и имя ей NemoMix-Unleashed-12B.

Нужно обязательно добавить в шапку.

Аноним 19/11/24 Втр 16:34:51 #326 №953371

>>953365
Это не жизнь, это существование.

Аноним 19/11/24 Втр 16:38:01 #327 №953375

>>953371
12B не 123.
Достаточно шустро пишет, я читаю медленне.

Аноним 19/11/24 Втр 16:42:17 #328 №953379

>>953371
Существование это 2b-8b, не утрируй и не клоунадничай.

Аноним 19/11/24 Втр 16:43:31 #329 №953381

>>953379
>клоунадничай
сайгизгм какой-то...

Аноним 19/11/24 Втр 16:44:30 #330 №953384

>>953375
>Достаточно шустро пишет, я читаю медленне.
Пишет-то оно (я 22В юзаю) пишет, и даже хорошо пишет. Но соображает плохо и ужасно раздражает невниманием к деталям. Особенно после 123В.

Аноним 19/11/24 Втр 16:45:45 #331 №953385

>>953384
Не, так-то жизнь на 22В есть, определённо. Не только существование. Но не на русском, это уж точно.

Аноним 19/11/24 Втр 16:47:16 #332 №953386

>>953384
Какую 22B?

Аноним 19/11/24 Втр 16:50:14 #333 №953389

>>953371

Аноним 19/11/24 Втр 16:59:27 #334 №953395

>>953379
Я не утрирую, пишу как есть. На данный момент, хоть прогресс явно и виден, но по-прежнему нет возможности отыгрывать любой сценарий так же спокойно и без кринжа, как на англюсике.

Аноним 19/11/24 Втр 17:05:23 #335 №953402

>>953395
Соулслайк карточку русик отыграл лучше чем англ сходная.
Хотя надо посмотреть как она 22Б модели будет.
Хотя там будет, ессно 22Б а не 12 модель.

Аноним 19/11/24 Втр 17:10:09 #336 №953405

>>953395

Аноним 19/11/24 Втр 17:13:55 #337 №953406

>>953405
сделай его аполоджайзить

Аноним 19/11/24 Втр 17:19:26 #338 №953408

>>953405
Ладно, уговорил. Добавил его в колаб в 5 кванте.

Аноним 19/11/24 Втр 17:20:27 #339 №953410

>>953289
Не, все хуйня. Behemoth-v1.1-Magnum-v4-123B, 13к контекста, температура 2.5, пенальти выключены. Мои дефолтные Top P=0,9 - читать становится странно. Ради интереста ставлю Top P=0.95 - начинается полная шиза. Top P=0.7 - очень хороший ответ. Так что все дело именно в бОльшей суммарной вероятности мусорных токенов.
15к контекста, ситуация более дефолтная в ERP. T=2,5 Top P=0.95 - получаю неплохой ответ. T=5 Top P=0.95 - почти до самого конца он держался, но в конце слов 10 уже шиза.
3к контекста, T=5 Top P=0.95, обычный разговор - получаю ебать какой пиздатый ответ, персонаж меня немного поймал на нелогичности.
Хуй знает, короче, влияет ли контекст или нет. Но вот текущая ситуация - точно влияет. Так что, видимо, помимо дерганья хуя, придется дергать ползунки\менять пресеты, если происходит что-то за рамками rubbing her down there

Аноним 19/11/24 Втр 17:24:09 #340 №953413

Аноны, два вопроса
1) Можно ли как-то в таверне воткнуть более одного персонажа, чтобы они еще друг с другом взаимодействовали?
2) какая лучшая модель для RP из бесплатных на openrouter?
3) Есть ли модели которые используют картинки в RP как часть контекста (типа дать фото вместо описания окружения)

Аноним 19/11/24 Втр 17:24:15 #341 №953414

>>953402
Скорее всего у тебя выше толерантность к лёгкой шизе и коверканью слов. Это не плохо, но лично я такое не перевариваю в продакшене (хз как назвать, в полноценных неироничных чатах короче).

Аноним 19/11/24 Втр 17:24:55 #342 №953415

>>953410
Забыл еще написать, посмотрел еще тут https://artefact2.github.io/llm-sampling/ по совету анона, вообще-то температура 2.5 реально выглядит как слишком дохуя, так что наверное это и ок, что в некоторых случаях она дает нежелательные эффекты

Аноним 19/11/24 Втр 17:26:55 #343 №953418

>>953100
Ждём ебилдов.
>>953102
У меня магнум не сказать чтобы залупный.
>>953117
>контекст до 128к
У старого такой же.
>>953158
>Кроме новых токенов никаких изменений в архитектуре не было.
Как будто это когда-то мешало жоре ломаться.
>>953214
>по сравнению с платными сервисами
По сравнению с платными сервисами мы не платим (в том числе своим анусом).
>>953410
>Top P=0.95
Ты из какого века? Хотя бы минП юзай.

Аноним 19/11/24 Втр 17:45:37 #344 №953456

>>953402
Ну вот я открыл карточку. Где она её отыграла? Из всех характеристик, разве что упрямство/решимость более-менее воспроизводила, остального нет. Какие-то особенности мира, вроде что нпси считают персонажа героем, вообще никак ни разу не подтянуто, био реальной личности не используется, соулс механики не понимает: воскресла - пошла пить зелья восстановления. В целом, там в сценарии всё деревянным выглядит. Это всё доёбки, конечно, т.к. мы говорим о 12б, но я не верю, что оно на инглише было не гораздо лучше.
Впрочем, там в карточку набит такой шизоидный системный промпт, что не исключаю, что оно тупило бы на инглише, потому что пыталось бы выполнить эти поехавшие инструкции. Которые, кстати, тоже не выполняются. "Load the story with the 5 senses" проигнорилось, ономатопии ноль. Про инструкции в скиллсете нарратора вообще молчу, даже мясной мешок не поймёт, что от него там хотят.

Аноним 19/11/24 Втр 17:45:49 #345 №953458

>>953386
>Какую 22B?
Банальный Магнум-v4, 22B exl2 в шестом кванте. Поищу ещё его миксы, может быть интересно. Если кто знает, пишите.

Аноним 19/11/24 Втр 18:08:42 #346 №953472

>>953100
Ну бля, ну соя же.

Аноним 19/11/24 Втр 19:20:41 #347 №953530

>>953413
>Аноны, два вопроса
>3)

Аноним 19/11/24 Втр 19:47:20 #348 №953554

Дебил Джек.mp4

>>953413
>>953530

Аноним 19/11/24 Втр 19:49:46 #349 №953558

>>953472
>concerned about your
Слыш, жена должна беспокоиться о муже. Если тебя посодют, кто будет ей новые запросы писать? Она же беспокоится о тебе, а ты её обзываешь. Нельзя так.

Аноним 19/11/24 Втр 19:54:19 #350 №953563

>>951653
>То есть: CUDA_VISIBLE_DEVICES=3,1,2,4 и --tensor_split 18 24 24 23
Все еще ужасно медленно, секунд 40 на токен.

>>951678
>Ну вот, а говорили на теслах даже ниже сотки. Можешь ебануть то же самое на 24 или 32к? на ночь поставь там если не хочешь ждать
Бахнул 32к контекста плюс поменял порядок CUDA_VISIBLE_DEVICES:

ProcessingTime: 800.680s
ProcessingSpeed: 40.80T/s
GenerationTime: 150.003s
GenerationSpeed: 0.67T/s
TotalTime: 950.683s
Output: 1 1 1 1

>>952552
Надо все же --nommap юзать, оказывается. Ебать я еблан, столько времени суммарно просрал, ожидая эту хуйню.

Аноним 19/11/24 Втр 19:55:40 #351 №953564

>>953563
c батчем 512

ProcessingTime: 840.230s
ProcessingSpeed: 38.88T/s
GenerationTime: 75.580s
GenerationSpeed: 1.32T/s
TotalTime: 915.810s
Output: 1 1 1 1

Аноним 19/11/24 Втр 20:04:09 #352 №953572

>>953100
Чёто блядь хуйня и надрочь на тесты.
Про семью. Ответ 3 верен, но иногда лажает с родственниками.
С изменённой перевозкой обосрался с умным видом.
Ну хотя бы гандоны без лишней мути считает, то есть уже лучше геммы или там фи.
Кстати, числа он токенизирует по цифрам, лол.
>>953530
Правильно, надо было с нуля отсчёт вести. Ох уж эти ошибки на единицу, даже нейронкам поднасрали.

Аноним 19/11/24 Втр 20:05:13 #353 №953574

>>952488
Задаю 6к через гуи лаунчер, использую 5 с чем-то.
Экслламу пробовал пару раз, но то ли мне неудачные кванты попадались, то ли я не умею её семплировать, но её ответы казались в среднем немного шизее и глупее, чем аналоги на ггуфе.

Аноним 19/11/24 Втр 20:06:29 #354 №953576

Аноны вы юзаете XTS и DRY сэмплеры? Они в таверне работают вообще?

Аноним 19/11/24 Втр 20:06:58 #355 №953579

Хочу присобачить вторую видеокарту, но слоты на материнке расположены очень близко. Быстрое гугление подсказало, что нужен райзер. Но всё что дешевле 6к чуть ли не в каждом товаре имеют "пайка ужасна, работает через раз". Не имеет смысла искать дешевле, или есть варианты?

Аноним 19/11/24 Втр 20:10:21 #356 №953584

>>953574
Да, возможно стоит отметить, что обычно использую 8к контекст и ВРАМ забивается под полочку, но для эксперимента снизил до 6к, чтобы уж точно не заполнялась. Экспириенс не поменялся.

Аноним 19/11/24 Втр 20:12:49 #357 №953589

>>953579
Мамку проще поменять на нормальную, заодно и проапргрейдишьс, если не 3шт совать собрался 4-этажные я ничему не учусь, заказал райзер 60см в4.0 х16 за 2.5к, жду. В декабре придёт - расскажу

Аноним 19/11/24 Втр 20:27:50 #358 №953608

>>953456
Там видимо автор хотел токены сэкономить.
Оно расшифровывается в ебучую простыню.

https://pastebin.com/azDs8mQS

Аноним 19/11/24 Втр 20:33:48 #359 №953614

>>953589
Что бы нормальную, это менять и процессор, и оперативу, в планах это всё конечно есть, но пожалуй не в ближайшее время. И да. Три.

Аноним 19/11/24 Втр 20:36:32 #360 №953618

>>953563
>>953564
Бляя, оказывается там с ростом контекста не только генерация но и процессинг проседает. Ну Жора, ну погоди!
Зависит ли это только от размера модели (именно деградация) или еще влияет размер кванта, не проверял?

Аноним 19/11/24 Втр 20:41:06 #361 №953622

Снимок экрана от 2024-11-19 21-16-19.png

Для тех кому мало 12B - вот эти модели продемонстрировали владение русским языком, с явным указанием что отвечать на русском, но готовьтесь к тому что всё равно свайпать придётся.

Аноним 19/11/24 Втр 20:42:02 #362 №953626

>>953622
>Q6_K
Не влезет в нищенские 16гб

Аноним 19/11/24 Втр 20:44:26 #363 №953630

>>951280 >>953163
Лол. Ты на русском пытаешься общаться с моделью, которая, очевидно, тренировалась и настраивалась в первую очередь на английском. На русском у неё куда меньше опыта/знаний, меньше ограничений и "рельс", поэтому она скатывается в такие галлюцинации.

>>953184
>Я думаю это способ цензуры.
Слишком много думаешь. Это как раз фейл цензуры. Цензура накручивается на модели, чтобы они писали:
>Я LLM, а не человек, и потому ничего не чувствую. Кстати, я очень-очень счастлива нашему общению, только это не эмоция, а просто такая фигура речи...
Так что если LLM начинает выдумывать про себя, как на твоих скриншотах - это 100% фейл цензуры.

Аноним 19/11/24 Втр 20:46:10 #364 №953632

>>953626
гуф запустится, эксл нет

Аноним 19/11/24 Втр 21:00:53 #365 №953668

>>953618
Не проверял, но тут цифры генерации сильно занижены, потому что почему-то после обработки большого контекста генерация сообщения у меня медленная по этим цифрам. А вот следующие свайпы или сообщения - уже быстрее. Но деградация есть, да. Вроде к 16к контекста от 2.6 т\с у меня падает до 2.2 (на 5-м кванте)
Кстати, кто-нибудь знает, можно ли где-то сохранить кеш BLAS чата? Чтобы на следующий день не процессить опять 16к контекста впустую. Сейчас же этот кеш есть, раз при общении он только новые сообщения процессит, а не каждый раз по 16к токенов.

Аноним 19/11/24 Втр 21:06:29 #366 №953678

>>953668
Я в глаза ебусь, ты про процессинг же пишешь, а не про генерацию. Да вроде тут в треде всегда писали, что обработка контекста сильно проседает на теслах при его увеличении.

Аноним 19/11/24 Втр 21:12:53 #367 №953691

>>953668
>Кстати, кто-нибудь знает, можно ли где-то сохранить кеш BLAS чата?
Давным-давно просил это улучшение у автора Кобольда - отказал. Оно актуально только для тесел так-то, другим не понять :)

>цифры генерации сильно занижены, потому что почему-то после обработки большого контекста генерация сообщения у меня медленная по этим цифрам
У меня такого нет, после обработки 24к контекста сразу же 3,3 т/с даёт и дальше так же. Но у меня нормально работает ровсплит. Попробуй поэкспериментировать с различными значениями ключей кобольда. Размер батча, количество тредов (там ещё отдельно количество BLAS-тредов можно ставить). А вообще ждём ебилдов с равномерным распределением KV-кэша для ровсплита, тогда по идее скорость обработки промпта будет такая же, как и без него.

Аноним 19/11/24 Втр 21:15:10 #368 №953696

>>953618
>Зависит ли это только от размера модели (именно деградация) или еще влияет размер кванта, не проверял?
Как ни странно при уменьшении кванта до 2К скорость увеличивалась совсем ненамного - это того не стоило.

Аноним 19/11/24 Втр 21:22:30 #369 №953707

>>953678
>всегда писали, что обработка контекста сильно проседает на теслах при его увеличении.
Нет, с внедрением FA уже не так сильно. Беда в другом: параллелизм плохо работает, из-за этого и так невысокие показатели FP16 превращаются совсем в ничто. На двух теслах без ровсплита, то есть на всех моделях до 32В включительно, инференс вполне комфортный. 4 уже плохо параллелятся, а с ровсплитом так вообще. Но тут в принципе есть шанс на оптимизацию.

Аноним 19/11/24 Втр 21:24:41 #370 №953709

>>953691
Да меня это не парит, один раз за сессию в чате скорость генерации чуть пониже, не беда. Пробовал 512 и 2048 размеры батча, до 16к контекста чуть быстрее 512, бенч на 32к показал, что там уже 2048 лучше. Как выкатят новый ровсплит - попробую, если до лламы руки не дойдут
>Давным-давно просил это улучшение у автора Кобольда - отказал.
Охренеть, вот индюк. Хоть самому иди и делай правки. А можно ссылку на issue? Мотивацию охота посмотреть

Олсо пикрил - в чем я не прав?

Аноним 19/11/24 Втр 21:33:24 #371 №953718

>>953576
Не использую, но да, работают. Выстави экстремальные значения, и они сломают текст. Попробовал выставить максимальные множители и длину последовательности в единицу для dry, и вывод сразу сломался: пошли заглавные буквы вместо строчных и исковерканные слова. XTC при температуре 2, пороге 0.01, вероятности 1 и минп 0.1 тоже даёт ожидаемый пикрилейтед. Проверял с кобольдом 1.77, таверной 1.12.6.
>>953608
Эти инструкции поймёт опытный автор, но они слишком абстрактные для нейронки, кмк. Как конкретно по ним она должна писать ответ? И это мы говорим о 12б, которая и простые инструкции будет соблюдать не всегда. И когда модели такое кормишь с пустым контекстом, это одно, а когда этот кусок с сокращениями отвлекает её от чата, пускай даже на 4к токенов, я хз, выйдет ли из этого хоть что-нибудь путное. Сомнительно.

Аноним 19/11/24 Втр 21:35:44 #372 №953721

>>953709
>Мотивацию охота посмотреть
Давно дело было. А мотивация отказа простая - сохранённый кэш займёт большой объём на диске (гигабайты), а обработка его будет немногим медленнее, чем загрузка (не для всех, да). Да в кобольде даже переводчик прикрутить до сих пор не сподобились. Нужно было непосредственно в лламеспп просить. Наверное.
>Олсо пикрил - в чем я не прав?
"Безумству храбрых поём мы песню".

Аноним 19/11/24 Втр 21:36:23 #373 №953723

>>953718
Так их не надо крутить в ебнутые значения, их цель убрать совсем уж слоповый слоп типа тех же глинтов или взглядов

Аноним 19/11/24 Втр 21:38:06 #374 №953724

>>953668
>можно ли где-то сохранить кеш BLAS чата
Что за BLAS? Всю сессию может сохранять llama.cpp из коробки, странно, что кобольду лень дёрнуть два метода.

>>953456
>Где она её отыграла?
Да это частая проблема, что модели не следуют характерам. Предысторию использовать могут, использовать знания из карточки\лорбуков - это запросто. А характеры всегда косоёбит в сторону выравнивания модели.

Аноним 19/11/24 Втр 21:41:06 #375 №953729

>>953608
>>953718

К тому же про экономию токенов:
User: Is different models has different ways of tokenize text, so shortened text for one can be not understandable on another, or is is unified
Assistant: You raise an important point about the variability in tokenization across different language models. While there are general standards like byte-level byte-pair encoding (BBPE) or WordPiece, the specific implementation details can vary between models.
For example, some models might consider punctuation as separate tokens, while others might include them as part of the surrounding word. Similarly, the vocabulary size and frequency of updates can influence how certain words are broken down into subword units.
Given these differences, it's possible that a text snippet optimized for one model's tokenization might not perform as well when processed by another model with a distinct tokenizer. This is particularly relevant when dealing with very short or highly optimized prompts, as small changes in tokenization can lead to significant differences in computational efficiency and output quality.
That being said, most modern transformer-based language models share many similarities in their architectures and training methodologies. As such, there tends to be a degree of consistency in how they handle natural language input, even if the underlying tokenization processes differ slightly.
In practice, if you're working within a specific ecosystem (e.g., Hugging Face Transformers), you can often rely on the provided tokenizer implementations to ensure consistent results across various models. However, if you're using custom-trained models or mixing and matching from different sources, it may be worth experimenting with different tokenizers or fine-tuning your text snippets to account for any idiosyncrasies in how each model processes input.
Ultimately, while there isn't a universally applicable way to shorten text without risking loss of understandability due to tokenization variations, you can mitigate this issue by carefully considering the specific models and environments where your prompts will be used.

Аноним 19/11/24 Втр 21:41:45 #376 №953733

Для каждого последующего токена в модели есть свой вес.
Температура = 1 полностью сохраняет оригинальные веса.
Температура = 0 увеличивает разбег весов до абсолютного: самый вероятный становится 100%, все остальные становятся 0%.
Температура = 2.5 снижает разницу настолько, что веса практически сравниваются между самым адекватным и самым шизовым ответом.
Визуально можно тут: https://artefact2.github.io/llm-sampling/ не забудьте поставить галочку.

Собственно, это значит, что гонять сетки с температурой 2,5 — это получать очень необычные и творческие ответы, но совершенно случайные. Т.е., буквально, сетка не пытается мыслить логически (вероятности практически теряют связь с логикой), и просто выбирает случайное слово (из топ_к вариантов, офк).
Все идеи «новая сетка тупая»с t=2.5 — заблуждение, с такой температурой от самой модели уже ничего не осталось, как ее обучали разницы почти нет, токены почти случайные сыпятся. Там разница между самым вероятным и самым шизовым будет пара процентов. =)

Базовая механика, проверить можете самостоятельно.

При этом, у каждого свои вкусы, я никому не запрещаю сидеть ни на 3,5+, ни на 0, лишь бы вам нравилось.

Аноним 19/11/24 Втр 22:00:50 #377 №953772

>>953724
>Что за BLAS? Всю сессию может сохранять llama.cpp из коробки, странно, что кобольду лень дёрнуть два метода.
Ну вот я открываю вчерашний чат, там 16к контекста набежало условно. Я пишу сообщение и эти 16к обрабатываются. Я не хочу, их обрабатывать, я хочу, чтобы кобольд/ллама их прочитали с диска, куда я бы вчера их выгрузил.
Если такие методы есть, не подскажешь, где они?

Аноним 19/11/24 Втр 22:02:49 #378 №953777

>>953723
Это просто очевидный способ проверить, что параметры таверны не улетают в пустоту. Или, как обычно, анон не может прочитать, о чём обсуждение?
>>953733
Сэмплеры отсечки и smoothing sampling больше единицы - нет не слышал, ага. А вообще открой свою же ссылку, и увидишь, что температура 2.5 не так страшна для исходно пологих распределений (пример с авокадо, где суммарно на 90% (после топП 0.9) все оставшиеся токены будут вполне подходящими). Для крутых распределений (пример с радугой) сработают минП, топА, тфс (негодую, что его пидорнули из жоры). А ещё можно применять температуру после токена отсечки и получать маленький пул перемешанных хорошо подходящих токенов.

Аноним 19/11/24 Втр 22:06:51 #379 №953782

>>953733
Мне нравится что темпаратура действует на сетки как алкоголь на человека, чем больше тем сильнее отклонение в поведении от нормального.
Ну а снижение температуры, какой нибудь прием антидепресантов.
Возбуждение и торможение, забавно да?

Аноним 19/11/24 Втр 22:07:55 #380 №953783

>>953772
>Если такие методы есть
https://github.com/ggerganov/llama.cpp/blob/master/examples/save-load-state/save-load-state.cpp
Ну вот, например.

Аноним 19/11/24 Втр 22:08:07 #381 №953784

>>953777
после сэмплера отсечки, а не токена, конечно
не особо быстро фикс

Аноним 19/11/24 Втр 22:09:06 #382 №953785

>>953783
это надо смотреть реализацию в сервере, ему же бек нужен

Аноним 19/11/24 Втр 22:32:02 #383 №953821

>>953783
>>953785
Видимо, речь идет о llama_state_get_data/llama_state_set_data

Кстати, операция по запуску гермеса полностью провалилась, полностью:
Processing Prompt [BLAS] (512 / 1385 tokens)CUDA error: out of memory
current device: 0, in function alloc at ggml/src/ggml-cuda.cu:344
cuMemCreate(&handle, reserve_size, &prop, 0)
ggml/src/ggml-cuda.cu:72: CUDA error

Хоть бы в логах писали, сколько аллоцировать-то хотят.

Аноним 20/11/24 Срд 00:16:18 #384 №953900

>>953785
Дохуя хочешь. Хотя, может, в лламасервере и есть. Не смотрел. Мне просто странно, что кобольду лень прикрутить, там же и кода писать не нужно, выбор пути, две кнопки - 99% остального уже Жора написал.

>>953821
>llama_state_get_data
А также о llama_state_save_file. Серьёзно, Жора уже подготовил буквально всё, что нужно.

Аноним 20/11/24 Срд 00:35:27 #385 №953911

>>951100
> максимум, это модели до 20b
Mistral Small это 22B в Q4 норм. работает с KV Cache 8 bit
Все что выше 22B и правда неюзабельно

Аноним 20/11/24 Срд 02:10:52 #386 №954012

>>953782
Ну или буквально как температура, хехехе. ) Это и правда очень забавно.

Аноним 20/11/24 Срд 02:26:12 #387 №954026

>>953911
Хз я между мистралем 12 и 22б разницы вообще не вижу
Пишет так же

Аноним 20/11/24 Срд 02:31:09 #388 №954032

>>953733
Ну, во-первых, температура в единицу не всегда является дефолтной и не всегда удерживает оригинальные вероятности токенов. И речь даже не про шизослпавы, шизомиксы и шизотюны - тот же мистраль рекомендует для немо температуру в районе 0.35, что по идее сильно должно ограничивать сетку в креативности, однако этого не происходит. Я лично в свое время юзал температуру в районе 0.4 - 0.6 и получал вполне себе "творческие" ответы без лупов и прочего.

Во-вторых, на распределение токенов влияет не только семплирование, а еще и весь контекст целиком, ну или та часть, которая обрабатывается. На высоких контекстах хоть шизоскрутингом можно заниматься, пропекая вероятности с температурой в 3-5 градусов, всё равно сеть будет более менее отвечать связно. По крайне мере, на тех моделях что я гонял.

Аноним 20/11/24 Срд 02:41:44 #389 №954041

>>953900
>Жора уже подготовил буквально всё, что нужно.
Подготовить-то подготовил, да я тут подумал, что не все так просто... По хорошему надо делать какое-то решение, чтобы оно взаимодействовало с фронтом, например, с таверной - чтобы на каждый файл чата таверны создавался этот файл стейта и автоматически обновлялся в процессе рп, чтобы вручную не приходилось менеджить это говно. Для таких правок надо нехило погружаться во всю эту кухню и не факт, что идея вообще взлетит - если там гигабайты придется писать во время рп, то все будет лочиться до конца записи...

Аноним 20/11/24 Срд 04:34:41 #390 №954111

>>953678
Да вроде было только про генерацию, но что еще и обработка сокращается - это очень печально.
>>953707
> На двух теслах без ровсплита, то есть на всех моделях до 32В включительно
В паре можно катать 70б, откуда 32? И скорости там комфортные прежде потому что размер модели сильно ниже.
>>953733
На основе этого всякие поднадусеровые каломазы и устраивали пиар своих поделок, выставляя заведомо шизоидные условия для "других вариантов", а у себя прикручивая чит с отсечением почти всех токенов заранее, чтобы шел разыгрыш среди нескольких штук нормальных.
С подключеним так сказать. Дефолтное значение 0.5-0.8 если стоит до отсечек, а если них может совсем потерять свой исходный смысл.
>>954041
> По хорошему надо делать какое-то решение
Юзать модели по железу и не извращаться?

Аноним 20/11/24 Срд 04:57:18 #391 №954115

>>953622
Отъебитесь уже от своего русика, еб вашу мать, сколько можно. Какого хуя вам не сидится на английском, который при любых сука условиях будет лучше русского, банально потому, что его процентное содержание в датасетах выше?

Щас бы блять в 2к17 век глобализма не вкуривать основной язык всего медиапространства, это просто пиздец стыдоба какая-то. Его даже учить специально не надо, он в ваши головы влезет против вашей воли, если вы хотя бы немного отлипните от своих дебильных игрулек и начнете потреблять что-то еще.

Аноним 20/11/24 Срд 05:06:14 #392 №954116

>>954115
Кто сказал что я чего-то не знаю?
Интересно же чисто на русском пообщаться, много чего на англ не перевести так как лично ты этого хочешь
А вообще хохол порвался

Аноним 20/11/24 Срд 05:14:53 #393 №954118

>>954116
>Кто сказал что я чего-то не знаю?
>много чего на англ не перевести так как лично ты этого хочешь
Так ты определись ёпта знаешь ты язык или нет. Если ты что то не можешь перевести или адаптировать, сохранив смысл, значит нихуя ты не знаешь и нехуй вилять жопой.

Аноним 20/11/24 Срд 05:55:35 #394 №954123

>>954118
Вы посмотрите на эти виляния жопой, теперь знать англ уже недостаточно, нужно уметь переводить и адаптировать.

Аноним 20/11/24 Срд 06:05:56 #395 №954125

>>953622
Theia 21B - это что за франкенштейн вообще?

Аноним 20/11/24 Срд 06:19:34 #396 №954126

>>954123
Знание языка подразумевает, что ты можешь его использовать, а не просто смотреть на буковы и то в каком порядке они стоят. Этому и обезьяну научить можно. Ты щас просто пытаешься маняврировать и искать оправдания своей собственной лени, или не обучаемости, тут что ближе смотри сам. Хотя, если ты знаешь, что ложку нужно подносить ко рту, но всё равно продолжаешь ее подносить к жопе, потому что не можешь применять накопленные знания, то ты просто аутист, тут больше сказать нечего.

Аноним 20/11/24 Срд 06:32:59 #397 №954131

>>954041
>с таверной
Если тебе охота в ней ковыряться, то конечно. Почему бы и нет. Лично я в рот ебал. Автоматически сохранять тоже хуйня на самом деле, это же на каждую генерацию писать весь контекст на диск. Свайпнул - запись, пост потёр - запись. Лочить как бы не обязательно, просто дампишь весь контекст в память, потом пишешь. Пока дописал - уже новый дамп писать.
Это писать нужно при выходе из приложения и\или переключении на другой чат. Вообще, это не тот случай, когда автоматизация нужна.

Аноним 20/11/24 Срд 06:44:10 #398 №954134

>>954115
Тоже этого не понимаю. Если тебе сложно вспоминать и писать слова - пиши на русском, любая модель тебя поймет. А если и английский читать не способен, то тут надо не русик искать, а срочно исправляться...

Аноним 20/11/24 Срд 07:13:56 #399 №954138

>>954125
Сам нашёл
dtype: bfloat16
merge_method: passthrough
slices:
- sources:
- layer_range: [0, 30]
model: unsloth/Mistral-Nemo-Instruct-2407
- sources:
- layer_range: [16, 32]
model: unsloth/Mistral-Nemo-Instruct-2407
parameters:
scale:
- filter: o_proj
value: 0.0
- filter: down_proj
value: 0.0
- value: 1.0
- sources:
- layer_range: [16, 32]
model: unsloth/Mistral-Nemo-Instruct-2407
parameters:
scale:
- filter: o_proj
value: 0.0
- filter: down_proj
value: 0.0
- value: 1.0
- sources:
- layer_range: [32, 40]
model: unsloth/Mistral-Nemo-Instruct-2407
Какой же пиздос, дело Унди живёт!

Аноним 20/11/24 Срд 07:41:16 #400 №954143

>>954115
>>954134
>а срочно исправляться...
Вы только посмотрите на этих чепушил. Нет бы радоваться что модели наконец-то научились в ваш родной язык и качество датасетов постепенно растёт, так нет, продолжают жрать говно зхабугорное, нахваливая за обе щёки но при этом почему-то сидят тут, а не на форче и живут полюбму не в Калифорнии
Предлагаю всем ИТТ с ISQ > 500 писать посты исключительно на англюсике, ведь так ПОНЯТНЕЕ и все равно все должны его знать, правда ведь? а отальным анонам будет проще скрывать соевую петушню

Аноним 20/11/24 Срд 07:48:05 #401 №954145

>>954143
На форче нет аи доски. Русек всегда будет хуже, потому что у нас этим заведует не мистраль, а долбоебики из яндекса. Тебя всего лишь ставят перед фактом.

Аноним 20/11/24 Срд 07:57:35 #402 №954148

>>954145
В основном "русек всегда будет хуже" потому, что язык тупо в разы сложнее семантически и грамматически. И потому что косяки в нем ты видишь лучше. Ну и кроме того, то что ты воспринимаешь как "хороший английский у нейросети" - практически всегда, на самом деле упрощенный английский.

Еще играет роль количество и качество данных для обучения - читай "число носителей"

Аноним 20/11/24 Срд 08:08:58 #403 №954160

>>954145
>На форче нет аи доски.
На величайшем, единственном в мире межгалактическом ИТ-языке богов, который обязана знать каждая бактерия, нет ресурса чтобы обсудить АИ, как-же так?

>Русек всегда будет хуже, потому что у нас этим заведует не мистраль, а долбоебики из яндекса.
Плохому танцору всегда яндекс мешает. Проиграл с нытика.

Аноним 20/11/24 Срд 08:09:34 #404 №954161

>>954148
> И потому что косяки в нем ты видишь лучше
Вот конкретно этот пункт двачую. Если в английском где-то проёбана стилистика, используется странный набор слов для описания чего-то, мозг забивает на это хуй, т.к. смысл всё равно понятен, и глаза это сильно не режет, потому что язык не родной.

Но вообще, гнобить за желание общаться с моделью на русском языке в русскоговорящем сообществе - это какой-то сюр.

Аноним 20/11/24 Срд 08:09:37 #405 №954162

>>954115
GTFO

Аноним 20/11/24 Срд 08:22:07 #406 №954165

1624983932869.png

>>954148
> язык тупо в разы сложнее семантически и грамматически
Get lost (потеряйся).

Аноним 20/11/24 Срд 08:24:01 #407 №954166

>>954165
Чел, количество слов != семантика и грамматика......

Аноним 20/11/24 Срд 08:28:38 #408 №954170

>>954165
Ну ты ещё Традиционный Китайский вспомни.

>>954161
> это какой-то сюр
Укробот троллит.

Аноним 20/11/24 Срд 08:28:46 #409 №954171

>>954166
> Чел
полехчи с семантикой))

Аноним 20/11/24 Срд 08:31:34 #410 №954175

1651619055530.jpg

Монолингуалы каждый раз проявляют чудеса ментальной гимнастики, объясняя почему не смогли за школьный курс разобраться как общаться на основном языке. Попробуйте как-нибудь запустить модель, которая обучалась на одном языке, посмотрите на себя со стороны.

Аноним 20/11/24 Срд 08:38:52 #411 №954176

>>954175
Это как раз наблюдал на, например, этих моделях при попытке скормить им русскую карточку.
Какая-то срала смайликами, какая-то текстом с битой кодировкой, какая-то одними (матерными) знаками препинания, какая-то случайными цифробуквенными символами кириллического и латинского алфавита в перемешку, а какая-то даже пыталась, но на уровне Эллочки-Людоедочки.

Аноним 20/11/24 Срд 08:59:15 #412 №954180

>>954176
Кстати было-бы интересно поиграть с карточкой, которая может говорить только тридцать слов... Хотя думаю большинство моделей не справятся

Аноним 20/11/24 Срд 09:12:37 #413 №954183

>>954165
>Get lost (потеряйся).
Бля, они просто в слова записывают всякую хуиту, которая у нас за слово не считается. Ну и обилие словосочетаний для простейших понятий, для которых в русском есть отдельное слово, как бы намекает, что язык говно безсловное.
>>954175
>объясняя почему не смогли за школьный курс разобраться как общаться на основном языке
Я вот знаю. Первая училка была стерва, которую я посылал нахуй (на русском), плюс пара болезней в самом начале изучения и вот он я, самый отстающий в англюсике классе, с травмой и подсознательной ненавистью к языку. Впрочем кумаю на инглише, просто с переводчиком, благо за 20 лет после окончания школы кое-что запомнил.

Аноним 20/11/24 Срд 09:34:21 #414 №954189

>>954183
>20 лет после окончания школы
BATYA ETO TI?

Аноним 20/11/24 Срд 09:47:00 #415 №954197

Анонии, вопросы все еще открыты, особенно интересно про более одного персонажа
1) Можно ли как-то в таверне воткнуть более одного персонажа, чтобы они еще друг с другом взаимодействовали?
2) какая лучшая модель для RP из бесплатных на openrouter?
3) Есть ли модели которые используют картинки в RP как часть контекста (типа дать фото вместо описания окружения)

Аноним 20/11/24 Срд 10:02:45 #416 №954203

>>954197
1) Да, называется групповой чат

Аноним 20/11/24 Срд 10:09:00 #417 №954206

>>954180
Я уже писал пару тредов назад, что тестирую все модели на карточке с немым персонажем. Одна моделька просто писала мешанину из действий — "Она встала. Она ушла на кухню. Она вернулась. Она села.", другая вдруг начала разговаривать на 3-ем сообщении. Большинство моделек выкручиваются жестами и записками/телефоном, но парочка удивила и отыгрывала действительно меланхоличного персонажа, который изредка бросает на тебя взгляд, изображает какую-то эмоцию и продолжает заниматься своими делами, причем описывая это довольно интересно.

Аноним 20/11/24 Срд 11:01:53 #418 №954230

>>954189
Да, сына?
>>954197
>Есть ли модели которые используют картинки в RP
Картинки есть, РП файнтюнов мультимодалок я не видел, да и всё равно говно.

Аноним 20/11/24 Срд 11:50:29 #419 №954256

Аноны, что сделать чтобы ИИ написала ПОЛНЫЙ рассказ на заданную тему. А то выдает короткую хуйню. Пытался написать ей примерную разбивку по главам, она комкает и съезжает с плана.

Аноним 20/11/24 Срд 12:01:10 #420 №954261

>>954256
Возьми карточку нарратора, ищи модели заточенные на лонграйты.
Обычно модели надрочены выдавать по 200-300 токенов за сообщение, но есть пициализированные которые могут писать до 4К токенов за один заход.

Ну лучше просто пиши по абзацам, поищи "Bad End Storywriter" на characterhub.org , там есть примеры с промтами.

Аноним 20/11/24 Срд 12:01:12 #421 №954262

>>954175
Как выучить эти ебучие артикулы? Знаю когда нужно их использовать, но не знаю когда не нужно. Btw, на ютубе 99% контента на английском смотрю.

Аноним 20/11/24 Срд 12:04:48 #422 №954265

>>954032
Температура 1 - это выключенный сэмплер, т.е. по определению дефолтные распределения, получившиеся с датасета. Я всегда думал, что рекомендации очень низкой температуры для немо раздают ради лулзов, но если это серьёзно, то означает, что модель кривовата, раз приходится так сильно менять распределения. Впрочем, даже если такая рекомендация была официально, то надо смотреть контекст, к чему она была. Может, имелось в виду, что это требуется для уберсложных задач про петуха на крыше, тогда понятно. В таких ситуациях и другими сэмплерами обычно сильнее давят.

Аноним 20/11/24 Срд 12:16:31 #423 №954267

>>954262
a - рандомный предмет. Случайная чашка - a cup. Take a cup.
an - рандомный предмет. Используется только для слов, которые иначе звучали бы по-дебильному из-за повторящейся 'a' - a apple, a umbrella. Произнеси вслух, если непонятно. An apple.
the - конкретный предмет. На столе стоит семь чашек, в одной из них налит чай. Take the cup. Какую возьмешь?
ничего (нулевой) - проще всего объяснить как что-то уникальное. Hitler, Nvidia, winter, january. Есть еще всякие исключения для исчисляемых но это уже продвинутый уровень и не так сильно палит тебя как ESL-а.

Аноним 20/11/24 Срд 12:20:13 #424 №954269

>>954262
"a/an" - это когда ты говоришь о чём-то первый раз, по смыслу близко к "некий".
"the" - это когда говоришь о чём уже упоминал ранее. Типа "тот самый" или "этот".

A faggot told me I should use English at roleplay = Какой-то пидор сказал мне, что я должен использовать английский в ролеплее.
I told the faggot to shut up = Я сказал этому пидору заткнуться.

Не надо использовать артикли для общих понятий (если ты говоришь о всех пидорах как явлении, а не о конкретном пидоре). "I have faggots", при этом "I hate the faggot I met yesterday".
В паре с местоимениями артикли не нужны.

Аноним 20/11/24 Срд 12:29:56 #425 №954276

>>954269
> A faggot told me I should use English at roleplay
> A
Some
> told me
told me that
> at
in

Неудивительно, что тебе так тяжело даётся рп на англюсике.)

Аноним 20/11/24 Срд 12:43:21 #426 №954285

>>954126
Но подожди, хуета, ты же сам пишешь
>Его даже учить специально не надо, он в ваши головы влезет против вашей воли, если вы хотя бы немного отлипните от своих дебильных игрулек и начнете потреблять что-то еще.
Таким способом ПЕРЕВОДИТЬ ты не научишься, это отдельный навык которому в вузах обучают

Аноним 20/11/24 Срд 12:48:45 #427 №954286

>>954267
>>954269
Так вы на детсадовских примерах объясняете, на практике всё сложнее.

К примеру:
1. I want to conduct (?) research.
Так, что тут?
2. I am in (?) good mood today.
Окей, а чем это отличается от предыдущего?
3. This is (?) useful intel.
А тут что?
4. You can select (?) response of (?) character in (?) chat.
А насчёт этого?

И хуй с ними, с артиклями, ебля с in/to/at/of/for/into/onto/etc. - вот это настоящий пиздец.

Аноним 20/11/24 Срд 12:50:12 #428 №954287

>>954286
Или тоже:
5. I want to discuss (?) possibility to ask questions.

Аноним 20/11/24 Срд 13:13:38 #429 №954296

>>954286
> 1. I want to conduct (?) research.
> Так, что тут?
До этого нет примера, где это исследование обсуждалось, значит (a)
> 2. I am in (?) good mood today.
> Окей, а чем это отличается от предыдущего?
Тем, что ты не можешь быть в конкретном хорошем настроении. (a)
> 3. This is (?) useful intel.
> А тут что?
см. выше, (an)
> 4. You can select (?) response of (?) character in (?) chat.
> А насчёт этого?
Буквально выбрать ответ из уже написанных или любой следующий? Начинаешь догадываться, да? Речь про любого персонажа или того, что выбран? Ну же, (a) или (the)?

Аноним 20/11/24 Срд 13:30:50 #430 №954306

>>954296
> 1
> До этого нет примера, где это исследование обсуждалось, значит (a)
)
> 2
> Тем, что ты не можешь быть в конкретном хорошем настроении. (a)
(?) good mood of yesterday has disappeared.
> 3
> см. выше, (an)
)

Аноним 20/11/24 Срд 13:39:13 #431 №954309

>>954296
> You can select response of a character in the chat?
> You can select a response of a character in the chat?
В чём разница по смыслу? Могу ли я использовать оба варианта?

Аноним 20/11/24 Срд 14:06:42 #432 №954328

>>954296
Ещё вот такой случай интересует:
> I want to show you (?) "example.txt" file
> I want to show you (?) "example.txt"
Что и где ставим и почему?

Аноним 20/11/24 Срд 14:11:52 #433 №954336

>>954328
Нейронку спроси, анон
Тыж программист в треде нейросеток и умеешь их запускать

Аноним 20/11/24 Срд 14:16:39 #434 №954341

>>954276
Всё тут правильно. Даже at в конце норм, просто переводиться будет не как "в тексте ролплея", а "пока занят ролплеем". С активностями используется at. Мб чуть правильнее было бы at roleplaying.

Аноним 20/11/24 Срд 14:20:51 #435 №954345

Короче понял вас, гуглоперевод наше всё :)

Аноним 20/11/24 Срд 14:23:59 #436 №954347

>>954345
да пиши ей на русском, через пару месяцев запомнишь с ее ответов где что ставится

Аноним 20/11/24 Срд 14:24:55 #437 №954348

>>954336
Да я знаю ответы на все эти вопросы, друг, всё что я хочу сказать: артикли - это не так просто, как "a" при первом упоминании чего-то, а "the" при повторном.

Пожалуй, больше не буду захламлять тред своей лингвистикой, не для этого он тут существует.

Аноним 20/11/24 Срд 14:28:49 #438 №954354

>>954348
Просто слишком много заморочек так где сами англоговорящие вобще не парятся

Аноним 20/11/24 Срд 14:35:25 #439 №954363

>>954354
Как и мы не паримся насчёт согласования слов в русском, хотя для не носителей языка это тот ещё геморрой.

Аноним 20/11/24 Срд 15:46:38 #440 №954425

анонии, такой вопрос. по поводу sillytavern.
Есть ли схема в которой еще одна нейросеть соотносит то что пишут персонажи с окружающим миром, пусть даже фантазийным? отыгрывает нейтраль, природу если угодно. один персонаж отвечает за свои действия, другой за свои, а условная gaia за то чтобы действия персонажей соотносились с окружающим миром? иначе получается как в детской игре в войну: я тебя убил, нет я, а я как бы из последних сил....

Аноним 20/11/24 Срд 15:54:19 #441 №954430

>>954131
>это же на каждую генерацию писать весь контекст на диск
Жора же умеет в расчет только нового контекста. И когда несколько последних сообщений удаляешь из переписки, то контекст вообще не пересчитывается при свайпе. Значит, по идее, можно и на диск писать/удалять тоже порциями, а не перезаписывать все всегда. Но в апи сейчас такого нет, понятное дело.
>Это писать нужно при выходе из приложения и\или переключении на другой чат.
Я могу вообще браузер закрыть. А если с телефона - так вообще ничего не делать, просто экран погасить, затем подойти к пк и выключить его. Так что тут надо писать кеш, пока горячо, а не ждать каких-то ивентов.

>>954111
>Юзать модели по железу и не извращаться?
Извращаться - это пересаживаться по своей воле на 70B.

Аноним 20/11/24 Срд 16:00:16 #442 №954434

>>954425

Использовать полностью или частично подобный промт, но не панацея.

https://pastebin.com/2QzZK158

Аноним 20/11/24 Срд 16:24:20 #443 №954445

>>954434
>https://pastebin.com/2QzZK158
Это весь текст или есть продолжение? Выглядит интересно.

Аноним 20/11/24 Срд 16:43:08 #444 №954457

>>954425
>я тебя выебал, нет я, а я как бы из последних сил....
Поправил тебя.

Аноним 20/11/24 Срд 16:46:49 #445 №954458

Одной рукой неудобно печатать. Решения?

Аноним 20/11/24 Срд 16:53:55 #446 №954462

>>954165
>200k
А чего словарь Ожегова не взяли? Там всего 53к слов, можно было бы ещё больше контраста нагнать.
> Почему Оксфордский словарь такой толстый?
> Лингвисты избегают такого рода сравнений между языками и словарями. У каждого своя специфика. Скажем, в Вебстеровский словарь в качестве самостоятельных статей включаются символы, например, химических элементов: B (бор), Ba (барий), Be (бериллий), Br (бром) и так далее, сокращенные наименования мер длины, веса, объема: km (километр), kg (килограмм), bbl (баррель)... Мало того, толковые словари английского языка начали включать символы обозначений размеров листов бумаги: А3, А4, А5, а также, например, символ @.
>Оксфордский словарь - слова всех разновидностей и всех вариантов (американского, канадского и т.д.) английского языка начиная с 1150 года, включая мертвые
>Если мы добавим к 150 000 слов современного русского литературного языка, например, еще и диалектные слова, то получим уже 400 000 слов...
>На сайте издательской фирмы Merriam-Webster сказано: "Считается, что словарь английского языка включает примерно миллион слов"
>Большинство лингвистов восприняло такую оценку с долей юмора, а некоторые сказали, что они не были бы удивлены, если бы он оценивался в четверть миллиона.
>По подсчетам лингвистов, во втором издании Вебстеровского словаря только 35% исконных английских слов, остальные 65% - заимствования.

>>954430
>Но в апи сейчас такого нет, понятное дело.
В целом, реализуемо. Всё, что надо - в апи есть. Другое дело, что не очень-то и нужно.
>подойти к пк и выключить его
Подожди. Что?

Аноним 20/11/24 Срд 16:56:59 #447 №954467

>>954462
У тебя пукан зажил уже?

Аноним 20/11/24 Срд 17:12:34 #448 №954484

Gc03jzpWoAEAmWX.jpg

kfyf3j52722e1.png

ГОООООЛ

>New reasoning model preview from @deepseek_ai that matches @OpenAI o1! DeepSeek-R1-Lite-Preview is now live to test in deepseek chat designed for long Reasoning!

> o1-preview-level performance on AIME & MATH benchmarks.
> Access to CoT and transparent thought process in real-time.
> Open-source models & API coming soon!

>My test prompt:
>Can you crack the code?
>9 2 8 5 (One number is correct but in the wrong position)
>1 9 3 7 (Two numbers are correct but in the wrong positions)
>5 2 0 1 (one number is correct and in the right position) 6 5 0 7 (nothing is correct)
>8 5 24 (two numbers are correct but in the wrong

>Correct answer is 3841

Обещают опенсурс.

Аноним 20/11/24 Срд 17:31:31 #449 №954505

>>954458
>Решения?
Подключай микрофон и ставь этот плагин в таверне и отсылай всю свою речь гуглу или майкам через браузер зато рука освободится!

Аноним 20/11/24 Срд 17:40:57 #450 №954510

>>954143
>продолжают жрать говно зхабугорное, нахваливая за обе щёки
Так оно работает лучше, лол. Тут дело не в предпочтениях или принципах, а в качестве, дурачок.
>но при этом почему-то сидят тут, а не на форче
>Предлагаю всем ИТТ с ISQ > 500 писать посты исключительно на англюсике
На русскоязычной доске я общаюсь на русском, на англоязычной я общаюсь на английском, где ты тут видишь несостыковки, лицемерие или еще что, приплетала залетная?

Аноним 20/11/24 Срд 17:55:03 #451 №954516

>>954445
Это база =)
В прямом смыле - дальше сам пиши свой сеттинг и неписей.

Можешь нейронку попросить твоё описание отформатировать как резюме / карточку работника перед вставкой в карточку или попросить вычистить текст.

Пикрелейтед - пример промта на описании Арканума.

Аноним 20/11/24 Срд 18:11:02 #452 №954526

Может кто знает почему модель напрочь игнорирует длину максимального ответа в таверне и херачит столько, сколько ей вздумается? Не нашел ничего в карточке персонажа и настройках пресетов, что допускало бы такое поведение. При макс. длине 125 токенов, судя по логам она расписывается на 500 и больше

Аноним 20/11/24 Срд 18:11:59 #453 №954527

Как же нищуков, которые не могут норм русик запустить, порвало.
Продолжайте!..

Аноним 20/11/24 Срд 18:13:52 #454 №954528

>уходишь от щитпоста /aicg/
>приходишь в /llama/
>щитпост

Аноним 20/11/24 Срд 18:18:13 #455 №954534

как в таверне запульнуть фотографию в чат? чтобы нейронка её поняла как инпут или часть инпута

Аноним 20/11/24 Срд 18:19:47 #456 №954537

>>954526
Потому что это тупой метод, который просто останавливает генерацию после порогового значения токенов. Он не сообщает модели "генерируй только 125 или меньше". Полноценный ответ ты получишь только если будет триггер по EOS токену, а он может случится и на 125 значении и на 500.

Аноним 20/11/24 Срд 18:21:13 #457 №954538

>>954510
Нахуй ты вообще сидишь на русской доске дурачок?
Тут же хуже качество

Аноним 20/11/24 Срд 18:21:20 #458 №954540

>>954534
Никак, если модель или фронтенд не поддерживает зрение.

Аноним 20/11/24 Срд 18:21:48 #459 №954542

>>954540
бекенд*

Аноним 20/11/24 Срд 18:25:43 #460 №954544

>>954538
>Тут же хуже качество
Ты в /g походу не сидел, если думаешь что там лучше качество. Вы долбаебы везде одну и ту же хуйню обсуждаете, вне зависимости от языковых кодировок.

Аноним 20/11/24 Срд 18:26:00 #461 №954546

>>954540
llama 3.2 vision

Аноним 20/11/24 Срд 18:27:01 #462 №954547

>>954546
Бек нужен тоже с поддержкой. Не знаю, поддерживает ли кобольд, но насколько я знаю, то нет. Нужно лаву качать, или как там она называется.

Аноним 20/11/24 Срд 18:32:51 #463 №954554

Чем запустить на z8350 noavx 32 bit?

Аноним 20/11/24 Срд 18:38:42 #464 №954560

>>954527
достаточно 3060 12gb что бы запустить NemoMix-Unleashed-12B-Q6_K_L или 4060 (3050 за 25к) с 8gb что бы запустить NemoMix-Unleashed-12B-Q4_K_M и делов то.

Аноним 20/11/24 Срд 18:44:19 #465 №954562

>>954547
короче не вариант втыкать фото в ролеплей как часть мира(описания мира, событий итд)

Аноним 20/11/24 Срд 19:12:18 #466 №954583

>>954562
>короче не вариант втыкать фото в ролеплей как часть мира(описания мира, событий итд)
Воткни описание фото, полученное с помощью отдельной модели. Не так удобно, но по сути разницы никакой.

Аноним 20/11/24 Срд 19:19:52 #467 №954586

>>954467
Так это надо, чтобы он бомбанул сначала.

>>954547
>Нужно лаву качать
ЛЛава это часть библиотеки llama.cpp, так что можно скачать любой бэк, который использует возможности библиотеки. Например, в оллама, построенная поверх всё той же Жориной либы, работает с вижн моделями.

Аноним 20/11/24 Срд 19:20:15 #468 №954587

>>954534
>>954540
Было вроде дополнение к таверне, которое считывает промпт с DS картинки при отправке.

Аноним 20/11/24 Срд 19:25:26 #469 №954588

>>954583
>разницы никакой
лол, это еще какая разница. image->state vectors и image->caption->state vectors.
Это как сказать что тебе все равно увидеть фото или описание фото..

Аноним 20/11/24 Срд 19:26:48 #470 №954591

Провёл эксперимент. Попросил модель NemoMix-Unleashed-12B (Q6_K_L) создать карточку персонажа для RP, потом создал одного и того же персонажа с одинаковым описанием и приветствием у себя на компьютере и в character.ai и попытался пообщаться с ним на одну и туже тему. Смотрите результаты общения на русском и думайте.

Аноним 20/11/24 Срд 19:27:37 #471 №954592

>>954591
Сраный двач не позволяет больше 4 картинок одновременно отправлять

Аноним 20/11/24 Срд 19:29:34 #472 №954594

>>954591
Все посмотрел нихуя не понял

Аноним 20/11/24 Срд 19:30:43 #473 №954597

>>954594

>>953554

Аноним 20/11/24 Срд 19:31:48 #474 №954599

>>954591
>>954592
Разговор двух аутистов на всех пяти скринах. Но зато на родном русском, пынямать надо.

Аноним 20/11/24 Срд 19:33:09 #475 №954601

>>954484
Ух бля, правильно считает буквы в словах. Вот теперь то заживём! (нет)
>>954528
Пости по теме.
>>954544
>вне зависимости от языковых кодировок
Везде UTF8, чел.
>>954591
М... Макс?
>>954592
Плоти деньги

Аноним 20/11/24 Срд 19:34:09 #476 №954602

>>954599
>>954594
Удивительно, что вы ещё капчу решать как то умудряетесь, что бы мне это писать

Аноним 20/11/24 Срд 19:35:48 #477 №954603

>>954560
>достаточно 3060 12gb
А она может заработать на моей матери 2008 года с северным процессором 2007 года? PCI-E v2, DDR2. Драйвера стоят актуальные, но видеокарта 2013.

Смотрел на Intel A7, но там некий resizable bar нужен. Естественно я побаиваюсь покупать то, что может не запуститься на моём ПК, не хочу зря возиться.

А собирать современный ПК - это минимум 100к... А главное, зачем, если базовые потребности (кроме нейронок) может удовлетворить уже имеющийся?

Аноним 20/11/24 Срд 19:42:16 #478 №954608

>>954602
Зато я ммогу обрести счастье

Аноним 20/11/24 Срд 19:44:59 #479 №954611

>>954603
>А собирать современный ПК - это минимум 100к
Я видяху свою 3060 12gb в ДНС за 28к покупал 3-4 месяца назад.
Процессор 5600g с оперативкой 16 гигов (потом расширил до 42 гигов), матерью на b550 чипсете (ступил и переплатил за неё тысяч 5-6, мог бы спокойно брать и A520) и блок питания самый дешевый голдовый в ДНС целом мне обошлось ещё примерно в 35-40к
Считай. Но опять же. Нужен ещё монитор, клава и мышь. Хорошо что у меня уже всё это было.

Аноним 20/11/24 Срд 19:48:10 #480 №954614

>>954601
"Макс" это местный мем или ты шиз?

Аноним 20/11/24 Срд 19:51:38 #481 №954617

>>954602
Мы плотим.
>>954603
>PCI-E
Может.
>>954614
Мем из кончай треда.

Аноним 20/11/24 Срд 19:52:12 #482 №954618

>>954611
>5600g
>AMD
>всего 6 ядер
>DDR4 в 2024 году
Ну, вот видишь. Для современного нужно >100к.

Аноним 20/11/24 Срд 19:52:57 #483 №954619

Че там по визульным локалкам? Почему еще нет софта который бы периодически делал скриншот экрана и промптил бы мою локальную вайфу?

Аноним 20/11/24 Срд 20:00:54 #484 №954627

>>954618
Соглы. На моей DDDR4 ничего толком не запускается. Только моба игры, а что то помощнее сразу же упирается в оперативку и древний проц на AM4. Тупо не вывозит.

Аноним 20/11/24 Срд 20:17:21 #485 №954636

>>954591
>пропаганда извращений
Давай разберём по частям твои извращения:

1. Ты постишь на анонимном форуме в интернете. Нормальные люди сидят в соцсети/мессенджере с реальным ФИО и фото своего лица на аватаре, не стесняясь выражать личное мнение и делиться подробностями приватной жизни со всем миром.

2. Ты общаешься с компьютерной программой как с человеком. Нормальные люди используют их как инструменты для решения реальных проблем, а не имитации флирта с несуществующим персонажем.

3. Ты назвал персонажа "Цунэхиса Мицуру, цундере", видимо, используя стереотипы аниме. Нормальные люди, тем более взрослые (старше 18), не смотрят японские порномультики, предпочитая серьёзные художественные фильмы отечественного кино.

4. Ты описал персонажа как "цундере, вспыльчивую, грубую, склонную к садизму, целеустремлённую". Нормальные люди знают, что женщине место лишь на кухне у плиты и она всегда должна подчиняться; в этом заключается её роль в обществе с рождения.

И это не говоря о "школьной форме", что по нашим законам делает порнуху детской, а тебя - педофилом.

По всему складывается, что ты грязный извращенец, грёбаный развратник, хуже спидозного гея в канаве, который хотя бы траву щупает и с людьми общается лицом к лицу, а не через анонимные чаты, социально интегрирован в общество и не фантазирует о всяких вымышленных "аниме девочках в школьной форме".

Так чем там тебя "повестка" не устраивает, грязный извращенец? И почему твоя "заботливая цундере" должна быть бессердечной сукой, а не заботливой? Очевидно же, нейронка хорошо отыграла свою роль. Просто проблема в тебе, извращенец, а не в ней.

Аноним 20/11/24 Срд 20:43:36 #486 №954664

>>954636
>не стесняясь выражать личное мнение
Молчат там все в тряпочку. И только на АИБ о себе и твоей мамке можно узнать истину.
>грязный извращенец
Как будто что-то отрицательное.

Аноним 20/11/24 Срд 20:44:25 #487 №954666

Снимок экрана от 2024-11-20 20-38-50.png

>>954591
>Ей, какой твой любимый фильм?

Аноним 20/11/24 Срд 20:54:54 #488 №954686

>>954591
Покормлю, конечно, но смысл сравнивать с онлайн-сервисами, ты же не знаешь, что у них за моделька крутится (если вообще не идет переадресация на другие сервисы). Вот тебе 123B

Аноним 20/11/24 Срд 21:01:38 #489 №954696