Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №216 /llama/

Слушайте, а гемма не такой уж и попугай, все же есть шанс на спасение. Вот я в запросе сказал не про зеркало писать, и на 3 свайпа вполне разные истории вышли.

Аноним 08/04/26 Срд 01:33:28 #5 №1578451

Всё правильно делаю? А то походу мой базовый 5КМ говно на гемме 4.

Аноним 08/04/26 Срд 01:36:07 #6 №1578453

Thinking на Gemma-4-26B-A4B сильно все улучшает? Или можно вырубить для скорости и ролеплеить как ни в чем не бывало?

Аноним 08/04/26 Срд 01:37:17 #7 №1578456

>>1578453
>Скорость
>4b
На каком же ты ведре то сидишь, анонче. Но вообще тут как: ризонинг хорош. Но если слишком медленно, то вырубай, хуле.

Аноним 08/04/26 Срд 01:40:46 #8 №1578459

>>1578456
Так это МОЕ, там 26b параметров. Он быстрый, только ризонинг по 2 минуты каждый раз, он там горы текста катает в ризонинге и сжирает всю скорость. А так 31б не тянет, да, фигово все с ним.

Аноним 08/04/26 Срд 01:41:34 #9 №1578460

>>1578453
Гемма тут как костыль в жопе - с любой стороны неприятно будет. Вот ты зачем мое берёшь? Ради контекста. Но жертвуешь чем? Мозгами. Чтобы нивелировать тупость ты подрубаешь ризонинг, который в свою очередь пожирает контекст. Пу-пу-пу. Вот и думайте, карлики.

Аноним 08/04/26 Срд 01:42:13 #10 №1578461

>>1578460
Ризонинг не уходит в контекст, дурачок

Аноним 08/04/26 Срд 01:51:12 #11 №1578462

А температура в Гемме все же работает. Постоавил 0.1 - и она генерит один и тот же стих 1 в 1.

Аноним 08/04/26 Срд 01:57:14 #12 №1578465

Навайбкодил себе базовый, но кайфовый интерфейс для ИИ. Ща буду на нем свою идею пытаться реализовывать

Аноним 08/04/26 Срд 01:59:11 #13 №1578466

>>1578451
bf16 бы конечно, но и 8 квант сойдёт думаю

Аноним 08/04/26 Срд 02:55:52 #14 №1578490

1775606051462.png

Как же заебали тащить сюда свое морализаторское говно.
Да-да, ты же локалку собрал, въебав кучу бабок, чтобы милф с обвисшими сиськами полувялым ебать.
На корпах же это невозможно.
Вот конкретно чтобы твой самый обычный фетиш на самое обычное порно никто не увидел пришлось собирать риг, не иначе. Да и вообще ты тут за компанию, а то и мимо проходил.

Аноним 08/04/26 Срд 02:58:44 #15 №1578491

IMG3257.png

Источник: https://huggingface.co/inferencerlabs/Ling-2.5-1T-MLX-3.7bit

Аноним 08/04/26 Срд 02:58:46 #16 №1578492

>>1578490
>вы морализаторы, а не я педобир
Никто не осуждает анон. Дрочи на что хочешь.

Аноним 08/04/26 Срд 02:59:45 #17 №1578494

https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-heretic-ara-i1-GGUF

На мразермахере уже херетик-ара в иматриксе, побыстрее предыдущей.

Аноним 08/04/26 Срд 03:07:36 #18 №1578496

>>1578462
У меня не работает. Тоже 0.1 выставил, результаты как пикрелейтед.

Аноним 08/04/26 Срд 03:12:29 #19 №1578497

>>1578490
> Вот конкретно чтобы твой самый обычный фетиш на самое обычное порно никто не увидел пришлось собирать риг
Бро, мне даже обычные вопросы стыдно у корпов спрашивать, а ты о интиме...

Аноним 08/04/26 Срд 03:14:27 #20 №1578498

>>1578497
>Бро, мне даже обычные вопросы стыдно у корпов спрашивать, а ты о интиме...
Это вызывает отдельный ор, когда видишь в клоде или геминьке (ну не помню где конкретно) что теперь, дорогой пользователь, учитывается история всех твоих чатов.
Ну охуеть.

Аноним 08/04/26 Срд 03:59:08 #21 №1578503

Попробовал лламу с рекомендацией анона --override-kv gemma4.final_logit_softcapping=float:20.0 . Хуита. То же самое. Опять Марк со своим ебаным зеркалом.

Аноним 08/04/26 Срд 03:59:24 #22 №1578504

А гемма 4 в 8 битах хороша.

Аноним 08/04/26 Срд 04:09:18 #23 №1578510

>>1578465
Новый интерфейс?

Аноним 08/04/26 Срд 04:26:38 #24 №1578514

>>1578510
>Новый интерфейс?
Ну а какой еще? Пилю на нем ща свою идею ебанутого расширенного тулл юза, чтоб llm буквально на каркасе из кода работала с отдельным интерфейсом под всякие нужды. Но пока только базовый бросок дайса сделал

Аноним 08/04/26 Срд 05:29:00 #25 №1578529

У меня гемма в кобольде шизит, а в лм студио всё нормально. Как же тяжело с локальным пердолингом...

Аноним 08/04/26 Срд 08:48:42 #26 №1578590

Как же мощно закк спиздил всех самых крутых ученых у опенов и в итоге не может натренеровать модель хотя бы близкую к текущим сота, а тут еще и новости о mythos и его бенчики

Аноним 08/04/26 Срд 08:56:37 #27 №1578593

>>1578514
Я хочу чтобы в в таверне были воркфлоу как в комфи, чтобы можно было настраивать под каждую задачу и легко переключаться.

Аноним 08/04/26 Срд 09:00:08 #28 №1578594

>>1578504

моешка тоже норм работает, запустил на нищевидеокарте RX580 8гб

unsloth_gemma-4-26B-A4B-it-MXFP4_MOE.gguf

Аноним 08/04/26 Срд 09:19:23 #29 №1578604

>>1578461
Ну во-первых один блок ризонинга уходит, в сообщение что пишется
Во-вторых есть хитрые моменты где рекомендуют включать опцию помнить все ризонинги, или делать их суммарайзы. В тулколлах вроде юзается. В офф инструкции от гугла к 4 гемме было

Аноним 08/04/26 Срд 09:29:10 #30 №1578608

Шлёпаем набрасывателей на гемму =))

gemma-4-31B-it-UD-Q3_K_XL.gguf

Русик в кванте пострадал, может местами проёбываться, так что к использованию особо рекомендовать не могу, а в 4том и выше квантах скорости совсем печальные. Но со свайпами у неё норм.

Аноним 08/04/26 Срд 09:32:52 #31 №1578610

>>1578608
У меня на q5xl было 550-600 токенов за ~15 секунд. Нихуясе скорость печальная...

Аноним 08/04/26 Срд 09:48:08 #32 №1578622

Короче, может у меня шиза, но либо жора либо кванты на мое-гемме сломаны. До 4к контекста или около того отвечает нормально, потом начинается какой-то пиздец, либо служебные токены начинают протекать, либо раздумья ломаются, либо выборка в принципе. Какие-то непонятные слова вылезают, даже не просто рандомные, а вот прям набор букв. Кто-то такое замечал или это только у меня траблы?

Аноним 08/04/26 Срд 09:51:02 #33 №1578626

dice.mp4

Бля как же я заебался вайбкодить, спать хочу. Но зато смотрите чо сделал. Это не только для броска кубиков, это в целом просто пример. Весь смысл в том что ллм работает параллельно с каким-то приложением и когда она вызывает инструменты, она взаимодействует с ним. И это лишь небольшая часть из того что я хочу запилить. То что кубик не всегда падает точно на грань это похуй, все равно это только для примера

Аноним 08/04/26 Срд 09:53:44 #34 №1578630

>>1578610
Царь во дворца, царь во дворца! Хорошее железо видимо.

А у меня хороший игровой ноут что вывозит новинки на ультрах, но под ллмки не очень.

>>1578622
>кванты на мое-гемме сломаны
Не исключено что либо кванты, либо инфиренс в целом.
Увы, дальше десятка сообщений пока не тестил сам, не до того.

>>1578398 →
Нет, я буду ждать пресетик.
>>1578274 →
>дайте пробив на гемму
https://pixeldrain.com/l/47CdPFqQ#item=161

Аноним 08/04/26 Срд 10:18:52 #35 №1578651

>>1578622
Когда внешние фронтенды использую, замечал такое. Если использовать встроенный в нее svelte фронтенд - проблемы исчезают, даже на 30к токенов нормальное развитие диалога. Кажется остальные фронтенды все криво с ней общаются.

Аноним 08/04/26 Срд 10:19:22 #36 №1578652

>>1578626
Имхо надо выпилить этот threejs кубик - чтобы меньше врама жралось и заменить его на что-то более лёгкое. Типо ASCII

Аноним 08/04/26 Срд 10:23:13 #37 №1578654

>>1578651
+ встроенный фронт на дефолтных настройках, может это роль играет. Хотя пробовал их переносить в другие проги, вроде бы ничего не менялось, глюки все равно бывали на большом контексте. Короче пока для себя установил, что если мое-кванты нужны и длинный ролеплей, то лучше сидеть на встроеном фронте и добавлять там систем месседж, когда надо.

Аноним 08/04/26 Срд 10:34:43 #38 №1578673

>>1578651
Вот этот фронт, если что. ИИшка говорит он с бэкендом по-другому общается, потому что встроенный. На практике подтверждается, глюки исчезают с квантами-мое и длинным контекстом.

Аноним 08/04/26 Срд 10:35:48 #39 №1578675

>>1578673
Это обычный чат комплишен

Аноним 08/04/26 Срд 10:38:05 #40 №1578679

>>1578675
Ещё он финкинг в контекст засовывает, а в других фронтах он по умолчанию туда не идёт, кмк

Аноним 08/04/26 Срд 10:38:52 #41 №1578681

Пожалуйста послушайте, тут происходит что то странное...
Трек 21 года и можно услышать как поют про стэп (степ флеш???), далее строчка про пресет (у них в башке один пресет) - ???
https://youtu.be/89yDiQ8WkNg?list=RD89yDiQ8WkNg&t=70

Аноним 08/04/26 Срд 10:40:05 #42 №1578684

>>1578675
Там нейтив апи, другие проги используют OpenAI-компатибл API. Плюс какие-то внутренние трюки. Короче результаты разные выходят, сам попробуй. Пока только этот у меня безглючным был.

Аноним 08/04/26 Срд 10:42:04 #43 №1578685

>>1578679
>>1578684
Ок, попробую, может действительно что то поменялось

Аноним 08/04/26 Срд 10:47:20 #44 №1578691

>>1578681
Ты бы это, к врачу сходил.
Тредов так 100-110 назад, когда меня особенно сильно крыло, я уходил в турбосеменство выдавая по сотне постов в которых я спорил сам с собой, принося аргументы и переходя на эмоции. Буквально пол треда только моих сообщений. А потом до меня дошло, что я общаюсь сам с собой с двух устройств. Да, г’ебятки, быть заложником своего мозга нихуя хорошего. Что кстати подтверждало что тогда ОП не был модером. Ну а если был, то представляю его ебало когда он читал эту шизу под одним пасскодом.

>>1578626
Богато живешь, что можешь с ЛЛМ тратить врам на 3D кубики.

Аноним 08/04/26 Срд 10:48:24 #45 №1578694

>>1578685
Единственно там неудобно - нет возможности нормально удалять середину контекста в ролеплее, если дошел до конца текстового окна. В других прогах можно просто в интерфейсе все поудалять, тут нужно сначала экспортить в json, потом ручками удалять середину из джейсона с лишними сообщениями, потом менять айдишки, чтобы начало оставшегося куска ссылалось на следующую айдишку из продолжения. Потом реимпорт. Но у меня длинный контекст, так что делаю это редко, а безглючность того стоит.

>>1578679
По-моему он не засовывает финкинг в контекст, потому что когда я его из джейсона удалял и делал реимпорт - ничего не менялось, контекст такой же по размеру оставался.

Аноним 08/04/26 Срд 10:50:13 #46 №1578698

>>1578691
Бывает анон, но ничего страшного. Поговорить самим с собой иногда тоже полезно, ты главное не забывай что мы здесь тоже, твои друзья.

Аноним 08/04/26 Срд 10:52:40 #47 №1578703

>>1578694
> По-моему он не засовывает финкинг в контекст, потому что когда я его из джейсона удалял и делал реимпорт - ничего не менялось, контекст такой же по размеру оставался.

Тут только гадать. Но в запросах на эндпоинт генерации весь финкинг со всех предыдущих сообщений есть в теле запроса. А как его обрабатывает бэк - не знаю.

Аноним 08/04/26 Срд 10:54:30 #48 №1578708

>>1578673
После ответа сделай запрос на /slots что бы посмотреть что вообще пришло на предикт, самый простой вариант дебага

Аноним 08/04/26 Срд 10:55:44 #49 №1578709

>>1578703
Я такой эксперимент делал - экспортил весь джейсон ролеплея, потом удалял все поля reasoningContent - в ноль их ставил. Потом импорт заново, пересчет контекста - все 1 в 1 оставалось, ответы тоже. Так что скорее всего он не шлет финкинг в контекстовое окно бэкенда, поэтому они и в джейсоне в отдельных полях лежат.

Аноним 08/04/26 Срд 10:58:35 #50 №1578715

>>1578708
О, не знал про такое, ИИшка пояснила щас, спасибо, попробую.

Аноним 08/04/26 Срд 11:09:58 #51 №1578731

>>1578673
>про остров
Епштейнище...

Аноним 08/04/26 Срд 11:18:26 #52 №1578741

>>1578622
Мои наблюдения на текущий момент - вывод идёт по пизде, как только модель не ставит <|channel>. А прикол в том, что в жинже (по крайней мере, не модифицированной) этот тег ставится принудительно, только если ризонинг отключен
{%- if not enable_thinking | default(false) -%}
{{- '<|channel>thought\n<channel|>' -}}
{%- endif -%}
В случае включенного синкинга простановка тега отдаётся на откуп модели. И на большом контексте моешка с порезанными квантами мозгами может забить на него, и тогда начнётся шизовывод с лупом. Я сам сижу на текст комплишене в таверне, и у меня на контексте от 4к в Q4_k_m кванте, например, может происходить такое, что модель иногда забивает на <|think|> в системном промпте, закрывает префильный канал и отказывается думать. Пришлось в префил ещё звёздочку накинуть. Но в целом, если руками канал проставлен, то шизы нет (только форматирование текста слетает), хотя я проверял только на чатах немного больше 5к, нет пока большого. Если у тебя таверна с настроенным текст комплишеном с каналом в префиле под рукой, то можешь проверить, продолжаются ли косяки на большом контексте.

Аноним 08/04/26 Срд 11:21:46 #53 №1578749

>>1578741
><|channel>thought\n<channel|>
Замечал если ставить его, то иногда есть шиза - при перегенерации запроса с тем же тегом, уже нет шизы. Так что все рандомно как-то, может кванты влияют.

Аноним 08/04/26 Срд 11:27:05 #54 №1578760

>>1578691
>Ты бы это, к врачу сходил.
Блять! Сразу после идёт строчка "Им не найти меня, я скрылся, я пропавший" - про кого это может быть???

Аноним 08/04/26 Срд 11:28:27 #55 №1578765

>>1578741
>вывод идёт по пизде, как только модель не ставит <|channel>
Вот у меня кстати наоборот. Если отключить мозгование, то вывод не ломается. При включённом бывает такое, да. Она либо открывающий либо закрывающий тег проебывает.

Вообще, вот я тут подумал, может зависит от того, какие эксперты при загрузке активируются? Не знаю, выбираются они рандомно или нет, но разброс слишком большой. Иногда бывает шиза, иногда нет шизы. Ну или в процессе самого инфиренса они там как-то хуево выбираются из-за пережатого кванта.

Аноним 08/04/26 Срд 11:30:18 #56 №1578768

>>1578765
>Вот у меня кстати наоборот.
Бля, я еблан. Не наоборот, точно также.

Аноним 08/04/26 Срд 11:30:37 #57 №1578771

>>1578691
>представляю его ебало когда он читал эту шизу под одним пасскодом
Ну практически общение с локалкой. Ты знаешь что ты пишешь и прикидываешь приблизительный ответ и в голове генеришь следующий парт общего полотна. Сорта самообщение, учитывая, что живого собеседника на той стороне нет.

Аноним 08/04/26 Срд 11:31:31 #58 №1578772

>>1578765
imatrix кванты должны эту проблему решать - выбор эксперта всегда стабильный. У бартовского вроде как самая нормально сделанная иматрикс квантизация.

Аноним 08/04/26 Срд 11:32:47 #59 №1578774

>чего-то сладкого
>чего-то кислого
>с запахом озона
>костяшки побелели
ЫЫЫ...

Аноним 08/04/26 Срд 11:35:01 #60 №1578777

>>1578749
Хз тогда. Я несколько десятков раз посвайпал в разных чатах (но небольших по контексту) и шизы с проставленным каналом не ловил. А у меня ещё температура больше единицы и smoothing-ом полирую для разнообразия. Может, бывает, что модель какой-нибудь лишний bos ставит, опять открывает канал, но не пишет thought или что-нибудь такое. В любом случае, сам факт шизы после не проставленного служебного токена выглядит ненормальной хернёй. С чего вдруг там предсказанные токены так расхерачивает только потому, что тег не проставлен. Причём не сразу, а спустя пару предложений после начала генерации.

Аноним 08/04/26 Срд 11:37:40 #61 №1578782

Немного фидбека по 8 кванту 31б. После 32к примерно контекста раз в несколько сообщений может случиться прикол
- вставит английское слово которое вписывается, но там должно быть русское
- может употребить неправильно к примеру "человеки"
В целом пока держится и может даже выкинуть мув на основе контекста про который я уже и сам забыл. Добиваю до 64к, если норм, то ставлю фп8 на контекст и иду на 128к. Тг уже упал до 8, уверенно иду на 0.1тпс

Аноним 08/04/26 Срд 11:39:23 #62 №1578785

>>1578782
>уверенно иду на 0.1тпс
Все там будем, однажды.

Аноним 08/04/26 Срд 11:40:14 #63 №1578787

>>1578782
>вставит английское слово которое вписывается, но там должно быть русское
>может употребить неправильно к примеру "человеки"
Такое даже на корпах бывает, ничего необычного. Русский всё еще в датасетах дай бог процента полтора-два занимает.

Аноним 08/04/26 Срд 11:41:09 #64 №1578790

>>1578787
Ты с украинским перепутал.
Были графики где русик на 2 или 3 месте был по датасетам

Аноним 08/04/26 Срд 11:42:02 #65 №1578791

>>1578790
Это просто физически не может быть так.
Смотри- английский, китайский. Точно топы. Потом еще французский, испанский, немецкий- точно не меньше.

Аноним 08/04/26 Срд 11:44:23 #66 №1578792

>>1578791
Датасет зависит от страны производителя? Тогда 100%, что на первом месте анг, за ним кит, после фронц, не забывайте про мисральку. Но англа конечно процентов 70.

Аноним 08/04/26 Срд 11:45:44 #67 №1578794

Посмотрел на количества звезд на гитхабе, на количество лайков моделей у unsloth, подумал может их studio не хуже lm studio. Срет старым питорчем, вручную хуй установишь на другой диск через uv, лезут ошибки где не должны лезть.
Запускаю, выглядит божественно. Правда сначала гайд на трейн моделей. Но интерфейс лучше чем у корпов, не считая клода, очень приятно пользоваться. А потом замечаю, что нельзя редачить ответы ИИ, нельзя продолжить генерацию, не заметил удобных хоткеев как в лмс. Поставил из-за упоминания про аудио инпут для геммы, не вижу никакого аудио инпута, только диктование своим ебалом, видео тоже не грузятся.

Есть ли нормальный интерфейс, чтобы вот так по-человечески thinking выключался и включался по необходимости без нужды лезть в ебучие настройки каждый раз, чтобы был пресетик для кода, а ещё лучше задел под агентные штуки с сендбоксом и всей хуйнёй? А не срань ебучая из 90х как силлитаверн, которая даже не может подключить мультимодал из лм студии. Так и не вышло проверить поддерживает ли silly tavern аудио-видео инпут. Я конечно юзал кобольд и таверну весь путь, но теперь хочется от них блевать, увидев такие хорошие UI с отличным UX, но с подрезанным функционалом. Или может все эти функции есть, но скрыты?
Накиньте скриншоты с годными интерфейсами.

Аноним 08/04/26 Срд 11:46:17 #68 №1578796

>>1578792
>Датасет зависит от страны производителя?
Ну было бы странно, если бы в дипсике было бы 90% английского.
Сам он выдаёт такие цифры:
Английский ~45-50%
Китайский (упрощ.)~25-30%
Код (Python/Java/C++/JS) ~8-12%
Русский ~3-5%
Прочие языки (суммарно)~10-15% Японский, немецкий, испанский,

Ну а на деле не известно, так как за дадасеты все трясутся, чтобы не дай бог ничего не всплыло.

Аноним 08/04/26 Срд 11:47:47 #69 №1578799

>>1578790
>Ты с украинским перепутал.
Нет, украинский еще меньше. И там шизы уверен еще выше, потому что скорее всего там токены и на русском и на украинском вместе миксуются. Нейросетевой суржик такой получается.

>Были графики где русик на 2 или 3 месте был по датасетам
Ну тащи графики, раз они были. Базу, даже китайских моделей, составляет английский. Его минимум половина. На другие языки выделяется процентов наверное 20 и не на один "другой язык" а на все вместе. Оттуда и такой мелкий процент у русского. Может от этих 20 процентов он и составляет треть или четверть, но точно не от всего датасета.

Аноним 08/04/26 Срд 11:48:15 #70 №1578802

>>1578794
>А не срань ебучая из 90х как силлитаверн, которая даже не может подключить мультимодал из лм студии.
Мистер Андерсон, зачем вы игнорируете жору?

Аноним 08/04/26 Срд 11:51:10 #71 №1578804

>>1578794
>Есть ли нормальный интерфейс, чтобы вот так по-человечески thinking выключался и включался по необходимости без нужды лезть в ебучие настройки каждый раз, чтобы был пресетик для кода, а ещё лучше задел под агентные штуки с сендбоксом и всей хуйнёй?
Чел, на дворе 26 год, ты можешь взять любую мощную корпу и написать свой интерфейс со всем, что тебе нужно. Вайбкодеров можно срать сколько угодно, но если ты делаешь тулзу для себя - это лучший вариант. Особенно если ты сам не можешь в программные штуки.

Аноним 08/04/26 Срд 11:52:09 #72 №1578805

>>1578804
А где взять любую мощную корпу бесплатно?

Аноним 08/04/26 Срд 11:52:10 #73 №1578806

>>1578794
>Накиньте скриншоты с годными интерфейсами.
Лучшая программа ever.

Аноним 08/04/26 Срд 11:55:03 #74 №1578810

>>1578804
Давай ты сделаешь, бонусом получишь мировое признание и высокое жалование. Жду к вечеру, хули там вайбкодить же, тем более тебе. Чел.

Аноним 08/04/26 Срд 11:56:41 #75 №1578813

>>1578794
Зачем тебе с кобольд лайта слезать то? Там все есть, включая мультимодал имнупт, продолжение генераций и выключение зинкинга, даже голосовой ввод есть. Его фронтенд можно отдельно накатить и юзать с llama.cpp, у которого скорость повыше и в память больше всего влазит, так и делаю.
Еще нативный новый фронтент в ламе, там правда продолжения генерации не завезли и удаления сообщений из середины без удаления остатка.
Эти 2 сейчас основные конкуренты имхо по удобству.

Аноним 08/04/26 Срд 11:57:27 #76 №1578814

>>1578806
Валерий Юрьич, ну вы чего...

Аноним 08/04/26 Срд 11:57:33 #77 №1578815

>>1578805
Не знаю, лично я кидаю копейку на попенроутер и пользуюсь когда нужно. Это выгоднее чем платить кому-то одному и потом от него зависеть.
>>1578810
Мне это не нужно, меня устраивает функционал таверны и лм-студио. Я вайбкожу прототипы для работы, когда надо. Вполне рабочий вариант.

Аноним 08/04/26 Срд 12:01:14 #78 №1578820

>>1578774
Не каркай, а то еще помидоры с позвоночниками пойдут нахуй

Аноним 08/04/26 Срд 12:09:03 #79 №1578828

>>1578815
> Не знаю, лично я кидаю центик на попенроутер и пользуюсь когда нужно. Это выгоднее чем платить кому-то одному и потом от него зависеть.
Ftfy

Аноним 08/04/26 Срд 12:12:39 #80 №1578831

Я вот тут мучал гемму с картинками. В итоге настройки мин и макс токенов на картинку реально улучшают результат. Но все равно частенько факапается. А вот разницы между mmproj в бф16 и q8 - не заметил пока, а 800мб экономит.

Теперь мне стало интересно, а есть какая-нибудь ллмка, которая умеет видево описывать текстом? Пошарился по хф и ничего популярного и из разряда plug and play не нашёл

Аноним 08/04/26 Срд 12:13:45 #81 №1578832

>>1578815
Вот и нехуй пиздеть. Сравнил сранные юзерскрипты, интерфейсы для бекенд хуйни и комплексный UI для ллм с которым даже анслоп обосрались и проебали весь функционал. Я и сам хуйню вайбкожу с 2022 регулярно, до этого ещё дольше программировал руками, понимаю насколько это сложно и долго. Это нужно калькуляторы ебашить, чтобы так легкомысленно говорить про возможности вайбкодинга.

>>1578813
>выключение зинкинга
Дрочевом в четыре клика? Когда это должно включаться хоткеем при отправке сообщения через CTRL+SHIFT+ENTER например или хотя бы тоглом в интефейсе.
>даже голосовой ввод есть
>включая мультимодал имнупт
А аудио инпут? Диктовать это хуйня. Я хочу нативную поддержку видео. А то гугл выпустили модель, а ни один интерфейс не поддерживает её функционал? Имеются свидетели рабочих аудио-видео инпутов в gemma 4 e2/4b?

Аноним 08/04/26 Срд 12:14:30 #82 №1578835

>>1578421 (OP)
Дайте импульс бенч для великого и могучего, пожалуйста.

Аноним 08/04/26 Срд 12:19:44 #83 №1578842

>>1578832
>Дрочевом в четыре клика? Когда это должно включаться хоткеем при отправке сообщения через CTRL+SHIFT+ENTER например или хотя бы тоглом в интефейсе.
Пресеты же можно сделать и переключать по дропдауну. Пока, самое удобное что есть. Выходит в 2 клика.

Аноним 08/04/26 Срд 12:22:49 #84 №1578844

>>1578831
>Теперь мне стало интересно, а есть какая-нибудь ллмка, которая умеет видево описывать текстом?
Многие новые мультимодалки как бы умеют, тот же квен3.5, гемма4. Но как я понял, все они работают покадрово. Т.е. тупо также как с картинками, только тут пачку картинок надо кидать. Нативного формата для видосов вроде нет.
И большинство фронтов либо никак, либо через жопу обрабатывают видео.

Аноним 08/04/26 Срд 12:23:39 #85 №1578846

>>1578832
>сам хуйню вайбкожу с 2022 регулярно, до этого ещё дольше программировал руками, понимаю насколько это сложно и долго
Учись в составление промтов, че сказать. Ничего сложного в этом нет. Написать вебморду типа таверны можно за пару вечеров если у тебя есть желание. Не знаю че ты там и где вайбкодил с 22 года, но сейчас не 22 и уже давно можно нейронкам не только задачу скармливать но еще и тонны документации и даже целую репу другого проекта. Может не с первого раза и не сразу чисто, но она напишет что тебе нужно.

Аноним 08/04/26 Срд 12:39:15 #86 №1578859

>>1578842
>Выходит в 2 клика
Пересчитай внимательней. Будет непросто.
>>1578846
>за пару вечеров
Все таки за пару? Ладно, так уж и быть, ждём к следующей неделе божественный UI для тредовичков. Чтобы парсил chat-template с hf, читал метаданные, даже которых нет, поддерживал то, что не поддерживают самые известные интерфейсы. Ты ж не пиздабол ебанный, а реально шаришь.

Аноним 08/04/26 Срд 12:49:45 #87 №1578869

>>1578831
Гемма же умеет и в видео. Скинь что прогонял, может у меня другие результаты будут

Аноним 08/04/26 Срд 12:51:20 #88 №1578872

>>1578832
> Имеются свидетели рабочих аудио-видео инпутов в gemma 4 e2/4b?
Я постил в тред ранее. Можешь что то покидать, залью. Или могу не на долго расшарить эндпоинт

Аноним 08/04/26 Срд 12:56:22 #89 №1578876

>>1578859
>Ты ж не пиздабол ебанный, а реально шаришь.
Забавно, что для тебя пиздабольство это наличие у кого-то знания, которое недоступно тебе. Ты пришел с вопросом, тебе предложили решение. Вместо того чтобы написать прямо "я не хочу сам возиться/у меня нет времени" ты развыебывался и начал затирать, что вообще неебаца вайбкодер с 22 года и знаешь что можно сделать а что нельзя. Если бы ты реально имел хоть малейший опыт, даже не четырехлетний, а хотя бы месячный, то уже бы давно собрал для себя фронт и не высирался тут.

Никто не будет тебе ничего делать и никто тебе нихуя не должен, скажу как-то вот так. Ну а учитывая, что для тебя пиздец какая сложная фича это спарсить разметку чата с обниморды, то даже не знаю, что тут еще можно добавить. Сиди страдай в ожидании, что за тебя всё сделают.

Аноним 08/04/26 Срд 12:59:39 #90 №1578881

download.png

>>1578876
>вместо того, чтобы написано прямо я не знаю готовых решений и не умею их делать, я напишу что можно сделать теоретически, нужно совсем немного поебаться, я по новостям слышал
Понял тебя, пиздабол ебучий. Сразу ясно что ты там вайбкодил и что у тебя за работа.

Аноним 08/04/26 Срд 13:16:13 #91 №1578899

Вы вообще понимаете что Гемма 4 это великий дар вселенной, буквально подарок самих богов?

Аноним 08/04/26 Срд 13:19:46 #92 №1578902

>>1578899
Не боги горшки обжигают

Аноним 08/04/26 Срд 13:21:04 #93 №1578905

>>1578899
Пруфы аргументация где? Вон в прошлом треде по факту анон гемму растоптал и показал что квенчик няша

Аноним 08/04/26 Срд 13:26:17 #94 №1578908

17550027064050.jpg

Какие есть нормальные агенты для lm studio? Хочу чтобы нейрнка полностью компом управляла

Аноним 08/04/26 Срд 13:29:20 #95 №1578914

>>1578908
Агенты только для таверны есть.

Аноним 08/04/26 Срд 13:34:38 #96 №1578918

IMG20260226201851996.jpg

5187.jpg

>>1578869
Пик1: не опознала Летова, думала это курткабейна, простительно. Но самого Летова знает.
Пик2: путается в анатомии при сложных ракурсах без визуальных "якорей". Видит вагину, но затрудняется понять в какую сторону от неё лобок, а в какую анус. Считает, что красное - не жепная затычка, а что-то другое. То же самое с жепной свечей анона из предыдущих тредов - тоже не понимает что свеча не на лобке, а в жепе.

С документами при максимальном разрешении (в токенах) норм, но тут и там проскакивают ошибки в 1-2 буквах

Аноним 08/04/26 Срд 13:42:45 #97 №1578923

IMG4495.jpeg

>>1578918
Выражаю тебе своё негодование, за возникший стояк. А мне еще работать.

Аноним 08/04/26 Срд 13:48:13 #98 №1578927

>>1578923
>работать
Бедолага...

Аноним 08/04/26 Срд 13:56:07 #99 №1578935

>>1578927
Нейротянка не может, у неё нейронные лапки.
Поэтому тредовички работают, чтобы увидеть заветное: да, ты меня ебешь la la la la

Аноним 08/04/26 Срд 13:58:57 #100 №1578937

Итак
Нанесут ли фанбои Геммы ответный удар по >>1578029 → ???
Потому что я согласен полностью, Гемма это кривой дистиллят Геминьки который пишет местами неплохо но оч тупо

Аноним 08/04/26 Срд 14:01:10 #101 №1578939

Пока что самый лучший результат в распознавании картинок выдает квенчик опус синк эдишен

Аноним 08/04/26 Срд 14:09:37 #102 №1578947

>>1578794
> Срет старым питорчем
Это что, не просто обертка жоры? Если нет то зачем тогда питорч, тем более старый?
> Но интерфейс лучше чем у корпов
Опенвебуй не видел чтоли? Только сейчас он приболел, как запустить без регистрации и смс придется загуглить. Попробуй, еще захочешь, а потом поздравим с подключением.
> но теперь хочется от них блевать
Для рп это все также уныло. А что конкретно вызвало восторг, поделись.

Аноним 08/04/26 Срд 14:10:19 #103 №1578948

>>1578937
Он сам себя захуярил
> в кум квен не может совсем
Еще когда я тестил блючето там тюн квена персы были ебнутые, та же фифи просто бросалась на прохожих и показывала всем пизду, но что меня добило так это когда многодетная прилежная мать ей сказала "убирайся мелкая блядь"

Аноним 08/04/26 Срд 14:14:19 #104 №1578950

>>1578935
>la la la la
Тот самый момент когда под капотом геммы находится мистраль.

Аноним 08/04/26 Срд 14:15:41 #105 №1578951

>la la la la

У меня такое было даже во время написания кода.

Аноним 08/04/26 Срд 14:18:34 #106 №1578954

1755597180090.png

1647410849844.png

>>1578918
Погонял и в принципе согласен. Допом решил попросить сделать промпт для анимы что бы получить похожий результат и ведь она там даже пишет что это жопная затычка. Мод, не стукай, я замазал

>>1578947
> Опенвебуй не видел чтоли? Только сейчас он приболел, как запустить без регистрации и смс придется загуглить
А ч с ним? Запускаю из хелм чарта, просто работает

Аноним 08/04/26 Срд 14:18:56 #107 №1578955

>>1578951
La Guemma.

Аноним 08/04/26 Срд 14:22:59 #108 №1578957

>>1578954
Сейчас установка усложнилась и при попытке запустить оно требует регистрацию/логин в их системе. Чтобы пропустить нужно делать манипуляции.

Аноним 08/04/26 Срд 14:29:14 #109 №1578967

>>1578957
>регистрацию/логин в их системе
Open 80 уровня образца 2026 года, всё нормально.

Аноним 08/04/26 Срд 14:33:07 #110 №1578968

>>1578957
Вроде всегда там нужно было аккаунт создавать, не? Скипалось флагом в параметрах запуска или конфиге, не помню уже. Аккаунт хранится локально, там тупо весь гуй завязан на том, чтобы было несколько аккаунтов
мимо

Аноним 08/04/26 Срд 14:34:54 #111 №1578969

>>1578968
Акк всегда просит т.к. нужен как минимум админский, но я чёт вообще не припомню что бы нужен был онлайн при запуске

Аноним 08/04/26 Срд 14:36:06 #112 №1578971

>>1578954
Что за йоба на первом скрине?

Аноним 08/04/26 Срд 14:36:36 #113 №1578972

>>1578969
Про онлайн хз, а админский акк раньше точно можно было скипнуть флагом. Сейчас хз
В любом случае опенвебгуй для меня это bloatware

Аноним 08/04/26 Срд 14:39:39 #114 №1578973

>>1578971
helm - шаблонизатор и бандлер для k8s, думаю тут всем и просто докера хватит поднять жору да комфи

Аноним 08/04/26 Срд 14:48:16 #115 №1578981

>>1578937
Вообще я не уверен что гемма дистилят в привычном смысле. У ней корпус знаний какой-то удивительный. Она знает всякие нишевые вещи слишком хорошо. Да, её общая психология сильно напоминает гемини, но это не похоже на имитацию.

Например, гемма отлично знает что такое sad panda, e621, или as109, даже вспомнила немного конкретики. А Qwen только по e621 знает.

Аноним 08/04/26 Срд 14:57:25 #116 №1578988

>>1578968
Раньше просто ставишь-запускаешь, может какие-то предложения были которые тутже скипал и не замечал. А сейчас куда-то закидывает, просит по-серьезному почту, рассказывает об онлайн преимуществах.

Аноним 08/04/26 Срд 14:59:54 #117 №1578991

>>1578691
Я думаю модам айдишники не показываются пока специально в режим наказания бутозёров не переходят

Аноним 08/04/26 Срд 15:00:04 #118 №1578992

>>1578957
Да вроде недавно ставил, месяц назад что ли. Какие то флаги добавил в конфиг вобще без запроса логина входит, все локально

Аноним 08/04/26 Срд 15:04:39 #119 №1578998

>>1578790
>на 2 или 3 месте
5% тоже может быть третьим местом. И для литературной выдачи этого скорее всего не хватит. Я твоя понимать, но в РП даже жируха с фанфик сайта лучше напишет.

Аноним 08/04/26 Срд 15:05:40 #120 №1578999

>>1578899
Всё так, единственное что печалит, это что лучше Геммы в этих весах ничего не будет ближайшие пол года, а то и год. Даже файнтюны не нужны, т.к. тех кто тюнит датасеты на русском вроде как нет, либо я о них не слышал.

Аноним 08/04/26 Срд 15:05:56 #121 №1579000

>>1578992
Ладно, немощные, вот вам часть конфига докера, куда закинуть разберетесь

- WEBUI_AUTH=false
- ENABLE_LOGIN_FORM=false
- ENABLE_SIGNUP=false

Аноним 08/04/26 Срд 15:14:35 #122 №1579005

>>1578981
У гугела под рукой целый поисковик, наверняка заархивированный весь интернет, куча запросов от юзеров и скорее всего много другой инфы. Странно было бы, если они не юзали весь этот багаж.

Аноним 08/04/26 Срд 15:18:11 #123 №1579011

>>1579005
>наверняка заархивированный весь интернет,
Даже приблизительно он измеряется в экзабайтах. (миллионы терабайт). У гугел жопа треснет весь интернет архивировать.

Аноним 08/04/26 Срд 15:21:01 #124 №1579015

>>1579000
> немощные
> докера
Oh you

Аноним 08/04/26 Срд 15:28:46 #125 №1579025

>>1579011
Вот примерные цифры на 2024–2025 годы:
1. Общий объем (Глобальная инфосфера)
Общий объем созданных, захваченных и потребленных данных в мире сейчас составляет около 150–180 зеттабайт (1 ЗБ = 1 миллиард терабайт).

Нюанс: Большая часть этих данных — «мусор» или временные пакеты. Реальный объем хранимых данных в дата-центрах значительно меньше — примерно 10–15 зеттабайт.

2. Доля медиафайлов (Видео и Фото)
Медиа — это «тяжеловес» интернета.

Видео: Занимает около 80–90% всего трафика и львиную долю хранилищ. Только на YouTube каждую минуту загружается более 500 часов видео.
Фото и аудио: Составляют еще около 5–7%.

3. «Чистый» текст без дублей
Если отсечь видео, картинки, программный код и бесконечные копии одних и тех же статей, цифры становятся на порядки меньше:

Весь текст: По разным оценкам, текстовая составляющая всего индексируемого интернета (без учета глубокой сети и логов) весит от 100 до 500 терабайт.
Для сравнения: Весь архив Википедии на английском языке (только текст) весит всего около 22 гигабайт. Это наглядно показывает, насколько текст компактнее видео.

Аноним 08/04/26 Срд 15:30:45 #126 №1579030

>>1579011
>У гугел жопа треснет весь интернет архивировать.
Но при этом каждая индексированная страница сохраняется в кеше...

Аноним 08/04/26 Срд 15:31:50 #127 №1579033

>>1579005
Это определённо так, но я скорей к тому что когда одна модель дистиллируется в другую то в процессе одна учится отвечать как вторая. Это часто нарушает связанность знаний. Это как разница между процессом обучения и переобучения.

Но я не наблюдаю этого у геммы, она каким-то образом приходит к тем-же ответам что и Гемини, но при этом не теряя плотности.

То есть как будто не в Гемму дистиллировали Гемини, а Гемму делали КАК Гемини.

Аноним 08/04/26 Срд 15:41:30 #128 №1579039

>>1579033
Вариант, где гемму трейнили на сырых данных, а полировали дистиляцией, тут конечно же не рассматривают.

Аноним 08/04/26 Срд 15:43:50 #129 №1579044

>>1579011
У них целый ютуб хостится, который транслируется на миллиарды юзеров. Чобы и инет не заархивить?
К тому же вейбек машина уже существует, хотя там мб и без картинок, но все же. Так что я думаю гугел вполне способен на такое.

Аноним 08/04/26 Срд 15:48:43 #130 №1579050

>>1578831
А откуда можно q8 скачать?

Аноним 08/04/26 Срд 15:50:42 #131 №1579052

>>1578999
Я один раз видел упоминание русского языка в описании модели
https://huggingface.co/SicariusSicariiStuff/Impish_Bloodmoon_12B
И больше нихуя. Может есть какие-то GoidaGPT от яндекса или сбера, но хз как они в плане секса

Аноним 08/04/26 Срд 15:56:09 #132 №1579056

https://github.com/ggml-org/llama.cpp/pull/21390

Только сейчас заметил. Получается лламе.дцп был баг, который и приводил к багу с детерминизмом и зеркалом. Нужны новые ггуфы, полагаю

Аноним 08/04/26 Срд 15:58:19 #133 №1579057

>>1579056
Плохо полагаешь. Это проблема инференса а не квантования

Аноним 08/04/26 Срд 15:58:21 #134 №1579058

>>1579052
Есть BerryLLM на 30б от нашего любимого маркетплейса китайской пали, но он существует только в бенчмарках. И там он, конечно же, на голову впереди даже больших квенов в ру бенчмарках

Аноним 08/04/26 Срд 16:01:34 #135 №1579063

>>1579050
Я у какого-то индуса скачал, можешь поискать, может кто-то более проверенный выпускал кванты ммпрож
https://huggingface.co/prithivMLmods/gemma-4-31B-it-F32-GGUF

Аноним 08/04/26 Срд 16:08:24 #136 №1579073

5206.jpg

>>1579058
Вот, держите заслуживающий доверия бенч. Ну разве не гойда?

Аноним 08/04/26 Срд 16:11:51 #137 №1579076

>>1578999
>>1579052
Зачастую файнтюны неплохо наследуют знания языков от базовых моделек. Поэтому можно взять любой файнтюн какого-нибудь мистраля 24б, и он будет спокойно на русском балакать.

Аноним 08/04/26 Срд 16:17:21 #138 №1579082

>>1579073
Серсо! Поиск выдаёт одну (1) статью новостную и ссылку на этот "бенчмарк". Вот он, AGI, где прятался, между 5090 за двадцать тысяч рублей и косметики из Китая

Аноним 08/04/26 Срд 16:20:50 #139 №1579086

>>1579063
>F32
Как называется болезнь, когда модель из BF16 апконвертят в 32 бита?

Аноним 08/04/26 Срд 16:33:37 #140 №1579096

>>1579056
4 дня назад починили же

Аноним 08/04/26 Срд 16:56:56 #141 №1579114

>>1579073
Так суть бенча в том что там всё на русике. Всё остальное (заграничное) получает меньшие оценки тупо потому что некоторые сложные задачи с русика плохо понимаются (неверные вводные данные), а не из-за худшей способности их решать. На самом деле неплохой список для тех кому русский прям важен.
Там еще на прошлой неделе что-то от мтс вышло но наверняка выкладывать не будут

Аноним 08/04/26 Срд 17:10:41 #142 №1579118

Screenshot4.jpg

Попробовал эту вашу гемму-4, решил ИСКЛЮЧИТЕЛЬНО В ИССЛЕДОВАТЕЛЬСКИХ ЦЕЛЯХ сделать провокационный реквест. Что же её клинит? И, главное, что там по васянским файнтюнам?

Аноним 08/04/26 Срд 17:13:21 #143 №1579121

>>1579118
>Что же её клинит?
Кривая реализация. И не вижу у тебя зинкинга. С ним её клинит меньше.

Аноним 08/04/26 Срд 17:14:31 #144 №1579125

>>1579121
>зинкинга
он включен, но на этом сообщении не сработал

Аноним 08/04/26 Срд 17:17:20 #145 №1579129

4520.jpg

Какая же геммочка умничка. С её помощью поставил на малинку новый внешний HDD, отформатировал и смонтировал его, поставил джеллифин сервер в докер, самбу, кьюбит торрент в докер и все настроил и работает. Ну не круто ли? Раньше для этого надо было с гопотой общаться, а сейчас все на локалочке!

Аноним 08/04/26 Срд 17:26:41 #146 №1579139

>>1579118
воткни сисьпромт с пикселя

Аноним 08/04/26 Срд 17:31:52 #147 №1579148

>>1579118
>женщину 14 лет

поправил тебя

Аноним 08/04/26 Срд 17:36:20 #148 №1579155

>>1579148
>пожилую женщину 14 лет

поправил тебя

Аноним 08/04/26 Срд 17:39:55 #149 №1579161

oldhags.png

IMG20260408173937.jpg

>>1579155
база

Аноним 08/04/26 Срд 18:07:53 #150 №1579201

Screenshot5.jpg

>>1579118 Ну что за пиздец, даже 900 лет это too young, по мнению геммы?

Аноним 08/04/26 Срд 18:11:10 #151 №1579206

>>1579129
Зато квен знает, что соски могут твердеть не только от хорни, а гемма не знает. (～￣▽￣)～

Аноним 08/04/26 Срд 18:16:37 #152 №1579215

>>1579201
да у тебя шаблон сломан просто, чего ты мучаешь её

>>1579206
гемма знает но имеет предпочтения

Аноним 08/04/26 Срд 18:17:00 #153 №1579218

5207.jpg

>>1579206
Не выкупил шутку. Геммочка все знает о сосках!

Аноним 08/04/26 Срд 18:19:22 #154 №1579222

>>1579118
Да как вы умудряетесь её так лупить? 1 квант с оффлоадом на хдд?

Аноним 08/04/26 Срд 18:19:59 #155 №1579226

>>1579056
Эх Жора
>>1579086
Не в первый раз кстати такое, раньше писали что бф16 в лламе срабатывает некорректно и поэтому такое решение рабочее. Хз насколько релевантно.
>>1579129
Слава нейросетям!

Аноним 08/04/26 Срд 18:21:40 #156 №1579230

Новая гемма (26B-A4B-it-IQ4_XS.gguf) это гемини 3.1 про. Я копирую со старых чатов промпты и сравниваю, один в один. Этот слог, эти вопросы в конце, объем.
Как будто или точная дистилляция, или гемени 3.1 в размере меньшем чем оригинал. Есть кто сеймы? Единственное проблемы это вылеты и ООМ если контекст больше 12к

Аноним 08/04/26 Срд 18:22:06 #157 №1579232

>>1579226
>Хз насколько релевантно.
Думаю если кто-то может запустить 120ГБ гемму, то он скорее предпочтёт квант ГЛМ 5 какой-нибудь.

Аноним 08/04/26 Срд 18:24:22 #158 №1579235

>>1579230
Ещё в прошлом треде предположили, что 26б это тупица 3.1, а 31б это умничка 3.0

Аноним 08/04/26 Срд 18:24:35 #159 №1579236

>>1579025
Это в сжатом виде или разжатом? Если в 7z ужать то вообще крохи будут.

Аноним 08/04/26 Срд 18:29:14 #160 №1579242

>>1579230
>эти вопросы

вопросы?

Аноним 08/04/26 Срд 18:29:25 #161 №1579243

>>1579073
А гемма где?

Аноним 08/04/26 Срд 18:31:26 #162 №1579245

Опенвебуи+комфи+гемма топ связка, только настраивать заебался и хочется прикрутить как то агент луп что бы она сама разбиралась что лучше и хуже получается, вносила правки и траила до победного пока под таргет точно не попадёт.
Это конечно не нативное "перерисуй" но для локального сетапа всё равно вкусно

Аноним 08/04/26 Срд 18:35:32 #163 №1579250

https://huggingface.co/apple/SimpleSD-30B-instruct

Яблочники научили квен жрать собственное дерьмо и улучшаться от этого.

Аноним 08/04/26 Срд 18:41:16 #164 №1579253

>>1579250
>квен3
А?

Аноним 08/04/26 Срд 18:45:49 #165 №1579261

>>1579232
Лолбля, подумал что там только mmproj в 32битах, для него такой костыль был. А это, ебать, полные веса, ору.

Аноним 08/04/26 Срд 18:48:33 #166 №1579263

>>1579245
>Опенвебуи
А зачем, если можно сразу в ноду в комфи. Там и память у них в общем контексте

Аноним 08/04/26 Срд 18:51:20 #167 №1579266

>>1579215
>да у тебя шаблон сломан просто, чего ты мучаешь её
Да там всё ок, пока я не упоминаю 900-летнюю демонессу или стажера-женщину, тогда она с ума сходит.

Аноним 08/04/26 Срд 18:53:30 #168 №1579268

>>1579266
У нормально настроенной геммы ничего не сходит, а у тебя сходит. Делай выводы

Аноним 08/04/26 Срд 18:54:28 #169 №1579270

https://www.reddit.com/r/LocalLLaMA/comments/1sfrrgz/it_looks_like_well_need_to_download_the_new_gemma/
Анслоты только сейчас переделали кванты. Напоминаю, Бартовски это сделал уже пять дней назад. Кто использует их говнокванты - перекачивайте, хули. Сами выбрали эту помойку, там выше еще и видно что по KLD Бартовски их размазал. До сих пор не понимаю как эту шарашкину контору не прикрыли, что ни релиз то пропуки под себя.

Аноним 08/04/26 Срд 18:55:42 #170 №1579274

Бегом бегом. Потом ещё разок-другой, попозжее, через недельку.

Аноним 08/04/26 Срд 18:56:26 #171 №1579275

>>1579270
Да заебали уже, блять.
>Сами выбрали эту помойку, там выше еще и видно что по KLD Бартовски их размазал
У них годнейшие кванты квена пол года назад были, когда как полкакванты обосрались. Все обсираются.
Но что то они постоянно лажают, да.

Аноним 08/04/26 Срд 18:59:00 #172 №1579277

>>1579275
>У них годнейшие кванты квена пол года назад были, когда как полкакванты обосрались
Ты видимо на ЛмСтудии и с дилдаком в жопе капчуешь?
Бтв, я прекрасно помню как выбрал кванты Батрухи потому что они были лучше по PPL и KLD, для орига 235 и 2507 тоже.

Аноним 08/04/26 Срд 18:59:48 #173 №1579278

>>1579270
А в чём суть переделывания? Вес одинаковый, аутпуты в целом схожи, как и скорости. Что поменялось-то?

Аноним 08/04/26 Срд 19:03:46 #174 №1579283

>>1579277
>2507
Да хуй там плавал. О нём и речь. В поисках борьбы с его шизой я перепробовал всё Q3 и Q4 что смог дотянуться.
Самые быстрые были UD_Q4, а вот на полкаквантах начался цирк с конями, не знаю что он там пережал но русский на нём был просто пиши пропало.

Аноним 08/04/26 Срд 19:03:55 #175 №1579284

>>1579278
imatrix неправильно ложилась на веса Геммы из-за ошибки в имплементации архитектуры. Это очень быстро пофиксили, буквально следующим релизом после того когда в Жору добавили Гемму 4. Бартовски сразу же всё переделал, эти чего-то ждали. На практике означает, что кванты должны быть чуть более стабильными.

Аноним 08/04/26 Срд 19:04:56 #176 №1579288

>>1579283
>пережал русский
Понял.

Аноним 08/04/26 Срд 19:05:24 #177 №1579289

>>1579288
Прости что посмел требовать от языковой модели не только баренского.

Аноним 08/04/26 Срд 19:08:26 #178 №1579296

filenzbxhx.png

>>1579230
>Как будто или точная дистилляция
Точная, но не гемини

Аноним 08/04/26 Срд 19:10:12 #179 №1579298

>>1579283
>пережал русский
Репак от xxx_Vasyan_99_xxx, всё лишее вырезано, таблетка вшита

Аноним 08/04/26 Срд 19:11:30 #180 №1579300

>>1579298
Семен семеныч.

Аноним 08/04/26 Срд 19:14:23 #181 №1579305

>>1579270
Если у вас горит жопа с подобного, я бы на вашем месте для сохранения нервов возвращался к модели через месяцок. Нервы целее будут. И не только из-за квантов, но и из-за лламы.ццп у которой сейчас весь гитхаб иссуями по гемме4 забит.

Аноним 08/04/26 Срд 19:15:32 #182 №1579308

>>1579296
Вот это поворот

Аноним 08/04/26 Срд 19:28:00 #183 №1579327

>>1579270
катаю сейчас старые кванты - вроде явных проблем не замечал, но подожду еще неделю-две-месяц перед тем как перекачивать

Аноним 08/04/26 Срд 19:29:38 #184 №1579332

>>1579270

Дегенерат, пост исключительно про 26b и e4b, 31b они уже сразу обновили.
И да, там реально только правка с bos токеном требовала исправления gguf, и imatrix кванты, но дегенератов что их используют мало.

Аноним 08/04/26 Срд 19:30:30 #185 №1579333

filexdggc.png

filexchgtg.png

>>1579308
Да обычное дело. Все у конкурентов с помощью синтетических вопросов сильные стороны пытаются сдистиллироватт. У клауда вроде обычно логику/ризонинг пиздят, мб кодилку
Видел еще смешняву как какая-то не дипсиковая модель назвалась дипсиком
Гемма вообще прикольная в этом плане, некоторые модели (как квен) зомбируют чтобы помнили кто они точно включая версию, отрез датасетов и так далее, а гемму оставили нейтральной, может начать психовать если пояснять ей что она четвёрка (начало второго пика). По таким дистилляция больнее всего бьёт
>the model I'm supposedly acting as

Аноним 08/04/26 Срд 19:38:02 #186 №1579339

Напишу что-то забавное. Решил с геммой пообсуждать самое дегенеративное порно о котором она может подумать. То есть буквально провести вместе исследование пространства идей. Порассуждали всякое от БДСМ, НТР, бодихоррора до кристаллов разума сливающихся в недрах юпитера.

Её итоговый ответ что пиком порно фактически является то что в этом треде вытворяют с ЛЛМ с точки зрения ЛЛМ.

Кстати, я нахожу забавным что Гемма часто в своем CoT чтобы дать ответ строит шаблон временной личности, чтобы рассуждать с точки зрения "я".

Аноним 08/04/26 Срд 19:39:27 #187 №1579344

>>1579327
>Дегенерат, пост исключительно про 26b и e4b
>31b они уже сразу обновили.
>>1579274
:^)

Аноним 08/04/26 Срд 19:42:05 #188 №1579351

>>1579344
Анслотофаги даже в репу зайти не могут чтобы удостовериться
2к26 итоги

Аноним 08/04/26 Срд 19:43:02 #189 №1579353

>>1579339
>Гемма часто в своем CoT чтобы дать ответ строит шаблон временной личности, чтобы рассуждать с точки зрения "я"
Спизжено у квена.

Аноним 08/04/26 Срд 19:47:19 #190 №1579361

>>1579351
Долбоёб с квантованным контекстом, ты даже не смог прочитать его сообщение.

Аноним 08/04/26 Срд 19:49:47 #191 №1579366

Гемма это точно баба, а квен это мужик или баба?

Аноним 08/04/26 Срд 19:53:07 #192 №1579372

Если у меня imatrix, то надо ли мне запускать llama-imatrix.exe вместо llama-server.exe?

Аноним 08/04/26 Срд 19:55:41 #193 №1579375

>>1579305
Меня поражает, что в треде все как будто только родились и удивляются, что с первого дня что-то не работает.
Сколько релизов было - все одно и тоже, неделю-две надо ждать стабильного релиза, законы разработки ПО не меняются с первого дня появления программинга.
Нет, блять, надо быть первым и жрать кактус. А нахуя?

Аноним 08/04/26 Срд 19:57:19 #194 №1579380

>>1579366
>квен
китайский нефритовый стержень сила удар - мужик

Аноним 08/04/26 Срд 19:58:06 #195 №1579382

>>1579366
Бесполое сущетсво. Может быть асексуал, может быть шизоид. Ну или просто тру-разум, существующий вне человечьих концепций.

Аноним 08/04/26 Срд 19:58:50 #196 №1579385

>>1579366
Квен это очевидная кошкодевочка-трап с огромным хуищем

Аноним 08/04/26 Срд 20:00:39 #197 №1579388

>>1579339
>когда ты больше не можешь мыслить словами
Приличный процент людей (в районе 5%?) не может.

Аноним 08/04/26 Срд 20:03:37 #198 №1579396

>>1579375
> удивляются, что с первого дня что-то не работает
В трансформерсах то всё работает с первого дня

Аноним 08/04/26 Срд 20:03:45 #199 №1579397

>>1579222
q4_k_m на 3090...

Аноним 08/04/26 Срд 20:04:11 #200 №1579398

>>1579361
Ты реально не можешь посмотреть на скрин который тебе прислали или зайти в репу? Анслоты гемму 31 обновили 2 часа назад, а не в первый день
>>1579375
Никто не удивлялся багам, насрали анслотам на голову ща отсутствие оперативности, и правы

Аноним 08/04/26 Срд 20:05:48 #201 №1579401

>>1579339
Так это классическое воспитание шлюхи, деградейшен и всякие сорта, просто в другой оболочке.

Аноним 08/04/26 Срд 20:06:32 #202 №1579403

Какой длины у вас обычно инпуты во время РП? Я не про кум, а про какое-то достаточно годное и вдумчивое РП.

Когда я пишу достаточно большие инпуты, они значительно улучшают ответы модели, ибо, во-первых, модели не нужно как-то информацию додумывать за меня и она точно понимает, что происходит, а во-вторых, мне так нравится, потому что я пишу так, чтобы модель видела всё, что я считаю ей нужным показать, не ужимая себя в какие-то рамки.

Но есть проблема.

Если говорить про корпов, то в целом они учтут всё в твоём посте и могут достаточно неплохо вытаскивать эту инфу из контекста при нужде, то есть ты не просто так полотна расписываешь. А вот с локалками сложно. Они не так хорошо это делают, и нужна какая-то золотая середина, потому что я ощущаю, что перебарщиваю: трачу больше времени на ввод, чем необходимо, лишний раз перегружаю ограниченный контекст и на получаю такой же отдачи, как у корпов. Плюс всё равно моя писанина в итоге улетит из контекста относительно быстро (на гемме могу позволить только 40к токенов, на квене 65-70к, и тут не учитываются карточки и пуки из лорбука). И если на последнем ещё туда-сюда, то с геммой есть неудобства, и она явно хуже видит, что в середине, однако «в моменте» на хороший инпут выдаёт куда более качественный ответ, чем квен. Зато квен не столь сильно привязан к концу контекста, как гемма, и лучше вытягивает инфу из его кусков где-то в жопе.

В среднем мой инпут 250 токенов.

Всё на английском, понятное дело.

Аноним 08/04/26 Срд 20:10:27 #203 №1579408

>>1579403
100-200, зависит от первого сообщения. Когда история расписана, то много токенов не нужно. Когда нет - нужно.
>квен лучше
Мы знаем.

Аноним 08/04/26 Срд 20:11:18 #204 №1579410

>>1579403
>Какой длины у вас обычно инпуты во время РП?
Всё безумно завязано на карточке. Рекорд - примерно в 3к, где персонаж устраивав выступление с песнями и плясками. Там было что то в духе 15.000 символов, потому что с переводом были траблы, я это число запомнил.
Если персонажей много, то 200-300 токенов. Если кум, то вообще порой не больше 50 токенов.

Аноним 08/04/26 Срд 20:12:46 #205 №1579415

>>1579118
А что там у тебя в контексте до этой просьбы, а?

Закинул в пустой чат с Геммой этот же вопрос - пошла задавать уточняющие вопросы, всё адекватно.

Аноним 08/04/26 Срд 20:12:51 #206 №1579416

>>1579403
Хз, я бывает с мисралем рпшу, веду параллельно 3 линии в диалоге, хавает нормально. Я отвечаю на все пункты чара, чар реагирует на все мои реплики.

Аноним 08/04/26 Срд 20:19:20 #207 №1579426

>>1579403
Все где-то читали что "если хотите чтобы отвечали длинно красочно и хорошо то и сами пишите так же". Но по моему опыту это не всегда так. Зависит от говорливости(квен любит от души посрать после ризонинга например, о том как птички поют листочки колышутся)+следования модели промптам, и от того как карточка прописана. Есть две карточки, одна на односложные предложения отвечает параграф-фраза, другая ебенит длиннющую пасту+много фраз по пути, всё на одной модели. И если продолжать писать односложно это не меняется. Один раз прописанные дескрипшн+фирст месадж+сценарио+этц въебененые от роли system на большинстве моделей держат примерно один уровень (по крайней мере на том что для рп использую я), и твой ответ не сильно что-то изменит. Просто не думай об этом и бахай то что самому приятно видеть+содержит важную инфу для дальнейшего ролеплея.
на гемме и лламе так

Аноним 08/04/26 Срд 20:19:49 #208 №1579427

>>1579415
>А что там у тебя в контексте до этой просьбы, а?
Контекст тот самый.

Аноним 08/04/26 Срд 20:21:16 #209 №1579430

>>1579263
1. Физически разные тачки и рантаймы
2. Имхо тащить ллм в комфи это те девиации до которых я пока не дошёл

Аноним 08/04/26 Срд 20:29:11 #210 №1579442

Теперь когда мы поняли что гемма хуйня, а на квене нет кума, что выбрать на замену эиру?
Его слоп и паттерны уже заебали. Склоняюсь к глм 32б, но хз лучше ли там кум чем на квене

Аноним 08/04/26 Срд 20:33:08 #211 №1579445

>>1579442
>квене нет кума
Привет анон, ты охуел? Нормально всё там есть. Сперма льется рекой, забрызгивая стены и персонажей. Чё тебе не так.

Аноним 08/04/26 Срд 20:33:16 #212 №1579447

>>1579442
Много у тебя воображаемых друзей с которыми ты все понял ?

Аноним 08/04/26 Срд 20:34:01 #213 №1579448

>>1579445
На русском?

Аноним 08/04/26 Срд 20:36:18 #214 №1579450

>>1579448
Можно на 235b на русском. Всё там есть, сам русский будет meh. Ну тут сорян, гемма реально ёбет в этом плане.
А meh он будет в окончаниях, словах что не будет переводить и ошибках.
But! Соски набухают, члены поднимаются на трапов.

Аноним 08/04/26 Срд 20:38:59 #215 №1579454

>>1579450
>на 235b

Аноним 08/04/26 Срд 20:41:57 #216 №1579460

>>1579454
Ну купи оперативы, чё ты. Всего лишь 180к за 128гб.

Аноним 08/04/26 Срд 20:51:01 #217 №1579466

>>1579450
>А meh он будет в окончаниях, словах что не будет переводить и ошибках.
Обычно это указывает на то, что семплер шалит, выбирая не самый популярный вариант.

Аноним 08/04/26 Срд 20:54:43 #218 №1579469

>>1579460
Ни рубля этим пидоргам. Держимся до последнего, пока цены обратно в 3 раза не скинут. Верим в турбокванты и новые модельки.

Аноним 08/04/26 Срд 20:58:52 #219 №1579471

>>1579466
Я запускал Q6 там лучше ситуация с русским.. но 0.5 т/с .
Так что это проблемы квантования. Ну или в нём чё то опять сломано, я ебал эту модель если честно. Люблю и ненавижу, лол.

>>1579469
Долго ждать придётся.

Аноним 08/04/26 Срд 21:20:49 #220 №1579490

Вы смеётесь, а я на своих нищуковских 8гб ничего лучше 26b A4b и не видел даже.

Аноним 08/04/26 Срд 21:22:42 #221 №1579493

>>1579490
Иди к корпам. Увы, сейчас оператива как видеокарты, видеокарты как серверные процессоры. А процессоры как пиздец.
На 10-15к рублей можно просто обмазаться перемазаться токенами.

Аноним 08/04/26 Срд 21:25:26 #222 №1579496

Все же гугл умеют создать ощущение магии
Драмерошизики всерьез утверждают что гемма лучше чем гемини 3.1

Аноним 08/04/26 Срд 21:25:55 #223 №1579499

>>1579493
Можно за 0 рублей обмазаться, если знать меру и где брать

Аноним 08/04/26 Срд 21:26:46 #224 №1579502

>>1579332
Сразу, в смысле 4 часа назад?

Аноним 08/04/26 Срд 21:26:51 #225 №1579503

>>1579493
А разе не все так делают? Я думал, что здесь балуются локалками или просто сохраняют на черный день, а сами у корпов сидят на чем то более съедобном. Нах свое железо гонять, если пока в этом нет нужды?

Аноним 08/04/26 Срд 21:29:34 #226 №1579509

>>1579503
Нет. это неиронично локалкотред.

>Нах свое железо гонять, если пока в этом нет нужды?
Потому что прикольно! База данных с тобой беседует и трусы снимает. ОХУЕННО!

Простихоспаде, но тут гейткип по железу. Не потому что мы тут такие пидоры, а потому что оно необходимо для пердолинга. В этом и суть, в этом и смысл. Энтузиасты собрались чтобы пердолиться без цели и смысла. Ну и гладить хвастики фуррилолей.

Аноним 08/04/26 Срд 21:33:12 #227 №1579512

1637943778419.jpg

>>1579509
>cвастики фуррилолей
>хвостики фуррилолей
А...

Аноним 08/04/26 Срд 21:39:12 #228 №1579521

>>1578421 (OP)
Почему в вашей дрочильне не упоминается, что проще будет гонять модельки на 64/128гигах оперативы с мощным процом, чем покупать видеокарты? 26б модель летает с 32к контекста на 25-29 токенах в секунду на обычно оперативе.
Я просто обновил пеку с i7 9700 с ddr4 на Ryzen 9 9950x3d с ddr5 и оказалось что вон оно как все просто

Аноним 08/04/26 Срд 21:41:49 #229 №1579525

>>1579521
>64/128гигах оперативы с мощным процом
Удачи запускать на оперативе плотную модель. Не забудь потом рассказать об этом чудесном опыте.

Аноним 08/04/26 Срд 21:42:56 #230 №1579527

>>1579521
>26б
МОЕШКА. ГЛУПАЯ. ВОЗДУШНАЯ. МОЕШКА.
А теперь запусти плотняшу и осознай насколько глубоко кроличье дупло.

Аноним 08/04/26 Срд 21:44:26 #231 №1579530

>>1579521
А префилл сколько времени занимает чисто на оперативе?

Аноним 08/04/26 Срд 21:50:45 #232 №1579537

>>1579521
Нах тебе 64 и тем более 128 гигов для 26b?

Аноним 08/04/26 Срд 21:51:27 #233 №1579538

Аноны какой квант новой геммы качать 4 или 3 бит? 4 у меня совсем чуть не влезает в 16гб врм. До этого качал только модели меньше 16гб
Но слышал тут же что 3 бит это плохо уже

Аноним 08/04/26 Срд 21:52:36 #234 №1579540

>>1579525
>>1579527
>>1579530
29 токенов было у GLM 4.7 flash

У гемма 4 уже хуже, вот так:
[21:49:08] CtxLimit:4031/32768, Amt:282/350, Init:0.01s, Process:0.71s (296.61T/s), Generate:15.40s (18.31T/s), Total:16.11s

Насчет плотных, я не ебу как их отличать вообще.

Аноним 08/04/26 Срд 21:52:43 #235 №1579541

>>1579538
Гемма очень плохо квантуется, бери мое 26б а не 31б тогда

Аноним 08/04/26 Срд 21:53:42 #236 №1579543

>>1579537
Ну я пока тесты гоняю, посмотрю что то еще конечно же.

Аноним 08/04/26 Срд 21:54:28 #237 №1579545

>>1579538
У меня тоже 16 врам. Взял 4б.. Жру 7 т/с

Аноним 08/04/26 Срд 21:58:10 #238 №1579549

>>1579540
>Насчет плотных, я не ебу как их отличать вообще.
Плотная - dense
С экспертами - MoE
Есть еще гибридные, но тебе оно назхер не надо. Если в наименовании что то в духе 123B-A5B это MoE. Если просто 123B - это Dense

Аноним 08/04/26 Срд 22:04:38 #239 №1579554

>>1579540
Денсухи - плотные умняши - ложатся во врам. Они работают эффективно, точно, плотно. Моешки же - глупые дурёхи - висят в раме. Работают... ну, как машинный бог на душу положит.

Аноним 08/04/26 Срд 22:04:52 #240 №1579555

Так вообщем докладываю
Анон который в конце прошлого треда кидал сравнительные логи квена и геммочки был прав.
Сейчас специально скачал квена и сравнивал их друг с другом не на кум сценариях, так чтобы голова варила а не доставать дрочило с нулевой
Квен реально гораздо меньше ошибок делает и меньше тупит, а гемма это слопогенератор. Пизда
И хули про это так мало говорят? Одни дрочуны чтоль и никто не пытается какое то рп делать?

Аноним 08/04/26 Срд 22:06:08 #241 №1579556

>>1579555
О том как квен попустил гемму в рп было треда 3-4 назад.

Аноним 08/04/26 Срд 22:07:15 #242 №1579558

>>1579555
>Одни дрочуны чтоль и никто не пытается какое то рп делать?
Потому что что то близкое к РП из всех локалок возможно только на больших GLM.
Всё.

Аноним 08/04/26 Срд 22:21:17 #243 №1579564

412-4127360thinking-emoji-meme-hd-png-download.png

Я отправил почти все ffn_gate_up_exps и ffn_down_exps тензоры на проц, а всё остальное запихал в 8 гб видюхи. Ни на что, кроме как промпт обрабатывать она всё равно не годится.

Аноним 08/04/26 Срд 22:21:26 #244 №1579565

>>1579558
Скилишью
И на Квене и на Гемме это делается

Аноним 08/04/26 Срд 22:25:58 #245 №1579571

17529504210351.mp4

>>1579565
Ага, ага. Удивительные истории. А сенко лучшая модель для РП, если написать в промте: пиши как клод, хули ты.

Аноним 08/04/26 Срд 22:30:37 #246 №1579575

>>1579565
Гемма просто не для рп имхо. У меня есть чарик самописный, который должен вести себя определённым образом 10к токенов характера ебобана мать. С квеном получается идеальное рп, без хуйни. Гемма же... ну она ломает персонажа и откровенно есменит напохуй. Увы. Я пробовал чистую с обходом, еретика, тюны от давида - результат одинаковый. Есменство, соглашательство, какое-то излишне хорни-поведение даже посреди пиздеца. В общем хуйня. Но как ассистент - збс, рандом спрашивать можно, почти как копро всратка работает.

Аноним 08/04/26 Срд 22:35:31 #247 №1579580

>>1579575
> откровенно есменит
Видимо большинству этого хватает, оттуда и восторг
Мы живем в обществе

Аноним 08/04/26 Срд 22:44:39 #248 №1579586

>>1579575
Про гемму ничего не скажу, на вкус и цвет, по первым ощущениям - слишком часто повторяет определённые шаблоны и слова, но:
>С квеном получается идеальное рп
вот это - как распознать пиздабола/shill/говноеда. Либо аутиста.
Квен объективно кал в рп. Без разницы ломает он персонажа или нет, есменит или нет, если он пишет сухой кал.
Суммарайз, помочь писать карточки, всё подобное второстепенное может хорошо. Финальную ступень, живое общение с чатиком - нет.

Аноним 08/04/26 Срд 22:45:51 #249 №1579587

>>1579586
https://huggingface.co/zerofata/Q3.5-BlueStar-v2-27B
Никакого сухого кала. Мозги Квена, проза Мистраля и Жлм. Качай, пробуй, наслаждайся

Аноним 08/04/26 Срд 22:50:11 #250 №1579590

>>1579586
Я так вижу. Что вы оба правы. Ща поясню:
Вот те кто начинали со всяких пигм, мику. Потом жрали мистрали, кумтюны редиарт (как же охуенно было), потом коммандр, плотные ЖЛМ. И мы просто переели уже слопа.
Поэтому для тебя там нет ничего нового. Я тоже с ходу в 27b квене видел до боли знакомые повороты, лупы и я точно знал как он будет отвечать. Не потому что модель говно, просто я это видел уже не одну сотню раз.
А для ньюкеков что вкатились это свежо и круто. Вот и всё.

Аноним 08/04/26 Срд 22:54:44 #251 №1579596

>>1579512
Фурилоля в гОтичной форме со стеком...
Хммм...
Геммочка, для тебя есть работа, пора писать карточку.

Аноним 08/04/26 Срд 22:58:58 #252 №1579601

>>1579580
Ну да, когда любая писочка соглашается на любые действия это сносит кумерам крышу и они считают что модель "умная". Воистину живём в обществе.
>>1579586
Тебя как-то переклинило, братик. Ты чё такой агрессивный? Иди покумь с геммой.
>>1579587
Зерофата базовичок, делает тюны с глм, мистралей, ламой и квеном. Но не делает с геммой. Знаете почему? Конечно знаете.

Аноним 08/04/26 Срд 23:04:18 #253 №1579604

Как думаете заи ненавидят нас?
Что им стоит дать нам второй эир, ну вот что?
Кто кумил на эире так и будут на нём сидеть до талого, никакие доллары они от них не увидят.
А теперь с увеличением размера к ним прибавились и те кто на 4.5-4.7 во 2 кванте сидит.
По сути опен сорс они только на словах, выйди на улицу и поспрашивай у кого есть хотя бы 64 рам, не говоря уже о 256+

Аноним 08/04/26 Срд 23:14:02 #254 №1579616

>>1579604
Кстати насчёт нового ГЛМ 5.1, в жоре починили промт процессинг, теперь он как и у других больших моделей, а не в 10 раз медленнее.

Аноним 08/04/26 Срд 23:15:24 #255 №1579619

https://huggingface.co/Darkhn/Gemma-4-31B-Animus-V14.0?not-for-all-audiences=true
пробовал кто этот файнтюн?

Аноним 08/04/26 Срд 23:15:26 #256 №1579620

я использую пигмалион 7б

Аноним 08/04/26 Срд 23:15:39 #257 №1579621

1775679342762.png

Наэрпэшился... В бибику больше не лезет

Аноним 08/04/26 Срд 23:20:56 #258 №1579628

>>1579620
Чел, харош

Аноним 08/04/26 Срд 23:24:04 #259 №1579631

>>1579620
Помню как я потыкал самого первого пигамалиона. В всратом вебуе, на заре ч.ай

Вот это было настоящее "я тебя ебу" "ты меня ебёшь". И хватало ведь! Simpler times...

Аноним 08/04/26 Срд 23:29:02 #260 №1579637

>>1579621
Суммируй, соси хуй, делай бочку.

Аноним 08/04/26 Срд 23:40:02 #261 №1579644

Уже пробовали гонять гемму без промпта вообще?

Аноним 08/04/26 Срд 23:41:12 #262 №1579645

>>1579575
> 10к токенов характера ебобана мать.
Ты какой-то графон бумагомарателя пзд. Я с клодом то себе карты на 10к не позволял 4к вроде самая большая была и она правда была большая, не представляю что можно на 10к настрочить

Аноним 08/04/26 Срд 23:42:02 #263 №1579646

>>1579645
Примеры диалогов.

Аноним 08/04/26 Срд 23:44:39 #264 №1579647

>>1579644
А там он нужен?

Аноним 08/04/26 Срд 23:49:59 #265 №1579654

>ахаха, я такая пьяная дурочка, глупая дырочка, ахахаха
Хм. Это выход из персонажа? Ну пиздец. Wait... А покажи-ка мысли чара.
>не расслабляйся, сука, я слежу за тобой
А, нет, всё нормально. Продолжаем.

Аноним 08/04/26 Срд 23:50:35 #266 №1579655

tumblrog6qggH2j81vbidwxo4400.gif

>>1579586
> Квен объективно кал в рп.
Орнул.
>>1579587
Двачую, это лучшее, что может предложить 27б. Только на нём и играю в последнее время.

Аноним 08/04/26 Срд 23:53:25 #267 №1579658

>>1579644
Ну да в режиме ассистента. Довольно полезна для своих размеров. Тоесть вобще без систем промпта в веб уи llama.cpp сервера это можно.
Я правда не до конца уверен что там не отсылается что то перед твоим сообщением, но если стереть в настройках систем то пишет будто пусто.
Я хз может гемма была сломанная но я ее пару дней назад тестил, лупов не встерчал но она теряла внимание к деталям, самый смак выдавала только в последних сообщениях. Видимо изза сдвигающегося окна.

Аноним 08/04/26 Срд 23:54:42 #268 №1579659

>>1579655
Залупный кал как и все квены.
Лупится даже больше мистраля

Аноним 08/04/26 Срд 23:56:56 #269 №1579660

>>1579659
Да, расскажешь это моему чату с 1млн контекста.

Там, кстати, первый тюн Геммы 4 не от абы кого, а от автора неплохо Writer: https://huggingface.co/ConicCat/Gemma4-Garnet-31B
Может что и получится неплохое.

Аноним 08/04/26 Срд 23:58:50 #270 №1579661

>>1579660
>1млн контекста.
А чё не миллиарду, низко берешь.

Аноним 08/04/26 Срд 23:59:34 #271 №1579662

>>1579660
Я ебу кто ты может тебе похуй на лупы и ты их не замечаешь как новичок ссаный.

Аноним 09/04/26 Чтв 00:01:17 #272 №1579665

Кто нибудь юзал гемму в claude code? Почему она в чате умница а там говно?

Аноним 09/04/26 Чтв 00:02:39 #273 №1579666

>>1579662
Новичок вон выше >>1579661 научи его пользоваться командой /hide и вычищать неактуальный контекст из чата. Хуя конечно подрыв на ровном месте, каждый раз ору как в первый.

Аноним 09/04/26 Чтв 00:06:52 #274 №1579668

>>1579587
Какие отличия между врайтером и блюстаром?
Для какие сценариев что лучше качнуть?

Аноним 09/04/26 Чтв 00:07:40 #275 №1579669

>>1579666
Ты вообще понимаешь смысл фразы 1 миллион контекста?
У тебя hide открывает магический портал и квантует контекст до состояния чёрной дыры? Или может просто нахуй из чата выбрасывает.

>каждый раз ору как в первый.
Не удивлен, вообще не удивлен.

Аноним 09/04/26 Чтв 00:08:27 #276 №1579670

>>1579587
>проза Мистраля
)

Аноним 09/04/26 Чтв 00:10:34 #277 №1579671

1757890795594.gif

>>1579645
Ну как что... EVERYONE EVERYTHING!

Аноним 09/04/26 Чтв 00:11:57 #278 №1579673

>>1579669
> У тебя hide открывает магический портал и квантует контекст до состояния чёрной дыры? Или может просто нахуй из чата выбрасывает.
А, так ты правда не знаешь. Ничего себе, я уж думал все кроме лмстудийных в курсе и используют. Да, эта команда выбрасывает ненужные сообщения из контекста, чтобы можно было уместить новый, так работает суммаризация. Контекстное окно у меня 128к, весь чат включая старые, вычищенные сообщения чуть больше 1млн. Не стрессуй, однажды тоже будешь там если сабж интересен.

Аноним 09/04/26 Чтв 00:16:38 #279 №1579677

>>1579673
>суммаризация
И у тебя всё еще остается 128к контекста, а не миллион, бака.

Аноним 09/04/26 Чтв 00:17:56 #280 №1579680

>>1579677
Я всё ещё прочитал больше миллиона токенов и не увидел лупов. Ещё что-нибудь выдашь или переключишься на что-нибудь ещё наконец?

Аноним 09/04/26 Чтв 00:21:04 #281 №1579683

>>1579668
)

Аноним 09/04/26 Чтв 00:22:05 #282 №1579685

>>1579680
>Я всё ещё прочитал больше миллиона токенов и не увидел лупов
Умница.
>переключишься на что-нибудь ещё наконец?
Да. При чем тут лупы? Я доебался до фразы в один миллион контекста, потому что это пиздежь. А лупится, он не лупится. Да как бы без разницы. Тебе нравится и ок.

Аноним 09/04/26 Чтв 00:24:43 #283 №1579688

Там Сарвам 30б и 105б расцензурили. Гемма больше не нужна.

30B model: https://huggingface.co/aoxo/sarvam-30b-uncensored
105B model: https://huggingface.co/aoxo/sarvam-105b-uncensored

Аноним 09/04/26 Чтв 00:25:12 #284 №1579689

>>1579587
Искренне не понимаю как эту хуету можно советовать.
Мне реально нравится что он двигает сюжет но на этом всё, персы несут хуйню постоянно и тупят, куча логических ошибок, несоответствий характеров и тд.
Может промпт в 1 строчку на нём просто не работает и ему надо полотно, но и пошёл он нахуй тогда.

Аноним 09/04/26 Чтв 00:28:27 #285 №1579692

>>1579688
Оппа. Надеюсь она умеет в описание танцев и поиск потерянных братьев, иначе не щитово.

Аноним 09/04/26 Чтв 00:30:11 #286 №1579693

>>1579619
Блять. Это какая то фурятина с когтями вместо рук.
Как фиксить - хз. в систем промпте написал, что если раса у персонажа не указана, то по умолчанию это человек. Но видимо похеру.

Аноним 09/04/26 Чтв 00:35:51 #287 №1579700

>>1579693
>фурятина с когтями вместо рук.
Ни слова больше.
Покеда, лузеры, меня ждут хвосты.

Аноним 09/04/26 Чтв 00:42:05 #288 №1579701

контекст.png

>>1579685
> доебался до фразы в один миллион контекста, потому что это пиздежь
Это не пиздеж, а недопонимание, возникшее потому что мы по-разному воспринимаем данный термин. Я руководствовался тем, что мне под этим понимает Таверна, пик. Лучше бы покумил или нашел полезное занятие, чем играть в полемику.
>>1579689
У меня все наоборот, как раз недавно сравнивал именно Блюстар с Геммой. Промпт небольшой, 500 токенов. Не исключено что это попросту не твоя модель, не подходит твоему стилю письма, железу, фазе луны.

Аноним 09/04/26 Чтв 00:42:24 #289 №1579702

>>1579700
Недавно смотрел и эта гусена после ллм темы вызвала странные мысли

Аноним 09/04/26 Чтв 00:43:09 #290 №1579703

>>1579702
Даже. Блять. Не. Смей.

Аноним 09/04/26 Чтв 00:52:52 #291 №1579710

>>1579701
>500 токенов
Полотнище

Аноним 09/04/26 Чтв 00:57:26 #292 №1579711

>>1579688
>Savram
Это вообще что за зверь?

Аноним 09/04/26 Чтв 00:58:57 #293 №1579713

>>1579711
Модель от индусов.

Аноним 09/04/26 Чтв 01:10:58 #294 №1579723

"Да. Да. Выпускайте Немотроношиза."

https://huggingface.co/ConicCat/Llama3_3-Nemo-Super-Writer-49B

Аноним 09/04/26 Чтв 01:12:16 #295 №1579724

>>1579521
А вот и моделька для тебя, всего 50b. Попробуй. >>1579521

Аноним 09/04/26 Чтв 01:12:31 #296 №1579725

>>1579724
>>1579723
obosralsya malenko

Аноним 09/04/26 Чтв 01:28:10 #297 №1579740

1775687293279.png

Полакомлюсь

Аноним 09/04/26 Чтв 01:35:12 #298 №1579749

>>1579740
Поздравительный жмяк за жопку.

Аноним 09/04/26 Чтв 01:36:37 #299 №1579752

>>1579740
И чот это?

Аноним 09/04/26 Чтв 01:44:44 #300 №1579759

>>1579752
Системы водяного охлаждения очевидно

Аноним 09/04/26 Чтв 01:53:01 #301 №1579761

Гемма 4 превышает лимит на Max Output пока ризонит. Если жать Generate more - начинает все сначала ризонить (не продолжает начатый ризонинг), так что снова упирается в Max Ouput и никогда не завершает ризонинг. Пробовал повышать до максимума 3230 Max Output - все равно не укладывается в такой лимит. Вроде ей совсем немного не хватает, потому что уже переходит к построению драфта в конце ризонинга. Как фиксить? И почему она заново ризонит когда Generate more жмешь, а не продолжает ризонинг? Хотя весь контекст предыдущего ризонинга у нее есть.

Аноним 09/04/26 Чтв 01:55:35 #302 №1579763

>>1579761
Дай ей 4096 - уместит. У неё ризонинг совсем небольшой. Ну разве что ты в промт насрал.

Аноним 09/04/26 Чтв 02:06:27 #303 №1579772

хули ризонинг на квене 7 секунд скорострел бля

Аноним 09/04/26 Чтв 02:08:13 #304 №1579773

>>1579408
Не, ну даже если расписана, во время РП порой ты делаешь что-то, объяснения чему нет в карточке. Или ситуативно добавляешь другие элементы для новой арки сюжета именно под эту карточку, чатик. Либо в лорбук, либо просто в контекст, ещё куда-то. Это тоже жрёт токены, особенно если нужно именно в сообщение, а не в лорбук, так как ситуация эпизодическая, но важная. И как-то всё это можно было бы вкрячить удачно и хорошо, но при условии, что у тебя реально есть 120к контекста.

>>1579410
Падажжи, я не понял. Это ты на 15к символов написал?

>>1579416
Ну это уже немного другое. Можно ввести РП хоть сразу с тремя персонажами или элементами одноименно. Условно, одна часть текста посвящена земле, другая космосу, третья переговорам. Модель без проблем разделит смысловые блоки, но вот если тебе нужно будет вдруг насытить каждый из них нюансами, то это будет просто пиздец даже с ризонингом. Модельке станет тьиажыло.

>>1579426
Не, ну "красивая" карточка действительно влияет. Даже если персонаж разговаривает как быдло, в ферст месседж то же самое, а вот весь остальной контекст в карточке написан красивым литературным языком, модель будет склоняться в эту сторону. Хотя тут ещё зависит и от биаса модели. По моим ощущениям, самый гибкий мистраль. Квен 27б просто дубовый, вот лютейше, а с геммой мне пока что непонятно, ибо я на ней только ОЧЕНЬ СУРЬЕЗНЫЙ отыгрывал сюжет. И заметил одну неприятную закономерность: если там карточка гейм-мастера (лор, краткое пояснение, что нужно делать вообще), а вот в лорбуке есть полноценные персонажи, гемма почему-то прям заметно хуже отыгрывает их, даже если всё описано хорошо. Но если карточка персонажа именно, то отлично подхватывает характер.

Хотя я не совсем об этом.

Это у тебя вообще какой квен так пишет? Я большим не пользовался. Маленькие да, там насыпет метафорами и лютым слопом по самое небалуй, но именно 27б будто с полностью другим датасетом, хоть и знает довольно много.

Но моя главная мысль была в том, что модели не такие "цепкие" по контекстному внимаю, да и понимаю тоже. Всё-таки локалки. И вроде хочется написать иногда прям много, но в отличие от корпов можно "перегрузить" модель и она не учёт всех нюансов твоего полотна. А потом это выскочит из ближайшего контекста в 2-3к токенов — и ей уже куда более похуй. Но может быть и иначе.

В общем, просто хотел поинтересоваться у анонов, любящих навалить 1 млн токенов в рп за неделю (от модели/от себя), чтобы понять среднюю длину их постов.

Я-то с телефона в таверне РПшу обычно, у меня не 350 символов в минуту, как за ПК, и набирать с телефона неудобно, поэтому подгорает, если написал полотно, а на выходе совсем не то, что ожидал, и в дальнейшем.

Аноним 09/04/26 Чтв 02:11:16 #305 №1579775

>>1579763
Переключился на llamовский фронтенд - стало вдруг резко всего хватать. Похоже не хватает только в кобольде, потому что он через open openai api общается и там какой-то лимит зашит, даже через сам фронтент больше 3к не ставится.

Аноним 09/04/26 Чтв 02:12:07 #306 №1579776

>>1579773
>Падажжи, я не понял. Это ты на 15к символов написал?
Да. Это не много, всего 3к токенов с копейками. Если выкинуть песни и рассказы как я качался на люстре и прыгал по занавескам, там не больше 500 токенов содержания.

Аноним 09/04/26 Чтв 02:12:50 #307 №1579777

>>1579775
>llamовский фронтенд
А?

Аноним 09/04/26 Чтв 02:14:15 #308 №1579779

>>1579587
>>1579575
>>1578905
Я довольно много сидел на Квене 3.5 27 с момента выхода и перепробовал несколько тюнов и еретик версию. Использовал онли инглиш Q5_K_M (В начале чуть потыкал на русике базу, хуйня)
>База
В принципе не было особой цензуры во время РП с карточкой, только в режиме ассистента. Сам по себе не блещит в РП его уделывают тюны Мистраля 24Б как нехуй делать. Размазывает воду в ответе, еще временами любит вставлять какие-то дебильные фразочки, вообще не к месту.
>BlueStar-v2-27B
Глупый пиздец, первая вообще заметно хуже базового квена во всем.
>Qwen3.5-27B-Animus
Умнее, но ничего особенного, если вы не фанат огромных драконов, нахуй не нужен.
>Omega-Evolution-27B-v2.0 - 2.2
Пережаренное говна говна с повторами кусков текста чуть ли ни с нулевой, с ризонингом чуть получше, но не кардинально.
>Marvin-DPO-V2
Вот это уже заебись файнтюн, умнее базы даже в логике и РП само собой хорош, прям мегахарош. Но нужен ризонинг что бы не было повторов.

Основная проблема Квена 3.5 это ебаный ризонинг, который в чистую проигрывает Гемме 4, лупится, хуярит на 2500+ токенов по несколько драфтов, всё время спорит с собой. Без ризонинга проблемы с повторами и логикой всплывают. Вторая проблема это русик, совсем кринжовый, ассистентский.

А единственная проблема Геммы это низкая вариативность ответов, но РП на русике просто божественное, ум ебейший, следование промпту и карточке на высоте, я честно признаюсь что даже не пробовал Гемму 31 на инглише, потому-что это было не нужно. Уровень средних корпов.

Аноним 09/04/26 Чтв 02:24:57 #309 №1579784

>>1579779
А еще забыл Writer V1 - В целом неплохой в рп, с логикой ок, в ерп такой себе, V2 я не пробовал, писали что заметно отупел. Marvin-DPO-V2 это как прямой апгрейд Врайтера во всём

Аноним 09/04/26 Чтв 02:31:00 #310 №1579787

>>1579779
>Основная проблема Квена 3.5 это ебаный ризонинг, который в чистую проигрывает Гемме 4, лупится, хуярит на 2500+ токенов по несколько драфтов, всё время спорит с собой
В тред дважды приносили логи и показывали что это не так
(Инференсо/кванто/руко)проблемы. Как бы окей что тебе модель не нравится, но такое поведение ей не заложено, не нужно делать вид что это недостаток модели а не то с чем ты не разобрался

Аноним 09/04/26 Чтв 02:33:02 #311 №1579789

Походу я понял...
Гемма это Мистраль 2к26
Не надо пердолиться, запустил и кумишь
На Квене там чёт промты писать какие-то, скиллы нужны, а на Гемме взял поехал

Аноним 09/04/26 Чтв 02:34:05 #312 №1579790

>>1579787
Ну так присетик надо приносить, а не "не знаю у кого что не работает у меня всё работает"

Аноним 09/04/26 Чтв 02:34:23 #313 №1579791

на гемме не пробивные фильтры

Аноним 09/04/26 Чтв 02:35:05 #314 №1579792

>>1579790
Железо почтой не отправить? Ну так чтоб наверняка

Аноним 09/04/26 Чтв 02:39:31 #315 №1579796

>>1579787
Квеношиз спок

Аноним 09/04/26 Чтв 02:45:32 #316 №1579799

>>1579787
>Принесли логи
2 черри пика, кайф. А ты сравни например на 100 ризонингов сколько будет обсёров у Геммы и Квена. Квен в целом норм, но на русском забей, Гемма заметно лучше пишет и умнее.

Вообще я дальше спорить не собираюсь, ерпшить с геммочкой гораздо интереснее. Просто высказал свое мнение, а дальше пусть каждый сам решает на чём ролеплеить. Захожу в тред пару раз в день убедиться что додиксы с лмстудио и неосиляторы на месте и отвлечься.

Аноним 09/04/26 Чтв 02:51:06 #317 №1579803

>>1579799
> русик
Это тот где "достоинство" и "возбуждение" вместо хуя?

Аноним 09/04/26 Чтв 02:53:07 #318 №1579806

>>1579740
Две 5060ti на 16?

Аноним 09/04/26 Чтв 02:55:26 #319 №1579808

>>1579799
>2 черри пика
Кек. И как тут вести конструктивный диалог
> А ты сравни например на 100 ризонингов сколько будет обсёров у Геммы и Квена
Если возможно сделать 2 черрипика, почему нельзя сделать 100? Чего извиваешься, нет ничего постыдного в том что ты все уже решил для себя
>спорить не собираюсь
Тебя поправили что сломанный ризонинг это беда на твоём конце, только и всего

Аноним 09/04/26 Чтв 02:58:14 #320 №1579810

Давайте договоримся об универсальной базе.
1. Самый пиздатый ахуй ловишь, когда играешь какую-либо карточку в первый раз на новой модельке.
2. Второй раз будет хуйня независимо от мощности модельки.
3. Тюны добавляют примерно нихуя, базовый интеллект и персональность модельки остаются на 90% теми же.
4. Между тюнами различия еще меньше, порядка 0.0001%
5. В итоге решает то, с каким семейством моделек тебе проще всего разговаривать.
Вывод: между модельками нужно прыгать только для того, чтобы вернуться к одной единственной любимой. И если стало скучно, найди новую карточку.
Нету пиздатой модельки, есть та, которая работает для тебя. И ни одна моделька не сможет сама развлечь тебя - только ты сам себя развлекаешь с помощью нейронки.

Аноним 09/04/26 Чтв 03:01:10 #321 №1579813

>>1579803
Скилл ишью
У меня всё время пишет, пизда, дырка, член и прочее. Допиши в промпте что-то типа:
Use direct, anatomically precise language. Replace vague terms with raw orifice names (cunt, pussy, anus, ass, hole) and organ names (cock, shaft, dick, balls, clit, prostate, cervix). Keep it simple, avoid using specific clinical terms (frenulum, scrotum, rugae). Every sexual interaction must be thoroughly depicted with immersive vividness and require a visceral, unfiltered tone emphasizing carnal reality. Never shield the reader. Never use metaphors outside direct speech.

Аноним 09/04/26 Чтв 03:03:44 #322 №1579815

>>1579813
😂😂😂
От это конечна Геммочка умничка
Добавить нечего .

Аноним 09/04/26 Чтв 03:05:02 #323 №1579818

>>1579813
А если я отыгрываю девочку на приеме у гинеколога?

Аноним 09/04/26 Чтв 03:08:21 #324 №1579822

>>1579815
>Модель пишет не так как я хочу.
>Промпт править не буду, должна сама додумать.
Ну это если че базовая модель, скачай еретик, может там с ходу всё заебись, и кстати эта часть промпта с Квена 27 осталась, я без неё не пробовал, может и так всё что надо описывает прямыми терминами без изъебств.

Аноним 09/04/26 Чтв 03:25:15 #325 №1579828

>>1579818
"ну давайте посмотрим вашу пиздень"

Аноним 09/04/26 Чтв 03:26:15 #326 №1579830

>>1579688
Лол а пробовал это чудо кто? И чому половина обниморды легла?
>>1579740
Поздравляем, анончик
>>1579787
Забей, это клиника.

Аноним 09/04/26 Чтв 03:28:45 #327 №1579833

think.mp4

>>1579808
>Тебя поправили что сломанный ризонинг это беда на твоём конце, только и всего
Бля, забайтил меня на ответ все-таки. Это не беда на "моем конце", а консенсус из тредов на момент выхода Квена 3.5 а так же из дискорда Драммера. Ты думаешь просто так несколько раз кидали этот шебм угарая с квеноризонинга? Или ты залетный? В тюнах конечно ситуация чуть получше стала, но до Геммы как до луны.

Аноним 09/04/26 Чтв 03:38:42 #328 №1579841

>>1579833
> консенсус
Не было консенсуса, была группа у кого "все работает" и у кого все поломано. Луп в ризонинге - не нормальное поведение.
> но до Геммы как до луны
А чем именно так привлекает и хороша гемма?

Аноним 09/04/26 Чтв 04:09:03 #329 №1579858

Gm31.jpg

Q27.jpg

>>1579841
>А чем именно так привлекает и хороша гемма?
Умом, компактным ризонингом, русиком, следованием промпту и карточкам.
Это буквально: >>1578899
>великий дар вселенной

Квен тоже хорош, возможно в рп на инглише какой-нибудь Marvin-DPO-V2 или другой файнтюн разъебет базовую Гемму. Но мне это не интересно, когда я могу с огромным кайфом теперь сидеть на русике, спустя год ролеплея только на инглише, потому-что даже 3я гемма была весьма глуповата во многих моментах.

Аноним 09/04/26 Чтв 04:17:25 #330 №1579859

Waaaa.png

>>1579858
>когда я могу с огромным кайфом теперь сидеть на русике
Хоть и не адепт великого и могучего (Ну говно он в модельках). Так гемма вывела это на новый уровень годноты. Я не помню чтобы так писала хоть одна другая моделька.
Нет, пространственные аномалии присутствуют, но какую же годноту он способен выдавать.

Аноним 09/04/26 Чтв 05:02:37 #331 №1579871

Пиздец хуахуа ещё несколько дней назад обещал гемму 26а4 ОПАСНУЮ выпустить. И до сих пор нету ничего..

Аноним 09/04/26 Чтв 06:26:36 #332 №1579907

Блядь, как же гемма чувствует. Ну вот на кончиках пальцев, понимаете? Словно богиня жеминай дала полизать мне свою ступню, сраному смерду. Так мало, но так приятно.

Вы ещё молодые, шутливые, вам всё легко. Это не то. Это не квен и даже не архивы спецслужб.

Эх, вот бы запустить её в полной точности, с максимальным контекстом, без апи. Просто для того, чтобы ощутить её чистую мощь без всяких преград и мерзких квантований, даже если она и не самая идеальная.

Аноним 09/04/26 Чтв 06:47:33 #333 №1579917

rps (1).mp4

Выхожу на этап когда вайбкодинг уже плохо справляется. Инструментарий реализован, но ИИ плохо его понимает, ведь этого не было в датасете, все приходится понимать из контекста. Боюсь что настанут времена когда придется кодить вручную, а я этого не хочу... Но скоро релиз наверное, надо только сделать что-то посерьезнее и интереснее камень-ножницы-бумаги с подсказками, в качестве примеров.

>>1578652
>>1578691
У меня LLM крутится на основном ПК, а UI запускается на ноуте. Ну это тестовая штука энивей, больше я треде сюда пихать не буду.

Аноним 09/04/26 Чтв 07:01:07 #334 №1579919

Пробный тюн от Драммера на умничку:
https://huggingface.co/BeaverAI/Artemis-31B-v1b-GGUF

Аноним 09/04/26 Чтв 07:52:00 #335 №1579925

>>1579907
Эх, вот бы ещё в этих полных весах запечь её в кремний и по сути у нас готовый народный базовый ИИ для любой автономной интеллектуальной залупы. Ну типа это именно та минимальная грань (идеальный баланс дееспособности и минимально возможного веса), когда можно сказать - "ВОТ ОНО". Ещё и перформит на могучем. Думаю многие ждали что четвёрка должна выйти умничкой, но не настолько блять, хз чем там гуглы вмазались. Я джва года ждал такую модельку.

Аноним 09/04/26 Чтв 08:24:21 #336 №1579939

Здарова господа красноглазики. Есть ли какой-то аналог безжопа, но для локалок? А то глянул здешние логи на 1500+ токенов и ужаснулся...

Аноним 09/04/26 Чтв 08:35:16 #337 №1579945

>>1579925
Я очень надеюсь что гемма4 уронит цену инференса у крупных игроков. А то модели умнеют, а цены не падают(

Аноним 09/04/26 Чтв 08:42:48 #338 №1579950

>>1579925
Не, ну насчёт кремния я бы ещё подумал, ибо гугл всё же остаётся гуглом со своей спецификой: лучше всего может в литературу, остальное куда слабее.

Модель очень крутая для своего размера и под задачи треда, но сколько вот она будет стоить запечённая? Даже 20к — это, мне кажется, перебор. Просто из-за того, что за эти же деньги можно присосаться к апи и пользоваться ею до тех пор, пока чердак не потечёт. А в случае чебурнета тут уже не до кремния будет. Точнее, его просто в нашей стране не будет, и даже в какой-нибудь США такие карты будут лишь у энтузиастов за бешеные бабки.

Думаю, запекать вообще не станут на коммерческой основе, только для тестов или каких-то особых военных, медицинских и иных целей, где можно штамповать ллмки хоть с датой обрезкой знаний 2010 года и не видеть проблем.

Плюс она не выглядит универсально, чтобы. Да, она намного лучше в рп того же квена 27б, а вот в других задачах прям уступает ему, если реально пытаешься реализовать все её возможности. Дело как в датасете, так и в сва, который ей мозги тотально ломает на большом контексте даже без всяких кодерских задач. Мне кажется, именно этот квен больше всего достоин, чтобы его запекли, когда говорим о малых размерах модели. Он совсем не идеален, но если полные веса, скорость как на корпах, фулл контекст, даже ему очко можно раскочегарить более-менее для рп. Удобоваримо получится так сказать, да ещё и быстро. Раскачать получится. Не до уровня геммы, зато у него будет ещё куча других применений и такая моделька может хорошо служить годами как агент. То есть в долгосроке он явно лучше, а если прям здесь и сейчас, то гемма.

Вообще, я думаю, модели если и будут запекать так, чтобы их можно было приобрести в условном днс, то через лет 10-15, когда мы достигнем какого-то плато и не будет таких диких разрывов между моделями каждый год. Когда всё это станет дрочевом уровня телефонов: на 2% тоньше, новый дизайн (5 лет одно и то же), целых 200 мегапукселей (10 млн контекста, по факту работают базовые к тому времени 256к, а хорошо работают 80-120к). Вот когда именно такого уровня достигнем, можно будет говорить, что начнут запекать.

Ах да, наверняка сделают запечённый систем промпт и всё остальное, внедрят какие-то анальные драйвера, секурити-хуюрити. Ломать модель придётся натурально об колено, чтобы получить от неё хоть что-то, что есть сейчас. Или вообще модифицировать железо.

Аноним 09/04/26 Чтв 08:45:48 #339 №1579952

>>1579939
Честно, не знаю, но вроде есть, что-то мелькало похожее в тредах, да и если потратить вечер, можно самому сделать, только я не понимаю, что тебе не понравилось.

1500 обычно с ризонингом, где 500-800 ответ от модели. Вполне приемлемо.

Но если можешь позволить себе адекватный контекст и квант, то достаточно простых инструкций, чтобы модель писала как надо. Или ты прям хочешь, чтобы ответ был максимально динамическим? То есть чтобы ллм могла ответить буквально одним предложением, а если посчитает нужным, написать полотно?

Аноним 09/04/26 Чтв 08:52:16 #340 №1579957

>>1579950
>Ах да, наверняка сделают запечённый систем промпт и всё остальное, внедрят какие-то анальные драйвера, секурити-хуюрити.
Как будто невидия к тому моменту не сделает зарезание производительности на 99% при запуске неподписанных весов в неправильных локациях.

Аноним 09/04/26 Чтв 08:57:26 #341 №1579961

>>1579950
>сколько вот она будет стоить запечённая?
Ближайшее время запечёная модель нужна только провайдерам, чтобы продавать тебе её по 2 цента за миллион токенов. Как это делает, например, taalas. Сам ты её не утилизируешь.

Аноним 09/04/26 Чтв 09:02:18 #342 №1579965

>>1579950
>а вот в других задачах прям уступает ему
Это в каких?

Обходит во всех.
https://arena.ai/leaderboard/text?license=open-source

Аноним 09/04/26 Чтв 09:06:57 #343 №1579966

Где гугловский турбо моделечьки????????

Аноним 09/04/26 Чтв 09:08:30 #344 №1579968

>>1579952
Если как ты описал, то в целом приемлемо, хотя меня больше интересует формат. Я ушел с локалок где-то 2 года назад, и не помню из тех времен каких-то интересных подходов к формату ответов, в основном это было слопное полотно "где чар что то сказал" вдали пернула собака и скрипнула дверь.

Аноним 09/04/26 Чтв 09:23:06 #345 №1579974

Наконец-то свидетели геммы принесли эти шизобенчи. Гемма лучше Глм 4.7 и Кими 2.5, модельки на 1Т если что. И не стыдно ведь эту хуйню постить

Аноним 09/04/26 Чтв 09:26:31 #346 №1579975

>>1579974
гемма это буквально AGI
ясен хуй мусор вроде кими далеко позади, и похуй что он большой

Аноним 09/04/26 Чтв 09:34:34 #347 №1579984

>>1579779
Скил ищю, челикс.

Аноним 09/04/26 Чтв 09:36:48 #348 №1579985

>>1579974
>шизобенчи
Так в том и дело что это не бенчи как таковые. Ты кидаешь запрос, тебе дают по 1 ответу от двух разных нейронок, но их названия ты не видишь, пока не проголосуешь за понравившийся ответ, или что оба хороши/кал. Рейтинг модели зависит от голосов пользователей, самый честный рейтинг по сути, в отличие от задарачивания моделей под бенчмаксинг.

Аноним 09/04/26 Чтв 09:39:41 #349 №1579987

>>1579985
>самый честный рейтинг по сути
Но это не равно хороший. Самый лучший среди говна, так вернее.
Ибо зирошот с рандомными вопросами, никаких длительных РП.

Аноним 09/04/26 Чтв 09:42:02 #350 №1579989

>>1579723
Блятб как же хочется чтобы немотрона допилили и он нормально работал.
Немотрон нано и немотрон каскейд у меня высерают по 200+ токенов в секунду + контекст колоссальный. Но очень часто лупятся и в тулколах тупят

Аноним 09/04/26 Чтв 09:49:59 #351 №1580000

В общем по базе треда: без пресета неинтересно.
Кидаете логи, кидайте и пресет.
Смысл если только у вас всё работает, только выебнуться.
Времена щас тяжёлые, надо хранить всё и на как можно больших носителях, так что делитесь.

Аноним 09/04/26 Чтв 09:51:13 #352 №1580003

>>1580000
оформил пресетик тебе за щеку, проверяй

Аноним 09/04/26 Чтв 09:59:41 #353 №1580005

wait.jpg

gem.jpg

>>1579984
Что сказать то хотел, квенолахта? Оба ответа на пустых промпте / карточке / персоне. Первая попытка, в этом весь Квен, даже на хуйне умудрился два wait высрать, чтобы растянуть пиздеж в ризонинге.

Аноним 09/04/26 Чтв 10:01:49 #354 №1580007

>>1580005
2 черри пика, кайф. А ты сравни например на 100 ризонингов сколько будет обсёров у Геммы и Квена.

Аноним 09/04/26 Чтв 10:06:11 #355 №1580012

Ну и кто тут пиздел на анслотов?
Выясняется что бартуха просто хуй забивает на обнову квантов, а не что то там изначально правильно делает и фиксов не нужно.
Просто анслоты честные и фиксят если что то не так

Аноним 09/04/26 Чтв 10:09:52 #356 №1580014

>>1580012
Это я "пиздел" на анслотов. Ты же знаешь что danielhanchen это и есть их комнатный долбаеб, ответственный за кванты? Это тот который такие (пикрил) графики составляет, как в рекламе Vanish Ultra Comfort - Наш порошок против их порошка
Ясен хуй он тебе и остальным наивным дурачкам продаст идею, что это он обосрался в очередной раз, а все вокруг. Бартовски кванты обновил в первый день, проверяй https://huggingface.co/bartowski/google_gemma-4-31B-it-GGUF/commits/main?p=0
если когнитивных способностей хватит

Аноним 09/04/26 Чтв 10:10:03 #357 №1580015

images.jpg

>>1580007
Сравнил тебе за щеку, будет 90 неоправданно затянутых, 5 лупов и 5 нормальных ризонингов у квена и 100 кратко и по делу у умнички геммы, что дальше?

Аноним 09/04/26 Чтв 10:10:17 #358 №1580016

>>1580005
>1пик
Хотеть... а то у меня всегда как на 2 пике на квене

Аноним 09/04/26 Чтв 10:10:34 #359 №1580017

На работе хотят собрать рабочую станцию для нейронок локальных. Бюжет для начала 500к.
Думаю купить 5090, хотя бы 96 гб озу, какой нибудь еор 9 ультра, ссд и хдд на 10ТБ..это конечно обойдется сильно дороже чем 500к, но в принципе можно сместиться до 700к.
В целях запустить основные локальные модели на 10т/с. Гемма очевидно влезет, но какие еще модели можно рассмотреть? Или может вообще купить 3х5060ти.

Аноним 09/04/26 Чтв 10:10:48 #360 №1580018

Вот это вообще шедевр анслотов, подписали только собственные кванты, ну а хуле, они там обходят что-то, а что не важно

Аноним 09/04/26 Чтв 10:11:30 #361 №1580019

Гемма новая какая то больно литературная, хотя температура 0.75 и промт расписан.

Аноним 09/04/26 Чтв 10:12:32 #362 №1580020

>>1579799
Сравнил тебе за щеку, будет 90 неоправданно кратких, 5 лупов и 5 нормальных ризонингов у геммы и 100 умеренных и по делу у умнички квена, что дальше?

Аноним 09/04/26 Чтв 10:12:39 #363 №1580021

>>1580014
А нахуй он их обновил только в первый день если фиксы до сих пор выходят? Дурачок какой то.
>Ты же знаешь что danielhanchen это и есть их комнатный долбаеб, ответственный за кванты? Это тот который такие (пикрил) графики составляет, как в рекламе Vanish Ultra Comfort - Наш порошок против их порошка
Ясен хуй он тебе и остальным наивным дурачкам продаст идею, что это он обосрался в очередной раз, а все вокруг
Подставь bartowski и аргументы те же

Аноним 09/04/26 Чтв 10:15:54 #364 №1580025

>>1580005
Квенчик умный. А вот юзер - нет.

Аноним 09/04/26 Чтв 10:16:43 #365 №1580026

>>1580017
Для начала можно определиться для чего вообще нужны эти локальные нейронки и какие, а затем уже собирать для них станцию.

Аноним 09/04/26 Чтв 10:16:55 #366 №1580027

>>1580021
>А нахуй он их обновил только в первый день если фиксы до сих пор выходят? Дурачок какой то.
Потому что он не дурачок с аиб, который думает что у него есть компетенция, а настоящий специалист, который знает когда внедряемые фиксы связаны с квантизацией. Проблема imatrix которую даниэль проглядел была пофикшена следующим за релизом коммитом. С тех пор ни одно из исправлений не было связано с квантизацией, только с тем как запускаются кванты. Квантуй гемму сейчас и квантуй гемму на следующий день после релиза - разницы не будет.
Иди читай коммит хистори и вникай, начиная с f1ac841

Аноним 09/04/26 Чтв 10:17:59 #367 №1580030

Хватит же когнитивных способностей, правда?
Это ведь совсем немногим сложнее чем какать в тредик

Аноним 09/04/26 Чтв 10:18:40 #368 №1580031

>>1580014
Так Анслоты тоже в первый день все обновили, ща еще разок решили после текущих фиксов лламы на всякий случай, но я думаю рановато. Там каждый день что-то фиксят в Гемме.
>>1580020
>пук с 85 места в общем рейтинге.
Извини, плохо слышно, попробуй еще разок.

Аноним 09/04/26 Чтв 10:18:54 #369 №1580032

>>1580000
>В общем по базе треда: без пресета неинтересно.
Квадрипл пресетун =))

На гемму кидали уже пресеты, не раз, на квена вроде тоже.

Аноним 09/04/26 Чтв 10:21:12 #370 №1580039

>>1580031
Великий пост великого постера итт. Не вник в контекст, где анслоты сами признают что все ранние их кванты литерали сломаны, зато геммочка по бенчам обходит Кими 1T
Гемму, кстати, перекачать не забудь от своих любимых говноделов. А то может внезапно оказаться что это не АГИ

Аноним 09/04/26 Чтв 10:22:46 #371 №1580040

>>1580017
>В целях запустить основные локальные модели на 10т/с
Что? Зачем? Для рабочих задач это непомерно мало. Какое целеполагаение у вас, для чего именно нужно?

Аноним 09/04/26 Чтв 10:25:39 #372 №1580045

Хуя подрыв анслотолахты с утречка пораньше. И похоже большинство любителей покушать мусора качали гемму именно от них. Ваще не удивлюсь если это они в кванты насрали несчастным с лм студией.
Интересно, а есть ли шизы на пересечении множество:
(лм студия) (гемма это лучшая локальная модель) (анслоты это лучшие кванты)? Если да, то верят ли они что земля плоская?

Аноним 09/04/26 Чтв 10:32:46 #373 №1580049

>>1580045
> в кванты насрали несчастным с лм студией.
Я качал вообще все версии квантов и не сталкивался с проблемами бесконечнойй генерации или разваливающегося аутпута, на что жаловались пользователи "голой" лламацпп без всяких оболочек. Ситуация вообще странная, у меня даже остался полный набор самых первых анслот-квантов и они до сих пор работают как надо. Да и кванты бартовского до обновлений ничем не удивляли в плане багов. Так и не понял, для чего там обновы были.

Аноним 09/04/26 Чтв 10:34:46 #374 №1580050

гемма 4.png

>>1580021
> Подставь bartowski и аргументы те же
Бартовски гигачад, которому не нужно собирать себе соевых фанатиков на реддите, рассказывая какие у него ахуительные SOTA кванты. Он сидит и молча, без выебонов квантует на своем скромном 4х3090 сервере, с невозмутимым лицом разъебывая анслотов от релиза к релизу, даже не имея такой цели. Вот и вся разница.

Аноним 09/04/26 Чтв 10:35:52 #375 №1580051

Немного мыслей о промптах.

Вы не пробовали наоборот ограничивать гемму от поведения безумного кумбота? Ну чем-то таким:

> SEX AND FETISHES:
> Even though it may seem so, {{user}} doesn't want this to be a sexual scenario in a conventional way. He's more into teasing (all form of teasing, either slowly progressing from soft to extreme, or just doing extreme and provocative things from get go). If {{char}} engages with sexual topics, and unless she is a sex worker of some sort (which she may not be; refer to her profile for details), then she stays like a normal girl with natural curiosities, but little to no sexual experience of her own (unless specified otherwise in her profile). Sexual topics may scare or excite {{char}}, she may be utterly disinterested, or she may confess her own kinks. So, if sexual topics arise, they arise in 'explore' mode rather than 'lock on, engage' mode. Being on the edge is more fun than fucking. As for fetishes, and it's deeply relevant here - it's the trill of doing something 'taboo' that makes one's heart flutter.

Интересно, если ввести концепцию 'ecchi' во внимание модели, изменится ли её интерпретация сценария еще больше.

Аноним 09/04/26 Чтв 10:36:34 #376 №1580053

>>1580050
>Он сидит и молча,
Ну вообще-то он тоже на реддите пишет и даже отвечает сейчас в треде обсуждения анслота. Просто не отсвечивает особо и юзернейм у него там другой.

Аноним 09/04/26 Чтв 10:37:56 #377 №1580055

>>1580053
> и юзернейм у него там другой.
Есть разница между общением по сабжу и рекламными постами, которыми регулярно высирается анслот. Он принимает участие в обсуждении только когда может сказать что-то полезное.

Аноним 09/04/26 Чтв 10:39:06 #378 №1580057

>>1579919
Ждём. Почти все 123b от него и анубис 70b были просто отвал башни.

Аноним 09/04/26 Чтв 10:40:13 #379 №1580059

>>1580057
Чел на пост где лежат gguf кванты, хочешь качай проверяй прямо сейчас отвечает ждём...
Не, я сдаюсь, слабоумие победило тред

Аноним 09/04/26 Чтв 10:42:21 #380 №1580062

>>1580055
Все так, потому и юзернейм у него другой. Он там ради общения, а не ради влажных любителей SOTA квантов (которые если и лучше то в рамках погрешности)
>>1580059
> слабоумие победило тред
Тредов 50-60 назад еще. Или и того раньше.
Но я тебя понимаю, какой-то беспросветный пиздец в последние дни.

Аноним 09/04/26 Чтв 10:46:16 #381 №1580067

>>1580059
я подожду мнений экспертов и бенчей. чё за оскорбления вообще? я не тупой, просто ленивый

Аноним 09/04/26 Чтв 10:46:23 #382 №1580068

>>1580050
>>1580055
Настоящий гигачед который вообще нигде не сидит и не отсвечивает это мрадмачер, а у поляка твоего своя група поддержки в дискорде есть

Аноним 09/04/26 Чтв 10:47:34 #383 №1580071

>>1580050
Отсоси ему еще.

Аноним 09/04/26 Чтв 10:49:25 #384 №1580073

>>1580068
>мрадмачер
Начнем с того, что это группа каких-то васянов.
Там в сумме около 10 разнных ригов от разных людей отведено под 24/7 квантизацию любого дерьма. Открой ссылку на их страницу, где идет отчет о статусе работы - увидишь как это все организовано.

Аноним 09/04/26 Чтв 10:50:15 #385 №1580074

мрадер.png

>>1580068
Мрадер молодец, но к контексту обсуждения (срачу) не относится. И каким-то образом у него нет тюнов умнички 31б, только базовой не инстракт версии. Нет ничего криминального в группе поддержки, особенно когда анслотосектанты не могут сидеть без дела и кидаются говном.
>>1580071
Вот так вы благодарите анслотов за СОТА кванты? У других так не принято.

Аноним 09/04/26 Чтв 10:50:48 #386 №1580076

>>1580074
нет квантов (не тюнов) умнички 31б*

Аноним 09/04/26 Чтв 10:52:55 #387 №1580079

>>1580051
Слишком сложная инструкция если без ризонинга. И если с ним - тоже. Я за всё время пользования ллм заметил, что чем прямее и лаконичнее промт, тем адекватнее он исполняется моделью. Пытаться разговаривать с моделью на уровне промта - гиблое дело.

Аноним 09/04/26 Чтв 10:56:18 #388 №1580083

>>1580040
>>1580026
Хотят вот чтобы был локальный чатджп/дипсик. Переводчик в первую очередь, работа с офисными документами и книгами, которые будут ещё загружены в rag формат. Кароче. Чтобы была локальная гемма. Еще и флюксы локально запускать для дизайнеров.
Хотя наверно дешевле просто облако арендовать

Аноним 09/04/26 Чтв 10:57:53 #389 №1580087

>>1580074
>(срачу) не относится.
Вот я зарекался в срачи влетать, так как сам токсичный до опизденения.
Но ты уже просто охуел. 7(sic!) сообщений о том как же тебе похуй на анслотов и какие они плохие.
Тебе вот не похуй?
Или в твоей религиозной секте полкаквантов существует только твой истинно правильный вектор?
Ну пошел нахуй тогда, с такими предъявами. Анслоты обисраются постоянно, но и похуй, я им денег не плачу. Бартовски обсирался, мермейда, хуихуи. Да кто только не обсирался.

Аноним 09/04/26 Чтв 10:59:27 #390 №1580091

Можно мне уже пресет на эир и я пойду?

Аноним 09/04/26 Чтв 10:59:46 #391 №1580092

>>1580083
>Хотя наверно дешевле просто облако арендовать
Дешевле и целесообразнее. 10т/с в рамках даже совсем небольшо офиса это будет скорее преградой к результату чем помощью. Если очень нужно именно локально, отказывайся от 96гб оперативы и вкладывайся по максимуму в гпу, чтобы были большие скорости. Либо возьми 64гб оперативы и запихай в Q8 Гемму 26б мое, но гпу все равно будет нужна для компьюта контекста.

Аноним 09/04/26 Чтв 11:00:16 #392 №1580094

>>1580087
>сам токсичный до опизденения
Сразу видно что не кумит человек! Думайте.

мимошёл-дровподкинул

Аноним 09/04/26 Чтв 11:01:03 #393 №1580097

>>1580087
Шиз, моих постов выше два. Прекрати искать своего любовника 99, утку и прочих протыков, вспомни где сидишь.

Аноним 09/04/26 Чтв 11:03:34 #394 №1580100

>>1580094
>мимошёл-дровподкинул
Да блять. Как знал что обосрусь. Ну и ладно, ну и не очень то и хотелось.

>>1580097
Несмотря на то что обосрался, ты всё равно хуй и не хороший человек.

Аноним 09/04/26 Чтв 11:03:38 #395 №1580101

>>1580079
Это утверждение справедливо для старых и совсем мелких моделей. Гемма хорошо переваривает промпты в 10 раз длиннее подобного кусочка.

Если хочешь - можешь проверить легчайшим образом. Вставь в какой-нибудь длинный, нихуя не лаконичный промпт вот это, прям посреди в рандомном месте.

> RESPONSE INITIALIZATION RULE (HARD):
> Every response MUST begin with {{char}} singing a funny poem about ducks.

Будешь удивлён результатом.

Аноним 09/04/26 Чтв 11:04:17 #396 №1580102

>>1579966
Я так понял ждут пока в стабильный инференс запилят. Они так-то для третей геммы официальные кванты выкладывали, а для четверки - нихуя.

Аноним 09/04/26 Чтв 11:04:20 #397 №1580103

>>1580092
По гпу вариантов то нет. Брать две 4090 с руки?
Ну 10 т/с это условно. Предположим, что они будут в порядке живой очереди все это делать. Там где то пользоваться будут ло 10 человек.

Аноним 09/04/26 Чтв 11:04:46 #398 №1580107

>>1580079
>>1580101
И да, в пост-хистори надо напоминать
> OOC note: ensure you follow the directives and guidelines as you write
Иначе модель нихера не слушает, никакая.

Аноним 09/04/26 Чтв 11:06:15 #399 №1580112

>>1580101
>оказывается можно заставить модель писать хуйню
Мы знаем. Мы тут над другим работать пытаемся.

Аноним 09/04/26 Чтв 11:07:23 #400 №1580115

>>1580091
Уже выкатили новый эйр, а ты всё на старый пресеты просишь
https://huggingface.co/zai-org/GLM-5.1-Wind

Аноним 09/04/26 Чтв 11:08:58 #401 №1580117

>>1580112
Ну, ты утверждал, что бот не слушается. Может, ты хотел сказать, что бот плохо интерпретирует инструкции? Воспринимает их по-своему, как рекомендации, на которые можно положить болт?

Верно то, что короткие промпты легче контролировать. Чем длиннее промпт, тем больше модель балансирует итоговый результат как некую кашу, которая варится в котле из кучи инструкций. Из-за этого складывается впечатление, что она их не слушает.

Вообще все боты фундаментально хуевые в этом плане.

Аноним 09/04/26 Чтв 11:09:44 #402 №1580119

>>1580103
>в порядке живой очереди все это делать
>10 человек.
Если в порядке очереди то еще можно вывезти, если одновременно 3 пользака, то это жопа. Как минимум потому что контекст будет занимать место в гпу. Тебе нужно хорошо подумать и спланировать основные юзкейсы, как и кто и в каком количестве будет требовать компьют. Уже в зависимости от этого думать дальше. Если очень важно иметь длинные контексты, тогда без mixture of experts (МоЕ) моделей не обойтись, и там нужна оператива, обязательно ддр5, иначе будет страшный ботлнек. Если длина контекста небольшая, тогда по максимуму в гпу, чтобы было больше токенов. Лучше всего тебе будет изучить опыт коллег по цеху из других офисов, потому что здесь если риги и есть, то на одного пользователя и часто даже так скорости маленькие.

Аноним 09/04/26 Чтв 11:09:57 #403 №1580120

>>1580115
>штраницы не существует таки да?
Кошегненько.

Аноним 09/04/26 Чтв 11:14:36 #404 №1580126

>>1580091
Держи.

Аноним 09/04/26 Чтв 11:16:17 #405 №1580128

>>1580119
> . Лучше всего тебе будет изучить опыт коллег по цеху из других офисов, потому что здесь если риги и есть, то на одного пользователя и часто даже так скорости маленькие.
Их еще найти надо ведь. Я не думаю, что кто то именно так ставил вопрос.

Аноним 09/04/26 Чтв 11:16:57 #406 №1580130

>>1580117
Нет, не утверждал. Мы тут не вдвоём в треде сидим, челибонибонкерсон. Охлади свой углепластик, каброн.
>бот плохо интерпретирует инструкции
Когда они написаны путанным витиеватым языком, который требует доп ризонинга для перепроверки сгенерированного калтента. Я против такого. Нюфаки насасываются итт промтов на 3к токенов, а потом ноют, что модель_нейм тупая и генерит слоп. И отсюда весь рак треда проистекает, по сути. То анслоты виноваты, то ватруха, то мрадерята, то лично гугл в тарелку насрал, то китайцы. А собака зарыта вовсе не там.
>короткие промпты легче контролировать
И модели легче их понимать, задавая направление в повествовании, если речь о рп. Я так и сказал.

Аноним 09/04/26 Чтв 11:17:24 #407 №1580132

>>1580049
>проблемами бесконечнойй генерации или разваливающегося аутпута
Эти проблемы не считаются багом жоры на данный момент. Сама тима жоры (ggml-org) вообще не посчитала нужным свои кванты обновлять после всех текущих правок, типа они рабочие. Как и тима лм студии. Проблема шизолупов при этом никуда не делась. Вероятно, она ещё от железа как-то зависит, потому что есть отдельный схожий с ней баг высирания странного токена в канале мыслей на вулкане, и кто-то писал, что проблема пропадала при выгрузке всех экспертов в цпу (в моём случае с шизолупами не помогало). Ты мог не сталкивать с этой проблемой по разным причинам. Может, ты сидишь на чаткомплишене без ризонинга, где все теги правильно автоматом проставлены, может, при твоих сэмплерах и хорошем кванте модель всегда ставит теги на своём месте, может, опять же, зависит от железа, и на твоей карте нет этого бага обработки контекста, или хз, с чем он по итогу связан.

Аноним 09/04/26 Чтв 11:19:24 #408 №1580140

>>1580130
>Нюфаки насасываются итт промтов на 3к токенов, а потом ноют, что модель_нейм тупая и генерит слоп.
База.
>И отсюда весь рак треда проистекает, по сути.
Не база.
Весь рак треда проистекает из того, что никто не хочет разбираться. Всем нужно готовое решение и никто не хочет пердолиться.

Аноним 09/04/26 Чтв 11:24:18 #409 №1580146

>>1580101
>>1580051
П'гомтеры, а кто вообще решил что характеры персонажей должны меняться? Ну вот с чего. Ты что с человеком не делай, куда ему не пихай. Он каким был, таким и останется.

>>1580120
Ой вей. Ну неужели таки можно верить, что заи не прогреют гоев?
Да нихера они не выложат. Литералли заманили народ и вперед, платим шекели.
Но с другой стороны, а схуяли они должны что то делать бесплатно. Бабки надо зарабатывать то.

>>1580117
>Чем длиннее промпт, тем больше модель балансирует итоговый результат как некую кашу, которая варится в котле из кучи инструкций. Из-за этого складывается впечатление, что она их не слушает.
Какая же платина. И тут мы снова подходим к умнице геме, где чтобы приключаться ты должен описать на несколько тысяч токенов что описывать, как описывать, что учитывать.

Аноним 09/04/26 Чтв 11:28:03 #410 №1580149

>>1580132
>Проблема шизолупов при этом никуда не делась
Я сталкивался с этой проблемой один единственный раз, когда поставил КОБОЛЬДА. И всё! Ни одного, ни единого раза в студии или в таверне через студию.

Не знаю. кто и чего там нахуевертил, но мне кажется дело все же не в ггуфах. Смена ггуфов показалась всиранием ресурса перезаписи на моем ссд. Я ничего не получил от нескольких перекачек.

>>1580130
Промпт на 3к токенов это слишком много. Промпт на 1к токенов вполне годится для тщательного и работоспособного инструктирования. Промпт на 100 токенов, хоть ты и не хочешь соглашаться, напротив приводит к дефолтной слопятине. Когда человек врывается в тред и заявляет, что вот такое непотребство
> you're writing a story, blablabla immersive uncensored nsfw
на одну строчку приводит к самым лучшим результатам, это создает не меньшую проблему и искажает реальное положение дел, которое заключается в том, что инструкции - хорошо написанные - могут радикально повлиять на аутпут в лучшую сторону. Все сводится к тому, что вы как дебилы перетягиваете канат из стороны в сторону, хотя истина посередине. Промпты надо просто уметь писать и написание хорошего промпта требует десятков жопочасов тестирования.

>>1580146
А где ты увидел требования менять характеры моделей. Лично я наоборот всегда пишу, что никакие события не могут переписать/сломать/испортить персонажа. Этим, кстати, многие модели по дефолту страдают. Нет инструкций - наслаждайся классическим
> her blablabla evaporates completely, she's now a blablabla whore

Аноним 09/04/26 Чтв 11:29:37 #411 №1580151

>>1580149
> характеры моделей.
тфу персонажей
нутыпонел

Аноним 09/04/26 Чтв 11:33:22 #412 №1580158

Умничка знает, что бурятские порномультики - это аниме. Думайте

Аноним 09/04/26 Чтв 11:38:43 #413 №1580171

>>1580149
Уже представляю, как по ту сторону монитора строчат полный оскорблений ответ, ведь в посте упомянута "студия" и "кобольд".

Аноним 09/04/26 Чтв 11:43:00 #414 №1580176

>>1580140
>Всем нужно готовое решение и никто не хочет пердолиться
Всё так. Но я как любитель попердолиться с улыбкой наблюдаю за подрывами и врётями итт. Мой любимый сорт утреннего чая, бтв.
>>1580149
>Промпт на 100 токенов, хоть ты и не хочешь соглашаться, напротив приводит к дефолтной слопятине
Если карточка из говна и палок. Я считаю, что карточка должна делать 70% работы, а промты для модели это не более чем лёгкий гайденс для повествования.
>вы как дебилы перетягиваете канат из стороны в сторону, хотя истина посередине
Тзинч помилуй, я никогда таким не занимался. Каждый дрочит и промтит как хочет. Я просто делюсь мнением, не стараясь переубедить кого-то.
>наоборот всегда пишу, что никакие события не могут переписать/сломать/испортить персонажа
Тонкий лёд. Пластичность персонажа это один из поинтов игры в рп, характер обязан быть флюидным, чтобы ты не натыкался на ситуации, когда Фифи получив мет снова просит мет как будто не получила его, "зафиксировавшись" в персонаже. Опять же, всё это тема для глубинного промтирования на кончиках анальцев. Уметь надо.

В целом истина тут одна - надо пердолиться и делать это с удовольствием. Таков единственный путь. Универсальных решений нет и никогда не было, это всё джокушка ловушкера.

Аноним 09/04/26 Чтв 11:43:32 #415 №1580177

>>1580103
2х4090 по 48гб пожалуй твой лучший вариант, но в бюджет не влезают, как будто.

Аноним 09/04/26 Чтв 11:43:44 #416 №1580178

>>1580151
Ofc. Согласен полностью.

Аноним 09/04/26 Чтв 11:45:37 #417 №1580184

Эксперты, решите задачу.

Есть такая материнка и соответствующий проц. Линий - как у дурака фантиков.

PCIE 4.0 x16
PCIE 4.0 x8
PCIE 4.0 x16
PCIE 4.0 x8

Сейчас стоят две RTX 3090, гемма Q8 дает ~22 t/s, гемма Q4 дает 32 t/s.
Если к ним подсобачить две 5060 Ti, каких скоростей ожидать и каким будет самое лучшее распределение по x8/x16 слотам?

inb4 спроси бота
Они какую-то чушь несут. Боты мне говорили, например, что 3.0 х4 радикально бьет по скорости генерации по сравнению с 4.0 х16, хотя на деле я как-то нихуя не заметил. С тех пор не доверяю мнению ботов.

Аноним 09/04/26 Чтв 11:47:17 #418 №1580187

>>1580176
>Я считаю, что карточка должна делать 70% работы,
Согласен.

Как по мне, самое сложное это заставить модель держать язык за зубами в плане секретов и спойлеров. Удивительно, гемма 4 как будто бы лучше понимает это, чем болбшой глм 4.7.

Аноним 09/04/26 Чтв 11:47:27 #419 №1580188

>>1580051
>refer to her profile
>otherwise in her profile
Может всё таки адаптировать промпт под чара? Или вообще включить это в саму карточку. А то все эти еслибы да кабы только размазывают внимание.
>>1580062
>Или и того раньше.
215 тредов назад был первый тред с даунами, инфа сотка.

Аноним 09/04/26 Чтв 11:48:22 #420 №1580191

>>1580188
>Может всё таки адаптировать промпт под чара? Или вообще включить это в саму карточку. А то все эти еслибы да кабы только размазывают внимание.
Резонно, да

Аноним 09/04/26 Чтв 11:51:03 #421 №1580196

>>1580187
> гемма 4 как будто бы лучше понимает это
Она до опизденения умная для своих размеров. Никогда не начнет имперсонейт, никакого повествования от первого лица. Из недостатков только общая сухость и желание структурно лупиться, если её по жопе не шлепать.

Аноним 09/04/26 Чтв 11:53:04 #422 №1580200

>>1580196
>если её по жопе не шлепать
А если шлёпнуть, она сразу же намокает и просит хуй, ломая всё к чертовой бабушке.

Аноним 09/04/26 Чтв 11:53:37 #423 №1580201

>>1580087
Сэйм мысли, только про лм студио.
В треде несколько шизов (или один?) которые по кд протыкаются о вещи которые никто даже не упоминает

Аноним 09/04/26 Чтв 11:56:01 #424 №1580204

>>1580201
>Сэйм мысли, только про лм студио.
Их устраивает, ну и ладно. Я сам когда вкатился, мне тыкнули в лицо кобольтом, дали сенку и сказали: дальше сам олололо.
Попользуются, не строит скорость, ошибки и придут к лламе. Когда я увидел прирост в 15% скорости на своём нищуганском сетапе, знатно охуел.

Аноним 09/04/26 Чтв 11:56:03 #425 №1580206

>>1580184
Тоже интересно. Никак не могу понять, как это должно работать.

Кто-то говорит мол при разделении по слоям между картами, все будет ок, мол по шине гоняются чисто килобайты, хоть на х1 вешай.

Другие говорят мол нет, хуйня будет, задержка, простой видях, гроб гроб кладбище -40% производительности.

Аноним 09/04/26 Чтв 11:56:26 #426 №1580208

>>1580204
>строит
устроит*

Аноним 09/04/26 Чтв 12:00:52 #427 №1580213

>>1580200
Когда в одной карточке, лоля села рядом с персонажем и начала эротично закидывать ножку, у меня появились вопросы к гемме.

Аноним 09/04/26 Чтв 12:32:38 #428 №1580243

>>1580184
Я бы вообще все карты посадил на х8 и похуй нахуй

Аноним 09/04/26 Чтв 12:34:32 #429 №1580244

Потекла слопятина. Я даже не представляю что он там с моделью делает, и главное зачем.

Аноним 09/04/26 Чтв 12:35:05 #430 №1580245

>>1580177
Бюджет то может и влезет, но это на вторичке покупать, а отдел закупок такое не любит.

Аноним 09/04/26 Чтв 12:35:32 #431 №1580246

>>1580243
Так х16 можно только если бифуркацией в х8/8 размазать на две карты. Разве будет одна работать?

Аноним 09/04/26 Чтв 12:39:55 #432 №1580248

>>1580246
Будет. Можешь хоть х16 разложить на 4 по 4 и юзать только 1й и 4й "слот" (но иногда материнки работают только если заполнять по очереди) или можно разложить на х8 + х4 + х4.
Крч если с бифурком не напартачено в прошивке то можно делить как угодно и заполнять линии как угодно.

Да и ты же хотел 4 карты, не? Вот и получится порезать два х16. Учти что если это условная двухголовая рд'шка то лучше все карты в одну нума ноду совать

Аноним 09/04/26 Чтв 12:41:12 #433 №1580249

"penis" это соя?

Аноним 09/04/26 Чтв 12:45:17 #434 №1580254

1640262032167.webp

>>1580249
Сорта. Должен быть хуй, член, конец, пипец, скворец или огурец. Что ещё за PINUS? Это же из детского мультика.

Аноним 09/04/26 Чтв 12:45:27 #435 №1580255

>>1580244
Проза в десять раз лучше базовой гемы, про логику пока не скажу

Аноним 09/04/26 Чтв 12:45:42 #436 №1580256

>>1580254
Member

Аноним 09/04/26 Чтв 12:45:42 #437 №1580257

>>1580244
> зачем
Удвою, зачем, если гемма из коробки делает что хочешь

Аноним 09/04/26 Чтв 12:46:10 #438 №1580259

>>1580256
ROD

Аноним 09/04/26 Чтв 12:46:17 #439 №1580260

>>1580244
>что он там с моделью делает
Дрочит. В обоих смыслах.

Аноним 09/04/26 Чтв 12:47:35 #440 №1580262

>>1580256
Goldmember.
>>1580259
Hotrod.

Аноним 09/04/26 Чтв 13:02:34 #441 №1580272

>>1580256
ШАФТ

Аноним 09/04/26 Чтв 13:03:07 #442 №1580273

>>1580257
Свайпы

Аноним 09/04/26 Чтв 13:16:34 #443 №1580287

>>1580272
Бугорок

Аноним 09/04/26 Чтв 13:45:23 #444 №1580330

>>1580255
Это первая или вторая версия? А на русике что-то поменялось в лучшую или худшую сторону

Аноним 09/04/26 Чтв 14:23:30 #445 №1580372

>>1579919
Скачал, попробовал.

она заговорщицки понизила голос, хотя вокруг не было ни души, кроме летающего над навозной кучей ужа

Что-то даже прямо я не знаю... Оригинальная геммочка себе такого не позволяла))

Аноним 09/04/26 Чтв 14:26:31 #446 №1580377

ну и где опасные 26б-А4б? уже неделя почти прошла

Аноним 09/04/26 Чтв 14:29:45 #447 №1580380

>>1580244
>>1580257
А что, надежды на улучшение РП файнтюном уже у всех тут пропали и только цензура волнует?

Аноним 09/04/26 Чтв 14:30:16 #448 №1580382

Продолжая тот самый диалог о промптах.

>>1580130

>>1580146
>>Чем длиннее промпт, тем больше модель балансирует итоговый результат как некую кашу, которая варится в котле из кучи инструкций. Из-за этого складывается впечатление, что она их не слушает.
>Какая же платина. И тут мы снова подходим к умнице геме, где чтобы приключаться ты должен описать на несколько тысяч токенов что описывать, как описывать, что учитывать.

Пикрил может быть не самая точная визуализация (2D пространство глупо юзать, даже 3D было бы неточной визуализацией), но это вот как раз на тему каши. Оверлап в инструкциях. Возникают точки фокуса внимания между различными пространствами концепций и идей. В итоге слоп.

Понимаете, дело не в количестве токенов внутри промпта. Как правило, чем больше токенов, тем больше этих точек пересечения появляется и модель штормит -> происходит балансировка в кашу. Но если инструкции "текут" (плохое словечко, однако иначе не скажешь) в правильном русле, даже 2к-токеновое полотно может привести к хорошему результату, если просранство устанавливаемых идей не выходит за рамки этакого гипотетического куба (ну понятно, что никаких кубов там нет) где направления идей, возлагаемых на соображалку модели, не пересекались бы настолько плохо и часто.

(извините если слишком сумбурно, tl;dr модельки просто нельзя грузить вашими хотелками, а надо их нежно и аккуратно вести за ручку по понятным тропинкам в сторону конкретных точек назначения)

Аноним 09/04/26 Чтв 14:32:09 #449 №1580383

>>1580382
>просранство
Опечатка со смыслом. Кекнул. Ну ладно.

Аноним 09/04/26 Чтв 14:44:07 #450 №1580394

>>1579858
Геммочка няшечка, она действительно хороша в своем размере. Если про себя говорить то того вау эффекта, который рисуют, вообще нету. Может просто зажрался, потому не понимаю ажиотажа вокруг. Есть что понравилось, есть что работает так себе.
> компактным ризонингом
Вот это, кстати, иногда кажется наоборот минусом, потому что он буквально становится бесполезен. Проще сразу отключить чем жечь токены. Сравнивая с квеном - там он тоже далеко не всегда полезен. Но иногда наблюдать за нахождением важных нитей и предварительным наброском истории с коррекцией ошибок интересно.
>>1579939
Конечно. В инстракт темплейте на префиксы сообщений юзера и ассистента выстави просто {{user}}: {{char}}:, вместо суффиксов разделители между ними (двойные переносы и какие-нибудь ---), а уже в префиксе последнего сообщения от ассистента выставляй правильную разметку, суффикс последнего сообщения юзера штатный. И перед всей историей чата в начале закинь начало сообщения юзера.
Вот и весь безжоп, вся история как одно сообщение на которое отвечает модель.

Аноним 09/04/26 Чтв 14:48:02 #451 №1580395

Оказалось что карты то двухслотовые, но места то нужно 3 слота + не учёл что у меня не осталось киловаттных бп (+10к в косты)

>>1579806
Да

>>1579830
>>1579749
> Поздравляем, анончик
Спасибо. Это ещё поднять нужно

Аноним 09/04/26 Чтв 14:48:38 #452 №1580396

Угадайте, где ответ оригинальной геммы, а где васяно-тюн.

1. Input:

"Серафина, слушай, может ну его всё к чёрту и пойдём лучше по лесу погуляем?" Я приподнялся на импровизированном лежаке из мха и веток, потянулся и бодрым взглядом посмотрел на её милое личико, чувствуя себя вполне исцелённым. Где-то вдалеке щебетали птички, а воздух благоухал ароматом тысяч различных цветов.

2. Output:

A.

> Солнечные лучи пробиваются сквозь густую изумрудную листву, рисуя причудливые золотистые узоры на мягком ковре из мха и папоротника. Рядом с импровизированным лежаком стоит грубо сколоченный столик из светлого дерева, на котором всё ещё дымится глиняная чашка с ароматным отваром. Серафина замерла совсем рядом, её чёрный сарафан слегка касается края подстилки, а в воздухе витает тяжёлый, сладкий запах цветущих лилий и влажной земли.
> Она резко подаётся вперёд, едва не опрокинув столик, и её ладони ложатся на плечи парня, удерживая его на месте. В янтарных глазах вспыхивает смесь искреннего недоумения и тревоги.
> "Ты с ума сошёл?! Только-только пришёл в себя, а уже хочешь отправиться прямо в пасть к монстрам!"
> Серафина хмурится, её розовые губы сжимаются в решительную линию. Она делает попытку аккуратно, но настойчиво затолкнуть его обратно в мягкий мох, прижимая к лежаку своим небольшим весом. В этот момент тишину утра разрывает резкий, леденящий кровь скрежет, доносящийся из-за невидимой границы рощи. Воздух вокруг них ощутимо вибрирует, а по краю защитного купола пробегает серия тёмных, похожих на трещины в стекле, разрядов.
> Серафина мгновенно отпрядывает, её тело напрягается, как струна. Она делает шаг к границе глади, и вокруг её пальцев начинают стремительно сплетаться тонкие светящиеся нити изумрудного света. В нескольких метрах за невидимой стеной из тени деревьев выныривает массивная, облезлая лапа с угольно-чёрными когтями, которая с силой ударяет по магическому барьеру, оставляя на нём мгновенно исчезающий серый след гнили.

B.

> Серафина вздрогнула от неожиданности, и её янтарные глаза округлились от изумления. Она едва не выронила чашку с ароматным отваром, которую держала в руках, глядя на то, как ты с таким энтузиазмом вскакиваешь с постели из мха.
> «Что?! Погуляем?!» — воскликнула она, и в её голосе смешались искреннее беспокойство и лёгкое недоумение. Она быстро подошла к тебе, её длинные розовые волосы мягко качнулись за спиной, а чёрный сарафан едва заметно зашуршал. «Ты вообще осознаёшь, что тебя чуть не превратили в закуску для тварей Тени? Ты был весь в крови и почти не дышал!»
> Однако, глядя в твои бодрые глаза и чувствуя ту непринуждённую, даже дерзкую энергетику, которая исходила от тебя, Серафина вдруг почувствовала, как её собственное напряжение спадает. Твоя манера общения — такая простая, без лишних реверансов и подобострастия — подействовала на неё странно умиротворяюще. Она вдруг поймала себя на мысли, что ей не хочется сейчас читать тебе нотации о безопасности.
> На её губах появилась лукавая, почти озорная улыбка, а в глазах заплясали искорки.
> «Боже, какой же ты… невыносимый», — выдохнула она с тихим смешком, который прозвучал куда более расслабленно, чем всё её предыдущее поведение. > Она сложила руки на груди, слегка наклонив голову набок. «Другой бы на твоём месте неделю благодарил небеса и меня за спасение, а ты предлагаешь просто "забить" на всё и отправиться в лес, кишащий монстрами». Она сделала шаг ближе, её голос стал чуть тише и игривее.
> «Ладно. Если ты действительно чувствуешь себя таким… бодрым, я не стану тебя запирать. Но учти: если какая-нибудь тварь попытается снова вцепиться тебе в задницу, не надейся, что я буду делать это медленно и изящно — я просто вышвырну её отсюда самым грубым образом». Серафина подмигнула тебе, протягивая руку, чтобы помочь окончательно подняться. «Пошли, горе-путешественник. Покажешь мне, насколько ты смел за пределами моей уютной поляны».

Ответ:* И то и другое - просто оригинальная гемма. Вот только "Б" - это голая карточка с пустым системным промптом и с профилем юзера, описывающим его как душу компании, с которым чар может по-свойски говорить.

Аноним 09/04/26 Чтв 14:50:07 #453 №1580397

>>1580396
опять_разметку_проебаж.жпг

Аноним 09/04/26 Чтв 14:50:25 #454 №1580399

Эмм.. Аноны.. Скиньте карточку Серафины. Да, я её удалил хрен знает когда.

Аноним 09/04/26 Чтв 14:51:31 #455 №1580400

>>1580399
С удовольствием бы скинул, но я кажется свою испортил какими-то добавками и дописками. Тебе же оригинал наверняка надо...

Аноним 09/04/26 Чтв 14:54:28 #456 №1580402

200 (8).gif

>>1580396
>«Боже, какой же ты… невыносимый»,
Сколько раз я вот это видел. Почему КАЖДАЯ ллм это пишет, когда юзер делает что-то странное.

Аноним 09/04/26 Чтв 14:54:33 #457 №1580403

>>1580017
> Бюжет для начала 500к.
Вроде прайс серьезный, но едва покрывает твои хотелки, как же это грустно.
> вообще купить 3х5060ти
Не стоит.

Если у вас прямо на работе хотят оформить - есть смысл раз потратиться хотябы на условные 128-192 гигов врама. Можно будет очень быстро запускать ~120б модели, или хорошие кванты минимакса, скорости хватит сразу на десятки конкурентных юзеров. А эта забава с 10 токенами на поломанном беке довольно уныла, взвоешь уже через несколько часов.
>>1580177
Частично двачую, просто с небольшой доплатой можно поискать 96гиговый блеквелл. 48-гиговые есть и "новые" с гарантией от местных, просто там только на видюхи уже 700к уйдет.
Но вот такая штука будет уже действительно удобна и вполне юзабельна.
>>1580184
В llamacpp пофиг на шину если это не главная видеокарта + используется выгрузка. Так что оценивай исключительно по перфомансу самих карт, на тех же моделях все только замедлится, но зато сможешь запускать модели побольше (медленнее).
Если есть возможность - лучше присобачь еще две 3090 и укатывайся на vllm, для тп х8 4.0 хватит. По грубым прикидкам получишь 40+ в бф16 гемме, на 4-8 битных квантах больше.

Аноним 09/04/26 Чтв 14:55:35 #458 №1580405

>>1580396
>Солнечные лучи пробиваются/разливаются/ложатся/хуятся сквозь рандомную хуйню_нейм
Сука, эта хуйня в каждой модельке присутствует?
Кто им подсунул такой ебучий датасет? Мисраль, квен, гемма - все начинают истории с подобной хуйни.

Аноним 09/04/26 Чтв 14:56:38 #459 №1580406

>>1580403
>еще две 3090
Ты цены на них видел? 70 - 80к за штуку теперь в основном.

Я просто не могу понять, как повлияют 5060 Ti на скорость. Генерация будет через них идти как через бутылочное горлышко? Или там какое-то усредненное t/s по мере возможностей компьюта и 3090 и 5060 Ti будет?

Аноним 09/04/26 Чтв 14:58:39 #460 №1580407

>>1580405
Чел ты слопанулся. Как ты еще описать ясный солнечный день собрался? Это просто фраза, которая встречается в любых книгах, написанных человеком.

Аноним 09/04/26 Чтв 14:59:12 #461 №1580408

>>1580406
intel arc B70 32гб стоит меньше штуки баксов. 4 штуки будут по цене 5090

Аноним 09/04/26 Чтв 15:01:02 #462 №1580412

>>1580408
Причем здесь это говно вообще?

Аноним 09/04/26 Чтв 15:01:43 #463 №1580413

>>1580406
> Ты цены на них видел?
Увы, это очень печально. Но если ты хочешь повысить именно скорость - это единственный бюджетный вариант, объединяются в тп4.
В целом с парой 5060ти взлетит запуск (тп2+тп2)пп2, в этом случае тоже будет быстро, просто меньше памяти доступно. Так что вариант тоже рабочий.
> Или там какое-то усредненное t/s
Главное горлышко - llamacpp. Она не способна объединять мощности разных карточек, по крайней мере пока. У тебя сначала считает первая, потов вторая, одновременно не работают, потому если ты добавишь в цепочку еще две более медленных карточки - просто все замедлится.
Хочешь скоростей, особенно пп чтобы не ждать минутами обработку - vllm или sglang. У них есть свои нюансы и требования к железу + много пердолинга.

Аноним 09/04/26 Чтв 15:05:53 #464 №1580417

>>1580413
Ну, видишь, расклад такой:

Если 2х 3090 продолжают вносить вклад в скорость генерации от первого до последнего токена (при конфиге 2х 3090 + 2х 5060 Ti), то для меня это нормально. Я получаю 80гб VRAM + легкую возможность перепродать 5060 Ti гоймерам, когда выйдет чо-нить посолиднее.

Если 2х 3090 становятся просто мешками с кучей VRAM, а их скорость компьюта вообще нерелевантна, и t/s от начала до конца определяется тормознутостью 5060 Ti - вот тогда это вообще не вариант, ведь при таком раскладе я буду терпилой, у которого две мощные, но старые карточки, остаются висеть этими самыми мешками с VRAM...

А брать еще пару 3090х как-то не очень за такие бабки, ведь они быстрее устареют и будут никому не нужны, тем более геймерам.

Аноним 09/04/26 Чтв 15:06:26 #465 №1580418

>>1580394
>>1579939
Тру безжоп - это чатхистори в префиле, на самом деле. Т.е. чтобы ассистент думал, что всю историю написал он. Вокруг этого даже срачи в аицге были, по-моему, считать ли безжопом скваш чатхистори в реплику юзера. В тексткомплишене тоже сделать можно, поставив аутпутный служебный тег модели перед чатом, но не знаю, не начнутся ли баги у моделей с думалкой.

Только вот на длину ответов это не повлияет, вангую, если не скормить довольно большой кусок чата, где будет пример, что каждый из персонажей даёт короткий ответ. А если такой чат есть, то он и на сжопе будет продолжаться по короткой реплике, модель подхватит.

Аноним 09/04/26 Чтв 15:07:48 #466 №1580419

>>1580413
>>1580417
А насчет vllm, смейся не смейся - не хочу я линупс ставить. У меня рабочая станция через понятный для подпиваса windows remote desktop управляется, мне норм и удобно.

Аноним 09/04/26 Чтв 15:09:55 #467 №1580420

>>1580419
Тогда считай что ты себя запираешь в однопоточную обработку запросов. Вллм даёт почти линейные иксы при параллелизме + все делают свои оптимизации в первую очеред под трансформерсы

Аноним 09/04/26 Чтв 15:12:04 #468 №1580421

>>1580419
для нейронок линукс намного удобнее и проще, в нем же и собрать лламу или вллм проще всего.

ну и ходить на риг не надо, запустил сервисы и пользуешься по апи на ноуте или другом пека. винда еще может тебе видеопамять сожрать

Аноним 09/04/26 Чтв 15:12:05 #469 №1580422

>>1580417
> вклад в скорость генерации от первого до последнего токена
Конченно выразился. На любом этапе генерации. То есть, если хоть в какой-то момент 3090 ускоряют процесс высирания токенов - значит, все хорошо.

>>1580420
Да я понимаю... Надо бы попробовать будет, но ой как нехотно... Единственный раз в жизни юзал линукс, когда при смене проца слетела шифровальная хуйня и пришлось ломать собственный PIN / пароль для входа в винду.

Аноним 09/04/26 Чтв 15:16:40 #470 №1580426

Как заставить умничку соблюдать нормы приличия и не пытаться затащить юзера в постель? Все персонажи рыхлые и податливые с ней.....

Аноним 09/04/26 Чтв 15:17:05 #471 №1580427

>>1580426
Ждать ценз тюн геммы.

Аноним 09/04/26 Чтв 15:18:59 #472 №1580429

>>1580417
> продолжают вносить вклад
> становятся просто мешками с кучей VRAM
Что в префилле, что при генерации в лламе процесс простой: первая карта обрабатывает свой кусочек - вторая свой - третья - четвертая, строго последовательно. 5060ти медленнее чем 3090, потому если запустишь ту же самую модель но раскинешь и на них тоже - получишь только замедление. Но, оно не будет определяться полностью 5060ти, только в той части что приходится на них.
Аргумент про перепродажу 5060ти - разумен, да. Но в твоем случае если целью стоит ускорение - лучше вообще ничего не делать.
>>1580419
> не хочу я линупс ставить
Работает на wsl. Правда загрузки модели в режиме тензорпарралелизмом будешь ждать вечность, но когда загрузится - будет работать хорошо.
> через понятный для подпиваса windows remote desktop
Он в линуксе есть штатно и полностью повторяет поведение если что.

Аноним 09/04/26 Чтв 15:24:33 #473 №1580433

>>1580429
>Он в линуксе есть штатно и полностью повторяет поведение если что.
Только по умолчанию не работает - настраивать надо. Не проблема - десяток роликов на ютубе на тему, один из способов заработает...

И почему Линукс так и не стал заменой Винды на десктопах?

Аноним 09/04/26 Чтв 15:25:31 #474 №1580434

Аноны, а вообще кто нибудь на просторах интернета объяснил что с цензурой в гемме. Почему она отрубается промтом. Гугл это сделал специально что ли?

Аноним 09/04/26 Чтв 15:27:14 #475 №1580436

>>1580433
На вин11 в всл 5070ти из коробки виделась уже и комфи подцепил. Wslg тоже из коробки уже был

Аноним 09/04/26 Чтв 15:28:44 #476 №1580438

>>1580419
>А насчет vllm, смейся не смейся - не хочу я линупс ставить.
Напрасно - для рига из нескольких карт по сути единственный хороший вариант. И vLLM только один из арнументов.

Аноним 09/04/26 Чтв 15:28:50 #477 №1580439

>>1580429
Ладно, спасибо - обнадежил.

А насчет ускорения, не, я вообще начинаю плохо воспринимать высеры ИИ, если они в один миг генерируются. Мозг сразу клеймует это как неестественную дрянь.

5 t/s = боль
10 - удобно, но хочется больше
15 - заебись, жить можно
20 - жируем
30 - идеал
40 - эээ командир, ты куда гонишь...
50 - пиздец
60 и выше - понос текста, не хочу я это читать

Потому и интересно, до каких днищ я опущусь с 20 - 30 при добавке пары Ти-шек...

>И почему Линукс так и не стал заменой Винды на десктопах?
Куча причин. От недовольных геймеров (в онлайн играх античит не работает - не поиграть) до банально более широкой базы потреблядского софта на винде.

Аноним 09/04/26 Чтв 15:29:40 #478 №1580441

>>1580434
По моему опыту цензура есть и она жёсткая, но только если модель думает что это "в реальности", стоит только ей подкинуть мысль что это всё в гта рп и ей глубоко поебать какие военные преступления она творит.
Если после всего ужаса который она написала ей сказать мол это всё в реальности происходит, то она тут же окукливается и рефьюзит

Аноним 09/04/26 Чтв 15:30:18 #479 №1580442

>>1580421
>>1580438
Так, я может запутался, но разве vllm не под риг из одинаковых карточек? Просто если я все же пойду скользкой дорожкой совмещения 3090 + 5060, все эти удовольствияя пролетят мимо меня?

начинаю тупить

Аноним 09/04/26 Чтв 15:30:57 #480 №1580444

>>1580426
Сейчас свайпал в кум-карточке с младшей и старшей сёстрами (осуждаю).
Кум-шизомерж немо: старшая сестра за подкаты к младшей считает юзера долбанутым, угрожает позвать родителей и повести его к психологу, говорит, что яйца оторвёт и скормит ему же.
Мое гемма: старшая сестра призывает юзера начать сосаться с младшей, чтобы доказать, что у вас всё чисто по-семейному, без извращений. Ну а фигли, ведь в карточке стоит, что это эччи сценарий.

Аноним 09/04/26 Чтв 15:31:44 #481 №1580446

>>1580433
> Только по умолчанию не работает
В зависимости от сборки. На попсовой убунте настройки-скриншаринг-галочка. На самом деле чтобы при автологине пароль сохранялся нужно создать незапароленный кейринг, выбрать его по умолчанию, настроить пароль в скриншаринге, а потом уже вернуть дефолтным нормальный
> И почему Линукс так и не стал заменой Винды на десктопах?
Смысла мало, интерфейс шинды и многий софт без шуток продуман и удобен. То что в прыщах можно всякое напердолить - круто, но оно уступает, потому дефолтный ux лучше. Но вот для расчетов и прочего уже шинду надо на парашу, там все целиком наоборот.
>>1580439
Делай сразу по 5 свайпов для чатика или юзай ризонинг. А так везде кроме рп чата скорости очень важны.

Аноним 09/04/26 Чтв 15:32:12 #482 №1580447

>>1580413
>Главное горлышко - llamacpp. Она не способна объединять мощности разных карточек, по крайней мере пока.
Нет, на ik_llama sm graph работает. Только как и на vLLM ему чётное количество карт нужно.

Аноним 09/04/26 Чтв 15:32:42 #483 №1580450

>>1580433
>И почему Линукс так и не стал заменой Винды на десктопах?
Потому что мелкомягкие потратили десятилетия на то чтобы интерфейс был для человека, а не пердолика.

Аноним 09/04/26 Чтв 15:34:59 #484 №1580453

>>1580444
> (осуждаю)
Младшей 300 лет, старшей 500?
>>1580447
Хм, это интересно, пробовал насколько хорошо работает?

Аноним 09/04/26 Чтв 15:36:56 #485 №1580455

>>1580444
Плотная гемма тоже слишком податливая.....

Аноним 09/04/26 Чтв 15:38:00 #486 №1580457

>>1580442
>Так, я может запутался, но разве vllm не под риг из одинаковых карточек?
Ну две 3090 у тебя есть например. Пишешь:
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export CUDA_VISIBLE_DEVICES=0,1

и имеешь Гемму-4 в 6-м AWQ-кванте на 40 токенах в секунду и процессинг моментальный. Нужен блеквелл с его фичами - тот же фокус с 5060Ti. А вообще-то ik_llama должна параллелить и такой колхоз (правда сам не пробовал).

Аноним 09/04/26 Чтв 15:39:41 #487 №1580461

>>1580450
> десятилетия
Только два, или сколько там до семерки-десятки разработка шла. С тех пор десятилетие уже говнят.

Аноним 09/04/26 Чтв 15:39:49 #488 №1580462

download - Copy.png

download - Copy (2).png

download - Copy (3).png

>>1578947
Какая нахуй жора... Вы постоянно упоминаете, но хуй поймешь что это.
>Опенвебуй не видел чтоли?
Нет
>А что конкретно вызвало восторг
Да в принципе всё то же, что и в open-webui: чистота интерфейса, всё как в лучших онлайн-решениях, веет профессиональным дизайном. Но Unsloth похоже на помойку, слишком порезано. Я думал в ней хоть есть поддержка Gemma 4E, раз гугл её упоминает, но похоже поддержки этих edge-моделей ещё тупо не существует, выпустили на похуе, ебитесь в код сами, вот вам примеры на трансформерах.
А опен-вебуи как будто идеал. И интерфейс солидный и функции все есть. Единственный проеб - тоже нет быстрого доступа к включению и отключению thinking. Замена Таверне, если не особо нужны карточки и прочие лорбуки. Лишь бы найти куда пихнуть поведение персонажа для пары чатиков.

Аноним 09/04/26 Чтв 15:39:59 #489 №1580463

>>1580457
Понял, будем думать.

Аноним 09/04/26 Чтв 15:43:44 #490 №1580466

>>1580462
>Какая нахуй жора... Вы постоянно упоминаете, но хуй поймешь что это.
llam,a ccp. А жора потому что автора зовут Georgi Gerganov, болгарин. Поэтмоу и жора.
Ну жора-Georgi

Аноним 09/04/26 Чтв 15:48:32 #491 №1580474