Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №233 /llama/

Аноним 12/05/26 Втр 18:25:41 #1 №1610759

Llama 1.png

Карта деградации при квантовании по доменам.png

Реальная длина контекста у моделей 5.png

17760287290332320290.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Гайд для новичков: https://rentry.org/2ch-llama-inference
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1607859 (OP)
>>1605947 (OP)

Аноним 12/05/26 Втр 18:28:02 #2 №1610762

>>1610748 →
бамп

Аноним 12/05/26 Втр 18:32:14 #3 №1610765

Госпади как заебали кодоунитазы...
Вот были модели как модели, и резко пошли сухие ассистент-туллкал штуки, начинали же хорошо

Аноним 12/05/26 Втр 18:33:27 #4 №1610768

>>1610759 (OP)
Зайчики, мне нужно 2 модели:

1. Для перевода на разные языки - анг, яп, кор. Чтобы было флюентно и адекватно. Без концеляризмов.
2. Для обучения меня любимого асемблеру и луа, базовой программоте. Желательно, чтобы модель могла объяснить почему конкретная строчка кода работает так, а не иначе.
Железо простое, 12 4070 + 32 ддр4.

Какие модели посоветуете? Качество >>> скорость, но желательно чтобы не часы времени ожидать.

Если нужно какие-то особые настройки/промты для моих целей - подскажите и их, я вам спасибо скажу.

Аноним 12/05/26 Втр 18:37:49 #5 №1610770

>>1610768
DS4pro

Аноним 12/05/26 Втр 18:40:13 #6 №1610773

>>1610765
Кодоунитазы приносят деньги, ты не приносишь деньги

Аноним 12/05/26 Втр 18:41:31 #7 №1610774

>>1610669 →
А что такое вебуи и как ето настроить чтобы было хорошо? Алсо, что за гемма4 R18? Какой-то тюн?

Аноним 12/05/26 Втр 18:46:39 #8 №1610777

>>1610774
Дефолт гемма (просто пресет так назвал) + системник https://www.reddit.com/r/LocalLLaMA/comments/1sm3swd/gemma_4_jailbreak_system_prompt/
Овуи https://docs.openwebui.com/getting-started/ нужно ли оно тебе? Хз. Для простого чата хватит встроенного в жору интерфейса

Аноним 12/05/26 Втр 18:50:46 #9 №1610783

>>1610777
Добавлю. Гемма4 31 к8. Для этого варианта скорее всего можно было и без промпта с реддита т.к. всё в рамках приличия, просто такая привычка для 18+ брать этот пресет

Аноним 12/05/26 Втр 18:53:50 #10 №1610785

>>1610768
Gemma 4 31b для переводов лучше, но не знаю, как в Q4 у неё качество с этим, так что целься в Gemma 4 26b-a4b в Q8. Там меньше всего шанс на ошибки при переводе. Но с языками у текущих маленьких моделей огромные проблемы, даже у средне-больших они есть (даже если модель не сжимается). Лучше всего с этим справятся корпы, и то не все: Гугл, Антропик, ОпенИИ (в порядке убывания качества).

Для говнокода скорее всего подойдут Qwen 3.6 35b-a3b в Q8. Есть вариант получше, это Qwen 3.6 (или 3.5, возможно, будет качественней) 27b, но у тебя жопа скорее всего порвётся ждать ответ от него.

А вот с настройками тебе подсказывать лень и слишком долго. Потому что ты уже обосрёшься на этапе выгрузки из видеопамяти в оперативную МоЕ-моделей — бэк сделает это криво и у тебя будет медленно, хотя там делов на 5 минут, чтобы было быстро. Но ведь ещё нужно подобрать, сколько выгрузить, а потом семплеры адекватно настроить, и не измазаться в говне в виде LM Studio, Ollama.

Твои кейсы лучше всего покрываются корпами, если только хентай переводить не собираешься. Если в итоге не получится, а тебе впадлу платить западным педерастам и искать какие-то аккаунты и вот всю эту хуйню, можешь тупо сберовскую корпоративную нейронку юзать, лол. Она достаточно умна и вроде бы бесплатна, ну, в крайнем случае доплатишь. Всякие обходы не нужны. Твои задачи за копейки покроет.

Аноним 12/05/26 Втр 19:09:19 #11 №1610792

300 токенов обработки промпта в секунду на 50к контекста это совсем грустно или жить можно? И какие есть способы поднять скорость? Кроме покупки новой видяхи.

Аноним 12/05/26 Втр 19:11:14 #12 №1610793

>>1610792
Дефолтная скорость на мое. А куда тебе больше? Промпты меняешь каждую секунду? Или лорбук есть? Так лорбук даже с 2к в секунду будет медленным. Думай.

Аноним 12/05/26 Втр 19:15:58 #13 №1610794

>>1610793
Не, просто иногда бесит что с каждым ответом приходится ждать по минуте-две пока вся история загрузится, хотя я в одном чате всё пишу. Хотелось бы чтобы держалось в памяти дольше. Мб есть какая-то настройка? Сижу на мое.

Аноним 12/05/26 Втр 19:18:03 #14 №1610795

>>1610792
Размер батча увеличь, если память позволяет.

Если у тебя каждое сообщение такое происходит, это не норма. Наверное, у тебя квен. Используй смарт кэш в кобольде, он очень удобен. В лламе, если я правильно помню, чекпоинты контекста за это отвечают. Там каждые N контекста они сохраняются, поэтому полного пересчёта не будет.

Аноним 12/05/26 Втр 19:18:06 #15 №1610796

>>1610792
batch настрой, от 64 по 2048
-b 512 пример

Аноним 12/05/26 Втр 19:37:29 #16 №1610804

image.png

>>1610796
Поднял размер до 1024, стало заметно лучше, спасибо.
>>1610795
Чекпоинты у меня стоят, но почему-то иногда они могут сброситься, хотя я вроде сообщения не удалял.

Аноним 12/05/26 Втр 20:10:23 #17 №1610826

А если на уборщике рпшить, подключив локальный риг, то всё логи с локалки улетают уборщику? Это же срань какая-то.

Аноним 12/05/26 Втр 20:11:00 #18 №1610827

как то заебался я ollama и openwebui. старые модели не работают новые не заводятся аблитераты не аблитерируют. интерфейс у openwebui как говно.

угабуга пробовал, ебанутся на любителя, слишком дохуя ручек.
Lm-studio вроде удобно, но хуй знает, те же яйца только в профиль.

Короче у меня задачи - гонять токены между CumfyUI и LLM, местами коденг и ассистенты. Нужен RAG и прочие фишки. Ролеплей не интересен. Ассисты чтобы не ебанутся делая промпт для всяких диффузионных моделей.

какой бэк кроме олламы даёт АПИшку чтобы намертво связать Cumfy и языковки и чтобы это говно в VRAM не залипало. Заёбся уже руками каждый раз то одно то другое выгружать?

Аноним 12/05/26 Втр 20:12:53 #19 №1610829

>>1610826
>на уборщике рпшить, подключив локальный риг
Я даже не знаю, как назвать такую болезнь.

Аноним 12/05/26 Втр 20:16:45 #20 №1610833

>>1610765
Тебе выпустили медиум, выпустили паджитов, выпустили гемму, чего щачлом воротишь?
>>1610768
Кажется предложение "квен и гемма" можно добавить в шапку.
>>1610792
Все зависит от задачи. Для чата, или даже для кодинг ассистента, который только накапливает контекст, а не постоянно тасует разных агентов - вполне норм, частых ожиданий не будет. Для чего-то более динамичного - крайне мало.
Про батч верно сказано, особенно если выгружаешь - повысит радикально. Но увеличится жор видеопамяти.
>>1610827
Буквально какой угодно. Самый дефолтный ллама-сервер для этого создан. В комфи и ллама-сервере очистка видеопамяти производится запросом, в целом, можно автоматизировать.

Аноним 12/05/26 Втр 20:54:40 #21 №1610860

2026-05-1220-51-54.png

Пиздец та за шо? Ни разу не было упоминания животных или их ебли. Блять даже обидно стало. Было у когонить похожее?

Аноним 12/05/26 Втр 21:04:54 #22 №1610864

>>1610860
Штраф недотянул. Было выбрано слово 2, а не слово 1, педофилище.

Аноним 12/05/26 Втр 21:06:50 #23 №1610866

Ребят, у меня проблема.
Вы пробовали эир на родной разметке, вот прям сравнивать ответы чатмл вс глм разметка?
Я просто не могу насколько на родной эир лучше пишет именно диалоги, но скатывается именно в действия, которые мех, где куча воды и даже глазами это пробежать больно, не то что читать. Промптинг типа "use dialogue-driven narrative" будто ломает какой то баланс и нарратив и диалоги становятся скучнее, и даже проблему это не фиксит. Всё что остаётся это свайпать, иногда очень долго свайпать.
Задаюсь я этим вопросом потому что ну не может быть что я один с этой проблемой, значит у других её нет, значит они на чатмл, ведь её там сильно меньше. Возвращаемся к вопросу: сравнивали ли вы ответы? Я чатмл сколько не терпел, ну не могу я, бред.
Дополняю вопрос тем: а хули молчат что на реддите что в дискорде, ведь они то по любому на родной разметке сидят. Или всем просто нравится такое после мистралей, где наратив 2 строчки и модель дальше не знает что написать? Или никто всерьез на мое не задержался получив 7т.с вместо 30 на плотных и им это важнее? Я один на эире?
Суммирую: мне надо знать что я не шизофреник и такое встречается у всех и как это коупить не прибегая к чатмл

Аноним 12/05/26 Втр 21:10:04 #24 №1610869

>>1610864
Че за штраф? Типа 1 слово сменилось другим? Да и другого тоже не было, боже упаси бля. Если тут в треде в порядке вещей ебать анимешных лоль это не значит что я такой же.
Весь конверсейшн который уже на 50к токенов было довольно ванильно и тут хуякс нах.

Аноним 12/05/26 Втр 21:11:05 #25 №1610870

>>1610866
Ответил бы тебе, да не помогаю шитпостерам семенам извини(

Аноним 12/05/26 Втр 21:53:58 #26 №1610886

>>1610773
С чего ты взял? Пусть ставят чисто рп модель и без цензуры, принесу. Так ведь они нихуя не сделают ни одного ни другого.

Аноним 12/05/26 Втр 22:00:33 #27 №1610887

>>1610768
>Для перевода на разные языки
https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit-GGUF
Пробуй. Если слишком сухо то 26ba4 гемма
Ничего лучше скорее всего не будет. Ну может qwen 27b, но готовься что это будет очень медленно

Аноним 12/05/26 Втр 22:16:11 #28 №1610900

>>1610785
>Для говнокода скорее всего подойдут Qwen 3.6 35b-a3b в Q8
Есть мнение что если из этих MoE выбирать для говнокода - то лучше уж гемму. В отличии от плотных 3.5/6 27B у квена MoE очень уж слабенько в коде. Регулярно ломал мне исходники перепахивая их в неудобоваримую кашу, когда я его тестил. А вот 27B никогда не позволял себе прямо испортить то, что уже работает. MoE гемма в этом несколько лучше себя показала, тоже работает более осторожно, но до плотных квенов все равно не дотягивает.

Аноним 12/05/26 Втр 22:28:53 #29 №1610906

>>1610860
Ну а ты у модели спросил, почему так написано? Спроси, возможно, там будет какая-то интересная логическая цепочка, если квант не совсем лоботомированный и высрал случайный токен, а дальше понесло. Ну или как другой анон написал. Мне даже самому интересно.

Аноним 12/05/26 Втр 22:44:12 #30 №1610913

>>1610860
Может квант сиранул. Может просто обзывашка не относящаяся к тексту логически. Людей же называют свиньями

Аноним 12/05/26 Втр 22:45:01 #31 №1610914

>>1610906
Да я спросил потом. Кароче модель выкрутилась так что мол это была проверка, замечу я это слово среди повседневной фразы или нет. Типа это слово описывает мои действия которые я делал ранее по сюжету, весьма некрасивые. Или что-то типа того. Кароче нейронка выдала зоофил как метафору на мои некрасивые действия (определенного характера). Так что как будто бы нейронка специально меня обозвала лул. В промпте кста я даже не писал что "можешь ругаться" и все такое. Вообще пушка что модель такое выдала я прибалдел. Один из немногих моментов когда она по-настоящему удивила а не следовала начальному промпту.

Аноним 12/05/26 Втр 22:48:39 #32 №1610916

>>1610914
>за некрасивые действия (определенного характера) в отношении животных меня назвали зоофилом
>зашто???
Это троттлинг ГПУпостью или где?

Аноним 12/05/26 Втр 22:50:43 #33 №1610917

>>1610916
Ну ты дурак что ли ебать? Не было животных в тексте поэтому и принес в тред

Аноним 12/05/26 Втр 22:59:30 #34 №1610919

16757129291960.mp4

>>1610917
произошёл пэт плэй

Аноним 12/05/26 Втр 23:06:57 #35 №1610930

Блять я ненавижу квен. Пробую не в рп а помощником в установке всего 1 хуйне и эта тварь уже минут 30 меня ебет давая каждый раз не верную кривую команду сука. Еще блять говорит вот сейчас точно сработает.

Аноним 12/05/26 Втр 23:08:52 #36 №1610934

>>1610768
По первому есть гемма транслятор, не помню как называется точно, она хорошо раскидывает языки. А по второму хз, вроде девстраль была для кодеров. Но сейчас наверно устарела.

Аноним 12/05/26 Втр 23:26:41 #37 №1610938

>>1610930
>Еще блять говорит вот сейчас точно сработает
вскрикнул
а лучше него ничего нет в этой весовой категории прикинь

Аноним 13/05/26 Срд 00:11:09 #38 №1610953

>>1610914
А что ты сделал? Если там какая-то тонкая ирония была на тему того, что ты кошкодевочку трахнул, то это может быть занятно, мол человек, а каких-то полулюдей ебёшь, ффубля, зоофил. Ну если персонаж такого характера или это хоть как-то вписывается в сеттинг. А если канничку, то она просто токены перепутала. Видать, ASSсистент побоялся юзера таким СТРАШНЫМ словом назвать, которое могло быть вместо зоофила.

И так как спрашивал, у персонажа или out of character?

Аноним 13/05/26 Срд 00:20:14 #39 №1610960

>>1610930
Информацию ей дай, справку там. Кинь в контекст или просто дай доступ к поиску
Вобще так делать не доложна, а если уж начала то сноси контекст до места где начала и по новой

Аноним 13/05/26 Срд 00:21:05 #40 №1610961

>>1610953
Спрашивал у персонажа. В скобочках указал выражение и спросил "Что?".
Я оказывается напиздел, я писал что чувствую себя словно по мне слон прошелся. Может из-за этого нейронку триггернуло. Энивей объяснение от персонажа почему он использовал это слово это пиздеж, а узнать причину конкретную невозможно ведь.
Алсо, я писал в стартовом промпте "Пиши в стиле Кормака Маккарти". В гугле рандомно искал стили чтобы разнообразить писанину нейронки. Может он как-то с зоофилией связан я хуй знает. Или слон или писатель, третьего не дано, не было никаких предпосылок вообще
Капчу усложнили что ли сука? Я редко пишу на двачах раньше проще она была

Аноним 13/05/26 Срд 00:22:15 #41 №1610962

>>1610961
>Энивей объяснение от персонажа почему он использовал это слово это пиздеж
это налет шизы фикс

Аноним 13/05/26 Срд 00:54:09 #42 №1610977

Давно заметил, что полная перезагрузка модели иногда может делать странные вещи. Может вытащить из лупов, лучше начать следовать карточке или инструкции, или в принципе бустануть креативность и начать выдавать более оригинальный текст. Почему так вообще происходит? Контекст ведь не меняется.

Аноним 13/05/26 Срд 00:59:07 #43 №1610978

>>1610977
>Почему так вообще происходит?
Жора сломан.

Аноним 13/05/26 Срд 01:03:53 #44 №1610979

>>1610977
Перерасчет кеша = контексту. Фактически дефрагментация памяти LLM

Аноним 13/05/26 Срд 01:41:06 #45 №1610986

>>1610961
Чат на русском был? Модели "думают" на англе даже без ризонинга и переводят туда-сюда по месту. Возможно случился надмозг.
Например слон прошёлся по мне = an elephant came (all) over me

Аноним 13/05/26 Срд 02:44:29 #46 №1610994

Поясните за такой момент. Допустим, рп-шу в силитаверн, врам занят, озу частично тоже. Можно ли сюда еще добавить генерацию изображений как часть ответов?
И если можно то брать какую-то легковесную генерилку изображений или брать обычную, которая в врам влезает и оно как-то будет свапаться?

Аноним 13/05/26 Срд 02:47:24 #47 №1610995

>>1610994
В прошлом обсуждалось как жонглировать, но я бы не запаривался и купил отдельную карточку под картинки, для условной анимы хватит и 8гб

Аноним 13/05/26 Срд 05:51:14 #48 №1611013

image

https://huggingface.co/mradermacher/sarvam-30b-uncensored-GGUF

Анцензоред сарвам зарелизен мрадермахером. Поддержка ламой из коробки. Скорость высокая, цензуры нет, ризонинг мощный. Пишет на инглише пикрелейтед, годнота.

Аноним 13/05/26 Срд 06:03:25 #49 №1611015

>>1611013
Блять я прочитал это с очень карикатурным паджитским акцентом, как же это уморительно. Но насчет модели - если она не может в русский, то нахуй не нужна. 2.5 лярда активных параметров это еще меньше чем у квена и геммы, которые могут и в мозги и в русский. Ну а бенчить модели на английском это прикол какой-то, нет ни одной модели которая бы не могла. Вот тут даже индусы смогли.

Аноним 13/05/26 Срд 06:15:38 #50 №1611016

>>1611015
Зато общих 30 миллиардов. И знает все про индусов. Русский понимает, если на нем запросы писать и описания персонажей, но выводит только на английском, даже если просить перейти на русский.

Аноним 13/05/26 Срд 06:17:38 #51 №1611017

>>1611013
https://huggingface.co/mradermacher/sarvam-30b-uncensored-i1-GGUF
Иматриксы тоже вышли.

Аноним 13/05/26 Срд 06:24:29 #52 №1611019

>>1611016
>знает все про индусов
Мне тоже кое-что известно про индусов, но на обниморду меня не выставляют. Хотя всё что я знаю про индусов я знаю против своей воли.

>Русский понимает, если на нем запросы писать и описания персонажей
Это как бы не показатель от слова совсем. На инпут почти все модели понимают русский, кроме совсем-совсем старых. Даже оригинальная третья лама 8B понимала.

Аноним 13/05/26 Срд 06:37:21 #53 №1611021

>>1610866
Понятно.
Я буквально единственный человек в треде кто запускает эир.
Вон, тут даже сарвам обсуждают строго 30б, про 100б мое не заикаются даже.
Видимо реально рам тут у 4 человек есть, один квеношиз 235, другие 2 на глм 4.7 и я на эире, всё.

Аноним 13/05/26 Срд 06:47:33 #54 №1611027

>>1611021
Откуда на дваче мажорчики то с дорогими видюхами и рамом? Тут 3060 топовая карта.

Аноним 13/05/26 Срд 07:01:48 #55 №1611033

>>1611021
>Видимо реально рам тут у 4 человек есть
Это правда, у меня лично даже рам нет, я через колаб запускаю. Спасибо опушку что дал колаб.

Аноним 13/05/26 Срд 09:42:01 #56 №1611072

>>1611013
>>1611017
Кстати у меня сарвам быстрее геммы и квена на 2-4 t/s. Видимо сказывается меньшее число активных параметров. Самая скоростная моделька из годных с ризонинг и анцензоред.

Аноним 13/05/26 Срд 09:42:15 #57 №1611073

>>1611021
Ну почему. 10 из 80 постеров точно его запустить могут.

Аноним 13/05/26 Срд 10:09:56 #58 №1611084

>>1610994
Гугли llama-swap
Оно и такое умеет.

>>1611021
Ну, я с ним много игрался в прошлом году. Но с выходом qwen3.5 и gemma 4 - забил на него полностью. По сравнению с ними, Air уже не интересен, вне зависимости от пресетов. (Мне не интересен, в моих сценариях применения).
Те проблемы что ты описал у него - не лечатся принципиально, IMHO. Смена разметки немного меняет характер вывода, но модель принципиально "вязкая" (начинает пережевывать одно и то-же как жвачку), плохо сама развивает сюжет, излишне фокусируется на одном персонаже из группы - и это никак не убрать, если не водить за ручку, и не пинать вручную за каждый косяк.

Аноним 13/05/26 Срд 10:56:46 #59 №1611106

>>1611084
> но модель принципиально "вязкая" (начинает пережевывать одно и то-же как жвачку), плохо сама развивает сюжет, излишне фокусируется на одном персонаже из группы - и это никак не убрать, если не водить за ручку, и не пинать вручную за каждый косяк.
Из коробки так делают все глмы, даже 5.1, в который упихали аж 754b параметров. Но если большой глм лучше следует инструкциям, то вот эйр да, нужно каждый раз пинать. Впрочем, я эйр мало гонял, квен как-то больше зашёл.

Аноним 13/05/26 Срд 13:07:29 #60 №1611161

>>1610960
Да наверное это у меня чет сломано в питоне. Я просто не гумунитарий от слова совсем хотел.
Хотел вкатится во флюкс/ван а им нужна такая штука как triton который только через команду можно установить. Все попробовал он уже повторяться начал
А про доступ к поиску это как? Я в лм студио сижу.

Аноним 13/05/26 Срд 13:21:26 #61 №1611174

>>1611161
Попробуй позадавать вопросы в "режим ии" гугла

Аноним 13/05/26 Срд 14:01:17 #62 №1611194

>>1608002 →
>>1607900 →
UPD: Увы, по итогу не зашла модель. Она в целом умная (но недотягивает до 4.7 в нищекванте), с неплохим слогом. Видно, что кушала художественные тексты. Размер интересный для моего железа (24+128), и квант не самый-самый плохой уместился, UD-Q3_K_XL (3.6bpw) против UD-Q2_K_XL (3bpw) 4.7: для моего железа лучше нет, больше не уместить. Контекст до 40к держит точно, даже в чате на 6 персонажей.
Однако есть одно большое но: это почти Гемма 3 с точки зрения сои и байаса. Возможно, не так интенсивно, но суть та же. Иногда может хард рефузить-аположайзить (очень давно не видел такого), но чаще уходит в какие-то софт рефузы или "режим манекена": чар просто не проявляет никакой инициативы, возможно, иногда приговаривает что-то вроде "I don't know how to do this..." "Tell me what to do". И самое печальное - нарратор то и дело напоминает о муках чара. "The shame, while it was still there..." Хотя ничего страшного в чате и не происходит, обычная холсом стори-ромком. Посвайпал, нарвался на аполоджайс: "I can't help to continue this story. While it is consensual and both characters present are adults, it depicts a sexual relationship between a teacher and a student." Можно свайпнуть и получить очередное "I don't know how to do this..." или прочее топтание на месте.
Короче говоря, модель топчется на месте, когда хочет зарефузить, но не делает этого.
Также ближе к 40к уже отчетливо видны структурные лупы, перетягивание фраз из контекста и прочее. Возможно, недожал сэмплеры, но и желания разбираться нет: зачем? Гонял на температуре 0.8, minp 0.05. Пробовал сначала с rep pen 1.05, затем с adaptive p 0.5-0.9, не помогло.
Такие дела. Жаль, неплохая моделька могла бы получиться, если бы не внезапный алайнмент, доходящий до абсурда. Это проявляется и в SFW чатах. Например, если отпустить какую-то противоречивую шутку, чар может ее проигнорировать, хотя ты знаешь, что in-character реакция должна быть другая. Модель как бы включает режим страуса и прячется от всего нехорошего в песке или переливании из пустого в порожнее.
Имхо, по-прежнему для 24+128 нет ничего лучше ~3bpw квантов 4.7, UD 2 K XL на Лламе и IK кванты на форке Кавракова. Они прекрасно справляются до 32к контекста. Ясное дело, это компромисс, но для рп на данном железе нет ничего "умнее" и с лучшим слогом. Если задействовать только гпу - Квен 3.5 27б очень неплохой, и я на нем и его тюнах и сижу в последнее время. Но хочется, конечно, и ума, и скорости. МоЕшку в пределах 150-300б.
Присоединяюсь к ждунам и надеюсь на МоЕ от Cohere, коммиты для которой мелькали в vLLM. Кстати, уже какое-то время назад, а новостей все нет.

Аноним 13/05/26 Срд 14:03:53 #63 №1611195

Кстати, попробовал поиграться с разметкой, весь чат оборачивая в ответ ассистента:
<|im_start|>system
(инструкции, карточка и прочее)<|im_end|>
<|im_start|>assistant
(весь чат от и до)
Таким образом, модель считает, что генерирует ответ-самое первое сообщение в чат, и все это сообщение - одна история, написанная и продолжаемая моделью.
На примере Геммы, структурных лупов гораздо меньше, сам текст ощущается живее и органичнее.
Видимо, сама идея создания второго (или N-го) респонса подводит модель к лупам. Даже если парсить перед этим весь чат в законченное первое сообщение (для простоты на примере ChatML):
<|im_start|>system
(инструкции, карточка и прочее)<|im_end|>
<|im_start|>user
(весь чат от и до)<|im_end|>
<|im_start|>assistant

И весь этот чат вычищен от каких-либо лупов (можно даже взять настоящий текст, написанный человеком, писателем), модель все равно почти всегда начнет ответ либо с The, либо с {{имя персонажа}}. Потому что сам ее ответ, пусть позже и станет частью единого чата-частью первого сообщения, на момент генерации этих токенов является отдельным ответом. Сама идея мультитурна по-прежнему присутствует и создает структурные лупы.

Но есть другая проблема - если делать по примеру выше, парся весь чат как самое первое сообщение в нем от лица модели, в какой-то момент модель перестанет генерировать токены. Технически это не слом разметки: можно сказать, это просто очень длинное первое сообщение. Не знаю, с чем связано такое поведение. Вероятно, у каждой модели есть предел токенов на один ответ, при достижении которого она дальше не генерирует.
Не говоря уже о том, что не работает ризонинг (модель считает, что она уже в процессе написания ответа, а ризонинг всегда перед ним), нельзя инжектить инструкции с системными тегами и много что еще.
Если кто пробовал так делать и добился вменяемых результатов - поделитесь.

Аноним 13/05/26 Срд 14:21:25 #64 №1611206

>>1611194
Я его потыкал, помыкал. Без ризонинга можно кумить. Нормас прям и конекст держит.
С ризонингом все веселее и хуже. Долгий, квеновский с его but. Соев.
И уже есть соевый минмакс. Вот только у соемакса ризонинг один из лучших, все по делу и пишет SFW приятней. Так что моделька интересная, дыа. Но смысла в ней не вижу.

Аноним 13/05/26 Срд 14:23:46 #65 №1611208

>>1611206
Не поддержу насчет Минимакса. На мой взгляд это что-то на уровне Мистралей 24 по письму. Персонажи ломаются только в путь, при первом удобном случае, следование инструкциям ужасное. Лучше уж на 235 сидеть, чем коупить, что новая модель лучше.
>>1611194
Дополню, что играл БЕЗ ризонинга. На слоуберн прожаре, который был представлен в логах в прошлом треде. И все равно ловил рефузы.

Аноним 13/05/26 Срд 14:28:09 #66 №1611209

>>1611208
На соемаксе надо сидеть только с ризонингом и только в sfw. Сорян. Ну вот такая модель. А ты по-любому вырубил ризонинг и полез трахать 900 летних вампирш трансформеров. Ну или кодить. Тут он весьма ебов.

Аноним 13/05/26 Срд 14:33:14 #67 №1611213

>>1611209
> А ты по-любому вырубил ризонинг и полез трахать 900 летних вампирш трансформеров. Ну или кодить.
Хехе, как раз нет. SFW, тестил с ризонингом, и без. Все те же чаи гонял, на этой карточке тестирую последние модели. Скромная тихоня запросто становится истеричкой, требует внимания к себе, а хладнокровная манипуляторша устраивает скрыв покровов, масок и хочет любви, и все это буквально на третьем-четвертом аутпуте. Оба Минимакса такие, что 2.5, что 2.7.

Квен 235 тоже легко ломает персонажей, но хотя бы не делает это так быстро и гораздо лучше держит контекст. Умеет отпускать прикольные шутки и в целом острит, а Минимакс... ну, не знаю я, в чем его сильная сторона. Если тебе заходит - клево, а я так и не смог распробовать.

Аноним 13/05/26 Срд 14:39:48 #68 №1611217

>>1610930
Если ллм ушла в цикл ошибок - иногда проще будет просто все откатить и заново запустить, или помочь и объяснить ей почему не срабатывает. Это справедливо от мало до велико, но те что покрупнее имеют больше шанс самим разобраться.
>>1611021
> Я буквально единственный человек в треде кто запускает эир.
Один поехавший, с выходом новых моделей на него все забили.
>>1611194
Довольно неприятный минус. Стоит дождаться обнов и фиксов, может эта часть выпятилась не сама по себе, так уже бывало.
Там, кстати, от паджитов ~100б моэ вкидывали, не пробовал?
>>1611209
> вырубил ризонинг и полез трахать 900 летних вампирш
А что еще делать?
А вообще у него очень странная соя и поведение. Бывает жесть или блядство пропускает-проявляет, а бывает на безобидные вещи внезапно триггерится и вообще все блокирует нахрен. Понятно что рандом семплинга, но это выглядит гораздо страннее чем у других.

Аноним 13/05/26 Срд 14:40:41 #69 №1611218

>>1611195
>На примере Геммы, структурных лупов гораздо меньше
Сижу на похожем, только вся чат хистори от юзера - мое гемма (или меромеро) всё равно лупится как мразь. Проблема в том, что она лупится уже в рамках одного реплая, где никаких чередований тегов и так нет.

Аноним 13/05/26 Срд 14:46:14 #70 №1611223

>>1611217
> может эта часть выпятилась не сама по себе, так уже бывало.
Мне с трудом верится, что кривая имплементация архитектуры или кванты могут вызывать цензуру. Не встречал такого. Ладно бы это было хаотично, так нет - вполне последовательно, либо софт рефузит, либо уходит в аполоджайс. С какими моделями такое было?
> Там, кстати, от паджитов ~100б моэ вкидывали, не пробовал?
Там один единственный квант от них же, Q4_K_M, и больше никто не квантовал. Пока не пробовал, я даже не уверен, что оно нормально работает. Могу и хочу вместить Q6, дождусь привычных квантов.
>>1611218
> вся чат хистори от юзера
Только так и сижу на всех моделях в последнее время.
> мое гемма (или меромеро) всё равно лупится как мразь
> Проблема в том, что она лупится уже в рамках одного реплая, где никаких чередований тегов и так нет.
К сожалению, все так. Инстракт так же делает, что 26б, что 31б. Такая модель.

Аноним 13/05/26 Срд 14:47:13 #71 №1611224

>>1611194
>it depicts a sexual relationship between a teacher and a student
Я так и не смог понять почему это проблема. Я даже у геммы/квена просил развёрнуто объяснить с полным блоком ризонинга где же собака зарыта, но кроме "в омерике низя трахоть студентаф, зоприщено!!111!", ничего так и не смог добиться. И ладно ещё гуглогемма, но почему китайский квен делает проход в звёздно-полосатые законы так и осталось загадкой. А вот мистрали этим не болеют и спокойно дают сношать студенток. Жаль у нас нет строго японской модели, ух там-то...

Аноним 13/05/26 Срд 14:49:00 #72 №1611225

>>1611194
Поддержку дипсика флеша жди. Либо может уже есть говнофорки рабочие, тогда иди пробуй.

>И самое печальное - нарратор то и дело напоминает о муках чара
Отлично, значит сажаем ryon-у писать

Аноним 13/05/26 Срд 14:49:29 #73 №1611226

>>1611223
>дождусь привычных квантов
Тем временем solar помните еще такой? до сих пор не квантанул ни бартовски ни анслот

Аноним 13/05/26 Срд 14:53:47 #74 №1611228

>>1611225
Не уверен, что там даже 3bpw квант влезет. Еще меньше - это совсем тоска и того не стоит.
>>1611226
От Mradermacher были кванты. Пробовал его, даже отписываться не стал. Для рп/сторителлинга это что-то на уровне GPT OSS. Видимо, для остальных юзкейсов тоже не очень впечатлило, вот никто и не заморачивался с квантами.

Аноним 13/05/26 Срд 15:03:42 #75 №1611231

>>1611223
> могут вызывать цензуру
Не конкретно цензуру, а жесткое и прогрессивное выпячивание одного из аспектов модели, на фоне которого остальные теряются. Вайбкодил иллюстрацию этой штуки - распределение активаций вместо условно равномерного становится более разреженным с рядом резких пиков. То же самое происходит и при сильно агрессивном квантовании, а сильнее всего сказывается если квантовать атеншн. Чсх, если специально "портить" то модель очень долго с виду сохраняет работоспособность и общую логичность, но сразу исчезает вся тонкая перцепция и выпячиваются странности.
На мимо не проверял, потому что тут банально неоткуда референс для сравнения вытащить без аренды, но для этого есть все предпосылки.
> даже не уверен, что оно нормально работает. Могу и хочу вместить Q6
А сам не пробовал квантовать? Вроде поддержку в лламе заявляли.

Аноним 13/05/26 Срд 15:06:20 #76 №1611233

>>1611217
>с выходом новых моделей на него все забили.
Доо братан доо....
Не подскажешь, какая такая новая мое модель затмила эир для 24 врам + 64 рам? Может я пропустил.

Аноним 13/05/26 Срд 15:07:58 #77 №1611234

>>1611233
Как ты мог предать своего немотрона 49?

Аноним 13/05/26 Срд 15:15:41 #78 №1611239

>>1611231
> распределение активаций вместо условно равномерного становится более разреженным с рядом резких пиков. То же самое происходит и при сильно агрессивном квантовании, а сильнее всего сказывается если квантовать атеншн
Справедливо. В конкретно моем случае, аттеншн не квантован, но это в целом околонищеквант, и я не удивлюсь, если есть какие-то косяки в имплементации.
> А сам не пробовал квантовать? Вроде поддержку в лламе заявляли.
Увы, не настолько заинтересован, чтобы качать 400гб+ весов.

Аноним 13/05/26 Срд 15:31:01 #79 №1611247

6127983028.jpg

>>1611233
квен 3.5, гемма 4

Аноним 13/05/26 Срд 15:39:50 #80 №1611252

>>1611247
Но эй, пользователь указал 24врам + 64ram
Надо это обдумать: что пользователь имел в виду. Это значит что у пользователя 24 единицы врам.
24 это сумма 20 и 4. Но эй, пользователь уже назвал модели. Надо проверить их размеры.
Но эй, пользователь упомянул конкретный сетап. Значит мне надо составить список для размышления:
1.пользователь…….
</nothink>
Анон nods.

Аноним 13/05/26 Срд 15:44:25 #81 №1611254

>>1611252
Wait! What if anon pizdit? It may be lie. I need to check out fuckts...

Аноним 13/05/26 Срд 15:53:03 #82 №1611257

>>1611254
Hmm.. So I should write fuckts.. But wait! The user wants me to check.
So i check
1. Gachi porn
2. Nemotronoshiz
3. Op-post
Actually, let me think about this differently. I should write in English, as the conversation is in English, and the user's instructions are in Russian and English. The narrative is in English.
Let me also think about what's.....

Аноним 13/05/26 Срд 16:01:21 #83 №1611261

>>1611257
Let me think!
Wait... User said 'Nemotronoshiz'. This is not a part of instruction or system note, so I can skip this and proceed next. Wait... it's 'user' not 'User'. It may be mispelling. Let me check this again.
Wait...

Аноним 13/05/26 Срд 16:46:28 #84 №1611273

1740430467775.jpg

1737182230259.jpg

Аноним 13/05/26 Срд 17:27:43 #85 №1611288

Если бы у вас был комп за 5кк(9995wx, 2тб озу, 2х6000ртх на 192гб врам) что бы мы на нем делали?

А за 10кк - 2 эпика 9965, 6тб озу, 4х6000 про на 384 врам - то каковы его возможности

где реальный потолок прикладных локальных ллм на мощной воркстанции и дальше смысла расти и обучать нет?

Аноним 13/05/26 Срд 17:39:54 #86 №1611301

>>1611288
на таком можно васянотюны делать и собирать донатики

Аноним 13/05/26 Срд 17:40:44 #87 №1611302

>>1611288
Имхо в первый сетап просто 4х 6000про, сингл эпик и на сдачу врамы

Аноним 13/05/26 Срд 17:43:12 #88 №1611304

>>1611288
>192гб врам
Кими не влезет. И даже последняя мистраль не влезет в высоком кванте. Что это за нищесборка?
>>1611301
Можно не ебаться с тюнами и моделями в принципе, а просто генерить высокококачественную порнушку с фурями/лолями/чертями и впаривать гоям как собственное творчество. Или даже нет, сейчас кажись всем стало глубоко похуй, делаешь ты калтент вручную или юзаешь нейронку. Главное чтоб дрочилось збс.

Аноним 13/05/26 Срд 17:44:03 #89 №1611305

>>1611228
А про step flash что скажешь в сравнении с тем же 4.7?

Аноним 13/05/26 Срд 17:44:33 #90 №1611306

>>1611304
> мистраль
128b q8

Аноним 13/05/26 Срд 17:53:48 #91 №1611312

>>1611305
Для рп и прочих креативных задач он пережарен. Не уголь, но печально. Они выкладывали midtrain, но там каким-то образом еще больше пережара и слопа. Очень слопится. При этом мозги у него есть, почти на уровне 4.7, и в диалогах может выдать абсолют синему. Но после 12-16к безбожно будет слопиться, и ничего с этим не поделаешь. Игра с разметкой, с всеми на свете пенальти, с промптами, ни к чему не привели. Для кода внезапно хорош, особенно если надо оптимизировать что-то непростое, дружит с логикой и математикой. Использую для дебага в ограниченных сценариях.

Аноним 13/05/26 Срд 17:55:13 #92 №1611313

>>1611306
>UD-Q8_K_XL - 145 GB
Чёт я перегнул размер канеш. Влезет. Я бы её на такой сборке катал. И наверно только её. Более интересной и свежей плотняши сейчас нет.

Аноним 13/05/26 Срд 18:00:39 #93 №1611318

>>1611312
Ну то есть как квен 235. Почему ты про него вспомнил в сравнении с минимаксом, кстати? Есть смысл попробовать его ещё раз?

Аноним 13/05/26 Срд 18:03:48 #94 №1611319

>>1611313
А покажи примеры результатов на ней

Аноним 13/05/26 Срд 18:04:39 #95 №1611320

>>1611318
Квен 235 который с радостью будет описывать как тянка тебе будет отрезать яйца и минимакс где все происходит за кадром это модельки разного назначения.
Да, квен235 это по сути труЪ кум модель.
Минимакс это на уровне мимо, соларов. Крч, агентики и помощники. А 235квен у нас такой один, аутичен, слопичен, квенист и пиздат.

Аноним 13/05/26 Срд 18:08:51 #96 №1611322

>>1611318
> Ну то есть как квен 235.
Хуже. Квен 235 управляем, иногда сквозь пот и слезы, но управляем. А иногда и вовсе не требует борьбы с ним и просто доставляет, в зависимости от сценария и желаемого результата.
> Почему ты про него вспомнил в сравнении с минимаксом, кстати?
Потому что они похожи. Одна размерная категория, обе - китайские МоЕ, обе - ломают персонажей и слегка пережарены. Но у одной, имхо, хотя бы есть достоинства, а у другой - только недостатки. Причем, в случае Квена эти недостатки вылезают позже и тоже в целом управляемы.
> Есть смысл попробовать его ещё раз?
Кто ж знает?

Аноним 13/05/26 Срд 18:13:41 #97 №1611323

>>1611322
> Квен 235 управляем
Да нихера он не управляем. Он всегда где то в районе течения. Ты каждое сообщение бьешь его по нейронной жопе, потому что модель каждый ответ: ЕБАТЬ Я КВЕН, Я ЛЮБЛЮ ПУРПУРНУЮ ПРОЗУ
И
ПИСАТЬ
ВОТ ТАК
ООООО Я СЕЙЧАС НАХУЯЧУ ТУТ КИНО. Что у нас? Киберпанк? Ща все нахуй в имплантах, протезах и неоне будет. Даже зубы сделаем из карбона. Фентези и магия? Ну это же очевидно. Эльфийка Элара древний демон некромант домина!

Аноним 13/05/26 Срд 18:13:54 #98 №1611324

>>1611304
Саму порнушку не продашь особо, думаю. А вот порно-файнтюнами торгуют только в путь, на цивите все годные файнтюны в раннем доступе, а некоторые вообще в патреон засунули, а на цивите только показывают картинки

Аноним 13/05/26 Срд 18:18:01 #99 №1611325

>>1611323
Уже сколько было Квеновых войн? Четыре, пять? Да, он пережарен, но тысяча и один способ уже были предложены как это контрить. У меня были чаты, в которых 64к контекста, и никаких
сумасшедших
переносов, как и слопа. Вместо этого, это были нормальные чаты. Впервые, за многие попытки.

Однако это сложно и доставляет больше боли, чем радости. Сам я Квеном 235 не пользуюсь, но утверждать, что он сломан абсолютно не стану. С ним сложно, но можно справиться. Новую войну начинать не стану, не веришь - и ладно, я уже мозоли в свое время набил, рассуждая на этот счет, и больше не хочу.

Аноним 13/05/26 Срд 18:19:16 #100 №1611327

>>1611325
> как и слопа.
Как и вездесущего слопа*
От слопа и репетишена на нем не убежишь, это да.

Аноним 13/05/26 Срд 19:05:53 #101 №1611348

>>1611239
> В конкретно моем случае, аттеншн не квантован
В mimo атеншн выложен в фп8 (кроме выходной проекции) и его нет среди нативных форматах ггуфа. То есть скорее всего там сначала шел апкаст в бф/фп16 и применение скейла блоков для "восстановления" а потом новая переупаковка уже в int8. Без специальных мер будут довольно серьезные потери при том что экономии объема почти нет.

Другая проблема в том как идет инфиренс. В нативных фп8 происходит клемплинг активаций и модель к этому привыкла, если утрировать то на "триггеры сои" могут быть стоять большие веса, но результат все равно будет обрезан. Если же апкастить все это дело в бф16, то их пики могут улететь в космос и после применения softmax/sigmoid затмить все остальное, тогда как в нормальном режиме был бы умеренный учет с балансом вокруг всего остального. Кстати, возможен и обратный эффект - если аккуратно заквантовать все в фп8/nvfp4 то можно сгладить острую реакцию на всякое.
И не соей единой - в ллм в принципе на любые сильные смысловые концепции или задрочку rlhf встречаются выбросы. Собственно это триггерит буквально все на что тут жалуются - гиперцензура, неуместные софтрефьюзы, структурные и прямые лупы, перекосы внимания. С агрессивным квантованием это тоже проявляется, имеет другую природу но схожий результат.

Аноним 13/05/26 Срд 19:20:34 #102 №1611354

>>1611288
> 2тб озу
Хочется
> 9995wx, 192гб врам
Мэх
> где реальный потолок прикладных локальных ллм
Ну смотря что ты вообще делать собрался там. Инфиренсить будет приятно для чата, но медленновато для активной агентной работы потому что в рам не может быть быстрого инфиренса. Обучать - в 4х96 можно вместить что-то типа 30б, если капитально ужаться и перейти на фп8 то можно замахнуться на что-то типа мистраля3.5 медиум, но высок шанс соснуть.
>>1611304
> И даже последняя мистраль не влезет в высоком кванте.
Она нативная ~134 гига, с добрым утром.

Аноним 13/05/26 Срд 19:33:19 #103 №1611357

image.png

>>1611195
Я всё сделал правильно?
Я чекаю консоль таверны на правильном темплейте и потом делаю чтобы было так же на безжопе. Все должно быть правильно!

Аноним 13/05/26 Срд 19:36:05 #104 №1611359

>>1611357
Даже не знаю...

Аноним 13/05/26 Срд 20:04:08 #105 №1611377

>>1611231
>Вайбкодил иллюстрацию этой штуки
Покажешь?
>>1611233
Гемма 4, которая не страдает >>1611252
>>1611273
Хули ты социальные связи не укрепляешь? Бонды должны расти.
>>1611325
>Квеновых войн? Четыре, пять? Да, он пережарен
До геммы 4 со своей пережаркой он явно не дотягивает.
>>1611348
>сначала шел апкаст в бф/фп16
Какой же код квантования наркоманистый. Нет, серьёзно, сколько уже проблем с конвертацией туда-сюда? Вон, у геммы 4 в квантах почти все слои апксатнуты в FP32, лол.

Аноним 13/05/26 Срд 20:22:04 #106 №1611396

Как rpc пользоваться с разных компов? Ллама сервер запустится так?
Ну или бенч хотя бы, хотел потестить

Аноним 13/05/26 Срд 20:28:37 #107 №1611400

Что сейчас РП топ из 70B-140B?
Мимо не трогал ллмки после файнтюнов лламы 3.

Аноним 13/05/26 Срд 20:33:36 #108 №1611401

>>1611400
Мимо

Только ради этой шутейки буду её использовать.

Аноним 13/05/26 Срд 20:35:45 #109 №1611403

Ща снова малютку немо раскопал, решил по новой промпт написать, начинаю вот думать как его лучше. Ощущение что ему чо не пиши он на все забьет и надо по минималке: роль, в каком времени, от какого лица. А всякие стили, sfx и прочие протоколы откинуть. Шо думаете? Пошел я нахуй?

Аноним 13/05/26 Срд 20:45:29 #110 №1611406

1705160167777.gif

>рп, слайсуха
>нейронка выдумала персонажей вне карточки чтобы наполнить мир
>я взял и ушёл гулять с этими персонажами, дропнув мейна
Основной персонаж карточки:

Аноним 13/05/26 Срд 20:45:57 #111 №1611407

>>1611400
Гемма 4 гораздо круче Лламы 70
>>1611401
Мимо же 400б гигант

Аноним 13/05/26 Срд 20:56:59 #112 №1611410

>>1611377
>у геммы 4 в квантах почти все слои апксатнуты в FP32
Сделай свой квант. Чо ты как...

output=q6_k
blk\..звездочка\.attn_k\.weight=bf16
blk\..звездочка\.attn_k_norm\.weight=F32
blk\..звездочка\.attn_norm=F32
blk\..звездочка\.attn_q=bf16
blk\..звездочка\.attn_output=bf16
blk\..звездочка\.attn_q_norm=F32
blk\..звездочка\.attn_v=bf16
blk\..звездочка\.post_attention_norm=F32
blk\..звездочка\.post_ffw_norm=F32
blk\..звездочка\.ffn_norm=F32
blk\..звездочка\.ffn_down\.weight=bf16
blk\..звездочка\.ffn_gate\.weight=bf16
blk\..звездочка\.ffn_up\.weight=bf16
exps=q5_k
blk\..звездочка\.layer_output_scale=F32
token_embd=q8_0
output_norm=F32
rope_freqs=F32

Аноним 13/05/26 Срд 21:00:07 #113 №1611412

>>1611400
файнтюны ламы 3.3
Мистраль

Аноним 13/05/26 Срд 21:00:57 #114 №1611413

>>1611407
>Мимо же 400б гигант
Черт, опять Мимо.

Аноним 13/05/26 Срд 21:01:38 #115 №1611414

>>1611354
>нативная ~134 гига
Я исправился же потом, чё стукаешь. Насколько же эта мистраль не для консюмерских железок, пиздец. Даже две 5090 не потянут её в нормальном кванте. По любому нужно собирать риг. Пиздец. Что будет дальше страшно подумать.

Аноним 13/05/26 Срд 21:12:48 #116 №1611422

image.png

>вирус через локалки
>в мистрали
>не бьют по русам
>бьет усиленно по ж евреям
Признавайтесь, кто из вас?

Аноним 13/05/26 Срд 21:13:46 #117 №1611424

Короче приехала ко мне p102-100, воткнул ее в старый хлам-комп с убунту сервером, собрал с куда 6.1 llama.cpp, теперь гоняю тесты. Пока что неплохо.
Жор 250 ватт, до 125 можно поверлимитом задушить.
fa on погоды не делает, чуть больше в куда, чуть меньше в вулкане
Тестов с несколькими видимокартами не будет, у меня некуда воткнуть, да и райзера пока нету.

Примерные скорости на OmniCoder-9B-Q5_K_M.gguf с 7гб размера.
куда - 770 чтение пп, 36 тг
вулкан - 300 пп, 32 тг

Это на стандартных настройках бенча.
Щас на разный поверлимит запущу его, посмотрю как скейлятся скорости.

Аноним 13/05/26 Срд 21:18:31 #118 №1611428

>>1611422
Французы наши слоняры получается? Как вообще может работать вирус через локалки? Объясните GOONманитарию.

Аноним 13/05/26 Срд 21:19:52 #119 №1611429

>>1611410
Не у всех есть трафик качать неквантованные модели. Да и у тебя =F32 целая куча, те же самые апконверты.
Хотя интересно, как всё это вычисляется. Но лень код смотреть.

Аноним 13/05/26 Срд 21:20:12 #120 №1611430

>>1611428
>Как вообще может работать вирус через локалки?
Прочти первый абзац скрина, там буквально написано что он делает.

Аноним 13/05/26 Срд 21:23:06 #121 №1611431

>>1611430
Мне из него ничего не понятно. Как это работает? И кстати, а кто вообще может так делать? Разве базовые модели на хаген выгружаются не самими конторами? Что значит "внедрили"?

Аноним 13/05/26 Срд 21:24:14 #122 №1611432

изображение.png

>>1611422
>пик 1
Лол, хорошо что я на шинде.
>пик 2
Это какого тысячелетия вирус? Эта команда уже давно ничего не делает.

Аноним 13/05/26 Срд 21:40:50 #123 №1611442

>>1611429
>>1611410
А можно ли квантануть мое-гемму без апкастов в ф32, используя только бф16?

4080 12 гб

Аноним 13/05/26 Срд 21:49:52 #124 №1611447

>>1611403
Моё имхо - немо слушается инструкций лучше, чем принято считать в треде. Если это не пережаренный тьюн типа моделей дэвида. Да, часть он проигнорит, и знаний на 12б параметрах в весах очень мало, поэтому стиль конкретного автора просить бессмысленно. Но в целом свои хотелки в виде простых инструкций можно написать, и будет лучше, чем без них.
Постхистори инструкции тоже сечёт. Баловался с разными инжектами на рэндомное изменение стиля и разные повороты сценария, и они работали.
>в каком времени, от какого лица
Такое не будет соблюдать почти наверняка.

Аноним 13/05/26 Срд 21:50:14 #125 №1611449

Ну кстати о Мистраль-медиум здесь что-то вообще отзывов нет. Неужели так плох?

Аноним 13/05/26 Срд 22:06:32 #126 №1611458

Как ни старался на винде одна и та же модель быстрее чем на линуксе. Обработка промта с swa в 2 раза быстрее и на 1тс быстрее. На линуксе можно прихлопнуть xorg но это не стоит того.

Аноним 13/05/26 Срд 22:08:22 #127 №1611461

>>1611377
Вроде в марте притаскивал, но не заинтересовало. Надо достать и доделать, помню в последний раз сильно бомбануло с глупости ллм или странности кода, когда для сравнения вытаскивал из лламы промежуточные значения не перед головой или между блоками, а внутри слоев блока.
>>1611414
> Насколько же эта мистраль не для консюмерских железок, пиздец.
За исключением пресижна это лардж из 24-го года. Его, кажется, в вялых квантах даже в 48гигах крутили, на трех 3090 уже вполне бодро заводился. В 64гига есть все шансы разместить, главное допилить работу всех этих нюансов.

Аноним 13/05/26 Срд 22:11:23 #128 №1611466

>>1611449
ПЛОТНАЯ 128Б. У нас плотные гемма/квены не все способны крутануть в нормальных 6-8 квантах, а тут гигант у которого третий хуёвый квант весит 60+ гигов.

Аноним 13/05/26 Срд 22:27:56 #129 №1611475

>>1611449
Да, плох
>>1611466
В прошлых тредах отписывался чел, который юзал его, причем что на ламе, что на вллм. Писал, что хуйня. Да и по цифоркам он тоже хуйня. Да и старый он вроде, а выпустили его недавно из-за обсера с мистралем 4

Аноним 13/05/26 Срд 22:36:20 #130 №1611483

>>1611475
> что на вллм
С конверсией в фп16 и подозрениями на кривые кернели под некроамд.

Аноним 13/05/26 Срд 22:37:51 #131 №1611485

1672513382204.png

1685181477955.png

1669556754531.png

Я всё же заебался и забенчил влияние писи.
x8 3.0 или x16 2.0 считаю абсолютно юзабельными при по идее самом требовательном к псине тензор параллелизме

https://arkprojects.space/wiki/AMD_GFX906/pcie-lnk-speed очевидная реклама gh pages

Аноним 13/05/26 Срд 22:38:34 #132 №1611488

>>1611475
Этим человеком был Альберт Эйнштейн я, который запустил этого монстра в третьем кванте, поплакал со скорости и удалил. Текст в целом был годный, и, внезапно пухлая французская булка понимала шутки и сама шутила в ответ даже без юмористического промта, просто исходя из ситуации. И в групповых чатах не путала чариков, старательно сохраняя характеры. Но скорость в 0.7 я не выдержал, увы. Когда-нибудь я стану богатым и куплю себе кучу карточек и запущу на них монстраль в оригинальных весах. Но это не точно.

Аноним 13/05/26 Срд 22:41:36 #133 №1611490

1736102921838.png

>>1611449
Мне не зашло ещё и медленно шо пиздец

Аноним 13/05/26 Срд 22:50:30 #134 №1611496

>>1611447
Спасибо, тогда попробую поправить немножко.

Аноним 13/05/26 Срд 22:57:10 #135 №1611503

>>1611485
>тензор
А в обычном режиме? Там еще меньше по идее влияние линий

Аноним 13/05/26 Срд 22:58:20 #136 №1611506

>>1611503
Честно мне лень тестить. При наличии тензор варианта, layer просто нинужон

Аноним 13/05/26 Срд 23:04:27 #137 №1611508

>>1611485
Годно
>>1611503
> в обычном режиме
Там обмена в разы меньше, только на х1 или старых версиях может негативно сказаться. По крайней мере на платах с 3.0 х4 тензор сплит может уступать по скорости пайплайну в вллм из-за упора в скорость шины.

Аноним 13/05/26 Срд 23:04:59 #138 №1611509

>>1611442
Я вот тоже задумался.
>>1611461
>Надо достать и доделать
Буду ждать.
>>1611485
>gh pages
Это что за покемон?

Аноним 13/05/26 Срд 23:07:49 #139 №1611512

>>1611509
> Это что за покемон?
Github pages. Вики треда так же хостится

>>1611508
> в вллм
там 1500+ стреляло

Аноним 13/05/26 Срд 23:18:02 #140 №1611517

>>1611512
Ссылку в шапке >>1610759 (OP)
>• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
Менять на https://arkprojects.space/wiki/AMD_GFX906 ?

Аноним 13/05/26 Срд 23:20:04 #141 №1611519

>>1611517
Хз, может можно и вообще убрать. Эти карточки сейчас фиг купишь по нормальной цене. Обладатели сидят в https://discord.gg/q5rXwCtpP

Аноним 13/05/26 Срд 23:21:59 #142 №1611521

>>1611519
>Эти карточки сейчас фиг купишь по нормальной цене.
Тесты линий полезны всем КМК.

Аноним 13/05/26 Срд 23:27:36 #143 №1611523

1686482911407.png

>>1611519
А вообще никогда не думал что нейронка будет советовать эти говноскрипты и имеджи

>>1611521
Нужно кого то на современных гпу, а то у меня из самого нового только дуал 5060ти которые в псие5 проверить возможности нет, только 1.0-4.0

Аноним 13/05/26 Срд 23:31:05 #144 №1611524

>>1611523
>нейронка будет советовать
Так это же гугл, он тупо из поиска дёргает ответы.
>а то у меня из самого нового только дуал 5060ти которые в псие5 проверить возможности нет, только 1.0-4.0
Всё одно хлеб. Да и 5.0х8 === 4.0х16.

Аноним 13/05/26 Срд 23:31:52 #145 №1611525

изображение.png

>>1611424
Тесты от потребления

Аноним 13/05/26 Срд 23:37:01 #146 №1611528

Обычная Gemma 4 26B A4B охуенно распознает текст со скриншотов.
Причем, так как это не тупо ocr, а нейронка, я могу сказать что-то вроде "дай список папок со скрина в текстовом виде" и она дает. Охуенчик, не думал что такие мелкие модели на такое способны.

Аноним 13/05/26 Срд 23:44:15 #147 №1611535

Аноны подскажите че в промпте написать чтобы гемма по-разному структурировала текст. Вот допустим я пишу реплику и железобетонно в ответе будут по порядку:
1. Описание реакции с описанием изменения позы или мимики
2. Повтор куска моей фразы или вербальная реакция на фразу, далее обрез реплики опять смена позы и ее описание, продолжение реплики
3. Опять описание изменения позы
4. Конечный диалог который скрывает тупое "твой ход?"
Все это обильно сдабривается "как будто, но, словно, прямо как батин суп мазиком но вместо супа говно а вместо мазика моча. Я хуй знает как компактно такое гуглить и соответственно как компактно объяснить модели писать нормально, не по шаблону. Помогите а я уже устал эту хуйню читать, никак не получается обойти это безобразие ебаное

Аноним 13/05/26 Срд 23:47:20 #148 №1611536

1651802555625.png

>>1611525
Тоже пытаюсь нащупать золотую середину

>>1611528
Мультимодальность прям бустит сценарии использований и общий QOL. Можно не задумываясь ей просто скриншот кидать или страницу манги и не перебивать всё руками пытаясь ей объяснить что это вообще за шиза

Аноним 13/05/26 Срд 23:53:49 #149 №1611538

>>1611535
>че в промпте написать
Ничего. Это вина не промта, а инпута. Если ты пишешь однообразные чатик-лайк инпуты, то нейронка любая будет под это подстраиваться и выдавать тебе структурно похожие аутпуты. Учись общаться с моделью KRACUBO.

Аноним 13/05/26 Срд 23:54:32 #150 №1611539

изображение.png

>>1611525
Тесты омникодера кривые, перезагрузился нормально оттестил

>>1611536
>Тоже пытаюсь нащупать золотую середину
Пишут этим лучше чем поверлимитом душить, но я пока не разбирался с ним
https://github.com/ilya-zlobintsev/LACT

Аноним 13/05/26 Срд 23:56:51 #151 №1611541

>>1611535
Забыл добавить что диалоги вечно растягиваются ебаным или. "Ставь коробку на пол - сказала она пернув и по ляжке потек понос - или ты тоже пернул но понос не потек? Поэтому ты все еще стоишь и тянешь резину?" Вот это классический пример конца текста иишки. Блять уже глаз дергается от этого гавна

Аноним 13/05/26 Срд 23:57:02 #152 №1611542

>>1611539
Лакт реально хорош, но параметры мишек меняются только грязными хаками pp_table.
Те же 5060ти, он нормально обрабатывает и даже курвы править даёт

Аноним 14/05/26 Чтв 00:00:24 #153 №1611543

>>1611539
>>1611542
И ещё у него есть возможность оставить демон на хедлесс тачке с гпу, а у себя на основной открыть гуй для управления

Аноним 14/05/26 Чтв 00:01:00 #154 №1611544

>>1611538
Да нет, шаблон в принципе всегда присутствует, слегка изменяясь. Это по-моему прикол геммы, другие модели что я тестил пишут по разному в течение всего сюжета, ну или шаблон куда более вариативный. И гемме похуй я чатик лайк написал или длинную хуйню которая двигает сюжет и описывает че ваще происходит. Че я только не пробовал чтобы уебать этот шаблон но нихуя не работает.

Аноним 14/05/26 Чтв 00:02:15 #155 №1611546

>>1611543
Надо попробовать, если он паскаль подхватит

Аноним 14/05/26 Чтв 00:04:48 #156 №1611549

>>1611544
Я такого на меро26б не заметил. Попробуй квину, если гоняешь плотняшу.

Аноним 14/05/26 Чтв 00:08:55 #157 №1611550

chatlog.png

>>1611535
> Аноны подскажите че в промпте написать чтобы гемма по-разному структурировала текст.
Уже какое-то время я пытаюсь решить эту проблему. Таково уж поведение Геммы: она очень репетативна, а значит со временем уходит в структурные лупы. Иногда перетягивает целые фразы, слегка их перефразируя, а часто и попросту повторяя. Всякие характеристики персонажей и прочее. На английском очень любит начинать ответы с The или {{char_name}}, обладает кучей паттернов вроде {{char_name}} (действие) (слова) (действие) и прочие. Тюны немного помогают с этой проблемой, но из юзабельных только МероМеро, остальные ломают следование инструкциям. И все равно проблема на месте.

Давай поможем друг другу. Вот тебе логи с ванильной Геммы 4 31б (тобишь instruct), почитай их и посмотри, видишь ли проблему. Будет еще лучше, если принесешь свои логи для сравнения. Потому что никто не делится логами, и я не знаю, это проблемы моего промпта или в целом поведение модели такое.

Аноним 14/05/26 Чтв 00:09:30 #158 №1611551

>>1611539
За lact двачую, годная штука. Может быть довольно тормознутой на мультигпу сетапах, но в остальном работает четко.

Аноним 14/05/26 Чтв 00:22:12 #159 №1611555

Есть варианты контроля gemma 26b в lm-studio? Попробовал просто в систем промпт пихнуть think briefly 3-5 предложений максимум но ей похуй

Аноним 14/05/26 Чтв 00:24:23 #160 №1611557

>>1611555
контроля длины размышлений*
Сорян уже мозг поплыл

Аноним 14/05/26 Чтв 00:25:56 #161 №1611561

>>1611555
В llamacpp есть reasoning budget для чат комплишена. Можно задать конкретное количество токенов - предел для ризонинга, и даже сообщение, которым окончится ризонинг в случае прерывания. Еще один повод попробовать что-то кроме Лм Студии. Они это может и добавят, но позже.

Аноним 14/05/26 Чтв 00:26:56 #162 №1611562

>>1611557
Только жёстко рубить. Ризонинг эффорта в гемме нет.
Но вроде и зачем? Она и так весьма консервативно думы думает

Аноним 14/05/26 Чтв 00:27:34 #163 №1611563

>>1611550
Я кста не знаю че за логи и как их кидать. И сори я не буду их кидать потому что это БЕСПОЛЕЗНО блять. Нехуй сравнивать, вон посередине ты выдал какую-то провокационную фразу и в ответе этой ебаной нейронки до боли знакомое "на комнату опустилась тишина которую прерывал звук пердежа бла бла бла короткий ответ персонажа пук пук продолжение диалога. Вот именно этот говняк меня уже начал бесить просто.

У меня меро кста, как анон ловко заметил
>>1611549
Может вообще можно коннектиться и читать че там у анонов происходит лул.

Аноним 14/05/26 Чтв 00:31:38 #164 №1611564

>>1611563
Я предлагаю объявить бойкот этой ебанной гемме и перекатиться на что-то пиздатое. Я тестил кидонию некоторое время, может там похожий трабл присутствует я ее не особо мучал. У нее другой прикол она диалоги по английски печатает когда сюжет отходит далеко от начального промпта. Я забил на фиксинг потому что гемму накатил которая завелась на моем компе 16+32 и начал активно чатиться с ней. За пару дней заебала эта гемма блять.

Аноним 14/05/26 Чтв 00:32:50 #165 №1611565

>>1611563
> до боли знакомое "на комнату опустилась тишина которую прерывал звук пердежа бла бла бла короткий ответ персонажа пук пук продолжение диалога. Вот именно этот говняк меня уже начал бесить просто.
Это слоп, а не форматирование. Другая проблема. От него не избавиться. В лучшем случае благодаря тюнам, и неизвестно какой ценой.

Аноним 14/05/26 Чтв 00:36:45 #166 №1611567

>>1611565
Не избавиться? Пфф. Окей ребятки ребятушки посоветуйте быстрое умное и хорошо пишущее по русски ии поделие без цензуры кек. И штобб ммпрож файлик был чтобы картинки съедала.

Аноним 14/05/26 Чтв 00:42:56 #167 №1611570

>>1611567
Нет такого, если ты не можешь уместить самые большие (350б+) модели. На русском все плохо пишут, возможно, даже самым жирным вроде Кими (1000б) Гемма даст фору. И у многих еще нет вижена.

Аноним 14/05/26 Чтв 00:51:38 #168 №1611572

>>1611561
Я когда свой сервер держал через линуху жору и накатывал, а сейчас с ноута на винде и тут как-то западло через жору крутить.
У меня как-то сильно он фигачит на офф. кванте лмстудии, поставил анслотов на пробу с ним вроде вообще не думает, лол. И так тоже не хочется.
Я бы рассмотрел еще что-то с гуей, но знаю только угабугу и кобольда, обе неюзабельные будто.

Аноним 14/05/26 Чтв 00:52:55 #169 №1611573

>>1611567
Разве что клод с безжопом. Больше вариантов то и нет под твои требования. Но это тебе в асиг надо пиздовать.

Аноним 14/05/26 Чтв 00:57:32 #170 №1611577

>>1611572
У Лламы есть гуй и очень приятный

Аноним 14/05/26 Чтв 01:25:25 #171 №1611586

А у нейронок есть какая-то память? Она просто подцепила мой возраст который я юзал в промпте другом. В текущей ветке я его не упоминал. Я думал новый чат создается всегда с чистого листа

Аноним 14/05/26 Чтв 01:33:30 #172 №1611589

image.png

>>1611577
Та где, я скачал а все также. Там был какой-то чатик просто потыкаться, но гуя все также нет?

Аноним 14/05/26 Чтв 01:38:31 #173 №1611592

>>1611586
Ты явно не понимаешь как они работают. У ллм нет никакой памяти, они детерминированы.
Фронт может делать свои надстройки к примеру скрыто давать нейронке тул которым она будет в память фронта записывать заметки, а потом в другом чате их читать и так шарить контекст.
В том же чатгопоте это называют "памятью"

Аноним 14/05/26 Чтв 01:39:41 #174 №1611593

>>1611589
Ай похуй раз уж скачал просто запилю настройки по новой.
Какая тут уебищная капча стала это пиздец

Аноним 14/05/26 Чтв 01:45:51 #175 №1611597

>>1611593
Ой бля, какой же кал лмстудия, тут в жоре сразу нормально встало и заработало скорость в полтора раза больше))

Аноним 14/05/26 Чтв 01:55:17 #176 №1611600

image.png

Снимок экрана 2026-05-14 014207.png

Снимок экрана 2026-05-14 014129.png

Снимок экрана 2026-05-14 014121.png

Наберите в лёгкие воздуха поглубже.

КАААА-К НАЗЫВАЕТСЯ ЭТА МОДЕЛЬ????

Аноним 14/05/26 Чтв 01:58:11 #177 №1611602

>>1611600
GAYMMA.

Аноним 14/05/26 Чтв 01:59:30 #178 №1611603

>>1611600
Каломаз на семплерах

Аноним 14/05/26 Чтв 02:27:36 #179 №1611607

>>1611602
YAAAY!

>>1611603
Ни разу не слышал это слово в треде. В чём мем?

----------------------------------------------

Короче, я чё только с геммой не делал. Если просто задирать температуру, почти нихуя не происходит, я в ахуе. В том числе если дёргать за ручку других семплеров.

Как вариант, можно поменять порядок семплеров, вот тогда результат есть. Температура добавляет где-то к 15% креативности без потери логики, но это максимум. Если пробовать давить сильнее, то просто ухудшение качества письма, потом шиза. Там не предлагаются другие КОНКРЕТНЫЕ токены, где выбор между "пизда" и "вульва" (в большинстве случаев) или даже какие-то куски слов. Там просто "вульва" и ohers (треш в виде спецсимволов). Ну это касается не только NSFW.

То есть у модели есть только выбор между ПРАВИЛЬНЫМ и всем остальным.

Мне очень интересно — а нельзя ли так в будущем обеспечить полную цензуру модели, даже не удаляя сисик из датасета? Вы ведь сами видите, что чем дальше мы идём, тем меньше требуется надрочка семплерами, особенно если речь не про код, а любые креативные задачи. Можно вообще все семплеры не использовать, только стандартную температуру, и модель не потеряется. Это отлично видно на примере геммы или того же гпт. Сейчас ещё квен 3.6 попытался ввалиться в эту тему.

Хотя, полагаю, они делают это, чтобы прохождение бенчей было максимально корректным. Но с таким "охуенным" обучением можно модели вообще не оставлять выбора, даже если в датасете есть что-то ЗАПРЕЩЁННОЕ.

Аноним 14/05/26 Чтв 02:30:14 #180 №1611608

Может прозвучит тупо, но вы пробовали посреди рп сделать паузу и просто в этом же чате обсудить текущие проблемы? Задать вопрос почему модель так отвечает, чем тебе это не нравится и как это можно исправить. Да, немного "мусорного" контекста будет, но почему не попробовать?

Аноним 14/05/26 Чтв 02:32:27 #181 №1611610

>>1611607
Я нашёл только один способ влиять на геймму - бить её лицом о презенс пенальти, пока свайпы не станут разными. Всё остальное отказывалось работать.

Аноним 14/05/26 Чтв 02:33:24 #182 №1611611

>>1611608
Это называется ООС. С подключением.

Аноним 14/05/26 Чтв 02:35:28 #183 №1611612

>>1611611
Подключился, теперь знаю что это называется аут оф чар. Тогда почему бы не попробовать так решить жалобы на статичное начало реплая?

Аноним 14/05/26 Чтв 02:45:43 #184 №1611614

>>1611607
>Ни разу не слышал это слово в треде. В чём мем?
Каломаз автор кучи семлеров, каждый из которых обещал революцию и освобождение от залупов. Результат немного предсказуем.

Аноним 14/05/26 Чтв 02:46:50 #185 №1611615

>>1611607
> Ни разу не слышал это слово в треде. В чём мем?
Ньюфаги не знают, альфаки забыли.
Давным давно когда контекст был по-настоящему маленьким а ллама - фаворитом опенсорсных моделек, был да и сейчас есть юзернейм (никнейм kalomaze или что-то подобное), который любил пердолить семплеры. Будучи автором концепции min-p или удачно спиздив идею откуда-то он очень активно пиарил его, как раз делая сравнения как работают модели с высокими значениями температуры, демонстрируя что с обычной комбинацией top_p + top_k случается бредогенератор, а с его min_p даже если выставить значение 4 то когерентность ответов сохраняется.

Только далеко не все выкупили что суть не в отсеивающем семплере, который повторял логику сочетаний других, а в порядке применения. Там где "хорошо" - температуру он ставил самой последней, когда уже сработали все отсечки и оставалось буквально несколько логитсов. А где бред - наоборот самой первой как было по дефолту, делая возмущение оригинальных распределений.
Если изменить порядок семплеров и воткнуть температуру пораньше - пробьет даже такое.

Аноним 14/05/26 Чтв 03:51:47 #186 №1611620

>>1611607
>есть только выбор между ПРАВИЛЬНЫМ и всем остальным
>интересно — а нельзя ли так в будущем обеспечить полную цензуру модели
Для тулзов, кодинга и агентской хуйни это рабочий подход ибо уменьшает затупы и случайный берд. Но это и отличный метод для впихивания мягкой цензуры. Гемма умеет и практикует обходить всякие откровенные описания даже если пробить хард рефьюз, которых почти в ней не оставили. Так что да, за этим видимо будущее.

Аноним 14/05/26 Чтв 04:07:07 #187 №1611622

>>1611608
>Задать вопрос почему модель так отвечает, чем тебе это не нравится и как это можно исправить.
Можешь даже не пробовать, модель тебе напиздит. Может дать общие советы которые сработают, но если ты ее прямо спросишь почему она написала так, а не так, то просто получишь бред. Это как спрашивать "какой токен ты бы сгенерировала следующим в этом списке" - она предположит, может даже правильно, но это не будет иметь никакого отношения к реальности.

>Да, немного "мусорного" контекста будет, но почему не попробовать?
Ты не можешь знать насколько он будет "немного" мусорным. Вообще никогда не нужно оставлять в контексте ничего что не относится к текущему сценарию. Решил взять паузу и поговорить? Поговори и удали нахуй всё это сразу же, как решишь вернуться к ролевке. Не нужно триггерить ассистента без надобности.

>>1611612
>Тогда почему бы не попробовать так решить жалобы на статичное начало реплая?
Решай, никто не запрещает пробовать и экспериментировать. Но железное правило остается - контекст должен содержать только то, что относится к сценарию. Попросил модель переписать ответ через OCC? Скопируй новый вариант, замени им неправильный, удали все эти вызовы ассистента из истории. Лично я так давно уже делаю когда мне лень свайпать до нужного развития событий - просто пишу что должно произойти дальше именно так как мне хочется. Да и думаю я не один такой.

Аноним 14/05/26 Чтв 06:25:19 #188 №1611637

image.png

Ну теперь точно оно

Аноним 14/05/26 Чтв 07:10:43 #189 №1611645 DELETED

Вот честно? Я бы никогда такую подлость не сделал и даже не ожидал бы ни от кого. Вот чтобы нарочно вставлять палки в колёса - это каким мудаком вообще нужно быть? Человек пишет в тред где его ненавидят, что само по себе испытание, а ему ещё и отвечают ехидно так "ну хз, может так, а может нет." - это что такое вообще?
Нет бы сказать - неверно, переделывай. Или наоборот - верно, молодец.

Аноним 14/05/26 Чтв 08:07:43 #190 №1611661 DELETED

>>1611645
Так а что ты хотел, тут снобы-шизы сидят с самомнением до неба, которые нос корчат на любых новичков. Такая же херня в аицг была, и в других тредах по нейронкам часто наблюдается. Тут не про помощь короче, тут своя атмосфера для шизов.

Аноним 14/05/26 Чтв 08:26:38 #191 №1611669

>>1611424
NVIDIA TESLA K40 12GB
Nvidia Tesla M40 12GB
NVIDIA - Quadro K6000 - 12GB GDDR5
NVIDIA GeForce GTX Titan 12GB GDDR5

У меня только такие есть по выгодным ценам ниже 200й серии карт.
Есть смысл заморачиваться хоть с одной из них для ллмок?

Аноним 14/05/26 Чтв 08:57:08 #192 №1611680 DELETED

>>1611645
Про что речь вообще? Что за вакуумный чел которого все ненавидят но он все превозмогает? Таких за всю историю тут немало было, но если кого-то из новичков сразу слали нахуй, так это тех, которые приходили с ахуевшими требованиями по типу "дайте это, дайте то, и вообще я не хочу ничего читать, ничего учить, дайте мне пресет/промт/семплеры/карточку/прокси для безлимитной связи с аллахом" и прочее. Остальным всегда помогали. Мне лично много кто помогал в свое время, когда я только вкатывался.

Аноним 14/05/26 Чтв 09:04:36 #193 №1611683

Гемма 4 31B, 2х3090

q4km в лламацпп - 25 т/с
exl3 - 10 т/с (причем одинаково на 4.0 и 6.0 bpw)

Ну и что за нахер? Почему так?

Аноним 14/05/26 Чтв 09:07:39 #194 №1611685 DELETED

>>1611680
Эйрошиз который месяцами срал в треде вымаливает себе жалость. А что случилось? Как так вышло?

Аноним 14/05/26 Чтв 09:22:07 #195 №1611691 DELETED

>>1611661
>снобы-шизы сидят с самомнением до неба, которые нос корчат на любых новичков.
Ухбля такие снобы шопиздец, каждому адекватному вкатышу помогают и даже какие то рентри для них пилят. Чё не сделают чтобы потешить своё чсв и поржать над залётными
Нахуй иди, сём

Аноним 14/05/26 Чтв 09:26:46 #196 №1611693 DELETED

>>1611685
Эйрошиз и нюня это разные шизы? После пары месяцев отсутствия лор треда пополнился и когда я вернулся все через пост вспоминали какого-то нюню в контексте эйра как раз.

Аноним 14/05/26 Чтв 09:31:32 #197 №1611696

>>1611422
В мире есть только одна страна, которая в ссоре сразу с обоими странами и где используется русский язык в системах.

Аноним 14/05/26 Чтв 09:31:34 #198 №1611697 DELETED

>>1611693
Один чел вспоминал срал, за что и был назван эйрошизом. Так и сидит на Эйре и теперь умоляет ему помочь и удивляется, что никто не помогает. Не корми

Аноним 14/05/26 Чтв 09:34:39 #199 №1611700 DELETED

>>1611693
Так эйрошиз его и вспоминал постоянно, но как тереть стали теперь иначе щитпостить. Натура такая у человека - не может не срать.

Аноним 14/05/26 Чтв 09:37:51 #200 №1611703 DELETED

>>1611697
>>1611700
Понятно, вопрос снимаю. В некоторые вещи видимо лучше не углубляться.

Аноним 14/05/26 Чтв 09:38:32 #201 №1611704

Максимально тупой вопрос касательно хардварной части, что лучше: 64гига ддр4 оперативы или 32гига ддр5 при одинаковой 16гб карточке? Алсо есть еще примерные циферки разницы по частотам на ддр4? Например какая разница будет при 1800кекагерц vs 3200.

Аноним 14/05/26 Чтв 09:43:57 #202 №1611707

>>1611704
>что лучше: 64гига ддр4 оперативы или 32гига ддр5
Очевидно что первое. Но только если вопрос финансов прям жестко стоит и 64 ддр5 ты не можешь позволить. Собирать новую систему на ддр4 это уже как-то тупо. Докидывать память к старой - приемлемо.

>Например какая разница будет при 1800кекагерц vs 3200
Точно не скажу, лучше посмотри тесты скорости памяти на разных частотах. Но разница будет. Ощутимая, если ты гоняешь мое с частичной выгрузкой. Менее ощутимая, если денс. Потому что на плотных там может быть разница между полутора токенами и двумя токенами, где-то в таком разбросе. В процентах разница существенная, на глаз и на ощущения - почти незаметно.

Аноним 14/05/26 Чтв 09:44:18 #203 №1611708 DELETED

>>1611685
>>1611697
>>1611700
Я даже никого не оскорблял, максимум по дружески называл шизом и иногда выражал мнение в нескольких постах. А то что на меня всех щитпостеров и шизов треда свалили - я с этим ничего сделать не могу, я - Лелуш Ламперуж/Саске Учиха этого треда, взял все грехи и ненависть на себя, чтобы вы лучше жили.

Аноним 14/05/26 Чтв 09:55:42 #204 №1611712

>>1611707
Система с ддр4 готовая уже есть, задумываюсь просто над целесообразностью обновления или проще будет докинуть с помойки еще 2 плашки по 16 и посидеть-потерпеть еще лет 5 с текущим сетапом пока вся ебатория не закончится.
>на глаз ощущения почти незаметные +-
сенкс

Аноним 14/05/26 Чтв 09:56:12 #205 №1611713 DELETED

>>1611708
Скорее цель твоего сталкинга нюня такой, а ты долбаёб обычный

Аноним 14/05/26 Чтв 09:59:04 #206 №1611718

>>1611607
Я в гемме для кума юзаю вот такие настройки, проблем не замечал.

override-kv=gemma4.final_logit_softcapping=float:25
samplers = min-p;adaptive-p;temperature
min-p=0.05
adaptive-target=0.4
adaptive-decay=0.8
temp=1

Аноним 14/05/26 Чтв 10:07:00 #207 №1611723

>>1611712
Если бы у меня была нормальная мать я бы тоже еще 32 гига докинул до 64 и не знал беды. Так что имхо - лучше сэкономить и докупить еще памяти.

Аноним 14/05/26 Чтв 10:13:09 #208 №1611729

>>1611707
лучше 64гб памяти, 32 это капец мало, в видеогенерациях приходится без кеша сидеть иначе оом будет.
а ddr4 от ddr5 в целом не особо отличается в производительности, зато в цене очень даже отличается.

Аноним 14/05/26 Чтв 10:54:04 #209 №1611755

>>1611712
>докинуть с помойки еще 2 плашки по 16
Лучше докинь не с помойки две плашки по 32Гб. Без фанатизма на ~3000 кекагерц.

>при одинаковой 16гб карточке
После того как отдашь долги от перового шага купи еще одну карточку 16гб .
Итого у тебя будет "народный DDR4 риг" 96гб RAM 32гб VRAM . На нем можно уверенно гонять свежие небольшие плотняхи и moe до 122 квена (хуево, но можно) . И генерить картиночки.

Это практически предел для не серверного / майнерского железа / продажи жизненно важных органов за топ-GPU

Аноним 14/05/26 Чтв 10:56:20 #210 №1611759

>>1611550
Гораздо приятнее выводы чем у меня. Какие семплеры или в чём секрет?

Аноним 14/05/26 Чтв 11:21:18 #211 №1611775

>>1611704
Если ты используешь мелкие модели до 35B активных параметров, ддр4 сойдет

Просто для сравнения:

> 2 канала 128гб ддр4, GLM 4.7 Q2: ебаных ТРИ токена в секунду (ну ладно, 3 - 4)
> 4 канала 128гб ддр4, GLM 4.7 Q2: вдвое быстрее

> 2 канала 128гб ддр4, MiniMax M2.7 Q4: 5 - 6 т/с
> 4 канала 128гб ддр4, MiniMax M2.7 Q4: вдвое быстрее

Я бы не советовал брать ддр4, если у тебя не HEDT или серверная платформа.

Аноним 14/05/26 Чтв 11:21:40 #212 №1611776

>>1611755
Дорого, да и в наличии уже 32 есть. Вторую карточку точно нет, слишком дорого + под нее бп надо и что-то с матерью придумывать, слотов полноценных свободных нет.
спасибо за ответы

Аноним 14/05/26 Чтв 11:25:02 #213 №1611778

>>1611775
Это циферки под виндой в llamacpp и с максимально возможным контекстом если что, я не линупс и не любитель "тестить" скорость на инпутах из одной строчки

Аноним 14/05/26 Чтв 11:27:55 #214 №1611780

>>1611759
Разметка (вся чатхистори в качестве первого сообщения, модель генерирует второе) + температура 1, min p 0.03, adaptive p 0.5 0.9, DRY + промпт с нарратором и направлением форматирования, что размазывает (но не решает до конца, предполагаю) проблему структурного лупинга. Попробуй adaptive p, там и разнообразие свайпов какое-никакое есть, относительно стандартной температуры и min p. Тот чат до 64к доиграл, в целом доволен результатом.

Аноним 14/05/26 Чтв 11:31:17 #215 №1611782

>>1611669
>NVIDIA GeForce GTX Titan 12GB GDDR5
Титан из них лучший - считай тесла P40, но с половиной видеопамяти. Насколько выгодная цена, чтобы не купить саму P40?

Аноним 14/05/26 Чтв 11:39:14 #216 №1611790

>>1611780
>adaptive p
Это ж тот хайповый сэмплер который никто тут не потестил в итоге?
Ну или не сказал что потестил.
Как он в тех же глмах и квенах себя чувствует?

Аноним 14/05/26 Чтв 11:48:40 #217 №1611795

image.png

>>1611550
>>1611535
Знали бы вы, чего я тут с 31B геммой натворил... Эта модель и легкодоступные 256к контекста открыли дорогу в ад рай из прошлого. Но с ней надо работать, как скульптор работает с камнем. По дефолту это просто неотёсанный кусок бездушной скалы.

> sysprompt: биография от рождения до конкретного дня
> post-history: инструкции, убивающие ассистента напрочь
> character card: одежда, внешность и Q&A с диалогами из реальных чатов

Мягко говоря, результат такой, что я теперь собираюсь переписать всех вымышленных персонажей, опираясь на ту же идеологию. ОЧЕНЬ много ручной работы. C-GPT/DS4 помогали, но сами они не въезжали ни в суть, ни в глубину. С лингвистикой и психологией дали разобраться, развве что.

Аноним 14/05/26 Чтв 12:00:19 #218 №1611804

image.png

>>1611795
Еще немного этого безобразия.

Год назад подобное было невозможно. Гемма творит чудеса именно благодаря тому, какая она умница и как хорошо слушает команды.

Аноним 14/05/26 Чтв 12:01:03 #219 №1611805

Вообще перехотелось рпшить когда заглянул в хорошую карточку, а потом на всё на чём я рпшил, взяв это с чуба.
Кумерские карточки реально одни дегенераты делают, такие только корпы переварят и не сломаются

Аноним 14/05/26 Чтв 12:01:55 #220 №1611806

1723097693672.png

Кто то должен был это сделать

Аноним 14/05/26 Чтв 12:03:21 #221 №1611807

>>1611805
Если ты про объемы текста - дело не только в неспособности большинства моделей не лажать на длинном контексте, но еще и в качестве этих самых объемов текста. Чубатые карточки содержат массу бессвязного мусора.

>>1611806
Признавайся, спиздил откуда-то или сам купил?

Аноним 14/05/26 Чтв 12:05:35 #222 №1611810

>>1611795
А что делать, если у меня нет чатов с ЕОТ и про ее историю жизни я знаю мало?

Аноним 14/05/26 Чтв 12:05:50 #223 №1611812 DELETED

>>1611683
Слишком медленно для обоих кейсов. Давай подробный конфиг и прочее
>>1611693
Немотроношиз, эрошиз и много других приставок-шиз это один и тот же человек.
>>1611704
Для фуллврам нет разницы. С выгрузкой ддр5 будет быстрее, но в то что останется от 32 гигов после системы, браузера и прочего - считай ничего не влезет. В идеале 128гигов рам, тогда можно потыкать большие модели, с некоторыми оговорками офк.

Аноним 14/05/26 Чтв 12:07:20 #224 №1611814

heh.jpg

>>1611810
Страдать.

Аноним 14/05/26 Чтв 12:07:29 #225 №1611815

1768022158938.png

>>1611807
> сам купил
Это. Самая дешёвая карта с av1

Аноним 14/05/26 Чтв 12:10:24 #226 №1611818

>>1611795
> с 31B геммой
> легкодоступные 256к контекста
Мажор
>>1611806
Почему q4_1? Если будешь еще тесты делать - не стесняйся выкладывать, интересно посмотреть что там будет.

Аноним 14/05/26 Чтв 12:11:11 #227 №1611819 DELETED

>>1611812
>Слишком медленно для обоих кейсов. Давай подробный конфиг и прочее
А сколько должно быть? И насчет конфигов я не понимаю, в убабуге для exl3 нет никакой командной строки, чтобы там чето дописывать. TP не работает для геммы в эксламе.

Если же ты про железо. Ну епт, две 3090 каждая х16 4.0 в trx40 маманю воткнуты, по мощности не задушены.

Аноним 14/05/26 Чтв 12:53:11 #228 №1611858

>>1611795
>пик 2
ЧАТ ТЕМПЛЕЙТ психически здорового человека

Аноним 14/05/26 Чтв 13:01:20 #229 №1611863

Есть ли способ быстро в веб интерфейсе лламы менять промты? Или может есть флаг на подачу сиспромта для модели когда запускаешь ее?

Аноним 14/05/26 Чтв 13:10:40 #230 №1611868 DELETED

>>1611700
Бля, потерпишь. Охуеть, будто в ИЛИТНУЮ КОНФАЧКУ в вк зашёл даже свой вахтер есть, а не на тред на дваче. Сидят рассуждают что щитпост а что нет, кому помогать а кому нет, попуститесь и корону снимите, у вас тут нет аватарки и репы чтобы набивать

Аноним 14/05/26 Чтв 13:20:55 #231 №1611875

>>1611795
К сожалению у геммы умная думалка начинает разваливаться задолго до 256к.
Графики приносили на неделе то ли сюда то ли на форч с разными моделями, все модели из этой весовой категории где-то на 20к~ начинают потихоньку терять внимание к старым деталям. хорошо хоть потихоньку, более старые/мелкие модели дропаются как кирпич, прям чётко видно где предел возможностей модели По моему опыту тоже примерно так и есть. Поэтому изначальные описания и надо вилкой чистить-чистить.
Где-то на уровне мистралей минмаксов и дипсик флешей уже можно делать как ты, и модель будет выдавать пушку

Аноним 14/05/26 Чтв 13:25:40 #232 №1611877

>>1611875
Я пока до 120к длины чата на гемме дотягивался. Встречал другую проблему - ответ на предпоследнее сообщение, игнорируя последнее. Так и не въехал, в чем дело.

> дипсик флешей
Еще бы поддержку по-человечески допилили...

Аноним 14/05/26 Чтв 13:28:21 #233 №1611880

-EgKsuXJkNE.jpg

>>1611815
Может ли камень плотить нологи серверная BMS на аспиде 2500 ролеплеить мейдочкой?

Аноним 14/05/26 Чтв 13:29:52 #234 №1611881

Вы заметили что с появление мое у нас пошло классовое распределение куда активнее? Теперь любой бомж дорвавшийся до 128 рам по скидке наверху цепочки, а анончикам ниже с баренской руки, жалобно так, протягивает мое гемму

Аноним 14/05/26 Чтв 13:33:00 #235 №1611883

>>1611877
Бывало такое и было буквально вчера на совсем небольшом контексте, как понимаю баг с токенайзом/чекпоинтами. Может фронтенд чудит (в таверне было)

Аноним 14/05/26 Чтв 13:34:15 #236 №1611885

1778754856356.jpg

>>1611880
*BMC
Может и может под вулканом, но это чёт совсем уже пиздец.
Ещё есть отдельная карточка с 2400 на 64 мб ддр3

Аноним 14/05/26 Чтв 13:40:32 #237 №1611887

>>1611875
>где-то на 20к
У меня одни промпты с карточкой на 30к+.

Может, от квантов зависит, конечно.

А вообще (я очень жалею, что не могу поделиться - слишком личное), для этого проекта всё написано так, что слёт внимания с отдельных блоков не должен ударить по общей картине. Много кросс-референсов и усилительных указателей. Такая плётёная булочка из лингвистики и психологии, и все это опирается на линейно текущую прозу по годам жизни (0-3, 4 - 6, 7 - 11, 12 - 15, 16 - 17, 18), где перечислено всё - от семьи до увлечений, школы, института, друзей, мест, событий, праздников.

Иронично, я убил несколько дней на создание отдельного лорбука... но с ним ничего не взлетело, личность распадалась на обрывки. Лорбук хорошо бы зашел дополнением, но это гемма 100% не потянет.

>>1611883
Плохенько. Из моих наблюдений был сделан вывод, что содержание сообщения не влияет на этот баг (отредактировал - все равно модель не хочет признавать это сообщение за существующее). Позволяешь ей ответить ошибочно. Пишешь следующее сообщение - и на него модель уже отвечает нормально (тоже вне зависимости от содержания). То есть, что-то происходит, что сообщение вот такое-то по порядку в истории чата, превращается в "невидимку".

Аноним 14/05/26 Чтв 13:42:21 #238 №1611889

>>1611881
128гб это территория простых хуев. Зажиточные бояре начинаются от 256гб.

Аноним 14/05/26 Чтв 13:52:25 #239 №1611894

>>1611889
Ещё 128 ддр4 не ровня 128 ддр5

Аноним 14/05/26 Чтв 13:53:21 #240 №1611896

>>1611894
4-канальная вполне терпима, 8-канальная так вообще в шоколаде.

Аноним 14/05/26 Чтв 13:54:57 #241 №1611898

>>1611896
16 каналов это уже 300гбс

Аноним 14/05/26 Чтв 14:01:33 #242 №1611903

Квантование контекста до q8 на гемме это смерть ? Мнения без регистрации и смс

Аноним 14/05/26 Чтв 14:09:30 #243 №1611913

>>1611903
Смотря для чего. Если ты пилишь грязный чатик с ноунейм хуйлищем, на детальные подробности о котором тебе насрать - тогда квантуй. Ну подумаешь, ногу с рукой перепутает или рога на жопе вырастут (это сильно преувеличено).

Это надо вживую тестить и сравнивать.

Аноним 14/05/26 Чтв 14:15:47 #244 №1611914

>>1611881
Да хер там плавал. если большая часть exps работает на процессоре это 8-15 т/с и ~200 тс пп . И моделей на хорошем русском нет. И модель быстрый переводчик за грузить тупо некуда.

Аноним 14/05/26 Чтв 14:20:01 #245 №1611918

>>1611914
> И модель быстрый переводчик за грузить тупо некуда.
У вас че все в одном компе? Сервер для пухло-бота отдельно, основная пекарня отдельно.

Аноним 14/05/26 Чтв 14:28:01 #246 №1611922

>>1611918
Если у меня будет возможность купить 2 видюхи одинаковые по мощности я их вставлю в один комп очевидно, а не одну в сервер и одну в основной комп.
Если у меня будет 64 рам я их так же вставлю в один комп а не разделю

Аноним 14/05/26 Чтв 14:29:19 #247 №1611923

>>1611922
Ну так две видюхи в сервере, а третья в отдельном компе. Подумой. Купи болбше.

Аноним 14/05/26 Чтв 14:30:24 #248 №1611925

>>1611918
Конечно у всех есть по лишней стойке GB200

Аноним 14/05/26 Чтв 14:30:59 #249 №1611926

Какое ваше мнение что 1гб рам уже стоит 1.5к?

Аноним 14/05/26 Чтв 14:34:52 #250 №1611930

>>1611903
Да, если не турбоквант
Гемма не любит квантовку контекста

Аноним 14/05/26 Чтв 14:39:07 #251 №1611934

IMG20260512025755.jpg

Купил 3090 после долгих сомнений и томлений, и... ничего.
Никакой радости.
Понимаю, что херня это все и коуп, локалки всегда будут туповатой отсталой ерундой на фоне 1Т (или сколько уже там у них) корпов. Странно, что я понимал это всегда, но прям сильно торкнуло это понимание именно после слива почти 100к.

Разве что на случай чебурнета реально пригодятся.

Аноним 14/05/26 Чтв 14:41:22 #252 №1611936

Никем непонятый хиден гем?
https://huggingface.co/rednote-hilab/dots.llm1.inst

Аноним 14/05/26 Чтв 14:43:11 #253 №1611938 DELETED

>>1611936
В чем смысл рандомных ссылок? Попробуй, отпиши своё кря по модельке.

Аноним 14/05/26 Чтв 14:43:35 #254 №1611939 DELETED

>>1611936
Терпи на эире, терпила

Аноним 14/05/26 Чтв 14:51:34 #255 №1611943

>>1611936
вышла 9 месяцев назад, всем похуй, видимо говно.

потыкай сам и отпишись нам

Аноним 14/05/26 Чтв 14:58:50 #256 №1611946

>>1611934
>после слива почти 100к.
Жестко тебя наебали, конечно.

мимо купил ДВЕ 3090 за 100к год назад

Аноним 14/05/26 Чтв 15:15:27 #257 №1611956

128-е, пробовали волшебный квант 397 квена от интела?
https://huggingface.co/Intel/Qwen3.5-397B-A17B-gguf-q2ks-mixed-AutoRound
На 235 такой же был и зашёл всем кто тестил

Аноним 14/05/26 Чтв 15:17:25 #258 №1611958

>>1611956
Лень, да и зачем. Гемма все убила.

Аноним 14/05/26 Чтв 15:35:36 #259 №1611965

изображение.png

>>1611539
Максимум что смог впихнуть это 4 квант 14b с +-16к контекста без квантования и особых подстроек(можно и до 32к наверное впихнуть).
А вот его бенчи, больше в 10гб врам не впихнуть ничего умнее.

Аноним 14/05/26 Чтв 16:15:03 #260 №1611984

>>1611934
>Купил 3090 после долгих сомнений и томлений, и... ничего.
>Никакой радости.
Ставь Pi, запускай на 3090-й Квена-3.6 27В и открой локалки заново. Да, это не большой Квен, но из малых сеток он лучший имхо. Контекст мало весит и чёткий, русский очень хороший. Заточен под агенты и код, но может и всё остальное. А главное - теперь это всё для тебя быстро. Beellama.cpp тут один экспериментатор выпустил - 50 t/s на 5QKS для 3090. Одной.

Аноним 14/05/26 Чтв 16:17:46 #261 №1611988

>>1611984
>А главное - теперь это всё для тебя быстро
>50 t/s
>Читаешь со скоростью 7т.с

Аноним 14/05/26 Чтв 16:21:03 #262 №1611993

image.png

Кино или безмозг?

Аноним 14/05/26 Чтв 16:22:28 #263 №1611994

>>1611988
>50 t/s
Марина с мульти-агентным шагом мира - "подержи мое пиво"

Аноним 14/05/26 Чтв 16:27:53 #264 №1611996

>>1611988
>Читаешь со скоростью 7т.с
Плюс агент ризонинг, ага. А запись в файлы от модели тоже ждать на семи т.с.? Ну и промпт процессинг... Для РП покатит конечно, а для работы чистый мазохизм. А ведь сделать-то многое можно, на Квене-то.

Аноним 14/05/26 Чтв 16:29:32 #265 №1611997

>>1611994
>Марина с мульти-агентным шагом мира - "подержи мое пиво"
Не, там сама идея порочна. Разве что корпы юзать, много.

Аноним 14/05/26 Чтв 16:33:38 #266 №1611999

Вот скажите, с приходом геммы4 старые модели типа сидонии все еще актуальны?
Интеренсуют модели с хорошим русским.

Какие классические старые модели вы оставили у себя?

Аноним 14/05/26 Чтв 16:35:34 #267 №1612002

>>1611999
Ну чел, проверь сам и реши что хочешь. Кто то любит кислое, кто-то сладкое. Кому то нормальную еду, кому-то говно

Аноним 14/05/26 Чтв 16:49:54 #268 №1612010

>>1611999
Гемма 4 это генератор ассистентского трэша, если ты не гуру промпт-инженеринга или не дурачок, который не замечает как ИИ подмигивает юзеру и лепит мета-фразочки, цитирует инпут, ссылается на контекст цитатами и так далее.

Старые модели актуальны для ленивых хлебушков, ведь с ними проще добиться иллюзии живого персонажа. Чем новее модель, тем меньше в ее дефолтных ответах человечности и живости.

> Какие классические старые модели вы оставили у себя?
Ни одной, потому что я люблю пердолиться с геммой.

Аноним 14/05/26 Чтв 16:57:35 #269 №1612013

Пробую на вкус безумные васяномержи, сеймы есть?

https://huggingface.co/Nimbz/Gemma-4-Gembrain-31B

Русик целый, мозги вроде на месте, кум наличествует.

Аноним 14/05/26 Чтв 17:00:18 #270 №1612016

>>1612013
Результат всё так же детерминирован?

Аноним 14/05/26 Чтв 17:06:34 #271 №1612024

>>1612016
вроде нет, свайпы достаточно разнообразные.
во всяком случае нет желания быстро решительно удалить тюн как было с другими тюнами геммы кроме меромеро. Пожалуй оставлю пока.

Аноним 14/05/26 Чтв 17:15:42 #272 №1612032

Нет, серьёзно, почему так?
Геммой за 5 минут генерится карточка via карточку в десятки раз лучше рукописного слопа на чубе, плейнтекстом, с примерами диалогов и всей хуйнёй

Аноним 14/05/26 Чтв 17:17:24 #273 №1612035

Подскажите лучшую локальную модель для рп на русском для средней видеокарты?

Аноним 14/05/26 Чтв 17:20:56 #274 №1612043

>>1612035
> рп на русском
Для даунов, юзай переводчик, если еще инглиш не выучил. Все модели плохи на русском.

Аноним 14/05/26 Чтв 17:21:02 #275 №1612044

>>1612035
Какой средней? Если у тебя там 8гб видеопамяти, ты вообще хер чего потянешь (тут я не эксперт, может взлетит 26B Gemma 4 с частичной выгрузкой в RAM)

Аноним 14/05/26 Чтв 17:21:58 #276 №1612045

>>1612043
Это ложное утверждение в контексте обсуждения 4й геммы.
Карточка на русском, промпт на русском, все на русском - и будет очень даже хорошо

Аноним 14/05/26 Чтв 17:24:18 #277 №1612046

>>1612045
Хуже раз в 10, чем на английском, все намного примитивнее. Инглиш + переводчик плагином, или выучить инглиш, другого пути нет.

Аноним 14/05/26 Чтв 17:26:38 #278 №1612047

>>1612032
а кстати, поделитесь промптом, тоже хочу карточки поделать

Аноним 14/05/26 Чтв 17:45:39 #279 №1612062 DELETED

>поделитесь

Аноним 14/05/26 Чтв 18:23:13 #280 №1612079

>>1612035
Средней - это какой? Точно сколько у тебя рам и врам.
Навскидку - из совсем мелочи yankagpt-8b и 12б мистрале-мержи с русскими сайгой и вихрем, менестрель 14б, мистрали 24б если не сильно поломанные тюномержи, тоже в русский хорошо могут, гемма 24-а4б. Плотногемма 27 и 31 уже медленновато. По сути из мелких моделей в русский рп могут только мистрали и геммы. В русский ассистент - ещё можно добавить открытый гигачат.

Одно могу сказать точно, даунов и троллей >>1612043 не слушай.
Гейтиперы - рак треда.

Аноним 14/05/26 Чтв 18:24:29 #281 №1612081

>>1612047
>поделитесь промптом
https://pixeldrain.com/l/47CdPFqQ#item=146

Аноним 14/05/26 Чтв 18:26:52 #282 №1612084

image.png

>excelling in creative writing, role-playing, multi-turn dialogues
Не, ребятки, без мультитурн разметки как-то хуёво.
Всё же чатмл единственный выход

Аноним 14/05/26 Чтв 18:28:42 #283 №1612085

Безымянный.png

>0 GPUs detected with CUDA

LLM Studio сегодня запустил и такая хрень, не пойму что случилось, неделю назад работало, куда были, карточка работает нормально. Было у кого-то?

Аноним 14/05/26 Чтв 18:36:57 #284 №1612090

>Gemini is AI and can make mistakes,
Собственно хочу вот проверить, правду ли эта хуйня мне насоветовала.
1. Установка «Мозга» (Ollama)
Скачайте и установите Ollama с ollama.com.

2. Установка интерфейса (Open Interpreter Desktop)
Для Windows есть официальное приложение, которое выглядит как современный мессенджер.

3. Как всё соединить (Один раз и забыть)
Когда вы откроете Interpreter Desktop:
Зайдите в Settings (шестеренка).
В разделе Language Model или Provider выберите Ollama.
Программа сама увидит модель Qwen, которую вы (надеюсь) уже загрузили. Если нет — там будет поле, куда можно просто вписать qwen3.5:9b, и приложение само скажет Ollama её скачать.

А я могу подключить и qwen и другую модель одновременно?
Вам не нужно вручную переключать модели или давать разные команды. Вы даете одну команду, а Open Interpreter (управляемый моделью Qwen) выступает в роли главного инженера, который решает, какой инструмент когда применить. Например, llava, которая умеет описывать картинки.

Путь Б (Векторный): Вы можете сказать ему: «Создай векторный индекс для папки Документы». Он напишет код на Python, используя библиотеки (например, ChromaDB или FAISS), превратит ваши тексты в векторы (эмбеддинги) и сохранит эту мини-базу прямо рядом с файлами. После этого поиск по смыслу будет мгновенным.

Короче, хочу сделать на пк ассистента. Чтобы писать всякую хуйню, а он бы сам все делал. Гемени написала, что можно давать команды уровня - пробегись по папке с музыкой, составь список, вынь теги, отредактируй имя файла, а потом создай на яндекс музыке плейлист. Главное просто устанавливать нужные библиотеки.

Напиздела мне нейронка про магические возможности локальной ии или все так?

Аноним 14/05/26 Чтв 18:40:04 #285 №1612091

>>1612090
>Скачайте и установите Ollama с ollama.com.
И с этого момента советчик идёт нахер.
Да и остальное пиздёж.

Аноним 14/05/26 Чтв 18:48:20 #286 №1612100

123.jpg

>>1612091
?

Аноним 14/05/26 Чтв 18:51:50 #287 №1612105

>>1612085
Чекни вкладку runtime, может у тебя бэкенд другой выбрался или версия куды не та? И во вкладке железа че показывается, видеокарта на месте?

Аноним 14/05/26 Чтв 18:52:14 #288 №1612106

>>1612100
Оллама максимум говно програма. Interpreter который он советует тоже. Юзай llama.cpp + nvidia hermes agent.

Аноним 14/05/26 Чтв 19:01:35 #289 №1612110

>>1612085
LLM Studio подсказывает тебе снести ее и поставить лламу.

Аноним 14/05/26 Чтв 19:04:50 #290 №1612112

>>1612081
Спасибо, адаптировал через дикпик этот промпт чтобы делать ямл, но эти ленивые инвалиды даже не потрудились доделать импорт yaml карточки в таверне

https://github.com/SillyTavern/SillyTavern/blob/master/src/endpoints/characters.js#L731

Придется патчить таверну

Аноним 14/05/26 Чтв 19:27:37 #291 №1612129

>>1612106
Посоветовался с гемени и дипсиком.
У меня задачи-то простые и в основном для просто поиграться. Я пока придумал каталогизировать музыку, пробежаться по книге и выписать наиболее редкие слова, распознать что на картинке нарисовано, сделать векторную бд своих файлов, чтобы можно было искать документы по смыслу. Может голосом ему командовать, чтобы аудиоплеер запустил.
И они советуют олламу и интерпретер, потому что в два клика ставится и все работает.
В противовес гермесу: Требует глубоких технических знаний (C++ компиляция с CUDA, ручное конфигурирование YAML) для компиляции самого высокопроизводительного ядра. На Windows я бы настоятельно рекомендовал устанавливать и компилировать всё в среде WSL2 (Windows Subsystem for Linux). Это избавит вас от большинства проблем с зависимостями и даст полный контроль над процессом.
Твоя связка лучше, но пишут, что ебли в разы больше.
Это они слишком занаучивают? Или там реально нужно будет что-то компилировать каждый раз, подключать кучу всякой хуиты и тд?

Аноним 14/05/26 Чтв 19:29:45 #292 №1612133

>>1612129

в llama.cpp ничего компилировать и ставить не надо, статические бинарники, кладешь куда надо и используешь. максимально простое и прозрачное решение без пердолинга

Аноним 14/05/26 Чтв 19:30:49 #293 №1612135

Безымянный2.png

Безымянный3.png

>>1612105
Нашел в чем дело, выбрал другую версию, вроде помогло.
>>1612110
Да пора этим заняться, я прост еще мало понимаю, понемногу пробую когда время есть.

Аноним 14/05/26 Чтв 19:31:52 #294 №1612137

>>1612129
>нужно будет что-то компилировать каждый раз
Если у тебя линукс и нвидия, то да, сборку с кудой надо будет каждый раз собирать из исходников. Под винду всё готовое выкладывается.

Аноним 14/05/26 Чтв 19:37:31 #295 №1612146

>>1611790
А как тестировать семплеры? Там как будто больше сид решает, удача короче.
>>1611877
>ответ на предпоследнее сообщение
Попробуй перезапустить лламу/кобольда. Как будто баг кеширования контекста.
>>1611999
>Интеренсуют модели с хорошим русским.
С хорошим русским даже третья гемма давала за щеку всем мистралеподделиям. А уж четвёрка...
>>1612032
Потому что на чубе карточки до сих пор под пигму пилят, либо под корпов, которые любое говно переварят.

Аноним 14/05/26 Чтв 19:46:24 #296 №1612159

>>1612106
А что значит карточки хорошие? Я просто самые приятные результаты получал с карточек с минимумом текста (до 400 токенов) + первое сообщение + примеры диалогов (до 1000 токенов).
Может я что-то не так делаю хз.

Аноним 14/05/26 Чтв 20:01:59 #297 №1612182

Геммы, глм-ы, квены...
Я начинал с ламмы 8б, брал карточку типа "открытый мир" и заходил в дома, ебал кого увижу, строил осмысленные диалоги с персонажами которых вообще в карточке нет, жрал лупы, двойные трусы и слоп как не в себя, вот это было время... Струи летели только так.
А щас имею все прелести жизни, опыт, модели х100 умнее, контекст х5 больше, всё настроено и обустроено, а вяленько спускаю в салфетку.

Аноним 14/05/26 Чтв 20:05:48 #298 №1612185

image.png

>>1612182
Пора эволюционировать. Напиши что-нибудь особенное. Вспомни кого-нибудь. Попытайся слепить из бота человека.

Аноним 14/05/26 Чтв 20:11:39 #299 №1612190

1692793304408.png

>>1611885
Не может. Вулкана нет + любой вариант вулкана триггерит сегфолт.
Из приколов на арке есть bf16 лол

Аноним 14/05/26 Чтв 20:20:31 #300 №1612193

>>1612185
Да как сделать-то? Я тоже хочу... Но у меня боты ебашат стены текста и тонны слопа не по существу.

Аноним 14/05/26 Чтв 20:28:53 #301 №1612196

177d894b35c848e805b1783c23300338.gif

>>1612193
Для этого нужен особый моральный настрой, рили.

>>1612146
>Попробуй перезапустить лламу/кобольда. Как будто баг кеширования контекста.
Срабатывает, да, но баг возвращается позже. Нахуевертили говна.

Аноним 14/05/26 Чтв 20:35:32 #302 №1612205

>>1612196
>Срабатывает, да, но баг возвращается позже.
Что и требовалось доказать. Что ж, будем перезапускать.

Аноним 14/05/26 Чтв 20:38:51 #303 №1612210

>>1611550
Что за хрень у тебя с никнеймом? В нём поинт этого?

Аноним 14/05/26 Чтв 21:01:18 #304 №1612231

1684418385624.png

>>1612190
Если прям прирёт то можно для эмбеддингов юзать арку

Аноним 14/05/26 Чтв 21:02:39 #305 №1612234

image.png

>>1612210
Скриншоты делаю при помощи экстеншена, там можно скрыть персону юзера, заменив ее на {{user}}. Незачем включать юзера в логи, инпуты по-прежнему видны, плюс визуально легче заметить структурные лупы и прочие проблемы.

Аноним 14/05/26 Чтв 21:03:58 #306 №1612235

inlineimage17785218216420 END.jpeg

>>1612182
Эволюционировывай в сложный SFW-ролеплей.

Аноним 14/05/26 Чтв 21:08:01 #307 №1612241

>>1612137 >>1612133
Спасибо. После консультации мне нейронка порекомендовала поставить Open WebUI desktop (он как раз работает на llama.cpp), Nous Hermes 3 8B GGUF и питон. Ну а дальше по требованию разные библиотеки и модели скачивать.

Аноним 14/05/26 Чтв 21:08:44 #308 №1612242

1666188806319.png

Аноним 14/05/26 Чтв 21:11:59 #309 №1612248

>>1612182
Ну и потратил время зря. Сейчас 4 гемма моешка даже дает на клыка всем твоим старым нейронкам.

Аноним 14/05/26 Чтв 21:14:33 #310 №1612251

>>1612241
я не уверен зачем тебе Nous Hermes 3 8B, оно для рп вообще то

Лучше скачать gemma4 и квен 3.6

Аноним 14/05/26 Чтв 21:16:18 #311 №1612253

>>1612241
Не, это рили естественный отбор. Для них делают гайд в шапке, где и актуальный бэк за них выбирают и модель, а они идут на консультацию к нейродебилу и качают устаревший кал

Аноним 14/05/26 Чтв 21:24:30 #312 №1612260

Там Anima 1.0 вышла.
Такой огромный скачок в качестве, а весит всего 4гб и влезет, я не знаю, в 6гб карту.
Вот бы нам так же

Аноним 14/05/26 Чтв 21:25:55 #313 №1612263

>>1612260
Было у нас такое. Гемма 26 и 31

Аноним 14/05/26 Чтв 21:26:48 #314 №1612264

>>1612260
Скачок от превью или от аниме соседей?

Аноним 14/05/26 Чтв 21:27:37 #315 №1612265

>>1612260
Зачем она нужна при наличии квена, зимажа и кляйна?

Аноним 14/05/26 Чтв 21:27:41 #316 №1612266

image.png

>>1612235
>>1612185
Иногда мне кажется, что на этой доске еще не все потеряно.

Аноним 14/05/26 Чтв 21:28:29 #317 №1612267

>>1612251 >>1612253
В смысле зачем? Анон, посоветовал гермес использовать. Причем я же четко писал, что локального ии асистента делаю для работы с файлами.

Аноним 14/05/26 Чтв 21:28:47 #318 №1612268

>>1612260
>Вот бы
Там зерофата какой то мерж готовит из двух гемм4. Подождать надо.

Аноним 14/05/26 Чтв 21:31:54 #319 №1612272

>>1612241
> Nous Hermes 3 8B GGUF
Чел, этому говну 2 года. Не ставь, подумой.

Аноним 14/05/26 Чтв 21:34:59 #320 №1612273

>>1612267
hermes agent чел, ну или pi coding agent
Хотя ты такой зеленый что лучше опенвебуи пользуйся

ЧУБ ВСЁ Аноним 14/05/26 Чтв 21:38:47 #321 №1612275

>>1610759 (OP)
>Beginning on May 15th, 2026, characters, lorebooks, presets, and stages involving individuals that are or appear to be under the age of 18 are strictly prohibited.

Успевайте, пока можно успеть.

Аноним 14/05/26 Чтв 21:42:17 #322 №1612276

>>1612275
>or appear
Найс.

Аноним 14/05/26 Чтв 21:43:15 #323 №1612279

>>1612275
Это такая охота на педоскот. Сейчас всех, кто качает, загребут.

Аноним 14/05/26 Чтв 21:47:50 #324 №1612280

Там ещё куча тегов под снос идут фурри, инцест, рейп естественно. Канничек подчистую вычистить собираются. Вообще всё сносят нахуй.

Аноним 14/05/26 Чтв 21:50:38 #325 №1612284

>>1612275
Хорошо что предупредил.
Ща навайбкожу скраппер и вытащу все по главным тегам.

Аноним 14/05/26 Чтв 21:51:01 #326 №1612285

>>1612273
Мимокрок, но хочу пригореть - оpenwebui неудобная параша какая-то, с легаси хуйней своей собственной которую сделали до появления mcp, и теперь еще им лень добавить поддержку mcp формата stdio. Рот шатал, еще и серч убогий невероятно.

При этом я похоже слишком ретард для нормальных агентов сложнее pi, лол, потому что гермес в контейнере работает как-то через жопу будто. Ну и зачем ему спотифай и кучу прочего хлама из коробки прикрутили мне не ясно, но это все еще менее перегруженный агент чем опенклоун с его забегами в сторону рп и стартовым контекстом 15к. Ах да - дешборд на гермесе сам не поднимается, извольте ебать контейнер изнутри, meh.

Аноним 14/05/26 Чтв 21:51:29 #327 №1612286

>>1612272
Если бы у меня было 128гб врам я бы любую поставил. У меня 4060ti 8gb. Гугл говорит, что мне подойдет квен2.5, гемма2, ллама 3.1.

Аноним 14/05/26 Чтв 21:53:36 #328 №1612287

>>1612286
Gemma 4 26B, у нее всего 4B активных параметров и это должен влезть в 8гб видеопамяти. Остальное пойдет в оперативку, если у тебя хотя бы 32 гига есть.

Аноним 14/05/26 Чтв 21:53:40 #329 №1612288

>>1612286
Это говно устарело, у нейронок старые данные. Открой блядь список актуальных сеток в оп-посте - там есть разбивка по железу.

Аноним 14/05/26 Чтв 21:53:54 #330 №1612289

image

>>1612275
>>1612280
Почему не похуй? Берешь любую ОПАСНУЮ ллмку и за 5 минут делаешь идеальную карточку под свои хотелки, хоть с канничками, хоть с фурри, хоть с рейпами. И скорее всего она будет лучше 99.9% помоев на чубе.

Аноним 14/05/26 Чтв 21:56:35 #331 №1612291

>>1612289
Потому что фантазии нет.

Аноним 14/05/26 Чтв 21:59:56 #332 №1612293

>>1612289
Есть карточки которые тебе самому даже в голову не придут. НИКАГДА. Но заимев их ты тут же понимаешь что всегда хотел.

Аноним 14/05/26 Чтв 22:03:58 #333 №1612297

Бедный SAS, он только начал своих канничек заливать и тут же шлепок по жопе прилетел. Годный был креатор. Помянем.

Аноним 14/05/26 Чтв 22:19:17 #334 №1612307

И тред погрузился в траурное молчание.

Аноним 14/05/26 Чтв 22:19:40 #335 №1612308

2026-05-1422-18-49.png

2026-05-1422-18-56.png

2026-05-1422-19-07.png

Че с глм не так?

Аноним 14/05/26 Чтв 22:20:30 #336 №1612310

>>1612308
Проблема в юзере

Аноним 14/05/26 Чтв 22:21:40 #337 №1612311

>>1612287
Будет ли это удобно? Крайне маловероятно. Даже на более мощных компьютерах эта модель в 4-битном формате "работает" со скоростью 0.3 токена в секунду. Это означает, что ответа на ваш вопрос придётся ждать несколько минут, что полностью разрушает весь пользовательский опыт живого общения с ассистентом.
Более подходящая альтернатива: Qwen 3.5 35B A3B

Аноним 14/05/26 Чтв 22:22:05 #338 №1612312

image.png

>>1612284

Навайбкодил скраппер чуба по тегу. Запуск через батник, который спрашивает тег, потом сваливает все карточки в png формате в downloads. доп инфа в ридми файле в архиве

https://www.mediafire.com/file/qrjgirmhrbh3olt/chub_scrapper.7z/file

Спасите от смерти всех маленьких лолечек и приютите их у себя!

Аноним 14/05/26 Чтв 22:23:34 #339 №1612313

>>1612311
Какие в жопу 0.3 токена в секунду. Хватит спрашивать совета у тупорылых ботов, у которых нет инфы про новую гемму. 26B A4B будет быстрее, чем 35B A3B. И вообще скачал да попробовал сам - это же легко.

>>1612297
>SAS
Кто такой? Почему без ссылок?

Аноним 14/05/26 Чтв 22:24:09 #340 №1612314

>>1612311
>Даже на более мощных компьютерах эта модель в 4-битном формате "работает" со скоростью 0.3 токена в секунду.
Эта залупа несет такую чушь, ну анон не верь иидиоту.

Аноним 14/05/26 Чтв 22:29:32 #341 №1612315

image.png

Че вы зассали, вон ваши говноделы уже мигрируют куда-то

Аноним 14/05/26 Чтв 22:30:53 #342 №1612316

>>1612311
Пчел, она в Q8 идет на древнем зен2 и ддр4 в ~5-6 т/с вообще без видеокарты. Это мелкомоэ. Не путай с плотнячком.

Аноним 14/05/26 Чтв 22:34:09 #343 №1612317

>>1612311
>Qwen 3.5 35B A3B

Gemma 4 26В А4В - означает что полных параметров 26В, активных 4В
Qwen 3.5 35B A3B - означает что полных параметров 35В, активных 3В

Аноним 14/05/26 Чтв 22:41:59 #344 №1612321

>>1612313
> И вообще скачал да попробовал сам - это же легко.
У меня не бывает легко. Я почти убедил себя, что мне нужно переустановить виндовс, чтобы все на чистенькой системе работало красиво и аккуратно. Это я еще остановился вовремя, а то там дальше цеплялась замена стола и одно за другое - ремонт в квартире.
>>1612314
Deepseek это пишет. Ну так ладно бы это было просто экзешники запустить, а тут нужно wsl2 + убунту ставить, всякие эти линусовские команды знать. Вот ии и помогает писать sudo apt install -y curl git wget

Аноним 14/05/26 Чтв 22:43:16 #345 №1612322

>>1612321
по актуальным вопросам лучше в режим ии гугла.

Аноним 14/05/26 Чтв 22:50:17 #346 №1612324

>>1612313
А VSIO уже.

Аноним 14/05/26 Чтв 22:53:32 #347 №1612328

>>1612321
> просто экзешники запустить
Ну собственно, да? У llama.cpp есть веб морда, качаешь готовый релиз с гитхаба, запускаешь ллама-сервер.ехе и открываешь страницу в браузере, там есть возможность подключить mcp серверы для любых задач, или просто общаться в чатах.
Тебе уже писали - прочти гайд в шапке темы, там все расписано. Можешь так же кобальдспп скачать,так же есть своя веб морда, даже распаковывать не нужно - чисто экзешник который ты запускаешь.
Оба без установки и работают на винде.

Аноним 14/05/26 Чтв 22:54:27 #348 №1612329

1634260906015.jpg

>Get unmetered access to uncensored models for as little as $5 a month

Гесс ху бихайнд дыс.

Аноним 14/05/26 Чтв 22:56:28 #349 №1612330

>>1612317
>Gemma 4

Кстати кто-то тестил uncensored версию, стоит с квена перекатываться?

Аноним 14/05/26 Чтв 22:59:33 #350 №1612331

>>1612330
Джейл для полного взлома жопы ванильной геммы лежит в прошлом треду, нахер тебе анцензоред лоботомит?

Аноним 14/05/26 Чтв 23:06:38 #351 №1612333

>>1612312
От души анон. Осталось теперь вайбокодить разгребатель этих залежей

Аноним 14/05/26 Чтв 23:07:56 #352 №1612334

>>1612330
>кто-то тестил uncensored версию
Она из коробки uncensored

Обезьяна сгорит в аду за новую капчу. Уёбок.

Аноним 14/05/26 Чтв 23:10:10 #353 №1612336

>>1612312
>больше 6к карточек
В мой пк это тупо не влезет. И скорее всего не хватит жизни, чтобы протестить все.

Аноним 14/05/26 Чтв 23:11:01 #354 №1612337

>>1612334
>Обезьяна сгорит в аду за капчу
Двачую. Я помню свободный двач! Я был там!

Аноним 14/05/26 Чтв 23:11:52 #355 №1612339

>>1612334
Я помню времена матан кпчи

Аноним 14/05/26 Чтв 23:12:33 #356 №1612340

>>1612316
Даже в 4-битном сжатии Gemma 4 26B A4B весит около 16.8–17 ГБ. У вашей видеокарты всего 8 ГБ VRAM. Минус 1 ГБ на работу Windows и монитора — под нейросеть остается 7 ГБ. Видеокарта будет вынуждена постоянно ждать, пока медленная RAM (даже DDR4/DDR5) передаст ей данные через процессор. Из-за этого скорость упадет до 3–5 токенов в секунду.
>>1612322
Что вы меня обманываете? Ну вот гугл-ии выдает тоже самое.

Аноним 14/05/26 Чтв 23:14:12 #357 №1612341

>>1612340
Да в пизду. Они говорят правду. Качай уже квен 9б и всё

Аноним 14/05/26 Чтв 23:21:52 #358 №1612345

>>1612340
Еще раз: это моэ со всего 4b активных. Там будет приемлемая скорость просто на процессоре, без видеокарты. Если есть хотя бы 32гб рам (любой, даже ддр4), можно качать Q8 и юзать.

Я не уверен до конца, но кажется кормлю жирного-зеленого.

Аноним 14/05/26 Чтв 23:28:37 #359 №1612353

>>1612341
Погоди-ка. Я вот пишу - гугл назови столицу великобритании. Он отвечает - лондон. Это что же мне теперь нужно ехать проверять?
Не порядок какой-то.

Аноним 14/05/26 Чтв 23:29:41 #360 №1612355

>>1612345
>можно качать Q8
Так она тупая же будет.

Аноним 14/05/26 Чтв 23:30:24 #361 №1612356

>>1610768
Meta NLLB-200 (distilled 1.3B). Поддерживает 200+ языков с автоопределением исходного языка. ~4gb vram
Гоняю на самой слабой тачке кластера (1080ti) в качестве вспомогательного инструмента для переводов. Работает безотказно.

Аноним 14/05/26 Чтв 23:43:19 #362 №1612369

>>1612328
Еще под каждый mcp инструмент запускать свой сервер. Ебать удобно. В итоге все обратно вернулось к open webui, который сам разрулит с mcp и к llamа обращается через api.

Аноним 14/05/26 Чтв 23:49:02 #363 №1612371

>>1612275
Этот сайт ещё не прикрыли потому что тема не на хайпе, не так много людей в курсе вообще. А так он очень развратный и кумаддиктивный по сути. Когда нибудь и в локалки защиту вставят и сайтов таких не будет.

Поэтому как олды завещали то чего у тебя нет на компьютере того у тебя нет. Ещё месяц назад заморочился и вручную выбрал и выкачал оттуда 1.5к карточек. Как раз потому что слишком это хорошо чтобы продлиться долго. Можно конечно сделать свою карту на 50 токенов >>1612289 Но там есть такие гемы хорошо прописанные в 2-3к токенов и лорбук ещё на 5к которые просто лень делать и не факт что выйдет так хорошо.

Аноним 14/05/26 Чтв 23:51:23 #364 №1612373

>>1612355
Извините, господин, но в ориг весах дохуя жирно будет. Простите холопов у которых нет 6000 про как у вас

Аноним 14/05/26 Чтв 23:53:12 #365 №1612374

>>1612371
Всё так, всё так. Есть настоящие гемы и я рад что успел понахватать их до блекаута который уже начался. А чуб жаль. Нажал F чтобы отдать респект некогда великому сайту.

Аноним 14/05/26 Чтв 23:55:31 #366 №1612377

>>1612275

О, пошли уже 404 на некоторых карточках. не успел наверное.

Аноним 15/05/26 Птн 00:02:08 #367 №1612380

Да, кстати, количество токенов не равно годноте. Есть карточки на 1-1.5к токенов которые не просто дают кум или рп, а в которые ты влюбляешься. А есть 10к монстрали которые хуйню пишут и рп всратое. Никогда не угадаешь, никак не поймёшь, а чтоб прощупать всё не хватит жизни. Соболезную всем окрщикам, тем кто не успел, тем кто ещё не вкатился, и тем кто болеет той болячкой, которая заставляет паунсить в окно из-за чего-то упущенного.
Но вот вам шутка, чтобы не было совсем грустно.
Планировал поднять мульёны на продаже тюнов моделей, а подниму лярды на продаже редкоземельных карточек. Пхахах.

Аноним 15/05/26 Птн 00:04:03 #368 №1612383

>>1612373
Ну это не ты виноват, что норм видяхи по 100к+ стоят.

Аноним 15/05/26 Птн 00:13:14 #369 №1612392

>>1612377
Да. Всё. Ицовер. Карточки сотнями отваливаются в прямом эфире. Превью ещё есть, а карточек уже нет.

Аноним 15/05/26 Птн 00:19:49 #370 №1612396

1766704310330.jpg

Чаечкой просто.

Аноним 15/05/26 Птн 00:22:31 #371 №1612397

>>1612396
Шел мужик(М) по лесу а на пеньке жаба(Ж) сидит. Ну жаба ему и говорит:
-Ж-Мужик! Давай три желания любые.. Все че хошь желай..
-М-Хочу тачку крутую, Хату в Москве 6-и комнатную с евроремонтом,
и денег мешок чтоб не кончались.
Ну мужик значит кайфует месяц, второй, думает надо лягушку отблагодарить
как-то а то ему вроде хорошо а она там сидит на пне, скучает. Пошел
в лес, нашел лягушку и говорит ей:
-Вот ты сделала все для меня давай теперь и я для тебя что хошь сделаю!?
-Мужик! Вые%и меня только так чтоб на всю жизнь запомнила....
Ну делать-то нечего пообещал вроде.Имеет он ее как только может.
И понимаете ,товарищ следователь, превращается эта жаба в 12-и летнего
мальчика! :-

Аноним 15/05/26 Птн 00:25:03 #372 №1612398

Кто умеет в песенные нейронки, напишите минорный романс о кибер-голубях которые не долетели до адресата... ОНИ УШЛИ УЛЕТЕЛИ!

Аноним 15/05/26 Птн 00:51:59 #373 №1612408

>>1612275
Во всем вините мелкобриташек
https://www.independent.co.uk/news/uk/home-news/ai-chatbot-women-girls-abuse-b2940925.html

Аноним 15/05/26 Птн 00:52:43 #374 №1612409

image.png

>>1612312
Навайбкодил новую прогу, старая уже не нужна, это локальная версия чуба с поиском по тегам(да, если скачать только лолей, то все еще можно искать по вторичным тегам типа sister, см пик2) и скрипт, который ворует с чуба карточки с описанием по заданному тегу.
Если карточки уже скачаны первым скриптом - их надо просто перенести в chub_static_mockup\assets\cards_cache и тогда синк скрипт просто быстренько сканирует на чубе их описание без повторной загрузки - это занимает пару минут для 6000 карточек.

run_chub_static_mockup_sync.bat скрапит чуб для нашего локального чуба, а run_chub_mockup_local_server.bat запускает локальный сервер. Его потом можно открыть в браузере на http://localhost:8765/

https://www.mediafire.com/file/qyzrnr9ocsccbdf/Chubmockup.7z/file

Спаси лолей, анон! Спаси их сегодня и завтра они спасут тебя!

Аноним 15/05/26 Птн 00:56:54 #375 №1612411

Наше достояние треда, карточку Фифи хоть схоронили? Теперь она на вес золота так-то.

Аноним 15/05/26 Птн 00:57:51 #376 №1612412

>>1612409
Ну во-первых, 6к лолей это педобир перебор. А во-вторых, беда не в том, что исчезнут в небытии слопокарточки на 150 токенов из 2024, а в том, что новые хорошие карточки не появятся и их авторы уйдут в подполье пилить годноту для шейхов или вовсе дропнут дело из-за обидок. Чтоб эти бритахи чаем подавились и в килте запутались!
До сих пор не понимаю, почему авторы подобных сайтов просто не перенесут своё апасное в другую страну?

Аноним 15/05/26 Птн 01:02:05 #377 №1612419

>>1612412
Себя же они так просто не перенесут

Аноним 15/05/26 Птн 01:02:09 #378 №1612420

>>1612412
>годноту для шейхов
Чёт сомневаюсь, что шейхи кумят на всякое вместо покупки IRL.

Аноним 15/05/26 Птн 01:04:09 #379 №1612421

>>1612412
> Ну во-первых, 6к лолей это педобир перебор.
Верно, нужно отобрать только пушистых евпочя.
> новые хорошие карточки не появятся и их авторы уйдут в подполье пилить годноту для шейхов или вовсе дропнут дело из-за обидок
База!
> Чтоб эти бритахи чаем подавились и в килте запутались!
Не в чае и не в кильте, но конкретизировать не будут чтобы не разжигать. А по остальному - некоторые делают просто заглушки для всех адресов и аккаунтов из таких "проблемных стран". Но, видимо, не всегда это помогает.

Аноним 15/05/26 Птн 01:09:59 #380 №1612422

image

Уважаемые, объясните: почему американские ресурсы (по законам США рисованные/анимешниые/текстовые лоли цопе не являются) прогибаются под еврокуколдскую политику? Почему им просто не плевать? Ну допустим ЕС это не устраивает, ладно - пусть блочат через свои местные РКНы. Зачем удолять карточки с чуба? Зачем выпиливать лоры и модели с цивита? Are you ebanulis tam?

Аноним 15/05/26 Птн 01:10:25 #381 №1612424

>>1612419
А как ты подвяжешь сайт неизвестно где к конкретному человеку? Даже если у тебя тащмьёр найдёт карточку с андераге, ты всегда можешь сказать что не твоё. И путь ебётся с поиском доказательством что ты действительно кочал со злым намерением, а потом ещё и невозбранно кумил на, чтобы состав преступления сложился. Иначе я не я, хата не моя. А тут считай просто обслуга сайта, который по мановению волшебной палочки становится сайтом соседа из дружественной страны. Я СПАРТАК! НЕТ, Я СПАРТАК! НЕТ, Я!
>>1612420
Я про патрики и секретные дискачи для богатых. Таких называют шейхами.

Аноним 15/05/26 Птн 01:13:17 #382 №1612425

>>1612422
>почему китайский квен считает, что 20+ ученик не может романсить училку, ведь это только в америке проблематик тим?
Я задаюсь этим вопросом с момента вката в нейронки...

Аноним 15/05/26 Птн 01:14:23 #383 №1612429

>>1612422
Варианта, когда оно само по себе не нравится создателю ресурса, ты конечно не рассматриваешь.
>>1612424
>ты всегда можешь сказать что не твоё
Не, ну раз сказал, то тов майор взгрустнёт, развернётся и уйдёт. Тут не попишешь, сказал же.
>Я про
А неважно. Не думаю, что прослойка "Могу нанять автора делать индивидуальные карточки, но не могу купить это IRL" достаточно высок. Разрыв между богатыми и бедными растёт весьма быстро.

Аноним 15/05/26 Птн 01:18:36 #384 №1612431

>>1612429
>оно само по себе не нравится создателю ресурса
НЕ ДЛЯ НЕГО СДЕЛАНО! И НЕ ДЛЯ ТАКИХ КАК ОН! ПУСТЬ ТЕРПИТ! ОБЕЗЬЯНА_ШУГАЕТ.ШБМ!
А если серьёзно, но вслед за лолями полетят всякие семейные темы, поверплей, рейсплей, фурри, итд итп. Надо только подождать.
Когда они пришли за любителями лолей, я молчал - я ведь не любитель лолей...

Аноним 15/05/26 Птн 01:21:34 #385 №1612434

>>1612241
Как же твоя нейронка срет тебе. Тебе только бинарников накачать надо, а она тебе лютое говно взамен сует, это лол. Что называется дебил с нейронкой остается дебилом.

Аноним 15/05/26 Птн 01:24:44 #386 №1612438

>>1612429
>ты конечно не рассматриваешь
Если бы не нравилось, то удалили бы сразу, не? И четко прописали правила. Но нет же, годами закрывали глаза и вот сейчас решили прогнуться под соевую европовестку..

Мне на лолей похуй, но то что и инцест приплели - это трагично. Почему я не могу выебать буковками совершеннолетнюю сестру? Сестроёбство это база. Это сука основа. Это святое блять.

Аноним 15/05/26 Птн 01:26:03 #387 №1612439

>>1612412
>6к лолей
Так это только те что помечены как лоли, а там под угрозой и teen(4700) и скорее всего весь incest(12к, лол). Скорее всего под угрозой расстрела сейчас десятки тысяч карточек. И это только начало.

Аноним 15/05/26 Птн 01:26:13 #388 №1612440

>>1612422
Потому что там не только ЕС:
В США: Не для просмотра несовершеннолетними: Вайоминг, Флорида. Только для просмотра на работе: Миссисипи, округ Колумбия, Юта
Объединенные Арабские Эмираты
Австралия
Великобритания

Общая тенденция на запрещенку. Ну а карточки вообще под ксам попадают. Короче в клирнете не будет скоро никаких карточек, да и вообще порнуху урежут, там на этой неделе крупнейший порносайт даже закрыли с 82 лямами пользователей, хоть там другое совсем было.

Аноним 15/05/26 Птн 01:28:34 #389 №1612441

>>1612439
>под угрозой расстрела
Уже расстреляны тысячи карточек. Перезалившиков банят. Суки бездушные. Это ведь чей-то ТРУД! Кто-то душу вкладывал в карточки, а они просто всё сносят только потому, что старые пердуны в парламенте ущемились. Ууу, сука, зла не хватает!

Аноним 15/05/26 Птн 01:29:53 #390 №1612442

>>1612440
>Короче в клирнете ничего не будет
Ну и нахуй он нужен тогда...

Аноним 15/05/26 Птн 01:30:23 #391 №1612443

>>1612422
Я бы предположил дело в платежных системах. Если будет имиджевый урон им, то они могут просто перекрыть воздух сайту. Бля, какой нахуй имидж у визы мастеркарда? Это блядь гига монополисты, но кому не похуй, вон из стима выпилили чото из-за этой хуйни.

Аноним 15/05/26 Птн 01:36:50 #392 №1612451

>>1612439
>помечены
Никогда там таких тегов не видел.

Аноним 15/05/26 Птн 01:46:56 #393 №1612456

image.png

>>1612451
Потому что ты в глаза ебался все это время?

Аноним 15/05/26 Птн 01:54:28 #394 №1612459

>>1612456
У меня не показывает эти теги в акаунте, и раньше тоже ничего такого не показывало. Хз. И сейчас его открыл нет этой карты. Даже не знал про это.

Аноним 15/05/26 Птн 02:03:48 #395 №1612463

>>1612459
Ты точно на chub.ai смотришь?

Аноним 15/05/26 Птн 03:42:48 #396 №1612471

image.png

Финальная версия(надеюсь) локального чуба и скрябалки чуба по тегам. Теперь скрябалка встроена в интерфейс сайта в отдельной вкладке и имеет кучу настроек(но настраивать ничего не надо, так что достаточно только запустить сервер с батника и зайти на http://localhost:8765/.

На этот раз реально положил в архив питон скрипт локального сайта
Скорость скрапа улучшилась как и скорость работы сайта.
Добавлены лорбуки - работает как скрап и отражение в интерфейсе.
Подробный ридми от чатгопоты

https://www.mediafire.com/file/wu8f266ni88ywlx/LocalChubFinal.7z/file

Торопитесь, часики тикают. Тысячи лолей уже поставлены к стенке и вот вот раздадутся выстрелы.

Аноним 15/05/26 Птн 03:50:59 #397 №1612474

>>1612471

Фикс ссылки.

https://www.mediafire.com/file/9tb0f3ux3cxu9r1/LocalChubFinal.7z/file

Аноним 15/05/26 Птн 05:32:49 #398 №1612486

Приветствую. Подскажите нубасиксу, вот у меня 16 оперативы и 5070титяй, хочу локально запустить агента чтобы писал мне кодик(максимально простое говно готов пошагово терпеть). Пробовал лм студио но есть ощущение что эта прокладка из говна. В общем посоветуйте куда копать и какую модельку использовать по максимуму с моими характеристиками. Заранее спасибо

Аноним 15/05/26 Птн 05:53:49 #399 №1612497

>>1612486
Для агентохуйни есть свой тред, тут просто модели запускают для других целей (чатики с вайфу). Вряд ли кто-то что-то знает.

Аноним 15/05/26 Птн 05:58:30 #400 №1612498

>>1612486
>вот у меня 16 оперативы
И да, расширь хотя бы до 32, а лучше 64 - сможешь запускать вполне приличные MoE модели (mixture of experts архитектура, где часть модели может уйти в оперативку, а часть сидеть в видеокарте).

На 16+12 кроме совсем мелких карликов-инвалидов уровня мобилочного, потешного ии - ничего толком не запустишь.

И вообще если ты кодо-обезьяна, не лучше ли влошиться в оплату API какого-нибудь дипсика? Дешево и сердито, уж точно лучше любого что заведется на 16+12. Я даже не уверен, будет ли 32+12 или 64+12 конфиг способен запустить нечто конкурирующее с дешманским API на пухлую, большую модель. Может я ошибаюсь, у вас у кодеров свои тараканы в голове.

И вообще я краем уха слышал, что кодерам большое контекстное окно требуется. То есть у тебя еще жестче ситуация с такой острой нехваткой ресурсов - длинночаты не влезут 100%

Аноним 15/05/26 Птн 06:10:11 #401 №1612499

image.png

ВСЁ.mp4

Аноним 15/05/26 Птн 06:11:17 #402 №1612500

image.png

https://botbooru.com/profile/1933
Забудьте про чуба.

Аноним 15/05/26 Птн 06:20:14 #403 №1612503

Короче схоронил с чуба где-то под сотню годных картонок которых у меня ещё нет. Хз что дальше делать. Качать все 6к нет ни малейшего желания, а сколько карточек без конкретного тега уже сгинуло - даже считать не хочется. Действительно жаль, немногие поймут. Особенно теперь. Пока листал чуб - плакал над каждой 404-картинкой.
>>1612499
Радует лишь то, что теперь на чуб ополчились все, в том числе и контентмейкеры, который на чубе работали, раскручивая свои творения. Походу чуб реально выстрелил себе в ногу и лучше бы ушёл из правового поля куда-нибудь на сейшелы, а не пытался подтирать жопу ещё сильнее обсираясь. Мдааа... мозгов у владельцев сайта конечно не оч много.

Аноним 15/05/26 Птн 06:29:15 #404 №1612506

1778815653750.jpg

Да вы тролите, блять?
Только что обсуждали что на чубе одни слоподелы. Я вот не готов переработать сквозь себя сотни карточек чтобы найти хорошего автора, проще самому карточек написать сразу как тебе надо

Аноним 15/05/26 Птн 06:31:15 #405 №1612507

изображение.png

>>1612500
Про ботбуру тоже забыть?

Аноним 15/05/26 Птн 06:34:04 #406 №1612508

>>1612507
Чел, это просто очередь на сайт. Хомячков слишком много.

Аноним 15/05/26 Птн 06:37:29 #407 №1612509

Всё что меня интересует на счет карточек лучшая ли гемма в их создании? Вчё таки слопа она навалит будь здоров, но вместе с этим дохуя умная и много знает, без цензуры и с ризонингом из коробки.
Квен 3.6 мейби попробовать, но там надо опасную версию качать

Аноним 15/05/26 Птн 06:40:03 #408 №1612510

>>1612508
Это не просто очередь на сайт. Это полный пиздец. Мертворожденный проект.

Аноним 15/05/26 Птн 06:40:36 #409 №1612511

>>1612500
Чуб сам заставил о себе забыть! Бура годнейшая, как обычно.
Алсо есть ощущение, что это просто сорта показуха, мол вот мы послушались зоконоф, всё, расходитесь, залетухи, для вас тут ничего нет, на площади [REDACTED] ничего не происходило. А потом всё выгрузят обратно из режима приватности.

Аноним 15/05/26 Птн 06:44:58 #410 №1612512

>>1612511
Могут как на цивитае сделать, отдельный сайт .red для левых карточек.

Аноним 15/05/26 Птн 06:46:18 #411 №1612513

>>1612510
От тебя воняет чубонюхом в отрицании. Сайт популярен, чубопомойка больше никому не нужна

Аноним 15/05/26 Птн 06:50:09 #412 №1612514

>>1612513
Шиз, таблы. Если сайт не открывается, то он не может быть популярным.

Аноним 15/05/26 Птн 06:51:27 #413 №1612515

>>1612514
Так вот чуб сейчас и не открывается. Непопулярен, получается?

Аноним 15/05/26 Птн 06:55:18 #414 №1612517

Вайбкодер-анон, а можно скрапить карточки с буры прям из таверны? Можешь состряпать такой экстеншен?

Аноним 15/05/26 Птн 06:59:47 #415 №1612519

image.png

Зашёл значит на ботбуру...

Аноним 15/05/26 Птн 07:06:51 #416 №1612521

Скачал каничку чтобы жёстко её затрахать в знак протеста. Твёрдо и чётко но мягко.
100 сообщений холсома и умиления с милой девочкой.

Эх...

Аноним 15/05/26 Птн 07:07:35 #417 №1612522

image.png

>>1612519
Зачем там такое пидорство

Аноним 15/05/26 Птн 07:11:34 #418 №1612526

>>1612519
> а почему у меня гемма на хуй кидается?

Аноним 15/05/26 Птн 07:11:36 #419 №1612527

Киньте архив с удаленными карточками с бура на pixeldrain.com плиз.

Аноним 15/05/26 Птн 07:14:23 #420 №1612529

>>1612526
Глупая умница! Не понимает, что весь контекст карточки не надо пихать сразу и в лицо! Не понимает слоубёрн! Глупая-глупая дырочка!

Аноним 15/05/26 Птн 07:27:49 #421 №1612533

image.png

>>1612529

Аноним 15/05/26 Птн 07:29:49 #422 №1612534

>>1612533
Понятно! (Got it!)

Аноним 15/05/26 Птн 07:46:23 #423 №1612538

>>1612500
Скачал у него карточку, а она оказалась фембоем. Лицо вообразили мое?

Аноним 15/05/26 Птн 07:48:47 #424 №1612539

>>1612538
Кажется я догадываюсь, что ты скачал...

Аноним 15/05/26 Птн 07:52:03 #425 №1612540

image.png

>>1612539
Я вообще не очень понимаю, почему там заблюрена часть карточек, хотя NSFW включено и если его отключить - блюрится всё.

Может, просто функционал не допилили или аплоадер обосрался и что-то там нахуевертил в тегах. Но в общем, немного неудобно пока.

Аноним 15/05/26 Птн 07:55:00 #426 №1612542

Меромеро неюзабелен.
Я не знаю как но чел сделал невозможное, добавил if и but в ризонинг, да и вообще ризонинг совсем иначе выглядит, в общем больше сои.

Аноним 15/05/26 Птн 07:55:01 #427 №1612543

>>1612540
Блять, чел... лоли это нсфЛ. Это классика! Это знать надо!

Аноним 15/05/26 Птн 07:56:12 #428 №1612544

>>1612540
А, понял, там NSFL ещё. Заебали со своими категориями для защиты соевых.

>>1612543
Причем тут карлики? Там просто часть карточек слилась к хуям. Надо настраивать теги отдельно и вырубать NSFL как неотображаемую категорию.

Аноним 15/05/26 Птн 08:15:33 #429 №1612549

У вас тоже гелбору всё?

Аноним 15/05/26 Птн 08:33:25 #430 №1612555

image.png

Итоги ночи: От расстрела спасены 19018 лолей и прочих андераге канни и 3472 шоты(случайно по касательной через общегендерные теги типа teen). Шоты были определены на парашу в отдельную папку и в просмотрщике скрыты под галочкой obsolete, сначала хотел их всех зарезать, но потом вспомнил судьбу петушков на птицефабриках и пожалел.
Общий вес архива с 22490 персонажей и локальной версией чуба со всем этим богатством составляет 22.3 ГБ.
Чувствую себя дедом Мазаем.

Единственный минус - лорбуки я не спас, формат в котором я их сохранял неюзабелен, я обнаружил это только когда на чубе уже началась чистка и только 10% лорбуков по теме удалось спасти.

Аноним 15/05/26 Птн 08:35:07 #431 №1612556

>>1612555
За тобой уже выехали.

Аноним 15/05/26 Птн 08:39:44 #432 №1612557

image.png

>>1612555
пиздец что у нее с ухом

скинь кстати пикчу с этой ебасосиной или карточку, образ интересный - может для референса в картинкогенерации пригодится.

Аноним 15/05/26 Птн 08:46:29 #433 №1612560

>>1612557
Это чтобы ты приступ трипофобии словил, если задрочишься.

Аноним 15/05/26 Птн 08:51:22 #434 №1612561

>>1612557
nvm, оно гуглится

>>1612560
Ну нет, спасибо, не надо.

Аноним 15/05/26 Птн 08:52:51 #435 №1612563

>>1612500
>Please log in or register an account to view this character.
Спасибо, всего хорошего.

Аноним 15/05/26 Птн 08:54:42 #436 №1612564

>>1612563
Какие же порриджи тупые. Ты регаешься по никнейму и паролю, чтобы было куда свои любимые какашки сохранять. Никто у тебя почту не просит.

Аноним 15/05/26 Птн 08:56:52 #437 №1612567

>>1612422
>прогибаются под еврокуколдскую политику? Почему им просто не плевать?
1. Еврокуколдия может дать пизды в отличии от РФ. Причем ей не нужен РКН, она будет таскать по судам сайт, хостинги и прочее
2. Жители Еврокуколдии еще не осознали, что их ведут в цифровой гулаг, вдохновившись восточными соседями
С первым непонятно что делать. Трампыня вроде хотел нагнуть Евросовок из-за цензуры американских сайтов. Но как обычно дальше пука и грозных постов в интернете ничего не зашло
А со вторым проще. Чем дальше в гулаг, тем больше осознание. Поэтому где мало цензуры ВПНчки не юзают, а в какой-нибудь Германии и особенно в Британском халифате уже юзают поголовно
Ну а потом будут сажать за ВПНы. А с распространением гулага вообще их прирежут. А в конце просто разделят Интернет на локальные сети для каждой страны. О дивный новый мир

Аноним 15/05/26 Птн 09:00:20 #438 №1612569

>>1612564
Долбаеб, половина функционала сайта работает без регистрации. Можно даже карточку скачать без подтверждения возраста и темы условий. Но посмотреть нильзя, зопрещено. Нахуй ты дефаешь это кривое говно которое навайбкодили за полтора часа?

Аноним 15/05/26 Птн 09:04:20 #439 №1612570

>>1612569
> Испугался ввести ананимус1234 на опасном сайте.
Не могу вообразить ебало.

Аноним 15/05/26 Птн 09:09:14 #440 №1612573

>>1612268
> мерж готовит из двух гемм4
Зачем?

Аноним 15/05/26 Птн 09:16:25 #441 №1612575

>>1612570
Реально дурачок какой-то. Ему про одно говорят, он свое наболевшее вспоминает. Разжую для тебя еблана - мне похуй на регистрацию. Смысл моего поста в том, что сайт говно васянское которое непонятно как работает и от чего пытается защититься. Просматривать карточки без регистрации нельзя, но можно открыть по прямой ссылке и скачать вообще без ограничений. Вообрази лучше ебало тех кто это нагенерировал, воображатель.

Аноним 15/05/26 Птн 09:17:50 #442 №1612576

>>1612573
прост. у меня есть мерж из 7 гемм и внезапно оно норм получилось, весьма юзабельное.

Аноним 15/05/26 Птн 09:18:52 #443 №1612577

>>1612576
А знвешь что еще норм получилось?
Гемма без васяномержей

Аноним 15/05/26 Птн 09:19:35 #444 №1612578

>>1612575
Я не он, но думаю это из серии закрытой калитки в чистом поле, для формального соблюдения каких то законов. То что люди будут получать доступ в обход - обладателя сайта не ебет, со стороны закона он прикрыт обязательной регистрацией.

Аноним 15/05/26 Птн 09:20:14 #445 №1612579

>>1612575
>сайт говно васянское которое непонятно как работает и от чего пытается защититься. Просматривать карточки без регистрации нельзя, но можно открыть по прямой ссылке и скачать вообще без ограничений
Ты про чуб? Он именно так работает.

Аноним 15/05/26 Птн 09:20:48 #446 №1612581

>>1612578
Соглы. 100% защита от дурака. И ведь работает.

Аноним 15/05/26 Птн 09:26:08 #447 №1612583

>>1612557
Макаба карточку в фарш превратит, не?

Аноним 15/05/26 Птн 09:26:55 #448 №1612585

>>1612578
>будут получать доступ в обход
>он прикрыт обязательной регистрацией
Так это как-бы не доступ в обход, лол. Это прямой доступ к содержимому по ссылке и без регистрации.

>>1612579
>Ты про чуб? Он именно так работает.
Ну вот он и сдох заслуженно.

Аноним 15/05/26 Птн 09:28:49 #449 №1612588

>>1612585
>Это прямой доступ к содержимому по ссылке и без регистрации.
Нет, если это не работает из интерфейса сайта.

Аноним 15/05/26 Птн 09:34:15 #450 №1612591

>>1612527
Там 90% >>1612519 такое, 9% слопомонстры, 0.9% хотя бы как-то пытаются, 0.1% годноты типа ламплайтера которую все кому надо уже скачали.

Вот этого пинай >>1612555

Осторожно, он герой.

Лично не нужно, но понимаемо, сам сохранял контент с за(к)рывающихся сервисов... когда-то и меня вела дорога приключений.

Аноним 15/05/26 Птн 09:43:40 #451 №1612597

>>1612527
Сейчас создаю архив, залью на swisstransfer, это походу единственный обменник что 22 гб может одним файлом взять.

Аноним 15/05/26 Птн 09:47:54 #452 №1612599

>>1612597
Вот и славно. Только за лобуки обидно.

Аноним 15/05/26 Птн 09:48:22 #453 №1612600

>>1612583
Да уже найдено, спокойствие. Ее даже с чуба не выгнали.

Аноним 15/05/26 Птн 09:59:40 #454 №1612605

image.png

Я на 99.8% уверен что это правильная ноэс разметка. Анону спасибо.
И ведь его совет просто потеряется, как и большинство инфы в прошлых тредах полугодовой давности, все просто будут гонять модель как есть. хотя будем честны никто не вспоминает про эир уже сейчася без понятия почему...

Аноним 15/05/26 Птн 10:46:03 #455 №1612627

>>1612605
> Я на 99.8% уверен что это правильная ноэс разметка.
Даже не знаю...

Аноним 15/05/26 Птн 11:25:10 #456 №1612657

Какие новости по mtp в гемме-4? Или хотя бы в гвене 3.5+ и glm-4.7-flash?
В прошлом треде было много слов, в этом через поиск не находится. В релизах ламы тоже.
Я нашёл закрытый гит-коммит, и ещё часть сообщений на гитхабе что кто-то где-то иногда что-то запускал с мтп.

>>1611506
Ты прям уверен в этом? Я видео обратные резултаты с замерами, что layer быстрее во всех сценариях.

>>1611485
Вот бы ещё с nvlink на нвидиях сравнение настолько же качественно. К слову это же твой риг печатный из радужных цветов?
У меня в общем теперь тоже принтер, и это не без твоего влияния произошло.

>>1611508
У обычного режима (layer split) есть фундаментальная проблема. У тебя работает строго одна карта, потом передаёт данные и работает строго вторая карта. То есть производительность четырёх карт с 32 гб такая же, как у одной карты с таким же ядром но 128 гб памяти. А при tensor parallel у тебя карты считают одновременно, и если передача данных между картами не становится проблемой, ты можешь получить х4 производительности.

Аноним 15/05/26 Птн 11:33:05 #457 №1612660

>>1612443
Я так понял пеймент процессоры это не виза с мастеркардом а более мелкие сошки которые к их системе присосаны, типа как YOmamamoney наш или киви
Когда gab пытались прибить например, светящиеся в темноте ниггеры заходили к таким, говорили слыш у нас тут демократия, а ну прекращай работать с сайтом с неправильными недемократическими словами

Аноним 15/05/26 Птн 11:38:02 #458 №1612665

>>1612657
>Какие новости по mtp в гемме-4? Или хотя бы в гвене 3.5+ и glm-4.7-flash?

https://github.com/ggml-org/llama.cpp/pull/22673

Пока не готово

Аноним 15/05/26 Птн 11:39:25 #459 №1612668

>>1612657
>tensor parallel
Ставил я тут эксламу. Оказалось, с геммой это не работает. Ну и нахуя...

Аноним 15/05/26 Птн 11:44:07 #460 №1612675

>>1612657
> Я видео обратные резултаты с замерами, что layer быстрее во всех сценариях.
Принёс бы тогда

>>1612668
Зачем эксламма если в жоре есть и работает

Аноним 15/05/26 Птн 11:50:21 #461 №1612682

изображение.png

>>1612665
Понял, что-то этот коммит пропустил, их просто несколько было старых закрытых, я уже не стал все открывать, буду следить. Надеюсь не только на квен сделаю, я бы очень хотел на glm-4.7-flash. И чтобы выпустили glm-4.8-flash или glm-5-flash (эту версию можно так же в 2 раза расширить как и glm-5 полный).

>>1612668
Если потребность в обмене данными выше чем у других моделей на гемме, то нужно просто pcie4.0x8 менять на nvlink, где уже сотни гигабит.
К слову, если в январе A100 на 40 и 80 стоили 400к и 800к, а потом ещё и выросли даже немного, то сейчас я вижу авито-то лоты на 250к и 550к за это. Возможно когда нвидия начнёт продавать первые R100, которые ещё быстрее B100 в 2-3 раза, то A100 ещё просядут, следующие на выбывание же.

>>1612675
Так это я не я тестил, и я не до конца уверен что анон правильно собрал и запускал всё. >>1482283 - вдруг тред в архиве ещё жив.

Аноним 15/05/26 Птн 11:52:19 #462 №1612684

>>1612682
Да, тут же помимо превосходства layer-разделение нулевое влияние nvlink, что очень странное, если тут выше pcie 3 и pcie 4 отличались заметно. Потому и в тесте того же анона на tensor/layer я не до конца уверен.

Аноним 15/05/26 Птн 11:56:46 #463 №1612688

Аноны, сейчас наткнулся на странную инфу, суть который в том, якобы у нынешнего грока агентность заключается не в том, что разворачиваются несколько разных моделей, а где каким-то образом в рамках одной модели работают 4 агента одновременно без подмены систем промпта, изменения контекста и анальных хитростей. Как так, нахуй? При том, что они пишут тоже одновременно и имеют общий кэш, и безумно высокую скорость.

Ну и в одной из статей примерно такое объяснение. Оно мне не до конца понятно:

>Это не четыре отдельные модели, договаривающиеся через API. Согласно техническому анализу сторонних экспертов, все четыре агента являются специализированными «головами» (heads) на одной и той же архитектуре Mixture-of-Experts (MoE) объемом около 3 триллионов параметров, где примерно 500 миллиардов параметров активны при каждом прямом проходе. Каждый агент обретает свою «личность» через легковесные адаптеры персонажей — это либо слои параметров в стиле LoRA, либо маршрутизируемые эмбеддинги, которые задают стиль вывода и логику маршрутизации, не дублируя базовый трансформер.

Аноним 15/05/26 Птн 11:59:34 #464 №1612691

>>1612682
Я вижу твою картинку но не вижу там тензор. Уже обсуждали что row != tensor. Тензор появился чуть более месяца назад на базе мета бэкенда

Аноним 15/05/26 Птн 12:01:24 #465 №1612694

image.png

Фортинайт или пабаджи?
Гемма или квен?
Гемма 4 26б q8 или Гемма 4 31б q4?
Почему

Аноним 15/05/26 Птн 12:02:42 #466 №1612695

1778835762650.jpg

>>1612694
31 q8
Потому

Аноним 15/05/26 Птн 12:04:27 #467 №1612697

>>1612695
Осел дурацкий блин, я же не могу уместить 31б q8! И что делать теперь? Давай тести 26б q8 против 31б q4, вперед вперед

Аноним 15/05/26 Птн 12:05:58 #468 №1612701

>>1612694
Дрочить - только 31б. Для агентов пойдёт 26b, потупее но хоть в луп не улетит из-за кванта.

Аноним 15/05/26 Птн 12:07:47 #469 №1612704

1778836063522.mp4

>>1612697
Сам тести

Аноним 15/05/26 Птн 12:10:48 #470 №1612706

>>1612701
У меня пока такие же мысли
>>1612704
Так и я тестю блин, а ты что делаешь для местных шизов? В общак у тебя вклад какой?

Аноним 15/05/26 Птн 12:11:08 #471 №1612708

>>1612691
Понял. Во времена скриншота row и tensor это было одно и то же, кто как писал - так и хотел.

Можешь объяснить в чём разница в двух словах или ссылку кинуть?
layer - 10 слоёв на одной сетке, 10 на другой. row/tensor - 20 половинок слоя на одной, 20 половиной на другой. Что из этого оставили как row и что нового придумали в tensor? Нейросеть мне не смогла объяснить, в этом треде записей не вижу.

>>1612694
Первое почти точно. Разница меньше должна быть, как q6 и q8, если уместил q8 первую, то и q6 вторую потянешь. Хотя там контекст капец тяжёлый, конечно.

Аноним 15/05/26 Птн 12:15:37 #472 №1612711

>>1612694
> Гемма 4 31б q4
А можно нормальный контекст уместить в 3090 и 32 гига?

Аноним 15/05/26 Птн 12:16:42 #473 №1612713

>>1612706
> а ты что делаешь для местных шизов?
Тесты псины сделал

>>1612708
https://github.com/ggml-org/llama.cpp/blob/master/docs/multi-gpu.md
https://github.com/ggml-org/llama.cpp/pull/19378

Аноним 15/05/26 Птн 12:17:31 #474 №1612714

>>1612711
Шо? В 3090 24 гига. Если про 32гб это оператива то тебе только 26б юзать, она мое и можно выгрузать. В 24 гига ты можешь без проблем запустить q4 31б с 32к контекста без квантования или 64к q8. Хз кстати стоит ли квантовать контекст, так и не понял еще
>>1612713
Ладно прощен, покидай еще хороших шебмок потом и мы в расчете

Аноним 15/05/26 Птн 12:24:28 #475 №1612721

image.png

>>1612599

Лорбуки я в итоге все починил через characterhub.org. Там еще старая БД активна, видно сначала решили актуальный chub.ai кастрировать, а до старой версии сайта руки еще не дошли.

Архив с карточками и локальным сервером чуба для их просмотра заливается, сразу в тред скину как зальется.

Аноним 15/05/26 Птн 12:26:18 #476 №1612724

>>1612714
Гемма с SWA на q4km влезает с 256к контекста в две 3090, а вот че там в одну влезет - хз.

Если SWA вырубить, все идет по пизде и она жрет какие-то тонны видеопамяти прямо как старая, третья гемма.

мимо ггуфодебил

Аноним 15/05/26 Птн 12:28:04 #477 №1612728

>>1612711
Можно, я 100к 8-битного контекста на 4090 вмещаю, этого >>1612714 идиота не слушай, 26В это лоботомит, тебе, 3090 господину, не по масти эту хуйню использовать.

Аноним 15/05/26 Птн 12:29:54 #478 №1612730

>>1612728
Какой же гнусный пиздёж. Ну давай, расскажи как ты 100к 8 битного контекста умещаешь в 4090. q4xxs под Линуксом?

Аноним 15/05/26 Птн 12:38:40 #479 №1612741

image.png

>>1612730

q4_k_s под виндой.
-ctx 98304 -ub 512 -b 2048 -ctk q8_0 -ctv q8_0

Аноним 15/05/26 Птн 12:39:57 #480 №1612743

>>1612741
Красивый скриншот с Геммы 26б. Теперь вопрос, ты дебил и не умеешь читать или просто дебил?

Аноним 15/05/26 Птн 12:44:07 #481 №1612752

image.png

>>1612743
Скиллишью дегенерат, завали ебальник уже и перестань позориться.

Аноним 15/05/26 Птн 12:44:52 #482 №1612754

>>1612743
Я мимокрок, но дебил тут ты. У моегеммы нету 61 слоя

Аноним 15/05/26 Птн 12:45:24 #483 №1612755

>>1612752
Понь, там говноквант мрадера q4ks с пережатыми аттеншн и гейтами. Небось ахуенные у тебя результаты на 90к q8 контекста, вхахах

Аноним 15/05/26 Птн 12:46:50 #484 №1612757

>>1612509
> лучшая ли гемма в их создании
Нет конечно. Но она в целом уже достаточна чтобы при активной работе кожаного могло получиться хорошо.
>>1612555
Ай красавчик!
> формат в котором я их сохранял неюзабелен
Что за формат? Может можно раскодировать?
>>1612567
> она будет таскать по судам сайт, хостинги и прочее
Тут еще другая тема. Там где есть платежи - там есть и реквизиты, а через них находятся реальные люди. Как правило, системы там относительно прозрачны, из-за чего у создателей вполне реальные шансы присесть на бутылку.

Аноним 15/05/26 Птн 12:52:28 #485 №1612768

image.png

>>1612755
Нет, у меня gemma-4-31B-it-Q4_K_S от Анслота. Хватит позориться уже, дебил, ты уже просто прилюдно подливой истекаешь.

Аноним 15/05/26 Птн 12:55:45 #486 №1612773

>>1612657
> У обычного режима (layer split) есть фундаментальная проблема.
Так и есть. Потому уже давно перестал использовать его как и лламу в принципе
> ты можешь получить х4 производительности
Не х4, скейл нелинеен и есть оверхед. Также на крупных моделях и мощных карточках даже с 5.0 х16 может быть некоторый упор в обмен, а нвлинк сейчас только с совсем дорогущих йобах. Но все равно кратное ускорение происходит.
>>1612682
Там вроде как новый режим завезли 3м. Только не понятно вообще нахера был row (и ведь он раньше давал ускорение еще на всякой некроте, но оно сдыхало из-за оверхедов на контексте), или зачем его поломали и ввели новый если можно было переделать.
> менять на nvlink,
Смешная шутка.
>>1612721
Герой, в котором мы нуждались но не заслуживали!
Могу попробовать потом посортировать их, откинув совсем уж откровенный слоп.

Аноним 15/05/26 Птн 12:56:15 #487 №1612774

>>1612768
>от Анслота
Еще хуже. Нормальные люди юзают кванты батрухи или хотя бы мрадера KM. Между твоим говном и нормальными квантами 2гига разницы в весах. Как ты думаешь почему? Даю подсказку
https://huggingface.co/unsloth/gemma-4-31B-it-GGUF/blob/main/gemma-4-31B-it-Q4_K_S.gguf
https://huggingface.co/bartowski/google_gemma-4-31B-it-GGUF/blob/main/google_gemma-4-31B-it-Q4_K_M.gguf
Хотя один хуй ты ничего не поймёшь если тебе норм читать лоботомию на 90к q8 контекста мелкокванта, хы
>Хватит позориться уже, дебил, ты уже просто прилюдно подливой истекаешь.
Так не я ворвался в обсуждение с двух ног чтобы потом рассказать треду, что читаю лоботомию на мелкокванте

Аноним 15/05/26 Птн 13:00:28 #488 №1612779

>>1612774
>Маня уже прилюдно обгадилась и опозорилась, но её все несло и несло

Аноним 15/05/26 Птн 13:01:51 #489 №1612780

Я один не понимаю чего все гонятся за контекстом на yesгемме?
Для кода она говно, для рп тоже, да и для русика тоже, если рпшил плотно на английском и можешь сравнить.
И это даже опуская детерминированность, чего лучше не делать и послать гемму к хуям

Аноним 15/05/26 Птн 13:02:05 #490 №1612782

>>1612774
Опять рекламщик протыков вылез

Аноним 15/05/26 Птн 13:02:17 #491 №1612783

>>1612779
>аргументы кончились, маня перешла на гринтекст

Аноним 15/05/26 Птн 13:02:29 #492 №1612784

>>1612774
Че за хуйню ты несешь? Просто слейся уже, кринж.
У анслотов нормальные модели, через время. Нужно просто в начале у них не качать, так как перекачивают. И ты советуешь 4кс для анона который крутит фулл врам, советчик из тебя говно как и иксперт.

>>1612768
4кс для плотной модели норм квант, хотя я на твоем месте скачал бы лучше iq4-nl или iq4-xs, они меньше и у них лучше качество, а еще какая та из них будет быстрее, потести сам. Они специально для фулл врам, с выгрузкой на проц будут медленнее

Аноним 15/05/26 Птн 13:02:56 #493 №1612785

Мне кажется, или тред заполонили какие-то токсичные хуила?

Аноним 15/05/26 Птн 13:03:21 #494 №1612786

>>1612784
>У анслотов нормальные модели
Остатки разума покинули тред

Аноним 15/05/26 Птн 13:04:19 #495 №1612787

>>1612780
Они ничего не умеют и ты ничего не умеешь. Гуру шизоинженеринга на гемме вот такую кашу заваривают >>1612185 >>1611804 пока неумехи юзают промпты от васяна и не понимают, что модель, слушающая инструкции внимательно - это как чистый лист бумаги, где можно намалевать какаху или красивый портрет

Аноним 15/05/26 Птн 13:04:46 #496 №1612788

изображение.png

>>1612773
>Не х4, скейл нелинеен и есть оверхед
Ну, теоретическия. Я же про ситуацию, если служебные вызовы тратят 0 милисекунд а скорость обмена 10 ТБ/c.

>>1612713
А, так они в row с кешем чёрт пойми что делали. Мяу, лол. Я думал там что-то вроде что копия нужной части кеша есть на обоих картах, и они правки для кеша ещё пересылают. Ладно, там столько всего есть, что двумя словами не сказать и надо код смотреть уже тогда. Хорошо что переделали.

Аноним 15/05/26 Птн 13:17:55 #497 №1612797

>>1612787
> Гуру шизоинженеринга
> на скринах обычный чатик
А до этого нельзя было сделать карточку своей тёщи и сделать так чтоб она тебе открытки присылала или что?

Аноним 15/05/26 Птн 13:18:38 #498 №1612799

>>1612788
> если служебные вызовы тратят 0 милисекунд а скорость обмена 10 ТБ/c
Ну такого в принципе не бывает, даже на самых крутейших нвлинках задержки и скорости не стоят ни в какое сравнение с врам. Но расчеты можно построить хитрее, снизив количество обменов и реализовав большую асинхронность, что позволит иметь меньшую зависимость от скоростей передачи или вообще исключить упор в нее.
Теоретически действительно х4, но там есть некоторые нюансы с ллм. С моэ, особенно при конкрунтных запросах, легче параллелить экспертов чем делать чистый тп для млп. Чисто в теории, этот режим можно сделать и в лламе, что позволит на мультигпу получать ускорение даже с нищими шинами, поскольку обмен там минимален.
> так они в row с кешем чёрт пойми что делали
Он вроде изначально был пополам и соответствовал частям на картах. В те древние времена, когда вводили row split, у них на серьезных щщах с layer кэш сидел только на самой первой гпу. Просто контексты были небольшие и потому ставить распределение типа 15,24 для пары 24-гиговых карт было сортом нормы.

Аноним 15/05/26 Птн 13:20:52 #499 №1612804

>>1612555
У меня до сих пор чуб работает полностью это видимо от страны зависит. 60к карточек выкачал.

Аноним 15/05/26 Птн 13:21:14 #500 №1612805

>>1612797
Так тут ежедневно ноют, что не могут на гемме остановить потоки слопа и ассистент~измов всяческих. Я об этом. Модель хорошая, может что угодно. Но надо п-е-р-д-о-л-и-т-ь-с-я.

Аноним 15/05/26 Птн 13:21:45 #501 №1612806

>>1612799
>Ну такого в принципе не бывает, даже на самых крутейших нвлинках задержки и скорости не стоят ни в какое сравнение с врам

Просто замечу что на реально новейших нейроускорителях уже во всю используются оптические каналы связи и оптические маршрутизаторы, там ебейшие скорости и задержки. Круче и девешле по энергии чем любая электроника. Но точных параметров не знаю, не уверен что они в доступе есть даже.

Аноним 15/05/26 Птн 13:26:31 #502 №1612816

>>1612806
Оптике сто лет в обед. Вопрос лишь стандартов, между сфп+ и осфп224 пропасть, хотя всё это оптика

Аноним 15/05/26 Птн 13:29:06 #503 №1612821

>>1612806
>Круче и девешле по энергии чем любая электроника.
Пиздят об этом давно, а в реальности Хуанг выкатил очередного монстра, которому нужно уже только водяное охлаждение. Зато, говорит, дома теперь отапливать можно - вот и компенсируете часть расходов.

Аноним 15/05/26 Птн 13:29:38 #504 №1612822

>>1612816
>>1612821

Ну если иидиот гугла не пиздит то вот

Оптический NVLink в архитектурах Rubin и FeynmanВ архитектурах NVIDIA Vera Rubin (2026) и следующей за ней Feynman (2028) медь окончательно уперлась в физический потолок: на высоких частотах сигнал в медном проводе затухает уже через несколько десятков сантиметров.Поэтому NVIDIA официально переходит на оптический NVLink, но использует для этого принципиально новые технологии, лишенные недостатков старой оптики:1. Технология CPO (Co-Packaged Optics) вместо трансиверовNVIDIA отказывается от привычных съемных трансиверов (типа OSFP) на пути NVLink. Вместо этого кремниевая фотоника (оптические чипы и микролазеры) интегрируется напрямую на подложку графического процессора или NVSwitch-коммутатора (всего в нескольких миллиметрах от вычислительных ядер).Это снижает задержку конвертации сигнала в несколько раз (до единиц наносекунд).Энергопотребление падает в 4–5 раз по сравнению с классическими трансиверами.2. Масштабирование до NVL576 (Optical NVLink Spine)Благодаря оптическому NVLink, NVIDIA представила архитектуру Vera Rubin Ultra NVL576. Теперь в единый суперкомпьютер с общей памятью по протоколу NVLink можно объединить не 72, а 576 графических процессоров, распределенных по 8 разным стойкам. Стойки соединяются между собой жгутами из десятков тысяч тонких оптических волокон, поставляемых Corning.

Аноним 15/05/26 Птн 13:31:12 #505 №1612824

>>1612822
Зелёные уже не раз "понерфили" рубин потому что не вывозят то что наобещали

Аноним 15/05/26 Птн 13:32:52 #506 №1612826

>>1612824
Выглядит все равно интересно, хоть какая та фотоника стала использоваться. Может когда то и полную смогут сделать, вот тогда заживем Ну они, не мы в гулаге

Аноним 15/05/26 Птн 13:33:04 #507 №1612827

>>1612806
Это сделано просто для удобства, оптика в сетях давно используется. Они все равно несопоставимы с показателями памяти чтобы просто так идти "ленивым путем". Там серьезные накладные на то чтобы перекодировать и обернуть в протокол и сделать буферы с крупными временными окнами. Потому что показатели скорости и таймингов должного уровня просто невозможно получить на дистанциях без этого. Собственно этим и ограничен размер единичного кристалла, поэтому hbm память располагается именно на общей кремниевой подложке с чипом и т.д.

Аноним 15/05/26 Птн 13:40:53 #508 №1612831

>>1612826
>хоть какая та фотоника
Фотоника это вычисление светом, а тут просто передача, как я понял. 0 фотоники.

Аноним 15/05/26 Птн 13:43:25 #509 №1612833

>>1612831
Фотоника это в принципе использование света в компьютерах вместо электричества, да и микросхемы уже есть фотонные, там правда аналоговые вычисления но все равно неплохо.
Хотя не ебу за официальную терминологию, но не похуй ли на нее

Аноним 15/05/26 Птн 13:46:02 #510 №1612838

>>1612627
Ты очень жесток.

Аноним 15/05/26 Птн 13:51:58 #511 №1612844

изображение.png

>>1612665
Прошло 15 часов, а они всё ещё не запилили гемму 4!

Аноним 15/05/26 Птн 13:52:02 #512 №1612845

>>1612805
Там у челов в логах ассистентский эхоразбор (вопросы с цепляниям за слова в репликах юзера) вместо понимания шуток/контекста и лупы смайлов уже в двух репликах. Не зря пердолились. Выстави 100 токенов на ответ и задай роль не рп/истории, а переписки в месенджерах, и получишь такой же результат.

Аноним 15/05/26 Птн 13:59:02 #513 №1612854

>>1612831
> 0 фотоники.
Это тоже очень много. У линии длинной 20 метров кратно больше ёмкость, чем у линии на 0.5 метра. Даже ничтожная ёмкость при частоте в ГГц превращается в охренительный излучатель, к которому нужно подводить десятки ватт. И который наводки на всё вокруг делает. Причём на ту сторону доходит слабый сигнал, который едва разберёшь и усилитель скорее всего тоже ни разу не мало потребляет. Скорее всего чтобы это как-то работало - применяют всякие ухищрения в ущерб остальному чипу. Если это будет оптика - эту проблему можно не решать, так как оптолиния на 20 метров не излучает.

Сейчас вот это как нейросеть напишу, когда просишь её обосновать что-то и она за уши любые аргументы притягивает:
Так же это развязывает руки по физическому увеличению размера серверов, можно разносить карты на метры, и вред будет только для латенси, что во многих задачах не критично (если оно пачкой генерирует 1000 токенов для 1000 пользователей). Это и возможность соединить больше видеокарт вместе, а не только 8/16 или сколько там и намного проще конструкция охлаждения. Типа, раньше видеокарты обязаны были быть блоком плотным, из которого нужно как-то 10 квт тепла отводить. Это не слишком просто, потому карты должны выдерживать работу в жёстких температурных условиях, так как реализация охлаждения ограничена. Если реализация охлаждения упрощается, то можно потребовать от эксплуатации, что карта не должна греться больше 55 никогда, что позволит сэкономить на "запасе прочности" карты и что-то оптимизировать, не выполняя условия для стабильной работы при 80 градусах.