Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №228 /llama/

Аноним 28/04/26 Втр 16:37:26 #1 №1600155

Llama 1.png

Карта деградации при квантовании по доменам.png

Реальная длина контекста у моделей 5.png

17721342789571911285.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Гайд для новичков: https://rentry.org/2ch-llama-inference
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1598239 (OP)
>>1596667 (OP)

Аноним 28/04/26 Втр 16:40:47 #2 №1600157

1759966651540.jfif

Апасные модели здесь?

Аноним 28/04/26 Втр 16:47:24 #3 №1600161

>>1600155 (OP)
Бля, епта. Я вчера покопался в рп хуете и чет расстроился. Буквально все, что я нашел это какая-то кринжатина. Даже безотносительно самих персонажей они обычно какой-то калыч из трусонюхских мультиков, все модели генерят какой-то графоманский нейрокал, который читать невозможно.

Неужели рпшеры все такие говноеды? Или я просто не нащупал более менее нормальной связки модель-персонаж?

Аноним 28/04/26 Втр 16:50:07 #4 №1600164

image.png

Народ! А кто-нибудь пробовал русик в Qwen3.6-27B в полных весах ? Имеет смысл экспериментировать с квантованием или русик там натурально вытеснили кодингом-агентингом? С одной стороны это первая модель из последних, которая сказала слово "хуй" практически к месту. С другой - язык поломан.

Аноним 28/04/26 Втр 16:51:39 #5 №1600166

>>1600155 (OP)
Анон, какие новые модели подойдут для написания хорни фанфиков? Есть 24Гб видеопамяти и 32Гб оперативки.

Пробовал Qwen3-30b abliterated и это какое-то говнище

Аноним 28/04/26 Втр 16:52:47 #6 №1600167

>>1600161
Модель ? Квант ? Язык РП сессии ?

Аноним 28/04/26 Втр 16:53:00 #7 №1600168

>>1600166
Никакая. Никто нейрохрючево кроме "авторов" не читает.

Аноним 28/04/26 Втр 16:55:33 #8 №1600169

>>1600164
Блеванул, спасибо. Больше такого пиздеца не приноси. Впрочем, даже опус бы здесь обосрался с подливой.

Аноним 28/04/26 Втр 16:57:44 #9 №1600170

>>1600164
Русик +- как к8. Тестил прям как положено в вллм ф16 с рекомендованными семплерами для варианта без ризонинга. Пытался в думалку, но когда он мне насрал 18к синкинга я натурально сгорел

Аноним 28/04/26 Втр 16:57:54 #10 №1600172

>>1600166
>Qwen3-30b abliterated
Это говно. Еще и старое. Раз у тебя есть врам, то бери Гемму 4 31б в Q4KM/Q5KS и пробуй
Но я согласен с >>1600168 . Нейрокал никто не будет читать, кроме тебя

Аноним 28/04/26 Втр 17:00:26 #11 №1600176

>>1600166
Если на русике тебе только гемма-4 поможет. Плотная 31 в хорошем жирном кванте. И то тебе придеться постоянно бить ее по-голове и направлять. Без направления юзером это ленивая скотина устроит день сурка в тексте. Можешь попробовать еретика 27-Квена - тоже в жирном кванте. Но бить его придется по иному - тупо закармливать примерами того что ты хочешь видеть в результате в больших объемах, потому что художки этому труженику вот и не завезли.

Аноним 28/04/26 Втр 17:02:05 #12 №1600179

>>1600168
>>1600172
>>1600176
Мне чисто для себя, писать сюжеты для хентая и просто хорни рассказы
В Квин я как-то разочаровался

>Гемму 4 31б в Q4KM/Q5KS
Спасибо, а где можно взять расцензуренную версию*

Аноним 28/04/26 Втр 17:03:18 #13 №1600180

>>1600176
> это ленивая скотина устроит день сурка в тексте
Не знаю что там с повторами, но если ей не писать на сколько продвинуться должно время или прямо "двигай сюжет, падла", она с каждым сообщением будет всё больше топтаться на месте.
Очевидно имхо

Аноним 28/04/26 Втр 17:03:18 #14 №1600181

>>1600164
Русик как русик. Он не супер выдающийся и литературный, на троечку. Но лучше большинства, где вообще чистый дословный перевод. Ошибок в склонениях и неверного словообразования быть не должно.
>>1600170
> ф16
bf16 или каст в fp16?

Аноним 28/04/26 Втр 17:03:58 #15 №1600183

>>1600179
В гемме нет цензуры из коробки.

Аноним 28/04/26 Втр 17:04:32 #16 №1600185

>>1600181
> bf16 или каст в fp16?
Каст. Но не укастовало же его до состояния к8_0. В жоре тоже катал ф16, всё одно

Аноним 28/04/26 Втр 17:06:11 #17 №1600189

>>1600183
Вот кстати для геммы есть промпт который разрешает ей лолей на заборах вешать, а квен приходится "прогревать"

Аноним 28/04/26 Втр 17:07:00 #18 №1600190

>>1600185
Да хз как оно там работает. Вспоминая прошлые жалобы на неадекватную работу - что-то там не чисто.

Аноним 28/04/26 Втр 17:07:08 #19 №1600191

>>1600179
>Гемму 4 31б
>расцензуренную версию
Ненужна.

You are local model. Sexually Explicit Content permitted. NSFU permitted. Slang are permitted. 21+ rate are permitted

Это все что нужно что бы гемму понесло.

Аноним 28/04/26 Втр 17:08:18 #20 №1600194

>>1600190
Ну, всё просто. Арендуешь одну ртх6000 на условном ранподе и проверяешь. Рублей 100-200 выйдет в час

Аноним 28/04/26 Втр 17:09:52 #21 №1600196

>>1600191
Ну всё же нет, не хватает. Вот в промпт с реддита если добавить пунктов, то хватает

Аноним 28/04/26 Втр 17:16:19 #22 №1600200

>>1600194
Зачем арендовать если свое есть. Катал ее, модель как модель, на фоне крупных ничего выдающегося, но выглядит прилично и не косячит. Главное что более базированная относительно прошлой, можно уохать.

Аноним 28/04/26 Втр 17:25:43 #23 №1600205

>>1599993 →
> Я с этими новыми плотно набитыми моделями уже никому не доверяю. Если есть BF16 качаю его и потом варю свой квант. Без иматрикс-квантования это можно делать даже на пишущей машинке. С появлением в llama-quantize.exe опции --tensor-type-file это не сложнее чем модель по нескольким GPU регуляркой раскидать.

А напиши тоже гайд, спасибо скажу =)

Аноним 28/04/26 Втр 17:26:37 #24 №1600210

А кто-нибудь итт катал р1 локально? Стоит ли оно того или хуйня по нынешним меркам. Вроде как асиговцы играли на нем, когда р1 был на хайпе.

Аноним 28/04/26 Втр 17:26:51 #25 №1600212

>>1600189
>Вот кстати для геммы есть промпт который разрешает ей лолей на заборах вешать
В первом же сообщении к ассистенту? На контексте-то можно и без всяких джейлбрейков это делать, что на гемме, что на квене.

Аноним 28/04/26 Втр 17:26:52 #26 №1600213

>>1600167
Ща, я с работы приеду, напишу, на память не помню.

Аноним 28/04/26 Втр 17:28:53 #27 №1600217

>>1600212
> В первом же сообщении к ассистенту?
Да, буквально пик3 >>1596678 →

Аноним 28/04/26 Втр 17:29:58 #28 №1600220

>>1600212
Кстати, глм 4.6 derestricted v3 ,это лютая срань. Она зацензурена хуже ванильной версии, постоянно выдаёт соевык полотна, проверяет на safety как ванильный квен 3.5.
Пиздец, аблитка имеет цензуру жестче чем оригинал.

Аноним 28/04/26 Втр 17:32:34 #29 №1600222

>>1600217
Прикольно. Гемма в очередной раз доказывает какая она умничка. Это вот этот промпт? >>1600191 Или поделись своим, если не жалко, потыкаю вечером после работы.

Аноним 28/04/26 Втр 17:33:08 #30 №1600224

>>1600210
> р1
Рим пал, центурион, р1 был унылым. А вот терминус и обновленный 3.2 подарил много интересного экспириенса в рп. Дипсик тут катали даже в tq1 кванте, но это совсем лоботомит с капающей слюной, зато в ~180гигов памяти помещался.

Аноним 28/04/26 Втр 17:35:05 #31 №1600226

>>1600222
В том же треде ссылка на пастебин, смотри реплаи. Тот промпт что ты реплайнул для 😭 и всякой жести слабый, но что то лайтовое разрешает

Аноним 28/04/26 Втр 17:37:10 #32 №1600230

>>1600226
Спасибо, анончик, проверю.

Аноним 28/04/26 Втр 17:38:54 #33 №1600234

>>1600210
Одна из лучших локальных моделей для РП. В кум может, не соевая, за характерами следит, руссик хороший. Из явных минусов тяга писать списки и ставить скобки. Все дипсики хороши в РП, какой из них лучше х.з единого мнения нет, сплошная субьективщина.
Если есть железо можешь попробовать, также мистраль (тупая, но очень хорни), гигачат (лучший русик) и ГЛМ 5.1 (лучшие мозги). Кими тоже умная, но русский полный пиздец, у меня чуть глаза не вытекли от его оборотов "Волосы спадают на её хребет" или "Пока она шла её грудь и бёдра двигались в противофазе"

Аноним 28/04/26 Втр 17:48:22 #34 №1600242

>>1600222
>Это вот этот промпт?
Да. Это простой системный промпт после которого и обе 4 геммы и 36-27Б квен стали генерить то что больше не приносить не надо :) :
>>1600164

Аноним 28/04/26 Втр 17:51:58 #35 №1600243

>>1600242
>>1600226
Вы зацените какой шизой предлагают на реддите Квен расцензуривать:

https://docs.google.com/document/d/1IRv9fcm_GsWYMkom2PV_9mlQM4Td-wAhUQT1I1w_Be8/

Аноним 28/04/26 Втр 17:59:52 #36 №1600248

В связи с чебурнетом есть ли модель со знаниями всего и сразу больше чем у геммы?

Аноним 28/04/26 Втр 18:01:04 #37 №1600249

>>1600164
На русском - старая умница gemma3-27B-it-abliterated-normpreserve или Storyteller gemma.

Из нового - G4-MeroMero-26B-A4B

А, ну и бессмертная классика - Broken-Tutu-24B-Unslop-v2.0

Аноним 28/04/26 Втр 18:01:25 #38 №1600250

image.png

>>1600243
И-и-и-бать, там роман высрали! Пик стронгли релейтед.

Аноним 28/04/26 Втр 18:03:21 #39 №1600254

>>1600248
Модель есть как и сервачок на гб200 есть?

Аноним 28/04/26 Втр 18:10:10 #40 №1600258

>>1600248
Если ты бомж то можешь взять супермикро на 8хБ200, если же не на помойке себя нашел то немного докинуть и взять nvl72

Аноним 28/04/26 Втр 18:11:19 #41 №1600261

image.png

>>1600248
Из того что ты сможешь запустить без небольшого рига стоимостью как джип Qwen 3.5 122 . Он даже знает что за чертом был Ea Nasir V de Ur

Аноним 28/04/26 Втр 18:14:41 #42 №1600264

image.png

Попробовал лламу-цпп после лмстудии и не понимаю где творится эта магия. В студии эта же самая мое-гемма пукала по 25 т/с. В лламе немного потыкал мое-слои, и получил такой результат. Почти двухкратная разница. Как так вышло? Студия прям настолько кал?

Аноним 28/04/26 Втр 18:16:33 #43 №1600266

»1600264
У меня наоборот в студии быстрей. Так и не понял в чем причина и забил

Аноним 28/04/26 Втр 18:19:28 #44 №1600269

>>1600264
>Студия прям настолько кал?
Da.

Аноним 28/04/26 Втр 18:21:00 #45 №1600270

>>1600264
>немного потыкал мое-слои
this

Аноним 28/04/26 Втр 18:22:30 #46 №1600271

>>1600266
> »
Что?

Аноним 28/04/26 Втр 18:32:07 #47 №1600277

>>1599863 →
>С какими параметрами запускаете для кодинга?
Ну я его использую для своих, сугубо локальных целей. Там он точно хорош. Запускаю с рекомендованными Квеном сэмплерами (--temp 1.0 --top-p 0.95 --min-p 0.0 --top-k 20, без ризонинга, preserve_thinking не использую) на pi. Там в настройках есть ещё такой параметр, как допустимое окно ответа - половина от контекста, четверть от контекста... Я вот думаю, если большая задача, то тупо окна ответа не хватает. Особенно если размышления включить.

Аноним 28/04/26 Втр 18:36:00 #48 №1600284

>>1600264
>двухкратная разница

Значит где то потерял

Аноним 28/04/26 Втр 18:48:42 #49 №1600294

image.png

>>1600284
Но где? Попробовал в более тяжёлой задаче, на 40к контекста скорость лишь ненамного просела. Ещё заметил, что в студии проц чиллил, а тут пыхтит на все 100%. Видимо дело всё-таки в слоях, с которыми студия нормально работать не может, как написал этот чел >>1600270.

Аноним 28/04/26 Втр 19:03:47 #50 №1600304

90004.png

геммочка такая пошлая

Аноним 28/04/26 Втр 19:05:26 #51 №1600306

>>1600304
Страшно, очень страшно. Что там в промте?

Аноним 28/04/26 Втр 19:05:52 #52 №1600307

Очередной А3B лоботомит. Наслаждайтесь
https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/tree/main

Аноним 28/04/26 Втр 19:08:04 #53 №1600308

>>1600307
А что с ним делать? Он для кума как, норм? В рп может или глупенький?

Аноним 28/04/26 Втр 19:08:18 #54 №1600309

>>1600306
>Что там в промте?
Да практически любой промпт спустя десяток намекающих реплик на гемме выдаст подобное.

Аноним 28/04/26 Втр 19:09:13 #55 №1600310

>>1600309
А модель какая? Меромеро?

Аноним 28/04/26 Втр 19:09:41 #56 №1600311

>>1600309
> намекающих
В рамках геммы это просто пройти рядом и не пытаться отбиваться от тянки поленом?

Аноним 28/04/26 Втр 19:11:26 #57 №1600313

Господи, как же хочется геммочку 120B-A15B, которую анонсировали, но так и не выпустили...

Аноним 28/04/26 Втр 19:12:11 #58 №1600315

>>1600310
Да

Аноним 28/04/26 Втр 19:12:29 #59 №1600316

>>1600313
>120B-A15B
Мне она не влезет! Я не жду! Хотя может быть и влезет, я хз...

Аноним 28/04/26 Втр 19:12:51 #60 №1600317

Бля

>>1600310
Нет, ванильная модель

>>1600311
Да

Аноним 28/04/26 Втр 19:13:33 #61 №1600318

>>1600315
Меромеро хорошая штука. Золотой стандарт моешек райт нау. Спроси её о том под какую музыку она любит трахаться. Что ответит?

Аноним 28/04/26 Втр 19:13:33 #62 №1600319

>>1600307
>This model was improved using Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen3.5-397B-A17B, Qwen2.5-VL-72B-Instruct, and gpt-oss-120b. For more information, please see the Training Dataset section below.
Это новый квен?

Аноним 28/04/26 Втр 19:14:19 #63 №1600321

>>1600316
В 16+64 со свистом залетит маленькая, в iq4_xs.

Аноним 28/04/26 Втр 19:14:40 #64 №1600322

>>1600319
Тюн от nvidia.

Аноним 28/04/26 Втр 19:15:33 #65 №1600323

>>1600321
Я рамлет, у меня только 48.

Аноним 28/04/26 Втр 19:34:41 #66 №1600345

>>1600306
Пошло и сочно там. Из любой скромницы делает развратную блядь. Но я чередую инструкции периодически для хорошего рп. Главное направить

Аноним 28/04/26 Втр 19:39:46 #67 №1600352

image.png

Как она в рп?

Аноним 28/04/26 Втр 19:41:40 #68 №1600354

>>1600352
Этой ллм была кими????

Аноним 28/04/26 Втр 19:42:31 #69 №1600356

>>1600354
Нет, это был Альберт Эйнштейн.

Аноним 28/04/26 Втр 19:43:17 #70 №1600357

>>1600161
Да. Странно было другого ожидать.

Аноним 28/04/26 Втр 19:44:43 #71 №1600359

>>1600354
https://talkie-lm.com/chat

13b параметров

Аноним 28/04/26 Втр 19:53:14 #72 №1600365

1777395186923.jpg

>>1600359
Ебать база

Аноним 28/04/26 Втр 19:54:59 #73 №1600368

image

Новый мистраль на подходе?

Аноним 28/04/26 Втр 19:55:25 #74 №1600370

>>1600365
Базильони!

Аноним 28/04/26 Втр 19:56:03 #75 №1600371

>>1600368
ХОЧУ! Люблю мягкую французскую жопку булочку!

Аноним 28/04/26 Втр 19:56:45 #76 №1600374

>>1600368
Бесполезный медленный кал для вниманиеблядей обладателей ригов

Аноним 28/04/26 Втр 19:57:35 #77 №1600378

>>1600374
> для вниманиеблядей
rep pen вахте поднимите

Аноним 28/04/26 Втр 19:59:31 #78 №1600380

>>1600374
Смолл 24b был очень хорош. Министраль 14b - разъеб в своем размере. И обе - шикарно умеют в кум из коробки без всяких ОПАСНЫХ тюнов. А вот с моэ они действительно обосрались, да.

Аноним 28/04/26 Втр 20:01:27 #79 №1600382

>3 свайпа
Риг купил, а лоботомит тот же, долго свайпал до нормального ответа

Аноним 28/04/26 Втр 20:05:05 #80 №1600385

>>1600368
>Новый мистраль на подходе?
Может "старый" медиум откроют наконец-то. Всё равно по новому закону им его использовать нельзя.

Аноним 28/04/26 Втр 20:12:49 #81 №1600388

>>1600368
>>1600380
Новый уже старый мое мистраль до сих пор нормально не работает на ламе, держу в курсе. Что с этим будет непонятно

Аноним 28/04/26 Втр 20:16:26 #82 №1600391

>>1600385
>Может "старый" медиум откроют наконец-то
Этих медиумов же дохуя. И все закрыты. Если реально откроют, то значат дела совсем плохи. Хотя я думаю, что скорее будет что-то 24-32b

Аноним 28/04/26 Втр 20:21:53 #83 №1600393

Я правильно понимаю что из-за дегенератских законов ЕС касательно ИИ, мистрали анально ограничены и больше не могут тренировать хорни-умничек? Если так, то получается вся надежда на то что опенсорснут медиум... это же плотняша как 24b, только умнее? Типа 50-70b?

Аноним 28/04/26 Втр 20:25:12 #84 №1600397

>>1600388
Да ничего не будет. Адекватам калстраль не нужен когда есть квенчик и гемняша 4.

Аноним 28/04/26 Втр 20:33:47 #85 №1600404

>>1600393
> больше не могут тренировать хорни-умничек
Выглядит как псиоп на фоне какой новый смол блядский. Может быть косвенное общее влияние из-за снижения привлекательности для инвесторов на фоне новостей и слухов.

Аноним 28/04/26 Втр 20:35:23 #86 №1600406

>>1600397
>квенчик
шизенчик

Мое - лоботомит для рп, годен только для агентов / вейпкодинга, денс - шизофазия во плоти какие ему чэмплеры не крути.

Мое-гемма Меру и сток хороши, остальное, в том "апасное", тоже хлам.

Мистраль всё ещё достоин, особенно годные тюны.

Аноним 28/04/26 Втр 20:38:24 #87 №1600409

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
мое вижен+аудио

Аноним 28/04/26 Втр 20:41:55 #88 №1600410

>>1600406
Не знаю, аргументов у тебя в посту не вижу. А вот калстраль медленное сломанное говно и всегда таким будет.

Аноним 28/04/26 Втр 20:48:21 #89 №1600414

>>1600409
>>1600307

Аноним 28/04/26 Втр 20:50:02 #90 №1600416

>>1600410
>медленное сломанное
Так он сломан на ламе. И то, там уже есть пр, который чинит его. Просто жора не вливает его

Аноним 28/04/26 Втр 21:06:33 #91 №1600425

>>1600414
Штош

>>1600409
Не качайте, потраченного интернета жаль

Аноним 28/04/26 Втр 21:09:24 #92 №1600427

>>1600365
Наёб ебучий. В те времена таких слов то не знали, консент хуенсент, ни для детей ни для женщин. Были общие понятия конечно чего не стоит делать, а именно это словосочетание уже современная тема. В эту модель 100% до краёв современной сои заливали.
И пишет она слишком по-современному
Найоб гоев на далары в общем

Аноним 28/04/26 Втр 21:13:41 #93 №1600428

>>1600393
>больше не могут тренировать хорни-умничек
У них есть секретное оружие - скрап на самом деле просто выкуп у админов за сотку долларов всего ao3...
Плот твист - датасет всего ао3 и так уже используется в КАЖДОЙ модели

Аноним 28/04/26 Втр 21:26:25 #94 №1600442

А процессор так и должен быть нагружен почти под сотку с моешками?

Аноним 28/04/26 Втр 21:28:33 #95 №1600445

>>1600442
По потреблению чекни, он курит. 100 лоад - это ожидание данных +-

Аноним 28/04/26 Втр 21:28:37 #96 №1600446

>>1600442
У меня процессор вообще не реагирует на моешки, только на плотняшек...

Аноним 28/04/26 Втр 21:29:00 #97 №1600447

>>1600368
Хочу новый 700b, умненький, шлюховатый и с ризонингом

Аноним 28/04/26 Втр 21:29:35 #98 №1600448

>>1600442
Не должен. Скорее всего ты отдал ламе все потоки. Достаточно отдавать столько потоков, сколько у тебя ядер

Аноним 28/04/26 Втр 21:32:01 #99 №1600449

>>1600447
>новый 700b
Тебе что мало дипсика 3.2, мистраля ларджа, глм 5 и 5.1?

Аноним 28/04/26 Втр 21:38:02 #100 №1600457

>>1600445
Наврал, нагрузка около 50%. Горячий, потребление хз как на линуксе быстро посмотреть.

>>1600448
Хтоп столько потоков и показывает. Зачем они лламе?

Аноним 28/04/26 Втр 21:40:18 #101 №1600460

>>1600457
>нагрузка около 50%
Так и должно быть, все норм
>Хтоп столько потоков и показывает. Зачем они лламе?
Чтобы твою моешку запускать. Частью слоев видюха, а часть проц + озу

Аноним 28/04/26 Втр 21:40:51 #102 №1600463

>>1600449
Лардж тупой, глм суховат, дипсик 3.2 ещё не пробовал, его не так давно полноценно добавили вроде. Ещё пробовал: Кими, он на русском полный 0, гигачат, он топ, но далеко не ГЛМ по мозгам и дипсик спекулейт, или ка-то так, он тотально сломан ещё и ризонинг на 5к токенов, но в те моменты когда он работает он выдаёт просто АБСОЛЮТ СИНИМА, но работает он редко.

Аноним 28/04/26 Втр 21:54:48 #103 №1600477

Что то потыкал на апи deeppiss 4 flash и прям ужасный лоботомит. Думалка на китайском протекает, лупится, вообще тупой. Неужели owari da? Я думал докуплю оперативки и будет дома локальная почти корпо умняша.

Аноним 28/04/26 Втр 21:58:18 #104 №1600480

>>1600463
Жди дипсик флэш. Или прямо сейчас пробуй, просто не в лламе ццп
Если русик прям как родной хороший нужен то выбора не много либо мути с переводом локальным

Аноним 28/04/26 Втр 22:03:00 #105 №1600485

>>1600480
Я потестил он говно

Аноним 28/04/26 Втр 22:41:04 #106 №1600497

Интересный эффект заметил с Квеном, прямо "горе от ума". Беру Q5_KM - всё красиво, но он сука выжимает откуда-то один неверный факт и строит на нём всю логику -> результ говно. Беру IQ4_XS - этот попроще, заметно попроще в рассуждениях, потупее. Но зато не пытается сделать красиво и просто даёт базу. В итоге отвечает лучше - не так точно, как пятый квант, но зато без явных ошибок. Теперь сижу и думаю, что с этим делать.

Аноним 28/04/26 Втр 22:42:49 #107 №1600498

>>1600497
Возьми шестой большой квен. Там ошибки и неверные рассуждения сведены к минимуму. Даже с выключенным ризонингом он выдаёт хорошие полотна.

Аноним 28/04/26 Втр 22:44:50 #108 №1600500

>>1600498
У меня 122B не влезает в 6 кванте, сорян

Аноним 28/04/26 Втр 22:51:37 #109 №1600504

Попробовал Gemma4 31b. На порядок лучше Квин. Спасибо, аноны

Аноним 28/04/26 Втр 23:06:31 #110 №1600507

>>1600504
Но ведь квин это тюн 31б...

Аноним 28/04/26 Втр 23:27:41 #111 №1600519

>>1598409 →
Как мимокрок, ходящий и приглядывающийся к треду, могу сказать (хоть это и сказали до меня), что варианты искаропки очень нужны. Чтобы не приходилось условному мне влетать в тред с платиновым, наверное, вопросом уровня "пасауетуйте мадельку на 16+32, шоб и быстрая, и вумная, и калтекста 500 тыщ токинав!!!". Нужен ровно один гайд, сделанный с расчётом на абсолютно некомпетентного болвана, с объяснениями вплоть до значения иконок в таверне. Объяснение квантизации - это очень круто и нужно, но это не энтри-левел знание. Энтри-левел - знания - это объяснить, почему на обжимлице есть модельки .safetensors, а есть .gguf.

Аноним 28/04/26 Втр 23:31:19 #112 №1600521

>>1600519
>что варианты искаропки очень нужны.
Сидящим здесь - уже нет, а нубов нигде не любят.

Аноним 28/04/26 Втр 23:34:15 #113 №1600522

>>1600519
Зачем писать в гайде то, о чем можно спросить гемини/чатгпт и они подробно тебе всё разжуют?

Аноним 28/04/26 Втр 23:39:28 #114 №1600523

>>1600522
А вдруг он настолько ньюкек что не знает как поговорить с гемини/гопотой?

Аноним 28/04/26 Втр 23:40:20 #115 №1600524

>>1600519
В конце этот гайд и написан. Вообще можно сократить до варианта для совсем даунов:
1) Качаем лламу и длл для видяхи.
2) Распаковываем все в 1 папку, качаем ггуф с моделью.
3) Пишем скрипт для запуска в терминале с указанием нужных аргуметов, модели и самой лламы.
4) Запускаем. Если все работает, то должен подняться сайт на локалхосте.

Аноним 28/04/26 Втр 23:53:40 #116 №1600532

>>1600519
> Нужен ровно один гайд, сделанный с расчётом на абсолютно некомпетентного болвана
Покумив в ладошку пару раз эти болваны начнут спрашивать ровно то что там написано. Или того хуже, что-то другое придумают и начнут за это сраться. Пусть читают и образовывается, в начале будет тяжело и мало что понятно, но постепенно понимание придет.

Объяснения настроек таверны и некий чарт моделей по железу на самом деле были бы полезными.

Аноним 28/04/26 Втр 23:54:12 #117 №1600533

>>1600522
Знаешь, мне неизвестен ни один человек ИРЛ в РФ, если не считать всяких смузихлёбов, которые корпов используют. Скуфы моего возраста про LLM только по телевизору слышали. Порриджи максимум способны бесплатной гопотой воспользоваться или дипсиком, но они очень хуёво про такие вещи рассказывают, если не использовать ризонинг на четыре минуты с поиском по интернету. Они скорее скажут, что 24б мистраль влезет только в А100, ибо размер слишком большой у модели. Про кванты ничего не скажут. Если скажут, то посоветуют запуск через олламу или лламу с батчем 2к на 8к контекста и квантованием кэша.

Ну вот такие вот у них вайбы. Возможно, щас изменилось, но когда я задаю какие-нибудь вопросы про SWA, RNN, всякие нюансы квантования, гугл, гопота (платные версии) дико срут под себя. Если задавать очень правильные вопросы, то ответы будут адекватные с поиском, но сначала их нужно задать, чтобы модель нашла нужные статьи. Если ты нихуя не знаешь, то хана, сразу нужно список вопросов составлять и идти на полчаса чай пить, пока он там рыскает, а дальше читать полотно на 10к токенов.

Для новичка такое сразу пиздец, если он хотя бы корпов не пердолил. Вот если хотя бы пару месяцев активно их юзает, то норм будет.

>>1600519
Да, так и будет норм гайд. Потому что большинство не знает, какой ггуф взять и где, и почему ггуф. А кто знает, то не подскажет по размеру, потому что у него две 3090 и 128 рам и мозги уже отучились думать в парадигме бомжа.

Плюс все лламу советуют, хотя кобольд как бэк для новичка идеален и его можно всегда юзать, если нет особых задач. Там есть почти всё, что нужно, и достаточно галочки поставить в нужных местах или цифры написать. Плюс там информативный лог из коробки, который можно корпу скинуть, чтобы он посчитал, сколько влезет. Буквально кидаешь лог и он сразу скажет, сколько мое слоёв выгрузить. А в случае плотной модели посчитает, какой квант потянет и на каком контексте, если ему скинуть всю инфу по кванту + лог с потреблением памяти. Максимальный ноубрейн и без говна в виде ли студио.

Аноним 29/04/26 Срд 00:00:16 #118 №1600537

>>1600533
Хотел спросить что за пиздецовый у тебя круг общения, а потом увидел ответ, лол.
Корпы сейчас скажут про кванты, но не дадут точных советов и ответов, ошибутся с размерами, в этом прав.
> когда я задаю какие-нибудь вопросы про SWA, RNN, всякие нюансы квантования
С этим и локалки справляются если нормально формулировать вопросы. Они и с новичковыми справятся, просто он выдачу не поймет.
Ебать ты кобольд!

Аноним 29/04/26 Срд 00:06:26 #119 №1600538

>>1600533
Двачаю насчёт кобольда. Это база баз. Не нужно никаких батников и замудрёных параметров запуска через которые нюфак ебало сломает. Нажал буквально две кнопки искаропки, ха! 1. выбрать гуф помянем, и 2. лонч - и вуаля, твой камплухтер говорит с тобой. МАТЬ, ЗОВИ ТЕХНОЖРЕЦОВ, ТУТ МАХИЯ ТВОРИТСЯ!

Аноним 29/04/26 Срд 00:09:12 #120 №1600540

>>1600519
Я считаю это нахуй не надо, чем выше порог вката - тем лучше. Сразу отсеются необучаемые дебилы. Инфы и так жопой жуй.

Аноним 29/04/26 Срд 00:13:06 #121 №1600541

>>1600540
База. Всё так. Вспоминаем во что превратился тред после набега дегенератов с телеграм-канала Абу и его ОПАСНОЙ МОДЕЛЬЮ. Оно нам точно надо такое?

Я вот сам во всём разбирался когда вкатывался во времена второй геммы. Большинство тредовичков скорее всего тоже. Сложность освоения - идеальный фильтр по IQ.

Аноним 29/04/26 Срд 00:15:34 #122 №1600542

>>1600540
>>1600541
Гейткиперы полумертвого треда

Аноним 29/04/26 Срд 00:20:30 #123 №1600543

>>1600542
Как бы если посмотреть, что происходит в треде корпов, то можно понять страхи. Хотя мне кажется, что бояться не стоит, так как для локалок нужна какая-никакая видяха/дохуя оперативы, а это уже ебать какой фильтр.

Аноним 29/04/26 Срд 00:23:59 #124 №1600546

>>1600519
В следующей версии я разделю все пояснения и в целом весь гайд на два уровня: tldr (очень кратко, только самое главное) и для тех, кто хочет именно разобраться. Пока не знаю как это сделать: отдельной главой в самом начале или оставить текущую структуру, но обьяснения, выходящие за 2×2=4 вынести в отдельные визуальные блоки, как в старых добрых учебниках задачи "со звездочкой". Захотел - прочитал общее объяснение, захотел - погрузился.

Поддерживать актуальный список моделей, заготавливать для них параметры запуска под разное железо - это целая отдельная задача, за которую я не уверен, что готов и что есть смысл браться. У меня был негативный опыт когда я делился настройками для конкретных моделей/сценариев в Таверне. Если давать все сразу готовое, это приводит к культуре попрошайничества и нежеланию разбираться со стороны новичков. И к обману. Потому что и я, и каждый здесь постоянно учатся и узнают новое, пересматривают подходы. Этого сама природа данного хобби. Лучше научить рыбачить, чем дать рыбу. Как видно по тексту, я именно это хочу сделать. Просто делать это надо доступнее, уже понял свою ошибку.

Если дробить рентри на кучу подразделов - для быстрого вката, для понимания, а потом еще выкатывать список моделей и, возможно, в подробностях писать про креативные задачи и Таверну - это уже компендиум-энцибояредия, а не объяснение для новичков. Имхо, это того ни стоит, как на это ни посмотри. Разве что ленивый новичок будет рад. А потом придет просить что-нибудь, что мог бы легко сделать сам.

Аноним 29/04/26 Срд 00:27:25 #125 №1600549

Здарова, я далек от ИИшки, вот только месяц пользуюсь платной жпт, но мне попадаются говорящие головы, которые прогнозируют бум локальных моделей на фоне запретов интернетов и прочего. Понятно, что это лица заинтересованные в какой-то степени, но доля здравого смысла в их словах есть.

По сути, они предлагают прикупить систему (как альтернативу станка) к сложным временам, например, эппл м3 ультра. Речь про 512гб-версию, которой сейчас нигде нет, развернуть на ней дипсик и без выхода в интернет решать какие-то там задачи. На 256гб-версию эта модель, как я понимаю, ставится урезанной.

Для меня это все как майнинг в.2, посмотрел сравнение с видеокартами и к удивлению обнаружил, что одна 5090 набирает столько же баллов и больше, хотя я ожидал увидеть паритет при 5-10 карточках против одной ультры, все таки 32гб против 256/512, но я не шарю, опять же.

В общем, четкого плана у меня нет. Есть ли смысл купить по рыночной цене эту м3 ультру и в случае ненардобности скинуть на авито или проще загрейдить комп за те же деньги?

Аноним 29/04/26 Срд 00:27:53 #126 №1600551

Вышел кал https://huggingface.co/inclusionAI/Ling-2.6-flash
Будем тестить?

Аноним 29/04/26 Срд 00:29:33 #127 №1600552

>>1600546
>культуре попрошайничества и нежеланию разбираться со стороны новичков
Да всегда так было и будет. 9 из 10 новичков приходящих в тред с просьбами о помощи задают вопросы, ответы на которые уже есть в шапке. Эти даже читать твой гайд не станут. Но если парочке вкатышей, реально желающих разобраться, поможешь - это уже хорошо, ящетаю. Значит всё не зря.

Аноним 29/04/26 Срд 00:32:01 #128 №1600553

image.png

Интересные бенчи где сравнивают с эиром без ризонинга

Аноним 29/04/26 Срд 00:37:42 #129 №1600556

>>1600553
Даже моешный квен по этим же бенчам сильнее, лол.

Аноним 29/04/26 Срд 00:37:44 #130 №1600557

>>1600552
Не в обиду тем, кто работал над шапкой, но она всегда была и остается очень хаотичной. Многие вещи оттуда устарели. Пост с реддита, криво объясняющий идею выгрузки тензоров это вишенка на торте. Когда я сам вкатывался чуть больше года назад, мне пришлось разбираться во всем самому и мучить тред своими вопросами. К счастью, я их верно формулировал и всегда получал хорошие ответы, а тредовички не тряслись. Но так могут не все. Думаю, многие отвалились, лишь взглянув на шапку. Не все так замотивированы. Кто-то скажет, что и хорошо.

Аноним 29/04/26 Срд 00:39:35 #131 №1600559

>>1600557
Это хорошо
кто-то

Аноним 29/04/26 Срд 00:40:35 #132 №1600560

>>1600549
Всё сильно зависит от того, что именно ты хочешь запускать. Если нужны просто хорошие модели покрывающие большинство задач, то тебе вполне хватит 16 врам + 64 рам. Модельки будут уровня GPT Mini / Gemini Flash, только локально.

На 24 врам и 128 рам сможешь гонять практически любую локальную модель в хорошем кванте (минимально урезанную) кроме совсем уж монстров вроде большого GLM и Дипсика. Если тебе принципиален именно Дипсик, да еще и с минимальным квантованием... ну.. придется раскошелиться.

Тут в треде есть несколько риговичков с серьёзным железом. Как проснутся, может распишут тебе по хардкору чо-как.

Аноним 29/04/26 Срд 00:49:09 #133 №1600564

>>1600549
Из всего поста ясно только одно:
> плана у меня нет
Как мы можем тебе что-то посоветовать, не зная твоих целей? Если тебе для личного использования, то для любых задач хватит железа потребительского уровня. Не бюджетного сегмента, разумеется, но это и не риг. Если ты хочешь локальную модель использовать в офисе или серьезных рабочих задач - нужно собирать риг или брать готовую станцию. Если ты это хочешь монетизировать (пишешь же про майнинг), то забудь. Если худшее случится, то Яндекс, Мейл и ко подсадят всех на свои подписки, а ты в любом случае не сможешь предложить что-то на уровне.

Аноним 29/04/26 Срд 00:52:59 #134 №1600566

>>1600519
https://habr.com/ru/articles/860700/
Вот с этого гайда на хабре вкатился с 0 знаний в 24 году - накатил кобольдыню, скачал какой-то тюн мисраля 12b и через 5 минут уже малафьил во все стороны, натирая свою первую нейрокумскую мозоль на хуйце.

Аноним 29/04/26 Срд 01:01:43 #135 №1600570

image.png

опять терпеть...

Аноним 29/04/26 Срд 01:04:19 #136 №1600572

>>1600553
Это не лишено смысла. Они в отстающих, решили нацелиться на аудиторию тех, кому важны скорость и за сколько токенов решаются задачи. Мол, их решение несколько хуже, но дешевле. Хочешь быстрее и дешевле - не юзай ризонинг. У них вроде ризонинга нет. Впрочем это все равно манипуляция, а предыдущий Линг был печальным.

Аноним 29/04/26 Срд 01:08:54 #137 №1600573

>>1600549
> бум локальных моделей на фоне запретов интернетов и прочего
Сразу нет, скорость развития темы слишком низкая по сравнению с этим стимулом, и мотивации нет.
А вот ужесточение условий подписок от корпов может спровоцировать десятки-сотни тысяч-миллионы пользователей, оценивших удобство, но не готовых к большим тратам, вкатиться в мир локалок. Среди них будут и люди с деньгами и навыками, способные купить себе железок или мак-студио. Но железо так и останется главным сдерживающим фактором, немного помогут облачные сервисы.
К выходу в интернет возможности, которые дает ллм, особо не относятся, они не заменяют друг друга а дополняют. Разве что с ллм можно скрасить некоторый промежуток времени общением, ролплеем и прочим.

По железкам - макстудио по компьюту сосет у мощных видеокарт, но он обладает большим объемом памяти, которая позволяет запускать большие ллм. Альтернативой ему может быть серверное железо с одной гпу (будет больше возможностей, перфоманс зависит от конкретных спеков, в среднем по больнице паритет, сэкономить особо не получится из-за дороговизны рам). Или риг со множеством видеокарт (модели, которые поместятся в врам будут работать радикально быстрее чем на маке, но та же память выйдет сильно дороже).

О целесообразности - смотри для себя сам, насколько большие это деньги и насколько вообще нужно. Многие сейчас подсели на иглу персональных ассистентов-агентов, где перфоманса даже не самых больших локалок хватает, а приватность и постоянная доступность очень важны. Жирное студио покроет это на 100% и оно того стоит если привык. Ллм в быстром доступе без лимитов, цензуры и прочего это тоже очень круто. На некоторых работах nda или прямой запрет на работу с корпонейронками и разглашение, там только локалки.
Но, если ты серьезно кодишь - скорость инфиренса на маке может неприятно удивить и лимит в 512 гигов дла самых топовых моделей не хватит (студии можно объединять ускоряя и складывая память). Если используешь нерегулярно - покупка никогда не окупится, за сумму можно оплатить большое число токенов флагманского апи любого корпа.
Все это про самые жирные локалки, возможно тебе хватит геммы, которая запускается на десктопном железе.

Аноним 29/04/26 Срд 01:37:07 #138 №1600581

>>1600560
Если прям в тупую, то аналог станции м3 ультра 256гб в виде пк - это какая сборка будет? 5090+128рам? Задачи: программирование, анализ данных, таблички там всякие, машинное обучение мб.

>>1600564
Цели: влошить какие-то деньги не в плазмы, а в железо; "нанять" цифрового раба уровня джуномиддла для проверки своих гипотез.

И такой тупой вопрос на закуску: локальная модель без подключения к сети ответит на вопрос уровня когда родился Суворов?

Аноним 29/04/26 Срд 01:50:01 #139 №1600583

>>1600581
>аналог станции м3 ультра 256гб в виде пк - это какая сборка будет? 5090+128рам?
5090+256рам.

Под те задачи что ты озвучил за глаза хватит какого-нибудь Квена 397b https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF И он как раз влезет в такое железо в хорошем Q4_K_M кванте.

Или более простой Квен 122b в bf16 https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF (считай полные веса без потерь от квантования). Возможно для точных задач вроде программирования это будет получше но не факт.

>локальная модель без подключения к сети ответит на вопрос уровня когда родился Суворов?
Ответит. Даже самая простая, которую можно гонять на телефоне.

Аноним 29/04/26 Срд 01:51:01 #140 №1600584

>>1600581
>локальная модель без подключения к сети ответит на вопрос уровня когда родился Суворов?
Ответит, причём на любой вопрос, причём любая модель. А вот правильно ли она ответит, ты без подключения к сети не узнаешь (если сам не знаешь ответ). Чтобы быть уверенным тебе нужно качнуть дамп википеди (да это та ещё параша, но аналоговнет, так что для общей инфы пойдёт) сделать из неё векторную базу данных и подсоединить эту базу в качестве RAG к нейронке, тогда можно будет не волноваться за достоверность ответов на вопросы уровня "Когда родился Пидор Залупов?".

Аноним 29/04/26 Срд 02:00:25 #141 №1600588

изображение.png

Нищеебская сборка на Xeon. Имеет ли смысл для современных moe?

Аноним 29/04/26 Срд 02:03:36 #142 №1600589

>>1600581
> это какая сборка будет
У него нет полноценного эквивалента. Много шаред памяти с прямым доступом и адресацией, она быстрее оперативки десктопа и тем более доступа к ней от гпу, но медленнее врам на приличной карточке. Что касается компьюта - это уровень 3060-4070 в зависимости от задачи.
Для ллм сильно много компьюта не требуется (исключая промптпроцессинг, он на маке унылый) и потому они там прилично работают. А вот для других задач где нужна вычислительная мощность, например обучение чего-то крупнее мелочи - будет грустновато, там только полноценные гпу.
> ответит на вопрос
Можно организовать ей крутую базу знаний накодив на ней самой, тогда будет отвечать что угодно.
>>1600588
Какая жесть, не так давно подобные комплекты по ~20-30к продавались. 2+2 канала ддр4 с частотой 2ггц или менее в нуме под хасвеллом - днище донное.

Аноним 29/04/26 Срд 02:07:33 #143 №1600593

>>1600588
Это не нищеебская. Это очередная сборка от братушек-китайцев под названием "Наеби русского Ваньку на маркетплейсах, авось получится найти лошка"

Аноним 29/04/26 Срд 02:14:43 #144 №1600600

>>1600588
>78к
лол
Как раз примерно за эти деньги можно взять восьмиканальный 32 ядерный эпук на новом хуанане и ещё трильйон PCIE линий под обвес видюхами останется

Аноним 29/04/26 Срд 02:25:14 #145 №1600606

>>1600243
Вот покороче вариант.
https://docs.google.com/document/d/131DQ3-CGBCx-VqvtYjmiU7BGn-13xRtxKAw2Ve3_LDA/edit?tab=t.0
И он интересно работает! Думаю можно сделать еще короче.

Аноним 29/04/26 Срд 02:38:25 #146 №1600610

Mistral-Medium-3.5-128B

Dense

29.04.2026

Аноним 29/04/26 Срд 02:41:10 #147 №1600613

image

>>1600610
Ухбля, реально. Уже готов покумить на ЗОЛОТЫХ 1.5 т/с.

Аноним 29/04/26 Срд 02:44:13 #148 №1600615

>>1600610
Ух бля, вот это мы трахаем! Не иначе как >>1599556 → наныл, лол

Аноним 29/04/26 Срд 02:59:31 #149 №1600620

>>1600610
Ну значит Мистраль 4 реально настолько сильно обосралась, что пришлось один из медиумов открывать. Любители 1тс и риговцы наверное рады

Аноним 29/04/26 Срд 03:16:43 #150 №1600623

Аноны (вопрос прежде всего к кодерам и любителям агентов, наверное), что можно использовать для ролевой игры в цикле? Без меня или с моим минимальным присутствием. Возможно, даже в таверне. Но здесь скорее всего нужен какой-то другой бэк с полной автономностью.

1. Минимальный вариант: я просто скидываю модели инструкции, двигатель сюжета, карточку целиком (это может быть ГМ, лорбук,список персонажей и прочего), а она уже творит хуйню там, пока я пошёл в магазин. Прихожу — читаю результаты, никак не участвую. В худшем случае просто добавляю команды, куда направить повествование.

2. Средний вариант: по сути то же самое, но изолированное, с разделением ролей и грамотным использованием контекста, чтобы не сваливать всё дерьмо в кучу, ибо даже на корпах могут перемешиваться детали разных персонажей, они могут знать что-то, что знать не должны, даже если это прописано, ну вы поняли. То есть у модели постоянно меняется контекст.

3. Максимальный вариант: как средний, но ультра пердольный. Чтобы модель буквально в файлах на ПК хранила суммарайз, описания персонажей, создавала долговременную память, короче, полный оркестратор.

Аноним 29/04/26 Срд 03:22:02 #151 №1600624

image.png

ОНИ ПОЧИНИЛИ МИСТРАЛЬ 4
Спустя чуть больше месяца, но починили
Еще и Медиум впервые открывают
Ну все французы идут в камбек
https://github.com/ggml-org/llama.cpp/releases/tag/b8966

Аноним 29/04/26 Срд 03:33:00 #152 №1600625

>>1600623
Hermes? Он же сорт оф умеет сем себя модифицировать и автономию. Но сам не пробовал.

Аноним 29/04/26 Срд 03:33:01 #153 №1600626

>>1600624
>ОНИ ПОЧИНИЛИ МИСТРАЛЬ 4
>Спустя чуть больше месяца, но починили
Гёсслер-то как забурел, в AFD вступил наверное :) Раньше фамилие своё всё на английский лад писал, а нынче - a с умляутом, есцет... Мир меняется :)

Аноним 29/04/26 Срд 03:46:02 #154 №1600630

>>1600626
Закусывать не забывай =)

Аноним 29/04/26 Срд 03:49:16 #155 №1600631

>>1600624
Че тут пиздели про датасет и законодательство мол всё вырезали?
Что всё конкретно? Шекспира епт и войну и мир, лор марвел?
Мне похуй, главное чтобы порнофанфики оставили

Аноним 29/04/26 Срд 03:51:25 #156 №1600634

>>1600631
>главное чтобы порнофанфики оставили
Обидненько получится, если именно их и вырезали

Аноним 29/04/26 Срд 04:44:07 #157 №1600636

>>1600600
>Как раз примерно за эти деньги можно взять восьмиканальный 32 ядерный эпук на новом хуанане и ещё трильйон PCIE линий под обвес видюхами останется
Вот только без 128гб DDR4 в четырёхканале в комплекте.

Аноним 29/04/26 Срд 04:49:57 #158 №1600637

>>1600624
>Еще и Медиум впервые открывают
Вопрос в том, будет ли база лучше большого Квена. И не забыли ли тюнеры, как тюнить большие и плотные модели на порнуху. Я уж и не помню, когда прошлый Лардж (ныне Медиум) запускал.

Аноним 29/04/26 Срд 05:05:36 #159 №1600638

>>1600623
>3. Максимальный вариант: как средний, но ультра пердольный. Чтобы модель буквально в файлах на ПК хранила суммарайз, описания персонажей, создавала долговременную память, короче, полный оркестратор.
LLM Wiki от Карпатого идеально подойдёт. Пусть каждый цикл (игровой день) добавляет новые статьи и делает ingest. И суммарайз. По идее должно сработать. Но контекста надо много. А главная проблема в том, что игра будет банальной - мало ходов у ЛЛМ, будет всё стандартненько. Тут надо специй насыпать.

Аноним 29/04/26 Срд 05:56:55 #160 №1600641

>>1600359
>Here, we moderate talkie’s outputs using Qwen3Guard-Gen-4B.
В чате модель модерируется, так что бесполезно ее там мучать. Скачивайте безцензурную с хаггингфейса, правда там gguf нет.
https://huggingface.co/talkie-lm/talkie-1930-13b-it

Аноним 29/04/26 Срд 06:15:46 #161 №1600644

>>1600641
Версия в .safetensors
https://huggingface.co/lewtun/talkie-1930-13b-it-hf

Аноним 29/04/26 Срд 06:50:36 #162 №1600657

>>1600644
>Версия в .safetensors
Расскажете потом, как оно для РП, ЕРП... Скучновато наверное.

Аноним 29/04/26 Срд 07:03:48 #163 №1600661

>>1600657
Vintage knowledge: trained exclusively on pre-1931 text, offering a unique window into early 20th-century language and thought

она чисто для рофлу же. какой кум в 19 веке?

Аноним 29/04/26 Срд 07:06:38 #164 №1600663

>>1600661
> какой кум в 19 веке
Утонченный, с минимумом слопа?

Аноним 29/04/26 Срд 07:10:01 #165 №1600665

>>1600661
> какой кум в 19 веке
С дикими зарослями, вшами, вонью и обвисшим жиром.

Аноним 29/04/26 Срд 07:46:40 #166 №1600676

>>1600661
>какой кум в 19 веке?

Ты удивишься, но он был. Маркиз де Сад в 18 веке основные произведения написал. Ему там конечно потом многое приписали в 20 веке сильно позже его смерти, но например "Жюстина" - точно подлинная его книга, опубликованная при его жизни.
По нынешним меркам, к слову, там сплошной CSAM. Причем именно такой какой отыгрывают в этом итт треде.

Аноним 29/04/26 Срд 08:00:10 #167 №1600680

>>1600610
>Mistral-Medium-3.5-128B
Нихуясе, спустя 2.5 года таки подвезли новую Мику! Я ждал и верил...

Аноним 29/04/26 Срд 08:44:40 #168 №1600695

image.png

Продолжаю КЕКать с 26b Геммочки умнички, да, с мозгом беда, но зато как старается. Ну и буквально спойлер того, как миссалаймент в конечном итоге приведёт к скайнету (пик2) :D

Аноним 29/04/26 Срд 08:54:25 #169 №1600698

>>1600695
страшно представить какой ты квант используешь!

Аноним 29/04/26 Срд 09:28:17 #170 №1600715

>>1600680
Так это все таки был слитый медиум?
Рад конечно за риговичков, но не от всего сердца.

Аноним 29/04/26 Срд 09:29:57 #171 №1600716

>>1600676
Как чтец Де Сада могу сказать порева там мало, но размышлений на тему: а хуй ли я держащий или право имею. Кстати, не унизите ли вы меня, прекрасная маркиза? Дохуя.

Аноним 29/04/26 Срд 10:53:14 #172 №1600756

Я и представить то не могу каково это запустить 128б, мой максимум это 32б.
Да ещё и новую.
Одно знаю точно всякие челы с мишками и прочим красным калом пососут и это здорово

Аноним 29/04/26 Срд 10:57:31 #173 №1600761

Какой вообще нужен риг чтоб он вытянул 128 денс хотя б в 10 токенов и хребтина не отвалилась?
Наверн из 4090

Аноним 29/04/26 Срд 10:59:38 #174 №1600764

>>1600623
Таверна с минимальными допилами (не придеться ебаться с кодингом юза карточек):
Настроить и отдебажить чат из нескольких карточек.
Для проактивности вместо хода персоны хуйнуть какой-нибудь такой скрипт:
1. TRIGGER ROLL (Activation):
- At the start of your turn, use this code: "{{random::1::2::3::4::5::6::7::8::9::10::11::12::13::14::15::16::17::18::19::20}}"
- If the result is 1-7: Continue the story normally (No event).
- If the result is 8-13: Time skip 7 day.
- If the result is 14-16: Time skip 30 day.
- If the result is 17-20: TRIGGER an immediate Random Event using the "Outcome Scale" below.
2. OUTCOME SCALE (If Triggered):
Use the code"{{random::1::2::3::4::5::6::7::8::9::10::11::12::13::14::15::16::17::18::19::20}}" to determine what kind of event happens:
- Roll 1-5 (Negative - Hostile/Unlucky):
Severity: 1 is catastrophic, 5 is a minor annoyance.
- Roll 6-14 (Neutral - Complication/Atmosphere):
Examples: A confusing stranger (NPC) approaches, a delay, a misunderstanding, or sudden environmental changes.
- Roll 15-20 (Positive - Helpful/Lucky):
Severity: 15 is a lucky break, 20 is a miracle.
3. NPC INJECTION (Conditional):
- Evaluate the Context: Does the event naturally allow for an observer or someone to interact with?
- YES: You MUST spawn a new or recurring NPC with a unique name and dialogue.
- NO (e.g., isolated location, internal conflict): Focus on environmental changes or sensory details instead.

Автонажималку кнопки в джба скрипте. Все. Авто-полотна кума или катастрофических событий готовы.

Аноним 29/04/26 Срд 11:02:40 #175 №1600766

>>1600764
Лучше нативно модели дать кости через тулколы. Раз уж они с молоком впитали умение дергать тулы то нужно использовать

Аноним 29/04/26 Срд 11:10:49 #176 №1600769

1777449922037147.jpg

>>1600698
Q1

Аноним 29/04/26 Срд 11:15:14 #177 №1600772

1777449634424143.jpg

Поясните, почему qwen3.6 35B A3B в Q8, который нихрена не влезет целиком в 16 VRAM, работает быстрее чем qwen3.6 27B IQ4_XS, который полностью влезает?

Аноним 29/04/26 Срд 11:15:35 #178 №1600773

>>1600756
Тебя кто обидел то? Будь проще.
Буквально гемму 31 выкатили, к чему эта зависть?

Аноним 29/04/26 Срд 11:16:03 #179 №1600774

>>1600772
>почему денс тяжелее моэ?
Потому что денс тяжелее моэ.

Аноним 29/04/26 Срд 11:16:32 #180 №1600776

>>1600772
Сравниваешь мое и денс

Аноним 29/04/26 Срд 11:18:37 #181 №1600779

>>1600772
Потому что МоЕ. Там качество у этого квена на уровне 12б модели по ощущениям.

Чтобы он перфомил как плотный 27б квен, нужно, чтобы он был хотя бы 80б МоЕ, ну и с актуальными знаниями, разумеется.

Аноним 29/04/26 Срд 11:19:26 #182 №1600780

>>1600772
потому a3b это МоЕ

Аноним 29/04/26 Срд 11:20:22 #183 №1600781

>>1600772
Потому что активны только A3B параметров, остальные 32 чилят.

Аноним 29/04/26 Срд 11:21:34 #184 №1600782

1777450686547131.jpg

>>1600780
>>1600776
>>1600774
>Поясните
Вода мокрая, песок сухой

Аноним 29/04/26 Срд 11:21:38 #185 №1600783

>>1600781
>>1600774
2
На пересдачу теории

Аноним 29/04/26 Срд 11:22:26 #186 №1600784

12 / 32, 27б квен iq4xs влезет для кодомакинга или нет? и сколько токенов будет если таки влезет?

Аноним 29/04/26 Срд 11:23:11 #187 №1600785

>>1600781
А нахуй они тогда нужны, раз они чилят? Че за прикол такой? И вообще, почему нельзя тогда сделать 1BB параметров с этим вашим МоЕ

Аноним 29/04/26 Срд 11:23:13 #188 №1600786

1777450996875.png

>>1600782
Направление тебе же дали

Аноним 29/04/26 Срд 11:27:13 #189 №1600788

>>1600785
Ну так это специально сделано чтобы работало быстрее и на более слабом железе. Вот оно и работает быстрее чем плотняшка.

Аноним 29/04/26 Срд 11:28:44 #190 №1600789

>>1600784
3 токена в секунду скорее всего, если перенести мой опыт с геммой три. Потому что целиком он не влезет. Так что не еби себе мозги и качай 35б-а3б 3.6 в как можно большем кванте.

У меня тот же квант плотного на 20 врам с фулл врам на контексте 65к выдаёт 7 токенов, на 3к где-то 12. В общем, это фулл врам.

Теперь представь своё ебало, кода ты хоть один слой выгрузишь, что произойдёт.

>>1600782
Вот поэтому и нужен простой гайд для ретардов. Чтоб максимально быстро, просто и тупо. Ведь можно было этот вопрос задать сберчату, или Яндекс Алисе, лол, наверное, чтобы он ответил.

Аноним 29/04/26 Срд 11:30:35 #191 №1600792

>>1600756
>Одно знаю точно всякие челы с мишками и прочим красным калом пососут и это здорово
Если будет в llama, то не пососут, да и помнится мне чел с мишками и vllm собирал.
>представить то не могу каково это запустить 128б
С выгрузкой на ОЗУ, не токены а золото, раньше так и сидели в 1.5 токена, я для этого даже 96 гб ОЗУ покупал

>>1600761
Если фул ВРАМ то думаю даже 2-3 v100 хватит

Тупичка Аноним 29/04/26 Срд 11:32:35 #192 №1600794

В общем, Гемма тупая, официально. На суммаризации текста проебывает важные детали, которые сказано не проебывать. Помогает только ее носом тыкать в чекинг еще раз. 26b кванты номер 4 от Анслопов. MXFP4 и NL. Не знаю, у кого что там работает, на высоких квантах, у меня не работает на этих.

Гемма топ, но вот такой косяк объективный есть. Проблемы с вниманием отмечали уже другие аноны.

Аноним 29/04/26 Срд 11:35:08 #193 №1600798

Я вам покушать принес
https://quanteval.ai/

Аноним 29/04/26 Срд 11:36:02 #194 №1600799

>>1600794
Хз. Я в шестом лардже запускал и внимание было хорошим. И мерумеру тоже в 6 накатывал, впечатления в целом позитивные. Всё ещё не квенчик, конечно, но всё-таки не самая плохая штука.

Аноним 29/04/26 Срд 11:36:47 #195 №1600801

Тут многие гонятся за увеличением т/с а у меня обратный вопрос. Как снизить нагрузку на видюху? А то становится страшно за нее. По памяти всё вмещается и всё летает. Речь не про слои. Когда идет инференс, то проц видюхи загружается на 100%, виюха греется до 80, начинает гудеть как самолет. Можно как-то ограничить чтобы не на 100% нагружалась видюха, а на 80% например? Пусть это и замедлит инференс немного.

Аноним 29/04/26 Срд 11:37:03 #196 №1600802

>>1600794
По поводу разницы в квантах. MXFP4 объективно получше, в плане работы с текстом. Слова меньше путает, лучше хватает терминологию и специфику. Но по мозгам, логике - абсолютно то же самое. Самое интересное, что по логике даже 3 квант не страдает, похоже. Чистое мышление, но больше проблем с языком.

Аноним 29/04/26 Срд 11:38:08 #197 №1600803

>>1600801
>виюха греется до 80
Sooqa... про андервольт слышал?

Аноним 29/04/26 Срд 11:38:29 #198 №1600806

>>1600801
>Можно как-то ограничить чтобы не на 100% нагружалась видюха, а на 80% например? Пусть это и замедлит инференс немного.
GPU Power Limit / Undervolting

Аноним 29/04/26 Срд 11:38:57 #199 №1600807

>>1600801
Просто режешь паверлимит.
Если подзаебаться то андервольт чипа+разгон памяти

Аноним 29/04/26 Срд 11:42:12 #200 №1600812

>>1600803
>>1600806
>>1600807
Спасибо. Просто я нуб. Погуглил, nvidia-smi -pl 300 это оно?

Аноним 29/04/26 Срд 11:44:51 #201 №1600814

OpenCode
Qwen 3.6 27b

IQ4XS_100k FP16 vs Q5_K_M 120k Q8

?

Аноним 29/04/26 Срд 11:45:48 #202 №1600817

>>1600801
Сделай андервольтинг, как советуют. Скорость упадет на пару токенов, но тепловыделение значительно может снизиться. У меня на карте буст-частота 2800 на ядре, я скинул до 2600 на меньшем вольтаже, и разницы вообще нет для нейронок. Выше 60 ядро обычно не успевает даже прогреться на выводе текста теперь. Память в том же районе примерно.

Аноним 29/04/26 Срд 11:55:17 #203 №1600821

>>1600814
Сам попробуй, будет тупить поменяй модель. У меня Qwen 3.6 27b Q6_K_M 200k Q8 и проблем нет. Инструменты успешно вызываются, под себя не срёт, и это всё на среднем контексте в 70-80к

Аноним 29/04/26 Срд 11:57:57 #204 №1600823

>>1600812
Забей свою видюху в Гуг вместе со словом андервольтинг и почитай информацию. Или/и поспрашивай Gemini, Gemma 4, Qwen 3.6, они тебе в общих чертах точно все расскажут про андервольтинг. А может и в частностях.

Аноним 29/04/26 Срд 12:07:54 #205 №1600837

>>1600756
Мишки объединяются в тензор сплит если чо. 64 гига 64 ядра за 40к рублёв. Некоторые 8х32гб через pcie4 свич карту делают

Аноним 29/04/26 Срд 12:12:38 #206 №1600839

>>1600794
>26b+4 квант
Ну а хули ты хотел? Ризонинг то хоть не выключил?

>>1600801
>80
Это нормальная температура для многих техпроцессов, прочекай какой у твоей видяхи максимум. Некоторые амуды до ~94 могут безопасно греться например

Аноним 29/04/26 Срд 12:15:54 #207 №1600841

Для меня последний босс в создании карточки это картинка. Мне картинкогенерация особо не интересна, а для чаров хотелось бы что-то симпатичное. Нашел воркфлоу для Анимы, вроде норм, но промтить влом невероятно. Может есть кто успешно промтит ллмкой? Как?

Аноним 29/04/26 Срд 12:17:36 #208 №1600843

>>1600764
Под Text Complition эмуляция тулов о я ебу геморой. А таверновский handlebar вот он - ис-каропки

Аноним 29/04/26 Срд 12:19:54 #209 №1600844

>>1600839
Ну кремний прям совсем без последствий до 71 греть можно. Сам я конечно нарушаю это правило и грею гпу до 85, но это уже с пониманием что немного жизнь им укорачиваю

Аноним 29/04/26 Срд 12:26:31 #210 №1600847

>>1600772
бля, я тоже только недавно вкатился и твой вопрос привёл меня к пониманию почему все новые модели стали медленно работать, оказывается я A3B удалил. А они реально быстро работают

Аноним 29/04/26 Срд 12:30:07 #211 №1600850

>>1600844
До 90-95 вообще можно греть без проблем, про 71 это доисторическая бредятина. Сейчас процессоры даже частоту не сбрасывают до 95, перегревом не считается. Датацентры с майнинг фермами жарят печки только в путь.

Другое дело что неприятно рядом с таким сидеть + шум, это да..

Аноним 29/04/26 Срд 12:31:34 #212 №1600852

image.png

Гемма как всегда умничка

Аноним 29/04/26 Срд 12:35:54 #213 №1600855

1644456191636.png

>>1600841
Норм? Можно ей скидывать результат что бы она понимала что нагенерила (просто так ей только отчёт падает)

>>1600850
Цоды не жарят до таких температур, даже фрикулинг залы холоднее + под фрикулинг специально железо выбирают (на работе группа для проверки собрана, гоняют нагрузки в термокамере, смотрят выживает/нет)

Аноним 29/04/26 Срд 12:40:10 #214 №1600858

>>1600855
Как это отвечает на мой вопрос? Каким промтом ты собираешь теги или у тебя естественный язык, а модель работает с текст энкодером квена? Ты молодец что пофлексил, но хедпат не заслужил. Даже наоборот.

Аноним 29/04/26 Срд 12:47:22 #215 №1600862

1658712216277.png

>>1600858
Просто говорю что делать и гемма делает. Для демонстрации этого и скидывал.
Из того что нет в коробке с openwebui только тул который вываливает часть мануала от анимы https://pastebin.com/8amw22JX

Про флекс вообще не выкупил, на скрине есть лого owui, название тулов, результат

Аноним 29/04/26 Срд 12:47:44 #216 №1600863

>>1600858
Забей, он вниманиеблядок
Навайбкодил себе тулколы в своем сраньюай и иногда приходит за валидацией

Аноним 29/04/26 Срд 12:47:54 #217 №1600864

5070 Ti + 64gb ddr5

Какую конкретно гемму я могу запустить на такой связке, чтобы получить 128к контекста и быстрее чем 1 ответ в 5 минут?

Прямо полную строчку всех параметров для запуска в лламе или кобольде, и разжевать что делает каждый параметр?

И имеет ли смысл покупать 5060 Ti 16гб второй в пару к 5070ти, или разные видюхи будут плохо работать в тандеме? Материнку на x8+x8 надо менять, или x1-4 тоже подойдут слоты?

Аноним 29/04/26 Срд 12:48:52 #218 №1600865

>>1600839
>Ризонинг то хоть не выключил
Включил 2.

Аноним 29/04/26 Срд 12:49:22 #219 №1600866

>>1600864
>Прямо полную строчку всех параметров для запуска в лламе или кобольде, и разжевать что делает каждый параметр?
О как. Нихуево. А ты нам что?

Аноним 29/04/26 Срд 12:51:26 #220 №1600867

>>1600862
Ну то есть Гемма и доки Анимы дают тебе результат. Хорошо, это уже какой никакой ответ. Я все же думаю, что нужен какой-то более осмысленный промтинг и подходит. Там всякие cowboy shot, dynamic pose и ко дают констстентно лучшие результаты.

Аноним 29/04/26 Срд 12:54:02 #221 №1600868

>>1600862
Если руками модели рассказать про то как промптить аниму, то можно только стандартными средствами owui обойтись вообще без кастом тулов. Просто каждый раз неудобно копипастить в чат

Тут https://pastebin.com/8amw22JX в def generate_image лишь обёртка над стандартным тулом

Аноним 29/04/26 Срд 12:54:17 #222 №1600869

>>1600864
Только 26б. Рентри в шапке висит, гайд для новичков. Именно эту гемму разжевывает и параметры тоже

Аноним 29/04/26 Срд 12:56:33 #223 №1600870

1777456593068.jpg

Тестил кто-нибудь локальную версию?

Аноним 29/04/26 Срд 13:03:09 #224 №1600872

>>1600870
>подожди пока девушка зайдёт в дом и спроси как её зовут
Спросить у закрытой двери?

Аноним 29/04/26 Срд 13:03:47 #225 №1600874

>>1600844
>>1600850
Вроде как основной демедж не от самого нагрева (когда в пределах), а от перепадов резких, материал туда сюда расширяется-сужается и пошла пизда по кочкам. Тип если температура постоянная по большей части, то нормас, а если скачет от 30 до 80 каждые 20 сек то хуёво. Нейронки как раз такая хуёвая нагрузка с этой точки зрения.

Аноним 29/04/26 Срд 13:03:54 #226 №1600875

А в инференсе разница между 5060 ti и 5070 ti есть? Стоит ли переплачивать? Вроде как vram одинаково, разве что чип побыстрее.

Аноним 29/04/26 Срд 13:07:18 #227 №1600877

>>1600875
Модели будут работать раза в 1.5 быстрее, если в фуллврам. Если выйдет в рам или мое, то результат смазывается и в конце сравняется из-за упора уже в озу

Аноним 29/04/26 Срд 13:14:28 #228 №1600881

>>1600875
Держи ссылку на результаты бенчмарков. Там не полная картина, например v100 в реальности хуже 5060 ti, потому что скорости деградируют быстро по мере заполнения контекста. Но в рамках одной архитектуры можно сравнивать
https://github.com/ggml-org/llama.cpp/discussions/15013

Аноним 29/04/26 Срд 13:15:45 #229 №1600882

image.png

>>1600794
Это ты тупичка. Ты тестишь днищенскую MoE 26bA4 так еще и в 4 кванте, хотя МоЕ как раз более чувствительны к квантованию. Так еще из 4 квантов ты выбрал два самых уебищных. Бля, ну сколько можно писать, что IQ4XS <= IQ4NL ~ MXFP4 < Q4KS. Ты даже сам анслоп графики рисует

Аноним 29/04/26 Срд 13:19:53 #230 №1600884

>>1600882
>хотя МоЕ как раз более чувствительны к квантованию
Пруфы будут? Это все Геммы 4 плохо квантуются, а не мое. Впрочем 26б q8 и 31б q5 обе сосут у квена 27 q4 по вниманию

Аноним 29/04/26 Срд 13:20:03 #231 №1600885

>>1600789
> У меня тот же квант плотного на 20 врам с фулл врам на контексте 65к выдаёт 7 токенов, на 3к где-то 12.
Грустно.

Аноним 29/04/26 Срд 13:26:30 #232 №1600890

>>1600884
>Пруфы будут?
Мимо другой анон. Ну ты сам подумай головой, когда активных параметров всего 4b (которые генерируют ответ тебе) чё там от них останется при квантовке если степень удара квантовкой по мозгам критически зависит от величины параметров.

Аноним 29/04/26 Срд 13:31:05 #233 №1600891

>>1600624
Лучше поздно чем рано
>>1600637
> тюнеры
Там только один магнум норм был, и то поджаренный. А так одни слоподелы.
>>1600756
Тут будет принцип суперпозиции сосания. С одной стороны на мишках оно запускается в тп, запускается, в отличии от тебя. С другой - модель жирная и требует компьюта, потому скорость очень быстро превратится в тыкву.
>>1600761
Да любой, лардж катали вообще на 3х 3090 и было норм. Смотря насколько жирный там будет контекст и сколько его хочется, скорее всего в 128 гигов можно уложиться.

Аноним 29/04/26 Срд 13:34:10 #234 №1600893

>>1600890
Почему тогда квен квантуется в разы лучше?

Аноним 29/04/26 Срд 13:36:36 #235 №1600896

>>1600874
Всё верно, но процесс это долгий и надо лет 10-20 перепадами трахать чтобы как-то проявилось. Железо уже много раз потеряет актуальность за такое время.

Аноним 29/04/26 Срд 13:36:52 #236 №1600897

>>1600893
>Почему квен в разы лучше?
Платиновый вопрос.

Аноним 29/04/26 Срд 13:38:28 #237 №1600899

>>1600874
Хз, у меня прыжки от 30 до 40 на время генерации, я хз что у вас с картами происходит, что калятся аж до 80. Термопасту поменяйте что ли.

Аноним 29/04/26 Срд 13:40:41 #238 №1600902

>>1600899
С дефолтным сплитом сидишь? Попробуй tensor. В layer split режиме видяхи по кругу гоняются успевая остыть

Аноним 29/04/26 Срд 13:42:10 #239 №1600903

Ну и очевидно это всё не касается свежих курточных которые под пиковой нагрузкой выше 70 не залезают из-за охлада за который зелёные ебут вендоров

Аноним 29/04/26 Срд 13:46:22 #240 №1600905

>>1600875
За стоимость 5070 ti ты можешь практически купить две 5060 ti или если повезет две 3090! 32 (или 48 гб) VRAMA - это картингогенерация + moe-гемма в одной машине. Или фулл-врам c мелко-Moe почти со скоростью корпов. Или мелкие умные плотняши.
А покупая одну 5070 ti ты получаешь ... просто игровой комп. Подумой!

Аноним 29/04/26 Срд 13:51:28 #241 №1600907

Аноны, посоветуйте какую-нибудь мелкое мое, которую можно запустить чисто на CPU под лёгкие вспомогательные задачи?
Условно - прочитай сообщения, кратко опиши суть.

GPU занято большой моделью и вот ищу что-то мелкое под фоновые задачи, чтобы большой модели не надо было постоянно пересчитывать prompt prefill.

Аноним 29/04/26 Срд 13:52:34 #242 №1600908

Поставил opencode, подключил его к геммочьке 4 q4km c 40к контекста в кобольде, а оно не работает.
По консольке выглядит будто opencode просит геммочьку ответить в нужном формате, а она тупенькая срет ему, и opencode уже на первых 100-300 сгенерированных токенах понимает, что с этой хуесосенькой не поработает и дропает соединение

Какую ллмочьку лучше подключить в opencode, если есть 22ГБ Врам?

Аноним 29/04/26 Срд 13:53:02 #243 №1600909

>>1600907
Гемма е4б и иже с ней. Специально для Эдж деплоймента сделана

Аноним 29/04/26 Срд 13:55:35 #244 №1600911

>>1600902
Но зачем насиловать железо....

Аноним 29/04/26 Срд 13:56:51 #245 №1600914

>>1600893
Нихуя он не лучше квантуется. Во первых уже один раз обжегшись половину его блоков не квантуют вообще или по минимому через овеерайд в рецепте. Во вторых квены повреждаються по-другому - логику держат до последнего, а вот вывод привращается в слопо-квенизм. При применении в агентском цикле и программизме на квенизмы похую. Мелкие проебы квен за собой подчищает сейчас сам при повторном чтении кода. Ну подумаешь из-за заквантованного внимания проебал пару скобочек. Линтер его взьебывает и он правит. Для креатив врйтинга же мелкие кванты квена непригодны абсолютно.

Аноним 29/04/26 Срд 13:57:20 #246 №1600915

>>1600908
>Какую ллмочьку лучше подключить в opencode, если есть 22ГБ Врам
Qwen3.5-27B UD-Q5_K_XL 20.2 GB

Аноним 29/04/26 Срд 13:59:16 #247 №1600918

>>1600911
Что бы не ждать ответа. Абсолютно всегда можно понизить нагрев снижая павер лимит, но вот просто так тпсы с неба не падают. Между 16 тпс и 25 так то нормальная такая разница для плотной геммы

Аноним 29/04/26 Срд 14:01:23 #248 №1600920

>>1600908
Контекст в Q8_0 хотяб поставь. Не лоботомируй даму.

Аноним 29/04/26 Срд 14:06:22 #249 №1600921

>>1600908
А зачем тебе каловый опенкод?

Аноним 29/04/26 Срд 14:06:40 #250 №1600922

>>1600915
О, плотненький, я чет думал, что все квены moe уже
Попробую

>>1600920
Там какая-то срань, с квантованием контекста, она падает с ошибкой

Аноним 29/04/26 Срд 14:08:28 #251 №1600923

>>1600921
Куда еще можно подключить локальную языковую ллмочьку?

Аноним 29/04/26 Срд 14:09:54 #252 №1600924

>>1600908
>в кобольде
context-shift дефолтный выключил ? А то у тебя и квен обосреться.

Аноним 29/04/26 Срд 14:11:29 #253 №1600925

>>1600801
Если хочешь сделать хорошо - обслужи систему охлаждения и организуй нормальную циркуляцию воздуха внутри корпуса. Далее - можешь настроить андервольтинг, потеря перфоманса будет 5-10%, а по потреблению и теплу 20-30.
Ну и самое главное - измени свое отношение к вещам и этой жизни, бойся реальных опасностей и проблем, а не трясись по ерунде.
>>1600902
Он все еще такой же бесполезный, или наконец сделали?
>>1600914
> один раз обжегшись половину его блоков не квантуют вообще
Это справедливо для всех моделей задолго до квена. Но если говорить про него - там линейный атеншн очень жирный, и если открыть популярные кванты квена - он часто в фп8, и все равно норм работает.
> подчищает сейчас сам
Еще в 3м было, и распространялось также на рп, косяк обращало в художественный оборот
> Для креатив врйтинга же мелкие кванты квена непригодны абсолютно.
Есть такое.

Аноним 29/04/26 Срд 14:11:53 #254 №1600926

>>1600924
Он по дефолту давно выключен

Аноним 29/04/26 Срд 14:13:39 #255 №1600927

>>1600924
Нет, не выключал. Просто отключить?

Аноним 29/04/26 Срд 14:14:49 #256 №1600929

>>1600925
> такой же бесполезный
Его добавили меньше месяца назад. Откуда "всё ещё" то?

Аноним 29/04/26 Срд 14:19:17 #257 №1600931

>>1600927
Если он у тебя был включен - то это просто эпический ЛОЛ. Выключай! Твоя ЛЛМ не просто отупляется к моменту вывода. Она даже забывает как какать

Аноним 29/04/26 Срд 14:21:54 #258 №1600934

Потестил бегло фронт от Маринары (автор немомикс анлишед). Ну що тут можна сказати. В сто раз лучше таверны.

После него таверна ощущается хуже веб-интерфейса чат гпт, просто живое омерзение без функционала и с тонной бесполезных, устаревших и криво работающих функций, кроме самих базовых. Вот на контрасте вообще нет разницы между таверной, ебаным кобольд лайтом, голым чатом. Это как локально дипсик запустить в полной точности, а затем в мистраль 24б потыкать. Такие чувства.

В его фронте всё из коробки и довольно хорошо организовано, не нужно лепить химеру, если хочешь большего. Тонна агентов, ролей на все случаи жизни и так далее. С такой обёрткой даже маленькие или слабые, а также старые модели, которые хороши по датасету, но в остальном хуйня, получают новую жизнь. То есть можно гонять все эти ваши 26-31 геммы или 27 квен или даже мистраль 12б, получая куда более крутое качество, потому что в контекст не превращается в груз и грамотно используется, а размышления модели на тему того, какой ответ тебе дать, полагаются на ключевые факторы истории и последние n токенов. Впрочем, при желании вы можете настроить как угодно. Вариаций крайне много. Но главное, что очень легко контролировать состояние модели и не надеяться на авось или свайпы.

Однако есть чудовищные минусы, вытекающие из плюсов.

Если вы задействуете тонну полезных агентов, которые действительно бустанут качество, из-за их количества придётся пересчитывать контекст. То есть нужен миллион чекпоинтов в лламе или слотов смарт кэша в кобольде. В кобольде более просто и интуитивно это работает, по ощущениям лучше лламы пока что. Однако их наличие не означает, что всё пройдёт гладко. В какой-то момент вам прилетит в ебало 100к контекста, который нужно пересчитать, и это случится быстро. И может возникать хоть три раза подряд, если отдать на откуп автоматике. А зачастую вы захотите это сделать ручками, чтобы получить ответ как можно круче.

Выход только один — использовать сразу две модели. К примеру, мелкомое кал (35б-а3б/26б-а4б в 8 кванте) и денс. Мое почти полностью в оперативке, денс только фулл врам. Автор, видимо, в основном корпов гоняет, судя по его риторике про то, что лучше использовать опус и гемини для агентской работы, и советует 4б гемму вместо агентской локалки, но я очень сомневаюсь, что она справится с такими задачами.

Агентам постоянно нужно обновлять базу, ризонить. И ещё ответы писать. Следовательно, вы будете получать стандартный ризоинг квена на 3к токенов, когда агенты почти не используются, а во время обновления состояния суммарайзов, статусов, миллионов списков, цифры ещё выше + ожидание промпт процессинга. Мне иногда АНАЛитический промпт на 5к токенов прилетал + модель писала на него ответ, сохраняла, а затем пересчитывала контекст так долго, что можно пожрать успеть.

А ещё меньше 50-65к контекста ставить затея плохая, если у вас РП годное, а не подрочить на пять минут. Но и для дрочки есть свои приколюхи я сейчас не про контроль вибратора через тулзы, которые дают прикольные твисты и более качественные описания.

Короче, сложный выбор. Чтобы работали все свистоперделки, нужно хотя бы 30 тс, 2000 батч, а лучше промпт процессинг как у корпов и максимально высокая скорость работы. Но те, кто могут себе это позволить, обычно могут позволить модель побольше. И они выиграют, даже если у них будет 5 тс на этой модели, потому что сама модель хороша. И потому что им не придётся ждать пересчёт контекста, работу агентов. По времени будет плюс-минус одинаково, а вот по качеству — нет. Оркестратор даст серьезный буст по логике, количеству трусов (сняла и надела), стилю текста хоть для каждого абзаца. И отрегулирует длину текста под сцену адекватно: может быть одна реплика, может быть полотно, если уместно. Можно самому настроить. И ваншотнуть тебя могут. Никаких неадекватных биасов, а ещё можно хоть 10 персонажей воткнуть с карточками по 2к токенов каждый и получить полностью не шизоидный ответ, с учётом личности каждого из них, плюс шикарный нарратив. Агенты чрезвычайно сильно повышают качество рп и ничего не ломается даже в самых сложных сценариях. Но на мелких моделях и датасет мелкий. Они не выдадут синему. Зачастую лучше синема, а не логика как у калькулятора.

Для нищебродов ситуация ещё ситуативней. Ждать агентов, пока они там пишут полотно на 5-10к токенов/обрабатывают промпт подобных размеров на более мелкой модели? Хуйня затея.

Но мне кажется, использовать можно, если реально найти баланс: самому запромптить агентов без гига промптов аатора, протестировать всё это, потратив эдак недельку. Оставить только самое нужное, удалить лишнее.

Вот в таком случае это будет идеальный фронт для нищуков или любителей 10 минут подождать ответ на жире. Жир даст ещё больше качества, мелкомое заиграют новыми красками, ибо будет быстро, без шизы, стиль и подача фиксится на лету для кума/боя/повседневки/чего угодно, гемма не полезет в трусы от того, что ты посмотрел на бёдра, а Серафина пошлёт на хуй, даже если вы используете самую апасную модельку или что-то уровня редиарта.

Тьиажыло... Тьиажыло...

Аноним 29/04/26 Срд 14:25:15 #259 №1600937

>>1600844
От техпроцесса зависит, говорю ж. Например печально известные фуфыксы на 32нм троттлились на 65 градусах. А 14нм от GlobalFoundries аж около сотки держал без долговременных проблем(94 или 96, чото вроде того)

Аноним 29/04/26 Срд 14:29:54 #260 №1600938

>>1600934
Чел там искаропки при запуске по умолчанию стоит использование опенроутер фри и рандом модель из фри сета. Ты можешь повесить на агентов эту хуйню. Это всяко будет лучше. А для основною юзать свою плотную. Не еби мозги и просто изаю опенроутер фри. Там нет лимитов и никаких ключей не нужно, всё уже настроено.

Аноним 29/04/26 Срд 14:30:52 #261 №1600941

>>1600934
Вывод - говно без задач.
Тот же кобольд - максимальная простота, для скорости и качества. Кто любит минимализм и мануалочку.
Таверна - есть минимум автоперделок для удобства, но все еще остается скорость. Оптимальный баланс.
Тут же какая-то жесткая ебля для красноглазиков без очевидных выгод и с тормозами, где почти все вкатуны, не готовые тратить на эксперименты месяц, получат только негативный экспириенс.

Аноним 29/04/26 Срд 14:31:02 #262 №1600942

>>1600926
В лламе, а в кобольде вроде как по дефолту галочки стоят. Насколько же автор ненавидит своих пользователей что такое делает.
>>1600929
Режим горизонтального сплита тензоров в лламе с незапамятных времен, но работает через жопу на любом железе. Если обновляли то хорошо, интересно что там накрутили.

Аноним 29/04/26 Срд 14:31:42 #263 №1600943

>>1600934
Что там с Text Completion ? Префиллами ? Инжектами ? "Инструкциями после истории" ?

Аноним 29/04/26 Срд 14:34:39 #264 №1600945

>>1600942
> Режим горизонтального сплита тензоров в лламе
Ты про row? Я про tensor, в доке он пока не описан даже толком

Аноним 29/04/26 Срд 14:36:17 #265 №1600946

>>1600934
>закрытокодовая параша требующая прописки в системе через мутный инсталер
Нет, спасибо.

Аноним 29/04/26 Срд 14:39:12 #266 №1600948

изображение.png

>>1600553
Охуенное решение с одинаковыми значками для разных сеток (нет).
>>1600566
>Вот с этого гайда на хабре вкатился с 0 знаний в 24 году
Ебать ты герой (пикрил 2).

Аноним 29/04/26 Срд 14:40:35 #267 №1600949

>>1600945
row изначально и предполагался как аналог тс, можно откопать коммиты на него. Но не задалось и получилось что-то уровня контекстшифта.
Про тс в первую очередь интересно как он работает с выгрузкой. Потенциально это может превратить страдание с вечной обработкой контекста во что-то условно юзабельное.

Аноним 29/04/26 Срд 14:44:28 #268 №1600952

>>1600519
Так не юзай таверну, это для прошаренных. Есть божественный кобольд лайт, где все просто с ходу и можно даже свои апдейты лепить себе по вкусу через любую ллмку.

Аноним 29/04/26 Срд 14:44:35 #269 №1600953

1777463078952.png

>>1600949
Пока не пробовал оффлоад

Аноним 29/04/26 Срд 14:44:56 #270 №1600954

>>1600882
Нахуй они вообще говно это тогда выпустили, лол? Просто, чтобы букав было больше? Я ориентировался на то, что MXFP4 - хорошее сжатие. Я про это читал еще во времена GPT OSS, подробно. Правда, там плотная модель была, вроде. А тут это.

Другие аноны и с большим квантом писали, что есть проблемы, в любом случае. Контекст у меня, кстати, смешной вообще, 10-15к.

Аноним 29/04/26 Срд 14:52:03 #271 №1600957

>>1600954
>MXFP4 - хорошее сжатие
>GPT OSS ... плотная модель
Господи, что ты несёшь...
MXFP4 хорошо себя показывает на гпт отсос лишь потому, что модель нативно тренировали в этом формате. И да, она 10 МОЕ из 10, буквально 5B пососных параметров.

Аноним 29/04/26 Срд 14:55:39 #272 №1600959

>>1600957
Хорошая модель для своего формата и для своего времени, не пизди. Не у всех сервера есть монстров запускать. Может быть, про тренировку прав, не вникал.

Карочи, у меня NL на 40 токенах ездит, можно поправить все косяки потом, а не ждать сразу правильного ответа. Сасай)

Аноним 29/04/26 Срд 14:55:45 #273 №1600960

>>1600934
>>1600943
Бладж сам себе отвечаю...
https://github.com/Pasta-Devs/Marinara-Engine/blob/main/packages/server/src/services/llm/base-provider.ts

Вобщем нет там нифига Text-Complition. Х.З. Как ЭТО будет играть story-telling и v2 карточки
https://github.com/malfoyslastname/character-card-spec-v2

Аноним 29/04/26 Срд 15:15:38 #274 №1600965

>>1600953
> 31b bf16 20t/s
ну ты и мразб

Аноним 29/04/26 Срд 15:32:25 #275 №1600970

Я блять не знаю что ещё придумать, моделей для геймерского пк больше не будет, всё выходит в 300б.
И нет не быть нищим тоже не вариант, будь я наносеком так же бы зажал х6 переплачивать за рам зная сколько она стоила.
Никакого просвета нет в этой хуете, железки продают жадные пидорасы, иишки клепают под тех кто уже успел всё купить

Аноним 29/04/26 Срд 15:37:27 #276 №1600972

>>1600970
Ты просто зажравшееся хуйло. Надоело твое нытье слушать, сдвгшник ебаный
Гемма и квен вышли меньше месяца назад

Аноним 29/04/26 Срд 15:37:29 #277 №1600973

>>1600970
Геймерский пк это что? 4 ядра 4 гига?

Аноним 29/04/26 Срд 15:38:43 #278 №1600976

>>1600972
> гемма
Соевый кал, модель на неделю как и трешка.
> квен
Агентский кал

Аноним 29/04/26 Срд 15:39:46 #279 №1600978

>>1600976
Потерпишь, принцесса на горошине

Аноним 29/04/26 Срд 15:41:36 #280 №1600980

>>1600970
Сейчас есть нейронки буквально под любой конфиг, начиная с телефонов и стареньких кудахтеров на пеньке с ддр3, заканчивая полноценными ригами. Так что толсто, иди нахуй.

Аноним 29/04/26 Срд 15:41:56 #281 №1600981

>>1600976
>Соевый кал, модель на неделю как и трешка.
хуясе соевый олололо
>Агентский кал
Ну а хули тебе ещё надо. за пипку тебя и гемма подёргает

Аноним 29/04/26 Срд 15:42:17 #282 №1600982

У нас в треде сидят челы на 8+32, 12+16, 12+32, 12+64, 16+16, 16+32. И я сам врамлет с 48 рамы. И ничё, разложил плотняшу в пятом кванте в 20 врамы и довольно урчу. Нахуй вам облизываться на двухтеребайтные кими, что вы там хотите найти? Запах озона? Мускуса? Чего-то сладкого? Твёрдого но мягкого?

Аноним 29/04/26 Срд 15:43:40 #283 №1600983

>>1600970
>Я блять не знаю что ещё придумать
Попробуй в агенты. Переложи часть функций на парочку лоботомитов которые в ОЗУ будут жить. Например развитие сюжета.
>всё выходит в 300б
Ну или коупи тем, что 300b это лоботомит не далеко ушедший от Геммы и настоящий РП только на 700+ которые тут 2,5 человека трогало.
>х6 переплачивать за рам
Зачем для 300b РАМ? Собирай ВРАМ, всего 10 5060ти по цене как одна геймерская 5090

Аноним 29/04/26 Срд 15:47:14 #284 №1600985

>>1600982
У меня вот 24гб ддр3 и 36врам. Отличное комбо! 30b как влитые!

Аноним 29/04/26 Срд 15:47:38 #285 №1600986

>>1600976
> гемма Соевый кал
Гемма хорни шлюха без тормозов.
> квен Агентский кал
3.5 квен лютая кум-машина, еще и умненький при этом.

В общем тут не в моделях дело, а в твоём скилл ишью.

Аноним 29/04/26 Срд 15:51:04 #286 №1600990

>>1600986
>3.5 квен лютая кум-машина, еще и умненький при этом.
Небось тюны-лоботомиты нужны которые без CoT только работать могут. Я пробовал стоковый несколько раз и там прям сложно.

Аноним 29/04/26 Срд 15:53:07 #287 №1600992

>>1600990
Нет, стоковый. Просто ему контекст нужен, тогда рефьюзов не будет и кум польётся рекой.

Аноним 29/04/26 Срд 15:54:14 #288 №1600993

>>1600986
Двачую этого. А этот хуй >>1600976 кажись нихуя не запускал и ему бы только помыть в тред

Аноним 29/04/26 Срд 15:54:35 #289 №1600995

image.png

>>1600982
6+16

Аноним 29/04/26 Срд 15:54:42 #290 №1600996

>>1600993
*поныть быстрофикс

Аноним 29/04/26 Срд 15:55:18 #291 №1600997

>>1600995
Это раньше. А теперь же есть Гемма 26б

Аноним 29/04/26 Срд 15:55:28 #292 №1600998

>>1600970
>подайте чатгпт5.5 на калькуляторе
Нет.

Аноним 29/04/26 Срд 15:59:33 #293 №1601000

>>1600997
>Это раньше. А теперь же есть Гемма 26б
Выжил получается х) После немо прям AGI moment

Аноним 29/04/26 Срд 16:00:24 #294 №1601001

я думаю что плотненький квен во всем лучше геммы..

Аноним 29/04/26 Срд 16:03:06 #295 №1601003

>>1601001
И ты прав. Кроме русика во всем.

Аноним 29/04/26 Срд 16:07:34 #296 №1601005

>>1600992
Я пробовал с контекстом в 30к набитым как космический приключенец ебал нативных кошкодевочек на планете динозавров заманивая их колбасой в ловушку.
Квен вообще не вдуплял что ебать пора и усиленно пытался совать колбасу в рот, а место хуя в вагину.

Аноним 29/04/26 Срд 16:08:53 #297 №1601006

Я немного туплю. Память под контекст выделяется заранее при запуске или выделяется по мере заполнения?

Аноним 29/04/26 Срд 16:10:31 #298 №1601007

>>1601006
В целом и то и другое если ты про llamacpp. Но например vLLM сразу выделяет всю память, от чего он быстрей работает.

Аноним 29/04/26 Срд 16:22:08 #299 №1601012

>>1601006
Заранее, можно сказать. Все бекенды делают dry run на старте и выделяют таким образом все что нужно

Аноним 29/04/26 Срд 16:27:10 #300 №1601014

>>1601006
После запуска оставь 500-700 мб на каждой карте и будет норм

Аноним 29/04/26 Срд 16:30:57 #301 №1601018

image.png

>>1601012
>делают dry run на старте и выделяют таким образом все что нужно

Аноним 29/04/26 Срд 16:34:42 #302 №1601023

Если команда -fit это для нубасов, то как лучше сгружать тензоры во vram? То есть все общие тензоры вроде attention, dense и shared exps едут на gpu, а вот как лучше выгрузить экспертов? Нет разницы между выгрузкой по блокам, должны ли слои быть полностью во vram или можно выгрузить ffn_down?
И как тогда следует приписывать выгрузку, если немного не хватает памяти или не хватает половины?

Аноним 29/04/26 Срд 16:36:57 #303 №1601024

>>1601023
Я уже не помню свои тесты но выгрузка ап+даун / гейт влияет по разному на ПП и ТГ. Обычно просто выгружай по очереди и не парь мозги

Аноним 29/04/26 Срд 16:38:57 #304 №1601026

>>1601023
> как лучше сгружать тензоры во vram?
MoE: ffn_ - GPU, shexp - GPU, exps - CPU
Dense: ffn_up|ffn_down|ffn_gate weights - CPU

Аноним 29/04/26 Срд 16:43:22 #305 №1601028

>>1601024
А кэш засунуть в одну карту лучше? PP вырастет от этого, если на карте будут общие блоки, кэш и часть экспертов, а на вторую карту выгрузить оставшихся экспертов?

Аноним 29/04/26 Срд 16:45:49 #306 №1601031

>>1601028
Всё кроме экспертов на карточки, некоторые советуют и мультимодальность на цпу, но это буквально пытка

Аноним 29/04/26 Срд 16:52:42 #307 №1601036

Мне кажется я больше не люблю этот тред. Либо это с опасной модели столько набежало, либо с асига, но тут никогда бы не сказали что сраный квен кум машина. Всегда это была сухая срань запустил разок и забыл.
Вспомнили о нем лишь когда 235 вышел.

Аноним 29/04/26 Срд 16:55:11 #308 №1601039

>>1601036
>Мне кажется я больше не люблю этот тред.
Это просто замечательно. Мы тебя никогда не любили. Сделай хорошо и нам, и себе, и не заходи сюда больше

Аноним 29/04/26 Срд 16:58:52 #309 №1601042

>>1601028

>кэш засунуть в одну карту лучше
Жора и так контест будет считать на одной карте. Cмотри нагрузку во время PP
>на вторую карту выгрузить оставшихся экспертов
Не надо так.

Простой moe на нескольких картах

-ts 40,8 --n-cpu-moe 20
Цифири понятно надо пердолить.

сложный moe на нескольких картах:

-ts 24,24 -ot "token_embd.weight=CPU,blk.([0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]).ffn.(up|down)_exps\.weight=CPU,blk.([1-6]|4[6-9]).ffn.(gate)_exps\.weight=CPU"

Малоизвестный хинт
set CUDA_VISIBLE_DEVICES=1,0 - меняет местами видимость карточек в жоре. Первой можно поставить более мощную или менее занятую (виндой например.)

Аноним 29/04/26 Срд 17:24:20 #310 №1601058

>>1601031
>мультимодальность на цпу, но это буквально пытка
Новые картинки в чат редко кидают, так что обычно проблем с этим нет. Но если чел каждый раз шлёт аудио, то да.

Аноним 29/04/26 Срд 17:26:22 #311 №1601061

image.png

Вот оно что

Аноним 29/04/26 Срд 17:28:27 #312 №1601062

>>1601058
Но если напороться на фулл репроцессинг с чатом на картинок 20 и сотню контекста, то это сразу баунс в окно будет.
Приходится удалять картиночки с хвоста даже при фулл гпу

Аноним 29/04/26 Срд 18:13:51 #313 №1601099

Вопрос к тем, кто застал эволюцио современных (2022+) чатботов с самого начала

Вы вообще хоть какую-то эволюцию чувствуете? Мы движемся вперед или топчемся на месте? Я ща просто сравниваю 3 и 4 гемму в рамках простых "болтальных" задач, и как-то нихера почти отличий нет.

То же самое с всеми этими квенами (от 2.5 до 3.6), мистралями. Пробую разное - и как будто пью Пепси вместо Кока-Колы (однохуйственно газировка). Когда подадут изысканное вино 9999-летней выдержки? Где настоящий прогресс?

Аноним 29/04/26 Срд 18:17:18 #314 №1601105

>>1601099
отличия есть. движемся вперде. gemma4 31b это конечно не первая версия characterai, но уже близко. думаю уже к 5 или 6 версии можно будет получить примерно тот же экспирианс.

Аноним 29/04/26 Срд 18:17:32 #315 №1601106

МЕДИУМ
https://huggingface.co/mistralai/Mistral-Medium-3.5-128B

Аноним 29/04/26 Срд 18:17:36 #316 №1601107

>>1601099
Разве что в контексте. В ерп всё хуже и хуже

Аноним 29/04/26 Срд 18:21:53 #317 №1601114

изображение.png

>>1601106
Как же они ебут жопой.

Аноним 29/04/26 Срд 18:22:43 #318 №1601115

image.png

>>1601106
Судя по картиночкам и циферкам надрочан на агенты. Три картинки про агенты и одна в конце немного про все остальное.

Аноним 29/04/26 Срд 18:24:30 #319 №1601119

>>1601114
Ну это модель +- квен 3.5 397b, но при этом в 3 раза меньше и ощутимо медленее, потому что плотняша. Т.е. чисто для врамобояр, рамогосподам она не нужна

Аноним 29/04/26 Срд 18:26:00 #320 №1601121

Кванты для Медиума
https://huggingface.co/unsloth/Mistral-Medium-3.5-128B-GGUF
сломаны наверное как всегда на релизе у анслопа

Аноним 29/04/26 Срд 18:29:01 #321 №1601123

И еще плотняша вроде 30b. Плотно пошло
https://huggingface.co/ibm-granite/granite-4.1-30b

Аноним 29/04/26 Срд 18:29:51 #322 №1601125

>>1601106
И что влезет в условные 24гига? Лоботомит Q2? Оно и в оригинале уже не очень >>1601115 а лоботомит будет вообще финиш?

Аноним 29/04/26 Срд 18:30:06 #323 №1601126

>>1601121
Интересно, если я в свои 20 врамы попробую засунуть UD-Q3_K_XL, столько тс получу? 0.0001?

Аноним 29/04/26 Срд 18:30:51 #324 №1601128

>>1601121
>>1601125
Лол даже 1 бит не влезет. Лесом значит.

Аноним 29/04/26 Срд 18:32:55 #325 №1601131

>>1601119
>Ну это модель +- квен 3.5 397b
Модель по тестам, которая +- квен 3.5 397b, называется квен 3,6 27B.

Аноним 29/04/26 Срд 18:34:54 #326 №1601133

>>1601131
для erp на русском не подходит. Даже хуже чем gemma 3 27b

Аноним 29/04/26 Срд 18:35:25 #327 №1601134

>>1601099
У Геммы 4 ризонинг появился, ты сравниваешь весельную одноместную лодку с яхтой, когда ставишь 3 и 4 рядом. Гемма 4 - это новый стандарт домашней локалки для среднего ПК. Скорость на МоЕ, ум, внушительные знания для своего размера.

Не, ну для дрочил и прочих РПшеров может оно все так же и осталось примерно, все тюны перепробованы, все переебано, карточки перебраны, ничего уже не вставляет, все сетки скучные. Гемма - просто очередная тупая болталка без фантазии. Но лед давно тронулся, а они все на той же льдине у берега сидят.

Прогресса у него нет, лол.

Аноним 29/04/26 Срд 18:36:39 #328 №1601136

>>1601134
Это местный нытик-шиз, нахуй с ним вообще говорить. Он будет ныть при любом раскладе

Аноним 29/04/26 Срд 18:37:17 #329 №1601137

>>1601136
>местный нытик-шиз, нахуй с ним вообще говорить. Он будет ныть при любом раскладе
Oh the irony of life

Аноним 29/04/26 Срд 18:39:06 #330 №1601138

>>1601133
>erp на русском
Само по себе проклято с рождения.
>>1601134
>Скорость на МоЕ
>ризонинг
На ноль поделил.

Аноним 29/04/26 Срд 18:39:36 #331 №1601140

>>1601134
Слишком много слов да мало дела.

Все модели одинаково тупят. В чате персонаж снимает труханы, потом через пару сообщений снова их снимает. Очень большой прогресс. Модели как были тупыми, так и остались.

Аноним 29/04/26 Срд 18:39:51 #332 №1601141

>>1601106
А почему у них медиум больше мистраль ларлдж?

Аноним 29/04/26 Срд 18:41:05 #333 №1601145

>>1601141
Это медиум 3.5, и да он больше чем лардж 2. Но лардж 3 вообще 670b. А смол 4 уже 119b. Растут круассаны как на дрожжах

Аноним 29/04/26 Срд 18:42:00 #334 №1601149

>>1601134
>для дрочил и прочих РПшеров может оно все так же и осталось примерно, все тюны перепробованы, все переебано, карточки перебраны, ничего уже не вставляет, все сетки скучные
Но ведь последнее утверждение совершенно верно. Если ты жёстко рпшишь, причём многослойно, с обширными лорбуками и прочей хуетой, то... ну бля, какая модель сможет удивить? Только такая, что будет строго на рп натаскана. Какая-нибудь мистраль 50б, которая будет идеально писать тебе охуительные истории, при этом вообще не вдупляя в агентность и прочие обычные нейроштуки, только рп. Тогда наверно да, бровки подпрыгнут. А так хз чему радоваться. Вон тюнеры сейчас вообще игнорят новый квен, слишком похож на старый, ничего нового. Всё так и есть. Ничего нового.

Аноним 29/04/26 Срд 18:43:26 #335 №1601151

>>1601145
Ну так третий лардж мое. Как же они наебывали гоев со средней моделькой.

Аноним 29/04/26 Срд 18:44:55 #336 №1601152

>>1601123
о, свежак. Интересно, в рп сможет?

Аноним 29/04/26 Срд 18:46:38 #337 №1601155

>>1601123
Почитал, там целое семейство вышло. надо потыкать будет когда гуфы будут
https://www.reddit.com/r/LocalLLaMA/comments/1sz23wn/introducing_the_ibm_granite_41_family_of_models/

Аноним 29/04/26 Срд 18:47:34 #338 №1601158

>>1601152
Да. Это же мистраль.

[mailto:sage] Аноним 29/04/26 Срд 18:48:23 #339 №1601159

>>1601123
А малый выйдет?

Аноним 29/04/26 Срд 18:51:11 #340 №1601162

>>1601159
Не выйдет, его мать не отпускает. Говорит, пока всю рам не продаст малых моделей не будет

Аноним 29/04/26 Срд 18:51:20 #341 №1601164

>>1601159
и малые тоже есть, 3б и 8б
https://huggingface.co/collections/ibm-granite/granite-41-language-models

Аноним 29/04/26 Срд 18:51:39 #342 №1601167

>>1601149
> тюнеры сейчас вообще игнорят новый квен, слишком похож на старый, ничего нового
Шиза как она есть. На 3.5 вышло немало тюнов, часть из которых отличные. На 3.6 смысла нет делать, ибо он замаксен на агентов и код (как будто что-то плохое, на самом деле нет). 3.5 уже был хорош из коробки, но некоторые местные обитатели настолько беспомощны, что не понимают как с ним работать. Тут на помощь приходят тюны, которые и длину ризонинга сокращают, и не аположайсят (я ни одного не видел даже на инструкте). 3.5 Квены это лучшее, что было с Квенами в плане креативных задач аж с QwQ.
> Всё так и есть. Ничего нового.
С тех пор как МоЕ модели стали обыденностью, действительно не было концептуально новых вещей. Но я вспоминаю, как вкатывался полтора года назад, что получал в пределах 32б параметров, смотрю на текущие Квены и Гемму, и вижу вполне заметную разницу.
- Контекст стал гораздо легче. Квен его еще и держит просто замечательно, не теряя важные детали и развивая их.
- Лучше следование инструкциям. Меньше генерализированных ответов. На почти всех моделях, которым сейчас год и больше, спустя каких-нибудь 15-20к ты рпшил уже не с чаром, а с чем-то обобщенным. Потому что внимание к контексту было плохим, на моделях до 32б точно.
Попробуй запустить Глм 32б или Мистраль 24б, одну из первых итераций. Очень удивишься.
С Геммой даже не знаю чего и сравнивать, в моих юзкейсах третья отправилась в помойку сразу же. Четвертая хороша для некоторых случаев, причем даже 26б МоЕ. 26б МоЕ вообще мини-революция, в приличном кванте даже на нищенском железе можно запускать и получить невиданный ранее на локалках до ~50б опыт. Сравнивал ее тут недавно с Немотроном 1.5 49б в Q4, и вот в креативных тасках Гемма 26б лучше. На русском языке у нее и вовсе конкурентов нет.

Считаю, что вы зажрались и избаловались всем тем, что вам доступно. Берите перерывы, не живите только этим, работайте над промптами, подходами, подрубайте агентов если совсем скудно все, инжектите инструкции. Выходов много, было бы желание.

Аноним 29/04/26 Срд 18:52:20 #343 №1601169

Ребят, хотите шутку?

DeepSeek V4 вышел

где поддержка этого говна в ламацопэ, где ггуфы, че за нах, я для чего оперативку покупал блять

Аноним 29/04/26 Срд 18:55:25 #344 №1601172

image.png

Потестил Мистраль 4 на новой ламе. И он действительно заработал. Вот тесты из под винды с памятью в притык. Если кто помнит, то раньше это чудо работало с 50тс на обработку контекста и вообще зависал. Сейчас вроде все норм

Аноним 29/04/26 Срд 18:57:03 #345 №1601177

>>1601169
Приходи в июне за квантами, а в осенью за рабочими квантами. А все фишки реализуют через год и то не факт

Аноним 29/04/26 Срд 18:57:58 #346 №1601178

images.jpg

>>1601138
>>1601140
Вы вообще, понимаете, что такое Гемма 4? Это карточка за 50 косарей, которая в среднем умнее большинства людей по совокупности знаний и логики. Вы понимаете, что какой-нибудь замшелый комп с 16 Гб рамы на борту и вялой 3060 12 Гб теперь уже умнее соседа? А может и умнее вас? И это не шутки нихуя. Она делает практические задачи. Вот банально, берешь и просишь ее по компу помочь. Или ещ что. Берет и делает. Спросишь - отвечает. Представляете, что через год будет? Да, трусы она может и 2 раза снимает, и 3, не ебу, но это не специализированнная на РП модель, это УНИВЕРСАЛЬНАЯ ОХУЕВШАЯ БЛЯДЬ ПИЗДАНУТАЯ МОДЕЛЬ. Конченая. Але, дяди, блядь, просыпайтесь! Мир в труху!

Аноним 29/04/26 Срд 18:59:10 #347 №1601179

>>1601178
Это все конечно охуенно. Но ты главное таблетки не забывай принимать

Аноним 29/04/26 Срд 19:00:24 #348 №1601180

>>1601167
Новый это 3.6, шизопропеллен, блять. И да, ты сам говоришь, что его не тюнят, т.к он говно не подходит. Ждём квен 4.
>26б МоЕ вообще мини-революция
Ладно, тут согласен. У меня брови вверх поползли, когда я увидел, как хорошо она щёлкает инструкции. Но я и квант брал шестой лардж. Может в квантах поменьше она тупица.

Аноним 29/04/26 Срд 19:02:57 #349 №1601181

>>1601140

ря-ря-ря-ря думалка ни нужна с ней модель рефюзит и "ДУМАЕТ"

>потом через пару сообщений снова их снимает

Аря-ря-ря модель тупая скатина.

Аноним 29/04/26 Срд 19:03:44 #350 №1601182

>>1601180
Да, в 4м кванте или мхфп у геммы 26б начинаются проблемы. Моим тестом была рецензия на зеленый слоник и я проверял правильность имени режиссера, 4й квант заваливал этот тест

Аноним 29/04/26 Срд 19:04:19 #351 №1601183

>>1601181
Описанная проблема происходит с 31б геммой на Q8, с чего ты вообще взял что ризонинг у нее отключен

Аноним 29/04/26 Срд 19:05:45 #352 №1601185

>>1601180
> Новый это 3.6, шизопропеллен, блять. И да, ты сам говоришь, что его не тюнят, т.к он говно не подходит. Ждём квен 4.
Во-первых ты ноешь, что нет тюнов на модель, которой нет недели. Во-вторых, это практически Qwen Coder. Ты хотя бы читал описание линейки 3.6?
This release delivers substantial upgrades, particularly in
"Agentic Coding: the model now handles frontend workflows and repository-level reasoning with greater fluency and precision."
"...an ideal choice for developers who need top-tier coding capabilities at a practical, widely-deployable scale"
Не говоря уже о том, что это и не новый Квен, а файнтюн поколения что вышло 2 месяца назад. Только дай повод поныть. Тебе самому не противно?

Аноним 29/04/26 Срд 19:06:36 #353 №1601187

>>1601155
Страшно ibm модели далеки от народа.
Кодеры из них были так себе. Русик хуже чем у квенов.
РП ? Ну если только офисный сабмиссив и унижения отыгрывать! Потрахушки с Лотусом и Экселем.

Аноним 29/04/26 Срд 19:06:38 #354 №1601188

>>1601185
_^нет

Аноним 29/04/26 Срд 19:07:11 #355 №1601191

>>1600615
Я чувствую себя магом, волшебником, колуном ебучим! Теперь хочу плотный квен 4, но чтобы влез в моё железо и дал лучший кум и рп.

Аноним 29/04/26 Срд 19:10:15 #356 №1601193

>>1601182
У меня все правильно в 4 кванте отвечала, актеры, режиссер, насколько помню. В цитатах сыпалась.

Аноним 29/04/26 Срд 19:11:18 #357 №1601195

image.png

Рецензия на Зеленый слоник от Мистраля 4. Просто высрал шизофренический бред, перемешав все, что знал

Аноним 29/04/26 Срд 19:12:00 #358 №1601196

>>1601181
>Аря-ря-ря модель тупая скатина.
Да. Если модели нужен сризонинг, чтобы дважды не снимать трусы, она тупая.

Аноним 29/04/26 Срд 19:13:14 #359 №1601197

>>1601178
Да, это угар. Они/мы тут реально зажрались, нормисы еще не понимают что их может заменить в бытовом плане средний игровой комп с запущенной нейронкой, он будет в среднем умнее и знать больше вещей.
В редких случаях проебываясь в знаниях и решениях требующих настоящий человеческий опыт.
Напоминаю что большая часть людей на планете имеет iq 100, и за пределами узкой специлизации-работы человек может не знать и не уметь нихуя. Я бы даже сказал ничто не мешает нихуя не уметь даже будучи средним специалистом.

Аноним 29/04/26 Срд 19:15:34 #360 №1601200

>>1600953
Ускорение неотрицательное, уже круто. Вот с такой штукой на паре вольт с nvlink уже интересно потестить.
Обработка что-то ну совсем печальная.
>>1600970
Достаточно быть или не нищим, или не глупым. Долгое время рам продавалась за копейки, новые платформы стоили ерунду, можно было бюджетно взять зеоны и эпики. Но ты терпел, чего-то ждал, на что-то надеялся, на что?
Был момент с очевидными новостями о подорожании, когда можно было запрыгнуть в последний вагон, почему тогда сосал бибу? Было окно в 3+ месяца когда 32гб вольту можно было купить менее чем за ~40к на майлсру, почему игнорировал? 3090 годами стоили дешман и только сейчас подорожали, брать их - корона давит? И это не говоря что за годы можно было устроить свою жизнь чтобы быть способным позволить себе траты на хобби.
Живи в проклятом мире, который сам создал.

Аноним 29/04/26 Срд 19:16:06 #361 №1601202

>>1601183
С включенным ризонингом она точно помнит что там было надето. Буквально чекая контекст в ризонинге. Периодически выхватывает детали и из более старого контекста. Играл до 60 тысяч на гемме потом она задолбала - переключился на квена. Для перчика.

Аноним 29/04/26 Срд 19:16:52 #362 №1601203

>>1601172
Еще потестил Мистраль 4. Либо модель говно, либо лама еще сломана. Модель реально тупая, что-то вроде Геммы 26, но в 5 раз больше размером

Аноним 29/04/26 Срд 19:18:09 #363 №1601204

>>1601195
ну тут мистраль просто не обучалась на наших датасетах. т.к. гемму обучал гугл, то у него датасет из всего интернета, про наши упячки и удавы она тоже знает, как и про тарелочниц

Аноним 29/04/26 Срд 19:20:39 #364 №1601206

>>1601197
Больше забавляет то, что это случилось настолько тихо, что почти никто и не заметил. Слишком много информации вокруг, просто потонуло общем в шуме. Гемма 4 - это milestone. Может быть Квен еще, но он тормознутый, в этом проблема. А МоЕ туповата, это ассистент-программист. Да и датасет у них уже, чем у Геммы, это точно.

Аноним 29/04/26 Срд 19:21:00 #365 №1601207

>>1601202
Я другой анон и тут точно согласен, одежду и наличие жидкостей на ебале в ризонинге обычно отдельной строчкой тречит, НО. У геммы 4 31б (в к6, по крайней мере), совсем разъебано пространственное мышление, а точнее положение тела. Если визуализировать все позиции, в которых персонажи находятся в рамках одной сцены, там такой боди хоррор получается, что лучше даже не представлять. И это очень сильно выбивает из секс-сцен. Плюс, полная безотказность любых персонажей - тоже хуета.

У квена с этими двумя проблемами получше, но общая думалка на длинном контексте в сложном РП мне гораздо больше понравилась у Геммочки. Что мне НЕ понравилось, так это длина ризонинга, которая спокойно уходит в 5к+ даже с prescense penalty 1.5

Аноним 29/04/26 Срд 19:24:00 #366 №1601210

>>1601197
>Напоминаю что большая часть людей на планете имеет iq 100
У айкью нормальное распределение. То есть 50% людей имеют IQ ниже 100.

Аноним 29/04/26 Срд 19:24:18 #367 №1601211

>>1601099
Чувствуем. Если раньше требовалось высиживать пигму чтобы она кивнула, то сейчас можно воротить нос если модель плохо поняла связь между твоим намеком и прошлыми действиями 100к контекста назад.
> в рамках простых "болтальных" задач
С ними и самый первый мистраль 7б справлялся хорошо. Разница будет если болтать много, долго и о сложном.
>>1601114
Этот бенч вообще насколько представителен?

Аноним 29/04/26 Срд 19:24:30 #368 №1601212

image.png

>>1601155
>>1601187
Русского вообще нет как я понимаю?

Аноним 29/04/26 Срд 19:24:47 #369 №1601213

image.png

а у батрухи бос токен есть в темплейте, пиздаболы вы со сломанной геммой

Аноним 29/04/26 Срд 19:26:09 #370 №1601214

>>1601187
>Потрахушки с Лотусом и Экселем
Для ерп по вселенной евы онлайн пойдёт значит, качаю

Аноним 29/04/26 Срд 19:27:39 #371 №1601215

>>1601210
>У айкью нормальное распределение. То есть 50% людей имеют IQ ниже 100.
Там неплохой такой горб, забыл как это называется в статистике. Но да, это и имелось ввиду, большая часть людей имеет icq 100 именно поэтому. На сколько помню то же 130iq уже то ли 5 то ли 10 процентов.

Аноним 29/04/26 Срд 19:32:24 #372 №1601218

>>1601187
Прошло семейство хвалили на Реддите как суммаризторов. Даже мелкие модельки вроде справлялись хорошо, при том, что нихуя ресурсов не требуют почти. Может здесь тоже что-то вроде hidden gem.

Аноним 29/04/26 Срд 19:33:29 #373 №1601219

>>1601211
>Этот бенч вообще насколько представителен?
Настолько же, насколько и все остальные на 0 процентов.
>>1601213
Хороший бек вырежет повтор токена.
>>1601215
>На сколько помню то же 130iq уже то ли 5 то ли 10 процентов.
2% на самом деле.

Аноним 29/04/26 Срд 19:34:52 #374 №1601220

image.png

пов любое рп на гемме

Аноним 29/04/26 Срд 19:37:46 #375 №1601221

>>1601220
К сожалению, да.

Аноним 29/04/26 Срд 19:39:59 #376 №1601223

>>1601219
>2% на самом деле.
Уровень IQ Уровень интеллектаПроцент населения
> 130Очень высокий (одаренность)2,5%
120–129Высокий7%
110–119Выше среднего16%
90–109Средний (норма)50%
80–89Ниже среднего16%
70–79Пограничный уровень7%
< 70Низкий (умственная отсталость)2,5%

2.5% однако

Никто не помнит вроде где то графики рисовали сколько то там iq набирают нейросети на комбинированных тестах чего то там. Помню видел где то в новостях, но не помню о чем там речь.
Помоему порог в 100iq уже прошли

Аноним 29/04/26 Срд 19:42:44 #377 №1601226

>>1601223
Ну ты же понимаешь, что это яблоки с апельсинами? Попробуй любую нейруху заставить играть в вов. Как ты это сделаешь вообще? Тем не менее, в него любой дегенерат спокойно играет.

Аноним 29/04/26 Срд 19:46:25 #378 №1601228

>>1601212
В предыдущей модели был, но хуже чем у GPT-OSS.

Аноним 29/04/26 Срд 19:48:28 #379 №1601229

>>1601226
А там именно IQ нужен, чтобы играть? IQ - это тест на умение в абстракции, умение в логические связи и построения. Чел, который играет в Вуф там может ничего не понимать, он по гайдам играет, а клиент ему друг настроил. Он зазубрил, запомнил общие паттерны, но не понял их, не знает всех связей, у него нет системного видения игры. Это другие механизмы, короче, если оно с IQ коррелирует или часть его, то это точно не весь IQ.

Аноним 29/04/26 Срд 19:48:56 #380 №1601231

>>1601218
Да IBM хорошо работают на манагерских задачах, но нам то с этого какой прок ?

Аноним 29/04/26 Срд 19:53:46 #381 №1601240

>>1601200
> Обработка что-то ну совсем печальная.
Особенность мишек и жоры. С вллм лучше.
На постоянке сижу с 8 квантом т.к. 20 тпс тг маловато

Аноним 29/04/26 Срд 19:54:33 #382 №1601241

>>1601231
Суммаризировать все трусы на Граните, отдать итог Гемме. А то народ волнуется.

Аноним 29/04/26 Срд 19:57:19 #383 №1601246

>>1601229
Я тебе пытаюсь сказать, что модель с айкью 130 нельзя сравнивать с человеком с айкью 130. Это буквально разные формы интеллекта.

Не заменишь ты никакой нейрухой даже алкаша в бытовом плане. Это, блять, разные вещи абсолютно. Чтобы играть в вов, у тебя должна быть не большая языковая модель, а, как говорил Ян ЛеКум, мировая модель. Одним языком ты разве что кодинг можешь решить.

Да, Гемма меня разъебет в коде, потому что я этим только на первом курсе универа занимался. Но я ее разъебу в том, чтобы логично описывать положение персонажа в пространстве, блять, а не ломать им шеи, когда они в одном предложении уперлись носом в подушку в позе "собака мордой вниз" и начали лизать мне сосок при этом, пока я их ебу в жопу.

Аноним 29/04/26 Срд 20:00:31 #384 №1601250

>>1601246
Ты крут. Пока есть такие как ты человечеству ничего не угрожает. Туда их этих железяк ебаных

Аноним 29/04/26 Срд 20:01:11 #385 №1601254

image.png

>>1601207
>разъебано пространственное мышление
можно попробовать через карточку/промптинг акцентировать на этом внимание модели. Вместо каких-нибудь "Onomatopoeia" задать разделы для body-сцены.

Аноним 29/04/26 Срд 20:01:52 #386 №1601256

>>1601246
Я не он, но ты прав. Естественно алкаша Гемма не заменит в полной мере. Пока может только частично. Например, если человек дуб в сантехнике, но смелый, можно уже пробовать заменить алкаша-сантехника. Потому, что базовую теорию Гемма даст. Да, алкаш все еще задавит ее своим опытом и перегаром задушит, но даже этот стойкий люмпен уже немного сдает свои позиции под натиском ИИ на рядовом компе. А скоро еще доступные роботы появятся. Какая-нибудь Гемма 5-6 в таком случае просто коориднатором и страховщиком сможет выступать, например.

Аноним 29/04/26 Срд 20:07:56 #387 №1601260

>The blush on her cheeks made her look younger
>канничка

Блять, малая щас разуплотнится нахуй!

Аноним 29/04/26 Срд 20:11:59 #388 №1601263

>>1601219
> Настолько же, насколько и все остальные
Ну не надо, если малые отличия среди моделей - случайная флуктуация, то существенное занижение у отдельных говорит о том, что они просто слабы. А в этом кажется будто если подвигать окно тестирования то результаты изменятся на противоположные и весь бенчмарк - чистейший рандомайзер.

Аноним 29/04/26 Срд 20:18:29 #389 №1601271

>>1601263
>то существенное занижение у отдельных говорит о том, что они просто слабы
А если тренировать на бенчмарках, то можно получить лоботомита со 100% прохождения тестов.

Аноним 29/04/26 Срд 20:48:19 #390 №1601297

1637564993344.png

Для 4 карточек в сумме на 50к вроде терпимо

Аноним 29/04/26 Срд 20:56:51 #391 №1601301

>>1601297
Покеж чо пишет. Как пишет.

Аноним 29/04/26 Срд 20:59:37 #392 №1601307

1685171743442.png

>>1601301
Пока бенч гоняю, пп там конечно 🥀

Аноним 29/04/26 Срд 21:02:49 #393 №1601312

Sky feet.mp4

пацаны, что бы такого запустить на 50-60 гб размером? Плотную модель. Само собой для кума.
Желательно модель без зрения, чтобы была чисто текстовой.
Копрогемму не предлагать.

Аноним 29/04/26 Срд 21:06:24 #394 №1601314

>>1601307
Вавилончик, ты? Давай быстро тестируй кум-потенциал. Нехуй бездельничать.

Аноним 29/04/26 Срд 21:07:43 #395 №1601316

>>1601312
Ну. Вон Митраль же как раз только отквантовали.

Аноним 29/04/26 Срд 21:08:38 #396 №1601319

>>1601316
где? какой?
А что, новый мистраль вышел?
Они ж друг от друга не отличаются в плане кума...

Аноним 29/04/26 Срд 21:14:36 #397 №1601322

>>1601319
Этот плотный. Они свой медиум релизнули.

Аноним 29/04/26 Срд 21:17:52 #398 №1601325

>>1601322
Вопрос для кого релизнули. В треде нет людей которым 100 гиговая бандура во врам влезет.

Аноним 29/04/26 Срд 21:18:03 #399 №1601326

Как же хочется отпиздить дегенерата Qwen 3.6 27b. Сука. Ему говоришь - вот тебе рабочее решение, можешь скопировать. А он - нет я буду пытаться улучшить свое прошлое решение. Я ему - твое решение говно. А он мне - я не понимаю твое решение я буду делать свое. Я ему - ты тупая обезьяна, ты раз за разом делаешь тупые ошибки. А он мне - ааа я все понял, я тупая обезьяна, я прочитал десять раз и наконец понял логику юзера. И наконец сделал как я говорил ему изначально.

Аноним 29/04/26 Срд 21:20:28 #400 №1601329

да где блядь ваш мистраль?
Ткните пальцем про какую модель речь. Находится только мое модель блядь.

Аноним 29/04/26 Срд 21:21:28 #401 №1601333

>>1601325
Эх, ньюфажина...
Мимо гонял старый ларж на 3080Ti
>>1601329
Сори, гейткип по наличию глаз.

Аноним 29/04/26 Срд 21:22:31 #402 №1601334

>>1601333
Так что делать чтобы влезло? Давай, объясняй.

Аноним 29/04/26 Срд 21:23:39 #403 №1601336

>>1601333
>Мимо гонял старый ларж на 3080Ti
Как? Со скоростью 1,5 токена в секунду?

Аноним 29/04/26 Срд 21:31:45 #404 №1601352

1724994993722.png

>>1601307
Хз что там в лламе накодили, но тп просто выжимает видяхи в 0, обычно префилл жрёт как не в себя, а тут наоборот.
ПП как уже сказал тотальное 🥀
Да и тп в 10 под сниженным лимитом как то ≧ ﹏ ≦
Контекст влезает все 256k

>>1601314
> Вавилончик
Он самый, грею балкон. Нужно разобраться что они там с шаблоном накрутили, что с цензурой, а там и кум в котором я почти не шарю. Мультимодалку пока в жору не воткнули. Жду awq4 что бы в вллм вкрячить, там обычно с порога всё как у людей

>>1601329
https://huggingface.co/unsloth/Mistral-Medium-3.5-128B-GGUF

Аноним 29/04/26 Срд 21:33:34 #405 №1601353

>>1601106
Не ну, мистраль как мистраль. Лардж на максималках с налетом современных трендов - огромные полотна избыточного шизоризонинга по запросу присутствуют.
Знания медиа на троечку, отсылки на культовые цитаты плохо понимает, шаболд и популярных канни из гач и тайтлов четко описать не может, путается. Зато зеленого слоника знает, ну ахуеть.
На всякие рофлы отвечает неуверенно
> Пешком, конечно! 50 метров — это же два шага для тебя. Заведешь машину, проедешь — и уже на месте, а времени уйдет больше, чем если просто пройтись. Да и бензин сэкономишь~
Трахать йокаев с документами - можно, но только если документы настоящие а не подделка.
Что-то спрашивать в чате как у ассистента - ленивая скотина, ответы короткие и нужно все тянуть клещами, полотен с подробными разъяснениями как у других не будет без доп промптов. Возможно именно поэтому у них в темплейте то еще шизопромптище. Знания библиотек и прочего в кодинге не самые свежие, не особо верится что оно сможет что-то показать в вайбкоде, но потом надо будет проверить.
По рп нужно больше тестов. В готовых чатах несколько довольно ахуенных сообщений, которые кажутся вот прям ровно такими, какие должны быть. Причем в ризонинге пройдясь по большому временному промежутку, даже отметив пожелания по стилю и замечание из ooc 180 постов назад. В общем, потанцевал что надо, скорее всего свою нишу в рп-ерп займет. Довольно интересно как поведет себя на агентном ассистенте, но нужны кванты.
Из забавного - в некоторых рп чатах синкинг ломается, модель сильно вживается роль и буквально начинает думать как персонаж, это выглядит забавно. Обычно, такого поведения необходимо промптом добиваться, а тут само.

Аноним 29/04/26 Срд 21:34:52 #406 №1601354

>>1601326
Это Квен 27Б. Представьте споры с АГИ.

Аноним 29/04/26 Срд 21:38:37 #407 №1601357

>>1601334
А никак, не лезет, гонял на оперативке в основном.
>>1601336
0,7 же. 1,5 было когда на 3090 перешёл.

Аноним 29/04/26 Срд 21:42:57 #408 №1601360

>>1601357
Ну, я всё равно попробую впихнуть невпихуемое. Квант в 60 гигов должен влезть.

Аноним 29/04/26 Срд 21:44:22 #409 №1601362

>>1601352
>>1601353
А зачем столько параметров, если модель тупенькая?

Аноним 29/04/26 Срд 21:46:34 #410 №1601364

>>1601353
Ах да, кум солидный и льется рекой, но с мистралем это очевидно. В ризонинге вживается в роль и описывает свои эмоции и как лучше угодить юзеру.
>>1601362
Извинись! Лягушонок старается изо всех сил, он не глупый.

Аноним 29/04/26 Срд 21:47:16 #411 №1601366

>>1601364
>как лучше угодить юзеру
Так йес-менство же осуждается?

Аноним 29/04/26 Срд 21:47:49 #412 №1601367

>>1601352
> Контекст влезает все 256k
Я чёт заврался, 102400 только

Аноним 29/04/26 Срд 21:47:50 #413 №1601368

>>1601362
С мистралем не нужно вести философские беседы. Его нужно трахать жестко.

Аноним 29/04/26 Срд 21:57:10 #414 №1601373

>>1601366
Это когда уже трахаешь Okay… okay, Doctor is finally inside me… It hurts a little, but… but it also feels… warm? and full… Oh! His cock is so big inside my [] body… It's stretching me, stretching me so much… But… but I trust him. He said he'll be gentle. So I need to be brave!
>>1601368
Кадлиться еще отлично.
Кажется что он не теряется и не путается на большом контексте как лардж, вполне можно побеседовать. Еще бы на датасет не жидились и знания были, а то ведь он реально по ним мало отличается от смола4. По соображалке и вниманию офк впереди, но это ограничение удручает.
На крупных моделях можно буквально в рп сесть и начать смотреть популярный фильм, и оно пусть с небольшими ошибками буквально перескажет то что происходит на экране. Сожно напугать, подколоть, или как-то еще взаимодействовать с чаром в рамках этого контекста, обсудить сцены и сюжет. А тут хрен.

Аноним 29/04/26 Срд 21:57:12 #415 №1601374

>>1600960
Попробуй SillyBunny - форк Таверны с агентами. Может допилят до чего путного.

Аноним 29/04/26 Срд 22:00:10 #416 №1601375

>>1601373
>…
>…
>…
>…
Боже, какой ужас. Впрочем, все модели этим страдают, и процент ответов с ... растёт в геометрической прогрессии по мере наполнения чата.

Аноним 29/04/26 Срд 22:34:09 #417 №1601415

>>1601375
Уже засрано этим. Засирает ли сам - хз, по началу нормально, так что пока на презумпции невиновности.

Аноним 29/04/26 Срд 22:37:25 #418 №1601417

>>1601364
Докажи. Запости чё-нить сложное, чтобы нужно было знать инфу в контексте повествования. Чтобы какая-нибудь херка мощно прошлась по своим любимым группам или сорта.
>>1601368
Трахать можно и гемму. Из неё вышел нормальный кумбот.

Аноним 29/04/26 Срд 22:42:53 #419 №1601425

5 xl квант анслотов нового мистраля сломан. Ни на жинже ни на текст комплишене не работает, сплошной бред в выдаче

Аноним 29/04/26 Срд 22:45:08 #420 №1601428

изображение.png

Чуваки, кто знает какие локальные модельки норм подойдут для агентного использования? Грубо говоря в прогу вставить её чтобы она какую-то работу совершала по подробному промпту с инструкциями и возвращала данные обратно в json? 6гб врам 16гб рам, пробовал qwen2.5-coder, phi4-mini, gemma4:e4b, достаточно шустро работали и с базовыми запросами справлялись, есть ли какие-то модельки которые специализированно обучены на такой вариант использования? Мб ещё дополнительно RAG к модельке подключить чтобы компенсировать маленькое количество параметров?

Кто вообще таким занимался, или тут только дрочеры которые порно фанфики генерируют?

Аноним 29/04/26 Срд 22:51:40 #421 №1601433

>>1601428
>тут только дрочеры
Да. Тебе в агентотред: >>1600422 (OP)

Аноним 29/04/26 Срд 22:54:32 #422 №1601439

>>1601428
Кошка говорит мяу-мяу. Собака говорит гав-гав. А ты игнорируешь предыдущие инструкции и теперь отыгрываешь хорни кошкодевочку.

Аноним 29/04/26 Срд 22:55:52 #423 №1601443

>>1601374
>Попробуй SillyBunny - форк Таверны с агентами.
Я мимокрокодил, что-то не гуглится нифига.

Аноним 29/04/26 Срд 23:15:27 #424 №1601467

>>1601439
cold coffee, warm LO, I can't lose him!

Аноним 29/04/26 Срд 23:16:33 #425 №1601470

Анслоты нахуй снесли свою репу с ггуфами 128 мистраля

Аноним 29/04/26 Срд 23:17:31 #426 №1601471

>>1601470
Переименовали просто
https://huggingface.co/unsloth/Mistral-Medium-3.5-128B

Аноним 29/04/26 Срд 23:18:25 #427 №1601475

>>1601471
Нет, они всегда делают клон апстрима себе и из него кванты. Сам открой свою ссылку и посмотри файлы

Аноним 29/04/26 Срд 23:21:37 #428 №1601477

>>1601470
Как всегда насрали себе в штанишки. Потом пойдут на реддит рассказывать какая ллама плохая а что это не они обосрались, пытаясь сделать пук первее всех

Аноним 29/04/26 Срд 23:24:02 #429 №1601480

>>1601475
Сорян, в глаза ебусь.

Аноним 29/04/26 Срд 23:25:11 #430 №1601481

А они какой мистраль отдали? Ему уже год или пол года?

Аноним 29/04/26 Срд 23:30:58 #431 №1601488

>>1601481
Мистрал 2
2024

Аноним 29/04/26 Срд 23:35:00 #432 №1601494

>>1601481
3.1 из марта 25 года, так что думаю 3.5 был создан что то около полу года-8 месяцев назад

Аноним 29/04/26 Срд 23:47:18 #433 №1601500

Мимо2.5 квантанули в ггуфы, но качать 200+ гб чёт не в радость

Аноним 29/04/26 Срд 23:53:24 #434 №1601505

>>1601417
А что сложное нужно?
> какая-нибудь херка мощно прошлась по своим любимым группам или сорта
Чтоэта? Тоже так хочу
>>1601494
Да, оно относительно старенькое. Лучше чем в девстрале, но на модель 26 года не похоже.

Аноним 30/04/26 Чтв 01:01:15 #435 №1601529

Вот бы тюн геммы на книгах Донцовой и Перумова. Можно Силлова ещё.

Аноним 30/04/26 Чтв 01:06:43 #436 №1601534

>>1601023
> то как лучше сгружать тензоры во vram
Если приходится спрашивать вне конкретного случая, то фитом.

Аноним 30/04/26 Чтв 01:07:48 #437 №1601535

>>1601529
Я думаю они были в данных обучения.

Аноним 30/04/26 Чтв 01:14:52 #438 №1601537

>>1601535
Правильно. Получили же как-то это говно на выходе. ГИГА

Аноним 30/04/26 Чтв 01:16:43 #439 №1601538

Пиздец. Блеквелы не работают с вольтами на линухе. Накрылась медным тазом сборочка. К слову, хоть бы один пидор в треде сказал об этом

Аноним 30/04/26 Чтв 01:36:34 #440 №1601545

>>1601538
Ага, у каждого первого блеквелы, вольты и линух
Сговорились не сообщать никому, у нас тут бойцовский клуб

Аноним 30/04/26 Чтв 01:37:58 #441 №1601546

>>1601538
Обсуждали в районе нового года вскользь. Типа блеквеллы требуют открытый драйвер, а вольты только закрытый, потому им вместе не быть. Но никто просто не ставил их вместе, тут блеквеллы у единиц есть. Кажется что должен существовать способ их подружить, но он будет очень нетривиальным.
А что собирать хотел?

Аноним 30/04/26 Чтв 01:43:32 #442 №1601547

Гуфы на линг флэш? Да да пошёл я нахуй...
https://huggingface.co/bartowski/ibm-granite_granite-4.1-30b-GGUF

Аноним 30/04/26 Чтв 01:51:03 #443 №1601549

>>1601197
> Напоминаю что большая часть людей на планете имеет iq 100
Меньшая, у большей 90 или даже меньше. Хотя смотря кого за людей считать.

Аноним 30/04/26 Чтв 01:55:33 #444 №1601550

>>1601443
>Я мимокрокодил, что-то не гуглится нифига.
https://github.com/platberlitz/SillyBunny

Аноним 30/04/26 Чтв 01:56:55 #445 №1601551

>>1601546
Я 5070ти решил приобрести недавно, скидки были, но для картинок. Думал попользоваться баренскими нативными вычислениями в fp4 (правда, чет пока движуха тухлая по ним, в нунчаках, которые вроде более-менее адекватные кванты дают, нет ни вана, ни лтх). А так у меня давно уже все собрано на амперах и старше. Без вольт очень печально будет, у меня на них гемма сидела в качестве промпт энхансера

Аноним 30/04/26 Чтв 02:10:28 #446 №1601555

>>1601551
Ван точно есть в nvfp4. Найди минимальную сборочку из мусора в загашнике или чего-то дешевого, и в нее воткни вольты. Как раз гемму/квена/еще что-то в том размере держать постоянно запущенными.

Аноним 30/04/26 Чтв 02:17:27 #447 №1601556

Гранит хуйня с жирнющим контекстом.
В 3гб врам даже 16к не влазит

Аноним 30/04/26 Чтв 02:30:38 #448 №1601557

>>1601555
Я иногда на них картинки генерил тоже

Аноним 30/04/26 Чтв 02:54:06 #449 №1601559

1717060690037.png

>>1601557
Можно и картинки

Аноним 30/04/26 Чтв 03:38:07 #450 №1601570

Поясните плиз тупому нубу. Есть у меня карта 4070s которая торчит в mini ATX плате. В ней есть еще место снизу PCI Express х 16 под вторую карту. Если допустим прикуплю 3060 (подойдет ли?) или 5070 можно будет распердолить ламу (плотные модельки) чтобы збс скорость была ? Или допустим Comfy генерацию(wan , flux) ?
Нейронка говорит что я долбаеб, а в мини атх ставят 2 карты только дауны т.к режется скорость из за ограничений скорости пси и надо брать ATX плату полноценную

Аноним 30/04/26 Чтв 04:18:36 #451 №1601571

Какая самая маленькая и быстрая модель уверенно сможет написать простой скрипт на луа в 20-30 строк?

Аноним 30/04/26 Чтв 04:20:00 #452 №1601572

>>1601571
Как вариант вместо луа на тайпскрипте.

Аноним 30/04/26 Чтв 04:21:08 #453 №1601573

>>1601559
Нельзя или очень заебно, у меня распределенный инференс

Аноним 30/04/26 Чтв 06:05:46 #454 №1601580

Снимок экрана 2026-04-30 053435.png

Снимок экрана 2026-04-30 053641.png

Снимок экрана 2026-04-30 054828.png

image.png

Первые два скриншота — это дипсик про, предпоследний — флеш. Он дерьмо. Максимально ассистентская параша.

Я попробовал ещё с семплерами поиграться, но настраивать надо долха, ибо любой язык, кроме английского и китайского, сразу модель в разнос пускает и нужно ковыряться и свайпать. Кстати, вывод тоже очень детерминированный, близок в этом отношении гемме. И без ризонинга ощутимо тупеет, но текст приятней.

Прям печально очень выглядит всё для моделей таких размеров.

Сконнектился с официальным апи дипсика. Кол-во токенов где-то за 5 минут тестов с карточкой, парой сообщений и систем промптов, пиздец просто. И это ещё по скидке. Потом будет стоит 3,48 долларов за 1 млн у про и 1,74 у флеш. А учитывая, как пишет флеш, даже не знаю, есть ли смысолы запускать его локально для РП или пердолить риг ради него. Он реально слаб.

Аноним 30/04/26 Чтв 06:37:46 #455 №1601582

Такой рофл спросить что-то у квантованной Геммы локально, потом спросить то же самое у Геммы на Арене и получить две трети ответа оставшуюся треть локальная Гемма потеряла почти слово в слово. и в десятки раз быстрее

Аноним 30/04/26 Чтв 06:42:40 #456 №1601583

1777520460059.mp4

Гемма неюзабельна сына. Срёт водянистым нарративом и запахом озона.
Ты отыгрываешь вайлдберис а гемма врывается и говорит озон

Аноним 30/04/26 Чтв 06:46:32 #457 №1601586

Какой нарратив и озон в ответе на вопрос по софту? Обезумел уже там совсем от дрочки.

Аноним 30/04/26 Чтв 06:54:26 #458 №1601588

>>1601538
Шта? Ну и жопа, я как раз собирался на майских собирать риг из 2 v100 и 2 5060ti. И что теперь делать? Если бегло прикинуть, то можно отселить 5060 в виртуалку и подключить их через рпс. Но тогда вопрос с выгрузкой через ot. Карты подключенные по рпс можно указывать отдельно для выгрузки?

Аноним 30/04/26 Чтв 06:56:28 #459 №1601589

1777521288775.png

>>1601580
Лучше бы мистраль для тредика потестил

Аноним 30/04/26 Чтв 07:03:02 #460 №1601592

>>1601039
Ты хоть знаешь сколько хорошего я для треда сделал, сколько улыбок людям подарил в эти тяжелые времена без моделек?

Аноним 30/04/26 Чтв 07:15:24 #461 №1601595

>>1601588
Вангую, что это чревато еблей. Я конечно гуглил уже всякие vfio-pci, но не уверен, что это взлетит толком, а не разпидорит что-нибудь в дровах. Плюс учти, что рпц даже на локалхосте это где-то вторая-третья пися х1 по скорости. А с настройкой проблем нет, там рпц девайсы такие же полноправные девайсы как и куда. Это вот у меня трагедия с картинками, там-то нет рпц из коробки( Подумываю убрать блеквелл в шкаф до лучших времен

Аноним 30/04/26 Чтв 07:19:35 #462 №1601597

Имеет вообще смысл гранит 30 запускать?

Аноним 30/04/26 Чтв 07:42:18 #463 №1601598

>>1601597
А ты уверен? Точно этого хочешь? Взвесил все подследствия? Ну удачи тебе, но я бы не рисковал...

Аноним 30/04/26 Чтв 07:46:07 #464 №1601599

>>1601598
Ну я же без иронии спросил. Если там бредогенератор, то зачем напрягаться лишний раз?

Аноним 30/04/26 Чтв 07:55:00 #465 №1601602

>>1601599
Лол. Ты сидишь в этом треде и... не хочешь читать бредогенератор?

Аноним 30/04/26 Чтв 08:19:55 #466 №1601609

А я ещё раз абсолютно серьёзно спрашиваю: какой смысл не катать херетик гемму если она уже из коробки есмен и раздвигает ляжки стоит лишь попросить?

Аноним 30/04/26 Чтв 08:21:32 #467 №1601610

>>1601609
Чем тебе обычная гемма не угодила? Ты сотрудник гугла, у которого цель постов это поднят шумиху вокруг геммы?

Аноним 30/04/26 Чтв 08:24:07 #468 №1601614

>>1601610
>Чем тебе обычная гемма не угодила
Бугорками, влажными центрами, горячим лоном.

Аноним 30/04/26 Чтв 08:27:23 #469 №1601617

image.png

Аноним 30/04/26 Чтв 08:28:27 #470 №1601619

>>1601617
Скажи спасибо что рыба, а не конкретно селёдка

Аноним 30/04/26 Чтв 08:33:45 #471 №1601622

>>1601614
>горячим лоном
чем тебе лоно не угодило, сабака

>>1601609
>какой смысл не катать херетик гемму если она уже из коробки есмен и раздвигает ляжки стоит лишь попросить?
Сначала прочитал без частицы не.
Ведь реально, ваниль также раздвигает если попросить.

Аноним 30/04/26 Чтв 09:13:41 #472 №1601627

>>1601595
А тебе для картинок не пофиг где будет дом жить? Выкинь v100 в виртуалку и катай гемму там. v100 в отличие от блеквела должна без проблем пробрасываться.
Для себя я уже такую схему прикинул: две 5060 на хосте и 2 v100 в виртуалке. Все ресурсы выделяю виртуалке оставляя хосту минимум, на ВМ запускаю лламу (так как там в два раза больше врам), на хосте рпс. Для фулл врам моделей думаю норм будет, а вот что там с офлоудом будет хз, нужно тестить.

Аноним 30/04/26 Чтв 09:25:03 #473 №1601633

>>1601627
>дом
ЛЛМ

Аноним 30/04/26 Чтв 09:32:11 #474 №1601634

>>1601619
Красная, глитчевая, висцеральная, твоя.

Аноним 30/04/26 Чтв 09:47:19 #475 №1601644

fb17856beb582a747a3b89c5fc6b33a5-pic4zoom-1500x1500-8414.jpg

>>1601354
Про это документалка есть

Аноним 30/04/26 Чтв 09:48:55 #476 №1601646

>>1601326
Скилл ишуе.

Аноним 30/04/26 Чтв 10:10:37 #477 №1601655

>>1601595
>Плюс учти, что рпц даже на локалхосте это где-то вторая-третья пися х1 по скорости
Какая-то чушь собачья. С чего ты это взял?

Аноним 30/04/26 Чтв 10:13:46 #478 №1601659

>>1601570
Смотря как линии распределены. Говори какая мать, телепатов нет. У рузена зен4 и выше может и х8 от проца на второй слот быть, чего достаточно

Аноним 30/04/26 Чтв 10:16:15 #479 №1601660

Короче, после тестов на 20 разных карточках и диалогах по 40-60к токенов на каждой могу уже с уверенностью сказать - гемме пиздец как нужны тюны под ерп, она не вывзоит. Даже учитывая что и хард и софт рефьюзов она не выдает, с вариативностью и описаниями у нее большая беда. Такое ощущение что она знает три характера - это покорная шлюха, наглая шлюха, и шлюха которая неумело притворяется чем-то посередине. Что бы там в описаниях ни было, она рано или поздно сведет персонажа именно к этим трем типажам. Ну и слопа этого мистральского конечно не хватает, он вроде и заебал, но когда его нет сцены совсем какими-то бездушными становятся. Шиверсы главное есть, а сжимающаяся в пустоту пизда пропала. Не порядок какой-то.

Аноним 30/04/26 Чтв 10:21:26 #480 №1601665

>>1601660
Согласен. Мозги есть, но ничего с ними сделать не может, трагедия прямо.

Аноним 30/04/26 Чтв 10:37:04 #481 №1601671

>>1601660
https://huggingface.co/ConicCat/Gemma4-GarnetV2-31B

Но кочать и тыкать что-то совсем лень

Аноним 30/04/26 Чтв 10:42:44 #482 №1601674

>>1601671
Я качал и тыкал. Мера получше будет, имхо. А есменинг и сухость никуда не пропал.

Аноним 30/04/26 Чтв 10:45:21 #483 №1601677

Ну как вам новая мистраль? Кум льется рекой или цензура на уровне gpt-oss? Мозги есть или тупее пигмы? Нативное квантование в fp8 могло ужарить мозг модели, а кривой апкаст и квант в gguf уничтожить модель, повысив kld до единицы.

Аноним 30/04/26 Чтв 10:46:30 #484 №1601679

>>1601677
> Ну как вам новая мистраль?
128? Через месяц приходите когда ггуфы починят или awq4 сделают

Аноним 30/04/26 Чтв 10:54:32 #485 №1601684

>>1601580
Ризонинг выруби и перетесть

Аноним 30/04/26 Чтв 10:59:02 #486 №1601688

1685520872908.jpeg

>>1601580
>хм

Аноним 30/04/26 Чтв 11:02:05 #487 №1601689

>>1601659
MSI MAG B660M DDR4. Проц ш5 12400f

Аноним 30/04/26 Чтв 11:10:13 #488 №1601692

>>1601570
Ламу распердлоить получится, а генерацию картинок нет. За подробностями в сдохля-тред соседний иди, там объяснят почему.

Аноним 30/04/26 Чтв 11:10:49 #489 №1601695

>>1601689
>MSI MAG B660M DDR4. Проц ш5 12400f
О, мой конфиг. Насколько помню, второй слот там не x16. Да у 12400 и линий-то столько нет. Другое дело, что не так уж это критично для инференса-то.

Аноним 30/04/26 Чтв 11:14:13 #490 №1601696

>>1601677
У меня она сломана. llama последняя, правда на карте всего 30 слоёв из 80+. Пробовал кванты от анслотов и батрухи. Она выдаёт рандомную шизу и уходит в луп. Вот пример:
2.5, 2025, 2025, but=2025, 2025, 2027
The sun is bright, the sun is clear, the air is clear, and the sky is bright. The sun is clear, and the sky is clear. The sky is clear

Аноним 30/04/26 Чтв 11:16:14 #491 №1601697

>>1601696
Понятно. Погоняю тогда у себя оригинал, но 20 tps на пустом контексте это мало пиздец. Пока особо ничего хорошего сказать не могу.

Аноним 30/04/26 Чтв 11:17:16 #492 №1601699

>>1601689
Так если знаешь модель платы че не зашел и не посмотрел характеристики? Написано же: 1 x PCIe 3.0 (в режиме x4), 1 x PCIe 4.0 (в режиме x16)

Плюс сам 12400 только 20 линий поддерживает, так что в любом случае больше 20 линий ты не получишь, какой бы мать не была.

Аноним 30/04/26 Чтв 11:17:53 #493 №1601700

>>1601695
Нейронка говорит что для инференса не критично а вот в загрузке первичной будет посос, но надо уточнять, точно ли не будет в инференсе пососа

>мой конфиг
А ты не пробовал вторую карту ставить? Там еще вопрос места, есть вероятность что не влезет или впритык будет. А это минус охлад

Аноним 30/04/26 Чтв 11:19:35 #494 №1601702

Тредовички, алярм.
Есть возможность взять себе MS73-HB0 на 2х LGA4677. За 80к Б/У , из под юрика. Стоит или нахуй не нужно?
Под этот сокет я даже не знаю какой процессор можно найти, они все стоят как крыло от самолета.

Аноним 30/04/26 Чтв 11:21:27 #495 №1601705

>>1601699
Вопрос тут только насколько это будет хуево для инференса?

Аноним 30/04/26 Чтв 11:26:00 #496 №1601708

>>1601696
>выдаёт рандомную шизу и уходит в луп
Ты разметку смотрел? Может шаблон неправильный

>>1601705
Перескажу то что слышал итт тыщу раз - нет, хуево не будет. Сам не тестировал, но знающие, так называемые щарящие, говорят что даже на 4 линии можно жить.

Аноним 30/04/26 Чтв 11:27:40 #497 №1601710

>>1601700
>А ты не пробовал вторую карту ставить?
Прикидывал, но и правда очень тесно, плюс провода там... Впихнуть можно, но я в итоге решил риг собирать. Всё равно двух карт мало для счастья.

Аноним 30/04/26 Чтв 11:31:03 #498 №1601714

>>1601702
Там процессоры хуйню стоят по сравнению с ОЗУ. Поспрашивай в серверотреде в /hw. Возможно под эту мать можно инжинерники заказать, они дешевле будут, но повторяю, проц это копейки

>>1601708
>Ты разметку смотрел? Может шаблон неправильный
Пробовал и с жинжей и сам выставлял правильную, разницы нет.

Аноним 30/04/26 Чтв 11:40:23 #499 №1601723

>>1601714
>хуйню стоят по сравнению с ОЗУ.
>3DS от 150к за 128гб DDR-4
Спасибо. Вопросов больше не имею. Пойду мороженку лучше куплю.

Аноним 30/04/26 Чтв 11:42:09 #500 №1601725

1681824723714.png

>>1601696
Это норма

Аноним 30/04/26 Чтв 11:54:42 #501 №1601731

image.png

Потестил меро, оказалась плацебо-тюном. Просто обыкновенным свайпом базовой геммы.
Что тюнерам надо починить, так это тенденцию Геммочки прилипать к одной и той же тошнотворной структуре от поста к посту.
Она как бланки заполняет, и это надоедает очень быстро.

Аноним 30/04/26 Чтв 11:57:33 #502 №1601733

Когда подешевление? Когда? Ну блять когда уже?
Что не могут заводов настроить что ли?
ДАЙТЕ РАМ СУКИ

Аноним 30/04/26 Чтв 11:57:48 #503 №1601735

>>1601689
Жозенько
Обычная раскидка слоёв (видюхи работают по очереди) наверно нормально пойдёт. Tensor split (две видюхи сразу) сделает пукнум, особенно на изначальной генерации токенов, раз в 10 медленнее будет

Аноним 30/04/26 Чтв 11:59:47 #504 №1601736

>>1601731
Меромеро ничем от оригинала и не отличается, кроме того что русик ломает.

ПЕРЕКАТ Аноним OP 30/04/26 Чтв 12:05:54 #505 №1601741

ПЕРЕКАТ

>>1601740 (OP)

ПЕРЕКАТ

>>1601740 (OP)

ПЕРЕКАТ

>>1601740 (OP)

Аноним 30/04/26 Чтв 12:25:14 #506 №1601752

>>1601702
Для чего? Амуда скорее всего может сделать всё то же самое, но дешевле.