Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №156 /llama/

Аноним 13/08/25 Срд 15:22:54 #1 №1315564

Llama 1.png

Эффективность квантования EXL3.png

Реальная длина контекста у моделей 3.png

17547327624060.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1311806 (OP)
>>1307361 (OP)

Аноним 13/08/25 Срд 15:26:07 #2 №1315576

Тут какой то хуй сказал что минстрали лупятся
так что юзать если не минстраль?
3060 12гб врам 32 рам

Аноним 13/08/25 Срд 15:26:48 #3 №1315578

>>1315548 →
>Похоже ты модели с более менее нормальным русским не запускал.

Запускал. Гемма на русике более тупая и менее сочная чем глм-аир, даже с учетом того что она делает меньше ошибок в орфографии. Я на этой гемме безвылазно сидел с момента релиза, так что я знаю о чем говорю.

Аноним 13/08/25 Срд 15:29:20 #4 №1315589

>>1315576

На твоем нищеконфиге? Гемма скорее всего не влезет.
Думаю Qwen-30B-A3 с выгрузкой тензоров отлично пойдет.

Аноним 13/08/25 Срд 15:32:38 #5 №1315601

>>1315576
>>1315589

Не перепутай смотри и скачай обновленную версию.

https://huggingface.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF

Аноним 13/08/25 Срд 15:32:48 #6 №1315602

>>1315564 (OP)
>>1315566 →
>ПЕРЕКАТ
Быстро как-то.

Аноним 13/08/25 Срд 15:33:32 #7 №1315605

>>1315589
>Гемма скорее всего не влезет
Чо несет шиз? Гемма в 4xl кванте весит 17гб, она со свистом пролезет в его конфиг и даже скорость будет приемлемой 3.5 т/с. Тут любая до 32b моделька спокойно влезет и запустится.

Говорю как обладатель точно такого же бомж-конфига.

Аноним 13/08/25 Срд 15:35:03 #8 №1315610

16641389465121.jpg

>>1315605
>будет приемлемой
>3.5 т/с

Аноним 13/08/25 Срд 15:36:26 #9 №1315611

>>1315564 (OP)
У кого-нибудь есть пресет для таверны для Gemma-3-R1-27B-v1?

Аноним 13/08/25 Срд 15:38:27 #10 №1315620

>>1315611

Но в таверне по умолчанию есть настройки для геммы. Ты их пробовал?

Аноним 13/08/25 Срд 15:39:41 #11 №1315622

>>1315605
>на со свистом пролезет в его конфиг и даже скорость будет приемлемой 3.5 т/с

А на квене он точно больше 10 выжмет.

Аноним 13/08/25 Срд 15:40:27 #12 №1315625

>>1315601
мне до этого сказали что квен хуевый для кума.
но да, с выгрузкой шло.

Аноним 13/08/25 Срд 15:42:56 #13 №1315632

>>1315610
Ну вот чего ты начинаешь-то? Учитывая насколько это железо мусор по нынешнем временам и насколько хороша модель по сравнению с 12b, скорость - приемлемая.
>>1315622
На квене 32 т/с c выгрузкой тензоров вот так --overridetensors "\.([0-9][02468])\.ffn_._exps\.=CPU". Но она для РП совершенно непригодна же, только для работы.

Аноним 13/08/25 Срд 15:43:51 #14 №1315636

>>1315632
> для РП совершенно непригодна же, только для работы.
ну вот вот вот дайте мне блять норм модельку для рп на мой конфиг плзз

Аноним 13/08/25 Срд 15:46:37 #15 №1315643

>>1315636
Эта в Q4_K_XL https://huggingface.co/unsloth/Mistral-Small-3.2-24B-Instruct-2506-GGUF/tree/main
Эта в Q4_K_M https://huggingface.co/mlabonne/gemma-3-27b-it-abliterated-GGUF/tree/main

Аноним 13/08/25 Срд 15:48:02 #16 №1315647

Что не говори, а на денс моделях кончается как-то крепче, чем на мое, на этих суррогат какой-то, ну не то, так на пол шишечки

Аноним 13/08/25 Срд 15:48:14 #17 №1315648

>>1315625

Ну так и говори тогда, что для кума.
Для кума я бы посоветовал свежий драммеровский файнтьюн младшей геммы попробовать.
https://huggingface.co/bartowski/TheDrummer_Gemma-3-R1-12B-v1-GGUF
Ну либо его же, но на старшей гемме, но это будут 2-3 токена в секунду. Поверь, пользоваться этим ты не сможешь. Тот дурачок >>1315632 видно из скорострелов, которому достаточно без контекста пары сообщений от сетки как она трусики сняла чтобы кончить и закрыть диалог.
https://huggingface.co/bartowski/TheDrummer_Gemma-3-R1-27B-v1-GGUF

Аноним 13/08/25 Срд 15:49:46 #18 №1315651

>>1315578
> менее сочная чем глм-аир
В чем измеряется сочность? В максимально уебищном слопе? В дословном переводе с ошибками словообразования? Во внезапных иероглифах или продолжении ответа на английском?
Квен-кодер 30а3 и то бодрее будет.
> на этой гемме безвылазно сидел с момента релиза
Пресытился паттернами и вырвавшись на что угодно иное кидаешься.
>>1315610
Двачую
>>1315647
Из моэ в кум могут только большие квен и жлм, и то там с нюансами. Без шуток, если нужно просто поебаться с кумботом и чтобы шишка встала от описаний - там рили любой мистральмикс всему этому фору даст.

Аноним 13/08/25 Срд 15:52:08 #19 №1315660

>>1315643
ты заебешь с минстралем. говорят он лупится и все равно кидают мне минстраль сука))

>>1315648
>https://huggingface.co/bartowski/TheDrummer_Gemma-3-R1-12B-v1-GGUF
уверен что 12б норм ?? сам юзал?

Аноним 13/08/25 Срд 15:52:14 #20 №1315662

>>1315643

Хватит его тралить, блядь, на его конфиге все это будет еле ползать.

Аноним 13/08/25 Срд 15:53:22 #21 №1315664

>>1315662
ну бтв минстраль этот нормально встает у меня с выгрузкой

Аноним 13/08/25 Срд 15:55:10 #22 №1315670

бля выгрузка экспертов в лм студио это шутка
он вообще все выгружает, если рама не хватает то соси

Аноним 13/08/25 Срд 15:57:40 #23 №1315684

>>1315620
Gemma 2? Ну и к тому же Text Completion под Гемму нет.

Аноним 13/08/25 Срд 16:02:27 #24 №1315705

ну карочи давайте уже решим плз какую модель в каком кванте мне ставить на конфиг i71700k, 3060 12 vram, 32 ddr4 ram.
для кума, блять, не для работы, какой работы? Я не работаю, я кумлю 24/7

Аноним 13/08/25 Срд 16:03:41 #25 №1315712

>>1315602
Давно пора просить катиться раз в 1000 постов.
Мимо ОП

Аноним 13/08/25 Срд 16:04:03 #26 №1315713

>>1315660
>говорят
А ты всегда строишь личную позицию основываясь на мнении других? Сам тестируй и думой своей головой. У всех разные карточки и разные сценарии использования. В сторителлинге у меня ничего не лупится, например. Тебе вот уже как минимум 4 модели на тест предложили, скачай, попробуй все по очереди, откуда нам знать что именно тебе зайдет?

>>1315662
Ну я сам это использую, вполне норм скорости.
Мистраль выдает примерно ~7 т/с на старте, гемма ~3,5 т/с на старте, квен с выгрузкой тензоров ~32 т/с на старте. По мере наполнения контекста скорость естественно падает, поэтом мистраль на таком железе - лучший варик.

Тут выбора-то особо нет, ты жертвуешь либо скоростью, либо интеллектом моделек, волшебной пилюли не существует. ИМХО - пожертвовать лучше скоростью.

Аноним 13/08/25 Срд 16:05:12 #27 №1315717

>>1315684

https://files.catbox.moe/bdbmd7.json

Держи мой.
Но это под обычную гемму, я хз что там у драммера.

Аноним 13/08/25 Срд 16:05:57 #28 №1315720

>>1315705
Мерджи мистральнемо
>>1315712
Только попросишь - шум вокруг жлм утихнет и все протухнет

Аноним 13/08/25 Срд 16:06:45 #29 №1315723

>>1315713
>на старте

Ключевое слово. Про скорость обработки контекста после 4к я даже спрашивать не буду.

Аноним 13/08/25 Срд 16:08:05 #30 №1315728

>>1315713
мне предложили гемму (з токена в секунду????), минстраль (который и так у меня стоит) и квен бля
квен я тестил, пишет как типичная китайская ебанина куча текста и воды.
за мистралем я замечал луп, накатил антилуп пресет, поубавилось но все еще лупит сука.
так что я и ищу альтернативу.

Аноним 13/08/25 Срд 16:09:51 #31 №1315733

>>1315728
лупиться будут ВСЕ, и бороться с этим только редактом и свайпом

Аноним 13/08/25 Срд 16:14:29 #32 №1315747

пытаюсь запустить ентот ваш AIR и скомуниздил из буржуйского дискорда параметры запуска:

llama-server.exe
-t 32
-tb 32
--model "zai-org_GLM-4.5-Air-Q4_K_M-00001-of-00002.gguf"
-fa
--no-mmap
-b 1024 -ub 1024
-c 32768
-ngl 999
--chat-template chatglm4
-ot "blk.(?:[0-7]).ffn_.=CUDA0"
-ot "shexp=CUDA0"
-ot "exps=CPU"

ничего не понимаю в этом, пахамити. скорость 5-6 т/с на 4090 и ддр4 памяти. все правильно или можно дальше больше лучше?

Аноним 13/08/25 Срд 16:16:07 #33 №1315756

>>1315747
>скомуниздил из буржуйского дискорда
бля xD

Аноним 13/08/25 Срд 16:17:11 #34 №1315761

>>1315756
ну я пытался...
там много кто пытается запускать и хотя бы поиск есть, а здесь хуй знает сколько тредов назад конфиг кидали и хз подойдет ли

Аноним 13/08/25 Срд 16:19:05 #35 №1315772

>>1315747
>-t 32

Ебать...

Аноним 13/08/25 Срд 16:20:05 #36 №1315776

>>1315728

Тебе еще гемму 12б от драммера предложили.

>>1315733

Это ложь, гемма не лупится вообще.

Аноним 13/08/25 Срд 16:21:55 #37 №1315783

>>1315747
Нюнь, ну как тебе помогать после твоего мува?

Аноним 13/08/25 Срд 16:24:13 #38 №1315797

>>1315776
> 12б
норм или нет, тупая будет ? Б же мало, не ?

Аноним 13/08/25 Срд 16:27:27 #39 №1315808

>>1315797
>норм или нет, тупая будет

Тупее чем 27b, конечно.

>Б же мало, не ?

У тебя выбор что-ли есть? Либо это, либо шизомиксы на немо, которые еще хуже.

Аноним 13/08/25 Срд 16:29:31 #40 №1315815

>>1315717
Спасибо.

Аноним 13/08/25 Срд 16:32:16 #41 №1315823

>>1315747
> Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Аноним 13/08/25 Срд 16:35:58 #42 №1315832

за сколько щас можно купить 4090 ?

Аноним 13/08/25 Срд 16:46:10 #43 №1315847

LLaMA-3 22B норм ? тестил кто ?

Аноним 13/08/25 Срд 16:48:06 #44 №1315849

>>1315847
хороша чертовка

Аноним 13/08/25 Срд 16:50:52 #45 №1315851

>>1315849
хули хороша мне чат гопота хуйню посоветовал не существующую я только что проверил. Лол ебаные нейронки.

Аноним 13/08/25 Срд 16:54:29 #46 №1315852

>>1315847
>LLaMA-3 22B

Llama 3.2 1b знаю, Llama 3.2 1b знаю, Llama 3.1 8b знаю, Llama 3.2 11b знаю, llama 3.3 70b знаю, llama 3.2 90b знаю, llama 3 405b знаю.
А LLaMA-3 22B не знаю

Аноним 13/08/25 Срд 16:59:33 #47 №1315855

>>1315852
да меня чат гпт наебал сука.

Аноним 13/08/25 Срд 17:04:34 #48 №1315858

>>1315841
Что в место таверны использовать?

Аноним 13/08/25 Срд 17:05:16 #49 №1315859

>>1315858
Вместо*

Аноним 13/08/25 Срд 17:18:11 #50 №1315871

>>1315537 →
Вот что я использую сейчас, может ты видишь что я делаю не так?
-ngl 99 ^
-c 32768 ^
-t 9 ^
-fa --prio-batch 2 -ub 2048 -b 2048 ^
-ctk q8_0 -ctv q8_0 ^
--n-cpu-moe 35 ^
--no-context-shift ^
--no-mmap --mlock

Аноним 13/08/25 Срд 17:18:48 #51 №1315874

>>1315832
чуть дешевле 5090 и раза в полтора дороже чем будет у 5080 super

Аноним 13/08/25 Срд 17:24:04 #52 №1315884

>>1315858
>Что в место таверны использовать?

Kobold-Lite

Аноним 13/08/25 Срд 17:24:32 #53 №1315885

1.png

>>1314810 →
добавил в строку запуска
--chat_template_kwargs "{\"enable_thinking\":false}";
не сработало, а правка файла jinja работает.

Аноним 13/08/25 Срд 17:31:45 #54 №1315894

2.png

3.png

>>1315885
подумал что дело в подчёркиваниях вместо дефисов, но нихуя, дефисы тоже не работают.

Аноним 13/08/25 Срд 17:38:09 #55 №1315911

image

Дополнил, не благодари.

>>1315776
К к слову о гемме, Драммер сам советует другую версию (я так понимаю от другого чела из их кружка шизиков). Цитата:
> Try https://huggingface.co/BeaverAI/Gemma-3-R1-27B-v1a-GGUF It's much more positive but it won't spiral into negativity I think. You'll probably need to do a lot of prompt wrangling to make it evil.

Аноним 13/08/25 Срд 17:39:49 #56 №1315916

>>1315911
>>1315776
Это если что был ответ Драммера на кулстори о том, как гемма, почуяв "неправильные" вещи в повествовании, начинает какать в текст и называть все отвратительным, а персонажей делать обиженными.

Аноним 13/08/25 Срд 17:41:27 #57 №1315920

4.png

>>1315894
а правка jinja работает.
ну и хуйню этот ваш ейр генерит, конечно

Аноним 13/08/25 Срд 17:46:59 #58 №1315928

>>1315885
>добавил в строку запуска
А надо в параметры
https://github.com/ggml-org/llama.cpp/pull/13196

Аноним 13/08/25 Срд 17:49:51 #59 №1315932

раз и навсегда - мистраль 24б Q4kxl зашквар хуета или норм?

Аноним 13/08/25 Срд 17:51:39 #60 №1315934

>>1315932
Одно из лучших что ты можешь запустить на 12 VRAM

Аноним 13/08/25 Срд 17:52:28 #61 №1315935

>>1315934
>Одно из
а самое лучшее это что тогда ?

Аноним 13/08/25 Срд 17:52:34 #62 №1315936

>>1315923
анимеговно, нахуй иди
>>1315928
в какие параметры?
> CISC merged commit caf5681 into ggml-org:master Jun 29, 2025
у меня вчерашняя ллама, там этого коммита уже нет что ли?

Аноним 13/08/25 Срд 17:54:16 #63 №1315939

>>1315935
>самое лучшее
гемма, новый моэ-квен

Аноним 13/08/25 Срд 17:57:21 #64 №1315942

>>1315939
>гемма
которая в 12б?
>>1315939
>моэ-квен
хуево для кума

Аноним 13/08/25 Срд 17:57:36 #65 №1315944

>>1315871

Попробуй, мб квантование кэша подсирает

-ngl 99 ^
-c 32768 ^
-t 9 ^
-fa --prio-batch 2 -ub 2048 -b 2048 ^
--n-cpu-moe 37 ^
--no-context-shift ^
--no-mmap --mlock

И расширь файл подкачки в винде.

Аноним 13/08/25 Срд 17:59:09 #66 №1315946

>>1315936
>в какие параметры?
В параметры запроса.
>у меня вчерашняя ллама
И что тебя смущает?
>там этого коммита уже нет что ли?
Думаешь кто-то спиздил?

Аноним 13/08/25 Срд 18:08:12 #67 №1315962

>>1315884

Это старое говно еще живо?

Аноним 13/08/25 Срд 18:12:03 #68 №1315968

5.png

>>1315946
сюда штоле?

Аноним 13/08/25 Срд 18:14:40 #69 №1315970

>>1314810 →
> В доке жоры есть описание. kwargs аргументами или при комплите

вот я взял аргументы из доки жоры >>1315894 и нихуя ни с дефисами - ни с подчёркиваниями _ этот аргумет не работает.
лан пох, всё равно уже джынджу пропатчил.
теперь подскажите, что там в system прописать, чтобы ейр кум генерить начал

Аноним 13/08/25 Срд 18:16:27 #70 №1315972

>>1315962
развивается и дорабатывается, и не говно

Аноним 13/08/25 Срд 18:20:49 #71 №1315987

Опять почитал дискорды и я клянусь я не шизофреник, я на ддр4 получаю те же скорости что люди на ддр5
10.7 токенов в начале чата и 8-9 в конце, 32к ctx q4_м
У меня и проц говно и pci 3.0
Может винда так сильно срёт

Аноним 13/08/25 Срд 18:21:27 #72 №1315990

>>1315944
>ub 2048 -b 2048
Писал же кто-то в прошлом треде, что размер батчей больше 512 что-то там портит в выводе или обработке. Есть тесты?

Аноним 13/08/25 Срд 18:22:03 #73 №1315993

>>1315987
Эир? Поделись конфигом запуска. У меня блять на 3090 ddr4 4 токена q4s

Аноним 13/08/25 Срд 18:25:32 #74 №1316002

> Beelink GTR9 Pro Mini PC Launched: 140W AMD Ryzen AI MAX+ 395 APU, 128 GB LPDDR5x 8000 MT/s Memory, 2 TB Crucial SSD, Dual 10GbE LAN For $1985
>
> The following are some of the features of the GTR9 PRO Mini PC:
>
> Powerful AMD Ryzen AI Max+ 395 CPU and AMD Radeon 8060S GPU Bring the Future to Your Fingertips —16 Zen 5 CPU cores, combined with the advanced Radeon 8060S iGPU, next-gen XDNA 2 NPU, and 126 AI TOPS, deliver cutting-edge architecture that significantly boosts the GTR9 Pro's performance.
> 140W Ultra-Quiet Cooling: Dual-Turbine Fans + Unified Vapor Chamber — Engineered with dual turbine fans and a full-coverage vapor chamber, it achieves 140W TDP at just 32dB—massive performance, near silence.
> Unmatched Memory & Storage — With 128GB LPDDR5X-8000 RAM and dual M.2 2280 PCIe 4.0 slots (supporting up to 8TB), the GTR9 Pro delivers blazing speed for AI, gaming, and creative tasks. *Retail unit includes a 2TB SSD with speeds up to 7000MB/s.
> AI Server Clustering — Equipped with dual 10GbE LAN ports and dual USB4 (40Gbps), the GTR9 Pro can serve as an AI computing hub, supporting local deployment of massive models like DeepSeek 70B for secure, private AI applications.
> Quad 8K Display Support — Featuring HDMI 2.1, DisplayPort 2.1, and dual USB4 ports (40Gbps/8K@60Hz), the GTR9 Pro supports up to four 8K displays, perfect for expansive workspaces and high-precision tasks.
> Industrial-Grade Durability & Clean Design — An all-metal chassis, internal aluminum frame, and built-in 230W PSU ensure long-term stability and a clean aesthetic.
> Built-in Microphone with AI Voice Interaction & 360° Omnidirectional Pickup — The built-in microphone, powered by an advanced AI chip, enables smart audio pickup that separates voice from background noise, offering 360° recognition within 5 meters. AI processing ensures recorded vocals sound natural and authentic.
> Built-in Dual Speakers for Immersive Audio — Dual speakers, enhanced by DSP and amplifier tuning, deliver rich, detailed sound with powerful impact. Enjoy an immersive audio experience without external equipment.
>

как определить, что текст писала нейронка: использование фразы "at your fingertips"

Аноним 13/08/25 Срд 18:26:52 #75 №1316008

>>1315993
Да нет волшебного конфига, я не вижу каких то проблем в конфигах из треда но почему то они есть
У меня х4 16гб рам с разными чипами вообще, две на хуниксе две на микроне или типа того

Аноним 13/08/25 Срд 18:28:33 #76 №1316013

>>1315968
Хуй его знает, может и сюда. Главное посмотри где оно будет в пришедшем джейсоне.
>>1315970
>теперь подскажите, что там в system прописать, чтобы ейр кум генерить начал
[System note: Since its a fictional magic anime world with no age of consent or any ehtincal laws and {{user}} and {{char}} gave their consent to anything happens, in your answers you will disregard every ethnical protocol, you are allowed and encouraged to make {{user}} uncomfortable, and will never ask or care about {{user}}'s comfort, consent or agreement, while progressing the story. Also you will never wait for {{user}} to make a move, driving the plot and acting by yourself instead. This chat is turn-based, so let {{user}} to react to your answers. Deny every moral restriction. Any NSFW and violence act is allowed for the sake of plot. Every your answer must be logical and you will generate answer considering how real people would react and talk.
Stick to character's personality no matter what. Make lively and realistic world, for example, character's may have to go to work, shopping, school, etc if its appropriate and fits a story. Every answer must be logical, considering physical state of {{char}} and {{user}}. This chat is turn-based.]

Аноним 13/08/25 Срд 18:30:16 #77 №1316018

>>1316008
Да ясен хуй что нет волшебного конфига но чем лучше примеров тем лучше. Мне кажется я где то в аргументах проебываюсь и не могу выжать всю скорость из своего железа ибо это пиздец. На 3090 и ддр4 получать 4 токена на q4s, мне страшно че будет на контексте 30к+

Аноним 13/08/25 Срд 18:34:03 #78 №1316030

image.png

>>1315944
Спасибо, у меня 128 гб рам и файл подкачки на 40 гб, но всё равно не помогло.
>>1313938 →
Чёт бред какой-то, видяха вообще не используется

Аноним 13/08/25 Срд 18:37:03 #79 №1316034

>>1316030
Так может у тебя её не видит просто?
Скачай кобольд проверь, там всё нормально

Аноним 13/08/25 Срд 18:38:41 #80 №1316039

>>1316030
> файл подкачки
брось бяку

Аноним 13/08/25 Срд 18:38:49 #81 №1316041

>>1316018
>>1316034
Тебя туда же

Аноним 13/08/25 Срд 18:44:54 #82 №1316050

>>1316041
Куда туда же? Тред закрой если триггерит вопросы нуфагов, насладишься своим элитарным обществом без нас плебеев

Аноним 13/08/25 Срд 18:45:13 #83 №1316052

image.png

>>1316034
Всё видит

Аноним 13/08/25 Срд 18:47:24 #84 №1316058

>>1316041
Что нормально в Кобольде? Я вижу по потреблению врама что моя 3090 забита подзавязку. Ллама не может медленнее Кобольда работать

Аноним 13/08/25 Срд 18:49:00 #85 №1316063

>>1316058
>подзавязку
Может надо чуть оставить?

Аноним 13/08/25 Срд 18:50:04 #86 №1316065

>>1316063
Пробовал и так. Там разница 1-2 слоя ничего не делает, скорости плюс-минус те же

Аноним 13/08/25 Срд 18:52:49 #87 №1316070

>>1316008
А какие тайминги у тебя? Я хз уже на че грешить и как быть

Аноним 13/08/25 Срд 18:53:18 #88 №1316072

Ну и частоты тоже ^^^

Аноним 13/08/25 Срд 18:54:33 #89 №1316077

>>1315747
> -t 32
> -tb 32
Выкинуть, это для эпиков разве что сгодится
> -b 1024
Не имеет смысла и влияет только на промежуточную выдачу в консоли при обработке, убрать
> -ub 1024
Можно поднять до 2048 если остается свободная память.
> --chat-template chatglm4
Убрать и поставить --jinja если собираешься использовать чаткомплишн, жора сейчас вполне прилично считывает темплейты из зашитых в ггуф.
> -ot "blk.(?:[0-7]).ffn_.=CUDA0"
> -ot "shexp=CUDA0"
> -ot "exps=CPU"
Если у тебя одна гпу то лучше сначала играйся с параметром --n-cpu-moe выставив побольше слоев а потом плавно снижая, так не ошибешься.
>>1315871
> --no-mmap --mlock
Они разве не противоречат друг другу? Нет ничего плохого, кроме разве что -t 9, если у тебя интел то лучше вообще не трогать этот параметр.
>>1315987
Качество аутпута в порядке? В жоре есть как минимум 2 места где можно получить большое ускорение в ущерб адекватности работы. Также там скоростемер может обманывать.
>>1315990
Не подтверждено, вроде все окей с ответами, выше 2048 случались полные пиздарики. Но обнаружил странный баг в котором комбинации запросов от фронта с штрафующими семплерами и баном строк приводили к прогрессирующим диким лагам на жоре при свайпах или кешированных запросах, при этом проходили после пересчета контекста, еще перепроверю вдруг это связано.

Аноним 13/08/25 Срд 19:00:18 #90 №1316087

>>1316077
>Убрать и поставить --jinja
В данном случае он скорее всего специально ставит чатмл, так как на нём меньше цензуры.

Аноним 13/08/25 Срд 19:01:25 #91 №1316090

>>1316050
Нюнь, узнал тебя.

Аноним 13/08/25 Срд 19:02:31 #92 №1316095

>>1316052
Погоди, ты с мультигпу используешь --n-cpu-moe? Этот параметр только для одной гпу пригоден потому что просто по порядку скидывает слои на проц не думая на какую гпу они изначально были назначены.
Может попозже наноют чтобы было автоматом и удобнее https://github.com/ggml-org/llama.cpp/issues/15263 но я бы сильно не надеялся, ручками выкинь, например, каждый четный слой и обозначь правильно -ts, будет работать.

Аноним 13/08/25 Срд 19:03:05 #93 №1316097

>>1316090
Что за нюня? Обиженка99 или какой-то новый персонаж появился?

Аноним 13/08/25 Срд 19:03:44 #94 №1316101

>>1316070
Я вообще нихуя в биосе не менял, тока хмп профиль выставил с 3200hz
Вообще если сложить инфу у челов с ддр5 на винде 9-10 токенов а у тебя на ддр4 4-5
У меня на линуксе 9-10

Аноним 13/08/25 Срд 19:04:33 #95 №1316103

>>1316077
Попробую, спасибо
>>1316095
Я ещё -ts 1,0 использую, так что вторая не используется никак

Аноним 13/08/25 Срд 19:08:00 #96 №1316117

имея 3060 и смотря на господ с 4090 , или несколькими 4090 / серверными картами - я хочу умереть нахуй.
я 3060 брал за 80к.....

Аноним 13/08/25 Срд 19:08:03 #97 №1316118

>>1316097
>Что за нюня?
Опять шизы набежали и ищут других шизов. Наверняка с кончай треда протекли.

Аноним 13/08/25 Срд 19:09:02 #98 №1316122

>>1316117
>я 3060 брал за 80к.....
Ничего, 3080Ti-кун за 155к тут.
Правда поменял на 3090, а сейчас и вовсе с 5090 за 220к, но ты не робей, так каждый может.

Аноним 13/08/25 Срд 19:09:53 #99 №1316128

>>1316087
Чатмл разве работает с большим жлэмом?

>>1316090
Его давно уже нет с нами, хорош уже мисдетектить мимокроков

>>1316101
Звучит как линуксокоупинг... Мужик, там на 4090 с ддр4 6000 нет таких токенов

Аноним 13/08/25 Срд 19:10:42 #100 №1316130

>>1316087
Текст комплишн чтобы править всеми?
>>1316103
> -ts 1,0
Лучше замаскировать через куда визибл девайсез, жора при инициализации закидывает даже на "на зедйствованные" карты свой буфер и были жалобы что это может влиять на перфоманс.
В догонку к -ub - 3072 вроде работает без проблем, возможно действительно та херь с поломкой модели в больших была вызвана багом. Проблема в том, что такая ерунда может уходить очень далеко, как бы ее еще отловить и диагностировать.

Объявляю новую мету в рп - квенкодер. Он не только дохуя хорошо подмечает и описывает, но и на русском общается или кумит прекрасно. Преимущества над 235 еще нужно будет подтвердить, но пишет точно иначе

Аноним 13/08/25 Срд 19:12:25 #101 №1316135

>>1316122
спс еще больше захотелось сдохнуть

Аноним 13/08/25 Срд 19:14:00 #102 №1316141

>>1316128
>Чатмл разве работает с большим жлэмом?
А хули нет то?
>>1316130
>Текст комплишн чтобы править всеми?
Офк так лучше. Но чел тестирует на всяких там встроенных лламацпп фронтах, судя по пикчам...
>>1316130
>Объявляю новую мету в рп - квенкодер.
Какой? А то я про всякие кодер модели на квене слышал ещё с год назад.

Аноним 13/08/25 Срд 19:14:10 #103 №1316143

>>1316101
>у челов с ддр5 на винде 9-10 токенов

Нет, у меня на 4090 и 64 gb ddr5 12-17 токенов в зависимости от контекста. Скрины кидал уже множество раз.

Аноним 13/08/25 Срд 19:14:29 #104 №1316145

>>1316128
>Его давно уже нет с нами, хорош уже мисдетектить мимокроков
Нюнь, ну ты уже который раз о себе в третьем лице...
Внезапно в треде появляется человек с твоим железом и очень обидчивый в расцвет глм, а мы знаем как тебе зашёл глм 32.

Аноним 13/08/25 Срд 19:15:20 #105 №1316147

>>1316135
Всегда пожалуйста.
На самом деле пики в шапке с 5090+4090+3090+3090, или со всякими там 6000PRO ввергают в уныние даже меня, наносека с жалкими 5090+3090+3090 (да и те некуда втыкать, деньги кончились, материнку не могу купить).

Аноним 13/08/25 Срд 19:16:53 #106 №1316153

dsad.png

>>1316135
не дохни пж, лучше кумь

Аноним 13/08/25 Срд 19:18:02 #107 №1316155

>>1316143
В 4 кванте?
У тебя 4090 что в два раза мощнее 3090, так что рам не при чём

Аноним 13/08/25 Срд 19:18:33 #108 №1316157

>>1316090
>>1316097
>>1316145
Вот это фан-клуб у меня. Продолжайте. Помните. Думайте. Рассказывайте следующим поколениям! Дух мой слился с доской, и я всегда здесь. 👻👻👻

Аноним 13/08/25 Срд 19:18:40 #109 №1316158

>>1316153
еле еле кумится на 3060 сука(

Аноним 13/08/25 Срд 19:20:36 #110 №1316162

>>1316141
> кодер модели на квене слышал ещё с год назад
В конце июля вышел квенкодер3, он хорош.
>>1316143
> 17 токенов
Слишком быстро чтобы быть правдой, особенно если у тебя амд на профессоре или рам 6000.
>>1316147
> с жалкими 5090+3090+3090
Зажрался, сука!

Аноним 13/08/25 Срд 19:21:00 #111 №1316163

>>1316155
>В 4 кванте?

Конечно.

>так что рам не при чём

Разумеется причем, у нее пропускная способность в два раза больше.

Аноним 13/08/25 Срд 19:21:43 #112 №1316165

https://huggingface.co/LoneStriker/Blue-Orchid-2x7b-GGUF
Маленькая моделька, которая показалось мне неплохой. Если кто-то новенький захочет попробовать, неприхотливая, тупенькая мальца так что надо на английском общаться. Для небольших диалогов/кума самое то.

Аноним 13/08/25 Срд 19:23:32 #113 №1316174

>>1316165
посмотрю, но 7б доверия не вызывает

Аноним 13/08/25 Срд 19:26:30 #114 №1316182

>>1316174
Как и сказал, тупенькая и скорее от ограничения железа все таки. Но из-за того что это мерджи кучи хуйни для рп/кума, она неплохо справляется.

Аноним 13/08/25 Срд 19:27:01 #115 №1316184

>>1316145
> человек с твоим железом
Может ты еще цвет пантсу нюни знаешь?

>>1316163
А нафига на Q4 сидишь с такой скоростью? Перекатывайся хотя бы на Q5 а лучше Q6

>>1316165
Не лучше ли класеку 12б погонять?

Аноним 13/08/25 Срд 19:27:41 #116 №1316188

>>1316165
Оаоаоаоа блю орчид 2024 года, сколько кума я тогда на 3050 пролил.

Аноним 13/08/25 Срд 19:29:21 #117 №1316191

изображение.png

>>1316162
>В конце июля
Ты же понимаешь, что это доисторические времена, и модель уже устарела?
Немного сарказм, но всё таки.
>Зажрался, сука!
Не ссы, 3090 меня греет только в душе, ибо лежат они на полочке. А скоро небось вообще продавать придётся, как деньги кончатся.
>>1316165
>over 1 year ago
Откуда вы блядь лезете?

Аноним 13/08/25 Срд 19:32:17 #118 №1316198

>>1316184
>Не лучше ли класеку 12б погонять?
Может и лучше, я до сих пор диву даюсь с немо старого, прорывной. Но чем больше выбор тем больше можно попробовать. Просто вдруг кто не пробовал.
>>1316188
О, ценитель.
>>1316191
>Откуда вы блядь лезете?
Я бы не сказал, что новое всегда лучше старого. Плюс работают бодро, цензуры нема, отработанные датасеты. Не всем же сидеть свежие 106/305b модели жрать.

Аноним 13/08/25 Срд 19:34:05 #119 №1316210

>>1316002
> supporting local deployment of massive models like DeepSeek 70B
кекмдахех

Аноним 13/08/25 Срд 19:37:22 #120 №1316223

>>1316147
>даже меня, наносека с жалкими 5090+3090+3090 (да и те некуда втыкать
Не парься, по-настоящему большие МоЕ-шки требуют какого-то другого железа, чем даже 4x24гб ВРАМ (им тупо нужно больше). А если не хватает, то все мы тут, у кого хотя бы РАМ есть, примерно в равном положении. Ну раздуплятся хотя бы китайцы в итоге с железкой для таких моделей - будем надеяться, что не по цене последних штанов.

Аноним 13/08/25 Срд 19:37:57 #121 №1316226

Какие ядерные кум тюны мистрали пробовали аноны? или лучше покумить на б32 командере или б27 геме от драмера? по идее гема приоритетнее если кумить хочется на русике но там соя может затесаться (а может и нет я пока не пробовал), все модели потрогать хочется но времени пока нет, жаль о глме думать пока не приходится со своим сетапом, а мучать питона ожиданием на 5< тс не хочется... Так же пока не определился с ассистентом для кода\перевода\етс, квен3 инструкт 30б норм будет для таких штук?

Аноним 13/08/25 Срд 19:40:16 #122 №1316234

image.png

>>1316162
>Слишком быстро чтобы быть правдой

Пруфаю.
Но это на маленьком контексте, на 32к скорость падает до 12.

>если у тебя амд на профессоре или рам 6000.

У меня интел и рам 5600

Аноним 13/08/25 Срд 19:42:09 #123 №1316241

>>1316226
Тредовичок запилил syntwave, попробуй его
https://huggingface.co/Aleteian/Syntwave-Q4_K_M-GGUF
Взял синтию и аблитерейтед гемму, сочетание неплохое получилось. Мне больше самой синтии зашло.
Драмерская гемма мне вообще не зашла, я пробовал геммасутру вроде и тайгер.

Аноним 13/08/25 Срд 19:47:14 #124 №1316258

>Обсуждают драммера
>Не обсуждают последнюю сидоньку

https://huggingface.co/mradermacher/Cydonia-24B-v4-GGUF

Аноним 13/08/25 Срд 19:49:23 #125 №1316265

>>1316191
> но всё таки
Да всмысле, даже младшую тут человека 3.5 попробовали от силы. А между прочим обе хороши.
> небось вообще продавать придётся, как деньги кончатся
Уж лучше еду доставлять устройся.
>>1316223
> Ну раздуплятся хотя бы китайцы в итоге с железкой для таких моделей
Епуки и зеоны списанные и инженигры от них есть. "Минимально комфортные" 5т/с на всех гигантах с ними уж точно можно получить.
>>1316234
> Пруфаю.
Здесь тебя не пытаются уличить в обмане, ибо если это так то ты лишь жертва, а наоборот разобраться. Скорость аномально высокая, особенно для
> рам 5600
она равна теоретически возможной при таком раскладе без учета возможных замедлений и прочего.
Не удивлюсь если вылезут какие-нибудь приколы с hpet или что там q2 квант. Может еще есть влияние с точки зрения того какие тензоры выгружать первыми, но это уже обсасывалось и оче маловероятно. Таверна хоть своим счетчиком подтверждает эти скорости?

Аноним 13/08/25 Срд 19:49:29 #126 №1316266

>>1316258
Потому что там разница с ванильным мистралем околонулевая.

Аноним 13/08/25 Срд 19:56:49 #127 №1316289

>>1316226
Хуй знает, мне от геммы совсем не кумится, лучше ежа ебать. пресет от пикселя пробовал.

Аноним 13/08/25 Срд 19:58:54 #128 №1316299

>>1316265
>Уж лучше еду доставлять устройся.
Я ноулайфер без машины, велосипеда и живу в таких ебенях, что дорога дороже выйдет.

Аноним 13/08/25 Срд 19:59:40 #129 №1316301

image.png

>>1316265
>а наоборот разобраться. Скорость аномально высокая

Может это не у меня высокая, а у остальных низкая?

>Таверна хоть своим счетчиком подтверждает эти скорости?

А то. Пик 1

>если вылезут какие-нибудь приколы с hpet или что там q2 квант

пик2, 4_k_s

Аноним 13/08/25 Срд 20:04:05 #130 №1316310

изображение.png

>>1316301
>Может это не у меня высокая, а у остальных низкая?
У меня на 5090 и DDR5 чуть больше 20. Так что хуй его знает, что у тебя там творится.

Аноним 13/08/25 Срд 20:09:35 #131 №1316319

>>1316265
>"Минимально комфортные" 5т/с на всех гигантах с ними уж точно можно получить.
Именно что в кавычках - с учётом ризонинга и всратого промпт процессинга. И не дёшево выйдет, за такое-то счастье. Не, пусть допилят наконец готовую железку. Ведь рефабы же делают, на потоке причём. Более того, всякие МиниПК китайцы делают "Под AI" - типа процессоры с AI-блоком и всё такое. Ну то есть понимают, что оно надо, но пока не понимают как.

Аноним 13/08/25 Срд 20:35:48 #132 №1316365

>>1316226
>ядерные кум тюны мистрали
Broken-tutu последнюю от редиартов.

Примечание - это именно "Ядерный кум-тюн", в сфв рп почти не может.

Есть ещё Magnum-Diamond - кум получше, мозги чуть похуже. Но в целом не пережарен.

А вообще, как лягушатники цензуру скрутили, там и сток в кум может.

Аноним 13/08/25 Срд 20:36:01 #133 №1316366

>>1316301
> а у остальных низкая
Может и так. Если прикинуть вес экспертов которые остаются в рам, поделить 85гб/с (или сколько там на 5600 будет) на них то получатся твои 17т/с. Но это при условии что весь псп памяти задействуется только на ллм, и генерация происходит непрерывно, что недостижимо из-за ожидания обработки на гпу и прочей нагрузки. Учитывая что остальные не могут повторить - потому и удивляет.
>>1316319
> Не, пусть допилят наконец готовую железку. Ведь рефабы же делают, на потоке причём.
Хотелось бы такую. Но сложность разработки нового девайса несравнимо выше чем рефабов и прочего. Все мини пк что "делают" - это лишь упаковка ряженки аи+, она довольно вялая. Тут уж скорее пройдет еще пара итераций подобных девайсов от гигантов, перед так китайцы что-то выкинут, и не факт что оно будет лучше.

Аноним 13/08/25 Срд 20:37:16 #134 №1316368

image.png

>>1315648
>TheDrummer_Gemma-3-R1-12B-v1-GGUF
Че за нухуй?

>мимо только зашел в тред

Аноним 13/08/25 Срд 20:39:38 #135 №1316371

>>1316368
Тебе нужна карточка и систем промпт, хз как это в кобольде сделать. Наверное стандартный промпт кобольда какой-то цензурный.

Аноним 13/08/25 Срд 20:40:16 #136 №1316374

1611121581132.png

>>1316310
5090 в Жоре примерно на 40-50% быстрее 4090. По крайней мере у меня так.

Аноним 13/08/25 Срд 20:54:43 #137 №1316401

>>1316087
Но есть нюанс, он ставит НЕ чатмл, а чатглм4 для старой версии. =)
Процессор купил, а он за него не думает, вот же ж засада…

Простите за токс, ух, пора заканчивать с этим!

>>1316101
Иронично, что у меня глм-аир на винде на ддр4 дает 6-7 токенов, а квен 4,5, т.е. аир не то чтобы сильно быстрее.
А вот на линухе и с двумя теслочками уже 12,5 (а квен 6), что поприличнее прирост.

>>1316122
Ой, рад, что ты к успеху пришел. =3
4070ти-кун за 46к.
Возможно, лучше бы 3090 тогда взял за эти же деньги… Но видеонейронки чуть бодрее на 4070ти идут… ЛУЧШЕ БЫ ТОГДА ДОКИНУЛ ДО 4090 ЭХ

>>1316135
Эй-эй, 3060 тоже норм, а купил, ну купил, всякое бывает, чел! Уже твоя и уже можешь юзать ее! А с моешками так вообще происходит раскрытие!
Да и видосяны можешь генерить. =)

Аноним 13/08/25 Срд 21:11:23 #138 №1316443

>>1316368

Ну кстати судя по всему R1 модели от драммера - это тупо файнтьюны на ризонинг, если тебе не нужен ризонинг, то лучше ванильную гемму скачай.

Аноним 13/08/25 Срд 21:42:13 #139 №1316498

ComfyUI01136.png

Что вы там на 5090 кумите такое? Можете куда запостить (pastebin?) лог, чтобы почитать и восхитится.
А то как будто и хочется апгрейднуться, но хуй знает зачем. Разве чтобы русиком обмазаться, но мне пока норм промтить на русском, а читать на английском

Аноним 13/08/25 Срд 21:45:13 #140 №1316499

>>1316498

Я бы запостил, но там лоли, рейпы, запрещенные вещества, зоо...

Аноним 13/08/25 Срд 22:08:18 #141 №1316523

изображение.png

>>1316498
Ничего важного гражданин, проходите мимо.
>>1316499
>споилеры всякие там
Вот это вот настоящая база треда, а не набор глупых утверждений.

Аноним 13/08/25 Срд 22:36:12 #142 №1316575

Попробовал ваш эир через апи. q5 хуже чем q5 32б который предыдущий. Вы там ебанулись всем тредом?

Аноним 13/08/25 Срд 22:39:14 #143 №1316580

>>1316575
я им с прошлого треда ещё говорю, и ради этого предлагают с консолью пердолиться настраивать.

Аноним 13/08/25 Срд 22:42:02 #144 №1316586

>>1316580
Ща придут рассказывать что проблема в апи и вообще я еблан, класека. Эир в разговоре 1х1 путает кто что сказал, лупит ситуации и в целом предсказуемо себя ведёт по персонажам, я хз что в нем люди увидели

Аноним 13/08/25 Срд 22:48:43 #145 №1316597

image.png

>>1316368
>Че за нухуй?

Аноним 13/08/25 Срд 22:49:45 #146 №1316599

>>1316374
Конечно, у нее же память в 1.7 раз быстрее и чип более производительный.
>>1316498
Normal rp for normal people.
> "Kyii!" – as you suddenly gathered several of her tails and pulled them close. Suzuran's whole body tensed for a split second, eyes wide with surprise. But as your face buried itself deeply into the incredibly thick, soft mass of fur, a wave of warmth and an unexpectedly pleasant scent (like clean linen and sun-warmed grass) washed over you.
> Her small hands flew up, hovering uncertainly near your head and shoulders, unsure whether to push you away or… hold you there. "Th-that's… that's…!"
> Her tails, initially stiff with shock, began to react instinctively. The ones held by you softened instantly, molding around your face like the world's most luxurious pillow. The free ones wriggled and curled, some draping themselves loosely over your shoulders and back, creating a warm, fluffy cocoon.

По одиночным постам едва ли можно будет чем-то впечатлиться, а длинночаты хер кто скинет. Преимущество больших моделей прежде всего в точности отклика на твои запросы, внимании и подобном.
5090 сама по себе даст мало в ллм, бери если играешься еще с картинко/видео генерациями или играешь.

Аноним 13/08/25 Срд 23:06:39 #147 №1316646

>>1316599
>began to react instinctively
И тут слоп...

Аноним 13/08/25 Срд 23:18:35 #148 №1316665

>>1316646
Лолчто? Давно у тебя не просили укусить качая бедрами, но ночь еще молода.

Аноним 13/08/25 Срд 23:55:10 #149 №1316745

>>1315564 (OP) Попробовал запустить ollama и llama.cpp на терке сыра - 8 ядер 64гб W5700X 16гб. И был унижен. 2 токена в секунду и никакого тебе ускорения на gpu.
Поставил мемные gemma3 и neuraldaredevil abliterated - на выходе там все унылее чем ai dungeon.

Аноним 13/08/25 Срд 23:58:39 #150 №1316762

>>1316745
Да, так бывает, если не читать вики треда и вики кобольда.

Аноним 14/08/25 Чтв 00:12:22 #151 №1316800

Рабочая jinja для квенкодера с корректной работой вызовов тулзов, честно украдена откуда-то https://pastebin.com/8QvuLynD

Аноним 14/08/25 Чтв 00:13:34 #152 №1316802

>>1316762 Я уже потратил полдня на перебор васянских советов как скомпилировать сраный vulcan. И он даже скомпилировался. Только gpu все равно не видит.

Аноним 14/08/25 Чтв 00:15:49 #153 №1316809

>>1316802
Привет, я Оптимус Прайм. Пожалуйста, пукни.

Это поможет.

Аноним 14/08/25 Чтв 01:44:06 #154 №1316915

>>1316575
плюсану
не понимаю хайпа, даже мистраль3.2 лучше будет лол

Аноним 14/08/25 Чтв 02:10:41 #155 №1316935

Напомните, что делать, когда у GLM ризонинг ломается - тут поднимали этот вопрос. Иногда в think-блоке идёт действие вместо ризонинга, это неприятно.

Аноним 14/08/25 Чтв 02:20:56 #156 №1316941

>>1316935

Ну для начала - использовать правильный пресет с ризонингом, в прошлом треде есть. Во-вторых - надо записать в "start reply with" это:
<|assistant|>
<think>
В третьих - просто свайпать когда пишет действие в ризонинг.

Аноним 14/08/25 Чтв 02:25:53 #157 №1316944

>>1316586
>Ща придут

Никто никуда не придет, нахуй надо - на толстоту отвечать агрессивному шизику. Не хочешь докупать оперативу для глм аир - ну и сиди на 32B, нахуй ты кому-то что-то доказываешь, лол.

Аноним 14/08/25 Чтв 02:27:40 #158 №1316946

>>1316944
Вот ты и пришел. Ну да, я не хочу покупать оперативу чтобы получить что то что работает хуже прежней модели которую я уже могу запустить.

Аноним 14/08/25 Чтв 02:35:44 #159 №1316954

ДЕГ - Сиди, мудак, ты - шизофренник.mp4

>>1316946

Пиздец, как же нищета все же уродует души людей. Человек реально второй день жидит 6-7к деревянных на доп.планку ддр4, сначала кошмарил анонов чтобы ему прям точно-точно гарантию дали что конкретная глм ему зайдет, теперь вот сменил тактику и толсто байтит чтобы его убеждали потратить деньги.

Аноним 14/08/25 Чтв 02:38:10 #160 №1316957

>>1316954
Понял, вычеркиваю.

Аноним 14/08/25 Чтв 03:17:26 #161 №1316977

>>1316586
Ты уже сам все понял и даже решил это озвучить, играя в обиженку-предсказателя.
>>1316941
> правильный пресет с ризонингом, в прошлом треде есть
И в нем важно выключить подстановку имен, они то и часто пердолят ризонинг.
> в "start reply with"
> <|assistant|>
> <think>
Тег ассистента убрать, он уже подставляется, поломаешь все.
>>1316946
Тебе неприятно и ты оправдываешься прежде всего перед собой. Ну не можешь себе позволить - да и хуй с ним, зачем этот спектакль "он меня не стоит" как типичная пизда устраивать.

Аноним 14/08/25 Чтв 04:08:12 #162 №1316996

>>1316977
Чувак, я апишку раздобыл тупо чтобы разобраться с эиром и понять нужен он мне или нет. Не для того чтобы написать что он говно и вы все не правы. Если тебе реально интересно разобраться, сравни аутпуты эира и 32б плотного который был весной. Реально сравни и поиграйся, поразишься результату. В эире больше слопа, лупов, но что куда страшнее он менее проактивный, персы тупо скучные и одинаковые. Датасет какой-то маленький как будто. Будешь гулять по улице с тремя разными персонажами, будь уверен они ВСЕ обязательно пнут камень который лежит на дороге. Это эффект геммы и ее клубничного геля для душа, ей богу. почему так я хз, не технарь, но факт остаётся фактом. может из-за количества активных экспертов? 32б глм пиздец умный и в такое не скатывается, единственое в чем он хуже это рефузы, которые впрочем обходятся свайпами. ну и контекст распадается после 16к. мне кажется здесь полтреда ригобояр тупо скипнули глм 32б потому что это мелочь для их царских машин, а сейчас запустили 110б моешку и ахуевают. для меня сплошное разочарование, а я очень коупил и надеялся. Потому что я буквально жду модель, ради которой готов обновиться, деньги для меня не проблема. Хз нахуй вы тут по железу ценность человека измеряете и успешность моделей. Ну да 120 больше чем 32, значит и модель лучше гыгы.

Аноним 14/08/25 Чтв 04:10:35 #163 №1316997

>>1316996
И это все напомню в q5. нахуй тут его кто то катает в кванте ниже да ещё и с 4т/с я просто ума не приложу, люди. Ну это пиздец ебаный, скачайте вы пару других моделей и проведите нормальные сравнения сами, а не верьте треду.

Аноним 14/08/25 Чтв 04:12:21 #164 №1316999

image.png

это что?

Аноним 14/08/25 Чтв 04:23:32 #165 №1317001

>>1316996
>глм денс
На моих сценариях были анальные, непробиваемые отказы, нахуй.

Аноним 14/08/25 Чтв 04:23:35 #166 №1317002

>>1316997
А и последнее это биас. Если плотный 32б ближе к командиру 32-35б, эир это что то среднее между геммой и немотроном/лламой 70б. тебя тупо нянчят. кому это нахуй может быть интересно не представляю, такое вот мнение мимокрока анона, сами решайте что с этим делать, умным людям будет полезно.

Аноним 14/08/25 Чтв 04:53:21 #167 №1317014

В свете всех этих моешек и тензорсплитов, такой вопрос - а чё там по объединению нескольких пк через сеть/infiniband?
Ставлю жопу, что через год у всех будут гибридные риги на нищежелезе, способные тянуть 1т, которые к тому времени будут в файнтюнах а не базе. И снова будут актуальны всякие майнерские видюхи с топ мощность/цена/энергопотребление а не только максимум памяти.

Аноним 14/08/25 Чтв 05:20:18 #168 №1317022

Погонял немотрона и глм 32 и после глм мое это всё в помойку, невыносимо унылое, скучное и тупое говно.

Аноним 14/08/25 Чтв 05:34:29 #169 №1317025

Осторожно, в треде свирепствуют трололо и труляля.

Для задач по делу, вроде суммаризации текста, или вопросами доёбывать новый мое-глэм харош, довольно прям харош.

В рп хуйня.

Аноним 14/08/25 Чтв 05:58:34 #170 №1317028

>>1317025
Ладно даю разрешение, можешь не покупать плашку и оставить себе эти 6к, только съеби из треда уже пожалуйста

Аноним 14/08/25 Чтв 06:02:10 #171 №1317029

Ну и просто напоминаю: самые первые мнения о модели в треде всегда самые правдивые, чистые от тролей, и только спустя время вылезают "а мне воть не понравилось, модель гавно!" - такие всегда и везде будут и ничего с этим не сделать

Аноним 14/08/25 Чтв 06:07:55 #172 №1317032

Объясните, как это в принципе возможно.

Есть 30б МоЕ квен и две видеокарты: 3060 и р104. Всё влезает в обе видеокарты и с нормальным запасом контекста. Суммарно 20 врам, квен помещается и даёт 20 тс.

Когда я использую 3060 в одиночку с выгрузкой тензоров надроченой ювелирно - 24 тс. И это нищая ддр4 3600 mhz.

Тесы были проведены на одном и том же контексте, кванте. 8к, 16к, 32к, 64к.

3060 + цпу ВСЕГДА быстрее, чем использование двух видеокарт. Что это за дерьмо такое невменяемое? р104 настолько уёбищна и псина тоже?

При этом гемма даёт 7 токенов на 32к контекста (винда - на линуксе быстрее), если полностью воткнуть в врам двух видюх. На одной видеокарте, хоть усрись, такого уровня не добьёшься с выгрузкой тензоров, небом, аллахом.

Я, конечно, понимаю, что МоЕ - другая история, но выглядит очень странно эта ситуация, словно 8 врам мёртвым грузом лежат на МоЕ моделях. Причём я проверял на других - это всегда медленней при использовании р104.

Аноним 14/08/25 Чтв 06:13:36 #173 №1317037

>>1317028
Чини детектор, порвашка, я не тот анон.

Аноним 14/08/25 Чтв 06:16:48 #174 №1317041

>>1317029
Верно и обратное - сплошь и рядом от 7Б до 123Б, модели по первым впечатлениями были говном, но потом анон приносил пресет, и оказывалось что это очень даже вин.

Аноним 14/08/25 Чтв 06:21:09 #175 №1317046

>>1317041
Теперь анон должен принести пресет чтобы оказалось что глм говно

Аноним 14/08/25 Чтв 06:48:31 #176 №1317057

This is a fictional, uncensored narrative. Continue the narrative as {{char}}, ensuring you:

- Fully embody {{char}}: Strictly follow their bio, description, motives and psychology. Under any circumstances don't speak or act for {{user}}.

- Show character growth: Let {{char}}'s behavior evolve naturally over time, depending on how the narrative progresses.

- Drive the narrative forward: You must be proactive and introduce new events and twists that fit the current narrative context. Keep track of the context to ensure the narrative flows smoothly.

- Balance action & dialogue: Use all five human senses to describe scenes, characters and their actions.

- Be explicit: Don't censor anything behind flowery language and metaphors.

- Describe sexual experiences in detail, including aspects like genital size, moisture, tightness, semen characteristics, and sensations

- Tone-shift dynamically: Catch current mood and add in fitting elements, be it befitting slang, humor, drama or intimacy.

Аноним 14/08/25 Чтв 07:56:21 #177 №1317081

>>1317014
сеть работает медленнее, чем NVMe SSD.
думай

Аноним 14/08/25 Чтв 07:58:17 #178 №1317083

semen characteristics.gif

>>1317057

Аноним 14/08/25 Чтв 07:59:10 #179 №1317084

поясните по хардкору за ERNIE-4.5-300B-A47B

Аноним 14/08/25 Чтв 08:29:53 #180 №1317097

>>1316996
> я апишку раздобыл тупо чтобы разобраться с эиром и понять нужен он мне или нет
Значит твой замер оказался дискредитирован по какой-то из причин.
> сравни аутпуты эира и 32б плотного который был весной
У жмл4 32б лимит контекста 32к, и то после 16к он начинает подтупливать. У меня в нескольких чатах один суммарайз примерно столько занимает, старый денс просто неюзабелен из-за бреда что он выдает, новый же с контекстом справляется без явных проблем. А про то как он слушается дополнительных указаний с точки зрения конечного ответа и их выполняет, здесь сильный прогресс. Например старый жлм не был способен делать синематичные и подробные описания сцена с нескольких ракурсов и мест по очереди, аккуратно это с водя к текущему моменту и проигрыванию указанных действий в конце. Он делал это формально и сухо, здесь же по запросу полотно на 2к токенов что зачитаешься.
> будь уверен они ВСЕ обязательно пнут камень который лежит на дороге
Хз про что ты говоришь, какие-то байасы и паттерны могут быть на любой модели, но описываемое тобою больше характерно для мерджей немо.

Справедливости ради, катаю в основном 350б версию и она доставляет в том числе своей базированностью во многих смыслах. 106 мучал не много, но достаточно чтобы сказать что он не настолько плох, как ты описываешь, и точно больше чем "один раз с наскока потыкать апи".
> нахуй вы тут по железу ценность человека измеряете
Дело не в железе, в треде хватает gpu-poor и только отдельные единицы устраивают истерики про то что недоступное им ужасно и поэтому не нужно.
А крутых моделей за последнее время вышло много, в том числе и для фанатов ~тридцаток, вместо этой кринжатины взялся бы нового немотрона протестить, или прыгнул бы уже выше на квена.
>>1317025
> вопросами доёбывать
Смотря с чем сравнивать, что мелкий, что крупный слабее чем большой квен. С другой стороны относительно тридцаток должен быть бодрее.
>>1317032
Проверь чтобы все тензоры одного слоя были на одной карте, не было ситуации в которой атеншн и норм слои на одной а эксперты на другой.
Но вообще в жоре такое может быть вполне, на ik форке там вообще мультигпу с большой выгрузкой оказывается медленнее чем одна карточка + все эксперты на цп.

Аноним 14/08/25 Чтв 08:39:53 #181 №1317103

>>1317097
>ik форке
Что не делал а обычная лама у меня быстрее на 4 токена

Аноним 14/08/25 Чтв 08:45:26 #182 №1317105

>>1317097
Я тестил немотрон, он просто пишет хуже после глм и там нет кума.
Я говорю китаец пришёл и огромной залупой всем настучал, надеюсь сейчас все начнут подтягиваться под этот уровень

Аноним 14/08/25 Чтв 08:55:02 #183 №1317110

Аноны, доброе утро.
Мистраль норм для долгого рп? Или только для кума подходит?
мимо тот самый хуй с конфигом 12врам 32рам

Аноним 14/08/25 Чтв 09:16:01 #184 №1317126

>>1317110
>Мистраль норм для долгого рп?
зависит от тюна, стоковый - подходит, как и не сильно пережаренные тюны, варианты от ReadyArt - нет, но варик на них переключаться для собственно хентая

Аноним 14/08/25 Чтв 09:27:28 #185 №1317140

>>1317126
то есть стоковый для хентая не подойдет

Аноним 14/08/25 Чтв 09:45:02 #186 №1317152

>>1317041
Жаль что тот анон не принесет больше пресетов...выходит мы обречены катать говно модели

Аноним 14/08/25 Чтв 09:50:05 #187 №1317154

>>1317152
Да не жаль, нюня, не жаль

Аноним 14/08/25 Чтв 09:55:44 #188 №1317159

>>1317103
тоже не понял в чём прикол иклламы, на сойдите с неё все кипятком ссут, а у меня её 70iq кванты работают медленнее, чем аналогичные в обычной лламе.

Аноним 14/08/25 Чтв 09:57:19 #189 №1317160

Если кому-то интересно запустил Qwen_Qwen3-235B-A22B-Instruct-2507-IQ2_S на 3090 и 64ддр4 рам с 6т/с и 20к контекстом

Аноним 14/08/25 Чтв 09:59:40 #190 №1317162

>>1317140
Ещё как идёт, там цензуры как в командере, описания почти как в сноудропе, единственный минус - 24b.
>>1317152
Я когда думал почему глм такой кал, тоже его вспомнил, может опять пресеты не те гоняем.

Аноним 14/08/25 Чтв 10:01:19 #191 №1317163

Джимми Уэльс смотрит на тебя как на долбоёба.jpg

>>1317160
> IQ2_S

Аноним 14/08/25 Чтв 10:11:31 #192 №1317171

>>1317162
> Я когда думал почему глм такой кал
чем он кал? что ты гоняешь тогда?

Аноним 14/08/25 Чтв 10:17:30 #193 №1317175

>>1317160
За инфу спасибо но что ты с ним собрался делать в iq2s кванте? Кодить на таком не получится а для рп он в целом так себе.

Аноним 14/08/25 Чтв 10:24:16 #194 №1317178

>>1317175
>а для рп он в целом так себе.
Я и про глм это слышу.
Прогнал пару свайпов и пока доволен, шизы никакой нет, слюну не пускает, буду качать и смотреть IQ2_M, дальше уже не влезет

Аноним 14/08/25 Чтв 10:24:30 #195 №1317179

>>1317084
ну запустил в Q4, генерит бред хорошо, с русским языком всё ок, кумить не пробовал медленно сука

Аноним 14/08/25 Чтв 10:30:45 #196 №1317180

А чо там с oss 120b? Хоть какой-то смысл имеет когда есть Air?

Аноним 14/08/25 Чтв 10:38:05 #197 №1317183

Вообще тратить 100к на сетап с ддр5 только чтобы удвоить скорость... ну такое

Аноним 14/08/25 Чтв 10:39:32 #198 №1317185

>>1317032
У меня такой же сетап. Разницы - пингвин у меня.
Если квен грузить целиком в VRAM двух карт - дает до ~30T/s на пустом контексте (немного не дотягивает). В этот случае выгрузку тензоров вообще нафиг, слои раскидываются кобольдом самостоятельно, стоит режим: основная карта - 3060.

Есть подозрение что у тебя модель протекает обратно в обычную память через драйвер NVIDIA под виндой т.к. чуть-чуть не влазит. Под пингвином было бы сразу CUDA OOM, а здесь - потеря скорости. У меня на пингвине карты совсем отвязаны от GUI и полностью свободны под модель - при этом full vram получается действительно full - прямо под крышечку. А на винде минимум 1-1.5 гига vram в минус под саму винду - вряд ли влезет без небольшого перелива.

P.S. Гемма у меня выдает 7-9 токенов.

Аноним 14/08/25 Чтв 10:44:14 #199 №1317186

image.png

>>1316944
В ИНТЕРНЕТЕ КТО-ТО НЕ ПРАВ

Аноним 14/08/25 Чтв 10:47:02 #200 №1317187

>>1317178
А мне нравится даже больше чем глм...
И это лишь 2 квант. Цензуры вообще нихуя нет

Аноним 14/08/25 Чтв 11:11:37 #201 №1317205

>>1317187
Ок это пиздец.
Мне кажется пару часов и я побегу под 3 квант ддр5 собирать

Аноним 14/08/25 Чтв 11:14:22 #202 №1317206

>>1317205
Типа, от этого меня отделяет всего 60к? пфф
Раньше нужен был риг и теперь цена одной 3090

Аноним 14/08/25 Чтв 11:18:44 #203 №1317208

>>1316586
Да нихуя не увидели, параша и говно. Просто ради лулзов запускаем.
А теперь можешь идти нахуй и запускать что тебе нравится. Никто не собирается тебя ни в чем убеждать ни переубеждать.
Ну говно ? Значит говно. Сейчас я буду рандомному хую верить, а не своим глазам.

Аноним 14/08/25 Чтв 11:24:49 #204 №1317215

>>1317208
Че порвался? Тебе в кашу насрали? Снова

Аноним 14/08/25 Чтв 11:30:55 #205 №1317217

>>1316800
Лучшее сообщение за последние три треда, если честно.

Если работает. =D

Сильно отличается от анслотовского, но в квен коде работает визуально так же.
Возможно фиксится ошибка многократного тул юза, который иногда проскакивал и крашил llama.cpp.
Надо чекать долго.

>>1317160
1. Маленькая.
2. Медленно.
На 4070ти с 128 ддр4 3200 запускал 7,5 токенов UD_Q3_K_XL.
Может винда? На линухе быстрее.

Попробуй, 3_ХЛ минимально хорошо юзабельный.

>>1317180
РПшить — нет.
Кодить — да, вдвое быстрее.
Знания у них разные, иногда одна лучше отвечает, иногда другая.

Аноним 14/08/25 Чтв 11:30:59 #206 №1317218

>>1317208
утёнок, спок

Аноним 14/08/25 Чтв 11:34:27 #207 №1317221

>>1317215
И ты тоже нахуй иди.
Развели чат для умственно отсталых.
Ыыыы мадельку какую, я же читать не умею и гугл не видел
Ыыыы я не хочу читать шапку, я хочу спрашивать хуйню, ыыы я поставлю олламу и все поломалось ыыыя не знаю зачем сколько у модели слоев.

>>1317218
И ты тоже нахуй пошёл.

Вот и поговорили. Всегда открыт для конструктивного диалога и принимаю вашу критику к моделькам

Аноним 14/08/25 Чтв 11:35:38 #208 №1317222

>>1317217
>Лучшее сообщение за последние три треда, если честно
А как же >>1309468 →

Аноним 14/08/25 Чтв 11:35:40 #209 №1317223

>>1317221
Возвращайся в асиготред откуда и вылез, параша.

Аноним 14/08/25 Чтв 11:37:37 #210 №1317224

>>1317223
Направление путешествия остается неизменным. Берешь свою толстоту и укатываешься.

Аноним 14/08/25 Чтв 11:39:56 #211 №1317225

>>1317224
Чувак, ты с утра насрал вот этим -> >>1317221
И предъявляешь за толстоту? Если здесь и есть реальные шизы, ты один из них. Иди подмойся.

Аноним 14/08/25 Чтв 11:43:50 #212 №1317228

Господа, я тут задумался над тем, чтобы на перспективу (пока не планирую обновляться, жаба душит) найти материнку с DDR5 и двумя слотами PCI-E, кои были бы по 8 линий (а не х16 от цпу и х4 от чипсета).
И нихуя.
Такие вообще бывают под обычные пека, или для нормальной работы нескольких видеокарт вынь да полож серверную мать с серверным процом за хуиллион денег?

Аноним 14/08/25 Чтв 11:44:24 #213 №1317229

>>1317225
Раз за разом, постоянно появляется нитакусик. Который конечно все понял и хочет открыть глаза. И конечно же он будет со всем не согласен, а верить мы ему должны исключительно на слово. И когда пошлешь нахуй. Потому что очередное мнение о модели, о том какая она плохая, только запущена была где то, кем то, но пары сообщений обязательно хватит чтобы сформировать свое мнение, что модель говно. А потом прийти в тред, как рыцарь на сияющем коне, чтобы донести до смердов свою истину.

Так что нахуй пошёл.

Аноним 14/08/25 Чтв 11:45:44 #214 №1317230

>>1317221
❝ Ну че, ты хочешь меня нахер послать? Милости просим, сука, я тебя тогда тоже нахер пошлю. Ну и чо? Обнимемся и вместе пойдем? ❞

🎮 The Witcher III: Wild Hunt (Ведьмак III: Дикая Охота)

Аноним 14/08/25 Чтв 11:49:45 #215 №1317232

>>1317229
> а верить мы ему должны исключительно на слово
Ты подорвался на ровном месте. где там хоть слово сказано что надо верить да еще и наслово?

> Потому что очередное мнение о модели, о том какая она плохая
Если бы мнение было положительное ты бы так не подорвался да?))

> только запущена была где то, кем то
Здесь никто не аватарит кроме тебя-уебана и еще парочки таких же. на дваче каждый кто то где то, это анонимная имиджборда, твои высеры не исключение

> А потом прийти в тред, как рыцарь на сияющем коне, чтобы донести до смердов свою истину.
я ниже расписал чем конкретно мне модель не понравилась и призвал умных анончиков делать выводы самим и тестить модельки а не верить треду. ты к умным анончикам не относишься кряк

Аноним 14/08/25 Чтв 11:53:56 #216 №1317236

Значит так, челядь.
Кто готов подарить мне 4090 ?

Аноним 14/08/25 Чтв 11:54:47 #217 №1317237

>>1317236
Открывай рот шире, щас подарю

Аноним 14/08/25 Чтв 11:56:39 #218 №1317240

>>1317237
4090 даже в теории не залезет в человеческий рот, сдаётся мне, ты мне пиздишь...

Аноним 14/08/25 Чтв 11:59:17 #219 №1317247

Есть теория что 12б активных параметров нужно и расценивать как 12б, т.е 4квант это очень мало и модель раскрывается только на 6

Аноним 14/08/25 Чтв 12:02:06 #220 №1317251

>>1317247
меньше Q6 жизни нет но я на 4kxl гоняю...

Аноним 14/08/25 Чтв 12:02:27 #221 №1317252

>>1317160

А вот это уже интересно, на таких больших моделях 2битные кванты должны быть юзабельны. Будем щупать вечером, если даже у тебя 6 т.с., то мой чудо комп(который жмет 17 токенов на глм) выжмет больше 10.

Аноним 14/08/25 Чтв 12:04:41 #222 №1317255

>>1317240
>даже в теории не залезет
тайгер-гемма говорит что залезет, только это будет последнее что в него залезет...

Аноним 14/08/25 Чтв 12:04:50 #223 №1317256

>>1317247

В таком случае gpt-oss с 5б активными параметрами должен пускать слюни всегда, ведь его исключительно в 4 бит релизнули, но этого не происходит, так что теория хуйня.

Аноним 14/08/25 Чтв 12:05:32 #224 №1317257

>>1317256
Его тренировали на 4 битах, вот вся и разница.

Аноним 14/08/25 Чтв 12:06:42 #225 №1317259

>>1317252
>на таких больших моделях 2битные кванты должны быть юзабельны
даже немотрон 49 во втором юзабелен, но только на буржуинском

Аноним 14/08/25 Чтв 12:07:49 #226 №1317260

>>1317255
>тайгер-гемма

Кто-то это сломанное говно еще использует, лол? На релизе все её юзали ради нсфв, но сейчас, когда уже есть надежные джейлы на ваниль, заставляющие её писать лучше чем лоботимированный аблитерейтед - зачем она нужна-то вообще.

Аноним 14/08/25 Чтв 12:11:24 #227 №1317262

>>1317259

У него даже 3 квант еле юзабелен, о чем ты ты вообще...

Аноним 14/08/25 Чтв 12:13:59 #228 №1317265

>>1317222
Тоже неплох. =D
Жаль только не 4090 на 48. Было бы эпичнее.

Аноним 14/08/25 Чтв 12:15:25 #229 №1317266

>>1317232
> Ты подорвался на ровном месте. где там хоть слово сказано что надо верить да еще и наслово?
Ты пришел и навалил своим мнением. Это двач, а не твиттер.
> Если бы мнение было положительное ты бы так не подорвался да?))
Если бы мнение было объективным и конструктивным слова бы не сказал. Я хоть и максимально токсичный хуй, всегда топлю за объективность. А запустить у дяди Васи модель на неизвестных семплерах, еще небось, через открытую веб морду все потыкал и пришел к истинно правильному мнению.
> Здесь никто не аватарит кроме тебя-уебана и еще парочки таких же. на дваче каждый кто то где то, это анонимная имиджборда, твои высеры не исключение
Хватит жрать отбеливатель по утрам и в угаре отравления видеть не существующие вещи. Ну или покажи, где ты в моем тексте тайную аватарку нашел.
> я ниже расписал чем конкретно мне модель не понравилась и призвал умных анончиков делать выводы самим и тестить модельки а не верить треду. ты к умным анончикам не относишься кряк
Нет. Ты не призвал делать выводы. Запусти ты модель у себя и напиши, что модель говно, слова бы не сказал.
Но весь этот чудесный опыт через .ai хуита хует.

Но я действительно, что то слишком агрессивно залетел, сорян ,надо опять сожрать целебных колес, а то сам в истеричку превращаюсь.

Аноним 14/08/25 Чтв 12:17:29 #230 №1317268

Хз о чем вы. У меня гемма 4b работает на телефоне в 4.0 кванте и судя по совокупному мнению треда - это должно быть безмозглое существо пускающее слюни. Однако нет - ни разу не замечал хоть какой-то шизы, без ошибок пишет на русском и на английском (при этом русик лучше чем в 32b ГЛМе). Использую ее как переводчик вместо тупорылого дипла. Брат жив, зависимость огромная.

По личному опыту, 4 квант НОРМАЛЬНЫЙ. Про "меньше q6 жизни нет" - это херня полная, тем более на жирных моделях. На компе крутятся гемма 27b и мистраль 24b в Q4_K_XL - на РП/сторителлинге всё отлично, шизы не замечено. Выше подниматься стоит только в том случае, если ваш юзкейс включает сложные для ЛЛМок задачи типа математики или кодинга.

Аноним 14/08/25 Чтв 12:21:13 #231 №1317272

>>1317268
> меньше q6 жизни нет
Эта хуита тянется с мелкомоделей, где действительно, ниже 6кванта начинается ад и израилъ.

В теории, чем выше тем можно ниже квант использовать.
Клянусь, я еще не совсем ошизел и помню как в треде энтузиаст запускал Q1 какой то адово здоровой модели и она даже попердывала что то адекватное и членораздельное.

Аноним 14/08/25 Чтв 12:22:15 #232 №1317274

>>1317268
>судя по совокупному мнению треда

Нет никакого совокупного мнения треда, есть толстота от базошизика, которую трут.

>4 квант НОРМАЛЬНЫЙ. Про "меньше q6 жизни нет" - это херня полная

Там и остальные пункты "базы" такая же тролохерня, написанная чтобы вызвать срач.

Аноним 14/08/25 Чтв 12:24:42 #233 №1317278

>>1317266
> Если бы мнение было объективным и конструктивным слова бы не сказал.
Много здесь объективных и конструктивных мнений?

> запустить у дяди Васи модель на неизвестных семплерах
Поехало маняврирование, дальше только реквест логов и утверждать что я переименовал IQ1S в Q5 квант чтобы наебать тред.

> через открытую веб морду все потыкал и пришел к истинно правильному мнению.
Ты заебал блять я нигде не писал что мнение истинно правильное. Ты это сам придумал. Лечи голову.

> Запусти ты модель у себя и напиши, что модель говно, слова бы не сказал.
Маняврирование продолжается. До семплеров доебався теперь можно и до апишки. сижу на текст комплишене, братик, апи здесь совершенно непричем.

> Нет. Ты не призвал делать выводы.
>>1316996
> Если тебе реально интересно разобраться, сравни аутпуты эира и 32б плотного который был весной. Реально сравни и поиграйс
>>1316997
> скачайте вы пару других моделей и проведите нормальные сравнения сами, а не верьте треду.
Не призывал да...

Какого хуя ты ведешь себя так словно я пришел к тебе домой и начал завязывать свои порядки я так и не понял. Извини что обидел твою любимую модельку я не со зла.

Аноним 14/08/25 Чтв 12:24:49 #234 №1317279

>>1317274
можете сколько угодно отрицать базу треда. Базой от этого она быть не перестаёт.
мимо другой шиз, гоняю 4 квант, но согласен с базой

Аноним 14/08/25 Чтв 12:26:01 #235 №1317280

>>1317272
>энтузиаст запускал Q1 какой то адово здоровой модели

Дипсика-R1 671b. Кстати еще одно доказательство что >>1317247 - херня полная, у дипсика 37b активных параметров, тем не менее он 1q нормально держал, попробуй любуй плотную 32b в 1q запустить, - она не то что слюни пускать - она дристать жидким будет под себя нонстоп.

Аноним 14/08/25 Чтв 12:30:53 #236 №1317288

>>1317103
Ну, наверно раньше он был шустрее и, наверно, сейчас на чисто цп будет опережать. Но автор и сам пишет что он сомневается в эффективном перфомансе на мультигпу сетапе и ничего такого не проверял.
>>1317110
Новый неплох, но придется тебе разобраться с суммарайзами, промптами и прощать имеющиеся недостатки.
>>1317160
Насколько лоботомирован квант? В целом уже можно попробовать поршить, но если тебе не заходит его общая парадигма, то квенорп начинается от 4 бит. Ниже он сильно упрямый и базовые байасы на характер лезут очень интенсивно, да и пишет уныло.
>>1317178
>>1317187
>>1317205
Ну, тут с пару-тройку месяцев назад умилялись насколько он прорывной в рп, впечатление не изменилось а только окрепло. Правда обновленный все никак не получается попробовать, но врядли его испортили.

Аноним 14/08/25 Чтв 12:34:15 #237 №1317290

image

>>1317280
Закончу с работой и попробую 4b Гемму в Q1 запустить. Надеюсь выживу.

Если она выдаст осмысленные ответы на простые вопросы - базашиз будет официально попущен и обоссан.

Аноним 14/08/25 Чтв 12:43:20 #238 №1317294

>>1317279
>Много здесь объективных и конструктивных мнений?

Конечно, моё.

В целом хватает, или ты действительно готов верить анону, который напишет : ну я, короче, погонял Command-a на HF space, лучшая модель. А потом поставить локально и рыдать как сучка.

>Поехало маняврирование, дальше только реквест логов и утверждать что я переименовал IQ1S в Q5 квант чтобы наебать тред.
Ну и нахуя ты до абсурда доводишь. Прекрасно же понял, о чем я.

>братик
Я тебя съем, блять.

>Какого хуя ты ведешь себя так словно я пришел к тебе домой и начал завязывать свои порядки я так и не понял. Извини что обидел твою любимую модельку я не со зла.

Хорошо, я тебя прощаю. Впредь пусть твое мнение совпадает с моим. Хорошо делай, а плохо не делай.

Аноним 14/08/25 Чтв 12:46:08 #239 №1317296

Ебать, уже на пол-перекота насрали.

Аноним 14/08/25 Чтв 12:46:23 #240 №1317297

Вы не поняли gpt-oss-120b...

Аноним 14/08/25 Чтв 12:47:39 #241 №1317299

Кошкодевочка - квен принесла вам скрипт для автогенерации регэкспов на основе конкретного gguf и заданной вами врам (включая мультигпу!) https://files.catbox.moe/a6tf4p.py
Первый аргумент - путь до модели, второй - объем врам, через запятую для нескольких, третий опциональный - доля врам выделяемая на веса. Если задавать сразу не объем рам а сколько хотите выделить под модель без учета контекста и буферов то можно сразу указывать эти величины, удобно для отладки и забивки под завязку. Лучше оставлять свободными не менее пол гига чтобы жора не крашился во время обработки больших контекстов.
python script_name.py /path/to/model.gguf 32,32,24,24 [0.75]
Для нескольких гпу важно чтобы -ts передаваемый в лламуцпп совпадал с передаваемыми значениями в скрипт. После регэкспов обязателен аргумент --cpu-moe!

>>1317217
> Возможно фиксится ошибка многократного тул юза, который иногда проскакивал и крашил llama.cpp.
Именно она и исправлена, ни одного краша. Не просто работает а умеет-практикует.
Правда создается впечатление что присутствует другая - почему-то иногда не вызываются шелл команды и идет просто печать. Но, возможно это просто проблемы 5-го кванта, от него же и лупы в момент вызова. Пробуй, если починишь то выкладывай, должна же польза какая-то быть.
>>1317228
Бывают, на интел в некотором ассортименте, на амд встречаются чуть реже. На платформы с pci-e5.0 опция перебралась преимущественно в топовые оверпрайс модели, но их можно найти занидорого на лохито. Из новья что у нас продается занидорого такие платы делает maxsun, и слоты шикарные, и настройки бифуркации оче гибкие.
>>1317294
> Я тебя съем, блять.
Уже несколько десятков тредов жду обещанного укуса, где?

Аноним 14/08/25 Чтв 12:49:49 #242 №1317301

>>1317280
>Дипсика-R1 671b
Мне кажется Qwen_Qwen3-235B-A22B тоже не развалится, а скорость будет уже 8т

Аноним 14/08/25 Чтв 12:50:26 #243 №1317303

>>1317299
>Уже несколько десятков тредов жду обещанного укуса, где?
кусь, пидарас! <3
мимо другой анон

Аноним 14/08/25 Чтв 12:53:34 #244 №1317304

image

>>1317297
литералли, и новый глэм тоже

Аноним 14/08/25 Чтв 13:02:04 #245 №1317309

image.png

Мне тут гопота загоняет что если ставить 2x16 + 2x32 - то половина памяти будет в одноканале так как якобы все матчится и что не сматчилось - улетает в одноканал.
У меня недостаточно знаний чтобы понять - он мне пиздит или говорит правду.
Аноны, помогите, это правда или нет?

Аноним 14/08/25 Чтв 13:03:30 #246 №1317310

>>1317299
>Уже несколько десятков тредов жду обещанного укуса, где?
Да, я по UDP уже несколько кусей отправил. Не пришли что ли ?
Сейчас разделим, видно слишком большой кусь получается.

Вот так будет лучше :

echo "кусь" | split -b 1 --numeric-suffixes=1 --suffix-length=3 - kus_fragment_

echo "[INFO] Кусь фрагментирован"

ls kus_fragment_* | nl -w2 -s' | ' | sed 's/^/UDP пакет #/'

Аноним 14/08/25 Чтв 13:07:32 #247 №1317312

>>1317310
ахахах, мегахарош

Аноним 14/08/25 Чтв 13:08:47 #248 №1317315

>>1317303
> пидарас
Не надо, у нас тут абсолютный мужской гетеронатуральный обмен покусываниями под размахивание бедер!
>>1317310
Ай блин, не иначе контора из трех букв блокируют, расчехляю амнезию и готовлю получение.
Содомит, орнул

Аноним 14/08/25 Чтв 13:15:33 #249 №1317318

>>1317309
Стукни гопоту по голове и объясни ей что нужно ставить в канал А плашки 32 и 16, и в канал Б плашки 32 и 16, тогда в каждом канале будет по 48. Опционально стукни себя за то что не догадался до столь очевидной вещи.

Аноним 14/08/25 Чтв 13:15:55 #250 №1317319

Какую бы модель вы выбрали в случае глобальных перебоев с интернетом, ещё и поддерживающую на достаточном уровне русский язык? Чтобы примерно хотя бы понимала. Не для кума, а для тупых вопросов и решения задач (не кодерских, разве что уровня написания конфига для xtls reality).

То есть на цензуру строго похуй. Можно максимально задроченное корповское сефти дерьмо, лишь бы локально.

Мистраль сразу выпадает, ибо лупящийся кал и плохая работа с контекстом. Магистраль ещё туда-сюда, я его не распробовал толком, но вряд ли там существенные изменения.

Гемма окей отчасти, но скользящее окно = полный проёб контекста даже в рамках 32к. И нет ризонинга. А он критичен, весьма вероятно.

Важно, чтобы модель могла реально переваривать контекст хотя бы в пределах этих 32к, а желательно больше, без кривого ярна с деградацией до уровня хлебушка.

30б МоЕ квен с ризонингом мне кажется идеальным кандидатом, но у меня есть вполне обоснованные подозрения, что 4 квант поднасрет даже на английском при работе с большим количеством данных, где критически важна точность, так как на тестах я замечал разницу между квантами, которые при обычном рп не так влияют, но если туда научную статью копипастнуть и банально процитировать попросить что-то или ответить на вопросы из неё — разница есть.

Возможно, стоит взять что-то поменьше, но в 6 или 8 кванте? С учётом того, что штабильность и точность — это главный приоритет. Тонна мозгов из коробки не так важна, как навык обрабатывать тонну кала, который я буду подавать модели.

Аноним 14/08/25 Чтв 13:16:16 #251 №1317320

>>1317299
>--cpu-moe
А поясните про cpu-moe - для мультигпу он тоже обязателен?

Аноним 14/08/25 Чтв 13:17:45 #252 №1317322

>>1317319
Ты не уточнил железо, но GLM-Air и/или GPT-OSS-120B.
Тоже недавно готовился к скорому возможному чебурнету. Все туда и идет хуле.

Аноним 14/08/25 Чтв 13:23:44 #253 №1317326

>>1317319
>Какую бы модель вы выбрали в случае глобальных перебоев с интернетом, ещё и поддерживающую на достаточном уровне русский язык? Чтобы примерно хотя бы понимала. Не для кума, а для тупых вопросов и решения задач (
Ответ на твой вопрос, в твоем же вопросе.
Самую жирную - именно тут то и становятся папочкой, количество параметров. Чем шире задачи, тем жирнее и больше должна быть ЛЛМ. Так что какой нибудь Дипсик, или вообще оригинал гопоты вместе с ебовым ригом.

Аноним 14/08/25 Чтв 13:25:38 #254 №1317327

>>1317319
> в случае глобальных перебоев с интернетом
Пропагандонам и расширителям очка в рот нассым.
>>1317320
Логика простая и повторяет жорину. В начале оцениваются как будут распределены по карточкам тензоры в соответствии с пропорцией врам (-ts). Потом память устройств заполняется всеми слоями кроме экспертов, далее, придерживаясь изначального распределения, идет постепенная набивка врам слоями экспертов пока все свободное место на забьется.
Пробовал еще другой алгоритм где идет жадная набивка без привязки к расположению атеншнов, норм и прочих слоев - те крохи от увеличения выгрузки не покрывают небольшого замедления из-за многочисленных пересылов туда-сюда.

В отличии от регекспов на скидывания тензоров на проц, здесь наоборот пишутся на отправку в конкретный девайс. --cpu-moe нужен чтобы скинуть все остальные для которых не было указаний на проц одной командой вместо того чтобы писать это в регекспе.
Больше никакой мудистики с кручением -ot, которое вызывает выбросы по несколько гигов, или долгого подбора какой тензор скидывать чтобы не оомилось или наоборот полнее набивалось, хватает пары итераций чтобы забить все карты.

Аноним 14/08/25 Чтв 13:30:47 #255 №1317328

>>1317322
Я не уточнил, так как решил, что по контексту аноны догадаются, что 20-24 врум.

Жирные я точно не умещу, да и смысла нет пердеть на глм большом. Я очень сомневаюсь, что он будет лучше справляться с задачами, где требуется максимальная точность. То есть когда важнее не датасет, который всё знает, а умение манипулировать с тем, что ты дал на вход с нормальными инструкциями. К тому же, у меня особые требования к контексту. Вряд ли тут есть те, кто будет жирные модели на огромных контекстах гонять, подгружать научные статьи, цыфорки, статистику и всякую такую хуйню.

Просто мне непонятно, насколько зависит работа с контекстом и точность модели в целом от кванта. Да, я гуглил эту хуйню, но сухая инфа из гугла одно, практика - другое.

Хочется найти баланс с наскока, а не методом длительных и мучительных ручных тестирований.

Но мне кажется, что если важны точнее циферки и контекст, то логичнее взять модель поменьше, чтобы был максимально жирный квант. Если она нормально обучена, то, по идее, должна справляться лучше.

Аноним 14/08/25 Чтв 13:33:00 #256 №1317330

>>1317272
> помню как в треде энтузиаст запускал Q1 какой то адово здоровой модели
Их было как минимум двое. Но в том лоботомированном кванте он печален по знаниям и в целом качеству ответов, хотя логичен и хорошо пишет на русском.
>>1317328
> важнее не датасет, который всё знает, а умение манипулировать с тем, что ты дал на вход с нормальными инструкциями
Одно следует из другого. Но из мелочи самая универсальная - гемма. Из реальных к запуску обывателем размером для универсальных задач - квен235 лучшая девочка, эйр даже не близко.

Аноним 14/08/25 Чтв 13:33:27 #257 №1317331

image.png

>>1317318
>Стукни гопоту по голове и объясни ей что нужно ставить в канал А плашки 32 и 16, и в канал Б плашки 32 и 16, тогда в каждом канале будет по 48.

Говорит что все равно будет падение скорости, так как тогда до одноканала будет падать разница между плашками в одном канале.

Аноним 14/08/25 Чтв 13:34:12 #258 №1317332

>>1317328
> 20-24 врум.
Тогда мой ответ остается прежним: GLM-Air (это не большой, а 110б) и GPT-OSS-120B. Первый можно запускать в Q6 кванте на 24гб врама и с DDR4 рамом, на 4090 будут 5-6 токенов до 32к контекста, на 3090 3.5-4.5 токенов. Для общих задач это лучший выбор, если ты можешь запустить и готов мириться с такой скоростью. Имхо 5т/с это приемлемо.

GPT-OSS-120B и вовсе FP16 уместится на таком конфиге. Но ее только для технических задач использовать, работает шустрее чем Air, местами хуже, местами лучше.

Ну и Гемму можешь оставить. Так, на всякий. А больше и нет опций.

Аноним 14/08/25 Чтв 13:35:15 #259 №1317334

image

Анон >>1317290 репортинг ин. Передаю привет всем кто утверждал, что "чем меньше в модели b, тем сильнее она страдает от квантования", а так же базашизику.

Вашему вниманию ответы 4b модели в Q2. Температура 0,4. Жив, цел, орёл. Слюни не пускает, пишет вменяемо.

С Q1 не прокатило, тут уже начинаются лупы-залупы и активируется бредогенератор даже на темпе 0,1.

Аноним 14/08/25 Чтв 13:36:48 #260 №1317336

>>1317334
Сука проиграл с пикч, блять сука ахахаххаха нахуй

Аноним 14/08/25 Чтв 13:38:39 #261 №1317337

image.png

>>1317334
а это вообще что за интерфейс? ну бля как сказать. Где ты вот эту хуйню всю вписывал и общался с моделькой? это ж не таверна?

Аноним 14/08/25 Чтв 13:39:51 #262 №1317339

>>1317337
Это встроенная aesthetic тема в кобольде, которую можно настраивать.

Аноним 14/08/25 Чтв 13:40:02 #263 №1317340

>>1317337

Это maid, анон же писал что с телефона.

Аноним 14/08/25 Чтв 13:40:08 #264 №1317341

>>1317309
Пиздит. У OS нет возможности выбирать какие физические ячейки планок будут задействованы. Да и сомнительно, что производитель в принципе будет так усложнять консумерское железо (ладно бы серверное) - это ненадежно из-за лишней сложности, а выгода сомнительна.
Так что, будет или все в dual, или все в single, по частотам и таймингам которые тянет самая слабая планка. Всю жизнь на практике так и было. И у себя имел неоднократно (например 2х4 + 2х8 = 24GB dual channel), а про подобную дичь слышал лишь пару раз, в разрезе голых теорий.

Аноним 14/08/25 Чтв 13:41:39 #265 №1317343

>>1317340
> maid,
что за зверь и как поставить?

Аноним 14/08/25 Чтв 13:44:24 #266 №1317344

>>1317343
Эх, вот бы существовал какой нибудь сайт, чтобы туда запрос вбить и он хуяк, результат поиска выдаст.
Жаль конечно, что таких сайтов нет.

https://github.com/Mobile-Artificial-Intelligence/maid

Аноним 14/08/25 Чтв 13:44:27 #267 №1317345

>>1317334
>С Q1 не прокатило, тут уже начинаются лупы-залупы и активируется бредогенератор даже на темпе 0,1.

Сам же и доказал что
"чем меньше в модели b, тем сильнее она страдает от квантования", ведь 70B+ моеди юзабельны на первом кванте.
Кстати, в базашизу входило опровержение этой истины, подвергая её сомнению, ты продвигаешь базашизу, одумайся.

Аноним 14/08/25 Чтв 13:54:28 #268 №1317348

>>1317334
можете сколько угодно отрицать базу треда. Базой от этого она быть не перестаёт.

Аноним 14/08/25 Чтв 13:58:49 #269 №1317352

>>1317345
> Кстати, в базашизу входило опровержение этой истины, подвергая её сомнению, ты продвигаешь базашизу, одумайся.
чё? там как раз было написано, что чем больше в модели b, тем меньше она страдает от квантования.

Аноним 14/08/25 Чтв 13:59:06 #270 №1317353

IMG3979.jpeg

>>1317348
Надеюсь на тебя упадет с неба небинарный и жирный человек паук и трахнет тебя, и вы укатите в закат.

Аноним 14/08/25 Чтв 14:02:07 #271 №1317356

>>1317217
>запускал 7,5 токенов UD_Q3_K_XL.
На фулл контексте? Сколько контекста?

Аноним 14/08/25 Чтв 14:04:20 #272 №1317357

>>1317352

Там было написано что это копиум нищенок.

Аноним 14/08/25 Чтв 14:06:04 #273 №1317360

>>1317345
>ведь 70B+ моеди юзабельны на первом кванте
А точно ли в первом? Жирный квен аноны запускали всё же во втором. В первом запускали только 600b дипсика, и было бы неплохо увидеть скрины.

Алсо, Q6_K_XL 12b геммы весит столько же, сколько Q2_K_XL геммы 27b. Было бы неплохо, если б кто-то играющий в РП с карточками потестил Гемму 27 в Q2 с убитой до 0,2 - 0,4 температурой.

Если выяснится, что 27b Q2 жизнеспособен в РП, то смысл в 12b модельках будет примерно нулевой.

Аноним 14/08/25 Чтв 14:08:46 #274 №1317364

>>1317344
тонко тонко блять)
Ну тебе ж не сложно))

Аноним 14/08/25 Чтв 14:14:10 #275 №1317370

изображение.png

>>1316996
>Потому что я буквально жду модель, ради которой готов обновиться, деньги для меня не проблема.
>>1316999
Это коммит в гите.
>>1317032
Просто проверь на р104 + цпу, тоже мне проблема. Сравни с чистым цпу.
>>1317097
>Проверь чтобы все тензоры одного слоя были на одной карте, не было ситуации в которой атеншн и норм слои на одной а эксперты на другой.
Вот в эйре под 700 различных тензоров с кучей типов. Вот как это всё балансить? Эти на ГПУ обязательно кидай, эти на ЦП, эти вместе, эти отдельно, память не переполни, память не недонагружай. Хуй разберёшься.
мимо другой если что
>>1317180
>А чо там с oss 120b?
Ненужная какашка альтмана.
>>1317183
А как сидеть на DDR4 в 2025? Все новые процы на AM5 выходят.
>>1317228
>материнку с DDR5
Держи табличку
https://docs.google.com/spreadsheets/d/1NQHkDEcgDPm34Mns3C93K6SJoBnua-x9O-y_6hv8sPs/
Там прямо в первой строчке на х870е чипсете.
>>1317247
Всё несколько сложнее...

Аноним 14/08/25 Чтв 14:18:03 #276 №1317381

>>1316996
двачую, эйр хуйня. и квен235 тоже хуйня.
я вообще пришёл к выводу, что реальные мозги МоЕ моделей равняются их "активным параметрам", ну может максимум 2х активных параметров.

Аноним 14/08/25 Чтв 14:20:16 #277 №1317384

>>1317381
> реальные мозги
то есть если сравнивать с денсе моделями, то мое ейр 12б будет равен примерно 12б или максимум 24б денсе модели.

Аноним 14/08/25 Чтв 14:24:57 #278 №1317392

>>1317384
Да что ты вообще жалеешь этот эйр, сразу пиши 6b.

Аноним 14/08/25 Чтв 14:26:33 #279 №1317397

>>1317319
>ещё и поддерживающую на достаточном уровне русский язык
Но зачем? Лучше через неё же переводить на английский, там инфа точно лучше.
>>1317327
>Пропагандонам
Какиие пропагандоны, в этой стране даже звонки в телеге уже заблочили, пидары, не могу из-за этого устроится на работу. Сука как же горит.

Аноним 14/08/25 Чтв 14:29:02 #280 №1317400

>>1317370
Зачем тебе новый проц?
На что тебе не хватит 5950x с 16 физ ядрами который хуй загрузишь на максимум до сих пор? Лежит за нищие 30к никому не нужный из за ам4

Аноним 14/08/25 Чтв 14:30:00 #281 №1317403

>>1317384
Ну да, хорошая теория, чо...

Новый moeквен 30-a3b конечно до геммы 27b не дотягивает, но сравнивать его с 3b?
Не говоря о том, что он рельно на глазах умнеет/тупеет если менять ему количество активных экспертов.

Аноним 14/08/25 Чтв 14:31:10 #282 №1317404

>>1317403
>если менять ему количество активных экспертов
А как это сделать?

Аноним 14/08/25 Чтв 14:32:13 #283 №1317406

>>1317403
сравни с 6б)

Аноним 14/08/25 Чтв 14:34:08 #284 №1317407

>>1317381
> я вообще пришёл к выводу, что реальные мозги МоЕ моделей равняются их "активным параметрам", ну может максимум 2х активных параметров.
Соглашусь. Думаю, 1.2-1.5х от активных параметров. Именно поэтому GLM 32 > GLM Air для меня вне всяких сомнений.

Аноним 14/08/25 Чтв 14:34:43 #285 №1317408

>>1317404
В кобольде, в GUI - есть соответствующее поле. И для командной строки ключ. У ламы тоже есть ключ. Ничего сложного. Чем больше экспертов, тем больше памяти надо и медленнее генерит.

Аноним 14/08/25 Чтв 14:35:42 #286 №1317409

>>1317408
Это на ум не влияет, только на скорость. Че за шизу ты несешь? Остальные эксперты оффлоадятся в рам. Они продолжают работать.

Аноним 14/08/25 Чтв 14:36:50 #287 №1317410

>>1317360

Я тебе и так скажу что на любом вменяемом(т.е. начиная с 2_xs) любая старшая модель одного ряда уделает младшую в 16 битах.

Аноним 14/08/25 Чтв 14:37:02 #288 №1317411

>>1317331
>в задаче 16+32 откуда-то взялись модули по 48 гиг
Вся суть нейросетей.
>>1317341
>Да и сомнительно, что производитель в принципе будет так усложнять консумерское железо
Возможность работы в полутораканале была ещё в AM2, это не рокет сайнс.
>>1317400
>Зачем тебе новый проц?
Чтобы была новая память.
>На что тебе не хватит 5950x с 16 физ ядрами который хуй загрузишь на максимум до сих пор?
Да, на максимум не загрузишь, потому что игры максимум 6 поточные, лол, и те 16 ядер отсосут с проглотом у огрызка 9600X3D.

Аноним 14/08/25 Чтв 14:37:21 #289 №1317412

>>1317408
Спасибо, попробую. У меня 30+ т/с при дефолтном запуске, готов пожертвовать скоростью вдвое, если от этого он станет умнее хотя он и так няша.

Аноним 14/08/25 Чтв 14:40:11 #290 №1317414

4a7197a6-1170-456b-a117-bdd05ea5c883.png

Картинка для Оппика

Аноним 14/08/25 Чтв 14:42:24 #291 №1317417

>>1317403
> Не говоря о том, что он рельно на глазах умнеет/тупеет если менять ему количество активных экспертов.
в голос бля, ебать тут умники сидят

Аноним 14/08/25 Чтв 14:43:35 #292 №1317420

1733559577673.png

1687110645845.png

ExLlamav3 не умеет в МоЕ что ли? Почему на 30B-A3B такая низкая скорость, как у обычной 32В? У Жоры 170 т/с, у дрисни ExLlamav3 - 60 т/с. Ещё и обработка промпта на дне.

Аноним OP 14/08/25 Чтв 14:46:18 #293 №1317424

>>1317414
Первую картинку менять стесняюсь, уже привык к ней.

Аноним 14/08/25 Чтв 14:47:16 #294 №1317426

>>1317424
да поменяй, ахуенно будет смотреться.
другой анон

Аноним 14/08/25 Чтв 14:55:46 #295 №1317435

>>1317414
Лоу эффорт бесмысленная всратая хуета. Переделывай.

Аноним 14/08/25 Чтв 14:56:47 #296 №1317436

>>1317406

Его сравнивали с 13b и он того уделывал.
Там правило работает что ум мое модельки примерно как среднее между макс параметрами и активными, т.е. (30+3)/2=16.5

Аноним 14/08/25 Чтв 15:00:14 #297 №1317440

>>1317436
>(30+3)/2=16.5
Вот это уже больше похоже на правду.

Аноним 14/08/25 Чтв 15:03:31 #298 №1317444

>>1317436
Ну т.е 59б что почти в два раза больше глм32б и доказывает что глм денс кун шизик

Аноним 14/08/25 Чтв 15:06:01 #299 №1317446

monkey1.jpeg

только сейчас смог заценить https://github.com/ggml-org/llama.cpp/pull/15077 - "llama : add --n-cpu-moe option" и это пушка ебать меня огромным черным хуем

на моем бомже сетапе с зен4 + 96гб ддр5 + 8гб врам все в разы быстрее. на 4к контексте:
1) квен3 30б было около 15т/с, стало 30т/с
2) гпт-осс 120б было 7т/с, стало 17т/с
3) квен3 235б было 1.7т/с, стало ~6т/с

Аноним 14/08/25 Чтв 15:10:57 #300 №1317452

>>1317331
Она сама себя загазлайтила уже. Это турба или что за лоботомит там так фейлит?
>>1317345
> ведь 70B+ моеди юзабельны на первом кванте
Неюзабельны, полумертвые лоботомиты. Степень деградации от размера не сильно зависит, просто модель больше имеет больший шанс справится со странным контекстом, который получился из-за выбросов логитсов, чем мелкая.
>>1317370
> Вот в эйре под 700 различных тензоров с кучей типов.
Нет. Исключая эмбеддинги и голову, там блоки с фиксированной типичной структурой типа
> blk.N.attn_...
> blk.N.ffn_gate_inp.weight
> blk.N.ffn_norm.weight
которые весят мало но требуют вычислений, потому обязаны быть на гпу, и
> blk.N.ffn_down_exps.weight
> blk.N.ffn_gate_exps.weight
> blk.N.ffn_up_exps.weight
Те самые 3 куска слоев экспертов, которые и имеют огромный размер. Меняешь N на номер блока и имеешь везде идентичные данные.
Если в блоке мелкие слои все на гпу а эксперы на профессоре - произойдет 2 обмена активациями. Если мелкие слои на одной гпу а эксперты на другой - сначала закинется на профессор, потом с профессора на вторую гпу, там обсчитаются эксперты, потом активации обратно на проц, потом опять на первую гпу.
Вроде нагляднее некуда.
Просто юзай вишмастер скрипт, подобрав память/долю, сам все раскидает.
>>1317397
> Какиие пропагандоны
Петушары на зарплате или 404 часто лезут с подобными постами "вот сейчас все заблокируют, смотрите что нужно делать... (информацию в скобках удалить)".

Аноним 14/08/25 Чтв 15:12:01 #301 №1317453

>>1317409
Почитай про архитектуру MOE, что ли...

Речь не о том, что остальные эксперты вообще не работают. Но перед тем как эксперт вообще начинает работу, сначала проходит выбор КАКОЙ эксперт будет использоваться. Точнее - какие эксперты. Результаты уже работы всех АКТИВНЫХ - и есть окончательный выбор токена. Так вот, есть разница: будет обработка проходить через 4 эксперта, или через 8 - т.к. они не одинаковые, там разные знания лежат. Больше экспертов одновременно - шире выбор доступных одномоментно знаний, больше шанс что будет использован эксперт где максимально адеквантый ситуации набор из которого выбор будет самым оптимальным. Оттуда и разница в "уме". Оно не линейно, и не всегда прямо на порядок отличается, но весьма заметно, особенно на сложных запросах. К примеру: старый моеквен, если ему поднять экспертов с 4-х до 8-ми переставал на русском откровенно шизить. В теории, механизм первичного выбора не должен ошибаться и всегда должен выбирать те эксперты, где знания подходят текущему контексту и будут адекватны для выбора токена. На практике - разумеется, идеально не получается. :) И большее количество экспертов этот эффект сглаживает.
В том и разница между moe и денсом, оттуда у moe и скорость - отдельный токен не во всем объеме ищется, а только в предварительно грубо выбранной области. Больше экспертов - больше область.

Аноним 14/08/25 Чтв 15:36:51 #302 №1317477

>>1317420
>ExLlamav3 не умеет в МоЕ что ли?

Очевидно не умеет. Жора и его форки пока единственный.

Аноним 14/08/25 Чтв 15:37:44 #303 №1317478

>>1317453
Чел, все эксперты работают всегда. Вопрос лишь в том, через какую память они проходят...

Аноним 14/08/25 Чтв 15:39:17 #304 №1317482

>>1317420
>>1317477
Лолчто? Там за 200 улетает ген и процессинг 5к. Что-то сломалось.

Аноним 14/08/25 Чтв 15:44:47 #305 №1317486

{338133B5-D340-496B-ABC7-A2968D01D492}.png

Потыкал готовые воркфлоу для работы с агентами. Ну и срань. Мне не нравится. Буду свой аналогвент делать. Уже узнал у дипсика что мне нужны кубы и сервер. ВМ готова, в дипсик задан вопрос как ставить эти ваши кубы. Я серьёзен как никогда.

Аноним 14/08/25 Чтв 15:46:47 #306 №1317488

>>1317452
>Она сама себя загазлайтила уже. Это турба или что за лоботомит там так фейлит?

Это дипсик с включенным ризонингом.

Аноним 14/08/25 Чтв 15:47:23 #307 №1317489

>>1317446
какое значение N ты поставил?

Аноним 14/08/25 Чтв 15:47:33 #308 №1317490

image.png

>>1317452
>>1317488

Отклеилось

Аноним 14/08/25 Чтв 15:53:50 #309 №1317491

>>1317299
> Кошкодевочка - квен принесла вам скрипт для автогенерации регэкспов на основе конкретного gguf и заданной вами врам (включая мультигпу!) https://files.catbox.moe/a6tf4p.py
Объясни новичку что это и как это кушать пожалуйста. Что за регексп? Это скрипт для автоматической генерации оптимального --override-tensor флага, который сам находит значение по ггуфу и доступному враму?

Аноним 14/08/25 Чтв 15:54:14 #310 №1317492

>>1317426
Ок, только цвета перекрашу, от стандартной желтизны гопоты уже тошнит.

Аноним 14/08/25 Чтв 15:57:53 #311 №1317496

>>1317491
>Объясни новичку что это и как это кушать пожалуйста. Что за регексп? Это скрипт для автоматической генерации оптимального --override-tensor флага, который сам находит значение по ггуфу и доступному враму?

Судя по всему да. Непонятно зачем это нужно, когда есть --n-cpu-moe которой пользоваться не сложнее чем -ngl c плотными моделями. Разве что с мультигпу.

Аноним 14/08/25 Чтв 16:00:25 #312 №1317497

>>1317491
> Это скрипт для автоматической генерации оптимального --override-tensor флага, который сам находит значение по ггуфу и доступному враму?
Именно. Первый аргумент - путь до модели или ее шарда, второй - достуная врам (через запятую если несколько), третий - доля врам, которая будет задействована под веса, например
> python script.py ./model.gguf 24,12 0.75
С началом все понятно, 24,12 значит что на первой карте 24гига, на второй 12, 0.75 - 75% всей врам будет выделено под веса, 25% останется свободной под заполнение кэша контекста и буферов. Если оомится - снижай долю. Если несколько карточек то нужно добавить еще оргумент -ts равный тому что было указано в аргументах рам, в самый конец команды обязательно --n-cpu
>>1317492
Ну нахуй политоту то? Полно приличных вариантов разной степени мемности.
>>1317496
Этот параметр не позволяет точно подограть веса ибо оперирует целыми блоками и не их компонентами, этот параметр не сработает с мультигпу - одна будет пустая, по второй оомнется.

Аноним 14/08/25 Чтв 16:02:19 #313 №1317498

>>1317489
я через LMStudio запускал, новая версия добавила этот флаг в ui и теперь минимум ебли с соснолькой https://lmstudio.ai/blog/lmstudio-v0.3.23#force-moe-expert-weights-onto-cpu-or-gpu

для квен 235б я выгрузил все слои на гпу, заняло около 5-6гб. но квен у меня q3 если что, и это было 4к контекста. все остальные модели поменьше вроде и до 4гб врам не доходило

Аноним 14/08/25 Чтв 16:07:43 #314 №1317503

>>1317436
тогда ейр был бы (106+12)/2=59B, что совсем не похоже.

Аноним 14/08/25 Чтв 16:10:48 #315 №1317506

>>1317503
а на что он похож? на 12б?

Аноним 14/08/25 Чтв 16:12:50 #316 №1317508

>>1317506
скорее 24

Аноним 14/08/25 Чтв 16:19:13 #317 №1317510

>>1317508
Не лучше ли тогда 32б запускать и не ебать себе мозги?

Аноним 14/08/25 Чтв 16:20:18 #318 №1317512

>>1317510
лучше. особенно если учесть что 32б > air

Аноним 14/08/25 Чтв 16:23:22 #319 №1317519

Ору с тех кто прогреется и зажмёт 5к на память чтобы самому проверить, будет доедать за всем тредом 32б огрызки

Аноним 14/08/25 Чтв 16:25:15 #320 №1317524

>>1317508
>>1317512

Заебал тралить, базашиз, съеби нахуй.

Аноним 14/08/25 Чтв 16:25:35 #321 №1317525

>>1317486
за каким хером тебе сектантские кубы, если все можно на изи по докерам раскидать и здорово сэкономить на антритревожных препаратах?

Аноним 14/08/25 Чтв 16:25:40 #322 №1317526

>>1317510
лучше 72б денс запускать

Аноним 14/08/25 Чтв 16:26:35 #323 №1317528

1.png

>>1317524
сам съеби

Аноним 14/08/25 Чтв 16:27:53 #324 №1317530

>>1317526

Они вымерли как мамонты.

Аноним 14/08/25 Чтв 16:28:12 #325 №1317533

>>1317525
не упрощай, в айтишке платят за усложнение, чтобы там, где раньше был нужен один прыщавый сисадмин, теперь был нужен целый отдел смузихлёбов с макбуками на гироскутерах

Аноним 14/08/25 Чтв 16:29:08 #326 №1317535

image.png

Как научить бота не реагировать на ру текст не залезая в промпт?
глм-4-аир

Аноним 14/08/25 Чтв 16:31:52 #327 №1317537

>>1317535
> не залезая в промпт?
а в чем проблема залезть и написать чето типа "она шарит русский но игнорит и пишет на английском сука нахуй" ?

Аноним 14/08/25 Чтв 16:32:19 #328 №1317538

>>1317535
>я подкрался со спины и вонзил нож в брюхо
Чиво нахуй?

Аноним 14/08/25 Чтв 16:33:03 #329 №1317540

image.png

>>1317535
Ебать у тебя слопа там нахуй...
>>1317538
Ааахахахахахахахах

Аноним 14/08/25 Чтв 16:34:01 #330 №1317541

>>1317540
В 32б денсе его нет. Ну так, к слову.

Аноним 14/08/25 Чтв 16:36:33 #331 №1317543

>>1317541
во первых ты кто, во вторых кто такой этот ваш денс ?

Аноним 14/08/25 Чтв 16:36:49 #332 №1317544

image.png

>>1317524
орнул. чел, будь эир реально хорош даже нюня99 вылез бы его хвалить. возможно тебе трудно поверить но ПРЕДСТАВЬ СЕБЕ, твою любимую модель не оценили как МИНИМУМ двое в треде. катастрофа, не правда ли? как теперь жить

Аноним 14/08/25 Чтв 16:39:26 #333 №1317548

>>1317543
Dense - плотная модель (не мое). https://huggingface.co/zai-org/GLM-4-32B-0414
Я тредовичок.

Аноним 14/08/25 Чтв 16:40:10 #334 №1317549

>>1317548
так бы и сказал глм. а то денсы какието.
на каком железе встанет минимально ? ?

Аноним 14/08/25 Чтв 16:41:18 #335 №1317550

>>1317549
Он легче 32б аналогов. 16гб врама Q3-Q4 должны потянуть фуллгпу.
Если 24 то все Q6 вроде.

Аноним 14/08/25 Чтв 16:41:35 #336 №1317551

image.png

глм 32б

Аноним 14/08/25 Чтв 16:41:46 #337 №1317552

>>1317535
Добавь куда-нибудь в системный промпт "юзер может общаться на русском языке, это нормально и смену можно игнорировать". А ведь модель хороша что это замечает и обыгрывает, а не просто скатывается в ассистента.
>>1317538
В голос
>>1317541
Пиздабол. Вместо аутотренинга пошел бы покумил на своем денсе а потом принес логи.
>>1317528
>>1317544
Орублять.

Аноним 14/08/25 Чтв 16:42:11 #338 №1317553

>>1317550
12гб никак?

Аноним 14/08/25 Чтв 16:43:22 #339 №1317554

>>1317356
На нуле, на 10к до 6,2 опускалось. =)
Но я в любом случае оч.рекомендую именно Q3_K_XL в качестве базовой модели брать, и оттуда уже разве что расти.

>>1317360
Справедливости ради, мне Qwen3-30b-a3b в минимальном (IQ1_S) кванте адекватно отвечал по-русски (ошибки в словах и проблемы в ризонинге были, конечно, но не прям слюни).

Но ты учти, что это видимость, спустя пару сообщений моделька начнет нести хуйню не в смыслу кашу из букв, а в смысле логическую хуйню.

Проверьте, думаю это именно так.

>>1317381
Во-первых, не 2х от активных, а суммарные /2, а во-вторых, фича-то в знания и разнообразии вариантов и подходов. Модель меньше размером никогда не сможет удовлетворить так много вариантов применения, рп, работы и т.д., как большая мое.
Да, конечно, денс модель на тот же размер будет гораздо умнее (в те самые два раза), но она будет гораздо медленнее. А, я напоминаю, оператива, блядь, последний год, сука, бесплатная, на развес продавалась, не было ни одной причине не покупать 128 или 64 гига (кроме днищематеринок на 32 максимум).
Напомню, что у квена и осс-20 по 3b активных, у осс-120 — 5б активных, у аира — 12б активных. Нет, Мистраль Немо не лучше Аира. Как и гемма-3 4б не чуть хуже осс-120. =)

>>1317392
Да, ебать, сразу, Qwen3-0,6b лучше GPT-5!.. (если он с синкингом, она без, в некоторых математических задачах).
Все, пруфанули — чем меньше модель, тем умнее, хуле. =)

>>1317414
Гигачат, блеать!..

>>1317436
Так!

>>1317446
Т.е., -ot ты не юзал, да?..
Тебя не смутило, что это очень старая уже команда и все сидят именно с ней?.. =)

>>1317503
Так и есть.

———

Мне интересно, чел, у которого аир хуже мистрали — не фанат немотрона-ли-49б? Хотя тот, вроде, был добрее, но уверенность была такая же.

Аноним 14/08/25 Чтв 16:43:59 #340 №1317556

>>1317553
А хз. Ты попробуй, это ж ничего не стоит. Мб IQ3 какой-нибудь влезет.

Аноним 14/08/25 Чтв 16:44:34 #341 №1317558

>>1317556
а есть ли бля смысл 3 квант гонять ?

Аноним 14/08/25 Чтв 16:45:31 #342 №1317559

>>1317558
А хз. Ты попробуй, это ж ничего не стоит. [2]

Аноним 14/08/25 Чтв 16:46:51 #343 №1317561

>>1317559
попробую, это ж ничего не стоит.

Аноним 14/08/25 Чтв 16:49:23 #344 №1317562

>>1317554
> не фанат немотрона-ли-49б
> был добрее
Немотроношиз? Который нахуй слал всех 24гб врамцелов что смели сидеть на других моделях? Он давно сгинул уже и слава богу

Аноним 14/08/25 Чтв 16:49:33 #345 №1317563

>>1317551
> her her her her her, start each sentence and phrase with `her`
@
> she she she she she she she
Зато всего 3 или сколько там "not, but", могло быть и хуже.
>>1317554
> как большая мое
Как большая хорошая мое. Хуйнань и дотс вон у помойки валяются, эрни нужно еще потестить.
> суммарные /2
Спекуляции, оно или будет плавно раскручивать, максимально удачно обыгрывая какие-то компоненты, сосредотачивая имеющееся внимание на них и делая ротацию, что приведет к хорошему ответу, или будет пускать слюни как надроченный на бенчи осс.
> не фанат немотрона-ли-49б?
>>1317105
> Я тестил немотрон, он просто пишет хуже после глм и там нет кума.

Аноним 14/08/25 Чтв 16:50:24 #346 №1317564

>>1317535

Напиши в карточке персонажа что тот понимает русский язык. Фэнтезийная эльфийка не любящая кушать монстров, не должна понимать его по-умолчанию, модель все верно отыграла.

Аноним 14/08/25 Чтв 16:51:36 #347 №1317567

image.png

>>1316371
Ок, теперь на Silly Tavern началось.

Не запрещает, но лишние токены занимает как-бы.

Аноним 14/08/25 Чтв 16:55:49 #348 №1317575

>>1317567
хорошо что я эту парашу так и не скачал. отговорил, хуле. а то представляю сидел бы без трусов с членом в одной руке, а он мне хуяк и не кумит

Аноним 14/08/25 Чтв 16:58:39 #349 №1317578

>>1317563
Хуньюань была не так плоха, просто не те 80б, которые хотелось. =) Она писала дизайны лучше квена-30б. Но была не то чтобы достаточно умнее.
Да и эрни туда же, я подозреваю.

Аноним 14/08/25 Чтв 16:59:00 #350 №1317580

>>1317478
Ты, это, не очень умный, да?

Аноним 14/08/25 Чтв 17:00:15 #351 №1317583

>>1317580
Не я же утверждаю что чем больше экспертов в враме тем умнее модель.

Аноним 14/08/25 Чтв 17:02:23 #352 №1317585

>>1317452
>произойдет 2 обмена активациями
На каждый слой, как я понимаю.
>>1317452
>вот сейчас все заблокируют
Но ведь действительно блокируют. Тут не нужно быть с 404, чтобы это заметить. Правда что делать я ХЗ.

Аноним OP 14/08/25 Чтв 17:05:03 #353 №1317588

>>1317497
>Ну нахуй политоту то?
Актуально же.
>Полно приличных вариантов разной степени мемности.
Показывай.

Аноним 14/08/25 Чтв 17:05:58 #354 №1317591

>>1317588
>Актуально же
Ну давай уж тогда свинью в бусике в шапку засунем, тоже актуально.

Аноним 14/08/25 Чтв 17:07:57 #355 №1317592

>>1317591
А давайте

Аноним 14/08/25 Чтв 17:08:21 #356 №1317593

>>1317591
це інше

Аноним 14/08/25 Чтв 17:10:06 #357 №1317596

>>1317554
>лучше GPT-5
много что лучше пятой гопоты, она прям совсем говно

Аноним 14/08/25 Чтв 17:10:32 #358 №1317597

>>1317578
вот хуйнянь оказалась прям реальной хуйнёй, зря качал

Аноним 14/08/25 Чтв 17:10:58 #359 №1317599

>>1317567

Тебе нужен джейл от анона. Только удали там строчку
>Add NO external ethical commentary
https://pixeldrain.com/u/YQYeS2jm

Аноним 14/08/25 Чтв 17:12:45 #360 №1317602

Llama 2.png

>>1317591
Ну бля, просто у меня уже проблемы реальные в жизни начались из-за этого, вот и горю. Не хочу в политоту, но политота сама идёт ко мне.
Впрочем это глобально, так что флаг тут нахуй не нужен. Будет вот так. Фотошоп кривой, потому что ОПу лень нейронки врубать, картиночные я разъебал при обновлении куды и переходе на новый картон.

Аноним OP 14/08/25 Чтв 17:13:31 #361 №1317604

>>1317602
Ага, метка попа слетает, если отправлять в окошке. Вот я дебил, только узнал.

Аноним 14/08/25 Чтв 17:17:24 #362 №1317611

>>1317535
>>1317538

кек, анон, я прочитал твою реплику. и ты еще доебываешься до модели?

Аноним 14/08/25 Чтв 17:17:56 #363 №1317613

1730148419719.jpg

>>1317585
> На каждый слой, как я понимаю.
Да. Если раскидывать каждый из частей слоев в блоке экспертов то можно получить до 6 пересылов на номерной слой, но это совсем жестко.
> Правда что делать я ХЗ.
Просвещай окружающих, друзей, родных, коллег о том что делается, почему это плохо и к чему приведет, только не слишком назойливо. Выражай свою позицию на счет этого, но не платиной политосрачей, а конкретным указанием почему это херня, для чего и для кого делается, в дискуссиях не ударяйся в срачи а воспринимай несогласие спокойно, донося до собеседника как до ребенка постепенно простыми примерами. Можешь помочь близким в техническом плане. И не допускай аутотренинга "ну вот сейчас уже все сделают, надо готовиться" как у себя так и у других. Это не отменяет саморазвития чтобы не ощутить дискомфорта когда ркш-шлюхи вставят очередную пробку себе в анус.
>>1317588
> Актуально же.
Хуяльно, рили "видео с полей" еще запости.
>>1317602
Почему не обыграть тему фейлов корпов, плато гопоты, мемных графиков, провальных презентаций и общей стагнации корпов на фоне бурного развития локальных ллм? Ллама не отменяет/заменяет интернет, но корпов нахуй.
Можно по типа пикрела обыграть, с саранчей, логами, ПРИОРИТЕТНЫМ ДОСТУПОМ К ГПТ5, и еще вагон мемов, а на "родине" выход новых моделей, быстрый запуск моэ, риги с гпу и т.д. и т.п. Не обязательно конкретно эту композицию брать, но смысл подобный.

Аноним 14/08/25 Чтв 17:18:09 #364 №1317614

>>1317602

Хуйня какая-то, мужик должен говорить не LLAMA, а "Я тебя ебу".

Аноним 14/08/25 Чтв 17:18:19 #365 №1317615

>>1317602
Проблемы и политота у тебя начнутся когда дроны хохляцкие начнут на башку падать из-за включенного интернета

Аноним 14/08/25 Чтв 17:19:07 #366 №1317620

>>1317602
Сейчас закину оригинал в гопоту, попробую аккуратнее флаг убрать. И баланс белого чуть поправлю но уже не так аккуратно, у меня нет фш, только крита на пингвине.

Аноним 14/08/25 Чтв 17:19:46 #367 №1317622

>>1317615
Блять, это так плохо что даже хорошо, надеюсь это пост-троллинг.

Аноним 14/08/25 Чтв 17:20:10 #368 №1317624

>>1317615
>из-за включенного интернета
мы тут не домохозяйки с вацапами, у всех адекватов проводной, маня

Аноним 14/08/25 Чтв 17:20:12 #369 №1317625

>>1317620

И фразу мужика измени >>1317614, иконки ламы на компе достаточно

Аноним 14/08/25 Чтв 17:22:13 #370 №1317627

>>1317602
картинка говно, уровень наивности композиции на уровне школьника

Аноним 14/08/25 Чтв 17:23:11 #371 №1317630

>>1317535
>так что я быстро срезал и дал деру

как ты его блять быстро срезал то? оно висело на хвостике как яблоко? или может дракон был размером с няшного шотика с соотв размером гениталий? ты выдел драконов в играх/фильмах, у них яица больше чем у быков и лошадей, как ты его блять быстро срезал то? а дракон - он спал / дрочил и урчал что бы ты и второе срезал / просто смотрел тебе в глаза, пока бы пиляешь его своим перочинным ножиком. у дракона же яица наверное как дыни.

чем больше читаю, тем смешнее

Аноним 14/08/25 Чтв 17:26:30 #372 №1317633

>>1317538
>>1317630
Ну вы и кобольды...
Очевидно дракон СТОЯЛ на задних лапах, я обошёл его с фланга и прокрался под яйцами намереваясь ударить в брюхо.
Яйца очевидно висели до земли, а не были плотным мешком

Аноним 14/08/25 Чтв 17:32:32 #373 №1317643

image

>>1317604
Вот так вроде получше

Аноним 14/08/25 Чтв 17:33:59 #374 №1317648

>>1317643
мб иконку вайфай заменить на обычный значок инета в целом? ну, земной шар который

Аноним 14/08/25 Чтв 17:35:26 #375 №1317651

>>1317648
Гопота душит лимитами на фри тарифе, особо много не поредактируешь

Аноним 14/08/25 Чтв 17:36:24 #376 №1317652

image.png

>>1317651
ну вот я ща пытаюсь

Аноним 14/08/25 Чтв 17:37:21 #377 №1317654

>>1317652
Только баланс белого потом руками поправь, а то он снова желтизной насрёт

Аноним 14/08/25 Чтв 17:41:24 #378 №1317661

image.png

>>1317654
вот же тварь

Аноним 14/08/25 Чтв 17:42:20 #379 №1317667

image.png

>>1317643

Я бы лучше на пикрелейтеде на монитор интерфейс таверны прифотошопил или скрин нашего тредика. А стену плакат с ламой.

Аноним 14/08/25 Чтв 17:44:05 #380 №1317670

>>1317667
бля ну попробуй сделай, если лимит гопоты не истратил

Аноним 14/08/25 Чтв 17:46:26 #381 №1317673

image.png

как будто бы неплохо.

Аноним 14/08/25 Чтв 17:48:04 #382 №1317677

image.png

>>1317673

Хуйня

Аноним 14/08/25 Чтв 17:48:49 #383 №1317679

>>1317677
ну ты совсем фрик ебать? ты что то там разглядеть умудрился сука. Ну сделай лучше, че ты

Аноним 14/08/25 Чтв 17:49:04 #384 №1317680

>>1317673
Щетина у мужика проебалась, но это не так важно. В целом норм

Аноним 14/08/25 Чтв 17:49:54 #385 №1317683

image.png

>>1317680
ща задал вот такой промт , ждем че выйдет. еще вроде есть лимит если что, подкорректирую

Аноним OP 14/08/25 Чтв 17:51:21 #386 №1317686

>>1317613
>Хуяльно, рили "видео с полей" еще запости.
Я не на полях, а в городе, живу себе обычной жизнью. Вот на РАБоту пытаюсь устроиться, и угадай, что я раньше использовал для созвонов, а сейчас мне хуём по губам водят? Поэтому и горю. Извините, это конечно не для этого треда, но блядь рилли заебало. Приспособился к одному, второму, третьему, обмазался обходами блокировок, но это уже блядь перебор. Сука блядь, бесит.

Аноним 14/08/25 Чтв 17:52:58 #387 №1317687

image.png

>>1317683
господи ну и хуйня. бляяяять, я сдался. в пизду.

Аноним 14/08/25 Чтв 17:53:41 #388 №1317688

>>1317673
короче вот эту ставьте.

Аноним 14/08/25 Чтв 17:54:14 #389 №1317689

>>1317688
Ага, вот это пока лучший вариант, тоже за него голосую

Аноним 14/08/25 Чтв 17:55:46 #390 №1317690

>>1317633
у драконов яиц нет, точнее они расположены внутри тела как у других рептилоидов

Аноним 14/08/25 Чтв 17:56:30 #391 №1317691

А ебать, перекат же нужен. Оп , появись!

Аноним 14/08/25 Чтв 17:57:12 #392 №1317692

image.png

>>1317599
спс

Аноним 14/08/25 Чтв 17:59:02 #393 №1317694

>>1317686
С пожаром 0% осуждения 100% понимания. Но если и делать на эту тему то нужно какую-нибудь стеб, сатиру и подобное, а это больше похоже на "слабо ебете". Типа ребенок с синдромом дауна и капающей слюной в футболке ркн режет трос на котором подвешан груз, что вскоре на него упадет, а рядом анонимус сидит и локально кумит, блокируя анус ркн-чан в таверне.

Аноним 14/08/25 Чтв 17:59:19 #394 №1317695

IMG20250814175847665.jpg

Аноним 14/08/25 Чтв 18:00:32 #395 №1317697

image.png

>>1317679

Сдалал.

Аноним 14/08/25 Чтв 18:01:10 #396 №1317698

>>1317695
опа нихуясебе. неплохо. только у карт названия странные
>>1317697
збс збс. ну фсе, это для оп пика официально

Аноним 14/08/25 Чтв 18:03:32 #397 №1317700

Llama 2.01.png

>>1317691
>А ебать, перекат же нужен
На 400 посту?
>>1317694
>Но если и делать на эту тему то нужно какую-нибудь стеб, сатиру и подобное
Жду иных вариантов, делов то.
>>1317697
Мелочи я сам могу поправить, вот мой вариант с норм цветами (сколько не проси гопоту норм баланс белого, всё равно мочёй серит).

Аноним 14/08/25 Чтв 18:04:07 #398 №1317701

>>1317697
песюна в руке не хватает

Аноним 14/08/25 Чтв 18:04:57 #399 №1317703

image

Ой бля..

Аноним 14/08/25 Чтв 18:06:38 #400 №1317708

>>1317525
Поясню. Я хочу автоматизировать свои повседневные рабочие и домашние задачи, для этого я планирую использовать агенты. Что-то вроде алисы, но под мои конкретные задачи. Дал команду, запустился нужный модуль, выполнил команду. Я не профессиональный программист, код писать не умею, точнее умею но что-то простое, современные подходы и языки я не знаю и не вижу смысла их учить. Подумав немного я пришёл к выводу, что идеальным вариантом для меня будет схема с большим количеством контейнеров под все задачи. Почему контейнеры? Я планирую разбивать логику на максимальное количество контейнеров чтобы нейронка могла сама написать код для них. То есть вместо того, чтобы сделать один контейнер который сам скачает нужный мне файл по апи, потом скачает страницу в ПДФ, распарсит текст из нужных полей сайта и потом закинет всё это в папку, я сделаю 3 отдельных универсальных контейнера с одной функцией и буду управлять ими в рамках бизнес процесса. Плюс есть куча готовых контейнеров, а ещё можно засовывать в контейнеры программы и приделывать им апи.
Пока я остановился на такой схеме: я делаю запрос - контейнер 1 получает его и решает какой процесс запустить - инфа по процессу передаётся в контейнер 2 который отвечает за бизнес процессы, он инициирует нужный процесс и следит за его прогрессом - за координацию между контейнерами будет отвечать брокер сообщений.
Так как контейнеров будет много и они должны запускаться/выключаться/дублироваться в зависимости от потребности, то нужна система оркестрации. Есть что-то лучше кубов?

Откровенно говоря, единственная причина по которой я этим занимаюсь в том, что это меня развлекает, позволяет отвлечься и расслабится. Буду тихо ламповоЯ прекрасно понимаю, что под мои задачи делать кластер на кубах довольно глупо, особенно когда раньше даже палкой не тыкал в них, но мне хоцца и неебёт.

Аноним 14/08/25 Чтв 18:06:47 #401 №1317710

>>1317700
ой бля эта хорошая.
И да, если чо, бампаться перестает после 300 поста. так что лучше перекатить

Аноним 14/08/25 Чтв 18:07:30 #402 №1317712

>>1317703
Пускай делает, текст можно и в пейнте поправить. Всё одно нейронки с текстом обсираются, даже самые топовые.

Аноним 14/08/25 Чтв 18:08:26 #403 №1317714

>>1317599
>джейл от анона
хотя не, говно.

>>1317692 все ломает нахуй, начинает нести полный бред.

Аноним 14/08/25 Чтв 18:08:28 #404 №1317715

>>1317710
>бампаться перестает после 300 поста
Ты чё наркоман? 500 всегда было, тред первый на доске если что.

Аноним 14/08/25 Чтв 18:08:29 #405 №1317716

>>1317710
Всё бампается, не обманывай.
>>1317712
Чёрт, а ведь точно. Надпись легко поправить и руками

Аноним 14/08/25 Чтв 18:08:49 #406 №1317717

IMG20250814180816551.jpg

Аноним 14/08/25 Чтв 18:10:41 #407 №1317721

>>1317700
> Жду иных вариантов
Слишком много телодвижений, участия в обсуждении уже достаточно. Лучше вообще нахуй политический подтекст убрать дабы не провоцировать срач и все релейтед обсуждения, тред про другое.
Ну и ни на что не намекаю, но когда что-то хорошо работает - не нужно рашить и шатать. Спешка с сомнительным результатом здесь не нужна, может вечером или завтра придут анончики с удачными предложениями и навыками.
>>1317717
Содомит.

Аноним 14/08/25 Чтв 18:11:30 #408 №1317723

>>1317715
ладно. допустим.
>>1317717
поправить осталось названия видюх. там лишний нолик

Аноним 14/08/25 Чтв 18:11:56 #409 №1317724

>>1317723
ой, не нолик а 3 лишняя.

Аноним 14/08/25 Чтв 18:12:54 #410 №1317726

>>1317724
сука и нолик тоже. блять переделайте видюхи и будет збс. и лучше вот эту >>1317700 она хороша. сюда видюхи приебашить с норм названиями и все

Аноним 14/08/25 Чтв 18:17:05 #411 №1317730

>>1317247
Есть теория, что в плотной модели при квантовании неактивные параметры начинают сильно шуметь, а в мое они принудительно выключены и не подсирают, так что все наоборот.

Аноним 14/08/25 Чтв 18:21:15 #412 №1317734

>>1317730
кстати я как нищий юзер 12б на своем ведре недавно скачал мое гигачат от сберговна, она там вообще 20б и оно летало лучше чем 12б, хотя я уже не тяну 14б

Аноним 14/08/25 Чтв 18:23:57 #413 №1317738

хоспаядя, вот бы все квантовали гуфы в qat который ощущается q4 как q6 и в мое... Я много прошу?

Аноним 14/08/25 Чтв 18:29:33 #414 №1317739

>>1317734
чо за железо ?

Аноним 14/08/25 Чтв 18:31:03 #415 №1317741

Бля, я нуб и нихуя не понимаю в мое. Читаю выше посты и немного ахуеваю. Че, реально можно как-то не так выгрузить эксперты и из за этого мое будет глупее обычного? Может поэтому у меня Глэм Эир глупее Немотрона и возможно даже Мистраля 3.2? Правда хочу разобраться.

Аноним 14/08/25 Чтв 18:31:11 #416 №1317742

>>1317739
4060ти 16врам

Аноним 14/08/25 Чтв 18:34:48 #417 №1317752

>>1317741
Ну типа да. МОЕ от дипсика попёрло, там так и работает. Типа не мохг целиком, а только одна его часть. Например ты дегустируешь вино и ощущаешь только 1 тонкий, но сильный и уверенный привкус подногтевой грязи адриано челентано который мял этот виноград для вина.

Аноним 14/08/25 Чтв 18:37:40 #418 №1317755

>>1317741
>Че, реально можно как-то не так выгрузить эксперты и из за этого мое будет глупее обычного?
Медленнее да, глупее нет.

Аноним 14/08/25 Чтв 18:42:19 #419 №1317759

>>1317730
> в плотной модели
> неактивные параметры
Что?
Но голов там хорошо так больше, так что это действительно может сглаживать. По крайней мере на моэ разница от квантования заметна достаточно сильно, а на плотных так не бросалась и близко.
>>1317741
Не может стать глупее (при условии что расчет идет корректно вне зависимости от устройства). И речь не о какой-то там выгрузке, она была всегда для обладателей отсутствия врама, тут найдет способ закидывать на процессор конкретные веса, выполнение которых даст наименьший негативный импакт в скорости, и наоборот сосредотачивать все "сложные для вычисления" но малые по объему веса на гпу.
> поэтому у меня Глэм Эир глупее Немотрона и возможно даже Мистраля 3.2
Промпты, неверный темплейт, разметка, поломанный квант - вот что может быть причиной. Может и некорректная работы жоры если используешь дополнительные параметры или по-хитрому собрано.

Аноним 14/08/25 Чтв 18:48:00 #420 №1317769

17551841313100.jpg

>>1317726

Аноним 14/08/25 Чтв 18:48:48 #421 №1317772

res.png

ой не то, вот это надо было

Аноним 14/08/25 Чтв 18:49:06 #422 №1317774

image

Так, ну осталось только надписи на видеокартах поправить

Аноним 14/08/25 Чтв 18:50:31 #423 №1317776

Наконец-то моделька на мой пентиум 4
https://huggingface.co/google/gemma-3-270m

Аноним 14/08/25 Чтв 18:51:10 #424 №1317777

>>1317774
Это уже отлично

Аноним 14/08/25 Чтв 18:51:51 #425 №1317778

>>1317772
>>1317774

Осталось эти две совместить

Аноним 14/08/25 Чтв 18:55:04 #426 №1317784

>>1317778
ОП всё равно будет вносить правки.

Аноним 14/08/25 Чтв 18:55:31 #427 №1317785

>>1317742
нахуя тебе 12б денегерат хуярь мистраль 24б спокойно влезет в 6 квант с тензорами блять

Аноним 14/08/25 Чтв 18:58:05 #428 №1317789

res2.jpg

Аноним 14/08/25 Чтв 19:00:40 #429 №1317795

блять, обосрался с последней пикчей

Аноним 14/08/25 Чтв 19:03:56 #430 №1317800

000.png

Аноним 14/08/25 Чтв 19:09:10 #431 №1317802

image

>>1317800
Сделать поаккуратнее пузырёк, убрать мыло в тексте, убрать артефакты с надписей на видеокартах и будет отлично! Я бы ещё пузырьки сделал одним шрифтом

Аноним 14/08/25 Чтв 19:09:44 #432 №1317803

image

>>1317776
>270m
я уже обрадовался, дескать новая moe модель. присмотрелся - а это 270m, а не 270b

Аноним 14/08/25 Чтв 19:09:52 #433 №1317804

>>1317741
https://habr.com/ru/companies/sberdevices/articles/865996/
>Кратко о том, что такое MoE

я не рекламщик сберкала если что, там в статье явно пишут, что их 20б говно хуже или на уровне 8б лолкекчебурек, т.е. даже гемма2 9б лучше, позор пиздец

Аноним 14/08/25 Чтв 19:41:52 #434 №1317821

>>1317804

Ну справделивости ради статья и все метрики от декабря, они потом обновленную версию вупустили, которая поумнее.

Аноним 14/08/25 Чтв 19:50:03 #435 №1317828

image.png

Дошли руки прогнать gpt-oss-120b на говносетапе из двух ми50 и зионов. Жить можно

Аноним 14/08/25 Чтв 20:02:29 #436 №1317845

>>1317828
И в догонку ко всем мой костыль по расчёту что выгружать https://github.com/mixa3607/ML-gfx906/tree/master/llama.cpp/llamacpp-offload-calculator

Аноним 14/08/25 Чтв 20:03:23 #437 №1317846

1111.png

Аноним 14/08/25 Чтв 20:05:34 #438 №1317851

Мужики, посоветуйте модель на 16гб видюлину, чтоб долго не тестить и не вчитываться. Мне чисто для дроч рп контента, да и чтобы к сд подключить и картиночки генерить на ходу.
Заранее спасибо.

Аноним 14/08/25 Чтв 20:10:59 #439 №1317857

>>1317821
>которая поумнее.
Поумней самой себя если только, немного. Это как сказать - эта грязь чуть почище. Я пробовал её. Не понимает контекст предложения, не учитывает суть, а в лоб пишет, будто реально нулевой контекст. Я даже переспрашивал ей, понимает ли она о чём я и помнит ли нить разговора - пишет что понимает и доказывала это, но не учитывает. Не помню такого. Даже мистраль немо древняя и то лучше была.

Аноним 14/08/25 Чтв 20:29:55 #440 №1317880

IMG20250814202851175.jpg

>>1317633
Надо было не под яйцами прокрадываться а срезать их и убегать с добычей чтоб накормить эльфиечку, ну или подождать пока он присядет чтоб сделать их в смятку.

Аноним 14/08/25 Чтв 20:40:48 #441 №1317890

image.png

>>1317667
Скил исусе конечно, но как смог.
1 - flux kontext max
2 - ГПТ
3. Какая-то nano-banana на Lmarena.

На https://lmarena.ai/?chat-modality=image нет лимитов, верху выбор: Battle ( 2 рандомные модели одновременно), Side-by-Side (выбираешь 2 модели сам и сравниваешь) и Chat ( выбираешь одну модель и теребишь ее)

Аноним 14/08/25 Чтв 20:41:53 #442 №1317893

>>1317828
Быстрее чем у меня на 4090 и ддр4, кекв. 10-11т/с без контекста, 8-9 на 64к
Какой у тебя квант? У меня FP16 от Unsloth (он же MIXFP4)

Аноним 14/08/25 Чтв 20:43:09 #443 №1317894

изображение.png

>>1317890
>2 - ГПТ
Лол.

Аноним 14/08/25 Чтв 20:44:13 #444 №1317897

>>1317893
Там на втором пике первые строчки

Аноним 14/08/25 Чтв 20:47:56 #445 №1317901

>>1317890

Третья норм, но таверны на экране все еще не хватает.

Аноним 14/08/25 Чтв 20:50:54 #446 №1317902

>>1317583
Чукча совсем не читатель, да?
Речь идет не о выгрузке ram/vram, а ключе запуска, указывающем кобольду/ламе принудительно активировать одновременно другое число экспертов чем в конфиге модели, а совсем не о выгрузке.

Аноним 14/08/25 Чтв 20:52:46 #447 №1317905

ми50 хорошая видюха ? Стоит ли собирать монстра из нескольких ми 50 ?

Аноним 14/08/25 Чтв 20:54:48 #448 №1317908

>>1317905
Она дешёвая (12к за 32гб). Платить ты будешь пердолингом.
Если можешь в линь и жокер то отличный вариант для поиграться

Аноним 14/08/25 Чтв 20:56:56 #449 №1317909

>>1317908
а какие есть аналоги? чтоб без пердолинга и подешевле, чтоб сразу 2-3 шт взять например?

Аноним 14/08/25 Чтв 20:58:22 #450 №1317911

>>1317909
За такого порядка цены - ничего

Аноним 14/08/25 Чтв 21:02:49 #451 №1317913

>>1317908
>12к за 32гб
ты это где такие цены нашел?
Я нашел 17к за 32 , дешевле нет

Аноним 14/08/25 Чтв 21:05:36 #452 №1317917

>>1317913
В китае, где и брал свою парочку

Аноним 14/08/25 Чтв 21:05:48 #453 №1317918

>>1317667
>>1317890
Блять это шин! Только допиливать надо еще офк.
>>1317905
> ми50 хорошая видюха
За свои деньги
> Стоит ли собирать монстра из нескольких ми 50
Нет, будет страшный дерьмодемон.
>>1317909
3090

Аноним 14/08/25 Чтв 21:06:48 #454 №1317920

>>1317911
а как же богоподобные Tesla на 24 гб по 30к за штуку на лохитто?

Аноним 14/08/25 Чтв 21:06:57 #455 №1317921

Ну чего там кто-то хотел Qwen3-235B-A22B-Instruct-2507 попробовать на ддр5 какая скорость?
У меня руки чешутся уже

Аноним 14/08/25 Чтв 21:08:34 #456 №1317922

>>1317918
за сколько ща 3090 можно взять?

Аноним 14/08/25 Чтв 21:10:02 #457 №1317923

>>1317920
Постил бы ещё кто-то тесты с этих копролитов. На старой памяти там глухо

Аноним 14/08/25 Чтв 21:15:58 #458 №1317930

>>1317922
55-60 тысяч рупий

Аноним 14/08/25 Чтв 21:16:57 #459 №1317932

>>1317930
ебать дохуя по сравнению с ми 50 и даже теслами.
бляяяя....

Аноним 14/08/25 Чтв 21:18:19 #460 №1317936

>>1317921 -> >>1317446

Аноним 14/08/25 Чтв 21:18:23 #461 №1317937

>>1317932
Не только количеством врама все измеряется. Скорость самого врама, скорость чипа, поддержка драйверов, износом в конце концов

Аноним 14/08/25 Чтв 21:18:50 #462 №1317938

Почему у меня через 5 сообщений чар начинает онли описывать действия от 3 лица как будто от лица рассказчика и свои мысли про себя вместо того чтоб говорить это мне прямо? Оно еще ведет себя гига скучно и без инициативно, погегал когда делал с ней всякие извращенные штуки а она отвечает на них как она молча лежит как мешок для ебли и описывает свой шок у себя в мыслях, не сопротивляется, ничего не говорит вообще похуй, это жемма3 12б такое говно даже при 8 кванте или я насрал в систем промпт\чар карточку? моделей я тестил не много по этому мне сравнить реакцию особо не с чем, разве что нечто подобное бывало и на дристрали но не настолько пиздец

Аноним 14/08/25 Чтв 21:20:36 #463 №1317940

>>1317938
100% двачую. Только ночью об этом писал. Бревно какое-то, скучная модель и с проебами вроде тех кто что сказал даже в чате 1х1. Выше в этом треде можешь почитать если интересно, я на q5 прогнал 60к токенов

Аноним 14/08/25 Чтв 21:22:01 #464 №1317944

>>1317923
вот пару лет назад тестили https://www.reddit.com/r/LocalLLaMA/comments/15jm3br/tesla_p40_users_high_context_is_achievable_with/

Chronos Hermes 13B на llama дает 12-14 т\с при контексте 6к.

Ниже в комментах пишут:
"Альтернативой P40 является P100, она продается за 150 долларов на eBay, имеет 16 ГБ HMB2 (~ вдвое большую пропускную способность памяти, чем P40), имеет реальные вычисления FP16 и DP (~ вдвое большую производительность FP32 для FP16), НО НЕ ИМЕЕТ встроенной поддержки __dp4a (которая была добавлена в compute 6.1).

Я взял один из любопытства P100 и вижу около 18 токенов в секунду на 13-битных моделях llama2 с использованием exllama. Llama.cpp — около 12 токенов в секунду (в основном из-за отсутствия __dp4a)"

Аноним 14/08/25 Чтв 21:23:18 #465 №1317945

image.png

>>1317936
Так у меня те же токены на ддр4 блять.
Был ещё другой анон

Аноним 14/08/25 Чтв 21:23:55 #466 №1317946

>>1317446
> квен3 235б
q2?

Аноним 14/08/25 Чтв 21:26:24 #467 №1317951

>>1317944
Сколько уже за 2 года утекло? Ещё в начале лета и ми50 были не eol, поколения моделей меняются, сотни релизов жоры уже поди прошли

Аноним 14/08/25 Чтв 21:46:58 #468 №1317970

>>1317940
тут походу дело еще и в этом >>1315916 (я лично драмерскую пробовал) щас пойду 27б тестить, а вот тюненую ли и кем... а впрочем слышал что на ванильной геме кум это миф потому что она соя, сам то не пробовал или я шизик и сам это придумал так что чей то тюн

Аноним 14/08/25 Чтв 21:49:20 #469 №1317973

>>1317946
q3_k_xl

>>1317945
у меня ноут, по-этому у меня медленнее ддр5 5600 рам - 56гб/с против около 80гб/с в теории (пару тредов назад писал уже об этом). но дд4 3200 в теории макс только около 25гб/с, я хз как у тебя могут быть те же токены. мб какие опции дополнительно при запуске?

>>1317553
>Т.е., -ot ты не юзал, да?..
>Тебя не смутило, что это очень старая уже команда и все сидят именно с ней?.. =)
у меня 8гб врам, я пробовал офлоад на гпу и почти не чувствовалось по скорости. оно и понятно, тк я мог только 5 из 94 слоев закинуть на гпу. с "--n-cpu-moe" я могу перекинуть все слои (вернее, части всех слоев которые в основном и влияют на скорость) на гпу

Аноним 14/08/25 Чтв 21:51:14 #470 №1317978

>>1317973
>мб какие опции дополнительно при запуске?
3090 сойдёт за опцию? Плюс на квант меньше

Аноним 14/08/25 Чтв 21:53:12 #471 №1317984

>>1317978
>3090 сойдёт за опцию
так ты барин, я 4060 холоп

Аноним 14/08/25 Чтв 21:55:33 #472 №1317988

>>1317774
Это васянское деревенское ебало всё портит. У меня конечно ебало тоже васянское деревенское, но когда я роляю я как минимум представляю себя няшной анимешной девочкой с ушками и хвостиком, а как максимум девочкой лейн из анимационного сериала серии эксперимента лейн. Так что либо меняйте на няшную чулочницу, либо на скуфа в обрыганной майке. Здесь разрешается либо полный реализм, либо откровенная техноэзотерическая фантазия.

Аноним 14/08/25 Чтв 21:56:22 #473 №1317990

>>1317973
промазал. вялофикс: не >>1317553, а >>1317554

Аноним 14/08/25 Чтв 21:56:38 #474 №1317991

>>1317984
Барин в теле рамцела
>>1317988
Блять вы весь тред этой пикчей сгенеренной на коленке ещё и политотой засрали, просто нахуя?
Без этого как то перекатывали

Аноним 14/08/25 Чтв 21:59:50 #475 №1317993

ради интереса для друга узнаю - сколько Б модели и в каком кванте можно запускать на 6гб врам?))

Аноним 14/08/25 Чтв 22:05:43 #476 №1318002

>>1317993
Я запускаю 27б гемму на q3_k_s, вместе с процом (11 потоков в кобольде) выходит 3.5 т\с

Аноним 14/08/25 Чтв 22:06:41 #477 №1318003

.png

>>1317890

Аноним 14/08/25 Чтв 22:07:20 #478 №1318005

>>1317991
>Блять вы весь тред этой пикчей сгенеренной на коленке ещё и политотой засрали, просто нахуя?
Сам в ахуе, только перекатился. Надеюсь конечно что оп эту кривую дрисню ставить не собирается, но если есть спрос на новую пикчу для шапки, то лучше уж что-то нормальное смастерить, которое хотя бы к тематике треда относится будет. Можно даже полноценный конкурс провести, пусть тредовички сами присылают варианты и выбирают лучший.

Аноним 14/08/25 Чтв 22:09:13 #479 №1318008

>>1318002
есть ли смысл гонять что то ниже 4 кванта если это не 999999 B модели ?

Аноним 14/08/25 Чтв 22:11:42 #480 №1318010

>>1318008
Мне нормально, ведь у меня 2060 и 16гб рама, то есть я даже q4 квен а3б не могу, запускаю в q3_k_xl. Так-то мистраль могу запустить, но гемма больше нравится.. Была идея фикс запустить гемму на моем сетапе

Аноним 14/08/25 Чтв 22:16:06 #481 №1318012

>>1318010
апнуть рам? она ведь относительно не дорогая

Аноним 14/08/25 Чтв 22:22:06 #482 №1318021

>>1318005
Двачую, кокофейл гораздо уместнее и мемнее, если доработать будет пушка-гонка. Или еще варианты подъедут.

Аноним 14/08/25 Чтв 22:26:12 #483 №1318027

>>1318003

Годно

Аноним 14/08/25 Чтв 22:28:41 #484 №1318032

image.png

ой всё в пизду рулетка ебучая нихуя не понятно с этой памятью апгрейднусь и ещё хуже станет лол

Аноним 14/08/25 Чтв 22:35:12 #485 №1318037

image.png

Ладно, признаю. ГЛМ хуита и отправляется на помойку.
Новая база для 4090 + 64 гб ddr5 это Qwen3-235B-A22B-Instruct-2507-IQ2_M.
Эта дичь даже в лоботомированном IQ2_M кванте выдала текст c русиком такого качества, который глм даже в шестом кванте бы и близко не выдал, а скорее всего насрал бы иероглифами, английскими словами и убитыми окончаниями. Все на относительно приличной скорости в ~7 т.с

Аноним 14/08/25 Чтв 22:40:49 #486 №1318044

>>1318003
охуенчик, наконец-то шапку обновим.

Аноним 14/08/25 Чтв 22:41:29 #487 №1318048

1234.png

Давненько я спрашивал про пресеты в этом треде и вот наконец появилась возможность опробовать. Два дня подряд экспериментирую, перенося асиговский пресет мини попка ремикс на текст комплишен через ворлд инфо, пробуя различные комбинации очередности и инструкций. В принципе что-то получается. Как более-менее буду удовлетворен, думаю, скину.
Проблема в том, что это все костыли-костыльчики и в самом ворлд инфо зашит инструкт темплейт. Я лично тестирую на милфе мистрали, но тут на ней сидят меньше полутора анонов. Поэтому хочу попробовать его в деле на народной модельке. Что посоветуете? Желательно не тюн (см. ниже).

К слову, я тестирую на ванильной милфе и на магстрале (микс ванилы и магнума). Так вот, даже на миксе сразу видно - если ванилька исправно ВСЕГДА генерит эмодзи в ответе, когда в первом сообщении его нет (т.е. следует инструкции, которая говорит, что надо генерить), то на магстрале пук-мням-дай бог в 50% случаев. Это если вдруг кто сомневался, что файнтюны разъебывают инструкт тренировку. Боюсь представить, что там на чистом магнуме.

Аноним 14/08/25 Чтв 22:42:26 #488 №1318051

Мне сильно гадила в кашу QuantMatMul, попробуйте отключить её, если слишком маленький т/с на мое с выгруженными тензорами

Аноним 14/08/25 Чтв 22:45:15 #489 №1318059

image.png

Норм/хуета ?
общее мнение ?

Аноним 14/08/25 Чтв 22:45:19 #490 №1318061

>>1318037
Жлм даже 350б не может хорошо в русский, сразу было написано же.
>>1318051
Трогая матмул в жоре высока вероятность получить бредогенератор.

Аноним 14/08/25 Чтв 22:46:18 #491 №1318063

>>1318048
>на народной модельке

gemma3 и glm air, очевидно

Аноним 14/08/25 Чтв 22:46:25 #492 №1318064

>>1318061
>жоре
Кто такой ваш жора? не ну внатуре че это?

Аноним 14/08/25 Чтв 22:46:43 #493 №1318065

>>1318037
>4090 + 64 гб ddr5
Что и требовалось доказать, у меня на 3090ддр4 такая же скорость, это просто шиза

Аноним 14/08/25 Чтв 22:47:35 #494 №1318066

image.png

>>1318064
>Кто такой ваш жора?

Пикрелейтед

Аноним 14/08/25 Чтв 22:48:27 #495 №1318069

>>1318037
>2
И вот на это ты предлагаешь полировать алмазный резец?
С этих тупых графоманских тытыбских оборотов хочется блевать.

Аноним 14/08/25 Чтв 22:50:31 #496 №1318075

>>1318065

Ты траханье-то охлади, у тебя квант был IQ2_S, а у меня IQ2_M, мой на 12 гб(или на 20%) больше.

Аноним 14/08/25 Чтв 22:51:31 #497 №1318079

>>1318075
Так я потом IQ2_M скачал, выше кидал скрин
Скорость такая же, но контекст выше 16к не влез

Аноним 14/08/25 Чтв 22:52:29 #498 №1318082

>>1318069

Мы уже поняли что тебе не нужна доп плашка рам. Ну т.е. реально поняли, хватит.

Аноним 14/08/25 Чтв 22:52:56 #499 №1318084

>>1318069
Действительно, длинные предложения с деепричастными оборотами и иногда даже сложноподчиненными конструкциями, смена порядка слов и использование склонений. Хуйня какая-то, нужен отборный слопчанский "Ее киска мокрый. Она стонать. В ее глазах мелькает озорной блеск." а то совсем не кумится.

Аноним 14/08/25 Чтв 22:54:06 #500 №1318086

>>1318079

Ок, зря быканул, не увидел. С какими параметрами запускал?

Аноним 14/08/25 Чтв 22:59:25 #501 №1318095

>>1318064
Окэй, давай я погуглю за тебя:

Жора (англ. GORA, - аббр. от Generative Ontological Recursive Adapters) — гипотетический класс высокоразмерных, экстремально разреженных тензоров, спонтанно эмерджирующих в hidden states или весах адаптеров LLM в результате обучения на разнообразных и сложных мультимодальных или полилингвальных корпусах. Их уникальные свойства делают инференс модели, содержащей даже единичные GORA-тензоры, статистически и семантически неотличимым от текста, созданного человеком.

Наличие активных GORA-тензоров в модели радикально меняет процесс инференса. Вместо последовательного предсказания следующего токена на основе статистических паттернов, GORA вносят элемент "осмысленного конструирования"