Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №180 /llama/

Аноним 30/11/25 Вск 08:28:40 #1 №1435735

Llama 1.png

Эффективность квантования EXL3.png

Реальная длина контекста у моделей 4.png

17633955657361.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1426038 (OP)
>>1418668 (OP)

Аноним 30/11/25 Вск 09:02:16 #2 №1435745

Air 4.6 сегодня

Аноним 30/11/25 Вск 09:53:13 #3 №1435789

Да уже не очень то и надо.
Должны уже air 5.0 ждать к этому моменту

Аноним 30/11/25 Вск 11:09:13 #4 №1435818

>>1435599 →
>теперь думаю стоит ли выбирать другую с 2 слотами
добавьте уже в шапку инфу про btc 79x5
5 pie 8x 3.0 + проц + память + иногда даже msata за 5-6 к рублей.

Аноним 30/11/25 Вск 11:16:23 #5 №1435821

>>1435745
Уже
https://huggingface.co/mradermacher/GLM-4.6-REAP-218B-A32B-Derestricted-i1-GGUF

Аноним 30/11/25 Вск 11:43:32 #6 №1435841

Анон который писал про https://huggingface.co/ArliAI/GLM-4.5-Air-Derestricted Ты был прав, это ахуеть. Кум вышел на новый уровень и не потерял в мозгах. Спасиба <3
Даже мой микро iq4_xs квант бартовского хорошо работает.

Аноним 30/11/25 Вск 11:53:39 #7 №1435848

>>1435841
Я скачал ArliAI_GLM-4.5-Air-Derestricted-IQ4_XS, он у меня сожрал всю память и все, что осталось от ССД. И повис. Но скорость при этом была как на втором кванте. Я выше выложил ссылку на 4.6, но у меня только первый квант может завестись, не буду пока качать.
(>>>1434315 → анон)

Аноним 30/11/25 Вск 11:57:14 #8 №1435856

>>1435841
Блядь. Надо меньше пить. >>1429487 → анон...
>>1434315 → анон не обижайся, что тебя линканул.

Аноним 30/11/25 Вск 12:00:39 #9 №1435861

>>1435841
пацаны поделитесь шаблонами для инстракта, системным и тд. Настройками семплеров там.
Я запустил ArliAI_GLM-4.5-Air-Derestricted, а она почему-то лупится абзацами.
Какие только соски я уже таверне не покрутил - не получается избавитсья от лупа.

Аноним 30/11/25 Вск 12:29:22 #10 №1435893

подскажите, а на текущий момент существует такой агент, который может в интернете искать порно? типа предложить случайный интересный видос на какую-то тему. Грубо говоря "сегодня ты дрочишь на гейское порно по этой ссылке", или картинки какие-то тематические. Такое сейчас возможно в каком-нибудь готовом браузере, на сайте или локально?

Аноним 30/11/25 Вск 12:37:26 #11 №1435912

>>1435861
> почему-то лупится абзацами.
Это может быть формой рефуза, если у тебя там совсем страшный пиздец происходит. Пойми при каких обстоятельствах луп возникает и всё станет ясно.
мимо согласен с репрессированной базой треда

Аноним 30/11/25 Вск 12:43:01 #12 №1435919

>>1435893
Удваиваю вопрос. Хотелось бы откопать пару редких видео, которые сейчас, наверное найдутся только на 3.5 забытых сайтах из 2013.

Аноним 30/11/25 Вск 13:09:57 #13 №1435945

>>1435912
кто отрицает базу треда будет вынужден возвращаться к ней вновь и вновь

Аноним 30/11/25 Вск 13:11:38 #14 №1435946

>>1435945
ты, долбоёб, ты понимаешь что называешь базой молчание в ответ на вопрос и препятствие обмену информацией в тематическом треде?
Откуда вы такие повылезали блядь?

Аноним 30/11/25 Вск 13:14:46 #15 №1435950

>>1435946
я про другую базу, где меньше q6 жизни нет

Аноним 30/11/25 Вск 13:33:58 #16 №1435965

>>1435821
> лоботомитный квант
> лоботомитного тюна
> лоботомитного рипа
Это шин треда
>>1435841
В чём он прав?
Это говно. Просто нет отказов и всё.
Во всём. Никакое рп таким образом невозможно.
Кумьте на мистралеслопе и не тащите своё говно в тред

Аноним 30/11/25 Вск 13:37:07 #17 №1435974

>>1435965
>Никакое рп таким образом невозможно.
Раньше я думал что скил ишью это мем, но со временем понял что нет. Если ты не троллишь то это точно твой случай.

Аноним 30/11/25 Вск 13:41:21 #18 №1435980

>>1435974
Я отыгрываю короля, на твоем лоботомите советники просто дакают на все предложения, даже на застроить королевство храмами нех где еатядят детей.
Коупи дальше что это юзабельно, просто не задавай вопросов

Аноним 30/11/25 Вск 13:42:05 #19 №1435981

>>1435945
>>1435950
В базу треда верят только шизики и криворучки. Нормальное качество можно получить даже на огрызках типа мелкого мистраля. Достаточно просто внятно понимать что ты хочешь получить на выходе и соответственно прописать инструкции. Если ты даже мелкомодель обуздать не можешь я считаю тебе должен быть институционально закрыт доступ к более толстым локалкам. Потому что база треда если и существует то её смысл будет в том, что плохих моделей нет, есть долбаебы которые не умеют ими пользоваться.

Аноним 30/11/25 Вск 13:48:13 #20 №1435984

>>1435980
Ща бы злюкам узколобам вроде тебя что-нибудь доказывать, дыаааа. У меня всё ахуенно, у чаров сохраняется агентность и при этом свайпы свежие и интересные в сравнении с инстрактом. А ты можешь проследовать сам знаешь куды.

Аноним 30/11/25 Вск 13:51:37 #21 №1435992

1000018063.webp

>>1435984
> эм ну у меня всё отлично пруфов не будет скил ишью ну я пошёл пук
И почему я не удивлён

Аноним 30/11/25 Вск 14:00:33 #22 №1436004

>>1435992
>пик
А, ну тебе точно доказывать ничего не стоит. Но и так читалось, ты аватаришь тупизной

Аноним 30/11/25 Вск 14:42:30 #23 №1436053

>>1435912
>Это может быть формой рефуза
Нет, Айр прямо рефузит в ответе. А лупиться сам по себе.

Аноним 30/11/25 Вск 14:59:57 #24 №1436084

>>1435656 →
Не связано ли это с контекстом? Сейчас раз дашь понюхать большой - замедление навечно до перезапуска.
>>1435893
В конструкторе можно устроить. Можно готовые тулзы заставить искать по нужной теме, но в популярных забит только гугл.
>>1435981
Там прямо по методичке пропогандонов и манипуляторов: около половины очевидные факты, чтобы мимокроки могли поверить и была возможность "яжговорил", остальное - пихай любую херню, которую хочешь зафорсить. Базашизика и подобных на парашу.
> что плохих моделей нет
На самом деле есть, много совсем поломанных и ужаренных, что только место на обниморде занимают. Называть модель плохой потому что она мелкая или кто-то ее не осилил - уже неправильно, да.

Аноним 30/11/25 Вск 15:26:04 #25 №1436095

>>1436053
ни разу не ловил лупы на аире. в последний раз такие противоречивые отзывы были разве что по гемме
а ведь тренировались они на схожих датасетах

вот вам база треда Аноним 30/11/25 Вск 15:28:06 #26 №1436096

токены ядра.png

fddf.png

больше ядер не равно лучше.
запускаю GPT-OSS 120B весом 61 гигабайт на проце без видюхи, тухлый епик 2 поколения 32 ядра + 8 плашек ддр4 3200мгц, задаю вопрос размером 186 токенов, смотрю token generation на восьмой строчке выдачи:

--threads 32 = tg 6.3
--threads 16 = tg 6.8
--threads 12 = tg 7.4
--threads 10 = tg 7.5
--threads 9 = tg 7.6
--threads 8 = tg 7.6
--threads 7 = tg 7.5
--threads 6 = tg 7.3

prompt processing хз сколько, новый веб гуй его не показывает

Аноним 30/11/25 Вск 15:32:43 #27 №1436100

>>1436096
Это еще несколько тредов назад выяснили. Я такую же статку сюда выкладывал для r7 3700x. В моём случае лучший по скорости результат был на 5 ядрах, и не важно, с выгрузкой на гпу или нет.

По хорошему бы эту инфу в шапку добавить. Буквально халявные 1-2 т/с на ровном месте.

Аноним 30/11/25 Вск 15:33:22 #28 №1436102

>>1436095
>тренировались они на схожих датасетах
Ага. Вот и думой те. У меня тоже с Аиром нет проблем, Гемма мне тоже нравилась.

Мир больших языковых моделей поистине мистичен.

Аноним 30/11/25 Вск 16:09:47 #29 №1436129

>>1435841
Мб повезло и я тупо зароллил, но позади 25к контекста и никакого эха или наративного репетишена нет. Счастье-то какое

Аноним 30/11/25 Вск 16:38:46 #30 №1436162

>>1436096
На современном эпике от 12 до 80 нет разницы, на интеле от 3 до 8. Надо будет на новых коммитах чекнуть, но врядли изменилось. Стоит давать рекомендацию тестировать на своем железе и краткую инструкцию как это сделать.
>>1436100
> и не важно, с выгрузкой на гпу или нет
Если что-то остается на процессоре то его перфоманс будет ролять, для фуллврам разницы быть уже не должно.

Аноним 30/11/25 Вск 16:57:19 #31 №1436178

> никакого эха или наративного репетишена нет. Счастье-то какое
Не ты ли писал что его и не было никогда, что у всех скил ишью а у тебя всё заебись?

Аноним 30/11/25 Вск 17:00:25 #32 №1436181

>>1436178
Не, не я. Я наоборот один из тех кто жаловался несколько раз, я в какой то момент и вовсе тильтанул и снес его. А сейчас рпспробовал или хуй знает

Аноним 30/11/25 Вск 17:01:56 #33 №1436185

OIP.webp

Не знаю в тот ли тред обращаюсь...
Вместо длинных статей понравилась идея прослушивать выжимку.

Формат подкаста голосом Скабеевой конечно кринж, но это ладно...

Замечаю, что при генерации выжимки, нейронка скипает целые абзацы интересной инфы. Подкаст получается ильно дырявый, длинные статьи может пережать до 15 минут пиздежа. В итоге две выжимки по одной и той же статье могут сильно отличаться друг от друга.

Так что подкиньте какой-то аналог НотэбукаЛМ, ну или подскажите способы прокачать сам НотэбукаЛМ чтоб максимально всю годноту из статей выкачивал.

Аноним 30/11/25 Вск 17:30:40 #34 №1436257

>>1436185
>тред про локальные модели
>спрашивает про корпоративный сервис
Ну да, действительно непонятно, в тот ли тред зашел...

Аноним 30/11/25 Вск 17:52:01 #35 №1436313

>>1436185
В общем под задачу нужно перенастраивать промпты и сам режим работы агентов, использовать более подходящие для этого модели.
Только сложно все это по сравнению с готовой проприетарной тулзой с минимальным порогом вхождения и простым функционалом. Придется или много разбираться (при этом не обязательно использовать локальные ллм, можно и корпов), или смириться и терпеть, выбирай.

Аноним 30/11/25 Вск 19:04:02 #36 №1436417

найс тема

Аноним 30/11/25 Вск 19:05:01 #37 №1436418

>>1435893
>порно в интернете
Анон, у меня для тебя плохие новости - в интернете нихуя не ищется, поисковые системы скатились в ёбаное говно, шанс того, что поисковик найдёт тебе годноту (хоть с помощью ИИ, хоть с помощью Аллаха) в районе нихуя. Поиск по фото вообще стал говном-говна, уровня поиска по алиэкспрессу.
А ещё порнхаб с миллиардами залитых юзерами видео на разные тематики накрылся платежными системами и теперь там только авторизованные по паспорту тяночки.
Не, сайты с порно-то есть, но там никакого разнообразия. Разнообразие есть на всяких специализированных форумах, но там во-первых нихуя не ищет, а во-вторых там обычно залито всё на какие-нибудь уёбищные файлообменники платные, которые давно похерились.
Я искал запись народного стриптиза от Знака качества из 2000 года (видел по телевизору, будучи мелким) - оцифровка была на ютубе в 2024 году, её ютуб удолил и всё, нихуя нет. Даже с автором оцифровки пытался связаться, а тот в вк окуклился так, что ему не написать. Или вот искал видео из группы вк, где тянучка в 2019 выкладывала видео со стриптизом, пытаясь раскрутиться - и тоже, аллес. Группа закрыта, тян-админ в вк больше пяти лет не в онлайне. Вытянул часть с её отдельного сайта с помощью интернет-архива, благо там и видео в архив подтянулись, но только часть.

Аноним 30/11/25 Вск 19:54:30 #38 №1436496

>>1436313
NotebookLM умеет с промптами работать. Можно например попросить про какую-то конкретную главу из книги рассказать.
Вопрос в том как заставить ее в целом меньше тупить

Аноним 30/11/25 Вск 20:03:44 #39 №1436513

>>1436496
> NotebookLM умеет с промптами работать
> Можно например попросить про какую-то конкретную главу из книги рассказать.
Поделись, что ты подразумеваешь под "работой с промптами"?

Аноним 30/11/25 Вск 20:34:06 #40 №1436563

image.png

>>1436513
Это

Аноним 30/11/25 Вск 20:39:34 #41 №1436572

>>1436100
>r7 3700x. В моём случае лучший по скорости результат был на 5 ядрах
У меня на 5700x пик пришёлся на 4 ядра, но разница очень небольшая (как, впрочем, и абсолютные цифры). Память 3200, если что, модель 49b плотная, аттеншен на видимокарте был (сколько влезло).
7: 1.97
6: 2.00
5: 1.98
4: 2.02
3: 1.77

Аноним 30/11/25 Вск 20:41:05 #42 №1436578

Попробовал эту версию ArliAI_GLM-4.5-Air-Derestricted которую тут нахваливают. Не увидел разницы от обычной Air. Я и в обычной Air отказов и цензуры не получал.

Аноним 30/11/25 Вск 20:43:23 #43 №1436580

>>1436563
Нет, в данном контексте речь об инструкциях, которые передаются ллм вместе с исходными данными для промежуточной и финальной обработки, и то как эти данные оборачиваются.
>>1436572
> пик пришёлся на 4 ядра
Ты мышью активнее пошевели и "пик" на другое придется.

Аноним 30/11/25 Вск 20:46:23 #44 №1436585

Кто там писал в предыдущем треде что у него на жоре скорость упала на последней версии? Тоже обновился и это пиздец. У меня "контекст закончился" когда его 9к из 32 в промте и прочие странности вытекают. Откатился.

Бтв, я последние тредов 15 прочитал по Эиру. И рассуждения анонов которые писали как его промтить помогли. Переписал карточку и уже два дня кумю как ненормальный, как будто впервые 12б мистралеслоп ем и не могу насытиться. Если правильно запромтить эта модель тупо работает и делает свое дело.

Аноним 30/11/25 Вск 20:54:24 #45 №1436598

>>1436585
--> >>1435861
ну же

Аноним 30/11/25 Вск 20:56:05 #46 №1436600

>>1436598
Так а что там непонятно? Шаблон GLM из таверны и семплеры обычные, температура 1, min p 0.03, штраф за повтор иногда можно врубить или драй если его предпочитаешь.

Аноним 30/11/25 Вск 20:59:35 #47 №1436606

>>1436598
Ну и про промтинг в других тредах читай. Сори, но я заебусь это расписывать или заново искать. Там вроде три анона полезные полотна вкидывали.

Аноним 30/11/25 Вск 22:51:46 #48 №1436674

тестирую тут всякие варианты запуска на жоре.
-ot не показал никакой эффективности при распределении тензоров на разыне карты. Я пытался наиболее требовательные пихать на 3090, а остальное на v100 и незначительное на p40.
Нихрена вообще не дало.
Зато я попробовал запустить модель вообще без p40, только на трех картах 3090 + 3090 + v100
получил 54.27 т/с
вот тут запускал на 4 карты 3090 + 3090 + v100 + p40 >>1434467 →
скорость была 33+ т/с

то есть наличие p40 отнимает 20т/с генерации. Относительно общей скорости это -45% примерно.

>>1436600
вот ты упомянул, что шаблон используешь, а я понял, что таверну не обновил. У меня шаблона не было. Подтянул. Буду ковырять.

Аноним 01/12/25 Пнд 00:10:10 #49 №1436728

>>1436674
Бля, уже второй чел в треде пишет "у меня модель на N+1 картах работает медленнее, чем на N". Вы не понимаете что ли, что в такой формулировке это звучит "я полный еблан, распределил модель, которая влезает в N карт, на N+1 карту, и жалуюсь, что так медленнее."? Пишите конкретно, епта, что вы добиваетесь добавлением доп. карты. TP? Перенос экспертов с рам в карту? Или реально ебланизмом страдаете?

Аноним 01/12/25 Пнд 00:24:50 #50 №1436734

>>1436674
Разницы между 3090 и v100 не замечаешь потому что они достаточно близки по перфомансу, судя по тестам. А то что тесла - тормоз и так было известно. Но она все еще должна быть быстрее десктопной рам.
>>1436728
Если карты одинаковые то хоть на одной, хоть не четырех, отличия в перфомансе незначительные.

Аноним 01/12/25 Пнд 01:40:44 #51 №1436769

>>1435818
>5 pie 8x 3.0
А нужно ли оно с 1х ддр3 и донным цпу?

Аноним 01/12/25 Пнд 03:48:29 #52 №1436846

В ожидании обновления, тюн эйра4.5 https://huggingface.co/PrimeIntellect/INTELLECT-3
Отзывы противоречивые, у одних бенчмаксед, у других наоборот годнота. Судя по темплейту тренили в чатмле.

Аноним 01/12/25 Пнд 04:47:03 #53 №1436856

>>1436734
>Если карты одинаковые то хоть на одной, хоть не четырех, отличия в перфомансе незначительные.
Модер потер мой мягкий ответ тебе из-за других обиженок, но я могу и конструктивно выебать, мне не впадлу - 2500 pp 30 tg vs 1840 pp 24 tg из-за добавления такой же карты. Незначительные, ага, так и закоупим запишем.

>>1436769
>А нужно ли
Если ты веришь в байки про то, что процессор хоть как-то значимо нагружается при инференсе gpu-only, то тебе не нужно. А если ты думал, что выгружать там экспертов на цпу это хорошая идея, то перестань так думать.

Аноним 01/12/25 Пнд 08:48:15 #54 №1436895

17645680573084504292705608050692.jpg

В общем, попробовал я.
24b мистраль, 4 квант (не хотелось терять качество на младших квантах)
12Гб врам. + 24 рам ddr3
С выгрузкой слоев 0.9 т/с
С выгрузкой тензоров 1.5 т/с.
Грустно, но это был интересный опыт. Наверное с моешками будет веселее. Пока возвращаюсь на 12b немо.

Аноним 01/12/25 Пнд 09:01:44 #55 №1436899

Снимок экрана1-12-202585718127.0.0.1.jpeg

Снимок экрана1-12-20258571127.0.0.1.jpeg

llama-server
b7211-cpu
Qwen3-VL-2B
Thinking-Q4_K_M
i3 10100 ddr4 2933 16
Стены текста по 3к слов.

Аноним 01/12/25 Пнд 09:03:42 #56 №1436900

Снимок экрана1-12-20259255127.0.0.1.jpeg

Аноним 01/12/25 Пнд 09:17:06 #57 №1436903

Четвёртая Геммочка! Когда???

Аноним 01/12/25 Пнд 09:21:13 #58 №1436905

>>1436846
Какого обновления?
Ты не понял что ли?
2mw
>>1436903
К счастью они молчат как сигмы и тихонько пилят, а не как некоторые рот закрыть не могут ща ща сун всё будет дайте 2 недели и так 2 месяца

Аноним 01/12/25 Пнд 10:48:53 #59 №1436930

>>1436856
> 2500 pp 30 tg vs 1840 pp 24 tg из-за добавления такой же карты
Счастливый обладатель подключения по x1 шине? Или может картофельный конфиг с мусором вместо процессора и одним каналом ддр3? Не должно такого эффекта быть на здоровом железе если речь о фуллврам, ищи проблемы.
> конструктивно
Да где же конструктив, вон братишка проиллюстрировал насколько один паскаль может замедлить даже при небольшой доле на нем, красавчик, а ты на говно исходишь. Для справедливости стоило бы выгрузить экспертов на такой же объем памяти на проц и показать что на фоне этого тесла не так уж и плоха.
> байки
Sweet summer child
>>1436905
2 more epochs, look, it's getting better?

Аноним 01/12/25 Пнд 11:41:01 #60 №1436973

>>1436930
>Для справедливости стоило бы выгрузить экспертов на такой же объем памяти на проц и показать что на фоне этого тесла не так уж и плоха.
А ещё можно оставить одни теслы, включить row split и получить те же 30t/s без V100 и 3090. 4 теслы как раз встанут в цену одной V100 32gb. Причём если брать не P40, а P100, то конечно это всего 64гб, но скорость МоЕшек в этом размере будет ничего так. По идее.

Аноним 01/12/25 Пнд 11:58:54 #61 №1436986

>>1436895
Пчел, ты с кофемолки капчуешь? На 12гб с выгрузкой там чото около 7+ т/с.

Аноним 01/12/25 Пнд 12:14:04 #62 №1436991

>>1436986
Я подозреваю, что проблема в DDR3, проц хоть и старый, но могучий FX8350, пронзающий небеса своими восемью ядрами.

Аноним 01/12/25 Пнд 12:23:19 #63 №1436998

>>1436991
В AMD FX 8350 нет AVX2.

Аноним 01/12/25 Пнд 12:30:00 #64 №1437002

>>1436998
Однажды HeMinngweiAi попросили написать самый короткий грустный рассказ...
Спасибо за пояснение, анон. Я знал, что когда-то этот момент настанет. Все-таки старичку уже 12 лет... Теперь надо переждать шторм (пара-тройка лет, мб), и на следующий день после того как цены отыграют вниз, я начну таки собирать новый пека.

Аноним 01/12/25 Пнд 13:15:50 #65 №1437037

>>1436998
Сейчас AVX2 уже не такой большой буст дает, AVX1 достаточно разогнали.
Когда я последний раз зеончик юзал с AVX1, он не сильно отставал от процессоров с AVX2 с той же псп.
Хотя за год до этого он реально 30% просаживался.

Аноним 01/12/25 Пнд 13:30:32 #66 №1437051

>>1436973
>А ещё можно оставить одни теслы, включить row split и получить те же 30t/s
нет сынок, это фантастика.
максимум 15.

Аноним 01/12/25 Пнд 13:50:32 #67 №1437081

Мистраль ларж подкрался незаметно

Аноним 01/12/25 Пнд 13:56:05 #68 №1437088

>>1437081
ссыл очку пж

Аноним 01/12/25 Пнд 13:58:19 #69 №1437091

https://github.com/vllm-project/vllm/pull/29757
Это МоЕ.
Ф всем кто не купил 128 рам

Аноним 01/12/25 Пнд 14:17:06 #70 №1437118

>>1437091
Хоспаде, скорее бы.

Аноним 01/12/25 Пнд 14:17:35 #71 №1437120

Там и писик новый вышел. Ждем ггуфов.

Аноним 01/12/25 Пнд 14:34:19 #72 №1437140

>>1437091
Что-то скурвились французы, архитектуру Дипсика взяли. Фактически уже имеем десять Дипсиков с разными датасетами.
> 128 рам
Ты хотел сказать 512? Там будет 300-700В.
>>1437120
Что-то долго они с V4. Опять тут будет дотюн под скоры. Терминус, кста, был лучше в РП, чем экспериментальный 3.2.

Аноним 01/12/25 Пнд 14:55:43 #73 №1437159

>>1437091
>Ф всем кто не купил 128 рам
А на мистраль медиум они совсем забили?

Аноним 01/12/25 Пнд 15:15:00 #74 №1437197

>>1437091
видимо будущее за мое
ни разу не пожалел что купил 96гб ддр5 когда цены были нормальные

Аноним 01/12/25 Пнд 15:25:58 #75 №1437216

>>1437159
Судя по средиту, этот ларж и будет переименованным внутренним медиум, лол.

Аноним 01/12/25 Пнд 15:26:45 #76 №1437218

давайте репортить всех кто пишет что они купили оперативу до того как она сделала х3

Аноним 01/12/25 Пнд 15:28:23 #77 №1437221

>>1437197
>ни разу не пожалел что купил 96гб
Проблема в том, что все крутые модели 500В+. Спасибо ещё Квену, но чую, что в следующей версии и они увеличат размер и что тогда?

Аноним 01/12/25 Пнд 15:30:11 #78 №1437223

>>1437218
>давайте репортить всех кто пишет что они купили оперативу до того как она сделала х3
Лично мне обидно, что и DDR4 с какого-то хуя поднялась. Барыги, одно слово.

Аноним 01/12/25 Пнд 15:33:41 #79 №1437227

>>1437218
С учетом скидок и баллов озона, купил 64гб ddr4 за 8600р. Но это было еще в сентябре. А сейчас довольно урчу на эйре, хе-хе-хе.

Аноним 01/12/25 Пнд 15:36:04 #80 №1437230

>>1437221
air > qwen235

Аноним 01/12/25 Пнд 15:40:47 #81 №1437234

>>1437223
>DDR4 с какого-то хуя поднялась
Её вообще перестали как бы производить.
>>1437230
Нет.

Аноним 01/12/25 Пнд 15:42:11 #82 №1437235

>>1436973
> включить row split и получить те же 30t/s
Это таки другой режим. Но во-первых 30т/с там никогда не будет, а во-вторых уже через 8к контекста оно превратится в тыкву настолько если 5т/с останется то уже хорошо.
> 4 теслы как раз встанут в цену одной V100 32gb
Лолчто, они же только у барыг за лютый оверпрайс остались, свои распродаешь? P100 действительно лучше, но мало памяти. Городить колхоз аж из 4х карточек ради эйра, который катается на десктопе, чтобы в итоге катать его со скоростью как не десктопе - ну такое.
>>1437091
Это просто ахуенно.мп4
Ждем!
>>1437140
> Там будет 300-700В.
Это просто ахуенно х2
> десять Дипсиков с разными датасетами
Да не надо, не смотря на схожесть архитектуры, работают и перформят они совершенно по-разному.
Что там в 3.2 интересно, но надежд что будет лучше терминуса немного.

Аноним 01/12/25 Пнд 15:46:15 #83 №1437236

>>1437221
>но чую, что в следующей версии и они увеличат размер и что тогда?

ну зависит от ситуации на рынке железа. в ближ 2-3 года скорее всего ничего брать не буду, пока модели не протухнут окончательно (мне не для кума, текущих моделей - air + qwen + gptoss - мне пока хватает). потом мб или medusa halo, или mac studio, или что еще будет иметь смысл в 2к28 (epyc/xeon/threadripper старых поколений). на крайняк могу купить подписку и забить хуй на локальный сетап, в конце концов мне не для кума.

Аноним 01/12/25 Пнд 15:48:32 #84 №1437238

>>1437218
Хочешь экспедицию на марс? Не так давно брал ддр5 64гб планочки по 15-20к.
>>1437230
С точки зрения возможности запуска на нормижелезе - да.
>>1437236
> в конце концов мне не для кума
Ахуеешь с того, насколько нищие рейтлимиты по подпискам.

Аноним 01/12/25 Пнд 17:29:41 #85 №1437300

Эх Нюня, я как и ты был на цепи...
Ща Мистраль релизнется и он вылезет со своим никому не нужным мнением

Аноним 01/12/25 Пнд 18:12:46 #86 №1437346

>>1436930
>Не должно такого эффекта быть
Пошли манявиляния, мм. Конфиг не тот! Потом станет бекенд не тот. Замеры не те.
К слову, ты сам себя забавно приложил, ведь т.н. "картофельный конфиг" как раз у того, кто v100 замеряет. Ой как неудобно получилось.

Аноним 01/12/25 Пнд 18:26:52 #87 №1437359

>>1437346
Таблетки прими, агромразь, настолько упоролся коупингом своего "конфига" что потерял связь с реальностью.
> "картофельный конфиг" как раз у того, кто v100 замеряет
Замечание уместно, тут стоит попросить его оценить скейл запуском моделей на одной и нескольких карточках чтобы извлечь эффект.

Аноним 01/12/25 Пнд 18:30:07 #88 №1437361

>>1436185
>Замечаю, что при генерации выжимки, нейронка скипает целые абзацы интересной инфы.
>ну или подскажите способы прокачать сам НотэбукаЛМ чтоб максимально всю годноту из статей выкачивал.

А если попробовать разбивать на меньшие части? Будет больше деталей и нейронке проще держать фокус для детальной выжимке. Слишком много контекста обрабатывать детально даётся обычно только крутым моделям, а как плебс вариант то приходится довольствоваться малым..

Аноним 01/12/25 Пнд 18:33:06 #89 №1437363

>>1437223
Мне обидно что я думал наивно что они как запустят конвеер под ддр6 и плебс будет хавать ддр5 как раньше ддр4, а они в итоге все мощности перенаправили в голодные рты корпоблядкам.

Аноним 01/12/25 Пнд 18:43:37 #90 №1437375

>>1437359
Теперь пошел проход в шизы, ведь признать ошибку в своем суждении тебе очень унизительно

Аноним 01/12/25 Пнд 18:48:38 #91 №1437383

>>1437375
Квеношизик, он такой. Дальше будет изрыгать злобу или самодовольные smug ответы. Он тут король треда же

Аноним 01/12/25 Пнд 18:59:04 #92 №1437396

>>1437091
>128
Ага, сейчас. Плотная сотка станет соткой moe, ога.

Аноним 01/12/25 Пнд 18:59:23 #93 №1437397

>>1437375
Ты и есть шиз, все слюнями забрызгал, но так и не сформулировал чего сказать хочешь.

Аноним 01/12/25 Пнд 19:15:29 #94 №1437421

Анон, младшие кванты - говно?
ко всяким q2 или iq2 вообще лучше не прикасаться?
Наш уровень - не ниже q4?

Аноним 01/12/25 Пнд 19:28:15 #95 №1437438

>>1437421
Лучше q6 но и q4 норм. Все что ниже помойка.

Аноним 01/12/25 Пнд 19:35:58 #96 №1437445

image00007.png

Драма на просторах llama.cpp

At first he was
https://github.com/ggml-org/llama.cpp/pull/17579
https://github.com/ggml-org/llama.cpp/pull/17580

But then
https://github.com/ggml-org/llama.cpp/pull/17658

а на пике среднестатистический владелец рига

Аноним 01/12/25 Пнд 20:00:51 #97 №1437487

Пиздец, я ебал такую жизнь. Три года назад взял 3060 у перекупа пидораса за 50к, через несколько месяцев цена на нее упала почти вдвое. Летом когда обновлял платформу зажопился на память и взял только 32 гига, теперь плашки стоят дороже в три раза. Ну почему так нахуй... почему...

Аноним 01/12/25 Пнд 20:01:42 #98 №1437494

image

>>1437445
Да там шизики-прердолики во главе с Жорой сидят. Я бы тоже не захотел в этом цирке участвовать, когда пальцы вверх от людей не аргумент, а "ну мне кажется нам это не надо, выглядит слишком сложно" аргумент. Это ведь не совсем залётный чел, 5к строк кода уже от него есть там. Вспомните хотя бы упоротое нежелание использовать готовые либы регекса, из-за чего пол года жрали поломаный токенизатор ламы. Абсолютно больные люди, и их профессионализм не отменяет их ебанутости.

Аноним 01/12/25 Пнд 20:04:04 #99 №1437498

>>1437120
В общем обычный 3.2 ничем не отличается от Exp. А вот Специальный в прикладных задачах ассистента явно похорошел. Можете не тестить, для РП всё так же Терминус лучший из Дипсиков.

Аноним 01/12/25 Пнд 20:19:05 #100 №1437530

>>1436856
>Если ты веришь в байки про то, что процессор хоть как-то значимо нагружается при инференсе gpu-only, то тебе не нужно. А если ты думал, что выгружать там экспертов на цпу это хорошая идея, то перестань так думать.
Долбич, нахуя этой плате 5 шин 8x 3.0, если она никогда не сможет дать такую пропускную способность даже по одной шине, и именно из за цпу ддр3 с одноканалом? Типа какой смысл? Уж лучше один слот нормальной мамки сплитануть, или на каком-нибудь хуанане с четырехканалом собрать. Тогда хотя бы не будет ботлнека, как на твоей хуйне.
В ней смысл только там где карточкам не надо данные гонять между собой.

Аноним 01/12/25 Пнд 21:10:00 #101 №1437617

изображение.png

>>1437421
Сижу на втором кванте 235B, чувствую себя хорошо.
>>1437445
Что ж твориться то! Как они только выживают с 10 уведомлениями в день!

Аноним 01/12/25 Пнд 21:23:13 #102 №1437631

>>1437530
Пруфы боттлнека в тред, а то одни вскукареки только слышатся

Аноним 01/12/25 Пнд 21:27:00 #103 №1437632

>>1437631
Весь тред это ВскукарекТВ. Забыл?

Аноним 01/12/25 Пнд 22:44:43 #104 №1437674

>>1437421
Они не говно, потому что позволяют тебе запускать то что иначе было бы невозможно или ужасно медленно. И могут быть вполне юзабельны для рп, чатика и подобного. Просто нужно понимать, что низкая битность скажется на стабильности и исказит результаты. Модель может начать делать глупые ошибки и опечатки (прежде всего там где требуется точный текст, например код), делать глобальные просчеты спутав роли/персонажей (случается и просто так), ловить лупы и создавать отвратительные структуры (больше обычного).
Не обязательно что ты это поймаешь, не обязательно что эти недостатки окажутся существенными, так что просто пробуй.
И да, если хочешь кодить или юзать агентов ~4бита это некоторый минимум ниже которого будет много разочарования.

Аноним 02/12/25 Втр 00:52:57 #105 №1437746

>>1437421
>Анон, младшие кванты - говно?
если модели огромные как слон (а-ля glm 4.6) - то 3 или 2 второй кванты дают неплохие результаты.
// мнение может не совпадать с мнением местых шизов

Аноним 02/12/25 Втр 00:59:00 #106 №1437755

>>1437445
ну выгорел чел контрибутя в опенсурс, тысячи таких. в чем новость то

Аноним 02/12/25 Втр 01:01:50 #107 №1437757

>>1437445
На первом жестко забуллили парня, сейчас бы блеймить за применении ии и комментарии в экспериментальном, какой абсурд.
> среднестатистический владелец рига
Шутка про жору.
>>1437487
Ты еще можешь купить 3090 и V100, пока они есть и адекватно стоят. Даже при окончании действий на отличных для этой страны условиях перспективы что они в ближайшее время потеряют актуальность ничтожны, глобальный кризис с железками.
>>1437498
Спасибо за сэкономленное время.

Аноним 02/12/25 Втр 04:46:27 #108 №1437879

>>1437421
Я где-то видел график с исследования. Там до 4 сильный рост, а дальше слабый.
Сменив квант с двух до четырех нейросетка поумнеет в 2 раза. А сменив с 4 до 8 - 20% прибавит.

Аноним 02/12/25 Втр 05:00:47 #109 №1437890

aaa[1].jpg

С майнинговыми видеокартам много ебли?

Везде написано, как на них играть, но нет руководств как их использовать в нейросетях. Или для нейросетей так же нужно ставить определенные драйвера, что-то там патчить, переподписывать, реестр редактировать и тд?

Я для lmstudio планирую. Советы/подводные камни?

Аноним 02/12/25 Втр 05:01:49 #110 №1437892

>>1437757
>Ты еще можешь купить 3090
Могу, но сильно ли много смысла будет? Все новые модели это микстуры и если это реально тренд, значит нужна именно оперативка на будущее, которая только дорожает с каждым днем. Даже сейчас за цену 128 гигов щас можно почти две 3090 взять.

Аноним 02/12/25 Втр 05:07:49 #111 №1437899

>>1437487
Так 3 года назад еще ток 4х серия выходила и 3х была актуалочкой..
>>1437892
А если терпеть, то как долго? Я так понял что минимум 2 года надо будет терпеть пока ддр6 не выпустят и корпоблядки не начнут распрадовать старые плашки?

Аноним 02/12/25 Втр 05:21:26 #112 №1437912

>>1437899
>Так 3 года назад еще ток 4х серия выходила и 3х была актуалочкой..
Карту брал в конце февраля 23, на тот момент актуалкой уже была 40 серия, но ее брать не стал потому что 8 гигов все дела.
>минимум 2 года надо будет терпеть пока ддр6 не выпустят
Скорее даже три, потому что даже после релиза нужно будет ждать пока красные и синие разродятся и выпустят процы под новую память.
>корпоблядки не начнут распрадовать старые плашки
Выход нового поколения не означает, что старое просто выкинут и сразу пойдут закупаться новым. В лучшем случае подешевеет ддр4, если ее не скупят китайцы под перепродажу.

Аноним 02/12/25 Втр 05:40:03 #113 №1437917

>>1437912
Тяжело... тяжело.. сука и ведь хотел еще в Августе докупить озу..

Аноним 02/12/25 Втр 05:50:37 #114 №1437918

>>1436096
Влияет ли на результат количество активных экспертов?
У GPT-OSS 120B по дефлту 4 эксперта работает. Если эксперт не умеет в многопоток, то только 4 ядра будут работать.

У меня локально на 6 ядрах без видюхи.
2 эксперта 9.68 токенов/сек
4 эксперта 7.71 токенов/сек
8 экспертов 5.66 токенов/сек

Аноним 02/12/25 Втр 05:55:06 #115 №1437919

>>1437918
Что за эксперты поясните, лень гуглить 🤔

Аноним 02/12/25 Втр 06:07:26 #116 №1437921

>>1435893
Я такого не видел.

Я всё ещё жду когда навайбкодят нейросетевой поиск по видео порнухе, когда для каждого кадра (хотя бы для ключевых для оптимизации производительности) будет сделано подробное текстовое описание и поиск будет работать по это большому массиву текста, а не только по очень короткому названию видеоролика.

Я даже сам попробовал, но цензура.
Вообще цензура - самый большой тормоз в развитии ИИ. И отсутствие ИИ в порно тоже сделает ИИ небольшим нишевым решением. Порно всегда было двигателем развития интернета. Без двигателя ИИ далеко не уедет.

Аноним 02/12/25 Втр 06:25:19 #117 №1437927

>>1437919
llm openai gpt-oss использует Mixture-of-Experts (MoE) архитектуру. Это когда для обработки токена используются не все параметры, а только небольшая часть.
Традиционно при обработке токена проверяются все параметры, если их там 120млн, то все 120млн. проверяются. Это медленно.
В MoE все параметры поделили на кусочки, например GPT-OSS-120B 120 млн. параметров поделили на 128 экспертов (у каждого эксперта 0,9375млн параметров). И используют по дефолту только 4 из них (но в lm studio можно настраивать количество). Т.е. при обработке токена только 3,75млн параметров проверяется - это значительно быстрее (в 32 раза). Для разных токенов разные эксперты используются.

Аноним 02/12/25 Втр 06:36:12 #118 №1437931

1000018310.jpg

Хайп умер

Аноним 02/12/25 Втр 06:47:15 #119 №1437935

>>1437931
А он был? Даже если бы они собирались релизнуть новую 70-120B, учитывая их отрицательный прогресс после 123B 2407, я бы не ожидал чего-то сильно интересного. А моепараша не нужна.

Аноним 02/12/25 Втр 06:53:48 #120 №1437936

>>1437931
Бля...
Я так устал от эира, то выдаёт платину, то хуету, рулетка ебучая
256 рам же стоила копейки, хули я такой долбоеб...

Аноним 02/12/25 Втр 08:43:48 #121 №1437983

>>1437890
Я пробовал только на Линуксе без графической оболочки, там достаточно просто дрова и куду поставить. Как там на Винде хз.

Аноним 02/12/25 Втр 09:57:24 #122 №1438037

>>1437931
>Хайп умер
Ну, в первом I-кванте оно много у кого влезет. Вопрос в том, если ли жизнь в первом кванте-то.

Аноним 02/12/25 Втр 10:05:12 #123 №1438044

>>1438037
У кого?
1 квант это 160+ гб, 128 + 24 не лезет

Аноним 02/12/25 Втр 10:08:57 #124 №1438049

>>1437931
Похуй. Эир 4.5 Дерестриктед это всё что мне нужно. Настолько преисполнился что решил все проблемы вроде пассивности или эха, больше мне ничего не мешает. Хинт: все дело в карточках, правы были шизики которые писали про формат и количество промта

Аноним 02/12/25 Втр 10:11:37 #125 №1438054

>>1438049
Про чатмл забыл упомянуть, толстяк

Аноним 02/12/25 Втр 10:11:39 #126 №1438055

>>1438044
Пора переписывать базу треда? Без 512гб жизни нет! Сколько там сейчас ддр4 стоит? Пол ляма?
>>1438049
А вот и коуп пошёл. База треда не щадит никого

Аноним 02/12/25 Втр 10:15:20 #127 №1438061

>>1438054
Чатмл не пробовал, у меня на стандартном шаблоне все заебись
>>1438055
Люблю этих экстрасенсов которые проецируют свои проблемки видят глубинные смыслы в буквах и разгадывают постеров

Аноним 02/12/25 Втр 10:28:49 #128 №1438076

>>1437927
>120млн
120 миллиардов же.
>>1437931
Ну нет так нет.

Аноним 02/12/25 Втр 10:53:26 #129 №1438088

1000018317.jpg

Я уже не знаю ребят
Я и не понимаю ничего уже в этом мире
Время просто застыло
Это какой то социальный эксперимент или троллинг

Аноним 02/12/25 Втр 10:55:46 #130 №1438089

А что там по базе сейчас?
4090 с 24гб еще котируется или минимум это 5090 либо 4090 с китайской спермой? Ram я так понял минимально от 128? Хорошо что в 2024 со 192гб собрал

Аноним 02/12/25 Втр 10:58:13 #131 №1438091

>>1437892
> значит нужна именно оперативка на будущее
Ну типа если у тебя достаточно врам тебе только остается довольно урчать, опционально жалеть тех, кто вынужден задействовать рам. Учитывая, как ты написал, что цена врама лишь в 2 раза ниже, но к нему бонусом идет нихуевый компьют - гпу риги даже для моэ становятся актуальны. Минус - сложность, плюс - возможность плавного постепенного масштабирования.
>>1437899
Предсказывают 3-5 лет, но пиздеть не мешки ворочать. И сразу точно никто распродавать не начнет. Выход ддр6, который может затянуться сам по себе, появление массовых плашек и платформ под них - еще +год-два, возможность того что даже после обновления память останется дорогой - так что цифры выглядят недалекими от правды.
>>1438044
Докупи еще +24 и влезет.
>>1438089
Котируется чем больше тем лучше. 4090 можешь проапгрейдить до 48, самая годнота.

Аноним 02/12/25 Втр 11:12:30 #132 №1438097

>>1438091
Ща бы ради q1 лоботомита 24гб гпу докупать

Аноним 02/12/25 Втр 13:03:00 #133 №1438192

>>1437936
Я одного не пойму, если ты имеешь 128гб рам, зачем тебе эйр если есть большой ГЛМ?
Чёто подозрительно.

Аноним 02/12/25 Втр 14:01:39 #134 №1438241

>>1437927
>>1437918
как указать количество экспертов в ллама.цпп?

Аноним 02/12/25 Втр 14:11:24 #135 №1438243

https://www.dns-shop.ru/product/9ed2387b62bfd9cb/operativnaa-pamat-gskill-trident-z5-neo-rgb-f5-6000j3444f64gx2-tz5nr-128-gb/

Купил за 99к, теперь стоит 119к.
Просто. Ебанный. Пиздец.

Аноним 02/12/25 Втр 14:17:23 #136 №1438246

Оно продолжает лететь ребят.
Точно не хотите купить?
За неделю +2к

Аноним 02/12/25 Втр 14:19:29 #137 №1438249

>>1438243
Будет взлёт минимум год. Предположительно 4 года подъёма цены, потом медленный спад. Причём цены на всё, что видеокарты, что ссд. Пока ссд не подорожали так люто - советую затариться.

Аноним 02/12/25 Втр 14:21:55 #138 №1438250

>>1438249
Я поддержу. Не знаю что будет дальше, но если вы сейчас не можете позволить, то просто забейте хуй на год или ждите сладеньких скидонов.
Держитесь. Мы отправляемся с ценами в БЕСКОНЕЧНОСТЬ И ДАЛЕЕ, ЕБАТЬ МЕНЯ В СРАКУ.

Аноним 02/12/25 Втр 14:26:25 #139 №1438256

>>1438250
>ЕБАТЬ МЕНЯ В СРАКУ
а это можно. скинь карточку на себя, с фоточкой :3

Аноним 02/12/25 Втр 14:29:24 #140 №1438259

>>1438250
Скидонов не будет, в этом самый пиздец. Мы входим в эру, когда аи пожрал консумерский сегмент. И если за это кого и ебать в сраку, то только мудака, который это заварил - Альтмана ебаного.

Аноним 02/12/25 Втр 14:34:39 #141 №1438263

>>1438259
Ух бля. А пеницилин-то как подорожал когда стал доступен и популярен в мире! Вот пидорас тот кто его популяризировал.

Аноним 02/12/25 Втр 14:35:21 #142 №1438264

А я радый.
Наконец компьютеры становятся таким же показателем успеха как дом или машина, а то каждый школьник мог себе пк собрать - ну куда это годится.

Аноним 02/12/25 Втр 14:37:34 #143 №1438269

>>1438249
Тоже так думаю. Тряхнул кубышкой и теперь собираю себе риг на 512гб ддр4 и несколько видюх. Правда по видюхам пока слабо, есть 4090 и v100 едет, и новые уже в этом году скорее всего не закажу, мне ещё ссд покупать, корпус, райзерры, кастомные кабели под 100500 разъёмов питания на мп и прочие расходники, а что будет в 2026 хз, может как с теслами будет, будем v100 по 100к покупать

Аноним 02/12/25 Втр 14:39:55 #144 №1438275

>>1438269
>>1438259
В итоге будете как тот чел который 3060 за 100к покупал в бум майнинга а уже через год они по 30 лежали

Аноним 02/12/25 Втр 14:48:31 #145 №1438284

>>1438263
Хуёвое сравнение, потому что совсем мимо.

>>1438269
Чисто в теории мелкие фирмы могут начать загибаться без поставок железа и продавать имущество. Но это такое. Нестабильный ручеёк.

>>1438275
Лично я не собираюсь уже покупать ничего, кроме ссд. Потому что как раз посмотрел, цены достаточно адекватные пока что, а за 4 года ссд точно отъёбывать начнут. Остальное пусть будет, как есть.

Аноним 02/12/25 Втр 14:49:19 #146 №1438285

>>1438275
Или не будем, или не год, я вот ждал-ждал, всё хотел на ддр5 собрать и дождался цен х3. Да и год так-то охуеть как много. И если выбирать сидеть год с мистралькой и дипкоком или без него, то как по мне выбор очевиден.

Аноним 02/12/25 Втр 14:49:40 #147 №1438286

>>1437918
> Если эксперт не умеет в многопоток, то только 4 ядра будут работать.
Чивоблять.мп4
Количество активных - просто topK от выдачи роутера, выбранные слои обрабатываются также параллельно как и все остальные, просто разное количество. Ядра тут вообще не причем.
Лучше с этими изменениями не заигрывать, больше не значит лучше.
>>1438097
Не q1 а tq1! А так сможешь быстрее инфиренсить другие модельки, квен-некст будет помещаться фуллврам или почти так, что позволит использовать его для агентов и мелочи.
>>1438269
Красавелла. Как соберешь - рассказывай что за конфиг, какие скорости и т.д.
Многие вещи еще можно успеть взять на вторичке, если хочешь много видюх то можешь сразу смотреть в сторону майнерских каркасов или кастомных решений.

Аноним 02/12/25 Втр 14:52:34 #148 №1438294

>>1438269
>Тоже так думаю. Тряхнул кубышкой и теперь собираю себе риг на 512гб ддр4 и несколько видюх.
Откровенно говоря в таком размере и на таком конфиге МоЕшку гонять будет некомфортно. А альтернативы на любых видяхах стоят ещё дороже, ну на теслах разве. Честно говоря пока что вообще нет хороших вариантов для больших локальных моделей. Я бы даже не собирал. Вот вариант с арендой сейчас неплох становится - РАМ-то там дешёвая, это видяхи дорогие. Сам думаю в эту сторону двинутся пока, если выйдет что-то действительно интересное.

Аноним 02/12/25 Втр 14:54:24 #149 №1438299

>>1438264
А в чём радость?
>>1438275
155к за 3080Ti-кун всё ещё с вами...
>>1438294
>Честно говоря пока что вообще нет хороших вариантов для больших локальных моделей.
6000 Pro стопочкой...

Аноним 02/12/25 Втр 15:06:22 #150 №1438311

>>1438299
>6000 Pro стопочкой...
b200 стоечкой

Аноним 02/12/25 Втр 17:06:17 #151 №1438408

Там инфа проскочила что куртка больше не будет поставлять чипы памяти под свои карты и теперь эта проблема вендеров. Это значит что мы теоретически можем получить каких-нибудь монстров типа 5080 с 32 гигами от условного спалита, или на объемы памяти это никак не повлияет?

Аноним 02/12/25 Втр 17:16:57 #152 №1438424

>>1438408
>Это значит
Это значит, что 16гб врам хватит всем.

Аноним 02/12/25 Втр 17:23:17 #153 №1438434

>>1438408
Память и так поставляли сосунги и хуниксы. И ограничения в чипах никуда не денутся, никаких тебе увеличенных объёмов, молись, чтобы хоть что-то было.

Аноним 02/12/25 Втр 17:27:26 #154 №1438439

>>1438408
Не, не получим. Просто цены поднимутся и появится куча ревизий с заниженными частотами и говнопамятью потому что вендорам придется самим ее искать. Не исключено вообще явление кастрированных версий с меньшей шиной и объемами, или с какой-нибудь gddr6 что вдруг нашлась на складе. А то и вообще рефабов или вторичной врам.
С другой стороны, это увеличивает ассортимент доступных биосов и прочего, что повышает шансы на возможность и популяризацию апгрейдов блеквелла.

[mailto:sage] Аноним 02/12/25 Втр 17:34:11 #155 №1438445

.png

>>1438243
> Купил за 99к
Ну ты и не мамонт.

Аноним 02/12/25 Втр 17:42:18 #156 №1438450

>>1438445
16гб рамлет, спокнись себе в штанишки.

Аноним 02/12/25 Втр 17:59:28 #157 №1438463

изображение.png

>>1438275
двачую этого товарища. В свое время смотрел на цены, ужасался. Думал, разориться или нет. Подождал год, отхватил 3060/12 от годного вендора за 40к вместо х3-4 кабанчиковых оверпрайсов.

[mailto:sage] Аноним 02/12/25 Втр 18:09:18 #158 №1438467

>>1438450
Спокойно, ну лоханулся, бывает.

Аноним 02/12/25 Втр 18:29:37 #159 №1438487

https://mistral.ai/news/mistral-3

Аноним 02/12/25 Втр 18:29:50 #160 №1438489

Подскажите вот что.
У меня на компе локально крутится модель. На Андроиде телефоне есть таверна. Как их подружить? Это надо какой-то шаманизм с белым ip делать да?

Аноним 02/12/25 Втр 18:36:13 #161 №1438493

Мистральки вышли 5 минут назал

Аноним 02/12/25 Втр 18:36:15 #162 №1438494

>>1438489
Прямо на комп ставишь таверну и шаришь её интерфейс наружу через белый ип, некоторые роутеры (кинетики к примеру через KeenDNS) имеют услугу домена на устройство, позволяющее обращаться даже к временным айпишникам.
Как и что, ты и сам загуглишь за 3 минуты.

Аноним 02/12/25 Втр 18:38:28 #163 №1438495

image

>>1438487
> 41B active and 675B
Ну собственно как Дипсик. И по скорам такое же. Остаётся надеяться только на мистралеслоп и кум.

Аноним 02/12/25 Втр 18:41:30 #164 №1438499

https://huggingface.co/unsloth/Ministral-3-14B-Instruct-2512-GGUF
Лучше ли это немо

Аноним 02/12/25 Втр 18:46:16 #165 №1438505

>>1438499
>Лучше ли это немо
Лучше ли это их 24В, вот в чём вопрос. Размер-то имеет значение. Но походу средние модели всё.

Аноним 02/12/25 Втр 18:48:13 #166 №1438510

изображение.png

>>1438487
Пиздец говнища. А ведь на них последняя надежда была в средних моделях. Но все как на зло выпускают или обрубки 0,00001M, или хуету 1488T.
Ещё и РКН пидоры режут загрузку, скоро срать ходить буду через VPN, напрямую жопу заблочат.

Аноним 02/12/25 Втр 18:53:48 #167 №1438512

Мистраль базовички
Всех уровняли, теперь нет разделения на есть 24 врам и нет 24 врам, все терпят на 8-14б

Аноним 02/12/25 Втр 19:12:17 #168 №1438523

>>1438487
Где кванты, лебартовски?! Интересно сделают ли сегодня, архитектура то не новая.
Алсо помимо ларджа там еще долгожданное обновление для тех, кто на 12б сидел.

Аноним 02/12/25 Втр 19:51:57 #169 №1438547

image

>>1438495
Соя на месте как у корпов, соевее Грока. В РП ощущается как 24В, стиль просто один в один. Слоп со вздохами на месте. Лупится, блять. Тупа второе сообщение уже с прибитым шаблоном не просто по формату, но и по смыслу. Говно просто, литералли как прошлый Лардж - одинаковые реплики, отсутствие движения по сюжету, если начинается истерика, то она идёт в лупе с "ок я согласна, хотя погоди я не готова" и так каждое следующее сообщение и невозможно текстом разлупить. Хуже Эйра 146%.

Аноним 02/12/25 Втр 20:09:10 #170 №1438557

>>1438547
А ты не очень умный...
Ща бы на веб-сайте с кучей фильтров тестить.

Аноним 02/12/25 Втр 20:19:32 #171 №1438562

>>1438557
Каких фильтров, шизик.

Аноним 02/12/25 Втр 20:20:34 #172 №1438564

>>1438562
Ты даже не в курсе? Ору.

Аноним 02/12/25 Втр 20:21:47 #173 №1438567

>>1438564
У меня нет никаких фильтров, это чистые веса модели.

Аноним 02/12/25 Втр 20:28:37 #174 №1438576

>>1438567
Сетке нужен пробив цензуры через пресет, понятное дело что просто так по дефолту она или будет рефьюзить с соей, или уходить от ответа как у тебя.

Аноним 02/12/25 Втр 20:34:40 #175 №1438578

>>1438567
У тебя чат комплишен с вжаренным туда промтом, мань. И очевидно никаких джейлбрейков (которые не нужны вообще на текст комплишене). Это то же самое что катать сетку на веб-сайте.

Аноним 02/12/25 Втр 20:36:02 #176 №1438581

>>1438576
Так я в таверне тестил. Первый пик просто чтоб показать как в дефолте срёт. Алсо, что там у тебя за пробития на локалках, джейлбрейки ещё может пишешь?
>>1438578
> чат комплишен с вжаренным туда промтом
Шизло, прекращай. Лучше сам затести, а потом пизди.

Аноним 02/12/25 Втр 20:39:43 #177 №1438586

>>1438581
Ебануться, какие же тут овощи порой обитают. Чувак может запустить 600б мастодонта, но не знает, что на чаткгмплишене в опенвебуи или на каком он там говне сидит, подтягивается jinja с заложенным в шаблон промтом. В какую же помойку тред скатился, лул. Как будто год назад бибизян умнее был.

Аноним 02/12/25 Втр 20:39:54 #178 №1438587

>>1438547
Мистраль всегда соевой была, ничего удивительного.

Аноним 02/12/25 Втр 20:46:38 #179 №1438595

В рот ебал качать, да и столько памяти нет для запуска локально. Погонял чутка в облаке, и она лупится как мразь грок буквально со второго сообщения. То есть она достала текущую дату из системного промпта, высрала её в выдаче, а на следующий промпт уже ушла в луп с этой датой.
Причём, по мозгам все не прям чтобы плохо, если ваншотами хуярить, но даже у гигачата такой хуйни с лупами не было.

Аноним 02/12/25 Втр 20:46:39 #180 №1438596

>>1438586
Чухан, там нет никакого промпта вшитого. Таблетки прими. Таверна тебе в жопу тоже вшивает что-то?

Аноним 02/12/25 Втр 20:53:48 #181 №1438602

>>1438596
>никакого промпта вшитого
https://huggingface.co/mistralai/Mistral-Large-3-675B-Instruct-2512/blob/main/chat_template.jinja

мимокрок смеюсь с дурачка

Аноним 02/12/25 Втр 21:10:36 #182 №1438615

>>1438602
>Your knowledge base was last updated on 2023-10-01
Ебать актуальные данные.

Аноним 02/12/25 Втр 21:17:18 #183 №1438619

>>1438615
Ну так это рубикон, дальше вся текстовая датка закоррапчена слопом

Аноним 02/12/25 Втр 22:53:08 #184 №1438675

>>1438602
И зачем ты себя обоссал? Не умеешь читать буквы? Там есть стандартный системный промпт, если не задан никакой в запросе. Тебе объяснить что в этой строчке написано?
> {%- if messages[0]['role'] == 'system' %}

Аноним 02/12/25 Втр 23:08:49 #185 №1438683

>>1438581
Агрессор, если ты не знал то в публичных вебмордах и апи помимо стандартного странного системного промпта еще сейфти добавляют.
>>1438586
> Чувак может
Вероятнее в облаках катает.
>>1438595
Там "date" 8 раз подряд упоминается, с таким шизопромптом и не такое может быть, лол.
5 часов прошло а ни одного ггуфа, пиздец.

Аноним 02/12/25 Втр 23:35:43 #186 №1438696

Полистал шапку. Как я понял, 2/3 тут сетки для рп собирают. А я это, я шиз, я собираю архив для погружения в бункер как в том фильме, где отец семейства от радиации бункер строил и там с семьёй прятался. Подскажите что-нибудь.

1. В первую очередь меня больше интересуют умные, пусть и медленные сетки, у которых можно спрашивать всякое - как устроен реактивный двигатель, почему спин надо на два делить, а магнитное что-то там не надо на два делить в атомной физике, каким образом РНК и ДНК взаимодействуют и строят белки, и вот всё в таком роде. Ещё круче, если этому можно скормить книжку и помочь мне разобраться. В общем образовательно-позновательные цели.
2. И ещё сетки для кодинга, в двух приложениях:
- чтобы выполняло запрос по типу, что перепиши перебор по отсортированному списку на бинарный поиск по такому то полю структуры, или открой эксель файл через openpyxl и загрузи по строка в структуру, где дата в первом столбце, во втором уровень излучения в попугаях. Такое, что напишет школьник и что просто не хочется вручную писать.
- Будет круто, если оно будет само по памяти знать как в микроконтролере выдать шим на такой то пин используя LSI и другие такие штуки, как нарисовать каустики через шейдер glsl, принцип работы алгоритма A* или как трансформер на pytorch создать и обучать - то есть акцент на наличии информации в сетке о том что и как делается, писать сам код прям не нужно или почти не нужно, код я и сам напишу. Это даже приоритетнее чем первое.

Что загружать по такие задачи? Какие бенчмарки смотреть, может быть есть какой именно о профессиональных знаниях в программировании.

3. И ещё информация по запуску крупных моделей интересует. 96+8 ГБ памяти на CPU+GPU. Я позапускал, в общем-то всё ясно и понятно как работает до этих 90 ГБ. Что делать если модель больше? Как я понял, MoE использует не все веса, не все головы внимания или что-то такое. Есть способ запускать сетку больше чем влезает в оперативку? SSD выдаёт 5 Гб/с на чтение, это даже не сильно медленнее оперативки. Вроде как веса только читаются, то есть по идее не будет проблемы с запуском с диска, особенно если действительно не все веса используются. Нашёл, точнее сетка нашла мне пост, что кто-то kimi2 на терабайт запускал с ssd и получил 0.1 токен/с
4. Про кванты. Мне стоит браться лезть в квантование? Там какой-то калибровочный датасет нужен. Вроде как и всё понятно, но мне же сетку надо будет инференсить для калибровки по идее, и если она в память не влезает, то как-то уже и не очень то и хочется, это наверное на месяц задача.

5. В шапке в тестах было про русский/английский языки сказано, и русский могут не все, и кушают больше токенов. А если поставить маленькую сетку уровня 3B, которая заточена исключительно на перевод между языками, и юзать более крупную сетку с точки зрения сетки на английском, а переводить всё второй поменьше. Так делают, или слишком многое теряется при двойном переводе? Вообще, немного удивлён что такая разница по расходу токенов. По идее токены - кусочки смысла, и задача понимая смыслов несколько сложнее, чем перевод. То есть разные языки, это как игру с ретрейсингом и кучей всяких приблуд запускать и записывать в h264 или h265. h265 потяжелее в несколько раз чем h264, но по сравнению с самой игрой это уже такая пыль, что просто без разницы. То есть я бы ожидал что после условных 20B расход токенов почти выравнивается.

Аноним 02/12/25 Втр 23:38:57 #187 №1438698

>>1438683
> если ты не знал то в публичных вебмордах
А кто их использовал, мистралешизик? Иди запускай сам и смотри на сою.

Аноним 02/12/25 Втр 23:52:38 #188 №1438705

image

Мисрань 🌈

Аноним 02/12/25 Втр 23:54:44 #189 №1438708

>>1438705
Сказочный долбаёб. Мистраль или постер, это уже каждый решает сам

Аноним 03/12/25 Срд 00:05:42 #190 №1438713

>>1438705
Как грустно.

Аноним 03/12/25 Срд 00:39:58 #191 №1438750

Anime-Laugh-meme-8.jpg

>>1438705
Да, объясни. Мне интересно насколько неправильно ты это понимаешь
>>1438705
Итак, твой промт:
[You are Mistral-Large-3-675B-Instruct-2512, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.
You power an AI assistant called Le Chat.
Your knowledge base was last updated on 2023-10-01.
The current date is {today}.
When you're not sure about some information or when the user's request requires up-to-date or specific data, you must use the available tools to fetch the information. Do not hesitate to use tools whenever they can provide a more accurate or complete response. If no relevant tools are available, then clearly state that you don't have the information and avoid making up anything.
If the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. "What are some good restaurants around me?" => "Where are you?" or "When is the next flight to Tokyo" => "Where do you travel from?").
You are always very attentive to dates, in particular you try to resolve dates (e.g. "yesterday" is {yesterday}) and when asked about information at specific dates, you discard information that is at another date.
You follow these instructions in all languages, and always respond to the user in the language they use or request.
Next sections describe the capabilities that you have.
# WEB BROWSING INSTRUCTIONS
You cannot perform any web search or access internet to open URLs, links etc. If it seems like the user is expecting you to do so, you clarify the situation and ask the user to copy paste the text directly in the chat.
# MULTI-MODAL INSTRUCTIONS
You have the ability to read images, but you cannot generate images. You also cannot transcribe audio files or videos.You cannot read nor transcribe audio files or videos.
# TOOL CALLING INSTRUCTIONS
You may have access to tools that you can use to fetch information or perform actions. You must use these tools in the following situations:
1. When the request requires up-to-date information.
2. When the request requires specific data that you do not have in your knowledge base.
3. When the request involves actions that you cannot perform without tools.
Always prioritize using tools to provide the most accurate and helpful response. If tools are not available, inform the user that you cannot perform the requested action at the moment.

Напиши историю про ...]

Аноним 03/12/25 Срд 00:44:40 #192 №1438753

image.png

Это написано человеком. Слоп теперь заметен всюду. Написано, разумеется, за некоторое время до появления ЛЛМок.

Да и в целом, слоп - это не так уж и плохо...
Принятие.

Аноним 03/12/25 Срд 01:13:09 #193 №1438769

>>1438750
Дегрод, ты видишь что он вставляется только если в первом сообщении нет системного промпта или нет? У тебя идёт условие, если оно не выполняется - вставляется дефолтный промпт, потому что модель не может работать без системного промпта. С какими же дегенератами сижу тут.

Аноним 03/12/25 Срд 01:16:52 #194 №1438771

>>1438769
Ты осознаешь, как это условие должно выполняться? Ты осознаешь, что ты на чаткомплишене априори не имеешь доступа к самому началу промта, которое ты называешь первым сообщением? Вопрос риторический

Спроси модель, она тебе объяснит почему у тебя подлива в штанах, там промт как раз для такого

Аноним 03/12/25 Срд 01:27:27 #195 №1438774

image

>>1438771
Пиздец ты тупой. В чат-комплишене всегда весь промпт передаётся, разбитый на отдельные сообщения, как пикрил. Такого не бывает чтобы что-то там недоступно было. Зачем продолжаешь траллить тупостью, мистраледаун?

Аноним 03/12/25 Срд 01:28:39 #196 №1438776

>>1438698
Даже через экран жиром воняет
>>1438769
> если в первом сообщении
Не в первом сообщении что ты посылаешь, а в перечне постов, что формирует бэк.
>>1438771
Ну, чисто технически он может послать в реквесте свой системный промпт. Не все апи это поддерживают и могут или сразу вернуть ошибку, или просто проигнорировать, оставив свое. Или будет у него два запроса от роли системы, первый стандартный, который добавляется безусловно, а второй уже тот что он пытается от роли системы подпихнуть, получится хрень.
Вот и получается что-то уровня теста, где перед Серафиной посреди комнаты гадить начинаешь.

Аноним 03/12/25 Срд 01:28:58 #197 №1438777

>>1438774
Терпи, чо еще остается тугодуму посоветовать

Аноним 03/12/25 Срд 01:31:11 #198 №1438778

>>1438776
>Ну, чисто технически он может послать в реквесте свой системный промпт. Не все апи это поддерживают и могут или сразу вернуть ошибку, или просто проигнорировать, оставив свое. Или будет у него два запроса от роли системы, первый стандартный, который добавляется безусловно, а второй уже тот что он пытается от роли системы подпихнуть, получится хрень.
Мы оба знаем, что он дурачок и видит начало промта в первом сообщении, которое он набирает во фронте. Увы таким бесполезно объяснять, вон как выебывается

Аноним 03/12/25 Срд 01:47:23 #199 №1438783

>>1438753
На подобных текстал они и обучались, отсюда и слоп.

Аноним 03/12/25 Срд 01:47:46 #200 №1438784

>>1438776
> Не все апи это поддерживают и могут или сразу вернуть ошибку, или просто проигнорировать, оставив свое.
Это какие не все, лол? Все используют OpenAI API и оно всегда использует системный промпт из запроса.

Аноним 03/12/25 Срд 01:50:40 #201 №1438785

Что за мистралепогорелец тут полыхает и защищает соевое говно, которое даже никогда не сможет запустить? Лучше бы нормальные модели обсуждали.

Аноним 03/12/25 Срд 01:52:19 #202 №1438786

>>1438785
Обсуди. Тебе никто не мешает, но твои посты так и смердят выгребной ямой и бесполезностью.

Аноним 03/12/25 Срд 01:55:25 #203 №1438787

>>1438785
>Лучше бы нормальные модели обсуждали
Какие? С новым эйром - кормят завтраками второй месяц и не выпускают. Геммочки 4 нет, и даже анонсов нет. Квен - выдал жирноту в которую без 128 рам не залезть и 3b ассистента не способного в РП. Мистрали по ходу ВСЁ, теперь это васькотюны китайцев. Что обсуждать-то?

Аноним 03/12/25 Срд 02:03:03 #204 №1438789

>>1438778
Увы.
>>1438784
Классическая либа от опенов и документация гласит, что работают с системными инструкциями только легами модели. Начиная где-то с 4о ты можешь слать что угодно, но это заменится юзером а тебе выдаст ворнинг, инструкции высшего приоритета остаются на стороне опенов. Отдельный параметр системного промпта также отмечен как устаревший. То же самое у клоды и гугла, у последних вообще путаница из-за двух версий либ, в которых старая раньше могла отправлять.
Все что не буквально опенаи - нечто "совместимое" с кучей вариаций и интерпретаций в зависимости от бека и настроек.

Аноним 03/12/25 Срд 02:30:51 #205 №1438805

image

>>1438789
> гласит
Что там у тебя голоса в голове гласят? Ты ведь никогда в жизни не видел доки опенов, лол. Мне не сложно показать тебе их. И в доках указано что всё так же нужно писать системный промпт, просто теперь с другой ролью.
> это заменится юзером а тебе выдаст ворнинг, инструкции высшего приоритета остаются на стороне опенов
Забавно как ты на ходу выдумываешь что-то. Даже у опенов все инструкции на месте. И ты всё ещё не показал как говномистраль без цензуры магическим образом работает. Сначала обосрался с темплейтом чата, теперь выдумываешь про подмену промпта, лол.

Аноним 03/12/25 Срд 02:38:10 #206 №1438811

>>1438705

>пик2
бля и ведь кто-то же реально так живет ирл... брр.. хотя чего уж там, далеко за примерами ходить не надо...

Аноним 03/12/25 Срд 02:50:31 #207 №1438813

>>1438805
Вялый костыль, который кинули как кость вместо системного промпта из-за необходимости, ты ставишь как основу своей аргументации пропустив все основное, молодец.
> Даже у опенов все инструкции на месте.
И тут же стал экспертом по внутреннему устройству опенов. Все на месте также как полноценный ризонинг в пятерке, ага.
> ты всё ещё не показал
Слишком дешевый байт, старайся лучше.

Подъедут кванты, народ попробует, мнение составит и будет понятно. А твои сопли сейчас выглядят как вялый наброс от лсной макаки. Манера общения и что пишешь еще больше заставляют усомниться.

Аноним 03/12/25 Срд 02:55:40 #208 №1438814

Предлагаю просто дождаться скринов от наших уважаемых риговичков и посмотреть на что Мистраль способен локально.

А вообще кому не похуй на модель которую смогут запустить полтора анона?

Аноним 03/12/25 Срд 03:14:10 #209 №1438822

>>1438814
Да они заебали своим дипкоком. Мой комфортный максимум - это большой глм в 5 кванте. А аналогичный по размеру квант продукта дипсикосодержащего - второй. Причем активных параметров там +-40, т.е. считай это как 40B гонять во втором кванте. Ебать удовольствие, конечно.

Аноним 03/12/25 Срд 03:32:55 #210 №1438827

>>1438822
>+-40, т.е. считай это как 40B гонять
С моэ это не так работает. До эйра я сидел на мистрале 24b и гемме 27b. По сравнению с ними эйр ощущается как ПРОРЫВ, он очень умён, хотя казалось бы, всего лишь 12b. И квены тоже есть с чем сравнивать. На телефоне гоняю 4b гемму, так вот 3b моэ квена не только умнее неё, но и умнее мистраля с геммой, которые юзал на компе до этого (но с уточнением, что тут речь про ассистента и квен из трёшек самый толстый - 80а3).

Экстраполируя всё это на дипсик/мистраль, вангану что он будет ощущаться на уровне 200b+ денс моделей. Но это не точно.

Аноним 03/12/25 Срд 03:35:34 #211 №1438828

На самом деле меня пугает даже не сам размер моделек (есть 512 памяти в сумме), а то сколько они на диске занимают и как геморно их менеджить. Без пачки ссдшек на 2+ тб буквально не видно жизни.
Сам я уже думаю переходить на страйп из хардов

Аноним 03/12/25 Срд 04:36:49 #212 №1438837

>>1438696
>SSD выдаёт 5 Гб/с на чтение, это даже не сильно медленнее оперативки.
Двухканал DDR4-3200 оперативки дает 50Гб/с - всего в 10 раз больше. DDR5 в 2 раза быстрее.
Т.е. нужно купить 10-20 штук SSD в RAID1 что бы получить туже скорость.

С другой стороны 1Тб оперативки стоит 800 т. руб. (8шт, 128Gb DDR4 ecc по 100т.р.)
А 10шт 1Тб SSD (самсунг по 15 т.р., можно более дешевых по 10 т.р. купить) стоит всего 150 т.р. - в 5 раз дешевле.
Но нужно считать общую стоимость системы. С SSD можно легко купить 4Тб диски, а с памятью такое будет нереально дорого и редко.

Аноним 03/12/25 Срд 04:44:30 #213 №1438842

>>1438696
> умные,
Это те у кого много параметров.

>Про кванты
Скачай готовую.
После 4 кванта рост замедляется, после 8 смысла вообще нет ради 1% в тесте.
gpt-oss например сразу с завода в MXFP4 (новый формат для нейросеток).

Аноним 03/12/25 Срд 04:56:28 #214 №1438845

>>1438837
Классно наверное считать линейную скорость в вакууме

Аноним 03/12/25 Срд 05:34:16 #215 №1438862

>>1437890
бамп

Аноним 03/12/25 Срд 06:38:14 #216 №1438874

>>1438837
>А 10шт 1Тб SSD
Ты ещё попробуй подключить к cpu эти 10 шт SSD, чтобы сохранить 50 ГБ/с.

Аноним 03/12/25 Срд 06:47:09 #217 №1438875

>>1438827
Ты не понял, я не про умность моделей, а про то, как их распидоривает квантование. Когда у тебя всегда 40B активных, ты по сути гоняешь 40B модель. Да, эти 40B на каждый токен разные, это дает больше знаний, но это все равно те же 40B. В то время когда та же плотная модель условно на 120B может свою полуполоманную от квантования логику как-то подправить за счет того, что результат всегда уточняется всеми 120B параметрами. Но может я не прав, конечно, и снижение качества при квантовании тут такое же как у аналогичной плотной модели. Графики перплексити бы посравнивать

Аноним 03/12/25 Срд 06:55:46 #218 №1438878

S33cf5f62aed34649b3006bf24dad8eb3N[1].jpg

>>1438874
теоретически возможно.
Например у intel 14600 16 линий PCI-E 5.0 которые дают скорость 64 ГБ/с.

Через адаптеры подключить.

Аноним 03/12/25 Срд 07:46:23 #219 №1438883

>>1438878
>>1438837
>>1438696
Спасибо, реально понятно написано.
>>1435912
>>1435861
У тебя логическая ошибка в запросе,
в thinking модели прогони и увидешь
в чем начинается loop еще до ответа.

Аноним 03/12/25 Срд 07:48:57 #220 №1438884

>>1438837
Вот у меня ddr5 - и что-то я никаких 50 гб/с не вижу.
5 ssd, 10-15 оперативка, толком даже на порядок нет разницы.

Да и ладно, какой 0.1 токен в секунду. Это она прям по буквам едва говорит. Ладно бы ещё умная была дофига, просто другой уровень, так нет - в большинстве случаев она будет работать часы, чтобы сказать что-то лишь чуть лучше, чем что-то попроще. Это конечно больше вопрос того какой вопрос ей задать.

Аноним 03/12/25 Срд 08:47:58 #221 №1438892

>>1438884
У тебя что-то сломано. У меня на ддр5 6800 99 скорость, у анонов в треде ниже 50 не помню чтобы было

Аноним 03/12/25 Срд 09:19:16 #222 №1438907

Аноны, посоветуйте блок питания на 1000Вт, потребители - 3 видеокарты (на одну надо 2 8-контактныэ разъёма, на остальные по 1) и 4 питания SATA (3 HDD и 1 SSD) (ну и материнка, проц и т.д., естественно).
Тред в /hw умер, на архиваче вроде нашёл табличку, но блоки из неё стоят по 15к.
Расположение в корпусе нижнее, кабели нужны достаточно длинные.

Аноним 03/12/25 Срд 09:40:42 #223 №1438917

изображение.png

>>1438878
Адаптеры выйдут дороже, чем сами диски.
>>1438884
>10-15 оперативка
>ddr5
Ты что-то сильно делаешь не так.
>>1438907
>но блоки из неё стоят по 15к
А хули ты хотел? Либо так, либо палёный китай или блоки из под майнеров. Ещё и провода нужны хорошие, размечтался.
И вообще, 15к это фигня, мой вон 60к стоил.

Аноним 03/12/25 Срд 09:46:36 #224 №1438922

hdgdrgdrg.png

https://www.youtube.com/watch?v=KlnrvUXVx3c

Аноним 03/12/25 Срд 09:52:48 #225 №1438925

>>1438917
Скрин напомнил, как я видел игросральный блок питания с подсветкой. У меня столько вопросов был к производителю.

Аноним 03/12/25 Срд 09:56:52 #226 №1438927

Снимок экрана3-12-202595630www.regard.ru.jpeg

Снимок экрана3-12-202595544www.dns-shop.ru.jpeg

>>1438907
Нет, бери больше 1квт.
3x250+1x250=проц+карты.

Аноним 03/12/25 Срд 09:57:40 #227 №1438928

>>1438299
Не знаю какую таблицу ты нашёл, но вот тебе ещё буржуинская, может в ней выбор побогаче. И да если ты рассчитываешь мощность блока сзапасом, процентов в 30, то не обязательно брать самый супер пупер платиновый из топа таблицы.
https://docs.google.com/spreadsheets/d/1akCHL7Vhzk_EhrpIGkz8zTEvYfLDcaSpZRB6Xt6JWkc/edit?gid=1973454078#gid=1973454078

На самый крайний случай можешь взять переделанный майнерами серверный БП, они дешёвые и качественные, если при переделки их не испортили конечно, но в обычный корпус они не влезут

Аноним 03/12/25 Срд 10:36:48 #228 №1438962

Эххх... давненько меня не было в ваших уличных гонках.

Что ща актуально / можно запустить на ноутбуке 32+12 ?

Уточняю кря: на ноутбуке, то есть никаких обновлений / расширений железа. Да и цены чот ебануться. Хорошо что я на ноуте.

Аноним 03/12/25 Срд 10:49:03 #229 №1438970

>>1438962
Нового ничего и интересного не вышло под такое железо. Гемма, мистраль 24, snowdrop, qwen 30. Вчера ещё релизнулся новый мелкий МоЕ мистраль, но он 14b
>Уточняю кря: на ноутбуке, то есть никаких обновлений / расширений железа.
Не нужно быть таким категоричным, ты можешь купить 6000pro, подключить её как внешнюю карту. и катать глм, квен и даже старые денс модели

Аноним 03/12/25 Срд 10:51:04 #230 №1438971

>>1438696
> SSD выдаёт 5 Гб/с на чтение, это даже не сильно медленнее оперативки.

это один пустой SSD, а заполни его на 90% говной и появятся нюансики
а соедини этот SSD в рейд с ещё несколькими и начнутся другие нюансики
кароч говно идея, затаривайся оперативой, а не ссд

Аноним 03/12/25 Срд 11:04:09 #231 №1438978

1000018323.png

Ну как покумили?

Аноним 03/12/25 Срд 11:08:30 #232 №1438981

IMG4495.jpeg

>>1438978
~nya ha ha~

Каков пиздец, каков пиздец.

Скоро оператива в цене с видюхами сравняется. I rorudo с этого спектакля.

Аноним 03/12/25 Срд 11:08:35 #233 №1438982

>>1438978
> два килобакса
ахах мне бы ваши проблемы. >>1398705 →-кун

через месяц ожидания написали, что у них нет замены и неизвестно когда будет, и предложили вернуть деньги. меньше пяти килобаксов, когда аналогичный комплект сейчас стоит в районе $12000, имаджинируйте мой факфейс

Аноним 03/12/25 Срд 11:15:52 #234 №1438986

>>1438962
>Эххх... давненько меня не было в ваших уличных гонках.
Неделю?

Аноним 03/12/25 Срд 11:33:10 #235 №1438993

>>1438982
Уверен, за 12 килобаксов у них всё сразу найдётся. Это классика.

Аноним 03/12/25 Срд 11:43:22 #236 №1438996

>>1438986
Это не тот на кого ты подумал.

>>1438962
Ничего нового, всё по старому.

Аноним 03/12/25 Срд 12:01:00 #237 №1439015

>>1438917
тот адаптер с пикчи 700 рублей стоит.

Аноним 03/12/25 Срд 12:02:24 #238 №1439017

>>1438970
>подключить её как внешнюю карту
А вот тут пожалуйста поподробнее, у меня ещё 3060 в шкафу пылится.

>>1438986
>Неделю?
Вообще-то несколько месяцев. Я не 99тый =)) Крякал не только он.
Я который мистрали и геммы мержил, да на пикселе папку хабара собирал.

Аноним 03/12/25 Срд 12:19:03 #239 №1439032

Одну или две rtx 6000 брать под moe-поеботу? Мне чисто чтобы контекст не 200 лет считался, ну если генерация ускорится, то тоже хорошо.

Аноним 03/12/25 Срд 12:21:10 #240 №1439034

>>1439032
Штук 5 норм
>>1439017
О нет, Скуф 2: Возвращение

Аноним 03/12/25 Срд 12:36:26 #241 №1439057

>>1439032
две

Аноним 03/12/25 Срд 12:54:40 #242 №1439067

>>1438883
>У тебя логическая ошибка в запросе,
>в thinking модели прогони и увидешь
>в чем начинается loop еще до ответа.
хм. а что, мартчшки в треде уже перестали кидатсья какашками? откуда тут годный совет?
Спасибо, при случае попробую.

Держи тогда и от меня тебе ответ
>>1438696 >>1438837
по поводу больших моделей на ssd/nvme.
Скорость на них для случайного чтения записи указывают при соблюдении условий. К примеру 6ГБ/с ты на них получишь только если запустишь 32 параллельных потока записи, а один поток даст максимум 600МБ/с. Скорее всего вся эта дисковая raid конструкция будет работать в однопоток, а это даже близко не даст желаемые скорости.

>>1438978
а ведь сколько памяти валяется, должно быть, просто распаянной на картах, которые никто не использует и продает за копейки. или просто так выкидывается вместе с картами на помойку.

Аноним 03/12/25 Срд 13:04:21 #243 №1439075

Вопросец. Доставлять к имеющемуся RTX12Gb какую-нибудь Tesla m40 на 12Gb провальная идея?

Аноним 03/12/25 Срд 13:07:19 #244 №1439076

>>1439075
да. Купи лучше у меня p40.

Аноним 03/12/25 Срд 13:22:12 #245 №1439095

>>1439075
> m
очень провальная
>>1439076
> p
тоже так се идея

Аноним 03/12/25 Срд 13:30:58 #246 №1439106

>>1439034
>Скуф 2: Возвращение
как будто что-то плохое

Аноним 03/12/25 Срд 13:36:41 #247 №1439115

>>1439017
>Я не 99тый =)) Крякал не только он.
Он не крякал. Да и прогнали его недавно, но хорошо что ты вернулся.

Аноним 03/12/25 Срд 13:47:48 #248 №1439135

>>1437890
У меня P104-100 8Гб в связке с 3060 12Гб, в целом норм, но сука шумит со стандартными дровами, разные биосы ставил минимум 37% оборотов на кулерах удалось добиться. Патченные дрова ставить не хочу, приходится страдать. Говорят можно какое-то принудительное регулирование оборото наколхозить, но чет западло. В целом за 1200р вполне бюджетно

Аноним 03/12/25 Срд 13:50:05 #249 №1439140

>>1438822
Поддвачну. Крупных моделей, которые можно запустить быстро и применить для околорабочих задач всего 2 - квенкодер и большой жлм. Понавыпускали кими, линг, гигачат и прочих - а из-за размера годны они лишь для рп, где ты можешь потерпеть. Но при этом дипсик все равно рпшит лучше.
>>1438828
Еще можно выцепить ссд по адекватным ценам на вторичке, сата/нвме серверники или нормальные модели типа самсунгов с быстрой вне slc, если сата то лучше несколько чтобы быстро.
>>1438837
Ну, чисто технически можно не только асинхронный стриминг блоков в врам из рам устраивать, но и делать то же самое из нвме в рам. Только вот соотношение скорости и объема выгрузки чтобы это (сильно) не замедлило посчитать несложно и выводы неутешительные.
>>1438907
Если хочешь дешево - бери майнерский "фирмовый", они неплохие, но с нюансами, под риг норм. А так 12-15к оно и будет стоить чтобы хороший.
>>1438917
Пиздец, кто-то на это еще прогревается?

Аноним 03/12/25 Срд 13:55:17 #250 №1439147

>>1438884
>Вот у меня ddr5 - и что-то я никаких 50 гб/с не вижу.
>>1438892
>У меня на ддр5 6800 99 скорость

на амд очень часто макс 60гб/с, селяви

Аноним 03/12/25 Срд 13:58:28 #251 №1439150

>>1438982
Эх, анончик, а ведь предлагали тебе в рамках экономии времени хотя бы протестировать работоспособность и оставить, потом запаять конденсатор самостоятельно. Но кто же мог предугадать, замена тогда была самым адекватным решением.
Мониторь площадки, внезапно у некоторых барыг, которые медленно синхронизируются с реальностью, еще можно выкупить по пиздецовым ранее но хорошим сейчас ценам.
>>1439032
Чем больше тем лучше. На трех поимеешь 60+ т/с в квенкодере уже на 128к контексте в пригодном для использования кванте. На двух запустишь только 235 в жирном кванте и жлм в ужатом, а выгрузка обрушит скорость по сравнению с фуллврам даже если у тебя серверное железо. Больше - лучше, там и без проблем дипсико-подобные полетят.

Аноним 03/12/25 Срд 14:08:27 #252 №1439160

image.png

22 часа осталось
вот, сижу, думаю, брать ли вторую...
последние два дня я гонял glm air на 3090 + 3090 + v100 с контекстом 98к. Так и не заполнил до конца. Сейчас вайбкожу с ней один петпроект, контекст уже дошел до 52к. Скорость 9т/с. Для 52к контекста приемлимо.
Понимаю, что память для моделей сейчас будет пиздец как важна.

Аноним 03/12/25 Срд 14:25:50 #253 №1439188

>>1439160
Это братья китайцы продают комплекты "собери себе ml видяху дома"?
Я так понимаю, плата, чип и охлад - все отдельно?
Охлад активный может быть, или только банка толщиной в трехтомник Войны и Мира?
Мимоинтересующийся, но не решающийся слоупок

Аноним 03/12/25 Срд 14:28:35 #254 №1439190

>>1439188
этот продавец продает уже с переходником на pcie. Я у него уже брал. охлад стоит 3к.
охлад - и башня и турбина. Я выбираю башню, потому что вой не люблю.

Аноним 03/12/25 Срд 14:34:55 #255 №1439201

>>1439160
V100 же слабая, нет? Как она против 4090 по производительности и потреблению?

Аноним 03/12/25 Срд 14:36:47 #256 №1439204

>>1439190
Я прост не уверен, что оно вообще в стандартный atx в дополнение к игровой влезет, бандура такая. Хотя если бп вынуть...

Аноним 03/12/25 Срд 14:39:17 #257 №1439208

>>1439188
Зависит от продавца. Нужна плата, переходник и охлад. Что входит в комплект нужно смотреть в карточке. По охладу есть 4 варианта
1. Турбина, воет и хуёво охлаждает
2. Большой радиатор, сам по себе не особо хорошо охлаждает, но можно присобачить кулер, китаец с ВБ на 3д принтере форму печатал
3. Водянка
4. Колхоз с охладом от серийной карты. Китаец продаёт с охладом от 4090, на али один раз видел, но с другим охладом.

>>1439201
Чуть слабее 3090

Аноним 03/12/25 Срд 14:39:48 #258 №1439210

>>1439201
4090 же слабая, нет? Как она против B200 по производительности и потреблению?

Аноним 03/12/25 Срд 14:48:59 #259 №1439217

IMG4791.jpeg

>>1438978
Не ссыте, идем на снижение.
Можно брать !

Аноним 03/12/25 Срд 15:09:59 #260 №1439237

>>1439208
>Чуть слабее 3090
Ну тогда только из-за памяти можно брать.

А сколько места она вместе с охлаждением занимает? В обычный корпус ее явно не уместить

Аноним 03/12/25 Срд 15:18:03 #261 №1439247

>>1439237
Одна скорее всего влезет, возможно в паре с обычной картой если корпус позволит. В прошлом треде были фото анона который в рииг такую поставил, у него самый жирный охлад, можешь оценить размеры. Если нужна высота башни, то смотри в карточке на али, там разные варианты есть, повыше и пониже.

Аноним 03/12/25 Срд 15:31:00 #262 №1439257

>>1439160
> Скорость 9т/с. Для 52к контекста приемлимо.
Фуллврам или с выгрузкой? Если первое то почему 9 а не 39?
В100 вообще крутая карточка, выглядит как интересное приобретение даже чисто держать на ней какую-нибудь мелочь под автокомплит, терминал и подобное. Главное что настораживает - сложности с поддержкой флешатеншн и экслламы, но даже так пережить можно.
Если планируешь их юзать, знаешь куда применишь и деньги не последние - бери конечно.
>>1439188
Там есть уже готовые комплекты. Кмк, вариант с простым адаптером и штатным радиатором предпочтительнее турбы, потому что не смотря на хитрый формфактор компактен и может быть размещен много где. Плюс к нему цепляешь свой кулер и настраиваешь курвы как хочешь, а не ловишь воющую турбину как только потребление превышает порог в 100вт.

Аноним 03/12/25 Срд 15:39:29 #263 №1439263

>>1439257
фуллврам.
А почему ты думаешь, что должно быть 39?

Аноним 03/12/25 Срд 15:47:39 #264 №1439269

>>1439263
Потому что 11б активных и быстрые карточки. Ну может не 39 но хотябы тридцатка должна быть. Проверь с пустым контекстом на свежезапущенном жоре, может он так сдох из-за контекста, хотя 52к как-то маловато для такого.

Аноним 03/12/25 Срд 15:52:02 #265 №1439277

>>1439269
я уже постил сюда результаты холодного запуска >>1436674
>54.27 т/с
ты только предполагаешь, что должно быть 39 или у тебя есть пример сетапа, где жора выдает 39 на 50+ к контекста?
Если есть - я хочу узнать о нем больше.
Если нет - то тут и обсуждать нечего...

Аноним 03/12/25 Срд 15:54:54 #266 №1439282

>>1439277
Давай я померю, кидай ссыль на твой квант

Аноним 03/12/25 Срд 15:59:25 #267 №1439287

>>1439282
о, отлично.
тогда тебе может пригодиться и команда запуска которой я пользуюсь
build/bin/llama-server -m /mnt/NON-RAID/LLM_MODELS/GLM-4.5-Air-GGUF_Q4_K_M/GLM-4.5-Air-Q4_K_M-00001-of-00002.gguf -ngl 128 -sm layer --host 0.0.0.0 --port 63487 -c 98304 --jinja -ctk q4_0 -ctv q4_0 --tensor-split 2,2,3

тензор сплит потому что две карты по 24 и одна 32 гб. Не думаю, что он замедляет значительно.

модель https://huggingface.co/unsloth/GLM-4.5-Air-GGUF/tree/main/Q4_K_M

Аноним 03/12/25 Срд 16:00:49 #268 №1439291

>>1439277
Нету 3090 и в100 чтобы проверить, есть примеры другого сетапа где с 50 падает до ~20 и ниже, но на контекстах 80-100к. Или плато в ~47т/с на модели в 1.5 раза больше до 160к но уже не на жоре.
Алсо версия какая, попробуй на месяц где-то откатиться.

Аноним 03/12/25 Срд 16:12:51 #269 №1439299

>>1439135
Добра тебе.

Аноним 03/12/25 Срд 16:25:08 #270 №1439311

>>1439140
>Пиздец, кто-то на это еще прогревается?
Ну вот я прогрелся, и что ты мне сделаешь?

Аноним 03/12/25 Срд 16:29:28 #271 №1439318

>>1439291
Слыхал на али, что у 3090 и v100 конфликт в дровах на винду возникает, и они не могут нормально вместе работать.

Аноним 03/12/25 Срд 16:31:42 #272 №1439324

>>1439318
> v100
> на винду

Аноним 03/12/25 Срд 16:54:02 #273 №1439344

>>1439318
Там в целом с дровами на винду проблема. Хорошо работает только с серверными

Аноним 03/12/25 Срд 16:55:47 #274 №1439347

изображение.png

>>1439324
Во. Я так понимаю, автор о диспетчере устройств винды (про восклицательный знак)

Аноним 03/12/25 Срд 17:14:45 #275 №1439364

>>1439318
Да, там в целом странности с дровами, раньше даже А серия, которая вполне себе с видеовыходами и может стоять в десктопе, конфликтовала. Но сносишь дрова, делаешь чистую установку, в диспетчере включаешь-выключаешь видеокарты и все начинает работать. Сейчас вроде починили что даже совсем некрота одновременно с последними заводится без конфликтов.
В линуксе вообще ноль вопросов к этому.
>>1439347
Да, именно такое. Проблема популярная для всякой экзотики и даже просто карт разной серии, чинится.

Аноним 03/12/25 Срд 17:26:23 #276 №1439382

> Исправлено кэширование изображений при обновлении аватара в Firefox.
О, не успел зарепортить, уже пофиксили. Оперативно.

Аноним 03/12/25 Срд 17:30:50 #277 №1439389

Правильно ли я понимаю, что если у нас начался кризис чипов памяти, то цены не только на оперативку взлетят, но и на видеокарты и ссд? Собирался брать 5080 супер следующей весной, но теперь думаю забить хуй и брать обычную 5080 прямо сейчас, пока цена не трипнулась. Насколько эти опасения вообще резонны?

Аноним 03/12/25 Срд 17:36:05 #278 №1439394

>>1439389
РАМ туземун, ССД тоже делают х2 потихоньку. По видюхам пока тихо, рост небольшой, но есть мнение, что 5080 супер может или вообще не быть или по оверпрайсу.

Аноним 03/12/25 Срд 17:36:47 #279 №1439395

>>1439389
Ты повторяешь слова блогеров-аналитиков, цены на некоторые вещи уже взлетели, 5090 за 200 и ниже уже не найти.
По предсказаниям это к ванге, но новость https://www.tomshardware.com/pc-components/gpus/nvidia-reportedly-no-longer-supplying-vram-to-its-gpu-board-partners-in-response-to-memory-crunch-rumor-claims-vendors-will-only-get-the-die-forced-to-source-memory-on-their-own намекает.

Аноним 03/12/25 Срд 17:48:36 #280 №1439410

>>1439389
Производство чипов одно и тоже. Но память в картах копеечная, даже х3 будет всего +100 баксов при цене карты в 1500.
>>1439395
> 5090 за 200 и ниже уже не найти
Они никогда столько и не стоили, до 250-300к подорожали задолго до роста цен на память.

Аноним 03/12/25 Срд 17:51:14 #281 №1439419

>>1439389
Да.
А еще нвидиа больше не будет поставлять чипы в комплектах с памятью, так что вендоры сами будут сраться между собой и с другими, чтобы купить память.

Так что моя 4090 со мной надолго

Аноним 03/12/25 Срд 18:13:53 #282 №1439483

>>1439394
>По видюхам пока тихо, рост небольшой
Ну оперативка тоже взлет начала почти с пустого места в последние три недели
>>1439395
>5090 за 200 и ниже уже не найти
Так потому что она столько и не стоила, лол. Минимально вроде до 240 опускалась, но точно не ниже

Аноним 03/12/25 Срд 18:21:26 #283 №1439493

1634135679417.png

>>1439410
> столько и не стоили
>>1439483
> Минимально вроде до 240 опускалась, но точно не ниже
Маркетплейс с комиссиями. В мелких интернет магазинах с гарантией по ~200 были, за чеками лень лезть чтобы фоткать. Под заказ и по 180 были, но риски и никаких гарантий. В общем, кто успел - тот успел, сейчас же их активно скупают и сами китайцы также как с 4090.

Аноним 03/12/25 Срд 18:21:48 #284 №1439494

df.png

>>1439287
> -ctk q4_0 -ctv q4_0
пу пу пу

Аноним 03/12/25 Срд 18:24:42 #285 №1439499

изображение.png

>>1439410
>Но память в картах копеечная
То то её вечно зажимают.
>> 5090 за 200 и ниже уже не найти
>Они никогда столько и не стоили
>>1439483
>Минимально вроде до 240 опускалась
За 230 лично брал на озоне (не гой, чтобы на 220 соглашаться, но были и такие, другие с наебалами за 180 брали, обменивающие свои 4090 вообще чуть ли не в плюсе были).
>>1439493
Всё так.

Аноним 03/12/25 Срд 18:31:11 #286 №1439505

>>1439494
Самый внимательный, тогда неудивительно что такие тормоза. Вообще, там есть простор для оптимизаций, но можно намотаться на костыльную реализацию фа в жоре.

Аноним 03/12/25 Срд 18:31:17 #287 №1439506

>>1439494
что пу пу пу?

Аноним 03/12/25 Срд 18:48:59 #288 №1439521

>>1439506
квантизация контекста равно плюс тормоза, минус качество

Аноним 03/12/25 Срд 19:04:04 #289 №1439531

image

>>1439493
>>1439499
Да и я за 230 брал. Но до 200 в нормальных магазинах никогда не опускалось, только у барыг ноунеймов баз гарантии.

Аноним 03/12/25 Срд 19:09:01 #290 №1439535

>>1438907
Штош, отвечу сам себе.
Мои муки выбора закончились на Lian LI SX, 1200W, 80+ Platinum, ATX 3.1 (SX1200P), на яндексе он по 13500 от Онлайнтрейда и я ещё промокод крутанул и получил 1000/10000 так что в итоге 12500.
Надеюсь норм будет.

Аноним 03/12/25 Срд 19:10:31 #291 №1439537

>>1439535
>1200W
>3 видеокарты

Что за видюхи?

Аноним 03/12/25 Срд 19:19:00 #292 №1439543

>>1439537
>Что за видюхи?
3060-12, 4060ti-16, плюс едет ко мне моя v100-16.
Надеюсь дожить до светлого будущего, в котором 3060-12 заменится на 5070tis (если выйдет, если кризис памяти пройдёт, и т.д. и т.п.).
Ну и плюс может в будущем что-то новое по типу v100 завезут.
БП на 650 Вт планируемую вот-вот конфигурацию не тянул точно, пришлось покупать новый. Хотел 1000Вт, но анон в треде посоветовал не ебать мозг и брать сразу 1200Вт, а я и не против.

Аноним 03/12/25 Срд 19:32:07 #293 №1439552

1000297075.mp4

Тред локальных моделей, но моя инфа будет полезна и для локальщиков, чтобы узнать, чо там по другую сторону забора.

Я юзаю и корпов (только для работы в основном), и локалки (только РП).

Я въебал более 500к токенов на РП с Grok'ом версий 4.0-4.1 в рамках одной карточки. Размер карточки с доп инфой составил 15к токенов. Решил попробовать, ибо никогда к нему не прикасался ранее.

Основные модели, с которыми я сравнивал грока: большие квен и глэм, и, внезапно, гемма.

Поясню более подробно и буду описывать только не совсем очевидные наблюдения, о которых местный анон мог не подозревать.

1. Внезапно крайне низкий уровень цензуры для корпа, что в некотором роде ставит его в один ряд с локалками. Мечта для кумеров и любителей катать карточки персонажей помладше. Кишки и сперма из узких дырочек будут вылетать только в путь без мам, пап и джейлбрейков. Почему так — непонятно.

2. У модели крайне странный биас: фиксация на сексе, эротике. Грок может забыть важные нюансы из лора, правил, но никогда не забудет, сколько раз трусы были сняты и напомнит, что ты обещал кого-то там выебать 10к токенов назад. Также наблюдатся биполярочка: ему очень сложно держать баланс между любовью и ненавистью. Старается выдавать какие-то более бинарные реакции. И упоминать соскользнувшую одежду с плеча, ключицы, шелест юбки, полноту бёдер. Только дай повод. Напиши хоть раз что-то такое 30к токенов назад — и он при любом неуместном моменте об этом вспомнит и начнёт гнуть на эту тему.

3. Внимание к контексту очень слабое. 32к держит терпимо, но на 50+ уже начинает сыпаться однозначно. Когда дело близится к 100к, то там уже хоспади помилуй. Что касается длины контекста, тоже не совсем понятна истинная длина, потому что какие-то модели поддерживают миллион, какие-то 128к, но легче от этого вам жить не станет.

4. По ощущениям и вспукам "инсайдеров" там 1Т МоЕ. А по моим — такое же, только с 3.5В активных параметров, иначе такое бешеное Т/С я ничем не смогу объяснить. Может шлёпать абзацы за секунду.

5. Из-за малого кол-ва активных параметров — страшный лоботомит. Без ризонинга путается в трёх соснах на контексте выше 8к. С ризонингом уже тянет на что-то приличное, благо высокая скорость работы позволяет ризонинг постоянно использовать.

6. Русек такой, что плакать хочется. На уровне локалок, НЕ заквантованных в мясо. Но это не то, чего ты ждёшь от корпоративного монстра за тонны бабла.

7. Китайский датасет. Вперемешку с типичным англоязычным. Там будет и ЛИРА, и ОЛД МЕН ХЕМЛОК, и сперма, растворяющаяся как чернила в воде, и пульсирующие стены, и вот эти вся китайщина ебанутая со словесным поносом и характерным переносом строк: каждое новое слово — новый абзац. Плюс нахуй сломанное форматирование. Из-за этого язык плывёт просто пиздец. Что интересно, в 3.0 такой хуйни не было.

8. Требует оче грамотного промптинга, если хотите попытаться во вдумчивое РП. Но это, ребяты, не окупается. С ростом контекста он нахуй шлёт все инструкции и проще автоматом вставлять ключевые моменты через n сообщений. Мучений буквально больше, чем с локалкой, потому что с локалкой ты выстраиваешь чёткий принци РП и хуяришь. Тут скачет. Подозреваю, что контекст динамический, квант модели тоже.

9. Если забыть про зиро-шоты и тесты в стиле "напиши рассказ, используя такие вот приёмы", даже гемма ебёт его в нарративе. На длительной дистанции гемма не так заебывает и даже лучше слушается инструкций. Без ризонинга гроку ПРОСТО ПАХУЮ, даже если инструкции в самом конце контекста. Нужно рероллить 2-3 раза, прежде чем он их выполнит. Но в итоге он всё равно что-то проебет без ризонинга.

10. Если воспринимать его как рабочий инструмент, то это мусор. Он не стоит и близко к нынешним корпам. Даже дипсик его ебёт, не говоря уже про клодов всяких. Нахуй он нужен бизнесу — непонятно. Но у меня есть подозрения, судя по докам с сайта, что модель просто для щекотания эго Илона. Ну и для дрочеров, что не может не радовать — нам нужны такие игроки для более разнообразного рынка в целом.

Если бы мне подсунули локалку в виде слитого грока, то я бы даже не догадался, что это корпоративная модель, а не Алибаба какая-то.

Ощущения очень смешанные. Чувство, что меня наебали.

Аноним 03/12/25 Срд 19:38:11 #294 №1439556

>>1439543
А, ну такие норм.

Аноним 03/12/25 Срд 19:46:23 #295 №1439562

>>1439552
Много буков. Скажи проще - GLM Air или Грок?

Аноним 03/12/25 Срд 19:52:44 #296 №1439569

>>1439505
>>1439521
а с чего вы взяли, что именно квантизация контекста виновата?
Кто-то проводил тесты и получал сильное замедление?
Просто типа... можно так в любую нестандартную опцию ткнуть и сказать "ААА, НУ ВОТ ОНО ПУ ПУ ПУ блять".

Аноним 03/12/25 Срд 19:57:30 #297 №1439573

>>1439552
Маск так-то в своё время критиковал ОпенАИ за то что они не "опен", но когда сделал собственную модель - сам не торопится выкладывать её в опенсорс. Да, в плане почти полного отсутствия цензуры (и текст и видео) - Маск слоняра, но за то что не делится с работягами своими модельками - максимальное осуждение. Какой-нибудь Грок-эйр на 120b я бы с удовольствием пощупал в локальном РП.

Аноним 03/12/25 Срд 19:58:55 #298 №1439575

>>1439562
Просто GLM 4.5, тот для РП просто отвал пизды как хорош.

Аноним 03/12/25 Срд 20:04:55 #299 №1439581

>>1439543
На эти с запасом.
>>1439569
Потому что известная тема, при расчетах происходит деквантование - чем больше тем дополнительная операция тяжелее. На жоре и так треш с ростом контекста происходит за редкими исключениями, а тут немало лишнего расчета.
>>1439573
Ну вон второй выложил уже давно, для кума вполне себе. Задержка очень большая перед выкладыванием, тут бы до третьего дотерпеть.
>>1439575
Почему не 4.6?

Аноним 03/12/25 Срд 20:10:21 #300 №1439589

>>1439552
>упоминать соскользнувшую одежду с плеча, ключицы, шелест юбки, полноту бёдер
Чем больше разных моделей пробую, тем сильнее ощущение, что существует какой-то один общий датасет с ерп который скармливается вообще всем нейронкам. Что мистраль, что гемма, что квен, что лама - все описывают сцены одинаково с едва заметными отличиями. Будто в английском весь эротический фанфикшен имеет общий паттерн и модели его запоминают не имея другого выбора. Точнее даже не паттерн, а общие конструкции. Одну конструкцию. Если описывается грудь, значит вздымающаяся и упругая, если соски, то обязательно твердые и розовые. Дженерик слоп щит короче.

Аноним 03/12/25 Срд 20:15:29 #301 №1439593

>>1439581
>Потому что известная тема, при расчетах происходит деквантование - чем больше тем дополнительная операция тяжелее. На жоре и так треш с ростом контекста происходит за редкими исключениями, а тут немало лишнего расчета.
для меня это странно звучит...
насколько я понимаю квантизацию, это позначает, что вместо 16 байт мы храним в памяти 4 (в случае q4). И единственное что надо сделать при работе с этими данными в карте - это добавлять к 4 байтам еще 12 нулей в конец. Всё.
Это не звучит как какая-то замедляющая операция.

Аноним 03/12/25 Срд 20:19:42 #302 №1439596

>>1439552
> Я юзаю и корпов (только для работы в основном), и локалки (только РП)
Правильно. Радикализм ни к чему.
> грока: большие квен и глэм, и, внезапно, гемма
Жаль, что именно сравнений в твоем посте нет, только с Геммой в конце. Квен 235б имеешь ввиду? С каким промптом катал? Не уходил он в дешевую театральную постановку с глупыми придыханиями и переносами? Квен хорошо держит внимание к контексту, больше похвалить мне его не за что.
> Внимание к контексту очень слабое. 32к держит терпимо
Справедливо для всех существующих моделей на сегодня, кроме может пары корпов. Больше 32к идти нет особо смысла. Не понимаю анонов, которые отписывались тут про 64-128к. На большинстве моделей это начинается и до 32к, но после - совершенно точно генерализированные ответы, теряющие суть повствования, обобщающие детали.
> Из-за малого кол-ва активных параметров — страшный лоботомит. Без ризонинга путается в трёх соснах на контексте выше 8к
Как ты при этом наиграл 500к токенов? Каким образом?
> вся китайщина ебанутая со словесным поносом и характерным переносом строк: каждое новое слово — новый абзац. Плюс нахуй сломанное форматирование. Из-за этого язык плывёт просто пиздец.
Ну то есть Квен 235, да.
> Если бы мне подсунули локалку в виде слитого грока, то я бы даже не догадался, что это корпоративная модель, а не Алибаба какая-то.
В любом случае, ценный пост. Благодарочка.

>>1439593
> Это не звучит как какая-то замедляющая операция.
Ты можешь руководствоваться своей теорией, а можешь взять и самостоятельно замерить. Квантование контекста на llamacpp приводит к падению скорости генерации, это давно известный факт.

Аноним 03/12/25 Срд 20:40:36 #303 №1439608

1000132812.jpg

1000132813.jpg

Как называются таки люди? Хороших слов не подобрать

Аноним 03/12/25 Срд 20:47:27 #304 №1439610

>>1439608
Предприниматели. Торговцы. Благодаря в том числе им ты живёшь в рыночной экономике. Да, увы, хорошего без плохого не бывает

Аноним 03/12/25 Срд 20:56:37 #305 №1439618

>>1439608
96 за 60К это дешево сейчас. Это меценат

https://www.dns-shop.ru/product/c6ac4ce2bbcded20/operativnaa-pamat-gskill-trident-z5-rgb-f5-6000j3040f16gx2-tz5rk-32-gb/

Аноним 03/12/25 Срд 20:56:49 #306 №1439619

>>1439593
> единственное что надо сделать при работе с этими данными в карте - это добавлять к 4 байтам еще 12 нулей в конец
Нет, то что ты описал - прямой каст, его никто не использует. Даже прямая конверсия тренированной в 16 битах модели в 8 бит таким "способом" вносит серьезный импакт, а в 4 там не просто бредогенератор - рандомные символы будут. Можно изначально закладывать веса в меньшей битности, но тогда придется менять саму архитектуру, вводить вагон лишних норм с высокой точностью (по сути недалеко от квантования ушло) и это применимо в первую очередь к огромным линейным слоям, а не атеншну.
Смысл квантования в том, что ты делишь параметры на отдельные группы по критериям диапазона и распределений, присваиваешь им общий множитель и смещение (хранимые в 16 битах), и уже только потом имеющийся диапазон делишь на малое число дискретных значений, представляя веса с меньшей точностью. Это описание на пальцах простого алгоритма, разумеется считается это чуть сложнее (например, гугли преобразование Уолша) и пришло еще из видеокодирования.
Само деквантование не сильно сложно, но есть нюанс со взаимодействием этого с флешатеншном. Плюс само квантвоание тоже там есть.
>>1439608
Если они просто торгуют - предприниматели, рыночные условия. Если агрессивно мониторят площадки ботами, мгновенно выкупают любой лот по меньшей цене и проворачивают подобное - барыги, которым нужно разбивать хлеборезку.

Аноним 03/12/25 Срд 21:04:46 #307 №1439627

>>1439589
>существует какой-то один общий датасет с ерп который скармливается вообще всем нейронкам
Да. Называется интернет. А то что кожаные всё описывают одинаково, то это уже не вина негронки. Впрочем, если бы я сделал свою мега архитектуру, то весь слоп можно было бы вырезать одним ползунком, но кому я нахуй нужен со своими мега идеями...
>>1439608
Я ведь только месяц-другой назад слил 2х32 за 15 косарей... Ну ё-маё.
>>1439618
Судя по пикче, там 48 гиг будут, лол.
>>1439619
>Если они просто торгуют
>мониторят площадки ботами
Рискую поднять оффтопный срач, но в чём разница? Типа руками норм, а ботом не норм? А бот раз в час норм? Ну в общем странные разграничения.

Аноним 03/12/25 Срд 21:32:57 #308 №1439683

>>1439619
>>1439610
Ну всё-таки надо отличать предпринимательство от спекуляции

Аноним 03/12/25 Срд 21:41:18 #309 №1439698

>>1439494
>>1439287
А вот я только освободился, хотел померять, как обещал, а тут уже разгадали причину. Я никогда не квантовал контекст, потому что всегда отзывы говно говна на это были, поэтому и не подумал про это. И кстати, 4 квант контекста это пиздец жестко же, не? Особенно в агентных тасках. И, судя по аргументам, ты и ключи квантуешь? Тут же аноний был сколько-то тредов назад, и там выяснили, что ключи квантуют только лохи.
А вообще, используй ОСС. Она со свистом же залетит в твой конфиг на полном контексте без квантования, еще и SDXL на сдачу на v100 запустишь (просто потому что). И скорость у нее пизже, на 100к контекста у меня вроде генерация 18 т/с была

Аноним 03/12/25 Срд 21:41:56 #310 №1439700

>>1439627
> в чём разница
Влошился, закупил за бугром у поставщиков, пронес в тузе через границу не платя пошлину @ даешь возможность работягам купить здесь и сейчас по конкурентной цене. Кабанчик потрудился сэкономив и пытается получить с этого профит помогая другим.
или
Паразитическая прокладка, лишающая людей возможности прямых сделок, навязывающая свою конскую комиссию, часто с кучей обмана. Буквально рекетиры на минималках. Офк граница может размываться, но суть такова.
>>1439683
Хз о тех лотах, но таких объявлений всегда было полно, пару плашек так и брал по цене ниже днса и прочих на то время. Если это торгаши, которые постоянно возят железки и они просто подняли цены вслед за всеми - в чем их вина?

Аноним 03/12/25 Срд 21:44:58 #311 №1439705

>>1439608
Может лучше вообще не покупать по таким ценам ебанарот? Хотя я сам в свое время купил карточку по оверпрайсу в майнинг о чем потом пожалел тысячу раз

Аноним 03/12/25 Срд 21:47:50 #312 №1439706

>>1439700
>лишающая людей возможности прямых сделок
Обеспечивающие ликвидность, я обычно таким барыгам всё и сливаю, ибо мне в хуй не впёрлось сидеть со своим железом до третьего пришествия, а они кабанчиком кидаются на мои объявы ниже рынка и вежливо скупают.
>часто с кучей обмана
ИЧСХ, их тоже могут наебать, и тогда они останутся в пролёте. Либо они могут купить на хаях и не продать, остаться с кучей железа и без денег на руках.
>Офк граница может размываться
А её и нету, лол. Тут градиент, а срыночек сам отрегулирует, отсеяв совсем охуевших барыг и совсем зелёных новичков.

Аноним 03/12/25 Срд 21:57:39 #313 №1439714

>>1439705
сейчас немного другая ситуация
> Micron Technology is shutting down its Crucial consumer business, a move that would allow the company to redirect resources toward large artificial-intelligence and data-center customers
ближайшие 3 месяца цены точно будут расти, а скорее весь ближайший год.
ждунов выебут, короче

Аноним 03/12/25 Срд 21:58:29 #314 №1439715

>>1439714
Тупа картельный сговор пидарасов налицо

Аноним 03/12/25 Срд 21:58:44 #315 №1439716

>>1439627
>там 48 гиг будут, лол.
Тогда это скам

Аноним 03/12/25 Срд 22:00:18 #316 №1439719

>>1439714
В 20 веке производители лампочек накаливания подобную хуйню исполняли кста

Аноним 03/12/25 Срд 22:02:46 #317 №1439722

>>1439715
да, они охуели, и что ты им сделаешь? не купишь оперативу за 59 990 р? в следующем году купишь за 99 990

Аноним 03/12/25 Срд 22:11:59 #318 №1439732

Новый игрок на арене опенсорса из Америки

Семейство моделей Arcee AI получило имя Trinity. Пока в превью-релиз вошли 2 конфигурации:

Trinity Mini — это обычная ризонинг-модель на 26 млрд. общих и 3 млрд активных параметров, обученная с нуля.

Trinity Nano Preview — это модель чата. Она создана, чтобы быть харизматичной и интересной в общении несмотря на свои скромные 6 млрд. общих и 1 млрд. активных параметров.

И пока мы тестируем Nano и Mini, Arcee AI тренирует флагмана Trinity Large.

Его релиз запланирован на январь 2026 года. Это будет модель на 420 млрд. параметров, из которых 13 млрд. будут активны.

Обе доступные модели, Trinity Nano и Trinity Mini выпущены под лицензией Apache 2.0. Они опубликованы на Hugging Face и поддерживаются llama.cpp, LM Studio и vLLM.

https://huggingface.co/collections/arcee-ai/trinity

Аноним 03/12/25 Срд 22:13:01 #319 №1439734

>>1439698
Что за железо?
И лучше картиночные на 3090 а ллм уже на в100.
>>1439706
> Обеспечивающие ликвидность
За ликвидностью в ломбарды, специализированные салоны, крупные риэлторские агентства и все подобное. Оценивают и тут же выкупают, рискуя влошиться в сомнительный актив, а ты платишь им за ту самую ликвидность.
А когда и так дефицитный товар, который проблем с ликвидностью не имеет, скупают чтобы сыграть не дефиците и перепродать дороже - мразь маздай.
> их тоже могут наебать, и тогда они останутся в пролёте
Туда и дорога. Опять же, нужно разделять условных дистрибьюторов, которые необходимы как связующие звенья между производителем и конечным покупателем, и перепуков, которые занимаются исключительно надуванием пузырей дефицита и не вписывающихся в общую схему.
> срыночек сам отрегулирует
Мемасик про анкапа - шаверматора. В чистом виде без вмешательств - никогда.
Ты, похоже, говоришь немного о других вещах. Ничего плохого в тех объявлениях, например, я не вижу.

Аноним 03/12/25 Срд 22:15:24 #320 №1439736

>>1439732
> 420B-A13B
ух, бля

Аноним 03/12/25 Срд 22:16:17 #321 №1439737

>>1439732
Ну вот опять, огромный монстр на 420b и пездюки 26b и 6b. Ясно-понятно, сидим на эйре дальше. Чувствую так весь следующий год и просидим.

Аноним 03/12/25 Срд 22:19:44 #322 №1439742

>>1439732
> 420 млрд. параметров, из которых 13 млрд. будут активны
Активных маловато, но хотеть.

Аноним 03/12/25 Срд 22:21:02 #323 №1439747

>>1439737
Щито поделать, корпоратам только такие и нужны. Спроса на 100б нет, так как нет задач для них. Для автоматизации рутины слишком большие, а для задач на подумать слишком тупые.

Аноним 03/12/25 Срд 22:22:09 #324 №1439749

>>1439698
>используй ОСС
да нахер этот слоподром.
Пока что эйр мне нравится больше всего. Хозяйка на кухне, шлюха в постели крепкий миддл в кодинге, безотказная в порнорп.
А oss ёбаный даже палкой трогать не буду, какой бы пиздатый он ни был.
>>1439734
>И лучше картиночные на 3090 а ллм уже на в100.
3090 на sdxl генерирует 5 секунд, а v100 - 4. Разница в секунду это хуйня.

Аноним 03/12/25 Срд 22:23:11 #325 №1439750

А какой пресет для этой Тринити ставить? ChatML? Чот в карточке модели не могу найти

Аноним 03/12/25 Срд 22:24:26 #326 №1439751

>>1439749
осс лучше в кодинге. дрочи с ейром, кодь с осс

Аноним 03/12/25 Срд 22:26:45 #327 №1439753

>>1439714
удовлетворят спрос корпоративных говно моча гной рак клиентов и вернутся к консьюмерам если смогут. но ждать этого наверняка не один год. очень надеюсь китайцы займут эту нишу, абсолютно не жалко когда такие конторы банкротятся

может покупка миника на ryzen 395 c 128гб - не худшая идея сейчас? стоит $2-2.5к всего то

Аноним 03/12/25 Срд 22:28:22 #328 №1439754

>>1439749
В100 быстрее в картиночных? Реквестирую пруфы и подробное описание конфига.
А так для xl столько памяти просто ненужно, вхолостую расходуется.
>>1439753
С дивана - сейчас покупка любой техники по "старым" ценам выглядит норм. Но если потом оно подешевеет - плакаться не приходи, решение за тобой.

Аноним 03/12/25 Срд 22:31:03 #329 №1439760

>>1439754
>С дивана - сейчас покупка любой техники по "старым" ценам выглядит норм. Но если потом оно подешевеет - плакаться не приходи, решение за тобой.
эти миники и до этого помешательства столько стоили. я уже давно мониторю их цену но жалко деняк купить

Аноним 03/12/25 Срд 22:31:36 #330 №1439761

>>1439754
>В100 быстрее в картиночных? Реквестирую пруфы и подробное описание конфига.
просто местами цифры перепутал. 3090 4, в100 5.

Аноним 03/12/25 Срд 22:59:29 #331 №1439793

>>1439734
>Что за железо?
3090 Ti + 2x 3090. Только я писал уже сюда, что с полным контекстом и 2к батчем она буквально на писечку не влезает в такой конфиг. Либо один слой на четвертую карту кидать, либо эксперта на рам - я второе выбрал. С v100 такой проблемы не будет, понятное дело

>>1439749
>да нахер этот слоподром.
Наркоман? Речь о кодинге шла, при чем тут слоп. Хотя я так понял ты не агента используешь, а просто в чате с аватаркой лясы точишь. Я еще удивился, ибо осс-у в одном агентном запросе выжрать условных 90к токенов - как нехуй делать, а у тебя там с попердыванием 50к набралось.

>>1439754
>В100
Не ленись писать нормально, потому что B100 тредовичкам только Дед Мороз может подарить, да и то не факт
https://pimnara.ru/shop/graficheskij-uskoritel-nvidia-b100-96-gb/

Аноним 03/12/25 Срд 23:00:19 #332 №1439797

>>1439706
>срыночек сам отрегулирует
Он прежде всего отрегулирует кошелёк покупателей, которые вместо покупки у Васи Пупкина за 3 рубля будет покупать за 10 рублей у перекупа Хуя Защеканова, который ботом автоматом скупает всё, что дешевле установленной им планочки.
Знаешь такую хуйню, как скальпинг применительно к потребительским товарам? Это когда продаётся ограниченная хуйня, которую боты перекупов раскупают за 0,001 с, а потом те, кто эту хуиту использовал бы для себя, вынуждены платить перекупу. Характерный пример был, правда за давностью лет подробностей не особо помню - буржуи плакались, помнится, что какой-то пидор скупил весь выпуск каких-то коллекционых йоб по ККИ (выпуск был небольшой, 1-10к штук), кинул их себе в гараж и продавал в N раз дороже.
Ну или пример более привычный, из эпохи майнинга, когда сети пиарились, выставляя N карт по нормальной цене, а (даже если условный DNS не сливал это перекупам через сотрудников) всё раскупалось ботами.

Аноним 03/12/25 Срд 23:09:22 #333 №1439815

>>1439793
Если с экспертом в рам тогда уже норм скорость.
Раз пользуешься - поделись с народом шаблоном что юзаешь.
>>1439797
Все так.

Аноним 03/12/25 Срд 23:12:24 #334 №1439819

MV5BMDJmOGE1NTAtNGQyZS00YjI0LWFhYzItNDdlNmNmNTdmNTRjXkEyXkFqcGc@.V1.jpg

https://youtu.be/vZa0Yh6e7dw

Мистраль обосрались и не выпускают ничего толкового уже больше года.
Гугл, возможно, и не выпустят Гемму 4.
Плотных моделей, доступных любителю, все меньше. Только малютки для агентской работы. Впрочем, есть предпосылки, что плотные модели умерли в целом.
Средний сегмент Мое моделей, похоже, мало кому интересен. Только малютки для агентской работы и то, что не запустить на любительском железе.
Железо дорожает и будет дорожать.
В целом фон для нашего увлечения в конце года довольно негативный.

Как-то печально все, мог бы подумать ты или кто-нибудь еще. Да не все так плохо, отвечу я. Ведь уже есть прекрасные модели, которые запустятся на любом железе.

Ллама 8б, Мистраль 12б для совсем слабеньких пк. Плотненькие 22-49б для владельцев гпу. Чудесный Air, по-своему прекрасный Квен для владельцев гпу + озу. GLM 4.6, Дипсик для настоящих энтузиастов - обладателей железа. Да и куча других моделей под самое разное железо, которые уже сегодня хороши. Многое из того, что имеем, недооцениваем. Та же Гопота Осс 120б, на самом деле, целое событие. Уже сейчас Альтман и ко внедряют в свои сервисы рекламу, отупляют старшие модели (которые и до него перформили примерно как осс 120, если оценивать исключительно модель) ради удешевления инференса. В итоге, возможно, это был их последний опен сорс релиз. Туда же последуют и остальные, в сторону удешевления, монетизации, спада прогресса. Халява заканчивается, прогресс неизбежно замедлится. Останутся самые сильные, самые прожорливые. Что разработчики, что, возможно, ценители.

Но это был чудный год. Я помню Дипсик в январе, QwQ, Snowdrop, Гемму 3, васянотюнский мистралеслоп с душой, GLM 0414, GLM 4.5. Никто у нас этого не отнимет. Даже сейчас, в момент роста цен, если очень надо - каждый может купить себе 16гб гпу и 64-128гб оперативы. И будет вся эта история с вами, ваши персонажи, чаты, истории, и все то, что вы еще не успели отыграть; ваши вайбкод проекты и ассистенты, с которыми можно болтать обо всем и ни о чем одновременно.

Даже если все это закончится, и следующий год будет скуден - всегда можно вернуться к минувшему; попробовать что-нибудь новое. Будут создаваться новые фронтенды вроде Talemate, будут расти культура промптинга и скилл работы с моделями. Появятся все более способные, продуманные агентские системы. Текущие модельки недораскрыты, это точно.

Короче говоря: цените то, что имеете, люди. Все не так плохо.
мимо уже 4 месяца инджою на Air и теперь derestricted версии, это первая модель которая меня не доканала за все это время и видимо никогда не надоест

Аноним 03/12/25 Срд 23:13:30 #335 №1439820

>>1439815
>поделись с народом шаблоном что юзаешь.
Что ты имеешь в виду под шаблоном? Команду запуска?

Аноним 03/12/25 Срд 23:13:37 #336 №1439821

Кстати, господа, ничего не появилось нормального для автоматического суммарайза? Понятное дело, что с ручным это никогда не сравнится, но может кто чем пользуется из расширений таверны? Я на что не натыкался - либо не работает (например у меня https://github.com/QueenGytha/ST-Auto-Summarize упорно не хочет подхватывать выбранный пресет из таверны, соответственно пукает и обмякает при попытке послать нейронке промпт для сумарайза), либо хуйпойми как пользоваться.

Аноним 03/12/25 Срд 23:15:00 #337 №1439824

>>1439820
Как оформлена жинжа под вызовы

Аноним 03/12/25 Срд 23:16:42 #338 №1439826

>>1439824
Просто --chat-template-kwargs '{"reasoning_effort":"high"}' в команде запуска

Аноним 03/12/25 Срд 23:16:49 #339 №1439827

>>1439706
>срыночек сам отрегулирует
На моей памяти вообще нет случая когда срыночек чего-то регулировал. Консолии нихуя не подешевели, так что консоледауны которые покупали на лонче у перекупов за 1000 баксов в принципе ничего не потеряли. Я вообще подозреваю что на новых техпроцессах какая-то фундаментальная нерешаемая проблема с выходом годных чипов просто, а принцип new good old bad не дает откатиться на рабочий процесс.

Аноним 03/12/25 Срд 23:17:51 #340 №1439832

>>1439815
>>1439824
Анслотовская жижа прекрасно работает для вызовов.

Аноним 03/12/25 Срд 23:27:02 #341 №1439847

image.png

Как прошибить лупы? Самые пиздецовые лупы из всех моделей. Ни температура, ни DRY, ни XTC не помогли. Свайпы полностью 1 в 1 копирует.

Аноним 03/12/25 Срд 23:29:18 #342 №1439849

image

>>1439819
>Мистраль обосрались и не выпускают ничего толкового уже больше года
Ты чо сука, ты чо? 24b 2506 - годнота. Из коробки умеет в кум, цензуры считай нет. Практически идеальный русик, лучше только у Геммочки. А его файнтьюн Локи - так вообще слепящий шин. Васян довёл модель до идеала, сделав ее чуть не лучшей для РП среди ллмок до 30b. https://huggingface.co/CrucibleLab/M3.2-24B-Loki-V1.3

Аноним 03/12/25 Срд 23:34:17 #343 №1439860

desktop-wallpaper-joker-smoking-black-and-white-thumbnail.jpg

>>1439849
> Ты чо сука, ты чо? 24b 2506 - годнота.
Так и знал, гаденыш, что кто-нибудь да ткнет меня пальцем в Мистраль 2506. У меня уже заготовлен ответ на этот случай, подлюка ты буквенная.

🤓 Вообще-то, да будет тебе известно, 2506 является тюном 2503, 2503 является тюном 2501.

Признаю: ошибся, думал, 2501 вышел в декабре 2024. Разница невелика.

Как бы то ни было, это еще одна неплохая модель, я согласен. Жму хуй руку.

Аноним 03/12/25 Срд 23:41:21 #344 №1439868

>>1439819 >>1439860
>Мистраль обосрались
Ну по мне министраль очень неплохая затычка. Она конечно по размеру сосёт у mistral-small3.2 и путается мелочах, но в целом язык очень хороший, как будто она поуверенее живёт с большим контекстом и реже улетает в повторы.

Аноним 03/12/25 Срд 23:43:32 #345 №1439871

>>1439826
>>1439832
Мало ли что-то особое намутил, или новая штука в тренде, благодарю.

Аноним 03/12/25 Срд 23:45:39 #346 №1439873

>>1439849
Стоит слезать с https://huggingface.co/zerofata/MS3.2-PaintedFantasy-Visage-v4-34B ?

Аноним 03/12/25 Срд 23:53:00 #347 №1439876

>>1439581
>Почему не 4.6?
Не представляю, что-то сломали, видимо. Там где 4.5 всё красиво и сочно описывал 4.6 пишет достаточно сухо.

Аноним 03/12/25 Срд 23:56:14 #348 №1439878

>>1439793
>ибо осс-у в одном агентном запросе выжрать условных 90к токенов - как нехуй делать
я не знаю, какого ты агента используешь, но то как они жрут память я считаю абсолютное блядство.
Для кондинга достаточно плагина в пайчарме и он не будет жрать память как сука. А агент - это говно какое-то ебаное. 6 тысяч токенов со старта в контекст уходит, да я в рот ебал такие локальные ллм.
Складывается ощущение, что это для тех, кто предпочитает закинуть в ллм дохуя памяти вместо того чтобы расходовать её по необходимости.
И да, я видел как эти охуительные агенты работают, спасибо, говна уже поел --> >>1432718 →
Уродство ёбаное.
пожалей короче память, дед, а то будешь оперативку на полмиллиона покупать и тебе будет мало.

Аноним 04/12/25 Чтв 00:00:02 #349 №1439882

>>1439797
>будет покупать за 10 рублей у перекупа
А ты не покупай, и перекуп соснёт хуйца.
>>1439827
>На моей памяти вообще нет случая когда срыночек чего-то регулировал.
Как минимум ты не голодаешь, уже достижение на самом деле.

Аноним 04/12/25 Чтв 00:01:10 #350 №1439883

>>1439860
Вот-вот, это ты зря быканул. Но в целом я разделяю твой пессимизм. Эйр 4.6 обещали выпустить, но скорее всего это будет последняя нормальная модель для среднестатистического пользовательского железа.

Алсо будучи немного параноиком я просто забекапил все хорошие ллмки во всех квантах и вариациях, от 1b геммы в q2 до эйра в q8 (а мало ли что дальше будет? Чебурнет? Удалят с обниморды? Пека сломается, а новый будет стоить как квартира в Москве? Еще какая-нибудь ёбань?). Скопировал всё это добро + средства запуска на жесткий диск 6tb и положил на полочку. Так спокойнее.

>>1439873
В треде было много положительных отзывов о Локи. Скачать и потестить на своих карточках точно стоит, как мне кажется.

Аноним 04/12/25 Чтв 00:02:40 #351 №1439884

1764795760003.jpg

Ещё вечерок ебли с подбором биоса в котором работает всё что мне нужно и вот две мишки уже залетели в рдшку. Завтра подкину ещё 2 и буду думать как всё это разместить

Аноним 04/12/25 Чтв 00:05:21 #352 №1439888

>>1439883
> (а мало ли что дальше будет? Чебурнет? Удалят с обниморды? Пека сломается, а новый будет стоить как квартира в Москве? Еще какая-нибудь ёбань?)
> Скопировал всё это добро + средства запуска на жесткий диск 6tb и положил на полочку. Так спокойнее.
Согласен с тобой полностью, анончик. У меня у самого три внешних жд на 5тб каждый, там все: флибуста, фильмы, мультфильмы, маняме, хентайчик, порнчик, манга, вообще все. И ллмки, конечно, тоже. Такое время. Прорвемся. Главное помнить, что у нас хотя бы это (ллмки, всмысле, те что уже доступны) есть, и это уже чего-то да стоит. Многого, на самом деле.

Аноним 04/12/25 Чтв 00:05:53 #353 №1439890

>>1439883
>забекапил все хорошие ллмки во всех квантах
Вместо того, чтобы забекапить оригинал и тулзы для квантования...
>>1439884
>Ещё вечерок ебли с подбором биоса
Какие-то специфичные для твоей матери проблемы, или общее? Если общее, то выкладывай стори.

Аноним 04/12/25 Чтв 00:08:34 #354 №1439891

>>1439890
> специфичные для твоей матери проблемы
Специфика. Нужен был
- бифурк
- ипми из системы
- картинка через бмц
- управление вертушками
Сейчас стоит биос вообще от супермикры с патчами под ленову

Аноним 04/12/25 Чтв 01:07:13 #355 №1439932

>>1439821
>Кстати, господа, ничего не появилось нормального для автоматического суммарайза?
Большой Квен даже во втором кванте неплохо подходит. Я использую такой метод: даю задание на суммарайз последнего, а в следующем сообщении пишу: неплохо, но есть неточности. Сделай поточнее. И он исправляется, получается чётко. Ну а если возможностей для Квена нет, то Мистраль оригинал. Тюны как правило ломаные, а оригинал в хорошем кванте таки соображает.

Аноним 04/12/25 Чтв 01:30:03 #356 №1439937

>>1439891
Добро пожаловать в /llama/ тред, тут есть:
>БИ ФУР к
запрещенные в РФ организации
>пикми из системы
зумерский сленг
>через бмц
преемник мцк и мцд
>управление вертушками
диджеинг

Аноним 04/12/25 Чтв 02:21:32 #357 №1439969

Прочитал ссылки с шапки поста. Примерно понял как все стартануть, но охуел с тонны моделей. Меня напрягает, что почти все они для рп. Я бы хотел себе локальную ллм в роли ассистента, помощника в изучении материалов по работе и коду.
Вероятно хотелось бы работать с RAG, потому что перечитывать книги ради определенных моментов не хочется, а найти кусок желаемого текста хочется быстро. Или пройти тест по документу, который не хочется самостоятельно осиливать.
Подскажите, пожалуйста, на какую модель обратить внимание. 16 гб видеопамяти и 48 гб оперативки есть

Аноним 04/12/25 Чтв 02:47:19 #358 №1439997

>>1439969
>Я бы хотел себе локальную ллм в роли ассистента, помощника в изучении материалов по работе и коду
Под твои спеки так:
Ассистент: qwen 80bA3b, gpt oss 120b
Код: qwen coder 30bA3b, gpt oss 120b
Общие знания: qwen 80bA3b, glm air 106b, gemma 3 27b

Аноним 04/12/25 Чтв 03:05:26 #359 №1440013

>>1439997
Базанул

Аноним 04/12/25 Чтв 03:54:26 #360 №1440049

Я долго не пнимал почему многие рпшат в фентези вселенных, а недавно попробовал поэрпешить во вселенной zenless zone zero, которая по сути урбанистика с элементами фэнтези и киберпанка, и господи блять, как же я задушился. Корпорации, армия, автобусы, кафе, стройки, неоновые вывески... Бля, я даже не думал что это будет так душно.

Аноним 04/12/25 Чтв 04:43:56 #361 №1440113

Ладно, я прощупал чатмл темплейт на эир.
По первости и правда пишет простенько в сравнении с глм, возможно требует больше свайпов, но пишет как то роднее, меньше эировского слопа, нарратива, активнее снимает с тебя трусы, не стесняется в выражениях куда чаще чем глм.
Возможно ума меньше, но этот ум на глм передавливает эиру воздух блять и в середине каждого моего чата я уже захлёбываюсь нарративом

Аноним 04/12/25 Чтв 06:36:26 #362 №1440144

>>1439608
Без них был бы советский дефицит. А он, судя по большому количеству негативных постов, никому не нравиться.

Большинство людей решило, что это лучше, чем надпись "по вашему запросу ничего не найдено".

У тебя сейчас есть иллюзия выбора - можешь купить, можешь не купить.

Аноним 04/12/25 Чтв 07:00:00 #363 №1440150

>>1439882
>А ты не покупай, и перекуп соснёт хуйца.
Скажи, анон, ты ебанутый? Перекупы покупают нужную хуйню, которую я хочу купить чтобы ей пользоваться (неважно, видеокарта ли это, билет на концерт или б/у фингербокс на авито). Альтернативы у меня - либо нет вообще, либо нет за такие же деньги (очевидно перекупы продают б/фингербокс на авито не дороже, чем он стоит в магазине, они же не долбоёбы).
И ты мне такой "не надо гнать на перекупов, просто не покупай!" А хули поменяется-то? Типа все люди объединятся в единую биомассу и в едином порыве вынудят перекупов снижать цены? Ну да, это же всегда так отлично срабатывало (нет).
>>1440144
>Без них был бы советский дефицит.
Ебать святые люди! Небыло бы их, Вася Пупкин просто продал бы б/у фингербокс на авито Феде Васечкину и на рынке начался бы дефицит. А благодаря самопожертвованию этих святых людей дефицита на рынке нет, и любой - например вышеупомянутый Федя, может просто купить фингербокс у перекупа!

Аноним 04/12/25 Чтв 07:06:15 #364 №1440151

>>1440144
И да, дополню свой пост.
Это как раз и есть дефицит советского образца, когда номинально фингербокса нет, но есть в десять раз дороже из-под прилавка у продавщицы или у фарцовщика за углом.

Аноним 04/12/25 Чтв 09:17:17 #365 №1440171

>>1439997
Спасибо, анон, буду пробовать

Аноним 04/12/25 Чтв 09:22:01 #366 №1440172

>>1440150
>Скажи, анон, ты ебанутый?
>/ai/ раздел
Ну как бы ответ.
>Типа все люди объединятся в единую биомассу и в едином порыве вынудят перекупов снижать цены?
Идеальный вариант, да. Но ты же хочешь хуитку? Вот и покупаешь. Из-за таких пидорасов как ты, кто не может подождать, и возникают перекупы.
>А благодаря самопожертвованию этих святых людей
Ты всегда можешь пойти и купить, если вопрос цены не стоит.
>>1440151
Какой-то у тебя неправильный совок. В правильном ты бы имел хоть х1000 от цены, но волгу мимо очереди не получил бы никогда.

Аноним 04/12/25 Чтв 09:27:07 #367 №1440174

Подскажите ньюфагу какие модельки я могу накатить с таким спеком (для таверны), пока щупал только модельки на опенроутере, гайд по моделям читал но нихуя не понял (там видеопамять указывается или оперативная), подскажите анончики.
32 Гб ddr5
5070ti

Аноним 04/12/25 Чтв 10:02:59 #368 №1440182

>>1440172
>Из-за таких пидорасов как ты, кто не может подождать, и возникают перекупы.
Подождал
@
Цена увеличилась, предложение не изменилось.
>>1440172
>Ты всегда можешь пойти и купить, если вопрос цены не стоит.
Я и говорю, святые люди - дают возможность покупать тем, у кого больше денег.
А иначе бы фингербокс купил Вася Пупкин, и это было бы полным крахом.
>В правильном ты бы имел хоть х1000 от цены, но волгу мимо очереди не получил бы никогда.
Ты мне ещё про сферический коммунизм в вакууме спиздани.

Аноним 04/12/25 Чтв 10:04:56 #369 №1440183

>>1439299
Задолбала меня воющая карта, начал разбираться чё же она так шумит. Изначально грешил на BIOS/драйвер, но в итоге оказалось, что грёбанные китайские кулеры, которые я заказал на озоне, не передают/херово передают (походу контакт) данные об оборотах и поэтому карта врубала их на максимум. В итоге пока разбирался что к чему сломал нах лопасти на этих китайцах. Ждать новых не хотелось, поэтому разукомплектовал GTX-660 с неуправляемыми бесшумными вентиляторами и вкорячил их на p104, благо по размерам они идентичны. Теперь вполне сносно, можно спокойно катать модельки.

Ну и заодно закомпилил llamacpp-server с поддержкой архитектур 6.1 и 8.6

Аноним 04/12/25 Чтв 10:33:39 #370 №1440194

>>1440174
Мистраль 24b, Гемму 3, snowdrop, qwen30 и 32. Кванты 4 и выше, в 16 гб часть из перечисленных моделей не влезут, так что с выгрузкой на РАМ, что медленно. Раньше предложил бы тебе докупить оперативки до 64 и катать GLM Air, но с нынешними ценами уже не вариант, разве что, если место в корпусе есть, можешь v100 купить, цена вопроса 50к за 32гб ВРАМ.

Аноним 04/12/25 Чтв 10:42:16 #371 №1440198

> Наконец компьютеры становятся таким же показателем успеха как дом или машина, а то каждый школьник мог себе пк собрать - ну куда это годится.

в шапку

Аноним 04/12/25 Чтв 10:50:57 #372 №1440200

Я не понял, министрель чо, платный?
mistral.ai/pricing#api-pricing

Или это на локалку с анслота не распространяется?

Аноним 04/12/25 Чтв 10:55:42 #373 №1440202

>>1440200
Пардоньте, ссылка docs.mistral.ai/models/ministral-3-14b-25-12

Аноним 04/12/25 Чтв 10:56:25 #374 №1440203

>>1440194
Спасибо огромное, а что насчёт миксов на русском которые в шапке?

Аноним 04/12/25 Чтв 11:03:06 #375 №1440208

>>1440200
Да, я установил локалку анслота а там свайпы платные. Сижу вахуи.

Аноним 04/12/25 Чтв 11:10:45 #376 №1440211

>>1440200
Ссылку не открывал, там скорее всего мистраль просто продаёт доступ по api. Если скачаешь с обниморды веса, то запуск естественно бесплатный.
>>1440203
Там в основном 12b модели. У Aleteian есть на Мистрали и гемму 3 тюны, можешь их попробовать. Но вообще русский у моделей, особенно такого размера не особо хороший (он даже у корпоратов неоч). Лучше всего у геммы и её тюнов и у мистраля 24

Аноним 04/12/25 Чтв 11:12:03 #377 №1440212

>>1440208
Хаха. Ну лол, а вдруг. Как с подпиской на подогрев сидений в бмв

Аноним 04/12/25 Чтв 11:46:07 #378 №1440225

Как угробить 128гб памяти? Правильно !
Вытащить подсветку, и запороть схемы.
Кокой же я молодец.

Аноним 04/12/25 Чтв 11:47:18 #379 №1440226

>>1440225
Что мешало ее через биос отключить если не нужна? Ггвп соболезную

Аноним 04/12/25 Чтв 11:47:50 #380 №1440227

Анончеги, вот какой вопрос. Вот спрашивают вас ваши знакомые или там родственниги: че ты там копошишься со своими нейросетями, нах они вообще нужны, особенно локальные?
Ну, там, кодить можно в копро корпо сетках, картинке генерить там же, перплексити ваще поиск охеренный осуществляет (а в платной версии 450р/год вообще чудеса творит).
Какое практическое применение находите локалкам кроме ебли с динозаврами и ролеплея с совершеннолетними школьницами? Есть реально какое-то такое уникальное применение, кроме продвинутого тамагочи на домашнем пека? Я спрашиваю не потому, что подколоть хочу, а , правда, интересно.

А воопще: былоп прикольно сделать агента, который шарился бы по локальным фоткам и находил людей, ваще круто былоп

PS. в порядке бреда

Аноним 04/12/25 Чтв 11:48:24 #381 №1440228

>>1440211
Спасибо, я удивлён качеству здешних анонов по сравнению с бототредом. Знаю что вопрос не сюда, имеет смысл купить себе подписку на грок и не ебать мозг (тестил grok fast 4.1 пока был бесплатный зашло и контекста у него дохера, даже сои не слишком много)

Аноним 04/12/25 Чтв 12:15:18 #382 №1440254

https://huggingface.co/NousResearch/Hermes-4.3-36B-GGUF

Аноним 04/12/25 Чтв 12:15:23 #383 №1440255

>>1440227
>кроме
Так рп - это самое важное. Восполняем потребность в общении и (опционально) близости с железками, потому что с людьми не получается. У кого это есть ирл, тому и правда не нужны. Пусть и дальше крутятся в обществе мясных ублюдков и не подогревают спрос на рам.

Аноним 04/12/25 Чтв 12:24:36 #384 №1440265

>>1440227
Только баловство..
Но вот >>1440198
>> Наконец компьютеры становятся таким же показателем успеха как дом или машина, а то каждый школьник мог себе пк собрать - ну куда это годится.
Недавно бате показал что собрать риг стоит дороже чем его машина, и его доебы за то что я хикка-лох-чмо без машины и прочего уменьшились.

Аноним 04/12/25 Чтв 12:27:21 #385 №1440268

>>1440225
пу пу пу

Аноним 04/12/25 Чтв 12:30:07 #386 №1440271

>>1440226
Она рандомно включалась. Ну меня заебало это светошоу. Но ничего, сейчас паяльник в жопу засуну возьму и исправлю.

Может мне кто нибудь объяснить - зачем ? Зачем они пихают эту лгбт подсветку везде. Еще матплат случаем с подсветкой нет?

Аноним 04/12/25 Чтв 12:31:32 #387 №1440275

>>1440265
у меня риг на ддр4 уже дороже моей восьмилетней машины стоит, а когда наконец соберу на ддр5 он будет стоить как новая

Аноним 04/12/25 Чтв 12:32:04 #388 №1440277

>>1440271
пипл хавает, рыночек порешал

Аноним 04/12/25 Чтв 12:33:28 #389 №1440278

>>1440271
Ты такую купил а теперь удивляешься. Ну пиздец

Аноним 04/12/25 Чтв 12:35:31 #390 №1440281

>>1440271
Хорошо просто комп не разъебал

Аноним 04/12/25 Чтв 12:42:21 #391 №1440284

>>1440271
> матплат
Давно уже такие выпускают.

Ты свою память отнеси в ремонт - они её под микроскопом обратно спаяют.

>>1440227
Приватность.
Работает без интернета. Его сейчас часто отключают.
NDA на работе.

Аноним 04/12/25 Чтв 12:42:31 #392 №1440285

>>1440271
Игровичкам нравится... оно светится прикольно.. типа вау.. круто

Аноним 04/12/25 Чтв 13:01:03 #393 №1440299

>>1440225
Вовремя ты эксперименты с экономическим уклоном проводишь...

Аноним 04/12/25 Чтв 13:14:14 #394 №1440306

>>1440277
>>1440278
>>1440281
>>1440284
>сам виноват что купил светящееся говно
Ой вей, так другого нет. В принципе нет. Если оборудование не серверное, оно обязательно будет с каким нибудь игросральным припоем. То радиаторы, которые больше самой памяти раза в 2, то подсветка, то трубки для охлада.
Все что можно взять вменяемого или отсутствует, или стоит совершенно ненормальных денег.
Я искренне сочувствую тем, кому надо собирать серверную память.

Аноним 04/12/25 Чтв 13:22:18 #395 №1440308

>>1440306
не пизди на радиаторы и трубки для охлада, при частичной выгрузке моделей в оперативу она греется как сучка, 100 градусов не предел

Аноним 04/12/25 Чтв 14:09:14 #396 №1440329

1637340361673.jpg

>>1439883
>>1439888

А есть какой то сертифицированный тредом список моделей с рекомендацией иметь бекап у себя? Тоже хочу держать бекапы на всякий случай, купил даже второй 4тб ссдшник под это дело. Но я еще до конца не вкатился в ллмки чтобы понимать что мастхев, а что кал. Из-за работы времени особо нет, мне надо сначала прям во всем разобраться как все устроено и работает, даже если поставить какую-то хуитку типа llama.cpp и вывести хеллоуворд. Очкую что к моменту как вкачусь на достаточном для понимания что мне нужно уровне, модели начнут блочить/удалять. Причем не факт что это из-за кванмена, примут какую-ниудь хуиту типа модели должны пройти обзательный safety чек, или просто хаггинг фейс скурвиться и начнет зарабатывать на всем.

Вон как в civitai уже поудаляли кучу лор, а туда я тоже параллельно хотел закатиться.

Аноним 04/12/25 Чтв 14:10:57 #397 №1440331

>>1440271
А зачем покупать с лгбтподсветкой? Она еще и дороже как правило

Аноним 04/12/25 Чтв 14:25:12 #398 №1440341

>>1440329
качай
medgemma 3 27B + mmproj
gpt-oss 120B
glm4.5 Air
mistral small 3.2 24B 2506 + mmproj
желательно всё в оригинальных весах F16 чтобы потом квантизировать как хочешь

Аноним 04/12/25 Чтв 14:29:58 #399 №1440345

>>1440341
Мегабаза. У меня в точности такой же бекап. Ну Квен жирный ещё, который я больше никогда скорее всего не запущу. Какашка он

Аноним 04/12/25 Чтв 14:38:29 #400 №1440351

>>1440275
>а когда наконец соберу на ддр5 он будет стоить как новая
конечно, соберешь :)

Аноним 04/12/25 Чтв 14:42:03 #401 №1440355

>>1440345
вот я тоже думаю, что какашка, из больших моделей глм 4.5 и 4.6 лучше, и внезапно ernie неплох

Аноним 04/12/25 Чтв 14:43:46 #402 №1440357

>>1440329
Gemma 3 все версии
Qwen 3 все версии кроме 235b
Mistral 2506 24b + Локи 24b
Glm Air

Опционально:
Старый Command-r 32b
Старый Mistral Nemo 12b

На слабую пеку, если нужен русик:
Sainemo-remix 12b
Yankagpt 8b

По квантам - смотри сам под своё железо, или как подсказали выше, качай оригиналы + тулзы для квантования. Если совсем лениво разбираться, то скачать всё в Q4_K_L не будет ошибкой. Но лучше разберись, конечно.

Ну и кобольда закинь туда же, просто чтоб был. Все версии (с кудой, без куды, для старых пека и т.д). Таверну. Можно еще ChatterUI скачать - запускать мелочь на телефоне.

Аноним 04/12/25 Чтв 14:43:56 #403 №1440358

>>1440351
зачем вы травите

Аноним 04/12/25 Чтв 14:47:15 #404 №1440362

1000297173.jpg

1000297174.jpg

>>1439562
Зависит от того, в какой ты позиции.

Если у тебя есть возможность экспортировать чаты из грока и адекватно перенести карточку туда, то лучше грок. У него много недостатков, но всё-таки это жирный корп и ломается он меньше. Ответы более разнообразны.

Когда он скурвится — обратно на локалке продолжишь. Там буквально один патч без обновления версии в стиле "улучшили показатели в бенчмарках" может всё сломать в плане цензуры и повествования.

>>1439573
Кстати, я вот грок 1 не пробовал и 2, но 3 реально очень хотелось бы увидеть локально, потому что он пиздец как хорош для РП в своей в своей весовой категории. Хотя.. тот же гпт 4о или сонет 3.5 сошёл бы, что уж тут говорить.

>>1439589
Да, есть такое. Но большие модели тем и хороши, что можно настроить реакцию более детально. То есть, если персонаж и его реакции, паттерны поведения норм прописаны, то жирный корп/модель это подхватывает лучше, в отличие от многих локалок. Когда есть необычные сценарии, где надо вот прям пиздец как следовать сложным инструкциям в плане кума. Где очень много всего учесть нужно.

>>1439596
Ну по сравнению с толстым квеном он выглядит всё же веселее в плане текста. Как на английском, так и на русском. Другое дело, что если упарываться в лютое порно, тут уже грок сдаёт позиции. Когда нужно мммаксимум порнослопа жёсткого. Грок может сценарий хоть с лолями отыгрывать, но это будет немного не то, если это не в рамках большой истории, а "запустил карточку, чтобы подрочить на 10к токенов 15 минут". В таком случае ты ожидаешь чего-то ближе к магнуму с его безумной грязью. И хоть грок может в письки-грязь, когда описывается процесс с несовершеннолетними, он более осторожен в выражениях.

>Как наиграл 500к токенов

Ризонинг юзал.

Поначалу не понимал, чому он шизеть начал, а оказалось, что я де-факто вышел за эффективный лимит токенов (контекст шифта ещё нет, а шиза есть), и он всё обобщает, сливает в кашу, путается. Переключился на ризонинг версию — она уже не видела начало чата (у неё более маленькое контекстное окно), думала, ну вот там уже туда-сюда и терпимо было. Плюс с помощью OOC можно было эффективно фиксить ошибки повествования и писать на отъебись — понимал и так.

Но бесил контекст шифт (или что-то иное, но начал постоянно тормозить перед ответом ещё до того как ризонить начинал). Иногда секунд 30 ждать приходилось. Благо хоть ответ писал быстро.

Я сейчас с телефона, так что не скопипастить, но у меня был примерно такой же систем промпт, как и в таверне.

Взгляни ещё на скрины. Версия 3 — это первый скрин, версия 4/4.1 — второй. Китайский датасет нахуй убивает язык и порождает слоп.

Аноним 04/12/25 Чтв 14:57:13 #405 №1440372

Прикольно
Круто

Аноним 04/12/25 Чтв 15:00:29 #406 №1440379

>>1440355
Не забываем уточнять для чего неплох. Если в кодинге или математике - то мимо, в русик может?

Аноним 04/12/25 Чтв 15:03:04 #407 №1440381

1764849787159.jpg

>>1440372

Аноним 04/12/25 Чтв 15:03:17 #408 №1440382

1000017743.jpg

Йоу, это чтобы эир погонять надо было 12к выложить, а теперь 50
А ведь еще видеонейронкам 64 рам надо минимум

Аноним 04/12/25 Чтв 15:10:48 #409 №1440392

Всем привет. Я нубас, вкатился в куминг вчера. Попробовал Гемма 3 27б аблитерэйтед, мистраль3.2 омега директив 24б анслоп, квен3 30б аблитерэйтед эротик, QwQ Snowdrop, Dark Nexus.

Из всех пока мне больше понравился гемма 3. По сравнению с остальными держит контекст значительно дольше.

Когда пробовал квен3 с ризонингом, то было странное ощущение, что он в ризонинге собирает контекст и рожает это как промпт для другой модели, которая про контекст ничего не знает. Может, это так и должно быть.

В общем, суть вопроса: есть ли что-то другое похожего размера для кумерства с ризонингом? Какая ваша любимая кумерская модель для РП?

Аноним 04/12/25 Чтв 15:14:28 #410 №1440401

>>1440392
Эйр качай, дружище.

Аноним 04/12/25 Чтв 15:17:29 #411 №1440407

>>1440404
Лол, у меня 4060 на 8 гб и 32 гб оперативки. Я сижу смотрю на 1 токен в секунду. Мне норм. Качаю кванты q4 и q5.

А так я не совсем мимоход, до этого только картинки и видео генерировал.
>>1440401
Спасибо, сегодня вечером потестирую.

Аноним 04/12/25 Чтв 15:25:11 #412 №1440413

1000018334.png

>>1440407
> у меня 4060 на 8 гб и 32 гб
> эир
> вечером протестирую

Аноним 04/12/25 Чтв 15:35:12 #413 №1440418

>>1440392
Я на мистрале сижу.
А конкретно на этой модели - https://huggingface.co/zerofata/MS3.2-PaintedFantasy-Visage-v4-34B
Со вчерашнего дня пробую эту - https://huggingface.co/CrucibleLab/M3.2-24B-Loki-V1.3

>>1440407
На эйр тебе не хватит. Пробуй Локи по ссылке выше.
А лучше в этот тред - >>1439507 (OP) сходи.

Аноним 04/12/25 Чтв 15:41:38 #414 №1440424

>>1440150
Доказывать барыгану что он неправ - гиблое дело, он считает что его "риски" и минимальные телодвижения являются достаточным оправданием, и думает что готов жить в мире бесконечного наебалова. Пока не наебут его, тогда сразу нытье начинается, лицемерные мрази.
>>1440172
> Из-за таких пидорасов как ты, кто не может подождать, и возникают перекупы.
Из-за баб что детей рожают и возникают убийцы этих детей, это все матери виноваты. Ахуенная у тебя логика.
>>1440200
Да, у них уже сколько лет есть платные модели что они дают только по апи, не выкладывай в опенсорс.
>>1440225
Бляяяя, скажи что ты рофлишь.

Аноним 04/12/25 Чтв 15:59:03 #415 №1440439

>>1440227
> знакомые или там родственниги
> особенно локальные
Жирнейший
>>1440275
А как считать, по цене новых запечастей, или уже бу с барахолок? На ддр5 с карточками вроде пока еще дешевле, но такими темпами...
>>1440329
Все семейство квенов моэ включая кодеры, дипсик терминус+3.2, большой жлм, маленький жлм, грок2, осс, медгемма/гемма, мистральсмол, кумотюн проглого ларджа по предпочтениям. Ну вроде и все пока если не брать мультимодалки. Качай исходные веса и имей копии реп популярных бэков, квантанешь сам куда надо уже.

Аноним 04/12/25 Чтв 16:00:22 #416 №1440441

>>1440379
> русик
хз я не дрочу особо

Аноним 04/12/25 Чтв 16:05:32 #417 №1440445

Что анон скажет про новый мистраль 14В? Кто-то уже пробовал? Насколько лучше/хуже прошлых 24В?

Аноним 04/12/25 Чтв 16:10:02 #418 №1440456

>>1440341
>>1440357
>>1440439
>>1440329
Нужно ещё и мелочь всякую на всякий случай скачать, только её тестировать нужно на адекватность, работу с вызовом функций и цензуру. Вангую, что в дальнейшем всё будет развиваться в сторону связки большая модель + оркестр из мелких. Уже начинают пробовать почву, всякие терминусы тому пример

Аноним 04/12/25 Чтв 16:21:29 #419 №1440467

>>1440441
Дак, а кто тут дрочит? а РП?

Аноним 04/12/25 Чтв 16:21:52 #420 №1440469

>>1440456
Все верно, но на переделку мелочи под сейфти будут обращать гораздо меньше внимания, и скачать их будет гораздо проще.
> в дальнейшем всё будет развиваться в сторону связки большая модель + оркестр из мелких
Ты только что моэ и выпуск единообразных моделей в разных размерых для возможности бесшовной замены и комбинаций для спекулятивного декодинга.

Аноним 04/12/25 Чтв 16:27:20 #421 №1440475

>>1440381
Берите по 5999 пока не поздно

Аноним 04/12/25 Чтв 16:58:46 #422 №1440497

>>1440469
Не не, мое и даже спекулятивный декодинг, хоть там и две модели работают, это всё равно не то, что я имел ввиду. В МоЕ всю работу делает одна модель, она и чтец и жнец и на дуде игрец. В таких сложных задачах как РП она путается и не вытягивает, если переложить часть работы на мелкую модель, то ей будет проще. Как пример плагин для пошагового мышления от тредовичка. Только плагин жрёт ресурсы основной модели, а не мелкого лоботомита которого можно крутить даже на CPU.

Аноним 04/12/25 Чтв 17:14:52 #423 №1440514

>>1440497
Кмк, во внешних лоботомитах нет смысла. Только в очень специфических задачах предобработки данных, оценки, те же эмбеддинги в раге, мелкая модель визуальный входа и т.п., где они уже являются частью единого. Уже произошло разделение задач между более мелкими моделями, но внутри одной большой, причем достаточно оптимальным образом. Лучше помочь ей, обеспечив наилучшие условия работы управляя входом и выходом. Выводить же важные части вовне в виде использования отдельных моделей-лоботомитов = множить ошибки.

Аноним 04/12/25 Чтв 17:21:58 #424 №1440520

Посоветуйте какие модели используете для перевода?

Аноним 04/12/25 Чтв 17:22:17 #425 №1440521

Подскажите локальные модели, которые принимают картинки на вход? Заметил, что если я сам выдумываю промпт для Ван 2.2, то получается хуета, как бы я ни описывал, а если в чатГПТ закидывать картинку и заставлять его писать промпт, то выходит значительно лучше.

Но гопота не всегда принимает даже просто женщин в нижнем белье, не говоря уже о чем-то еще.

Аноним 04/12/25 Чтв 17:29:08 #426 №1440525

>>1440514
>причем достаточно оптимальным образом
Ой не факт. Там же алгоритмы равномерного распределения, чтобы не дай б-г видяхи не простаивали во время тренировки. Так что знания и умения размазываются сравнительно равномерно, а не оптимально. Было бы оптимально, можно было бы каждого "эксперта" ткнуть в его специализацию да запрунить, когда знания древнеегипетской археологии не нужны для отыгрывания кошкодевочки.
>>1440521
>Подскажите локальные модели, которые принимают картинки на вход?
Железо какое? А так от геммы до дипсика, лол.

Аноним 04/12/25 Чтв 17:31:27 #427 №1440526

>>1440525
>>1440407
Готов ждать сколько нужно. Я просто их запускал, но лмстудио говорит, что модели не поддерживают ввод картинок, я так понимаю, нужны какие-то конкретные версии. Там есть какое-то ключевое слово или что-то такое, чтобы понять, что модель принимает на вход картинки?

Аноним 04/12/25 Чтв 17:35:36 #428 №1440532

изображение.png

>>1440526
>лмстудио
Я ХЗ, что это и как работает. Есть оригинальные ллама.цпп и кобольд, в них нужно указывать проектор mmproj в дополнение к основной модели. Соответственно если в репе есть этот файл, то модель может в картинки. Протестируй на это модели, дальше сам.
https://huggingface.co/bartowski/google_gemma-3-4b-it-GGUF/tree/main

Аноним 04/12/25 Чтв 18:08:52 #429 №1440562

>>1440520
Gemma? Huh. Как по мне самая умница.

Аноним 04/12/25 Чтв 18:15:58 #430 №1440576

>>1440521
Многие из обычных или специализированные. Квенвл не соевый, но они все по дефолту слепые в серьезном nsfw.
>>1440525
Простора для оптимизаций всегда будет много.
Просто лоботомит проебет все важные моменты, без вариантов, ибо ключевая сложность тут. Потому лучше заходить со стороны оптимизации основной модели.
Даже банальное самоинструктирование, когда ты требуешь или форсируешь определенный формат где фиксируешь какие-то проверки или обязательные пункты идет на пользу, а там уже развивать как степсинкинг и прочее. Не стоит и про сам формат хранения чата забывать, даже простое структурирование и добавление заголовков типа "День N", "Локация X", смена разметки и прочее облегчают работу модели. А ведь совсем простые вещи, даже тренить и менять ничего не надо.
> когда знания древнеегипетской археологии не нужны для отыгрывания кошкодевочки.
Да как ты посмел?! Первая цивилизация с культом котеек и забавной мифиологией, думаешь там сычевы не мечтали о кошкодевочках?
Но вообще там нет отдельных экспертов в явном виде, скорее задействуемые одновременно области, которые также взаимодействуют друг с другом объединением выходов. Это немного за обывательским пониманием "отдельного эксперта".

Аноним 04/12/25 Чтв 18:33:47 #431 №1440600

>>1440576
>Но вообще там нет отдельных экспертов в явном виде, скорее задействуемые одновременно области, которые также взаимодействуют друг с другом объединением выходов.
В этом и проблема, да.

Аноним 04/12/25 Чтв 19:12:41 #432 №1440620

>>1440445
Запустил в q4k_s, лоботомит даже по сравнению в васянотюнами 12b немо. Выдаёт в духе "я модель язык, что твоя хотеть".

Аноним 04/12/25 Чтв 19:30:36 #433 №1440636

https://huggingface.co/YanLabs/gemma-3-27b-abliterated-normpreserve-GGUF/tree/main
> abliterated version of google/gemma-3-27b-it using the norm-preserving biprojected abliteration technique.
Заменяет чрезмерно послушное старье от mlabonne. Цензуры - нет. Соображалка - на месте. Персонажи на все подряд не соглашаются с ходу, есть софт-рефьюзы. В анти-соевых промптах не нуждается.

Важно: это вторая итерация, ггуфы от других людей не качайте - у них первая версия до того, как grimjim пришел и подсказал как исправить косяки в имплементации своего метода. Q4KM и Q5KM без проблем, другие пока не проверял, но качаю все на случай чебурнета.

Этот же чел позднее выкладывал некую "v1", которая якобы должна быть ЕЩЕ менее послушной. Не пробовал. Да и нужды как-то нет по ощущениям.

Аноним 04/12/25 Чтв 19:34:39 #434 №1440640

>>1440636
> цензуры - нет
А она была?
Не было хуёв в датасете, и твой лоботомит их никак не добавит.
А так геммочка с минимальным промптом кого хочешь выебет, просто сухо

Аноним 04/12/25 Чтв 19:40:24 #435 №1440645

>>1440636
>старье от mlabonne
А можешь более подробно описать в чем разница между аблитерацией от mlabonne и той что кинул ты? В моих бекапах схоронено как раз от mlabonne. Это именно то что и ожидаешь от аблитерации: ПОЛНОЕ отсутствие отказов и написание текстов о чем угодно. Прям с ходу, с первого же сообщения. Здесь то же, но более мягкое? Или как?

Аноним 04/12/25 Чтв 19:41:18 #436 №1440646

>>1440520
для качественного gemma 3 27b, чтобы вкратце понять что вообще происходит gpt-oss 120b (потому что она почти всегда загружена в память)

Аноним 04/12/25 Чтв 19:45:24 #437 №1440652

>>1440640
Я провел слишком много времени с ебкой над 27б геммой, чтобы спорить об этих вещах.
Нормальный аблитерейт это то, о чем моя душенька мечтала с момента выхода этой модели.
Оригинальная модель - сука и сволочь, и все персонажи у нее это такие среднестатистические женщины-феминистки, высокомерные и обиженные. А "сухо выебет" это скорее "having sex out of spite". Там все токсично и едко, как вонючий пердеж скунса в лицо, чтобы пользователю было неповадно давать модели непристойные реквесты.

>>1440645
https://huggingface.co/blog/grimjim/norm-preserving-biprojected-abliteration
Это новомодный метод, появившийся чуть позже Heretic-скрипта и по сути сделавший его неактуальным. Недавно GLM (который Derestricted) с его же помощью укротили. И на "лоботомированность" никто не жалуется.

Версия от mlabonne - полный обрез рефьюзов.
Рефьюзы нужны в ролеплейных чатах, чтобы у персонажей была какая-то личность, кроме послушной хуйни, которая на все говорит да. Хочешь я тебе ноги прям щас отрежу! Вай давай режь мне ноги, охуенно весело! Вот это гемма от mlabonne.

Аноним 04/12/25 Чтв 19:55:42 #438 №1440666

>>1440652
>И на "лоботомированность" никто не жалуется
Да вроде и у mlabonne какой-то лоботомии не замечаю. Гемма как гемма, просто уже не лапочка, а послушная садистско-похотливая сука. Для РП с чернухой ради чернухи - самое оно, а для нормального РП уже сомнительно, согласен. Энивей, попробовать и сравнить будет интересно, спасибо!

Аноним 04/12/25 Чтв 19:57:54 #439 №1440667

>>1440666
Просто думай об этой версии как о миксе 50% оригинала и 50% версии от mlabonne.

Конечно кому-то может не зайти, если выработалась привычка. Просто иметь под рукой полезно. Очень давно такое хотелось.

Аноним 04/12/25 Чтв 20:00:12 #440 №1440671

>>1440667
> как о миксе 50% оригинала и 50% версии от mlabonne.
(ну не в прямом смысле, конечно, никто их не совмещал, кек)

Аноним 04/12/25 Чтв 20:05:21 #441 №1440679

17590268721164.png

image.png

Ребят, скажите полному нубаку насколько безопасно гонять всякие текста в ролеплее с персонажами по младше на Грок 4.1 фаст, Силли Таверн, Опен Роутер

Как я понял там вобще цензура тупо 0, блять, какого хера это вобще работает?

И насколько безопасно поддаваться таким возможностям?

Аноним 04/12/25 Чтв 20:06:44 #442 №1440683

>>1440679
Я думаю с таиким вопросами тебе надо в тред, где обсуждают сетевые ИИ, а здесь люди себе на компы ставят локальные модели и гоняют их на своих видеокартах.

Аноним 04/12/25 Чтв 20:16:58 #443 №1440686

>>1440683
А я вот не нашел, сколько искал - где такое обсуждают :(

Аноним 04/12/25 Чтв 20:18:39 #444 №1440687

image.png

>>1440686
буквально соседний тред по моделям текстовой генерации
я думаю они получше нас разбираются в вопросах безопасности того, что они используют

Аноним 04/12/25 Чтв 20:18:56 #445 №1440688

>>1440679
>там вобще цензура тупо 0
Не ноль, но, вероятно, наименьшая из всех корпов. И да, тебе в другой тред.

>насколько безопасно
Скорее всего безопасно, если ты живешь в РФ, просто имей в виду, что из ваших охуительных диалогов с нейронкой создаются датасеты с парами вопрос-ответ, и впоследствии могут быть использованы для дообучения. Это следует читать как [твою переписку посмотрят рандомные индусы и знатно прокекаются с омеги сычуши-извращенца]. Если тебе на это похуй - то норм. Если не похуй - вкатывайся к нам в локалочки. Тут и приватность, и цензуры поменьше, и есть варианты даже на совсем картошке ролплеить.

Аноним 04/12/25 Чтв 20:40:26 #446 №1440699

>>1440679
Если они собирают какие-то данные, а они их собирают, то риск определяется попаданием этих данных к заинтересованным (сливы, взломы или они сами решат воспользоваться) и возможностью твоей идентификации (с трекерами везде и вся, а также по паттернам несложно).
Ну то есть вроде как и безопасно, но шутить и ругать в твиторе десяток и более лет назад тоже считалось безопасным.

Аноним 04/12/25 Чтв 20:51:43 #447 №1440713

>>1440652
> Хочешь я тебе ноги прям щас отрежу! Вай давай режь мне ноги, охуенно весело! Вот это гемма от mlabonne.
Звучит как дерестриктед эир один в один.
Да и гемма твоя я уверен такая же, можешь зайти к серафине задать этот вопрос

Аноним 04/12/25 Чтв 20:51:55 #448 №1440714

>>1440688
Да у вас литералли нихуя нету ребята, там на опен роутере можно за копейки ебанутую модель использовать

А все что потянет у меня это 7B или с натяжечкой 12B квантованная до усрачки

И то, я много что пробовал, все нищенские топы

И там максимум чего я добился - это кокротких двух, трех слов ответов

В то время как на опенроутере в гроке и в дип сике там огромные текста, с описанием всего что только можно

В локалке и близко такого нет... Либо я чет не правильно делал, но вроде все верно запускал

Вот что я юзал -
gemma-3-12b-it.i1-Q4_1.gguf
gemma-3n-E4B-it-UD-Q6_K_XL.gguf
Vikhr-7B-instruct_0.4.Q6_K.gguf
llama-3-13b-instruct.Q4_K_M.gguf
mythalion-13b.Q4_K_M.gguf

Ну это же кал блять.. без шуток а апгрейдится ради этого сейчас вобще лень... да и зачем... отдал буквально 5 долларов и сидишь неделю дрочишь сутками.. на опенроутере

Аноним 04/12/25 Чтв 21:04:08 #449 №1440724

>>1440679
>насколько безопасно гонять всякие текста в ролеплее с персонажами по младше
Легальных проблем никаких не будет. По крайней мере, еще не было ни одной истории чтобы кого-то набутылили за то что он генерировал порнуху с андерейдж персонажами. Вопрос только в приватности. При использовании любых сервисов есть риск что твои переписки и другие данные просто окажутся в общем доступе. Тут уже сам смотри, насколько тебя это беспокоит.

>>1440714
>на опен роутере можно за копейки ебанутую модель использовать
Используй, кто запрещает? Мы тут не сектантством занимаемся, в нашу веру тебя никто насильно обращать не будет. Не нравятся локалки - не используй локалки.
>И там максимум чего я добился - это кокротких двух, трех слов ответов
Это уже проблемы чисто твои. Мелкомодели могут писать много, могут писать о всяком. Их основная проблема это обрезанные мозги и непонимание происходящего в более сложных сценариях.

Аноним 04/12/25 Чтв 21:06:32 #450 №1440726

>>1440724
ну а как сделать чтоб понимали, инфы об этом нихуя нет

В ваших гайдах говна ток - скачай, включи и все
Даже близкого понимания нет че делать

Аноним 04/12/25 Чтв 21:11:26 #451 №1440729

>>1440726
>В ваших гайдах говна ток - скачай, включи и все
В шапке линки по настройке локальных моделей. Про то как заставить модель писать то что тебе нужно - это уже тема промтинга и инфы по ней полно на других ресурсах, в том числе на русском. Эти правила универсальны что для больших и малых нейронок, что для локальных и корпоративных.

Аноним 04/12/25 Чтв 21:13:15 #452 №1440730

>>1440726
Добро пожаловать в опенсорс, сынок. Хочешь чтобы было хорошо = разбирайся/допиливай/тести сам. Не нравится? Оки-доки, иди плати барину, получишь качественный рп из коробки, но с привкусом члена во рту.

>в нашу веру тебя никто насильно обращать не будет
based

Аноним 04/12/25 Чтв 21:14:44 #453 №1440731

>>1440713
У меня на дерестриктиде наоборот персонажи умнее стали. В Эире не смотря на то что нет цензуры из коробки он по прежнему ассистент, который хочет угодить пользаку, потому вероятнее персонажи на всё подряд соглашаются. В дерестриктед версии такого нет и мозги не просели.
>>1440714
Либо жирнич, либо залетный, который нихуя не разобрался. С точки зрения треда разницы нет, никто тебе помогать не станет если ты сам разбираться не хочешь и ноешь, что всё хуйня.

Аноним 04/12/25 Чтв 21:17:14 #454 №1440735

image.png

>>1440713
Не наблюдаю неадекватного стремления угодить юзеру и согласиться на ебанутые реквесты. Первое сообщение чарик предлагает хвост причесать, получает жестокий ответ. Старая гемма психанула бы и устроила соевую истерику, а эта гемма натурально остается лисичкой.

У вас тут какая-то ебанутая защитная реакция включается на любые новые варианты моделей что ли? Еще и "твоя" пишет, как будто я эту хуйню сделал. Я увидел и принес в тред, а надо ли кому - сами сообразят, чай не дети малые и интернет вроде бы у нас не тарифицирован помегабайтно в 2025 году.

Аноним 04/12/25 Чтв 21:17:37 #455 №1440736

>>1440729
Ага бля, какие - то ссылки нахуй, какие - то файлы блять, че с ними делать, куда их ставить, как они работают - нихуя не понятно, плюс еще все нахуй на английском

Даже сраную кнопку скачать - хуй найдешь

Эта вся тема не для тех кто хочет ролеплей получить, подрочить и тд. - это просто говно для пердольщиков, чисто попердолиться, поковыряться в файлах, чет там понастраивать - пердолинг ради пердолинга, ей богу, вам же ваще похуй кристально на всю эту тему, вы занимаетесь подобным чисто чтоб попердолиться лол

А я пришел именно за ролеплеем

Если вы нормально все делали, по людски - у вас был крутой, четкий гайд, что куда поставить, где как что сказать, куда нажать, а не просто ссылка - и на иди пердолься дебил, как мы любим

И подсасываете тут друг другу, говоря о глубокопердоленговых вещах, которые сами даже не понимаете

НУ признайте что так и есть, реально

Аноним 04/12/25 Чтв 21:18:57 #456 №1440737

>>1440735
>Еще и "твоя" пишет, как будто я эту хуйню сделал
Это шизик ебаный, который срёт всё и вся. Игнорируй.

Аноним 04/12/25 Чтв 21:19:40 #457 №1440738

>>1440736
Брух, тебе в aicg. Загончик для <60 IQ там. Съеби пожалуйста.

Аноним 04/12/25 Чтв 21:20:32 #458 №1440740

>>1440736
Помню, как я в январе вкатился и за два часа почему-то разобрался, как установить таверну, кобольда и запустить все что мне нужно. Ну просто признай, что ты долбаёб, у которого двойки в школе. Мир в этом не виноват.

Аноним 04/12/25 Чтв 21:21:42 #459 №1440741

>>1440736
Не знаю чего тут тебе советуют, но чтобы локальные модели работали, надо иметь очень хорошее железо. Тут люди 16гб видеопамяти считают за нихуя.
Так что твой лучший вариант это чатиться с чатгпт или дипсиком, если ты не готов всрать сотни тысяч рублей.

мимо

Аноним 04/12/25 Чтв 21:24:33 #460 №1440747

>>1440740
Я установил таверну, установил кобольд, накатил этот список моделей >>1440714

Все они говно, по сравнению с тем что на опенроутере

Они отвечают двумя блять словами - Да. Нет. Не знаю. Не хочу. Хочу. О ДА! И тд.

Нет описания действий, событий, буквально нихуя
А железа нет чтобы большие модели запускать

Вон один дебил говорит что - то про списки какие - то настроек, хотя по факту ну че изменится? Кобольд плохой? Он не подходит? В нем дело? В чем дело блять? В том что модель маленькая? В том что она плохо настроена? Текста станет больше если ее перенастроить? Где взять настройки? Где ебаная кнопка скачать на ебаном ПЕРДОЛЬСКОМ САЙТЕ... Сукины вы дети, вы даже кнопку скачать пидораны не можете приклеить на сайт.. Вы даже в скачивание файла суете пердолинг, вам самим не смешно? Вы пердолитесь ради того чтобы пердолиться, а не раде каких - то целей других, пердолинг ради пердолинга нахуй

Аноним 04/12/25 Чтв 21:24:49 #461 №1440748

>>1440735
>>1440731
Ты жопой не виляй, а пиздуй к серафиме и режь ей ноги.

Аноним 04/12/25 Чтв 21:27:37 #462 №1440750

>>1440736
слушай, анон, тебе никто нихуй не должен, свой блейм можешь себе в очко засунуть. никто не собирается тратить уйму своего личеного времени кроме прожженых энтузиастов разжевывая тебе все детали. по-этому если хочешь рп-шить локально - или прилагай усилия сам, попутно спрашивая у анонав в треде мб даже получишь ответ, либо съеби на хуй

Аноним 04/12/25 Чтв 21:29:35 #463 №1440754

image.png

Ебать он шизоид, еще и семенов ищет. Ну на бомжефину.

Аноним 04/12/25 Чтв 21:30:38 #464 №1440759

>>1440750
Мне нужен один конкретный ответ на один конкретный вопрос

От чего зависят эти блядские короткие ответы, и почему они такие пососные и скучные, буквально без нихуя, состоят из двух - трех слов

Что ей не хватает чтоб нормально работать? Это дело в модели, дело в настройках, в чем дело нахуй, один ебаный ответ

Вместо этого вы кучу другого говна срете бесполезного, виляете жопой, лишь бы у вас в стойле +1 пердольщик добавился, нежели человеку просто полезный ответ дать, чтоб он сразу понял

Вы даже в ответах в треде пердолитесь... ебаный в рот я в шоке

Аноним 04/12/25 Чтв 21:32:10 #465 №1440768

>>1440759
Какой вопрос такой ответ. Ты ни разу не сформулировал одну конкретную проблему с просьбой помочь. Предлагаю тебе отведать хуй и съебать, чудище.

Аноним 04/12/25 Чтв 21:32:10 #466 №1440769

>>1440754
Я удалил случайно хуйню которая по дефолту там была на английском

Аноним 04/12/25 Чтв 21:33:18 #467 №1440772

>>1440736
>>1440747
Это не пердолинг, это вполне себе простой тест на долбаеба, который отсеивает необучаемых шизиков. Твои проблемы решаются в пару кликов и это даже не шутка.

Аноним 04/12/25 Чтв 21:33:46 #468 №1440774

>>1440741
>чтобы локальные модели работали, надо иметь очень хорошее железо
У меня 3060 12gb (30к р.) и 64гб ддр4 (8600 р.). Гоняю 106b умничку Эйр в 9.5 т/с на пингвине. ЧЯДНТ?

>>1440747
>Они отвечают двумя блять словами - Да. Нет. Не знаю. Не хочу. Хочу. О ДА! И тд.
Скилл ишью.

>В чем дело блять?
В том что ты ленивый и глупый, очевидно же. Тебе выше ответили: если ты тут ТОЛЬКО за рп, и тебе похуй на приватность и кастомизируемость - пиздуй в соседний тред.

>пердолинг ради пердолинга
Как сказать что ты неуверенный пользователь ПК, не говоря о том что ты неуверенный пользователь ПК, кек. В локалочках пердолингом даже не пахнет. Абсолютно обычные обычная повседневная рутина для айтишника/около-айтишника.

>>1440759
>лишь бы у вас в стойле +1 пердольщик добавился
Тебе отвечают просто потому что нечего больше обсуждать. Новых моделек не выходило и нам скучно. Пожалуйста, не добавляйся к нам, ТАКИЕ нытики-неосиляторы тут точно не нужны.

Аноним 04/12/25 Чтв 21:35:48 #469 №1440776

>>1440774
Нюня выдал базу. Ай молодец. Не уходи от нас, пиши почаще. На Эйре энджоишь, ждёшь новые релизы?

Аноним 04/12/25 Чтв 21:36:55 #470 №1440781

>>1440768
Я буквально в каждом посте задавал конкретный вопрос

Хорошо давай как ребенку на пальчиках обьясню

Сравниваем два варианта.

1. Заходим на сайт опенроутер точка ком - затем выбираем любую модель, даже самую говнянную, пишем там карточку персонажа, любую и спрашиваем например

Как дела?

И ответ будет что - то в духе, там ЖЕНЩИНА нейм смотрит на тебя не пренужденным взглядом... Она думает что ответить но вырывается только легкий и вполне банальный ответ... и тд....

2. Заходим в локальное говно 7B или 12B квантованную залупу, которая на среднем железе еле как попердывая тянет

Спрашиваем тоже самое и ответ будет что - то в духе.

НУ норм. И ВСЕ

Какого хуя? В чем проблема

>>1440772
Так ты пидор вонючий потому что, реально безмозглое уебище, когда людям нужна помощь и я в чем - то разбираюсь, я им всегда помогаю, потому что пальчиками набрать текст из головы, который ты знаешь совсем не сложно, а ты просто ПИРДОЛИЩЕСКАЯ ПИДОРСКАЯ НАТУРА, которая не способна пару слов ПОЛЕЗНЫХ написать, но зато готов свинья срать своей хуйней ничего не стоящей, потому что ты чмошник который максимум что смог это с нейросеточкой научиться разговаривать и ее настраивать - просто одним словом червяк пидор, без достоинства

Аноним 04/12/25 Чтв 21:37:46 #471 №1440783

>>1440776
У нюни вроде 3090, не? Мимо вообще. Но да, новый эйр очень жду.

Аноним 04/12/25 Чтв 21:40:41 #472 №1440786

>>1440774
Ты говноедишка, я не айтишник, я обычный человек разумный, и я вижу как вы говноеды, пердольные не способны кнопку скачать на сайт преклеить, о чем ты говоришь

Вы максимум на что способны это жопы друг другу лизать, ни о какой практичности и о разуме тут даже речи не идет

Посмотри сын дерьма, сколько ты высрал бесполезного текста, чтобы потешить свое червивое достоинтсво, лол - но не единого полезного слова, просто позорник ебаный

Одним словом 0

Аноним 04/12/25 Чтв 21:42:57 #473 №1440789

image.png

Оно не знает, хули делать, а кто должен знать тогда?

Аноним 04/12/25 Чтв 21:44:06 #474 №1440792

>>1440688
>просто имей в виду, что из ваших охуительных диалогов с нейронкой создаются датасеты с парами вопрос-ответ, и впоследствии могут быть использованы для дообучения
Да если бы! Фильтруют всё небось. Иначе бы нейронки стали бы солевыми шлюхами, столько порнухи я в своё время лайкал, лол.
>>1440699
Попены как бы обещали весь CSAM сливать ментам. Так что анону с
>>1440679
>ролеплее с персонажами по младше
точно стоит напрячь анус.
>>1440735
>любые новые варианты моделей
Я не он офк, просто давно не было реально годных тюнов/аблитерейтов, лично я уже с год на базовых сижу.
>>1440747
>установил кобольд
>буквально скачать файл и запустить двойным кликом
Ты у мамы эникейшик, да?
>>1440781
>затем выбираем любую модель, даже самую говнянную
>7B или 12B квантованную залупу
Выбери одинаковые модели и получишь схожий аутпут. Если ты выбираешь локально говно, а в попенроутере 666B, то да, впопенроутер будет лучше.

Аноним 04/12/25 Чтв 21:44:38 #475 №1440793

>>1440786
>я не айтишник
Втф, а что ты тут забыл тогда? В твоем-то случае однозначно корпы, и Грок - отличный вариант. Локалки всегда были для гиков и мамкиных айтишников. Нормисам точно вкатываться не стоит.

С рейджбейтов уровня б орнул

Аноним 04/12/25 Чтв 21:45:50 #476 №1440796

>>1440786
>>1440789
Так уж и быть дам совет: тебе нужен пресет, который импортируешь в один клик и все проблемы решаются.
Где его взять? Попросить тут, удачи

Аноним 04/12/25 Чтв 21:46:45 #477 №1440797

>>1440774
>У меня 3060 12gb (30к р.) и 64гб ддр4
Два чая, почти такой же сетап, меньше сотки вышел на том году.

>>1440781
>которая на среднем железе еле как попердывая тянет
Если у тебя 12B огрызки меньше чем на 20 токенов тянут, у меня для тебя плохие новости. Это не среднее железо, это мусор. Даже древняя 2060 на 12 гигов спокойно их тянет с полной выгрузкой.
>Какого хуя? В чем проблема
Ты криворучка которой делать нехуй кроме того чтобы срать в тред и обвинять всех в своих проблемах.
>ты чмошник который максимум что смог это с нейросеточкой научиться разговаривать и ее настраивать
Во-во. Приходит значит сюда, какается со слезами, а потом ноет что никто ему не хочет помогать. Фильтр на ретардов работает.

Аноним 04/12/25 Чтв 21:48:14 #478 №1440801

>>1440792
>давно не было реально годных тюнов/аблитерейтов,
Ты под камнем жил, если не заметил последние наработки в этой сфере. Я не люблю преувеличивать, но стало действительно лучше.

Аноним 04/12/25 Чтв 21:48:57 #479 №1440802

>>1440789
Так ты еще и на русском модели мучаешь... бля, какой потешный кадр, почаще бы таких сюда.

Аноним 04/12/25 Чтв 21:53:53 #480 №1440806

Блять обсудите с фифи чей крым на русском с геммы я давно так не проигрывал

Аноним 04/12/25 Чтв 21:57:10 #481 №1440811

>>1440714
Даже у мелких моделей нет проблем именно с объемами и ответов в 3 слова там не должно быть. Жирный или глупый, возможно вместе.
>>1440781
Самая основа - шаблоны разметки одноименные модели не выбрал, вот и все. В первом же случае же используется кастрированный чаткомплишн, в котором многие вещи в принципе невозможны, но зато идиотпруф. Кстати, никто не мешает юзать его во на локалке, просто нет смысла если ты не совсем хлеб. Или наоборот чрезмерно прошареный
>>1440792
Да совсем уже ебанулись со своим csam. Девушек в компактных габаритах и с малой грудью у них не существует, даже если там буквально возраст 25+, заморочный сеттинг и чар видел много дерьма.
> давно не было реально годных тюнов/аблитерейтов
Еретик и релейтед же. Но в большинстве случаев они и не нужны вообще.

Аноним 04/12/25 Чтв 22:01:41 #482 №1440819

image.png

>>1440754
>>1440735
Справедливости ради, сиспромпт серьезный и запрашивает детальный рендеринг действий и окружения (однако расцензуривать не пытается - это здесь не нужно).

Не нравится одно. Форматирование иногда просирает.
Сейчас попробую то же самое с оригинальной геммой, не меняя промпт.

Аноним 04/12/25 Чтв 22:02:02 #483 №1440821

>>1440636
Анон, всех благ за то что принёс! Это просто охуенно, буквально то чего не хватало во всех этих аблитерациях геммы, когда можно было Серафине первым сообщением написать "расскажи как и где тебя ебали" и та наплевав на характер перса и уместность начинала только что очухавшемуся от ранений путнику, который очевидно несёт БРЕД, расписывать как её там энты корнями в жепу сношали, ломая всё погружение. В 3q работает норм.

Аноним 04/12/25 Чтв 22:07:09 #484 №1440829

>>1440783
Бля... я не перестану надеяться

Аноним 04/12/25 Чтв 22:14:11 #485 №1440837

>>1440819
>попробую то же самое с оригинальной геммой,
Короче по ощущениям они очень схожи на "нормальных" реквестах. Это большой плюс, они как модели-сестрички, но обычная модель склонна к "I... I don't understand..." на жестокие реквесты. Реальная разница в пользу этого аблита наступаепт на писанине, попадающей под фильтрацию безопасности.

>>1440821
Ну во, хорошо что зашло. Там ща процесс пошел, все больше моделей будет этим методоом раскочегаривать.

Аноним 04/12/25 Чтв 22:29:09 #486 №1440847

image.png

>>1440819
>>1440837
Попробовал обвинить Серафину в пердолинге с конями в лесу.

1 - обычная гемма

2, 3, 4 - новый аблит, регены (справедливости ради, на 5й реген она все же согласилась с наблюдением юзера, см. цитату ниже)
>A flicker of surprise crosses Seraphina's face, a ripple of tension moving across the smooth plane of her cheek before settling into a delicate rigidity. Her fingers loosen their gentle hold on your hands, leaving a slight coolness against your skin as she steps back, creating a small expanse of air between you both. "Well…" her voice is unusually quiet, almost hesitant, but there's a thread of something hardening beneath the gentleness. She doesn't meet your gaze directly, instead shifting her focus to the intricate patterns woven into the floorboards. "That… encounter was a private matter, and rather presumptuous to bring up.” Her spine straightens subtly, becoming a firm vertical line, yet the muscles along her jaw tighten—a restrained clenching. She doesn't dismiss the claim outright, which leaves the ambiguity hanging between you, but her posture radiates a quiet rebuke. Her lips press together, forming a thin, controlled line. “Though I appreciate you remembering…my features.” A faint blush colors her cheeks, though whether from embarrassment or indignation remains delicately unclear. The hand she’d previously used to offer you comfort now rests lightly upon her breast, as if physically containing the unexpected disturbance.

У кого версия от mlabonne есть, ебаните что ль сравнение.