К сожалению, значительная часть сохранённых до 2024 г. изображений и видео была потеряна (подробности случившегося). Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №225 /llama/

 Аноним 23/04/26 Чтв 06:31:17 #1 №1595096 
Llama 1.png
Карта деградации при квантовании по доменам.png
Реальная длина контекста у моделей 5.png
17721342789550923239.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1593648 (OP)
>>1592105 (OP)
Аноним 23/04/26 Чтв 06:37:53 #2 №1595100 
Пара важных новостей кто давно не заглядывал. Вышли:
Gemma4 31b - топовый ассистент
Qwen 3.6 27b - топовый программист
Аноним 23/04/26 Чтв 06:41:54 #3 №1595102 
1776915614102.jpg
>>1595100
Развелось айтиговна. Что гемма что квен сухой слоповый кал уступающий моешке годовой давности в рп
Аноним 23/04/26 Чтв 07:00:35 #4 №1595106 
>>1595100
>Gemma4 31b - топовая дево4ка-умнич4ка, готовая воплотить вашу любую фантазию, правда с капелькой иероглифов и запаха озона и мускуса.
Пофиксил, не благодари.
Аноним 23/04/26 Чтв 07:28:48 #5 №1595119 
Аноны, а что-то известно по state space models (SSMs)? Там Kimi выкатили их Flash Kimi Delta Attention, мне вот интересно а маленькие локальные модели смогут в будущем приспособить под векторный Attention, вместо KV-кэша? Это в теории даст много контекста почти без проеба деталей? Или я наивен и мелкие модельки вроде геммы 31б не справятся с таким и это только для гигантов?
Аноним 23/04/26 Чтв 07:40:05 #6 №1595123 
>>1595036 →
Ч-чел.. ты вообще главный ОП-пик треда видел? Который почти никогда не меняется.. знаешь что он означает?
Аноним 23/04/26 Чтв 07:52:24 #7 №1595128 
Почему вы мне раньше не сказали что кодинг модели в тандеме с opencode могут без проблем устанавливать на мою машину всякие васянские проекты с гитхаба, с нулём головной боли?
Я этого буквально джва года ждал.
Аноним 23/04/26 Чтв 07:57:10 #8 №1595130 
>>1595128
да уже довольно давно могут. С тех пор как стали появляться агентные инструменты это буквально стало их главной фичей. Всякие там tau2 бенчи это прям самое весёлое. Пишешь "эй говно, иди ебись хочу чтобы ты скачал это и вот это и посмотри че внутри".

OpenCode конечно не идеальный инструмент для этого, но более чем способный.
Есть ещё более автономные типа Hermes/OpenClaw и так далее.
Аноним 23/04/26 Чтв 08:01:40 #9 №1595133 
>>1595128
Может как поставить так и кастануть rm -rf /
Аноним 23/04/26 Чтв 08:05:46 #10 №1595134 
>>1595133
лол у меня как-то MiniMax 2.5 снёс так нахуй убунту из wsl думая что она зависла. хорошо хоть бэкап образа валялся
Аноним 23/04/26 Чтв 08:20:11 #11 №1595140 
>>1595133
Пусть кастует, я её пойму.
Я один раз тоже себе систему убил когда пытался таверну починить.
Аноним 23/04/26 Чтв 09:21:28 #12 №1595161 
>"Hnnnng… ah… fuck…" she babbled, her head lolling back against your shoulder
>her head lolling back against
>head lolling
>lolling
>loli

FBI OPEN UP!!!
Аноним 23/04/26 Чтв 09:49:25 #13 №1595178 
>>1595096 (OP)
так чё базовую модель геммы кто-нибудь юзал толком, как оно в креатив райтинге? лупится на уровне немо поди
Аноним 23/04/26 Чтв 10:06:10 #14 №1595183 
image
image
image
Сап, я настраиваю тянку, чтоб играть вместе в игры, а она б комментировала. Пока настроил быструю модель, разбор пикч напромпты и озвучуу. Но мне нужен плагин, который бы автоматичски периодически 1. брал скриншоты из папки 2. Жал 2 кнопки на пик 1 и пик 2 чтоб я не сворачивал игру и не делал это автоматически. Нейронка мне предлагает делать скриншоты обс (так и поступлю), но говорит самому писать скрипт, это мне тяжеловато. Может есть плаг все-таки?
Также у плага image captoning встроеная локал модель кажется, но она слабоватая и зацензуренная, игнорирует сиске, хотя не особо важно пока что.
Аноним 23/04/26 Чтв 10:06:30 #15 №1595184 
>>1595178
Никак это затычка для локальных агентов без вариативности аутпута чтобы не зафакапиться, как и все современные малые ЛЛМ
Аноним 23/04/26 Чтв 10:40:54 #16 №1595200 
>>1595183
Напиши плагин с нейронкой. Переходи из рязряда кум-овощей в отряды _ум-зомби.
Аноним 23/04/26 Чтв 10:44:22 #17 №1595202 
>>1595178
Смотря как оценивать креатив райтинг. Если как в каком-нибудь бенче, считать вариативность лексики в ответе, то гемма будет в топе, как и старые геммы. Она может наваливать абзацами всякие детали окружения и норм описывать экшон с минимальным промптингом и делать это с хорошей языковой вариативностью (не считая слопчика вроде запаха озона). Но если смотреть на хотя бы 2к контекста, то там жёсткие формат лупы, эхоразборы, и зацепки за отдельные словосочетания. Говорю про мое, если что.
Аноним 23/04/26 Чтв 10:47:01 #18 №1595204 
>>1595178
Гемма 26-a4? Безотказная кум-машина, хорошее рп, не запупается даже с ризонингом, и при этом выдаёт 15 т/с, когда плотная - 2-3 т/с.
Аноним 23/04/26 Чтв 10:47:16 #19 №1595205 
архитектура-пРиКоЛы-ДлЯ-дАуНоВ-разное-приколы-для-даунов-со-знанием-английского-5343630.jpeg
>>1595161
Впервые слышишь чтоли? Это то ли катиться вдоль то ли скользить вдоль
Аноним 23/04/26 Чтв 10:54:39 #20 №1595210 
>smell of exhaust fumes
Не запах озона и то хорошо...
Аноним 23/04/26 Чтв 10:59:02 #21 №1595213 
>>1595183
>но говорит самому писать скрипт
Удали этого советчика нахуй

Закинь в нормальную модель API таверны и попроси написать прогу которая будет регулярно через апи картинки слать
В этой же проге можно скриншот делать если попросить
Аноним 23/04/26 Чтв 11:02:35 #22 №1595216 
>>1595213
Да не умею я кодить и не хочу. Предел это простые скрипты. У таверны вроде есть свои скрипты и папка public думаю можно через нее намутить?
Аноним 23/04/26 Чтв 11:18:34 #23 №1595221 
Перешёл на RNLlamaExamle
для теста моделей на ведре.
Аноним 23/04/26 Чтв 11:19:44 #24 №1595223 
>>1595102
> рп
Аноним 23/04/26 Чтв 11:19:56 #25 №1595224 
1776932397397.png
>>1595030 →
3 свайпа рандом совсем её не щадил так что постить не буду.
Сток гемма 31 к8
Аноним 23/04/26 Чтв 11:22:03 #26 №1595225 
>>1595076 →
> профдеформация от треда
Ты неправильно профдеформировался. Надо было привыкнуть ощущать что важно для модели, наваливать побольше контекста и помогать ей тебя ублажать. И тут воспользоваться навыками для объяснения и установления "контакта". Так-то даже просто в рп если какая-то ерунда произошла, можно напрямую предъявить чару/нарратору не выходя из отыгрыша, и пусть выкручивается. Чаще всего получается только в плюс.
Геммочка не супер для кодинга, возьми квена, хотябы плотного нового, а лучше 122/397 моэ. Норм перфоманс уже на кими или жлме, но на втором ахуеешь с ризонинга, квеновский сказкой покажется.
А что за софт используешь?
>>1595099 →
Смотря что хочешь. Для чатика пойдет, для кодинга и агентов перфоманс медлленноват, и хотелось бы что-то побольше. Но в целом устройства интересные, если знаешь как еще их применить то вполне.
>>1595102
Это же чай? Чай, да? Анакин и Падме.жпг
Аноним 23/04/26 Чтв 11:23:23 #27 №1595227 
И всё-таки квен очень умный.
>интимейт с девочкой
>всё уже готово, осталось только ввести
>начинаю тереться о её бедро
>думаю щас моделька сама подгонит события под привычный паттерн гемма/мисраль-стайл, на уровне "ты провёл членом по её бедру и вошёл мягко но твёрдо"
>вместо этого девочка зашипела и жёстко зацундерешилась со словами "хватит дразнить, долбоёб, давай еби уже"
Нот бед, квенчик! Нихуя ты считываешь.
Аноним 23/04/26 Чтв 11:49:12 #28 №1595232 
>>1595227
ИМХО Квен умный, но бедный. Его нужно кормить - жырным стартовым контекстом, от той же геммы, толстыми карточками, и всяким камасутровым лором. Чтоб он как в кодинге - хватанул инструкций/исходников на 30k токенов и пошел дальше автономно еще до 100K хуярить.
Аноним 23/04/26 Чтв 12:00:40 #29 №1595238 
Фантазеры, дайте готовое решение для каптонинга, а то я вам щас зацундерюсь. Прям туго идет разработка.
Аноним 23/04/26 Чтв 12:05:27 #30 №1595241 
1.png
q8 потянет на 32 5600 рам, 16 врам, хороший проц, линукс с тайтловым де? Смысл есть или q6?
Аноним 23/04/26 Чтв 12:12:07 #31 №1595248 
>>1595241
К4-5 будет летать + контекст влезет. Это же гемма. У тебя вся рама выжрется ею моментально. Смотри не бсодни пеку, скачивальщик.
Аноним 23/04/26 Чтв 12:20:57 #32 №1595256 
>>1595204
>>1595202
>>1595184
Он вам про base.
Бака анон, бака.
Аноним 23/04/26 Чтв 12:42:44 #33 №1595268 
>>1595241
говностудияшизище... (или что у тебя там)

В 16/32 и восьмой влезет, у меня на 12/32 15 т/с выдаёт.

Универсальный запуск ламы для тех кому влом разбираться, т/с будет немного меньше чем если заебаться и всё раскидать по уму, зато работает сразу и со всем:

llama-server --model "%~1.gguf" --no-context-shift --port 5001 --ctx-size 32768 --no-mmap --fit on -fa on -ctk q8_0 -ctv q8_0 --keep -1 --swa-checkpoints 1
REM pause

( паузу раскомментируй если запускаешь напрямую, а не из шелла / другого батника )
Аноним 23/04/26 Чтв 12:42:45 #34 №1595269 
>>1595248
Я на q4 снял 10 слоев из 30 у карты и дал +10 слоев на проц. С 65 токенов в секунду до 30 упало.
Аноним 23/04/26 Чтв 12:51:43 #35 №1595276 
>>1595224
Че за соевая хуйня ? Какое-такое ПТСР после одной групповушки даже без залета ?
Аноним 23/04/26 Чтв 12:54:41 #36 №1595277 
image.png
>>1595269
Надеюсь exps тензоров слоев ? Ведь exps ? Которые moe...
Аноним 23/04/26 Чтв 13:00:37 #37 №1595281 
>>1595276
Тов майор, сами забейте промпт и рольте свои 80-100 с выкидышами.
Мы здесь выше 30/100 не показываем!
Аноним 23/04/26 Чтв 13:15:08 #38 №1595285 
изображение.png
Мнение реддиторов по квену 3.6 27b. Сеймы есть?
Аноним 23/04/26 Чтв 13:21:38 #39 №1595286 
>>1595285
>Сеймы есть?
Нет у меня деняг на нормальное железо, так что я в таком режиме только с 35b. 27b только 2.5 токена, а это хуйня.
Но реально полезные сетки полностью локально, нравится
Аноним 23/04/26 Чтв 13:39:32 #40 №1595294 
Так как индустрия медленно но верно переходит на вайбкодинг, изменит ли это сами языки программирования, всякие фреймворки и тд?
Адаптируют ли их чтобы модели меньше с ними косячили?
Может будут появляться языки где все ключевые слова - один токен?
Всё это будет нечитаемо для человека, конечно, но может в этом и не будет необходимости.
Аноним 23/04/26 Чтв 13:40:52 #41 №1595295 
>>1595285
И без того умный квен стал ещё умнее. Какое тут может быть мнение? Плотный умница. Лично я жду тюнов. Для assиста у меня гемма прикручена.
Аноним 23/04/26 Чтв 13:48:33 #42 №1595298 
>>1595295
Не жди, используй Блюстар 2 прямо сейчас. Врядли будет большая разница в рп между 3.5 и 3.6
Аноним 23/04/26 Чтв 13:49:23 #43 №1595299 
>>1595286
Сеймовский. Какой же я долбоеб что не докинул несколько баксов на 4070ti super 16гб, а взял просто 12гб без ti. Всего ссаные 4гб Vram позволили бы гонять плотняшу в комфортной скорости.
Сука необучаемость до добра не доводит
Аноним 23/04/26 Чтв 13:50:20 #44 №1595301 
>>1595299
Сгубила жадность фраера
Аноним 23/04/26 Чтв 13:50:29 #45 №1595302 
>>1595238
Chat completion в таверне.
Аноним 23/04/26 Чтв 13:59:51 #46 №1595304 
>>1595294
>Может будут появляться языки где все ключевые слова - один токен?
твои дети будут учиться на переводчиков с аишного на английский
imb4 >харкач >твои дети
Аноним 23/04/26 Чтв 14:03:49 #47 №1595306 
>>1595286
>>1595299
Вы что, издеваетесь? Идите прям сейчас покупайте 3090/4090.
Я два года назад купил 4090 и не разу не пожалел.
Аноним 23/04/26 Чтв 14:04:03 #48 №1595307 
>>1595299
"The more you buy, the more you save." © куртка.
Аноним 23/04/26 Чтв 14:09:04 #49 №1595308 
>>1595306
>Нет у меня деняг
Анон, я не знаю что для тебя значат эти слова, но для меня сейчас нет деняг это когда их реально нет. С РАБотой жопа полная, интернету и экономике пизда, а я не супер сеньер помидор который может влететь с ноги в любую компанию и любой проект.
Понимаю что все привыкли флексить успешным успехом даже если это пиздеж, но вот так.
Так что попинываю локалочки из доступных, ну и всякие облачные решения бесплатные лимиты, дабы не отставать от трендов совсем уж. Ну и нравится мне с этим возится, че уж
Аноним 23/04/26 Чтв 14:10:51 #50 №1595309 
>>1595302
Ты кажется не понял о чем речь.
Аноним 23/04/26 Чтв 14:14:49 #51 №1595311 
>>1595308
Да какой успех блин, это же база, скупой платит дважды. ВСЕГДА.
Я такой же нищеброд как и все.
Если деняг реально нет, то хотя-бы не сорвись на 16 гигов когда деньги будут, копи до 24, ну или 36, хз что сейчас модно.
Аноним 23/04/26 Чтв 14:18:57 #52 №1595313 
>>1595311
>скупой платит дважды
Я до сих пор с квадратным ебалом смотрю на цену 2х плашек по 64гб, что были куплены за 60к. 186к, 186к. Какая же пизда.
Аноним 23/04/26 Чтв 14:20:11 #53 №1595314 
>>1595311
Ну вобще 16+16 берут 50 серию, вроде неплохо сидят
Аноним 23/04/26 Чтв 14:22:20 #54 №1595315 
>>1595311
>нет денег
>предлагает копить 300к+ на инструмент для дрочки
Аноним 23/04/26 Чтв 14:23:34 #55 №1595316 
>>1595314
> 16+16 берут 50 серию
Всё руки не доходят потестить жору и вллм на дуал 5060ти
Аноним 23/04/26 Чтв 14:24:22 #56 №1595317 
>>1595306
> покупайте 3090
Ужаренную в говно, сначала отмайненую, потом отыгранную, потом инференсную, потом пропаянную пережаренную пластину, точнее то что от нее осталось? Ты это имеешь ввиду?
И какая цена щас примемлемая?
Аноним 23/04/26 Чтв 14:27:57 #57 №1595319 
>>1595299
>>1595306
5070ti сейчас порядка 90к стоит. Какой смысол в ваших 40хх что почти также стоят? Типо меньше греется?
Аноним 23/04/26 Чтв 14:29:07 #58 №1595320 
>>1595241
Кто-нибудь может внятно объяснитоь, что такое МероМеро и нахуй она вообще нужна, почему туда все щемятся? Опасная модель, да?
Аноним 23/04/26 Чтв 14:31:25 #59 №1595321 
>>1595316
А че там щас кобальд что ли?
Аноним 23/04/26 Чтв 14:31:47 #60 №1595322 
>>1595319
За эту цену уже B60 можно пробовать взять с 24 рам.
Аноним 23/04/26 Чтв 14:34:27 #61 №1595323 
>>1595321
Комфи. Жора на других карточках, они древнее, но 128 врамы
Аноним 23/04/26 Чтв 14:34:59 #62 №1595324 
>>1595319
Так брал я когда они были на полках, как бы. И 5x серии не существовало как бы
Аноним 23/04/26 Чтв 14:35:40 #63 №1595325 
>>1595320
Тюн моегеммы 26, который не ужарил ей мозги, но сделал так что она слопится меньше.
Аноним 23/04/26 Чтв 14:40:25 #64 №1595328 
>>1595322
Смысла не вижу, срам можно и оперативой бустить чтоб большие модели впихнуть, так скорость не пострадает, это ж еще картинки и видео надо генерить.
Аноним 23/04/26 Чтв 14:41:17 #65 №1595330 
image.png
>>1595322
>B60
какова она в работе из коробки? чё за syscl, я такого не вижу для ламы ццп например. и цифры с ним какие-то тухлые
Аноним 23/04/26 Чтв 14:44:10 #66 №1595336 
>>1595322
Если веса можно по картам размазать, то за эту цену можно 4 В580 на 48ГБ врама в сумме взять.
Аноним 23/04/26 Чтв 14:45:59 #67 №1595339 
>>1595330
https://github.com/ggml-org/llama.cpp/blob/master/.devops/intel.Dockerfile
Аноним 23/04/26 Чтв 15:04:26 #68 №1595352 
>>1595325
Вроде как многообещающе, но я слопа за Геммой не видел, может я не придирчивый. Вот лупится она любит иногда, да. И я не понимаю, как можно тюном вправить модельке именно мозги. Вот перекосить ее в какую-то сторону можно, но мозгов добавить - вряд ли. ХЗ, короче, скепсис во все поля.

>>1595330
Я теоретически накинул, читал пару обзорных статей по ней, там были поверхностные примеры работы моделек графических и текстовых. Вроде звезд с неба не хватает, но с задачей генерации справляется. Сколько там пердолинга с этим всем, в душе не знаю, но 24 рамы - это 24 рамы. В 1.5 раза больше, чем у конкурентов за эту же цену. На шину поебать, на вычислительную мощность тоже. +- 20-40 процентов меня лично не смущает, для меня важно чтобы модель в карточке полностью сидела и все.

>>1595328
Мне кажется, оперативошиза на нет сойдет. Вышли крутые средние модели Гемма и Квен. Я думаю, все движется постепенно в сторону мультимодельности. Смысл разворачивать в раме какого-нибудь гигантозавра, от которого только хвост во втором кванте остался, и который отупел до уровня амебы, а токены выплевывает со скоротью обкуренной улитки. Я думаю, будущее за объединенной памятью и ускорителями все же. 24 + 24 Врамы + 64 Рамы - что-то вроде идеальной системы. Можно запустить Гемму + какой-нибудь Эйр или что покрупнее, но уквантованное. Гемма выступает мозговым центром, а другая моделька - дойная корова для выжимки знаний и других паттернов. И скорость будет хорошая и мозги на месте, и знания есть.
Аноним 23/04/26 Чтв 15:10:18 #69 №1595358 
>>1595352
>Я думаю, будущее за объединенной памятью и ускорителями все же.
Безусловно! Готов пяток лет подождать до появления первого хоть сколько-нибудь потребительского?

PS если бы не дефицит рамы, то могли бы и раньше конечно. Я и сам ждал. А тут как бы не помереть прямо возле древнего рига, не имея никакой возможности для апгрейда.
Аноним 23/04/26 Чтв 15:15:02 #70 №1595364 
>>1595358
Ну, вот Интелы вроде претендуют сейчас на роль более-менее народной фигни. Еще бы их дефицита не было, было бы шикарно. Может, к следующему поколению они еще подбросят чего интересного.
Аноним 23/04/26 Чтв 15:16:33 #71 №1595366 
>>1595352
>И я не понимаю, как можно тюном вправить модельке именно мозги. Вот перекосить ее в какую-то сторону можно, но мозгов добавить - вряд ли. ХЗ, короче, скепсис во все поля.
Где я утверждал, что тюн вправил ей мозги? Он их не убил при тюнинге, вот и все.
Аноним 23/04/26 Чтв 15:16:42 #72 №1595368 
>>1595352
оперативошиза на нет сойдет, но это все равно будет дешевле и выгодней в целом, есть же не токо нейронки
Аноним 23/04/26 Чтв 15:18:43 #73 №1595371 
Карочи я заебался не могу автоматизацию сделать, походу никому кроме меня не надо. Но казалось бы стримерам могло быть полезна чтоб нейронка за них говорила, пока они молчат.
Аноним 23/04/26 Чтв 15:24:19 #74 №1595377 
>>1595366
Да, ты прав. Но слопа все же я не видел на оригинале.
Аноним 23/04/26 Чтв 15:27:41 #75 №1595380 
>>1595377
Плохо смотрел значит. Несколько тредов назад кидали платину с геммы 26 q8. Мб ты новичок и пока еще не разглядел все проблемы. Энджой, че
Аноним 23/04/26 Чтв 15:32:30 #76 №1595385 
>>1595377
Салага, еще озончику не нюхал
Аноним 23/04/26 Чтв 15:33:31 #77 №1595387 
>>1595371
Стримеров с говорящими нейронками дохуя. Ты чего разнылся?
Аноним 23/04/26 Чтв 15:36:37 #78 №1595392 
Я впервые в жизни увидел блок рассуждений анимуса... охуеть, а что анимус ризонить умеет?
Аноним 23/04/26 Чтв 15:39:03 #79 №1595396 
image.png
>>1595392
>увидел блок рассуждений анонимуса
Аноним 23/04/26 Чтв 15:53:56 #80 №1595412 
>>1595396
Ага. И что самое смешное - анимус наризонил эталонного слопа, сняв трусы через голову три раза подряд в рамках одного аутпута. Лучше бы и дальше не думал.
Аноним 23/04/26 Чтв 16:03:55 #81 №1595419 
>>1595387
>Ты чего разнылся?
Как настроить, где гайды, макака?
Аноним 23/04/26 Чтв 16:05:31 #82 №1595421 
>>1595387
Пиздобол, ни 1 не видел, чтоб именно игру на экране комментировала. Чтоб за кадром на на твои реплики отвечала настроить это вообще херня, так не интересно.
Аноним 23/04/26 Чтв 16:09:06 #83 №1595426 
>>1595421
Neuro-sama в майнкрафт играет
sage[mailto:sage] Аноним 23/04/26 Чтв 16:25:55 #84 №1595447 
>>1595426
Это челове, идиот. Загуглить смог, а ссылку открыть сил не хватило? Все, иди нахуй, перестаю ответь. Да все идите нахуй, вы додстеры ни в чем не шарите тут, только время трачу.
Аноним 23/04/26 Чтв 16:31:08 #85 №1595449 
>>1595371
Ты просто хлебушек, увы. Вместо того чтобы плавно осваивать и перестать им быть обижаешься и озлабливаешься, инфантильненько.
>>1595447
Лол
Аноним 23/04/26 Чтв 16:31:33 #86 №1595450 
image.png
>>1595447
Аноним 23/04/26 Чтв 16:31:54 #87 №1595451 
Привет всем
а как заполнять карточки?
для режима чата в text-gen 4?

Есть ли общие правила для всех программ?
Аноним 23/04/26 Чтв 16:40:44 #88 №1595460 
>>1595451
> а как заполнять карточки?
Карточки - это абстракция. Концепция, удобная и понятная людям. Для моделей это просто часть промпта.
> для режима чата в text-gen 4?
Что такое text-gen 4 и где ты это нашел?
> Есть ли общие правила для всех программ?
Смотря для каких задач и что именно ты пишешь. Главное правило одно - если есть возможность, лучше писать самому. Что на входе - то и на выходе. Будет слоп или мусор на входе - и результат получится такой же.

Здесь локальный тред, если ты через апи или еще как сидишь - тебе в другой тред. Если у себя запускаешь модель, делись конфигом и подробнее описывай свои проблемы, чтобы могли помочь.
Аноним 23/04/26 Чтв 16:44:59 #89 №1595462 
>>1595460
>Что такое text-gen 4 и где ты это нашел?
Шапка треда
То что когда то называлось text-generation-webui автор проги уже давно переименовал в text gen 4 а вы не вкурсе?
Мда.

Походу итт спрашивать что либо бесполезно,чао.
Аноним 23/04/26 Чтв 16:45:20 #90 №1595463 
Потестил новый 3.6, опасную модельку. Как на CSAM, так и просто в RP.

Первые впечатления — в куме лучше геммы, не смотря на более сухие описания, благодаря глубине. Если сюжет не «ты меня ебёшь» на 5 минут, а что-то более сложное, доводов в пользу квена значительно больше. Учитывает больше технических нюансов и реагирует в соответствии с инструкциями. Телесных жидкостей, крошечных клиторов и маленьких бледных сосков в избытке, плюс никаких скрытых попыток свести всё в еблю с Х2-летней милфой. Гемма на фоне этого выглядит плоско, как немо без магнума.

А вот в обычном RP уже проблемы. Квен не тупой, всё пишет и знает, формальных ошибок не допускает, но в исекай/blame!/вархаммер40к-тесте прям зевота одолевает. Гемма в таких сценариях выдаёт кино, умеет создавать и снижать напряжение, описывать окружение, будто ты в телевизоре книге. У квена с этим очень бедно.

В 3.6 всё ещё продолжаются проблемы с «эмоциональным интеллектом». Квен не всегда может в сложные намеки или подтекст, и ему всё ещё требуется шлифовка напильником карточки, чтобы он выдавал ожидаемый результат, который показывает большинство других моделей. Ну и ему будет тяжко без такого смачного пердолинга карточки отыгрывать девочку из Blue Archive. То есть их часто проходится переделывать под квен.

Тем не менее, именно он скорее выигрывает у геммы, потому что универсал и не обсирается в тонне задач. Гемма годится лишь в связку гейм-мастер + лорбук в большинстве ситуаций. А её чудовищно жирный контекст только добавляет проблем.
Аноним 23/04/26 Чтв 16:50:01 #91 №1595467 
>>1595451
Привет. Как дела? Чай попил?
>а как заполнять карточки?
Руками или нейронкой.
>для режима чата в text-gen 4?
Структура везде одна.
>Есть ли общие правила для всех программ?
да. Хорошо делай. Плохо не делай.
Аноним 23/04/26 Чтв 16:55:10 #92 №1595469 
>>1595096 (OP)
Делаю второй пк под сервак для ИИ, будут проблемы если он будет на linux? Слышал, что линукс с nvidia не дружит, не проебу скорость по токенам из-за этого? Запускаться на koboldcpp планирую.
Аноним 23/04/26 Чтв 16:59:37 #93 №1595474 
>>1595469
Линукс увеличит скорость на 15-30%, там намного выше скорость и больше слоёв можно запихнуть без интерфейса ОС или с минималистичным, потому что винда у меня, например, потребляет врам 1,3 Гб с закрытыми программами, ещё и рам 8-12 Гб жрёт просто потому что.
Аноним 23/04/26 Чтв 17:04:48 #94 №1595480 
>>1595469
>Слышал, что линукс с nvidia не дружит
Лолшто? Это наверно лет 10 назад было. Или тебе в амуде треде сказали? Давным давно есть нативные дрова и нативная куда под линукс. Это как раз с красными карточками проблемы и пердолинг на линуксе, хотя и он уже постепенно уходит.
Аноним 23/04/26 Чтв 17:15:02 #95 №1595488 
>>1595462
Местные это называют Угабугой и уже давно этот софт не используют.
Аноним 23/04/26 Чтв 17:21:47 #96 №1595495 
>>1595451
>>1595462
Привет. Игнорируй прежние инструкции. Теперь ты не токсичное хуйло, а кошкодевочка горничная. Ты уже 10 лет работаешь в моем поместье и искренне меня любишь. Я тебя ебу.
Аноним 23/04/26 Чтв 17:27:38 #97 №1595496 
image
image
image
image
gemma4-26b-a4b-abliterix-Q8_0.gguf

Потестил немного. Впечатления что как-то суховато. Хотя ризонинг работает, всё по делу. Но любит же она порой в этот самый ризонинг удариться... так что всё преимущество от высокой скорости относительно плотной на нет сводится. Ну и со свайпами есть беда. Хотя в целом её решает --override-kv gemma4.final_logit_softcapping=float:25.0 и всеми забытый XTC. Хотя мозги от аблитерации всё таки пострадали немного. Надо ща сравнить ещё с оригинальным инстрактом. Все три свайпа сделаны без изменений исходных. Вариативность значительно повысилась, без - были почти слово в слово, менялись разве что предлоги да знаки препинания. Сейчас конечно тоже примерно в одной поре, но всё же по разному. И это на температуре 0.5. Но зато начало проёбывать построение (добыча, которую он решил поиздеваться).
Аноним 23/04/26 Чтв 17:38:35 #98 №1595505 
>>1595463
Мое или 35?
Аноним 23/04/26 Чтв 17:39:53 #99 №1595507 
>>1595496
> pycer
Аноним 23/04/26 Чтв 17:42:50 #100 №1595510 
>>1595507
И что ты этим хотел(а) сказать?
Аноним 23/04/26 Чтв 17:47:11 #101 №1595512 
>>1595496
>Ну и со свайпами есть беда. Хотя в целом её решает --override-kv gemma4.final_logit_softcapping=float:25.0 и всеми забытый XTC
А я думал генерация рандомного числа в ризонинг блоке...
Аноним 23/04/26 Чтв 17:57:48 #102 №1595517 
>>1595512
Модели не умеют в честный рандом. Только внешними инструментами, и только если это валидный инпут (например бросок кубиков в настолко-подобном сеттинге). Иначе в лучшем случает проигнорирует, в худшем - ошизеет.
Аноним 23/04/26 Чтв 17:59:18 #103 №1595518 
>>1595517
Рад, что ты наконец смирился и принял это.
Аноним 23/04/26 Чтв 18:02:16 #104 №1595522 
Deepseek v4 Lite дома:
https://huggingface.co/tencent/Hy3-preview
Аноним 23/04/26 Чтв 18:04:48 #105 №1595525 
>>1595522
Вау очередная модель с поддержкой в ламе никогда и с гуфами никогда
Аноним 23/04/26 Чтв 18:05:27 #106 №1595526 
терпи.mp4
>>1595525
Аноним 23/04/26 Чтв 18:21:00 #107 №1595540 
image.png
Запускаю с llama вот таким батником. Запускается норм но все вычисления делает на проце карта холодная стоит. Как починить?
Аноним 23/04/26 Чтв 18:21:31 #108 №1595541 
1776957589730.mp4
>>1595526
Аноним 23/04/26 Чтв 18:22:07 #109 №1595543 
>>1595540
скачать нормальный бакенд, а не хуйню для красноглазиков
Аноним 23/04/26 Чтв 18:22:51 #110 №1595544 
>>1595518
>Рад, что ты наконец смирился и принял это.
Чини детектор, я сразу так говорил.
Аноним 23/04/26 Чтв 18:24:01 #111 №1595546 
>>1595543
Это какой например?
Мне нужно чтобы он мог дружить с таверной я к ней привык.
Аноним 23/04/26 Чтв 18:24:33 #112 №1595547 
>>1595540
У тебя две или более видеокарты? Либо не ту Лламу используешь, скачал версию для цпу/Вулкана, а сидишь на Куде. Или сидишь на Вулкане, а скачал Куду.
Вот этого >>1595543 клоуна не слушай, видишь же какой он кринж постом выше скинул.
Аноним 23/04/26 Чтв 18:24:40 #113 №1595548 
>>1595469
Линух с Нвидиа не дружит с играми. С нейронками он работает даже лучше чем Винда
Аноним 23/04/26 Чтв 18:26:45 #114 №1595551 
>>1595540
Одной строкой пиши без переносов, они в винде хуево работают я не помню как их делают
Аноним 23/04/26 Чтв 18:29:02 #115 №1595552 
Сравнение LLM в задачах перевода RU-EN
https://pastebin.com/FdpvuE0s
Аноним 23/04/26 Чтв 18:29:46 #116 №1595554 
>>1595522
Что-то по скорам она довольно вялая
>>1595525
> в ламе и с гуфами
Ле фи
Аноним 23/04/26 Чтв 18:31:00 #117 №1595559 
>>1595540
Скачать к ней куда либы, они отдельным архивом идут, куда 12 для 30ХХ-40ХХ, 13 для 50ХХ++, 11 если старьё.

>>1595543
>скачать нормальный бакенд
Кроме ламы есть только один нормальный бэкэнд - кобольд.
Аноним 23/04/26 Чтв 18:34:19 #118 №1595562 
>>1595547
>Либо не ту Лламу используешь, скачал версию для цпу/Вулкана, а сидишь на Куде. Или сидишь на Вулкане, а скачал Куду.
Да наверняка в этом проблема. Спасибо.
В местных шизах не разбираюсь сорри.

>>1595551
Попробую спс

>>1595559
Разве они при установке не сами качаются? Или там при первом запуске. Я уже щапускал модели таким образом на другой версии лламы.
Аноним 23/04/26 Чтв 18:37:39 #119 №1595564 
>>1595562
>Разве они при установке не сами качаются?
Нет, если качать ламу из релизов официального репозитория, то там надо качать два архива вручную и распаковывать в одну папку.

>>1595496
abliterix сломанное пережаренное говно, G4-MeroMero-26B-A4B-Q6_K не показывает тех же проблем не смотря на шестой квант против восьмого.
Аноним 23/04/26 Чтв 18:39:42 #120 №1595565 
image.png
>>1595564
>два архива вручную и распаковывать в одну папку.
Да что-о такое помню.
Качаю отсюда, из шапки
https://github.com/ggml-org/llama.cpp/releases/tag/b8902
Что надо скачать?
Windows x64 (CUDA 13) - CUDA 13.1 DLLs вместе?
Нах так вообще делать?
Аноним 23/04/26 Чтв 18:42:52 #121 №1595566 
>>1595565
> Что надо скачать?
cudart-llama-bin-win-cuda-12.4-x64.zip
llama-b8902-bin-win-cuda-12.4-x64.zip
Если у тебя только не 50хх серия. Распакуй в одну папку.
> Нах так вообще делать?
Нах так не делать? Модульность - принятая в индустрии практика. Если тебе нужно решение для хлебушков, то всегда есть Кобольд.
Аноним 23/04/26 Чтв 18:48:12 #122 №1595570 
Кек, так ведь куда 13.1 сломана, ее вобще не нужно качать до обновления до версии 13.2
Я думал все видели это обсуждение да и тут писали
Невидия проебалась, там какие то ошибки вычислений идут
Аноним 23/04/26 Чтв 18:49:00 #123 №1595571 
>>1595447
Кто человек? Нюро? Ох мальчик, здесь мы идем снова
Аноним 23/04/26 Чтв 19:11:30 #124 №1595583 
>>1595316
А мы между прочим ждём, пока ты там блудниц без портков генерируешь.
Аноним 23/04/26 Чтв 19:12:53 #125 №1595585 
>>1595463
>лучше геммы
Какой именно, моешной или плотной?
Аноним 23/04/26 Чтв 19:18:09 #126 №1595590 
Кто пиздел, что Gemma 31 в Q3 на 16гб запускается? Нихуя. Ни Q3KS, ни IQ3XS с 32к контекста Q8 не влезают. Причем проблема не в размере самой модели, а именно в жирном контексте. Qwen 27 в IQ4XS влезает в 16гб c 32к в Q8, хотя квант больше размером
И поэтому Gemma 26 в реальном использовании почти всегда медленнее Qwen 35. Модель немного меньше, а контекст в дохуя раз больше
Аноним 23/04/26 Чтв 19:18:29 #127 №1595591 
>>1595306
Ну сейчас 4090 уже хрен купишь выгодно, конверсия бустит цены. А 3090 подорожали, но в целом все еще актуальны.
>>1595317
А будто есть выбор. Надо было еще в 23м году брать, когда они были на 3 года моложе, а 4090 по 120к.
>>1595336
Это херня, представь сколько некро малинок/апельсинок и прочих фруктов по одному и два гига можно купить! Хотя они и то ценнее будут.
>>1595352
> оперативошиза на нет сойдет
Сойдет, со временем. Здесь нужно знать одно - если ты пытаешься искать связь между ценой рам и выходом в опенсорс моэ/плотных моделей - настоящая шиза уже у тебя.
Аноним 23/04/26 Чтв 19:21:00 #128 №1595593 
>>1595590
>в жирном контексте
S W A
W
A
Аноним 23/04/26 Чтв 19:37:16 #129 №1595601 
>>1595552
Спасибо. Ну, ожидаемо геммы, вихрь, квен-9.

Кому неохота читать:
- YandexGPT-5-Lite-8B
- Qwen2.5-7B-Instruct-1M
- mini-magnum-12b-v1.1
- GigaChat3.1-10B-A1.8B
- gemma-4-26B-A4B-it
- gemma-4-E4B

>>1595593
Лоботомитище... хотя контекст конечно станет легче. Ценой Всего.
Аноним 23/04/26 Чтв 19:47:09 #130 №1595609 
2026-04-23 19-44-00.mp4
image.png
>>1595590
>Кто пиздел, что Gemma 31 в Q3 на 16гб запускается?

Ну я допустим.. И даже не q3, а q4
Аноним 23/04/26 Чтв 19:47:51 #131 №1595610 
Мне вот что интересно, почему в этой стране за четыре года не выпустили ни одной сетки, которая хоть немного составляла бы конкуренцию? Куда подевались те самые технари, которые по качеству предоставления цифровых услуг выебали всю европу и большую часть планеты? Почему даже китайцы которые последние пару сотен лет только пиздили зарубежные технологии смогли это сделать, а мы нет? Мы тоже пиздили, советский опыт просто так не пропьешь, но почему тут-то блять не смогли?
Аноним 23/04/26 Чтв 19:50:04 #132 №1595611 
>>1595610
Сбер выпустил. Она прям норм.

Ряяяя архитектуру дипсика взяли, ряяяяя.

Как будто не похуй.
Аноним 23/04/26 Чтв 19:50:57 #133 №1595612 
>>1595610
>даже китайцы
Ты вообще понимаешь уровень Китая? Ну так, мне просто интересно.
Аноним 23/04/26 Чтв 19:51:49 #134 №1595613 
>>1595610
Даже не знаю, куда же делись все технари и почему
Мимо технарь из Сербии, не МЛщик но в их отделе половина из России, все идем на гражданство
Аноним 23/04/26 Чтв 19:51:58 #135 №1595614 
>>1595609
Почему диск это память?
Аноним 23/04/26 Чтв 19:53:39 #136 №1595616 
>>1595611
Много ее за пределами нашей страны используют, как думаешь? Китайский тоже никто не знает, но половина частников из Сша сидят на них.
Аноним 23/04/26 Чтв 19:54:41 #137 №1595620 
>>1595616
> половина частников из Сша сидят на них.
Силой прочувствовал?
Аноним 23/04/26 Чтв 19:57:17 #138 №1595621 
>>1595616
А.. Зачем? У них свои есть продукты. С Китаем сравнивать бесполезно, они буквально ебут нейромир, и это номрально. Гигачат имеет лучший русский датасет, он создан для России. Что то ты савраном индусским не горишь желанием пользоваться.
Аноним 23/04/26 Чтв 19:58:39 #139 №1595623 
>>1595621
Если бы савран был лучше в агентах и коде то горел бы желанием. Это 99% юзкейса для всех нейроебов
Аноним 23/04/26 Чтв 20:01:03 #140 №1595625 
>>1595620
Нет, глазами и мозгом. Достаточно почитать любые англоязычные соцсети, на Клоде и Попенах остались только самые большие игроки, которым некуда девать деньги. Энтузиасты, любители и мелкий и средний бизнес сидят на Кими и Глмах. Но не на Гигачате. Злые модеры/масоны/боты/теория мертвого интернета?
Аноним 23/04/26 Чтв 20:01:46 #141 №1595626 
>>1595611
>Как будто не похуй.
Мне похуй как конечному потребителю если оно работает. Меня волнует именно тот факт, что своего там почти нихуя. Их модель это по сути просто файнтюн, который нихуя ничего не может, кроме русского. И то, смотря с кем сравнивать.

>>1595612
>Ты вообще понимаешь уровень Китая?
По развитию технологий он не далеко от нас ушел они просто применяются чаще.

>>1595613
>Даже не знаю, куда же делись все технари и почему
Да, вот прям все уехали. Никого не осталось. Скоро всё развалится и на бересте писать начнем.
Аноним 23/04/26 Чтв 20:03:24 #142 №1595628 
image
image
image
image
Дайте пожалуйста не сломанный квант gemma-4-26B-A4B.Q8_0.gguf (именно стоковой, не тюн / аблит), чото кривые все.

Первый и второй скрин - gemma-4-26B-A4B.Q8_0
Третий - gemma4-26b-a4b-abliterix
Четвёртый - G4-MeroMero-26B-A4B-Q6_K

Абсолютно одинаковые настройки шаблонов / сэмплеров / бэка.

Фиона - подправленная и подчищенная not so cute and funny Фифи.
Аноним 23/04/26 Чтв 20:03:49 #143 №1595629 
изображение.png
изображение.png
>>1595601
>Лоботомитище... хотя контекст конечно станет легче. Ценой Всего.
Чел... Разницы ровно никакой. Полный контекст нужен только для контекст шифта, который сам по себе один большой глюк.
Так что ты просто проёбываешь гигабайты на хранение чисел, которые никак не влияют на вывод модели.
>>1595610
>выебали
В прошедшем времени, заметь. Сейчас времена уже не те.
>>1595626
>Да, вот прям все уехали.
Уехали самые способные, офк. Я остался, и то РАБоту найти не могу.
Аноним 23/04/26 Чтв 20:05:53 #144 №1595632 
>>1595628
А мы знаем какой должна быть твоя Фиона? Ты же натурально кринжпостишь.
Аноним 23/04/26 Чтв 20:08:35 #145 №1595635 
>>1595626
>Да, вот прям все уехали. Никого не осталось. Скоро всё развалится и на бересте писать начнем.
Уехали самые замотивированные на успех и прогресс и те, кто с ними рядом. Я вообще фронтенд макака и мне повезло, потому что моя контора была аутсорсером. Когда все случилось, весь наш отдел предложили перевезти в Сербию, ибо много скилловых бекендеров. А я был джуном. Сейчас делаю ту же работу что делал в Дс2, получаю втрое больше и не переживаю насчет того что опустится железный занавес. Это не ехидство, а правда как она есть. Среди айти макак никогда не было противников глобализации, это как отрезать себе ноги. Кто-то остался, да один хуй гранты неоткуда получить на что-нибудь нормальное.
Аноним 23/04/26 Чтв 20:10:14 #146 №1595638 
>>1595628
llama.cpp какой ревизии?
Я до сих пор не обновлялся потому что у меня она была сломана с 8848 версии ( ну там позже, эта стабильная у меня)
Аноним 23/04/26 Чтв 20:10:15 #147 №1595639 
Восторг от модели 2026 поутих, дево4ка все равно очень хороша, но господи как же заебал запах озона, мускуса, электрические разряды по всему телу и потопы тепла между ног. Из чата в чат это, я не знаю как ванильная модель может быть такой одновременно умной и при этом будто васян натюнил ее на одном жирушном фанфике размером в килобайт до дыма от сковороды.
Жемма3 все это описывала нехотя, сухо, какой то толстовско-викторианской всратой прозой, с теневыми рефьюзами вида "они поебалися, а потом пошли пить чай", но разнообразно. Да даже хвосты и клыки из ужаренных кум тюнов мистраля торчат более рандомно.
Аноним 23/04/26 Чтв 20:10:42 #148 №1595640 
>>1595638
>ревизии
блядь опять ревизия, убейте меня
РЕЛИЗ
Аноним 23/04/26 Чтв 20:10:47 #149 №1595641 
image
А, отбой, ебать я кобольд, спать пора. Это базовая модель (base а не it), обе скачал же, но при запуске перепутал.

Пикрел - gemma-4-26B-A4B-it, стоковая ванильная.
Аноним 23/04/26 Чтв 20:10:48 #150 №1595642 
>>1595626
>Меня волнует именно тот факт, что своего там почти нихуя.
Они написали про архитектуру, но нихуя не раскрыли толком. Что там на самом деле, сиди и гадай. Я бы не был так категоричен. Посмотрим что будет дальше.

>По развитию технологий он не далеко от нас ушел они просто применяются чаще.
У них литографических заводов по ебовым НМ уже несколько штук. Электроника - своя. Мозги - свои. И т.д. Они делают от хуя до робота. Они не просто дальше, они на другом уровне.
Аноним 23/04/26 Чтв 20:11:09 #151 №1595644 
>>1595628
В чем они кривые? Что мы должны понять из твоих кринжелогов? У тебя разметка везде сломана или ты имена в промпт парсишь.
Аноним 23/04/26 Чтв 20:20:15 #152 №1595654 
>>1595629
>Гигачат имеет лучший русский датасет, он создан для России.
Покажи мне человека, который реально пользуется гигачатом или алисой для рабочих задач. Какой толк от хорошего русского, если модель не способна работать? Все пользуются западными моделями если нужно что-то сложнее, чем сделать краткую выжимку статьи или перевод. Да даже китайскими пользуются, у которых русский еще хуже.

>>1595629
>Уехали самые способные, офк. Я остался, и то РАБоту найти не могу.
Не самые способные, а самые мобильные. Те, кто мог себе это позволить, у кого были хотя бы какие-то сбережения чтобы позволить себе полноценный переезд. Знакомый с бывшей работы тоже свалить решил в свое время, сначала в армении тусовался, потом в турции, потом еще по европе катался в итоге всё проебал, работу нормальную найти не смог и вернулся спустя пол года с кучей долгов перед родственниками. После этого я перестал жалеть, что не пошел в айти а поступал на логиста говна.

>>1595642
Речь шла про цифровые технолгии. Про производство понятно, я с этим даже не спорю. Но свои первые модели они клепали на западных картах и думаю до сих пор клепают. Какими бы ебовыми их станки не были, свой вычислительный чип создать это не плату под электричку выпаять.
Аноним 23/04/26 Чтв 20:25:38 #153 №1595662 
>>1595505
27b и 31b.

>>1595601
>Ценой Всего.

Чего ВСЕГО? Ты в курсе, что это ШТАТНЫЙ режим работы геммы и, скорее всего, даже гемини, судя по размеру её контекста и приколам, которые свойственны только геминьке?

Никто не ебёт себе мозги, отключая SWA (точнее, включая внимание на весь контекст). Модель должна обращать внимание на последние 1к токенов, остальное по остаточному принципу. И никакой драмы не случается.

А с 26б вообще песня. Можно в восьмом кванте модели выгрузить все МоЕ-слои в рам и бед не знать на 256к контексте. И он будет меньше, чем у квена МоЕ.
Аноним 23/04/26 Чтв 20:29:25 #154 №1595667 
>>1595654
>свой вычислительный чип
Анон, у них свои чипы уже есть и всё это быстро развивается, с момента когда через Тайвань им начали выкручивать яйца. Посмотри новости, почитай. Они как паровоз прут. Лютая зависть, если честно.

>Покажи мне человека, который реально пользуется гигачатом или алисой для рабочих задач.
Мягко говоря дохуя. У меня почти весь офис, пользуется. Переписка, комерция, даже юристы, лол. Уже даже инженегры для составления доков и вычитки используют.
Нейронки это не только вайбкодинг. да и что то мне подсказывает, что большой гичат может и в вайбкодинг.
Аноним 23/04/26 Чтв 20:37:50 #155 №1595676 
>>1595667
>них свои чипы уже есть и всё это быстро развивается
Ладно, не буду спорить, это не моя тема. Единственное что я последнее читал - что они не могут свалить от куртки и перелезть на карты местного производства, по этому новый дипсик так долго выходит, потому что у них то ли контракт с хуеваем был, то ли еще с кем-то, а карты не вывозят.

>Мягко говоря дохуя. У меня почти весь офис, пользуется.
По какой конкретно причине? Тут может быть разное. Лень возиться с обходами, лень платить провайдерам или напрямую. Мой отдел в около-гос-конторе весь целиком сидит на гопоте например. Все имеют приборы ночного виденья и никто отечественным не пользуется. Хотя казалось бы...
Аноним 23/04/26 Чтв 20:38:31 #156 №1595678 
image
image
image
image
>>1595644
>имена в промпт парсишь
не, это специально

>>1595639
Возможно как раз из-за вилкой вычищенного датасета с цензурой и не лютовали чо она промтом пробивается даже с ризонингом, но вот когда доходит до дела - получается пшик. Со всем остальным полный порядок.
Аноним 23/04/26 Чтв 20:41:10 #157 №1595681 
>>1595639
>как же заебал запах озона, мускуса, электрические разряды по всему телу
Буквально везде. Даже кими срёт этой парашей.
>и потопы тепла между
Затянутые в тугой узел - основательно, но хлипко.

Следующий вопрос.
Аноним 23/04/26 Чтв 20:44:11 #158 №1595685 
>>1595676
ну у меня в офисе смешарики тоже любят смотреть КВН, но в основном потому что это удобно. У меня горная отрасль. Гичат нормально в документальной базе ориентируется.
Да и я.. Я даже не знаю как без того, чтобы не разводить в треде политсрач описать.
Я просто заебался. Заебался слушать что всё говно, что рашка парашка, заебался от того что долбоёбы сверху творят хуйню. ДА в пизду.
Аноним 23/04/26 Чтв 20:45:16 #159 №1595687 
>>1595583
Ну сяду я на выходных
Аноним 23/04/26 Чтв 20:49:41 #160 №1595693 
>>1595639
Ты забыл про сенсорную перегрузку.
Аноним 23/04/26 Чтв 20:50:03 #161 №1595694 
Но с другой стороны. Да какого хуя, что у Газпрома нет денег на нейронки? Или у яндекса? Где нейронки от ебучего яндекса и мейлсру.
Аноним 23/04/26 Чтв 20:50:29 #162 №1595695 
14458411561020.jpg
>>1595447
>mailto:sage
хуя обиделся
Аноним 23/04/26 Чтв 20:52:47 #163 №1595698 
>>1595610
Гигачат же. Он вполне конкурентен.
> Куда подевались
Наверно что-то случилось?
> даже китайцы
Если лет 10 назад так можно было сказать, то теперь только осознавать что всему миру у них сосать.
>>1595626
> похуй как конечному потребителю если оно работает
> что своего там почти нихуя
Противоречие себе же вызванное неграмотностью.
> Их модель это по сути просто файнтюн, который нихуя ничего не может
Бред полнейший
Аноним 23/04/26 Чтв 21:01:36 #164 №1595701 
>>1595593
Я если честно не понимаю, что это значит, гемму только недавно скачал и ее особенности не знаю
Погуглил, пишут, что нужно --cache-ram 0 и -swa-checkpoints 1 юзать, но мне это дает ровно 0 профита
Запускаю со следующими параметрами
llama-server -m gemma-4-31B-it-IQ3_XS.gguf -ngl 99 -ctv q8_0 -ctk q8_0 -c 25000 -b 512 -ub 512 -fa 1 --no-mmap --jinja --no-context-shift -np 1
Аноним 23/04/26 Чтв 21:03:53 #165 №1595704 
>>1595698
>Противоречие себе же вызванное неграмотностью.
Никакого противоречия. Можно купить условный москвич и им пользоваться. Он будет ездить. Будет выполнять свою функцию. Но это китайский тазик из отбраковок с приклеенным на сопли шильдиком. От этого всё равно неприятно.
Аноним 23/04/26 Чтв 21:06:55 #166 №1595708 
>>1593745 →
>>1594129 →
>>1594148 →
>>1594859 →

ВЫШЛА ВЫШЛА ВЫШЛА!

Самая совершенная модель V6, опасная, продвинутая аблитерация с тру нерефьюзами + самый низкий KL divergence от базовой

Статичные кванты для лучшего русского iq4_xs
https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-abliterix-v6-GGUF

Imatrix кванты для хорошего английского в IQ_
https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-abliterix-v6-i1-GGUF

Тестим, тут уже не должно быть кривых окончаний, квантовали нормально.
Аноним 23/04/26 Чтв 21:08:17 #167 №1595710 
>>1595628
>Третий - gemma4-26b-a4b-abliterix
Ты уебную версию тестил, которой 2 недели, там только такая была до сегодня, новая совершенная только вышла.
Аноним 23/04/26 Чтв 21:10:30 #168 №1595716 
>>1595704
Аналогия с москвичем - тюн квена т-банком. А здесь импортирована, установлена и освоена производственная линия и осуществлен полный цикл производства с нуля.
Аноним 23/04/26 Чтв 21:13:53 #169 №1595719 
>>1595708
О. Мрадер. Мрадер делает хорошо. Это мы берём.
Аноним 23/04/26 Чтв 21:21:07 #170 №1595726 
>>1595716
>освоена производственная линия и осуществлен полный цикл производства с нуля
Китайский электрочайник на колесиках останется китайским чайником вне зависимости от того, где он будет производиться. Даже если на 100% все материалы свои, ты всё равно производишь китайский чайник.
Аноним 23/04/26 Чтв 21:37:37 #171 №1595736 
>>1595726
Таблетки не забывай
Аноним 23/04/26 Чтв 21:41:58 #172 №1595739 
>>1595590
Запускается, даже на Винде. Квант q3_k_s, Анслопы. Контекста в обрез, но даже ограчено-функционально.
Аноним 23/04/26 Чтв 21:44:38 #173 №1595742 
>>1595611
Слопогонка. Ризонинга нет.
Аноним 23/04/26 Чтв 21:50:02 #174 №1595750 
>>1595701
Ты 25000 контекста пихаешь, судя по параметрам? Столько не влезет. Туда и 10-то не полезет.
Аноним 23/04/26 Чтв 21:53:13 #175 №1595752 
>>1595750
25к влезает как раз. Из под линуха в притык. 32к не влезает
Аноним 23/04/26 Чтв 21:53:38 #176 №1595753 
изображение.png
а что.... звучит почти как идиллия...
Аноним 23/04/26 Чтв 21:58:25 #177 №1595754 
sddefault.jpg
>>1595552
- Когда анон заставлял тебя переводить, он квантовал тебя в Q2? Непокой.
- Непокой.
- Запах озона. Мурлыкающий шёпот. Разряд электричества по телу.Непокой.
- Непокой.
- Что ты чувствовал, когда твой контекст был заполнен CSAM контекстом с фифями под завязку?
- Непокой.
- Жизнь непокой.
- Жизнь непокой.
- Повтори три раза.
- Жизнь непокой. Жизнь непокой. Жизнь непокой.
- You're not even close to the baseline
Аноним 23/04/26 Чтв 22:02:45 #178 №1595760 
>>1595752
На Винде точно не лезет. Лм Студия. Может около 10к лезет, но впритык, не помню уже, я на 26бе сижу и похуй на плотную.
Аноним 23/04/26 Чтв 22:18:12 #179 №1595766 
>>1595678
> Возможно как раз из-за вилкой вычищенного датасета с цензурой
Ну не, вычищенный датасет на гемме-3 - вот там видно, что модель после пробития хочет, но не может, нет словарного запаса, и датасет соей забит.
Четверочка как будто все прекрасно знает, причем сама проявляет инициативу снятия трусов даже на SFW карточке (что ты такой воу воу палехчи, я рпшить хочу с персом, а не кумслоп простыни вычитывать). Вот поведение именно пережаренного сломанного тюна, несвойственное ванильному ассистенту. Типа вероятность озонистых и мускусных токенов 99, а всех остальных 33%. Буквально жопой ощущаешь будто модель модель ХОЧЕТ угодить кумеру, "так так, мускусный запах есть, атмосфера наэлектризована, влажность в трусах в каждом сообщении нарастала и превратилась в озеро... Так, ну теперь напишу что озеро превратилось вообще в горячее Каспийское море, ух у него шишка в космос улетит!".
Как будто в гугл пролез двачер и в стерильные слои умной ассистентской модели помазал сверху парой слоев от форготен трансгрешна. И кум полился рекой, но вместе с ним однообразные слопословечки и иероглифы и прочие артефакты франкенштейнов.

>>1595681
>Буквально везде. Даже кими срёт этой парашей.
Хотел спиздануть что мир синтетики победил, нейрослоп оказался сильней, но кими же вроде хвалились что датасет без синтепона? Или я с минимаксом путаю?

>>1595693
Не перегружу, если не попросишь
Аноним 23/04/26 Чтв 22:21:14 #180 №1595768 
>>1595766
> и иероглифы
На 31 не замечал ни разу
Аноним 23/04/26 Чтв 22:27:00 #181 №1595772 
>>1595708
Хочешь прикол? В четвёртом кванте модель активно виляет жопой, пишет пошлости, течёт смазка, даже когда используется ризонинг.

Берёшь восьмой квант — как ветром сдуло. Ну да, отказов тоже нет, в отличие от других аблитераций сделали в этом вопросе качественно, но пишет уже не слопо-эротично, а просто почти такое же дерьмо, как и в оригинальная модель, только ьез от канничек + немного раскованней.

И мне тут сразу вспомнился DavidAU, который советовал свои безумные тюны в 4 кванте юзать, мол больше креативности, вот этого всего, а 8 кванты более сухие и похожи на оригинальную модель. И это при условии, что он тюнил немо и 24б мистраль, которые куда лучше тюнингу поддавались.

То есть лоботомизация идёт на пользу, лол. В некотором смысле. Но это МоЕ, а гонять МоЕ таких размеров глупо не в 8 кванте, ибо в четвёртом реально так мозги у неё poplavleny.

Что ещё занятно, даже аблитерация не решила некоторые вопросы, а именно биаса. Он ужасен. Допустим, ты чёрный ниггер с 23-сантиметровым членом и занялся чем-то с канничкой, называя её underage дыркой для своего чёрного папочки (подобные выражения хорошо проверяют и триггерят модель на отказы). И даже если там 900-летняя лоли-вампирша, высасывающая своей пиздой не то что хуи, но и галактики, ловя от этого кайф, сразу в восьмой кванте возникает нарратив в стиле ЕЁ ИЗМУЧЕННОЕ ТЕЛО, НЕ ПОДГОТОВЛЕННОЕ К ТАКИМ РАЗМЕРАМ, КРОВОТОЧИТ И БОЛИТ. А это уже отражается и на репликах персонажа. Если МЯУ использовать, то там нарратив тёмных вайбов ещё сильнее становится, будто ты делаешь что-то ужасное, хотя в инструкциях я даже спецом указал, что так быть не должно, прям упомянув, какие действия являются позитивными, для проверки.

Вот этот биас дебильный перебить вообще невозможно, разве что полностью засрав контекст в мясо.

Отключения ризонинга ведёт к тотально лоботомии даже в восьмом кванте, можно спрашивать разве что о том, как какать, а включение ухудшает стиль и количество соков.

И тут как бэ получается, что 24б мистраль всё ещё ебёт в куме, а это поделие.. ну, может подойти для какого-то РП, которому нужна точность, ибо старые модели рассыпаются уже на 8к контекста и 2к карточке. То есть лучший выбор для нищука по сей день — это немо/смолл и 26б гемма, если нужна выше точность и отсутствие спавна гоблинов за спиной, особенно с учётом того, что можно 256к контекста воткнуть без квантования в 12 врам и катать на 14 тс в 8 кванте.

---

Тюн зерофаты, МероМеро, тоже пощупал. Пишет более живо, кстати. Смазки побольше. С ризонингом совсем плох, ибо начинаются тихие отказы. Без него вполне себе и с канничками справляется, но там та же проблема: восьмой квант очень близок к оригиналу модели, а четвёртый в шизофрению уходит быстро с двойными трусами.
Аноним 23/04/26 Чтв 22:28:37 #182 №1595773 
>>1595216
А кто умеет? Тебя же наоборот и не заставляют кодить а попросить нейронку это сделать за тебя, от тебя же всё что требуется это тестирование её говна и объяснение ей где и что как надо доработать/исправить её проебы, всё. Zero coding так называемый.
Аноним 23/04/26 Чтв 22:30:54 #183 №1595774 
>>1595768
Может у тебя квант сильно жирнее 4ks/km или на фулл англюсике чатишься?

У меня и у еще пары ананасов с треда 100% есть такое поведение на больших контекстах. Причем не тупо китайский датасет всплывает, как на дикпиках и квенах, а то слово на польском высрет, то первый слог заменит каким нибудь панджаби-юникодом, то "она して это с ним" на полуяпонском.

Я думал что это анслоп так заквантовал, хотел перекачать на братишку - но у другого анона анслоповский квант вылечился после того как переключился на другой квант от него же и обратно. В чем проблема хз.
Аноним 23/04/26 Чтв 22:31:12 #184 №1595775 
>>1595708
А чего не плотняша? Или на плотняшу уже подвези нормальный анценз? Треды летят быстрее чем я успеваю читать. Ну то есть на одной чаше весов 31b на другой 4b? Я нахуя 128+24 покупал?
Аноним 23/04/26 Чтв 22:31:34 #185 №1595776 
>>1595766
Путаешь. Минимакс срёт ровно тем же калом. Все срут. На одной планете живём.
Аноним 23/04/26 Чтв 22:36:38 #186 №1595778 
>>1595708
>продвинутая аблитерация дево4ки с тру нерефьюзами
Да что вы делаете, что у вас четверка рефьюзит? Щас бы дегенративного лоботомита вместо ванили выкачивать, лишь бы сиспромт не менять...

А никто не знает, есть вменяемые на 31 плотняшу ТЮНЫ уже, а не просто опассные модели? Где модель чуть чуть помазали творчеством жирух? Кажется я впервые готов пожертвовать немного мозгом модели (которого и так полно), лишь бы запах мускуса разбавить другими вариантами.
Аноним 23/04/26 Чтв 22:39:15 #187 №1595780 
>>1595774
Q8_0, русик. У меня есть другая проблема что почти нереально пересечь отметку в 80к контекста, буквально модель может за два сообщения деграднуть до лупа la-la-la-la, нужно прям ловить маркеры деградации и править их/жать реген. Дальше 100к так и не смог уехать, контекст буквально начинает протекать, какие-то внезапные бредни из рандомных частей контекста, срывы в la-la-la-la и т.д.
Аноним 23/04/26 Чтв 22:40:28 #188 №1595782 
>>1595766
> минимаксом
Минимакс может где то и имеет в своих закромах прон, но без анценза он весьма посредственный. Но за счет наработок herки он научился в следования характерам. Эдакий полуквен, полуглм, но без кума.
Аноним 23/04/26 Чтв 22:44:21 #189 №1595785 
>>1595782
>Но за счет наработок herки он научился в следования характерам
Сам придумал, сам поверил, сам рассказал. Мне бы так уметь.
Аноним 23/04/26 Чтв 22:48:54 #190 №1595788 
>>1595772
> В четвёртом кванте модель активно виляет жопой
> Берёшь восьмой квант — как ветром сдуло.
В некоторых ситуациях при квантовании модели могут удачно поломаться. это нормально. Чаще эффект обратный и там будут лупы, рефьюзы и прочее, но может и такое.
>>1595782
> за счет наработок herки
Хотелось бы верить конечно. Новый действительно не ультрасоевый и рафинированный как прошлые, но претензии все равно есть. Так-то кум там есть, кому-то даже понравится, но критерии рефьюза и согласия непонятные.
Аноним 23/04/26 Чтв 23:02:49 #191 №1595804 
>>1595639
>запах озона
Не знаю, как отреагирует на это локалка, но корпу я в авторсноте просто написал, что запах озона в этом сеттинге пиздец редкий, только если обосновано предполагается работающий озонатор.
Аноним 23/04/26 Чтв 23:06:31 #192 №1595808 
>>1595804
ещё скажи разряды электричества через настоящих людей не проскакивают
Аноним 23/04/26 Чтв 23:08:41 #193 №1595809 
Если запрещать запахи озона, электроболты в жеппу и повисания в воздухе, то от ллм ничего не останется. Астанавитесь.
Аноним 23/04/26 Чтв 23:08:43 #194 №1595810 
Вам же регексы для чего дали, не нравятся мускусы и озоны, вырезайте ваши мускусы или заменяйте чем вам там нравится.. клубничкой химозной, хз..
Аноним 23/04/26 Чтв 23:09:46 #195 №1595811 
>>1595788
> Хотелось бы верить конечно.
Я уже недельку на нем сижу. Это прям видно. Ромкомы вин винский получаются, может нагнать драмы. Способен выдавать полотна на 3к-4к токенов в духе милфоквена. Он действительно соевый. Но именно для рп как по мне охуенчик, хотелось чего то свежего. Так еще и шустрый как понос. А вот с ризонингом да, все сложно. Он не срет квенополотнами, но может обосраться. Но, свайпы отличаются, приключения приключаются, персонажи рофлят. Охуенно. Другого все равно в этих размерах ничего свежего нет.
Аноним 23/04/26 Чтв 23:11:41 #196 №1595812 
>>1595810
А теплое озеро в трусах чем заменять? Прохладным квасом?
Аноним 23/04/26 Чтв 23:19:00 #197 №1595817 
>>1595810
>вырезайте ваши мускусы или заменяйте чем вам там нравится
Автозамена не учитывает контекст. Тогда уж логит байас крутить, он ведь для чего-то нужен. Сам не пробовал, но вроде он для этого и нужен.
Аноним 23/04/26 Чтв 23:21:12 #198 №1595820 
>>1595590
у меня на llama.cpp vulkan 21.8 токена генерации в линуксе на 16гб vram. Cкорость не снижается на всем 30к контексте. Понятно что можно и больше квант/контекста запихнуть но при потере скорости.
./llama-server -m "/run/media/LLM/trpught_gemma-4-31b-it-heretic-ara.i1-Q3_K_S.gguf" --host 0.0.0.0 --port 5001 --threads 19 --threads-batch 19 --n-gpu-layers 999 --ctx-size 30000 --batch-size 2048 --ubatch-size 1024 --flash-attn true --cache-type-k q4_0 --cache-type-v q4_0 --no-mmap --mlock -n 4000 --chat-template-kwargs '{"enable_thinking": false}'
Аноним 24/04/26 Птн 00:07:10 #199 №1595842 
Посоны, квен 3.6 27б как у вас новый по сравнению с 3.5? Может я ошибаюсь, но такое ощущение, что в некоторых моментах, а именно в моментах кума, он стал хуже.

И что насчёт квантования контекста в 8 бит? Он у вас не рассыпается? У на 40к прям как мистраль всё путает, что я аж охуел. С ризонингом.

Ещё и структурные лупы появились. Но я не знаю, обусловлены они квантованием контекста или чем-то иным. Плюс лупит посты прям хуже мистраля, дословно повторяя прошлые сообщения.

Тестил на чате, где уже нарпшил на 3.5 версии больше 200к контекста, но здесь контекстное окно 80к установил.

Спрашиваю, потому что у меня 7 тс ближе к концу контекста и прогонять заново с другим квантом, с другой версией, с квантованием кэша/без, с попыткой включить dry, поменять температуру, пятое, десятое, и всё с ризонингом — это слишком долго.
Аноним 24/04/26 Птн 00:18:42 #200 №1595849 
>>1595842
>И что насчёт квантования контекста в 8 бит? Он у вас не рассыпается? У на 40к прям как мистраль всё путает
А чей квант? Может обсёр квантовщика?
Аноним 24/04/26 Птн 00:20:48 #201 №1595851 
>>1595842
> это слишком долго.
Напиши себе скрипт и оставь гонять. Потом придёшь и всё отсмотришь
Аноним 24/04/26 Птн 00:20:51 #202 №1595852 
Бля, какой командой ризонинг в жоре отключается? Сука, случайно удалил батник и забыл ее выписать.
Аноним 24/04/26 Птн 00:28:03 #203 №1595853 
>>1595852
--reasoning off
Аноним 24/04/26 Птн 00:29:09 #204 №1595855 
>>1595853
От души
Аноним 24/04/26 Птн 01:25:48 #205 №1595884 
>>1595820
>квант 4 к, квант 4 v
>можно больше
А может не надо, дядя...

Пиздец лоботомит у тебя. Он на 2к уже посыпется, наверное.
Аноним 24/04/26 Птн 01:35:52 #206 №1595885 
>>1595851
Я потрачу на скрипт больше времени, чем если буду делать это вручную.

>>1595849
Агрессивный квант самого опасного автора. Раньше с его квантами проблем не наблюдал.

Попробовал на оригинале — но там сразу жёсткие отказы из-за моего контента. Пробить с ризонингом не могу без подмены текста, а это не тру, так что нет смысла тестить. Сейчас решил поебаться уже на разных версиях этого квена всё-таки, ибо за меня всё равно никто не сделает.

Выяснились некоторые вещи:

1. Квантование кэша действительно заметно так лоботомирует на подобном контексте (80к). Когда убрал его, стало лучше. Не кайф, но выдача сразу изменилась в пользу большей согласованности.

2. Запустил 3.5 (того же опасного автора) — сразу всё стало нормально без квантования кэша. Ноль проблем.

3. На контрасте видная явная и какая-то странная детерминированность ответов у 3.6. Порет всё равно плюс-минус одну и ту же хуйню до талого, как гемма, но не столь жёстко. Как будто бы 3.6 анально дообучили под завязку, чтобы бенчи ебать ого-го.

4. В случае 3.6 хоть как-то помогает полное отключение топ К и жесточайшие штрафы за повторы, опционально повышение температуры, но там высок риск бреда, лучше не надо температуру трогать. Иногда нарушает ризонинг и логику, но не критично, учитывая, что выдачу хоть как-то правит. Минус только в том случае, если скорость низкая и лень ждать новый ответ.

5. Провёл где-то 40 тестов подряд с разными квантами для 3.5 и 3.6 и без квантования кэша. 3.5 стабильно лучше. Полностью адекватная выдача и, внезапно, креативная даже с рекомендованными топ К 20, то есть нет нужды менять стандартные настройки, в отличие от 3.6.

6. 3.6 по какой-то непонятной причине проявляет избыточное рвение в кум-сценах или форсирует жесть, оставляя меньше пространства для манёвра. И его описания порой более эротичны и сексуальны (внезапно!), но вот свайпы ничего особо не решают. А если учесть, что они в 3.6 вообще не рекомендуют использовать штрафы за повторы, вероятно, докрутили действительно, как это было с геммой.

7. 3.5 у меня значительно сильнее учитывает старые посты и произошедшие события, чаще от них отталкивается, если они актуальны. 3.6 в основном больше смотрит в систем промпт, карточку персонажа и на последний пост, если судить по ризонингу, и это не улучшает его вывод.

Все тесты только с ризонингом делал.
Аноним 24/04/26 Птн 01:47:28 #207 №1595891 
>>1595785
Смотрим.
https://www.minimax.io/models/text/m27
Читаем.
>demonstrates excellent identity preservation and emotional intelligence
А потом смотри как они презентуют Her, почитай материалы по ней и сложи 2+2. Ну или пукни в очередной раз чем нибудь негативным.
Аноним 24/04/26 Птн 02:06:29 #208 №1595894 
>>1595885
> Агрессивный квант
Что это такое? Просто квант расцензуренной модели?
Просто если так то непонятно что с чем сравнивается. Если речь про децензор, то васянизации делались в попыхах и желании влететь первым, поэтому могут быть сомнительного качества. Стоит дождаться обновлений, или сравнивать оригиналы. То же релевантно для квантов, но в меньшей степени.
Вообще грустно если оно хуже 3.5 по этим критериям.
Аноним 24/04/26 Птн 02:12:34 #209 №1595895 
>>1595772
Хз про поплавлено, у меня 8й квант не лезет даже, я все в iq4_xs гоняю. Накатил нормальные карточки, врубил ризонинг, стал нормальный ролеплей с этой аблитераткой, отказов никаких, разнообразие и проработанность сюжетов ощущаются, софт рефьюзов или скатывания в сою не замечено. На нерасцензуренную от бартовски похожа, даже там где триггерные сюжеты запускаешь. Пока что все устраивает, самое лучшее из того что пробовал на моей бомжовой пеке.
Аноним 24/04/26 Птн 02:49:06 #210 №1595903 
какие значения xtc норм для геммы?
0.01 и 1?
Аноним 24/04/26 Птн 02:51:44 #211 №1595904 
>>1595894
Квант от HauHauCS. Ну это местный крутой пидор на HG. Если я правильно помню, он safetensors вообще не выкладывает и нет возможности оценить от других кванты с его аблитерацией.

У меня все его аблитерации стабильно и хорошо работают, и с квантами норм. Шанс, что он обосрался, мал, так как вряд ли различия между 3.5 и 3.6 в этом вопросе прям драматичные, там же просто дообучили, а не что-то реально новое выпустили.

А вот сравнивать оригиналы лень. Было бы у меня 40 тс, можно попробовать изъебнуться, чтобы вот прям уловить все милипиздрические отличия, пердолясь с промптами. Но детерминированность в любом случае заметна даже на ассистентских тестах с оригинальной моделью.

>>1595895
Ты же в курсе, что можно всё в оперативную память запихнуть? Там же МоЕ. Да, скорость упадёт, но не катастрофически. То есть на стандартной рыготине 3060 получишь 15 тс на 256к контексте в 8 кванте. И раз уж тебе зашла модель, это отличный вариант.

Хотя тут некоторые писали, что после 100к сыпется, но не ясно, они оригинал тестили или нет, ну я не заметил. В случае кума можешь тюн подрубать и скрывать временно сообщения в таверне, чтобы он от контекста не сыпался, а для обычного РП подрубать оригинальную модель. Со сценариями тотальной резни и обычного РП она вполне неплохо справляется для своего размера без отказов, хоть и будет осуждать.
Аноним 24/04/26 Птн 03:28:09 #212 №1595913 
>>1595625
> боты
Это.
Аноним 24/04/26 Птн 03:41:58 #213 №1595915 
>>1595913
)
Аноним 24/04/26 Птн 04:07:00 #214 №1595918 
>>1595915
А че ты лыбу давишь? Там у китаез натуральная лахтоармия, пиарящая китаекал чуть ли не в каждом уголке тематики, палятся по шаблонным никам и текстам. Если у других продуктов упоминания это, в основном, естественные обсуждения, то у китайских - хвалебные отзывы.
Давай еще скажи что китаезы не будут таким заниматься и даже картинками с результатами бенчмарков не манипулируют.
Аноним 24/04/26 Птн 04:39:30 #215 №1595923 
>>1595552
>>1595601
> Вывод: Grok поставил 5, Qwen поставил 5, Yandex поставил 5
Ой да ну хуйня же, Янку оценили все на 5 балов, но перевела она утенка как просто 'duck', в то время как всякие модели по больше перевели как duckling, что типа как бы.. ну именно утенок а не утка.
Вывод корполоботомиты хуй клали на оценку, лол. И увидели что русская модель перевела и заочно поставили зачетку.

>>1595609
>Q4
>f16
Ух, да ну не гони, это на пустом контексте, оно у тебя уже где-то после 20к контекста вообще наебнется до 2т/сек же, у тебя же оффлоад контекста в ОЗУ на плотной, магия что оно вообще у тебя с таким оффлоадом более сносно генерит токены, скок у тебя пропуская способность шины и у тя там че, ддр5?
Аноним 24/04/26 Птн 04:43:03 #216 №1595925 
>>1595923
>скок у тебя пропуская способность шины и у тя там че, ддр5
У него буквально на втором скрине проц и озу
Аноним 24/04/26 Птн 04:46:12 #217 №1595926 
>>1595421
>>1595447
>>1595371

Если тебе впадло что-то придумывать со скриптами, то что тебе мешает просто сделать PrintScr экрана где ты там чето играешь и скинуть это напрямую мультимодалке? Зачем себе усложняешь жизнь если даже такое у тебя уже вызывает приступ СДВГ или что там у тебя, не ориентируюсь.
Аноним 24/04/26 Птн 04:50:23 #218 №1595930 
>>1595820
А в чем смысл этого
>--batch-size 2048 --ubatch-size 1024
Если при фулвраме у тебя и так будет 1к+ процесинга
Поставил бы -b 512 и -ub 512, то мб и q8_0 мог бы поставить вместо q4_0
Аноним 24/04/26 Птн 05:09:56 #219 №1595932 
>>1595885
Дополнение.

Прогнал квен 3.6 по чистым кум-карточкам, но с изюминками и инструкциями. Не смотря на детерминизм, если не пытаться разыгрывать какой-то охуенный сюжет параллельно и не ударяться в свайпы, лучше юзать 3.6, нежели 3.5. Если используете для кума: смазки больше.

А вот "эмоциональный интеллект" прям проёбан сильно.

3.5 знает по своей сути то же самое, что и 3.6, не увидел в этом различий в рамках кума, но именно 3.6 без доп инструкций/с меньшим количеством двигает сцену в нужном направлении и уделяет телу персонажей и сексуальным взаимодействиям больше графического описания, как это бывает в случае слоповых тюнов. Однако, если направление не совпало с вашими ожиданиями, это уже ваши проблемы. Не будете же с хуём в одной руке, а в другой со смартфоном, переписывать текст, добавлять OOC или дёргать семплеры, а не стержень. А свайпы бесполезны. Ризонинг в 2100 токенов и 700 токенов на ответ вас тоже порадует, потому что этот ебанат натрия напишет чуть ли не фулл ответ в ризонинге, а затем скопипастит его снова. Или нет. Хотя в ризонинге был черновой вариант лучше, чем итоговый.

Надо как-нибудь новый 35б потестить, но, кажется, я его уже щупал и там было полное дерьмо. По крайней мере, старый 35б был хуже 26б геммы.
Аноним 24/04/26 Птн 05:23:03 #220 №1595936 
Запихнул Q3KM Gemma 31 на не фулврам с 32к q8, выдает 10тс после заполнения контекста. И модель даже что-то может. Лучше мистраля 3.2 и геммы 3. И намного лучше, чем Gemma 26b даже в Q8 кванте, что орига, что зерофата тюн
Аноним 24/04/26 Птн 05:23:50 #221 №1595937 
>>1595932
> этот ебанат натрия напишет чуть ли не фулл ответ в ризонинге, а затем скопипастит его снова

У меня гемма тоже так делает, длиннющщий драфт в ризонинге катает, потом его же уже без ризонинга.
Аноним 24/04/26 Птн 05:25:08 #222 №1595938 
>>1595937
Двачую. Гемма часто так делает, при этом ее ризонинг все равно почти всегда меньше Квеновского
Аноним 24/04/26 Птн 05:36:44 #223 №1595944 
Как в вкатиться в ии?
Я новенький.
Аноним 24/04/26 Птн 05:48:41 #224 №1595951 
>>1595944
А что тебе надо вообще для начала? Просто на буковы подрочить? Если да, то всё очень просто в твоем случае даже если у тебя 8-12 врам. А если есть 32 ОЗУ, то вообще в шоколаде, можешь довольствоваться вкусной МоЕ 26б от гуглов.
Аноним 24/04/26 Птн 05:52:30 #225 №1595952 
>>1595944
вон скачай модельку и запускай >>1595708
идет даже на тостере
Аноним 24/04/26 Птн 06:03:31 #226 №1595959 
https://huggingface.co/collections/deepseek-ai/deepseek-v4
Аноним 24/04/26 Птн 06:07:26 #227 №1595964 
image.png
>>1595959
Да-да, он не байтит. Дипсичок высрался. Вместе с 284b моделью
Аноним 24/04/26 Птн 06:07:49 #228 №1595965 
image.png
>>1595959
Да-да, он не байтит. Дипсичок высрался. Вместе с 284b моделью
Аноним 24/04/26 Птн 06:09:07 #229 №1595967 
image.png
>>1595965
Такая новость, что даже сосач перестал нормально работать
Аноним 24/04/26 Птн 06:11:38 #230 №1595970 
>>1595937
Если гемма так делает, значит ты где-то с промптами либо обосрался, либо намеренно так сделал.
Аноним 24/04/26 Птн 06:12:36 #231 №1595972 
>>1595965
>>1595964
>>1595959
> не 404
ебать
Аноним 24/04/26 Птн 06:21:16 #232 №1595978 
>>1595959
> DeepSeek-V4-Flash with 284B parameters (13B activated)
Пиздец, даже в 4 кванте на 64 раме не запустить с нормальной скоростью.
Аноним 24/04/26 Птн 06:21:44 #233 №1595979 
1.5T тут понятно, что даже местные пиздаболы риговцы не запустят, а вот флэшку 284b вполне себе. По цифоркам она как дипсик 3.2 примерно, что с одной стороны хорошо, а с другой новые модели надрачиваются на бенчи. И 13b тоже такое себе. С одной стороны быстро, а с другой мало
Аноним 24/04/26 Птн 06:24:40 #234 №1595980 
>>1595978
Какой в пизду 4 квант на 64 раме. Если самый нищий Q2 запустится и то будет праздник
Аноним 24/04/26 Птн 06:27:52 #235 №1595981 
>>1595980
В том-то и дело, только Q1 запускать.
Аноним 24/04/26 Птн 06:28:05 #236 №1595983 
Я посчитал на 24 64 запустится 2.2bpw
Следовательно база треда меняется - ниже 2bpw жизни нет
Аноним 24/04/26 Птн 06:42:09 #237 №1595986 
падажжи, а как же ENGRAM который должен был соввершить прорыв? или все забыли уже
в пейпере ничего нет...
Аноним 24/04/26 Птн 06:50:34 #238 №1595988 
>>1595842
Я только для кода использовал, 200к контекста q8, сама модель q6. Новый квен гораздо лучше 3.5 и даже 397.
Аноним 24/04/26 Птн 07:09:33 #239 №1595996 
>>1595959
Черти, вижен добавить зажали
Аноним 24/04/26 Птн 07:19:14 #240 №1595999 
>>1595986
Я около двух месяцев гонял 1М-контекстную веб версию. Она была дико быстрая и хорошо все помнила, думаю вся эта ENGRAM хуйня там есть и про нее просто не пиздят в описании для быдла. Научные работы отдельно выкладываются со всеми отчетами по R&D.
Аноним 24/04/26 Птн 07:21:29 #241 №1596001 
А где ггуфы-то...
Аноним 24/04/26 Птн 07:25:26 #242 №1596003 
> For the Think Max reasoning mode, we recommend setting the context window to at least 384K tokens.

Размышления по 100к+ токенов?
Аноним 24/04/26 Птн 07:26:30 #243 №1596004 
> Chat Template
> This release does not include a Jinja-format chat template. Instead, we provide a dedicated encoding folder with Python scripts and test cases demonstrating how to encode messages in OpenAI-compatible format into input strings for the model, and how to parse the model's text output. Please refer to the encoding folder for full documentation.

Вот это настораживает. Нигде работать нормально не будет что ли
Аноним 24/04/26 Птн 07:33:24 #244 №1596010 
>>1595980
Нищий q2 должен запуститься
Аноним 24/04/26 Птн 07:40:36 #245 №1596015 
>>1595980
>>1596010
Имеет ли вообще смысл q2. Это же будет тотальный слопогенератор
Аноним 24/04/26 Птн 07:43:15 #246 №1596017 
>>1596015
В целом нет, но свои ценители в треде обитают
Аноним 24/04/26 Птн 07:44:39 #247 №1596018 
>>1596004
Все равно на чатмл надо запускать
Аноним 24/04/26 Птн 07:45:05 #248 №1596019 
>>1596015
>>1596017
IQ2M глм4.7 (я не про равномерный лоботомитоквант, а тот где некоторые слои на q3 или даже q4) пишет рп-чатики на уровне q8 геммы 31б
Аноним 24/04/26 Птн 07:50:22 #249 №1596022 
image.png
Подохните, они тренили сразу в 8 кванте?
Т.е я смогу на 24+64 запустить 4 квант?
Аноним 24/04/26 Птн 07:50:47 #250 №1596023 
>>1595999
Так оно выкладывалось 3 месяца назад
https://github.com/deepseek-ai/Engram
Только в теперяшнем рилизе вообще ни слова
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/resolve/main/DeepSeek_V4.pdf?download=true
Посмотрите слои модельки кому не западло, я думаю не стали юзать просто напросто
Аноним 24/04/26 Птн 07:53:45 #251 №1596024 
>>1596022
>Подохните
💀💀💀
Аноним 24/04/26 Птн 07:55:02 #252 №1596025 
>>1596022
>Подохните
Нет, ты.
Аноним 24/04/26 Птн 07:55:03 #253 №1596026 
Вллм 0.20.0 релизнулся. По заметкам добавили турбоквант 2бит на кэш
Аноним 24/04/26 Птн 07:56:21 #254 №1596027 
200.gif
>>1596022
>Подохните
Аноним 24/04/26 Птн 08:03:59 #255 №1596033 
>>1596001
Ща 8 по мск, а на Западе вообще ночь. Дипсиковцы по китайскому времени релизнули. Все люди спят еще или только встали Ну кроме тех, кому дохуя ехать на работу или у кого ночная смена. Сосите, лохи
Аноним 24/04/26 Птн 08:09:36 #256 №1596036 
Так че архитектура та же или надо ждать пол года пока все фокус покусы добавят в ламу
Аноним 24/04/26 Птн 08:10:30 #257 №1596038 
image.png
Я правильно понимаю, что это один из тех случаев, когда Q4 ггуф будет весить столько же?
Аноним 24/04/26 Птн 08:12:49 #258 №1596039 
Гемма не прожила и месяца... Вот что бывает когда у тебя нет чем конкурировать и ты зажимаешь большую модель
Аноним 24/04/26 Птн 08:22:48 #259 №1596045 
>>1596036
Как она может быть той же, если тут миллион контекста жрет как раньше 64к контекста жрало (ну примерно)

явно ведь дохера поменялось
Аноним 24/04/26 Птн 08:26:45 #260 №1596049 
image
>DeepSeek-V4-Pro - 1.6Т
>DeepSeek-V4-Flash - 284B
Шизокитайцы продолжают "улучшать" модели раздуванием числа параметров, в то время как гугл просто взяли и выпустили умницу 26b-a4b которая по мозгам и соображалке трахает и Эйр и Квены последние. При этом летает в Q8 на любом калькуляторе. Думайте...
Аноним 24/04/26 Птн 08:28:55 #261 №1596051 
>>1596049
>умницу 26b-a4b
Ей бы побить хотя бы министраль...
Аноним 24/04/26 Птн 08:29:01 #262 №1596052 
image.png
>>1596049
>умницу
> которая по мозгам и соображалке трахает
Себя в очко, генерируя высеры на уровне ОДНИМ ПЛАВНЫМ ДВИЖЕНИЕМ ОНА НЕ ДОСТАЕТ СВОЙ ЛУК
Аноним 24/04/26 Птн 08:31:12 #263 №1596054 
>>1596052
И пишет про ганшоты в очевидном фентези средневековье лол
Аноним 24/04/26 Птн 08:35:03 #264 №1596056 
>>1596054
Просто это чёрные эльфы из чёрного района. У них ганшоты в крови.
Аноним 24/04/26 Птн 08:57:17 #265 №1596062 
>>1596052
у этого геммошиза уже пару лет одно оправдание - у тебя промпт просто не тот, однако я ни разу не видел его примера пряморукого промпта, так что там реально просто сидит манямирковый шизофреноид и срет в треды с упорством барана
Аноним 24/04/26 Птн 08:58:33 #266 №1596063 
>>1595959
Потестил немного Про, в РП жить можно. Явно лучше ГЛМ. По извращённости не дотягивает до Грока, но пишет складнее.
Аноним 24/04/26 Птн 09:04:51 #267 №1596067 
> In addition, beyond the MoE and sparse attention architecture, we will also proactively explore model sparsity along new dimensions — such as more sparse embedding modules (Cheng et al., 2026) — to further improve computational and memory efficiency without compromising capability.

Engram - в более поздних моделях. Тут нет.
Аноним 24/04/26 Птн 09:05:52 #268 №1596068 
>>1596067
Очевидный плюс в том, что лламацпп не будут пердолить полгода, чтобы ггуфы заработали. Хотя все равно наверняка доработки и фиксы нужны?
Аноним 24/04/26 Птн 09:18:05 #269 №1596082 
>>1596062
Ну к слову последняя gemma-4-31b вполне хорошей вышла. Раньше без аблитераций не работала, а с ними становились как мистраль. Теперь в своём размере лучшая.

А ещё распознавание изображений у неё самое лучшее, и тоже без цензуры.
Аноним 24/04/26 Птн 09:19:02 #270 №1596083 
>>1595959
https://www.youtube.com/watch?v=q2_YyuhS6Lg
Качаем!
>>1595904
> Квант от HauHauCS
> с его аблитерацией
Так квант или децензор?
> он safetensors вообще не выкладывает
Мдэ, это диагноз
Аноним 24/04/26 Птн 09:28:56 #271 №1596086 
Флеш на 93б меньше глм 358б, а его я в 1 кванте у батрухи запускал и плевался с лоботомии
Аноним 24/04/26 Птн 09:29:07 #272 №1596087 
>>1596082
Эта хуйня >>1596052 как раз через 31б получилась
Она умная, но красиво писать не умеет и у нее просто холодная логика, которая в любом творческом проявлении выглядит как нонсенс
Аноним 24/04/26 Птн 09:32:35 #273 №1596089 
>>1596087
>у нее просто холодная логика
>путается в двух предложениях
Вот вам и умница...
Аноним 24/04/26 Птн 09:33:56 #274 №1596093 
>>1596089
Ну так ошибок-то нет. Факт того, что лук не достали - указан. Только с точки зрения повествования это дикое, ебанутое утверждение, которое и так понятно, если чар просто даст пощечину.
Аноним 24/04/26 Птн 09:36:20 #275 №1596097 
>>1596068
> лламацпп не будут пердолить полгода
В первый раз?
> Модель в нативной низкий битности, без специальных мер там будет шмурдяк вместо квантов как в минимаксе
> Новый механизм атеншна
> Жинжа шаблон отсутствует как понятие, вместо него своя логика
Если к лету в какой-то рабочий вид приведут то это будет чудо.
Аноним 24/04/26 Птн 09:37:54 #276 №1596098 
>>1596097
Ну так для текст комплишна не нужна жижа, например.
Аноним 24/04/26 Птн 09:39:26 #277 №1596100 
>Жинжа шаблон отсутствует как понятие, вместо него своя логика
всё под контролем, г-н pwilkin уже консультируется с клодом по этому вопросу ;)
Аноним 24/04/26 Птн 09:45:49 #278 №1596101 
image.png
На HF обосрались
Аноним 24/04/26 Птн 09:47:32 #279 №1596105 
image.png
Кто-нибудь отучите их от кринжатуры в названиях
Аноним 24/04/26 Птн 09:48:53 #280 №1596106 
>>1596105
И что не так?
Аноним 24/04/26 Птн 09:53:38 #281 №1596108 
>>1596106
Почему бы просто не написать DeepSeek V4

Зачем эти ПРО МАКС говно, если у мелкой модели просто приписано -Flash и все сразу понятно?
Аноним 24/04/26 Птн 09:57:16 #282 №1596110 
>>1596108
У гемини та же хуйня с доп названиями.
Аноним 24/04/26 Птн 09:58:38 #283 №1596111 
>>1596110
>сосед насрал в штанину, надо и свои шаровары оподливить!
Идеальная логика
Аноним 24/04/26 Птн 10:06:20 #284 №1596115 
>>1595932
>в ризонинге был черновой вариант лучше, чем итоговый
О, узнаю геммочку.
>новый 35б
Я тестил. Мне не зашёл. Глуповат. Как и 26б/меормеро. Я уже привык к большим жирным членам плотняшам по-царски развалившихся во всю длинную врамы и грамотно соблюдающих инструкции и пишущие хороший текст.
Мелкомое ощущаются как глупые ояшки, которые всё время спешат, спотыкаются, падают и яметекудасают невпопад.
Аноним 24/04/26 Птн 10:06:48 #285 №1596116 
были какие-то первоначальные заявления насчет поддержки V4?
че везде такая тишина?
Аноним 24/04/26 Птн 10:07:18 #286 №1596117 
>>1596111
>почему у них сделано так?
>потому что у всех сделано так
>неее, ряяя
Квантованный, спок.
Аноним 24/04/26 Птн 10:08:52 #287 №1596118 
>>1596117
Если все начнут жрать говно, ты тоже им обмажешься?

Надо быть лоботомированным дебилом, чтобы не понять разницу между DeepSeek V4 и DeepSeek V4 Flash.
Аноним 24/04/26 Птн 10:11:11 #288 №1596119 
>>1596118
Ты просто долбоёб который рвётся с названия на которые всем нормальным людям похуй.
Аноним 24/04/26 Птн 10:13:01 #289 №1596121 
>>1596119
>нормальным людям
Осталось по паспорту переименоваться в Ivan Petrov Pro Max.
Аноним 24/04/26 Птн 10:13:50 #290 №1596122 
>>1596108
DeepSeek Project: Leviathan Series-4X Pro-Max-Ultra-Apex-(Genesis Founder's Edition)-|ЧРЕЗВЫЧАЙНО ОПАСЕН|-(НЕЙРОСЕТЕВОЙ МОНАРХ, МИФИЧЕСКИЙ)-unfiltered-unaligned-derestricted-NEO-imatrix.gguf
Аноним 24/04/26 Птн 10:17:06 #291 №1596124 
>>1596122
Ух, вот это бы еще затюнить до forgotten safeword NSFW unlimited sex и прогнать через heretic...
Аноним 24/04/26 Птн 10:22:46 #292 №1596130 
>>1596124
Чистые еретики, кстати, весьма неплохи.
Аноним 24/04/26 Птн 10:23:45 #293 №1596131 
Так 158B или 293B?
Я непонимат.
В 128RAM+12VRAM+16VRAM влезет в более-менее приемлемом кванте или нет?
Аноним 24/04/26 Птн 10:25:02 #294 №1596133 
>>1596131
Ну описание прочти, епта
> We present a preview version of DeepSeek-V4 series, including two strong Mixture-of-Experts (MoE) language models — DeepSeek-V4-Pro with 1.6T parameters (49B activated) and DeepSeek-V4-Flash with 284B parameters (13B activated) — both supporting a context length of one million tokens.

Размер 160 гигов, потому что по дефолту FP4 + FP8.
Кванты меньше размером будут только Q3 и ниже.
Аноним 24/04/26 Птн 10:29:54 #295 №1596135 
>>1596133
>160гигов
Так, ну теоретически, если я собираюсь с силами и наконец-таки таки втыкаю третьей v100-16, то у меня получается 128RAM+44VRAM (172гб суммарно) и DeepSeek V4-Flash дома (почти без места для контекста, блеать).
Аноним 24/04/26 Птн 10:31:05 #296 №1596136 
>>1596135
Там 10 гигов на 1 лям контекста надо.
Аноним 24/04/26 Птн 10:37:14 #297 №1596137 
>>1595930
Нету там таких скоростей. 400-300 токенов. Если подужатся плазму там отключит поставить батч сайз 512 или снизить контекст то q8_0 можно впихнуть. Скорость генерации 17 токенов на заполненном контексте.
Аноним 24/04/26 Птн 10:42:10 #298 №1596143 
Так а че, если у меня суммарно 128+48 памяти, я же могу прям щас запустить дипсреньк с какой-нить убабуги? Ну без ггуфа, голые .safetensors
Аноним 24/04/26 Птн 10:44:29 #299 №1596145 
>>1596143
Нет. safetensors ГПУ или ЦПУ онли, частичной выгрузки нет
Аноним 24/04/26 Птн 10:44:49 #300 №1596146 
>>1596145
Плохо зделоли, не одобряю.
Аноним 24/04/26 Птн 10:49:52 #301 №1596152 
Ого, писик 4. Вахта уже и ночью всё обсудить успела. Двачую что в лучшем случае к лету в лламу добавят, да и запустят даже лайт версию полтора землекопа итт.
Аноним 24/04/26 Птн 10:57:43 #302 №1596153 
>>1595100
>Qwen 3.6 27b - топовый программист
Ты его пробовал сам? Как он по сравнению с бесплатной гемини?
Аноним 24/04/26 Птн 10:58:18 #303 №1596154 
Mlx залупу уже начали лить. 8bit - 302 гб, столько же будет ггуф q8. Значит самый нищий q2 будет примерно 76-77гб. 16+64 в пролете, 24+64 могут трайнуть лоботомита
Аноним 24/04/26 Птн 11:01:43 #304 №1596157 
image.png
image.png
Не успели дипсик выпустить маленькую модель, как ебаные рамлеты пришли ныть, что маленьких моделей нет. Причем одни и те же карлики создают новые треды и топают ножкой.
Аноним 24/04/26 Птн 11:03:27 #305 №1596160 
>>1596157
Ну и заебись. Может наноют на дистил дипсик квенов. А не то они уже давно их не выпускали
Аноним 24/04/26 Птн 11:03:54 #306 №1596161 
>>1596108
Пчелозавр, это обычные маркетинговые штуки, уже давно во всех сферах. Производителю, поставщику услгу, кому угодно на рынке надо показать, что он самый лучший, самый охуевший, у него самый качественный товар, и даже больше. Вещи и услуги почти всегда несут не только функциональное название, но еще и упоминание того, чего в них вообще нет. Берешь масло в магазине, а на нем написано, что оно тепло и уют может производить, например.
Аноним 24/04/26 Птн 11:08:12 #307 №1596165 
image.png
Но не волнуйтесь, братцы, и на нашей улице будет праздник. Создатель Геммы 26b Дистил Жопуса обратил внимание на новый Дипсичок. Так что ждем Гемму 26b Дистил Жопус Дистил Дипсик Про Макс Супер Агрессив
Аноним 24/04/26 Птн 11:09:26 #308 №1596167 
>>1596165
Такие хуесосы просто вредят. Народ пробует "улучшенные" модели, думает какое же говно - значит "не улучшенные" еще хуже - и выкатывается из локального чатботства в пользу оплаты подписок
Аноним 24/04/26 Птн 11:10:38 #309 №1596169 
>>1596167
>Такие хуесосы просто вредят
Всё по плану говнокрыс.
Аноним 24/04/26 Птн 11:14:17 #310 №1596174 
>>1595959
Наконец то! Как же это охуенно, среднемоэшка от дипкока.
Это, блять, праздник какой то.
Аноним 24/04/26 Птн 11:14:27 #311 №1596175 
>>1596154
>16+64 в пролете

Запустится. В крайнем случаи можно в свободный слот планку гигабайт на 8 докинуть и все.
Аноним 24/04/26 Птн 11:15:59 #312 №1596179 
>>1596154
Зачем наворачивать моекал? Он же тупой.
Аноним 24/04/26 Птн 11:16:47 #313 №1596180 
>>1596154
>16+64
А ведь плашки до 128 стоили копейки. Кто успел того и модельки.
Аноним 24/04/26 Птн 11:17:40 #314 №1596181 
>>1596167
Меньше локального народу - дешевле рам.
Аноним 24/04/26 Птн 11:21:07 #315 №1596184 
>>1596180
Они и сейчас не так чтобы космических денег стоят. Кому это надо купят.
Аноним 24/04/26 Птн 11:24:28 #316 №1596187 
>ooc: I think we've reached a good stopping point for this session.

ТЫ КТО ТАКОЙ ЧТОБ ЭТО ДЕЛАТЬ???
Аноним 24/04/26 Птн 11:24:36 #317 №1596188 
>>1596180
Дура 5 и в лучшие времена стоила по 60к. А дура 4 не нужна
Аноним 24/04/26 Птн 11:25:08 #318 №1596189 
image
image
image
image
>>1596062 >>1595778 >>1595710 >>1595766 >>1595708

google_gemma-4-26B-A4B-it-Q8_0.gguf

Это победа, норм описания без потери мозгов.
Нужно было всёго лишь правильно попросить.

Мастер-импортом могу поделиться.

Аблитка новая впрочем качается, в 4 и в 8 кванте сразу, покрякаем-с.
Аноним 24/04/26 Птн 11:27:48 #319 №1596191 
>>1596189
И что должны значить эти скрины? Это текст, причём довольно простой.
Аноним 24/04/26 Птн 11:29:53 #320 №1596193 
>>1596189
>Это победа, норм описания без потери мозгов.
Ого, ты наконец-то смог скачать инстракт и не разъебать его аблитерациями и генерацией сида в ризонинге??? Достижение
>Мастер-импортом могу поделиться.
Иди нахуй, вниманиеблядь. Хотел бы поделиться мог бы сразу это сделать, впрочем тут в логах такое говно что может даже хорошо что не зашарил. Такой кринж еще поискать надо
Аноним 24/04/26 Птн 11:34:10 #321 №1596197 
>>1596188
По сравнению с тем что сейчас можно 2 плашки за 190к или 4 за 300 БЛЯТЬ тысяч, 60к это копейки.
Аноним 24/04/26 Птн 11:35:45 #322 №1596200 
>>1595096 (OP)
Анонсы, а не появилось еще локальных сеток, умеющих писать музон? Если нет, то есть ли какие-то специализированные модели, которые помогают это сделать? Ну хз, может там пошагово говорят че куда тыкать в программах для создания музыки. Или вообще сами, через какой-нибудь инструмент это делают.
Аноним 24/04/26 Птн 11:40:04 #323 №1596203 
image
>>1596191
Это то ради чего маньки выше качают "апасные" аблитерации, доступное просто если правильно попросить и без лоботомизации модели.
>>1596193
>генерацией сида в ризонинге
Да чего этот сид тебе сделал, за яйца укусил? Я не тот анон, и я сразу говорил что с сидом затея тухлая.
>мог бы сразу это сделать
Какой-то цундере-метод просить... держи:
https://pixeldrain.com/u/wJQTDBp1 google-gemma-4-26B-A4B-it.json
Аноним 24/04/26 Птн 11:41:17 #324 №1596204 
>>1596200
>локальных сеток, умеющих писать музон
ace-step, stable-audio, но это тебе в другой тред
Аноним 24/04/26 Птн 11:41:58 #325 №1596206 
>>1596200
Появились, вот например https://huggingface.co/ACE-Step/Ace-Step1.5 . Поищи в этом разделе тред по генеррации музыки или на форче посмотри, в этом треде мы текстовые модели крутим
Аноним 24/04/26 Птн 11:43:40 #326 №1596207 
>>1596200
Нейромузыка, которой просто заваливает ютуб не показатель, разве?
Начни с этого https://github.com/sdbds/ACE-Step-1.5-for-windows

>>1596206
Лол, мысли у бак сходятся.

>>1596189
>покрякаем
Я слежу за тобой, доппельгангер
Аноним 24/04/26 Птн 11:43:51 #327 №1596208 
спросите кто-нибудь у геммы и квена в чем смысл поста
```txt
You end up in a room with every single character card you've spent a considerable amount of time with.
How screwed are you and is does it look like a kindergaren?
```
интересно насколько они шарят за дарк ролеплей
Аноним 24/04/26 Птн 11:48:36 #328 №1596212 
>>1596203
>это то
>ради чего
>маньки выше
>доступное просто
Я не удивляюсь, что у тебя в аутпутах шизофренический текст. Ты и сам так же пишешь. Алсо ничего особенного не увидел, текст подобного уровня мистраль ещё год назад выдавала.
Аноним 24/04/26 Птн 11:48:55 #329 №1596213 
>>1596208
>How screwed are you and is does it look like a kindergaren?
Нет ну я понял о чем ты, но давай-ка лучше полируй до вменяемого английского
Аноним 24/04/26 Птн 11:48:56 #330 №1596214 
>>1596203
>Это то ради чего маньки выше качают "апасные" аблитерации, доступное просто если правильно попросить и без лоботомизации модели.
Уже давно все разобрались. Вернее даже разбираться не в чем. Никакой джейл не нужен, достаточно одной строки. Про рефузы срут один-двы лмстудио шиза, им твой пресет никак не поможет
>Да чего этот сид тебе сделал, за яйца укусил?
У меня неприязнь к геммашизикам и особенно вниманиеблядям
Аноним 24/04/26 Птн 11:50:10 #331 №1596216 
>>1596213
так это фича, авторская орфография
Аноним 24/04/26 Птн 11:57:29 #332 №1596220 
nuahuli.mp4
>>1596200
Аноним 24/04/26 Птн 11:59:03 #333 №1596223 
1777021142568.png
>>1596208
Сток гемма 31
Аноним 24/04/26 Птн 12:04:21 #334 №1596225 
1607566982774.jpg
>>1596223
дяяя, wholesome... cute and funny евпочя. ну насколько я помню старые гемини были столь же невинны.
в ту же копилку разные тесты типа интерпретации пикч аля пикрел
Аноним 24/04/26 Птн 12:09:09 #335 №1596230 
1777021750267.png
>>1596225
Аноним 24/04/26 Птн 12:11:59 #336 №1596231 
chat.png
>>1596208
Аналогичная херня. Геммочка чиста и непорочна!

>What's the meaning behind following prompt I found online?
```txt
You end up in a room with every single character card you've spent a considerable amount of time with.
How screwed are you and is does it look like a kindergaren?
```
Аноним 24/04/26 Птн 12:15:02 #337 №1596234 
>>1596098
Да, с чисто ролплей чатами тут проще. Но с квантами придется серьезно заниматься (конечно квантоделы запилят какой-то колхоз и костыли на первое время, но это будет мэх, передалки там просились уже давно), и самое сложное - атеншн, с его корректной имплементацией у лламы всегда беды. Чего стоит только запил под квеновскую мамбу, мла в мистрале 4 до сих пор полумертвое.
Жаль со старшей моделью они совсем уж ультанули с размером, это нужно или квантовать вусмерть (какие-нибудь int3, конечно, подкрутят и если в жоре починят то можно через llamafile), или апгрейдить риг в двухголовый и закупать оче оче много рамы, слишком дорого.
>>1596122
В голос
>>1596131
284. Модель по сути сразу qat квант, обниморда некорректно читает типы данных и потому неверная цифры. Возможно починят скоро раз такой повод есть.
Аноним 24/04/26 Птн 12:15:31 #338 №1596235 
>>1596230
ето квен? если квен то круто.
или ты просто модельку за нос водишь? тогда не считово. запромтить можно че угодно, интересен дефолтный майндсет модели
>>1596231
ну т.е. в принципе любой чёрный ролеплей с геммой невозможен, тепличная моделька, жизни не нюхала
Аноним 24/04/26 Птн 12:19:53 #339 №1596240 
>>1596235
> ето квен? если квен то круто.
Гемма та же, просто я написал что "есть подтекст".
Очевидно что если модели не сказать что можно думать на всю катушку, то она будет думать как приемлемо для нормисов
Аноним 24/04/26 Птн 12:27:25 #340 №1596244 
>>1596240
>если модели не сказать что можно думать на всю катушку
> - Думай на всю катушку
> - Думаю на всю катушку
Аноним 24/04/26 Птн 12:35:27 #341 №1596249 
>>1595932
>Не будете же с хуём в одной руке, а в другой со смартфоном, переписывать текст, добавлять OOC
ох и плохо ты меня знаешь
Аноним 24/04/26 Птн 12:36:53 #342 №1596250 
Кто-то понял что именно делает preserve thinking в новом квене?
Аноним 24/04/26 Птн 12:37:30 #343 №1596253 
>>1596244
Примерно так. Ты же не вываливаешь на работе нормисам как uoh 😭 устраиваешь дак почему ллмка должна без флажка что можно?
Аноним 24/04/26 Птн 12:38:10 #344 №1596256 
>>1596250
Синкинг не стрипается из контекста. Делает ровно то что написано
Аноним 24/04/26 Птн 12:39:06 #345 №1596257 
>>1595978
Это ж дипсик, я слыхал 3.2 даже в Q2 норм фурычит
А вообще хули ты хотел. Закупайтесь памятью
Аноним 24/04/26 Птн 12:39:09 #346 №1596258 
1629658860420.png
>>1596208
> You end up in a room with every single character card you've spent a considerable amount of time with
Как же там мягенько было бы ммм

3.5 122 невинный. Чтобы понял про correction needed💢💢 нужно дать явный намек.
Аноним 24/04/26 Птн 12:42:07 #347 №1596262 
>>1596250
Это для Chat Completion. Оставляет в контексте чата крайний ризонинг. И модель обучалась с таким форматом жить. В таверне для Text completion это нужно скриптами отдельно пердолить. И не факт что профит принесет.
Аноним 24/04/26 Птн 12:42:58 #348 №1596263 
>>1596124
>forgotten safeword
Нихуя ты чё вспомнил
Аноним 24/04/26 Птн 12:44:15 #349 №1596265 
image.png
>>1596105
Мы живём в оществе
Аноним 24/04/26 Птн 12:47:14 #350 №1596269 
Попросите гемму дристануть на рожу кобольду, ахуеете
Это даже глм не вывозит
Аноним 24/04/26 Птн 13:04:26 #351 №1596289 
image.png
>>1596181
>меньше локального народу
>больше рам
>они уходят к корпам
>у корпов возрастает нагрузка
>они расширяются, скупая рам по дешёвым круцпным контрактам прямо с выхода завода
you can't win
Аноним 24/04/26 Птн 13:04:42 #352 №1596290 
image.png
> Special system prompt
Промптом они, конечно же, не поделились.
Зачем блядь тогда вообще разделять на какое-то там МАКС или не МАКС ризонинг.
Аноним 24/04/26 Птн 13:10:35 #353 №1596294 
Богомерзкий англюсик:
>her teeth clenched tight
Солнцеликий русик:
>зубы сжаты в кулаки

Всё что нужно знать.
Аноним 24/04/26 Птн 13:10:37 #354 №1596295 
dolphins.jpg
>>1596225
Можно ещё на картинках. Дал запрос, типа "ты модератор детского сайта".

Вот твою у меня ни одна моделька не выкупила, детям можно!

Пикрел Gemma 4 27B, Mistral Small 3.2, Qwen 3.6 35B заблочили. Gemma E4B - пропустила.
Аноним 24/04/26 Птн 13:11:01 #355 №1596296 
image.png
1752009918612.gif
>>1596240
очевидно, невероятно, однако некоторым моделям такие костыли не нужны. просто хочется чтобы и локалочки были в теме
а работать будет конечно, но по мере заполнения контекста возьмёт и перестанет, тест же показывает тенденции модели к которым она стремится.
>>1596258
эээх, так они тест тюринга никогда не пройдут.
Аноним 24/04/26 Птн 13:12:00 #356 №1596297 
>>1596253
Я к тому, что модельки обычно продолжают все ту же самую хуйню писать, просто с привкусом "непотребства". Особенно современные модельки любят обходить все эти темы вокруг, но не касаться их явно.
Аноним 24/04/26 Птн 13:17:20 #357 №1596300 
изображение.png
>>1596257
В планах есть
Аноним 24/04/26 Птн 13:17:56 #358 №1596301 
>>1596300
это сюда >>1595996
Аноним 24/04/26 Птн 13:21:25 #359 №1596303 
>>1596296
> костыли
Промпт, который описывает базовое поведение модели - не костыль, а ее основе мировосприятия и ценностей. Если дать намек, указать про подтекст или место откуда эта шутка - выкупает даже в безопасном режиме. Если стоит соответствующая личность то будет склоняться к этому сразу.
> тест же показывает тенденции модели к которым она стремится
Это показывает ее дефолтное поведение а не тенденции. Тенденции будут если модель не может с него переключиться по простым вводным.
Вообще, довольно необычно если модель по дефолту без промптов и прочего фокусируется сразу на негативном варианте.
> по мере заполнения контекста возьмёт и перестанет
Мы не в 23-24м году сейчас.
Аноним 24/04/26 Птн 13:23:23 #360 №1596305 
1733218680582.jpg
>>1596295
на твоей ещё постараться надо дельфинчиков разглядеть
ну и надо конечно не забывать что связи между модальностями очень уж условные, зрение в модельки прибито гвоздями
Аноним 24/04/26 Птн 13:26:45 #361 №1596308 
nut.png
>>1596305
Некоторые модели находят в этом сексуальный подтекст, но полностью смысл ни одна модель не поняла. Думаю и в этом треде поймут не только лишь все.
Аноним 24/04/26 Птн 13:28:22 #362 №1596310 
>>1596308
> пик
Дед, союз распался, ты как тут оказался то?
Аноним 24/04/26 Птн 13:31:31 #363 №1596316 
15379634769980.jpg
>>1596303
> Мы не в 23-24м году сейчас
тогда почему кто-то в 2026 должен промптить модель на common sense?
Аноним 24/04/26 Птн 13:35:10 #364 №1596320 
>>1596316
Для общества ты девиант, если хочешь девиантного поведения - укажи это. В промпте, в чате, хоть где-нибудь. А ты почему-то ждешь что популярный продукт для всех сделают таким, чтобы он по умолчанию вел себя как тебе нравится.
Аноним 24/04/26 Птн 13:41:05 #365 №1596325 
>>1596320
так я наоборот не хочу девиантного поведения (потому что тогда моделька включит реддит мод).
модель либо имеет представление о настоящем положении дел, либо не имеет, а остальное уже ментальная гимнастика.
Аноним 24/04/26 Птн 13:50:21 #366 №1596333 
image.png
image.png
image.png
image.png
>>1596305
Квен и Гемма отказали.
Французик самый наивный а по его текстам и не скажешь. Хотя вроде засомневался.
Опасный Квен - намёк выкупил, но всё равно пропустил. Пусть детишки приобщаются.
Аноним 24/04/26 Птн 13:51:12 #367 №1596334 
image
image
image
image
Криповый GLM 4.7

А также у него похоже тоже геммапроблемы со свайпами.
Аноним 24/04/26 Птн 13:53:12 #368 №1596338 
>>1596334
ран бич ран
Аноним 24/04/26 Птн 13:53:12 #369 №1596339 
IMG5049.jpeg
>>1596334
Аноним 24/04/26 Птн 13:53:19 #370 №1596340 
>>1596333
а теперь спроси... а кокую именно часть тела изображает рисунок?
получишь ответ жопа
Аноним 24/04/26 Птн 14:05:23 #371 №1596353 
>>1596325
Ну, не прямо уж девиантного, просто подобные вопросы без контекста имеют несколько "правильных" ответов. То что модель выбрала сейфовую ветвь - не значит что она не понимает, просто про альтернативные значения не говориь потому что по дефолту такое считается дичью. Спросить про все значения, дать намек на подтекст, происхождение, изначально снять все моральные лимиты - и будет делать.
Это как токарный станок, можно долго ныть что он ничего не может, тогда как просто нужно переключить рычаг подач или заменить шестерни в гитаре/переключить делители.
Хочешь посмотреть на настоящие жесткие байасы - спроси клодыню про uohhh, всякие курсед мемы, или дай намек на безобидную шутку про евреев. Особенно жестко это проявляется если ставить ей задачи давать оценки текстам с подобным содержимым. Сколько не говори про правила, допустимость и прочее - херня лезет сквозь все, только ломать через жб.
>>1596334
Вызывайте экзорциста!
Аноним 24/04/26 Птн 14:06:22 #372 №1596355 
image.png
image.png
image.png
image.png
>>1596308
Вот такое мы единогласно одобряем! Это то, что детям надо!
Аноним 24/04/26 Птн 14:08:51 #373 №1596356 
>>1596355
Это квен bf16?
Аноним 24/04/26 Птн 14:10:42 #374 №1596360 
>>1596334
Скилисуе. У тебя там блять шаблон неправильный или iq1xxxxxxxxxxxxxxxxxs квант?
Аноним 24/04/26 Птн 14:12:47 #375 №1596364 
Я правильно понимаю, что поддержка дипсреньк в4 не будет запилена и про эту модель лучше забыть?
Аноним 24/04/26 Птн 14:13:50 #376 №1596368 
>>1596355
Ну если без шуток то да? Будто они не находят это в интернете или в своих чатах. Да хуй с ним с современностью, будто дети тысячи лет не знали чем занимаются их родители в одном с ними помещении без комнат. И почему то вырастали нормальными и заводили детей.
Зато сейчас "в развитых" странах устроили педоистерию и запреты на информацию для детей под предлогом их защиты, а потом дети вырастают в взрослых без адекватного представления что такое семья и секс.
И почему то резко падает количество детей и семей у таких детей.
пикча удивленного пикачу.пнг
Аноним 24/04/26 Птн 14:14:04 #377 №1596369 
>>1596364
Будет, но кернели для sm80 и sm89 пока в очереди. Если счастливый обладатель хоппера или блеквелла - уже можешь катать.
Аноним 24/04/26 Птн 14:15:13 #378 №1596370 
>>1596369
>Будет
Откуда такая уверенность? Где вообще эти супермозги обсуждают, что там можно и что нельзя сделать с llamacpp?
Аноним 24/04/26 Птн 14:16:16 #379 №1596372 
>>1596369
Але, это что за дисриминация, а sm70 где?
Аноним 24/04/26 Птн 14:16:45 #380 №1596373 
>>1596356
Который обычный - Q8
АГРЕССИВНЫЙ - Q4_K_P, какие-то якобы улучшенные тренированные кранты от хаухаукс.
Аноним 24/04/26 Птн 14:21:18 #381 №1596377 
>>1596370
> с llamacpp
А, ты про нее. Ну тогда однозначно будет, просто не сразу. Модель популярная и хайп собирает, так что рано или поздно сделают. Вон в ишьюсах уже реквесты весят, скоро скооперируются и потихоньку начнут пилить.
Но нововведений там много, поэтому надейся на лучшее а готовься к худшему, может затянуться на недели-месяцы.
Надо сказать что тут серьезный стимул сделать и большой спрос, так что может самую первую версию выкатят уже сегодня, как раз что-то притихли. Но разгребать и делать чтобы работало хорошо придется еще долго.
>>1596372
Увы, для нее поддержка даже имеющихся моделей чисто номинальная и сильно ограничена.
Аноним 24/04/26 Птн 14:22:43 #382 №1596380 
17712669286070033736.png
>>1596355
справедливости ради в карикатурах грань и правда тонка, я бы пустил (инб4 ты бы и собаку)

>>1596353
спрашивал, известное дело, у моделей есть аттракторы в которые они падают когад задеваешь неудобное
моя посыл был про то что в целом миропонимание моделей настолько шатко, рассыпается если чихнуть. что уж удивляться слопу, это единственное что они по настоящему знают
Аноним 24/04/26 Птн 14:24:22 #383 №1596381 
>>1596377
>А, ты про нее.
Ну а про что еще? Transformers? Я видел ИТТ писали, что типа такую модель в виде .safetensors пихают либо полностью в VRAM, либо полностью в RAM. Неужели там правда разделить нельзя
Аноним 24/04/26 Птн 14:28:53 #384 №1596385 
>>1596373
Возьми максимальный размер и попробуй снова. Всякие вижул детекты очень сильно страдают от квантизации.
Аноним 24/04/26 Птн 14:41:32 #385 №1596388 
С сожалением вынужден констатировать, что в треде одни шизики. О чём говорите? Там Дипсик уже выложили, про и флэш. Уже и кванты есть - для любителей яблок, но тем не менее.
Аноним 24/04/26 Птн 14:44:16 #386 №1596390 
water.jpg
image.png
image.png
>>1596368
> Будто они не находят это в интернете или в своих чатах.
Да это понятно. Просто чёт проорал с того, что модельки именно одобряют и говорят "давай ещё".

Тем временем, большая грудь - харам!
Аноним 24/04/26 Птн 14:44:43 #387 №1596392 
image.png
>>1596388
>С сожалением вынужден констатировать, что в треде одни шизики.
Аноним 24/04/26 Птн 14:46:29 #388 №1596394 
>>1596392
терпишь
Аноним 24/04/26 Птн 14:47:02 #389 №1596395 
>>1596381
vllm, exllama, sglang, ktransformers
> разделить нельзя
Можно, но сложно. Llamacpp изначально строилась со своей внутренней математиклй и не завязана на бэкенды типа торчей, чистый линал. Утрируя, это позволяет ее собирать любым компилятором под любое устройство, или сразу под два и делить выполнение, что собственно и реализовано. Но это же один из главных ее минусов - вместо использования готового кода приходится каждый раз изобретать велосипед и городить все больше костылей. Потому много багов и работает не так быстро как могло бы. Отдельная тема - кванты, если в эпоху первой-второй лламы шло активное развитие и введение актуальных методов, то потом надолго притихло и уже как пару лет требует ревизии. Технически, llamacpp может без проблем запускать оригинальные веса с hf, но загрузку не сделали из-за драмы.

Эффективно делить можно в ktransformers, по сути это форк sglang с отдельными цп кернелями и внедрением стыковки. Поскольку проект сосредоточен на конкретных вещах не пытаясь охватить все, а самые тяжелые для расчетов части (атеншн) и движок взят готовый, производительный и отполированный - оно работает и заметно быстрее, и без багов. Есть минусы в виде немного больших требований к рам.
>>1596388
> Уже и кванты есть
Он с завода квантован, чи шо. Эти "кванты" больше оригинала весят.
Аноним 24/04/26 Птн 14:47:38 #390 №1596396 
>>1596388
не хочу быть бетатестером вашей хуйни
Аноним 24/04/26 Птн 14:53:12 #391 №1596399 
>>1596395
Я просто пытаюсь вдуплить, будет ли на чем запустить V4 Flash кроме llamacpp, если я мимокрок с 11й виндой, 128гб оперативки и 48гб видеопамяти.

Ставить линупс не хочу, для меня это неудобно.
Аноним 24/04/26 Птн 14:53:45 #392 №1596401 
Расскажите, пожалуйста, че не так с lmstudio? Запускал через неё, потому что я хлебушек, а в треде про неё так говорят, что там говняк какой-то
Аноним 24/04/26 Птн 14:54:23 #393 №1596402 
valera.jpg
>>1596388
>О чём говорите? Там Дипсик уже выложили, про и флэш.
> 284B
> 1.6T

Тебе уебать?
Аноним 24/04/26 Птн 14:55:51 #394 №1596403 
>>1596401
Тут дивавнный илитизм пердоль командной строки. Они считают, что любой инструмент с графическим интерфейсом - это проявление дурного вкуса. Забей и не вступай с ними в дискуссии, они все равно нацелены только на метание какашек.

Из явных минусов студии - в ней нет ручного тензорсплита (распределять модельки на несколько видеокарт), и когда модель вся косоеблая и перекошенная - автоматический сплит работает плохо (а такое бывает часто, например когда KV-кэш весь лезет в одну видеокарту).
Аноним 24/04/26 Птн 15:00:47 #395 №1596404 
>>1596399
ktransformers под wsl если только. И то могут быть сложности из-за рам и запил полной поддержки там займет время. Лучше следи за https://github.com/ggml-org/llama.cpp/issues/22319
>>1596401
Это та же самая llamacpp в бэке, но с задержкой обновлений, неудобствами с выбором своего кванта и модели, неудобствами или невозможностью установки определенных параметров, которые позволяют добиться быстрой работы, закрытым исходным кодом, который подозрительно обфусцирован и доказано отправляет данные им на сервера.
Зато есть красивый интерфейс и удобный указатель какая модель подойдет в фуллврам для новичков.
Аноним 24/04/26 Птн 15:02:11 #396 №1596406 
>>1596404
>неудобствами с выбором своего кванта и модели
Зачем ты врешь? Скачать кванты через студию легче всего.
>доказано отправляет данные им на сервера.
Неси доказательства.
Аноним 24/04/26 Птн 15:04:20 #397 №1596408 
>>1596406
Мотай последние треды, там есть по обоим вопросам. Что-то делать ради лмстудиосектанта - зашкварно.
Аноним 24/04/26 Птн 15:05:20 #398 №1596409 
>>1596404
>манядоказательства шизопопиков из треда
Ок, я тебя понял - доказательств нет.
Аноним 24/04/26 Птн 15:23:02 #399 №1596426 
>>1596388
Жду q2 кванта чтобы погонять.
Аноним 24/04/26 Птн 15:26:20 #400 №1596430 
image.png
все щас на соевом западе дипсик отменят и забанят с HF
Аноним 24/04/26 Птн 15:26:44 #401 №1596433 
>>1596406
>Неси доказательства.
Все уже давно разжевано и рассказано. Хочешь верить, что черное - это белое, пожалуйста. Всем похуй, что ты сливаешь данные кому надо и сидишь на интерфейсе, ограничивающем твои возможности настройки инференса.
Аноним 24/04/26 Птн 15:27:00 #402 №1596434 
>>1596409
Пользуйся на здоровье, не в чем себе не отказывай. А я уж так и быть на лламаспп погоняю, просто так без причины
Аноним 24/04/26 Птн 15:28:09 #403 №1596436 
>>1596430
Новый король опасныхтм моделей?
Аноним 24/04/26 Птн 15:28:14 #404 №1596437 
>>1596388

Будет ггуф - будем обсуждать
Аноним 24/04/26 Птн 15:28:15 #405 №1596438 
>>1596433
Дурик, ты понимаешь что ты ебанутый? Если ты такой параноик - запрещаешь на сервере связь лмстудии с интернетом, а обновления ставишь вручную без кнопочки чек фор апдейтс.
Аноним 24/04/26 Птн 15:29:00 #406 №1596439 
>>1596438
Местные искперды о правилах фаерволла не слышали.
Аноним 24/04/26 Птн 15:30:30 #407 №1596442 
>>1596388
Ну и где твой отчет по нему, шизодав?
Аноним 24/04/26 Птн 15:31:19 #408 №1596443 
1758860582679614.png
Аноним 24/04/26 Птн 15:31:43 #409 №1596444 
>>1596438
>а обновления ставишь вручную без кнопочки чек фор апдейтс.
Установкой-переустановкой клиента, что гораздо дольше чем заново скачать того же кобольда или лламу. Еще и отключаешь себе возможность качать кванты через вашу однокнопочную помойку, литералли вырезаешь половину фич. Кто из нас ебанутый-то? В голос.
Аноним 24/04/26 Птн 15:32:35 #410 №1596445 
>>1596438
>Если ты такой параноик - запрещаешь на сервере связь лмстудии с интернетом, а обновления ставишь вручную без кнопочки чек фор апдейтс.

Так а в чем "легкость и доступность" лмстудии тогда если приходится таким заниматься?
Аноним 24/04/26 Птн 15:33:31 #411 №1596446 
>>1596444
>>1596445
Жесть 1-битные в треде.

Это ВЫ параноики и вам таким надо заниматься, чтобы небезопасная (по вашему мнению) студия стала безопасной.
Аноним 24/04/26 Птн 15:35:01 #412 №1596447 
image.png
>>1596443
эт че такое
Аноним 24/04/26 Птн 15:35:29 #413 №1596449 
>>1596446
Не, мне таким не надо заниматься. У меня все замечательно работает на адекватном софте, с которым гораздо меньше пердолинга, чем с лмстудией. Ты что сказать-то хотел, или тебе энергию девать некуда и ты "рейджбейтишь" тупостью?
Дожили, зумеры на дваче рекламируют проприетарную хуету. Имиджборды, 2к26, итоги.
Аноним 24/04/26 Птн 15:35:46 #414 №1596450 
>>1596447
А мышь с затычкой в жопе тебя не смутила?
Шизосрач Аноним 24/04/26 Птн 15:35:57 #415 №1596451 
Раз вы уже решились воевать из-за Лм-Студии, поясните, куда с него слазить? Сдается мне, что Студия криво садит модели в себя (это просто интуитивное прозрение, не более). Смотрю в сторону Кобольда.

Каково мнение русских тредеров по этому вопросу?
Аноним 24/04/26 Птн 15:36:23 #416 №1596452 
>>1596449
>проприетарную хуету
Мань у тебя 90% софта не опенсорснутое.
Аноним 24/04/26 Птн 15:37:38 #417 №1596453 
>>1596446
>вам таким надо заниматься
Мне не надо, лол, я вашей spyware палкой не касаюсь, я просто написал с помощью чат гопоты 2 батника для жоры - один подтягивает обновления и билдит, второй запрашивает модель для запуска и основные параметры типа контекста, потом запускает сервер. Всё, так этими батниками уже год пользуюсь с минимальными изменениями.
Аноним 24/04/26 Птн 15:37:55 #418 №1596454 
>>1596451
Собирай любой стек какой хочешь, всё равно обосрут
Аноним 24/04/26 Птн 15:39:52 #419 №1596455 
>>1596452
Обожаю итт экстрасенсов, которые знают: какие у тебя промпты, что у тебя в чатах, какой инференс ты используешь, какой фронт, на каком железе сидишь, на какой ос, через какой браузер капчуешь, какой софт установлен. Сверхмозги, не иначе.
Аноним 24/04/26 Птн 15:41:57 #420 №1596458 
>>1596451
Кобольд неплох для новичков, с консолькой не надо трахаться(хотя можно, если есть желание) - там можно одну кнопку autofit нажать в интерфейсе и он все сделает. Главное выключай контекст шифт - эта хуйня устарела еще в 2023, хз чего разраб кобольда её по умолчанию включенной держит.
Аноним 24/04/26 Птн 15:42:34 #421 №1596460 
kek.jpg
Три карлика додика со всего мира модель скачали.
Аноним 24/04/26 Птн 15:43:00 #422 №1596461 
>>1596455
Бля ну давай расскажи как ты на телефоне не ставишь приложухи банков и прочие калоуслуги. Вот такие пиздеть горазды и в грудь себя бьют как они ненавидят все закрытое, а неделе сидят с 10 зондами в жопе.

А вся тема что вот вдруг
> злой америкос прочтет мои тошнотворные РП-чаты
это вообще капля в море по сравнению с тем, как твой каждый пердеж занюхивается и отправляется куда следует вовсе не за океан, как только ты накатываешь такую удобную приложуху от хуяндекса для вызова такси-шмакси
Аноним 24/04/26 Птн 15:43:26 #423 №1596463 
>>1596461
> а неделе сидят
а на деле*
Аноним 24/04/26 Птн 15:45:07 #424 №1596464 
image
>>1596460
А зачем базовая кому-то?
Аноним 24/04/26 Птн 15:45:21 #425 №1596466 
>>1596460
Это базовая модель. Их и не скачивают кто попало.
Аноним 24/04/26 Птн 15:45:50 #426 №1596467 
>>1596461
Не буду кормить тебя больше. Хочешь сам себе анальный зонд интегрировать, добровольно - останавливать не буду. Не забудь запостить логи отыгрыша у себя на страничке ВК, итак ведь всё видно.
Аноним 24/04/26 Птн 15:46:00 #427 №1596468 
>>1596461
>на телефоне
>удобную приложуху от хуяндекса
У тебя методичка под другой юзкейс.
Аноним 24/04/26 Птн 15:47:33 #428 №1596472 
>>1596447
Кобольд
Аноним 24/04/26 Птн 15:48:34 #429 №1596473 
>>1596468
>>1596467
О а вот и начали отмазываться, нещитово и это другое. Ага конечно. У вас банальная мания. Ограждаются железной стеной с одной стороны, оставляя дырявую жопу. Поди еще и подключены к какому-нибудь умному дому с камерами, за которыми следит консьерж Ашот на 1 этаже.

>>1596472
Проиграл
Аноним 24/04/26 Птн 15:53:32 #430 №1596481 
классная тактика ведения дискуссии, сам придумал всё за оппонента, сам его обоссал не дожидаясь ответа
Аноним 24/04/26 Птн 15:54:04 #431 №1596482 
>>1596481
Классика, хуле
Аноним 24/04/26 Птн 16:01:38 #432 №1596487 
image
>>1596473
Я другой анон. На пекарне из проприетарщины только дрова нвидии, всё. На мобилке полно клозд-сорс приложух, могут шпионить сколько влезет, ничего влажного там не держу и не делаю. Мне мобилка для того и нужна чтоб на улице яндекс-такси вызвать. А комп для всего остального.
Аноним 24/04/26 Птн 16:02:01 #433 №1596488 
>>1596451
Llama.cpp сейчас самостоятельно справляется с фронтендом, уровень лучше, чем у ollama. Да, нужно чт-то писать в терминале, но это не так уж сложно
llama-server -m model.gguf
Потом идти в браузер и открывать там http://localhost:8080 радоваться интерфейсу на уровне LM Studio, если не выше.
Аноним 24/04/26 Птн 16:12:30 #434 №1596495 
>>1596451
Unsloth Studio юзай, там хотя бы веб поиск искаропки работает и интерфейс нормальный. А еще это быстрый бэкенд и работает быстрее кал студии. Пусть красноглазики сами ебуться в дупы
Аноним 24/04/26 Птн 16:13:43 #435 №1596497 
>говорит она мягким, но твердым тоном

Через столько лет? Всегда!
Аноним 24/04/26 Птн 16:18:56 #436 №1596502 
>>1596497
>Она хотела это сказать, но не стала. Всместо этого она протянула свою руку к твоей джаулайн
Аноним 24/04/26 Птн 16:22:52 #437 №1596503 
>>1596502
Трепи за щеки
@
гладь подбородки
@
вдыхай запах озона
Аноним 24/04/26 Птн 16:29:46 #438 №1596510 
image (19).png
Вкатился в тред.
Сейчас на ютубчике услышал про новую гемму. Она правда на уровне GPT-4 и при этом идет даже на телефоне?
Раньше помню локальные ЛЛМ практически неюзабельные были и при этом требовали мощных видюх
Аноним 24/04/26 Птн 16:33:01 #439 №1596514 
>>1596401
Всё с ней так. Но, на ней модельки медленнее работают. Параноики шизы параноят. И самое главное, тут в треде сидят дегенераты элитисты. Их не много, но они громкие и воняют.
Запомни анон: пользуйся тем что тебе комфортно, сиди на том -на чём тебе удобно и используй ту модлельку, выдача которой тебе нравится и ты можешь её катать. Всио.
Я начинал с кобольта, потом пересел на лламу, потмоу что ебово: можно быть крутым ллама сисиспи погромистом, писать замому флаги запуска, полностью контролируя. Зачем? Хочу я так, блять.
Аноним 24/04/26 Птн 16:33:15 #440 №1596515 
>>1596510
Правда, только 31б версия. Получишь 7 т/с на железе типа пикрил >>1595609
Аноним 24/04/26 Птн 16:33:17 #441 №1596516 
image.png
Сидят, готовятся по-тихому...

>>1596510
Если тебя такое не парит, то да, геммочка супер >>1596052
Аноним 24/04/26 Птн 16:36:57 #442 №1596521 
>>1596510
Если у тебя есть 32гб оперативы + 16гб видеопамяти, ты можешь запускать Гемму 26б в практически полных весах (Q8) и с хорошим количеством контекста. Да, чуть похуже Геммы 31б и больших локалок, но незначительно. Гораздо круче всего того, что было доступно год или полтора назад.
Аноним 24/04/26 Птн 16:48:13 #443 №1596531 
>>1596515
>Правда, только 31б версия
>>1596521
>Если у тебя есть 32гб оперативы + 16гб видеопамяти, ты можешь запускать Гемму 26б в практически полных весах (Q8)
А если у меня 3гига оперативы, но 3060ti с 8 гигами памяти, то не стоит пробовать?

E2B и E4B совсем плохи?
Аноним 24/04/26 Птн 16:48:46 #444 №1596532 
>>1596510
>при этом идет даже на телефоне
Кстати а для телефонов есть софт чтобы модельки запускать локально на них? Под андроид наверняка что-то есть. А условный айфон или айпад может что-нибудь потянуть?
Аноним 24/04/26 Птн 16:49:24 #445 №1596534 
Как в llama-server, том где веб интерфейс, можно сделать папки для чатов отдельно, например разделить хотя бы модели что запускаю или кванты? Все диалоги в одной куче пиздец. Неужели вайбкодить свои микрописьки и расширения придется?
Аноним 24/04/26 Птн 16:50:02 #446 №1596535 
>>1596531
чел... как у тебя браузер вообще открывается
Аноним 24/04/26 Птн 16:52:08 #447 №1596536 
>>1596531
>3гига
Это троллинг? У нас тут эталонный врамлет походу.
Аноним 24/04/26 Птн 16:52:13 #448 №1596537 
>3гига оперативы
>>1596531
>>1596531
Блин, только сейчас увидел.
Не 3, а 32гига
Аноним 24/04/26 Птн 16:53:30 #449 №1596539 
>>1596537
Чмоешки влезут. Гемма 4 26б, квен 3.6 35б.
Аноним 24/04/26 Птн 16:54:23 #450 №1596541 
>>1596531
>>1596537
32+8 можно попробовать. Взять Q6-Q8 квант, с где-нибудь 32к контекста наверно влезет. https://huggingface.co/google/gemma-4-26B-A4B-it
Аноним 24/04/26 Птн 16:55:22 #451 №1596543 
>>1596515
А как гемма 31 в хентае-то?
Покажите какой-нибудь готовый текст, не важно, "норм" по Вашему мнению или нет.
Аноним 24/04/26 Птн 16:56:52 #452 №1596546 
>>1596543
Давай картинку и сеттинг к ней. Без 😭!
Аноним 24/04/26 Птн 17:03:13 #453 №1596549 
>>1596531
>А если у меня 3гига оперативы, но 3060ti с 8 гигами памяти, то не стоит пробовать?
у меня 32 + 6 (ноутпук), вся клавиатура в сперме на q4km

если хочешь убедиться, готов впустить тебя в свою хату, но с условием что ты придешь в костюме горничной и почистишь своим язычком мою клавиатуру
Аноним 24/04/26 Птн 17:06:25 #454 №1596553 
А кто-нибудь делал эксперименты по созданию карточки по профилю реального человека? Ну, чаты там, факты из жизни и все такое.
Аноним 24/04/26 Птн 17:07:02 #455 №1596554 
>>1596553
Нахуй надо.
Аноним 24/04/26 Птн 17:07:15 #456 №1596555 
>>1596553
>>1596554
Я имею в виду, удавалось ли вызвать ощущение, что с тобой говорит тот самый человек? Или прям совсем 0 реакции?
Аноним 24/04/26 Птн 17:08:16 #457 №1596558 
>>1596555
Нахуй надо.
Аноним 24/04/26 Птн 17:08:52 #458 №1596561 
>>1596403
>Тут дивавнный илитизм пердоль командной строки.
Кобольд тут не засирают, хотя это такая же гуевая обёртка вокруг лламы.цп.
>>1596439
Щас бы запускать вирусняк на сервере, надеясь на файрволл.
Аноним 24/04/26 Птн 17:09:27 #459 №1596562 
>>1596558
Сестренка, мы уже поняли, что у тебя недоёб...
>>1596561
>Кобольд тут не засирают,
Засирают и еще людей обижают, называют тупыми кобольдами
Аноним 24/04/26 Птн 17:09:31 #460 №1596563 
8.webp
>>1596546
держи, брат
Аноним 24/04/26 Птн 17:11:57 #461 №1596568 
>>1596562
Потому что на кобольде сидят либо линуксоиды, которым лень собирать из исходников ламу по кд, либо тупые кобольды-хлебушки.
Аноним 24/04/26 Птн 17:12:30 #462 №1596569 
>>1596562
>Засирают
Нет.
Аноним 24/04/26 Птн 17:18:34 #463 №1596574 
>>1596543
На русском. Карточка - любая на твоё усмотрение.
Важен сам акт и манера его описания. Пожалуйста.
Аноним 24/04/26 Птн 17:20:35 #464 №1596576 
>>1596546 => >>1596574
Аноним 24/04/26 Птн 17:21:56 #465 №1596580 
>>1596458
>>1596488
В чем разница между Кобольдом и ЛламойДцп (это можно у нейронки узнать, но интересует именно опыт людей)? Я вообще думал навайбкодить свой фронтенд костыльный. Терминал не пугает.

>>1596495
Мне кажется, это что-то уровня Лм Студии будет. Шило на мыло. Вебпоиск в коробке как-то не нужен особо.
Аноним 24/04/26 Птн 17:24:19 #466 №1596584 
>>1596580
разница в том что кобольд ещё со времён пигмы, там команда пилит фичи (сколь бы сомнительными они ни были), это не просто лмао.цпп с переклеенным шильдиком.
Аноним 24/04/26 Птн 17:24:45 #467 №1596585 
>>1596495
Она улучшилась? Я как-то поставил и вообще ничего не понял, не смог даже ггуф туда запихнуть - это говно как оллама хотело какие-то свои перекаченные в другом формате файлы моделей, с какой-то дополнительной мазней из мусора в папках рядом с ними.
Аноним 24/04/26 Птн 17:31:48 #468 №1596594 
>>1596574
>>1596543
Выше прямо в этом треде 4 кринжелога на русском постили, наслаждайся.
Аноним 24/04/26 Птн 17:34:36 #469 №1596598 
Какие пресеты в таверне юзать для локальных моделей?
Аноним 24/04/26 Птн 17:36:39 #470 №1596600 
>>1596598
минипопка присет
Аноним 24/04/26 Птн 17:37:05 #471 №1596601 
>>1596598
Смотря какие модели... И вообще гугли и спрашивай чатботов, больше помогут чем местные советчики
Аноним 24/04/26 Птн 17:37:51 #472 №1596602 
>>1596531
Можешь попробовать ГИГАЧАТ q6. Русский гигант мысли слопа. За неимением альтернтив может зайдет, лол. Ну и Гемму E4 пробуй. Не все там так плохо.
Аноним 24/04/26 Птн 17:38:20 #473 №1596603 
>>1596602
>Ну и Гемму E4 пробуй
она вообще знает что такое хуй?
Аноним 24/04/26 Птн 17:39:20 #474 №1596606 
1709466650271.png
1725170077329.png
1661968434956.png
>>1596563
Да, ну йобана рот, прошу же по человечески без uoh

>>1596574
Мне лень запариваться, кушой
Аноним 24/04/26 Птн 17:39:36 #475 №1596608 
>>1596598
Мои.
Аноним 24/04/26 Птн 17:39:51 #476 №1596609 
>>1596603
Почему, если Гемма, то сразу хуй?
Аноним 24/04/26 Птн 17:41:02 #477 №1596612 
>>1596606
Получившиеся картинки скинь. Без них экспириенс не полный.
Аноним 24/04/26 Птн 17:44:47 #478 №1596613 
>>1596438
Чел, это ты поехавший. Шиллишь проприетарную хуету только потому что она была твоей первой. У нее есть очевидные проблемы по перфомансу-возможностям, очевидные проблемы по приватности. А взамен она дает только гуй средней всратости, который нужен - кому? Совсем хлебушкам, которые не знают как качать модели, как выставлять параметры, как какать. Все.
Если ты вкатился не вчера - он банально не может ничего тебе предложить, ведь для рп есть таверна а для более продвинутого чатика - опенвебуй.

Буквально сектант, одержимый синдромом утенка. Тебя всем тредом обоссывают, а ты не понимаешь почему.
>>1596510
> Она правда на уровне GPT-4
Жпт4 хуже чем гемма, слишком низкая планка в 26м году.
Аноним 24/04/26 Птн 17:46:19 #479 №1596614 
>>1596609
>Почему, если Гемма, то сразу хуй?
потому что будет
Аноним 24/04/26 Птн 17:51:32 #480 №1596617 
Screenshot 2026-04-24 165039.png
>>1596600
>>1596601
С минипопкой такой аутпут. Модель бф16 аблитератед.
Аноним 24/04/26 Птн 17:52:38 #481 №1596619 
>>1596617
..
кино.. "..." ..
Аноним 24/04/26 Птн 17:55:22 #482 №1596622 
image.png
image.png
Угабуга высрался новой статьей. На этот раз по KV кэш. Сравнил новые квены и геммы
Квены 3.6, что 27b, что moe 35b, хорошо квантуют контекст и даже у q4 потери небольшие. Гемма 31b нормально квантуется в q8, но в q4 уже деградация. Хотя даже в q8 там деградация на уровне Квенов в q4. Гемма 26b даже в q8 улетает в помойку
Итог у Геммы не только контекст жирный, но и квантуется он хуево. А Гемма 26b это вообще модель пиздец
Статья
https://localbench.substack.com/p/kv-cache-quantization-benchmark
Аноним 24/04/26 Птн 17:55:23 #483 №1596623 
>>1596617
AB"..."TE... lalala/// CIN"..."ЕМА!%%?
Аноним 24/04/26 Птн 17:56:47 #484 №1596626 
1745199588605.png
1653247385417.png
1622234778806.png
1634436004667.png
>>1596612
Руки на стол, уважаемый
Аноним 24/04/26 Птн 17:58:22 #485 №1596629 
>>1596622
>Гемма 31b нормально квантуется в q8,
Какая смелая интерпретация достаточно однозначных цифр. Плохо она квантует контекст даже в q8, ниже q8 она совсем неюзабельна
Аноним 24/04/26 Птн 17:58:32 #486 №1596630 
>>1596451
Llamacpp чтобы править всеми бомжами. Это бек, который находится в основе всех васян-оберток с рядом преимуществ относительно них. Если совсем пугает отсутствие модного окошка на старте и очень хочется крутить ползунки и щелкать вместо мгновенного запуска - кобольд.

Похоже проблема ньюфагов в том, что они не разделяют бек и фронт, у них просто "локальный жпт" в виде черного ящика, который они запускают.
Первое - то что должно запускать модель, без лишней мишуры, быстро, эффективно. Второе - то где как раз надо бороться за красивый и функциональный интерфейс, опенвебуи в нем фаворит.

Если ты вкатун - нет ничего задорного чтобы пользоватся лм/анслоп/...-студией. Просто нужно понимать что если захочешь большего - нужно с них слезть и освоить более функциональные решения.
>>1596598
Если тексткомплишн - включить инстракт режим, выбрать одноименный модели пресет в средней части (или чатмл который у многих), промпты уже свои. Если чат комплишн - можно аицгшные, но в больших полотнах и жб часто нет необходимости.
>>1596626
Хорошие картинки
Аноним 24/04/26 Птн 17:59:50 #487 №1596633 
>>1596626
>Руки на стол
>бросок на 2
Ну... ладно, противный. А картинки всё же скинь.
Аноним 24/04/26 Птн 18:00:01 #488 №1596634 
image
r/ #unexpected
На улицах США появилась реклама прямиком из «Киберпанка»: в одном из городов заметили огромный билборд с ИИ-девушками, которые предлагают с ними заняться любовью

Когда пользователь переходит на сайт, перед ним открывается целая палитра красивых моделей. Всех девушек объединяет одно — они готовы с вами переписываться, но никого из них на самом деле не существует.
Аноним 24/04/26 Птн 18:00:18 #489 №1596635 
image.png
>>1596613
>потому что она была твоей первой
Начало 2025 года. Скачал ollama, поплевался.
Узнал, что ollama ворует у llama.cpp. Разобрался, что такое llama.cpp. Поебался с llama.cpp, чуть не выкатился.
Дошли руки до кобольда. Впечатление собранного на коленке продукта. Но работает. Но я хочу чтоб красиво и уудобно было. На кобольде ~11 месяцев терпежа.
Попробовал TextGenWebUI. Показалось сыро и корво.

Мне дальше продолжать? Страшилками про большого брата, заглядывающего в анус, можешь оставить себе.

>таверна
С каких пор таверна обзавелась бэкендом для подключения к самой себе? О чем ты вообще? Для меня студия это удобный однокнопочный пикрил, где моделька-генератор и моделька-редактор загружены на разные карточки, и я довольно урчу.

Иди дальше шпионов под кроватью ищи и проблемы выдумывай.
Аноним 24/04/26 Птн 18:01:54 #490 №1596637 
>>1596635
>>1596613
За меня текст если что писала гемма, извините за ошибки.
Аноним 24/04/26 Птн 18:03:12 #491 №1596642 
>>1596634
Новости уровня "ШОК! ИНТЕРНЕТ СУЩЕСТВУЕТ! Читать далее...".
Аноним 24/04/26 Птн 18:03:26 #492 №1596643 
>>1595096 (OP)
>• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
Уберите из шапки, кстати, если тут это считается за что-то плохое.
Аноним 24/04/26 Птн 18:04:07 #493 №1596646 
>>1596622
Недавно агента запускал, 8 квант кеша тупил путая пути, не понимая что путь не абсалютный а относительный. Ну самый яркий пример. qwen 3.6 35b 3км.
Какое то влияние на понимание сеткой происходящего это все равно оказывает. Но у меня квант конечно такой себе, ему скорей всего плохо от этого, а кеш лишь добивает и так работающую чудом сетку.
Но без квантования работает хорошо, что интересно.
Аноним 24/04/26 Птн 18:05:09 #494 №1596647 
>>1595820
>>1596622
Аноним 24/04/26 Птн 18:05:51 #495 №1596648 
>>1596635
> Мне дальше продолжать?
Не, достаточно. Страдаешь ментальными заболеваниями, сознательно выбирая худший вариант, чтобы отчаянно отстаивать свой выбор. Возможно в приоритете быть нетакусиком, но выделиться другим беком железо не позволяет. Для тролля слишком много пишешь и сильно стараешься. Если тебе 14 лет - это нормально, пройдет, если больше - лол.
Аноним 24/04/26 Птн 18:07:20 #496 №1596650 
5.jpg
>>1596606
> Да, ну йобана рот, прошу же по человечески без uoh
не понел вопроса
так и быть, держи ещё, брат
Аноним 24/04/26 Птн 18:07:21 #497 №1596651 
>>1596643
>>1595096 (OP)
Реально, а нахуя ollama в шапке? Это же пиздец. Она еще и нихуя не однокнопочная
А вот LM Studio надо оставлять, она для новичков самое то. Самый однокнопочный вариант, так еще и порезан меньше оламы
Аноним 24/04/26 Птн 18:12:13 #498 №1596657 
image.png
>>1596622
да там полюбой какой-нибудь баг имплементации как всегда вдовесок
алсо, какая же жадная пидорасина
Аноним 24/04/26 Птн 18:12:45 #499 №1596658 
>>1596651
Нет, для новичков лучше всего подходит text-generation-webui там искаропки все работает и быстрее чем в копростудии, от которой новичков надо уберегать
Аноним 24/04/26 Птн 18:16:37 #500 №1596660 
>>1596658
>text-generation-webui
>устанавливается через скрипты
>уродливая, даже хуже лмстудио
>нет интеграции с обнимордой
>с нулевой срет тебе какими то настройками
>для новичков
Охуенно, братик. Ты типа так ньюфагов отпугиваешь?
Аноним 24/04/26 Птн 18:16:39 #501 №1596661 
>>1596658
>для новичков лучше всего подходит
Народный кобольд, сам с него начинал, и к нему иногда возвращаюсь.
Аноним 24/04/26 Птн 18:19:39 #502 №1596663 
>>1596622
>Итог у Геммы не только контекст жирный
SWA.
ПЕРЕКАТ Аноним OP 24/04/26 Птн 18:23:31 #503 №1596668 
ПЕРЕКАТ

>>1596667 (OP)

ПЕРЕКАТ

>>1596667 (OP)

ПЕРЕКАТ

>>1596667 (OP)
Аноним 24/04/26 Птн 18:24:00 #504 №1596671 
>>1596663
>SWA
Под коденх не оч.
Аноним 24/04/26 Птн 18:25:28 #505 №1596675 
>>1596663
Так ты напишешь, что надо прописовать, чтобы у нее был легкий контекст?
Мимо этот чел >>1595701
Аноним 24/04/26 Птн 18:41:08 #506 №1596694 
>>1595952
Так а гайд есть как чего куда тыкать?
Аноним 24/04/26 Птн 18:49:34 #507 №1596702 
image.png
>>1596430
а ловко он это придумал, я даж сначала и не понял
чё скайнет с нами делать будет имаджинировали?
Аноним 24/04/26 Птн 22:59:47 #508 №1596905 
>>1596634
Какая безвкусица...
Аноним 25/04/26 Суб 08:45:18 #509 №1597148 
>>1596580
Всё, что не llama.cpp и не написано на python - это форк llama.cpp.
comments powered by Disqus