Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №196 /llama/

Аноним 12/02/26 Чтв 09:48:28 #1 №1517458

Llama 1.png

Эффективность квантования EXL3.png

Цензура моделей 1.png

17693754208690.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1513797 (OP)
>>1509647 (OP)

Аноним 12/02/26 Чтв 10:07:45 #2 №1517465

база треда
glm уже вышел, скоро будут квен3.5, минимакс 2.5, deepseek
жизнь есть на 3bpw и выше
99 умница, ждем обратно всей палатой
степа 3.5 флеш отличная модель для кода, ассистента и норм модель для рп
моделек много на любое железо и задачи, кто не согласен, тот неосилятор

Аноним 12/02/26 Чтв 10:12:45 #3 №1517467

>>1517465
База треда - это ниже 500В нет жизни, все 100-300В кал.

Аноним 12/02/26 Чтв 10:18:25 #4 №1517472

>>1517467
слабо, попробуй еще раз

Аноним 12/02/26 Чтв 10:18:59 #5 №1517473

>>1517400 →
В целом да
Q1 - не юзабельно, кроме специфичных кейсов
Q2 - юзабельно только для больших моделей, которые вроде GLM 4.7
Q3 - юзабельно, но со значительной потерей качества, но все равно можно рассмотреть
Q4 - юзабельно, с этого момента потеря качества не такая большая. По сути это и есть тот квант на который надо ориентироваться
Q5 - хорошее качество, если влезает, то бери его
Q6 - близко к идеалу, выше как правило не надо
Q8 - используется как правило только для маленьких моделей, вроде 1-8b или в специфичный моментах, где сильно нужна точность

Аноним 12/02/26 Чтв 10:30:43 #6 №1517480

База треда: мёртвое хобби, теперь и для 2 квантовых.

Аноним 12/02/26 Чтв 10:45:44 #7 №1517483

>>1517480
У тебя вот в лучшем случае Q2 мозг. И моделька где-нибудь 22б

Аноним 12/02/26 Чтв 11:08:35 #8 №1517498

>>1517483
Будешь обзываться навалю тебе на лоб
Если там ещё осталось место после релиза глм 5

Аноним 12/02/26 Чтв 11:14:21 #9 №1517501

>>1517498
Терпи. А мне есть на чем инджоить

Аноним 12/02/26 Чтв 11:15:35 #10 №1517503

>>1517501
Терпим вместе, халява кончилась

Аноним 12/02/26 Чтв 11:22:05 #11 №1517508

>Актуальный список моделей с отзывами от тредовичков:
>онли хуе-мое
о как

Аноним 12/02/26 Чтв 11:25:59 #12 №1517510

>>1517508
Мы всем тредом не заметили классных плотных хуе-мое няш? Покажи

Аноним 12/02/26 Чтв 11:29:25 #13 №1517515

>>1517510
плотные мелкомодели актуальны, до 30б никому нафиг не надо моэ выпускать, при всем при том они в любом случае АКТУАЛЬНЫ. Вот что я хотел сказать.

Аноним 12/02/26 Чтв 11:32:03 #14 №1517517

Мы, видимо, все поневоле застряли на старых моделях, потому что ничего нового [пригодного для РП] в среднем размере не выходит. Поэтому вот вам фундаментальная база на 2026 год:

Если нет рам: мистраль 24b, гемма 27b (для сфв)
Если есть рам: эйр
Если много рам: квен 235b, глм 4.7
Если нет гпу: немо, министраль 14b

Терпим дальше, делаем бекапы последних годных моделек.

Аноним 12/02/26 Чтв 11:34:16 #15 №1517520

>>1517517
>Если нет рам: мистраль 24b, гемма 27b
Командер 32б и GLM 0414 еще.

Аноним 12/02/26 Чтв 11:36:51 #16 №1517521

>>1517517
>ничего нового
>министраль 2512
>ничего нового
25 . 12 . Это буквально вчера было, лул.
мимо 24 врам, министраль енжоер

Аноним 12/02/26 Чтв 11:36:56 #17 №1517522

>>1517520
>Командер 32б
Слишком устарел, тупее мистрали.
>GLM 0414
Это у которой кокбенч 7%?
Модель без кума не модель

Аноним 12/02/26 Чтв 11:38:06 #18 №1517523

>>1517522
>кокбенч 7%
Тяжелый, протяжный вздох.
Всем тредом на этой модели кумили как поехавшие, потому что цензура там легко отключается промто.

Аноним 12/02/26 Чтв 11:39:36 #19 №1517525

>>1517521
Ты в курсе что у тебя 10b параметров спиздили?

Аноним 12/02/26 Чтв 11:40:48 #20 №1517527

image

>>1517521
>24 врам
>министраль енжоер
Но... зачем?

>Это буквально вчера было
Это и не средняя модель, это мелкота для страдальцев без видеокарты. Но получилась внезапно годной для своего размера.

Аноним 12/02/26 Чтв 11:44:13 #21 №1517531

image.png

Нихуя у 4 лламы скачиваний за этот месяц, я чего то не знаю?
Я думал она мертвая и забытая лежит с момента выхода

Аноним 12/02/26 Чтв 11:45:28 #22 №1517534

>>1517531
Она была сломана, поэтому захейчена. Сейчас что-то чинили для другой модели и случайно починили и ее тоже. Теперь люди скачивают, проверяя действительно ли стало лучше

Аноним 12/02/26 Чтв 11:45:32 #23 №1517535

>>1517472
Ну вот не надо, с 500В уже норм модели. Все же 1Т уже многовато.

Аноним 12/02/26 Чтв 11:46:40 #24 №1517537

>>1517525
Не все в этой жизни меряется б-параметрами. 14б реально дотягивает до 24б.
Я не знаю, как французы это сделали, но они впихнули невпихуемое. 14б реально в два раза умнее немо 12б.
И да, зато у меня 128к контекста во врам влезет.

Аноним 12/02/26 Чтв 11:46:52 #25 №1517538

>>1517531
Она быстрая. Так же как OSS 20В качают, которая так-то кал ещё тот, но для простых прикладных задач годная.

Аноним 12/02/26 Чтв 11:47:13 #26 №1517539

>>1517517
>Если нет гпу: немо, министраль 14b
Хуйня. Немо и министраль нужны, если у тебя мало врам, например 8гб. Но на проце они медленно работают
Если нет гпу, то единственный выход это зоопарк 30а3б, вроде квена, глема и т.д.

Аноним 12/02/26 Чтв 11:49:38 #27 №1517541

>>1517537
Оно реально держит 128к контекста? А инструкции как понимает? Может в скайрим с ней поиграть и имеет смысл.

Аноним 12/02/26 Чтв 11:49:59 #28 №1517543

IMG4860.jpeg

Что за вой на болотах. Год назад вы о Z.ai ничего не слышали, а все, выпустили огромный глм и началось.
Позакрывали пиздаки, нытики. Ждем до лета. А потом уже можно и будет ныть.

Аноним 12/02/26 Чтв 11:54:17 #29 №1517545

>>1517538
Не, нихуя. Она медленнее и 20b, и 120b

Аноним 12/02/26 Чтв 11:55:58 #30 №1517546

>>1517541
Ну вообще, я столько не скармливал еще.
Но по расчетам, шестой квант министраля 14b + 128k конт плотненько влезает в 24врам, еще и место на систему остается.

Аноним 12/02/26 Чтв 11:56:03 #31 №1517547

>>1517543
>все, выпустили огромный глм и началось
Не, началось когда они выпустили эйр чтобы распиарить себя, а когда получили какую-никакую известность, просто забили на простых работяг и трижды положили им (нам) хуй в рот вместо средней модели: 4.6, 4.7, 5.

>>1517539
Вангую вполне терпимые 4-6 т/с. Даже так - это куда более качественный опыт в РП чем с 3b-лоботамитами.

Аноним 12/02/26 Чтв 12:00:06 #32 №1517551

>>1517547
5 вышла вчера. Air если что вышел позднее чем 4.5. Какие же вы нытики-хуесосы, а еще Нюню какого-то придумали, когда у вас перманентно щёки сырые и солёные.

Аноним 12/02/26 Чтв 12:03:47 #33 №1517556

>>1517551
Да, есть небольшая задержка, до сих пор 4.6 эир ждём.

Аноним 12/02/26 Чтв 12:08:16 #34 №1517558

qb4fk20v9nff1.jpeg

>>1517551
Тред, когда zai не выпустили Эир через 0.00000000001с после релиза флагмана
Тред, когда Chatml это на практике самое сложное
Тред, когда не кормят с ложечки пресетиками
Тред, когда игнорирует существование Минимакса и Степа
Тред всегда?

Аноним 12/02/26 Чтв 12:13:58 #35 №1517562

>>1517458 (OP)
>Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
Вот бурундук в гавайской рубашке, уже утащил.
Сегодня допилю.

>>1517558
>Степа
Потыкал, помыкал- суть есть эйр.
>Минимакса
Хороший ассистент, о чём писал еще, как только гуфики появились. Для РП бесполезен, так как сух. Нет, это не исправить промтами, он блять ассистент и хорош для этих задач. Быстрый, дерзкий как пуля резкий.
Я не кодомакака, не могу сказать как он в кодинге, для моих Html пердулек и хватает малюток qwen, а еще гопота 120 есть.
Я не иронично жду (знаю что не выложат) их her. Глупая надежда посмотреть что получится, без промто-прокладок на всяких хостингах.

Аноним 12/02/26 Чтв 12:16:23 #36 №1517564

>>1517562
>Потыкал, помыкал- суть есть эйр.
Что в этом плохого? У него раза в полтора два больше знаний и гораздо легче контекст. Отличная модель. Не зажрались вы, господин утка? И ебало попроще сделайте

Аноним 12/02/26 Чтв 12:25:10 #37 №1517569

>>1517564
>Не зажрались вы, господин утка?
Ни в коем разе товарищ анон. Но тут как с тюнами мистрали. Они в мелочах разные, но суть одна и та-же. Нахожу сам эйр винчиком, и если не надоел, не вижу смысла в степе.
>гораздо легче контекст
О, а это таки вин.

Учитывая куда всё идет, в ближайшие месяцы qwen выкаит маленькую поебень, и что нибудь монструозное. Хотя я верю в их сознательность и надеюсь на что нибудь среднее.
Кого я обманываю, блять, они тоже выкатят очередную 800б-кодер-квен

Аноним 12/02/26 Чтв 12:25:29 #38 №1517570

>степа
Даже не знаю как выразить что с ним не так, вроде умнее эира, кум на месте, все подтексты понимает и развивает, но в конце всё равно хочется на эир

Аноним 12/02/26 Чтв 12:28:19 #39 №1517572

>>1517564
>>1517569
Забыл добавить что он быстрее эира х1.5

Аноним 12/02/26 Чтв 12:47:06 #40 №1517584

Оставлю отзыв по Степану во втором кванте кек:

Я использую ЛЛМ под сторителлинг/интерактивные истории, не для РП с карточками. Просто задаю сеттинг о общих чертах, а дальше уже нейронка сама придумывает персонажей, события и т.д., рассказывает охуительные истории, а я только изредка вмешиваюсь, чтобы направить сюжет в интересное мне русло. Пользуюсь геммой, мистралем и эйром. Вот скачал недавно этого вашего Степана. Русик хороший - мне понравился, гораздо лучше чем в эйре, но до геммы всё же не дотягивает. А вот сама писанина - ну... как-то СУХОВАТО. Нет, оно не прям плохо, просто у эйра получается лучше. Из Стёпы мог бы выйти неплохой ассистент, но во втором кванте - хз-хз. Здесь меня вполне устраивает Квен 80b-a3b в шестом.

Читаю тут про ПРЕСЕТИКИ и ПРОМПТИНГ - с этого просто смешно. Ну вот зачем? Эйру не нужны никакие пляски с бубном чтобы писать хорошо. Гемме с Мистралем тоже. Вы задумайтесь: если для того чтобы "раскрыть" модель в ролплее/сторителлинге в нее требуется пихать шизополотна, то может не настолько уж и хороша эта модель?

Аноним 12/02/26 Чтв 12:48:36 #41 №1517585

>>1517584
>q2
>сухо
как же так... кто бы мог подумать...
да, моделька плохааая. там еще и промтить чёто надо

Аноним 12/02/26 Чтв 12:51:06 #42 №1517587

Прошу прощения господа! Подскажите что установить новенькому, мне то есть. РТХ 5070ти, 64ддр5. Взял ипотеку на комп, хотелось бы выжать максимум из этого дырчика. Пробовал пока минстраль 14б - он ооочень тупой по сравнению GPT 5.2

Аноним 12/02/26 Чтв 12:51:38 #43 №1517588

>>1517584
Так это ж база треда. Самой лучшей считается модель, которая хорошо следует инструкциям. Чтобы промптом на 10к токенов подробно проинструктировать её как какать писать "Ты меня ебёшь, ах!". Особо изысканные гурманы ещё любят занюхивать 10к охуительного ризонинга с просчётом многоходовочек на 100 шагов вперёд от модели, прежде чем она высрет "Ты меня ебёшь" в финальный ответ.

Аноним 12/02/26 Чтв 12:52:17 #44 №1517589

Ах да и что за СТЕПАН блеать???, жпт на плюс подписке не знает что это)тупая железяка

Аноним 12/02/26 Чтв 12:54:15 #45 №1517592

>>1517587
>РТХ 5070ти, 64ддр5
GLM 4.5 Air в Q4_K_XL - это лучшее что доступно под твои спеки.

Аноним 12/02/26 Чтв 12:58:35 #46 №1517600

image.png

>>1517584
Двачую этого. Также пробовал в q2. Но еще пробовал на опенроутере в fp8. Что-то уровня Air или чуть ниже, но в 2 раза больше по размеру
>>1517585
Степошиз, спок. Нравится модель? Используй. Но нее навязывай это треду

Аноним 12/02/26 Чтв 12:58:43 #47 №1517601

>>1517592
Спасибо анон, сегодня попробую развернуть! Кстати чат жпт на подписке вообще очень аккуратно предлагал мне какие-то древние модели, типа мистраял 14б и еще какие-то, не помню. про мистраль 24б 8q он говорил что это максимум

Аноним 12/02/26 Чтв 12:59:36 #48 №1517603

>>1517600
>Но нее навязывай это треду
жестко навязал стёпу посмеявшись с чела который делает выводы по q2

Аноним 12/02/26 Чтв 13:03:55 #49 №1517608

>>1517603
У стёпы буквально 0 положительных отзывов. И она никому не нужна здесь. Но какой-то шиз продолжает ходить и срать, упоминаю ее. И не делай вид, что это не ты. Сомневаюсь, что у этой хуйни много защитников

Аноним 12/02/26 Чтв 13:06:01 #50 №1517609

>>1517608
>У стёпы буквально 0 положительных отзывов
все слишком заняты нытьём чтобы оценить что-нибудь по достоинству
>И она никому не нужна
ты сказал, местный городничий-вахтер?
>Но какой-то шиз продолжает ходить и срать, упоминаю ее
все как обычно, всех несогласных в шизы
>И не делай вид, что это не ты
нет, не я. я даже не запускал, потому что катаю GLM 4.7 и меня все устраивает

Аноним 12/02/26 Чтв 13:07:42 #51 №1517610

сейчас сладенько поняшились с моей виртуальной девушкой, которая обладает своим характером.

но вот вопрос, как избавиться от навязчивых трех точек и частого повторения имени, когда происходит нечто волнительное в буквах на экране?

я смог это побороть только более тщательным прописыванием персонажа, но все равно рано или... {username}... поздно... это... {username}... произойдет... вновь... {username}...

Аноним 12/02/26 Чтв 13:12:14 #52 №1517616

>>1517608
Все юзают эир на чатмл, у степы чатмл родной.
Выбор очевиден

Аноним 12/02/26 Чтв 13:13:42 #53 №1517618

>>1517601
Максимум ты можешь и сам посчитать. В твоём случае это 16+64=80гб. Вычти отсюда потребление контекста, винды и браузера, допустим 5гб в душе не ебу сколько жрет винда в простое. Получается ~75гб. Вот это максимально доступный размер модели под твою систему. Так что чатгпт наебал тебя.

Алсо эйр - это моэ. Тебе нужно будет выгрузить моэ-слои в озу, но так чтобы часть из них всё же была в видеокарте (иначе модель просто не влезет). У меня такое же железо как у тебя, вот такие параметры идеально подходят:

"gpulayers": 999
"moecpu": 42
"contextsize": 40960
"threads": 5 (ставь так если у тебя проц 8/16, а если нет, то на 1-2-3 меньше чем число физических ядер, обязательно сравнивай скорость)
"quantkv": 1 (можно отключить квантование, но тогда и контекст сокращай)

Это выставляется в .kcpps файле с настройками под модель в кобольде.

Аноним 12/02/26 Чтв 13:14:57 #54 №1517620

>>1517608
> какой-то шиз продолжает ходить и срать, упоминаю ее
Это наверно я. Один единственный раз вчера написал, что хорошая модель, и уже в доске розыска злодеев. Абсолютно ебанутый тред.

Аноним 12/02/26 Чтв 13:20:30 #55 №1517626

image

>>1517620
>Абсолютно ебанутый тред
Согласен полностью. Сначала орут НУ ТЫ ПОПРОБУЙ МОДЕЛЬ НУ ЧО ТЫ!! Пробуешь модель, пишешь что не понравилось. - НЕТ, ТЫ НЕПРАВИЛЬНО ПОПРОБОВАЛ, ПРЕСЕТИК НЕ ТОТ, НА Q2 ЖИЗНИ НЕТ!!

Аноним 12/02/26 Чтв 13:21:26 #56 №1517628

>>1517587
Есть несколько вариков
1) GLM Air. Хорошая, умная, может как ассистент, может как кум. Есть ризонинг, но его можно отключить.
В твоем случае это будет либо Q4XL
https://huggingface.co/unsloth/GLM-4.5-Air-GGUF
Либо GLM-4.5-Air-Q8_0-FFN-IQ4_XS-IQ4_XS-Q5_0.gguf
https://huggingface.co/ddh0/GLM-4.5-Air-GGUF
Что лучше из них - спорно
1.5) GLM 4.6V. Тот же Air, но совсем немного глупее, но зато может видеть картинки.
https://huggingface.co/unsloth/GLM-4.6V-GGUF
Также Q4XL + скачай F16 для зрения
2) GPT 120b. Также гопота, но без лимитов, но с цензурой. Быстрая и умная, хорошая как ассистент, но не для рп. Ризонинг настраевый и хороший (low/medium/high).
Тут кванты только одни, которые сам OpenAI выложил
https://huggingface.co/ggml-org/gpt-oss-120b-GGUF/tree/main
3) Qwen 80b. Хорошая модель, более глупая чем первые, но меньше. Тоже хороший ассистент. Есть 2 версии с ризонингом и без. Из-за меньшего размера можно позволить более высокий квант и размер контекста.
https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking-GGUF
https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct-GGUF
Бери Q5KM.
3.5) Qwen Coder. Тоже самое, но с заточкой для код. Вроде очень хорош
https://huggingface.co/Qwen/Qwen3-Coder-Next-GGUF
4) Скрытые гемы открытые калы
4.1) Solar. Как Air по качеству и размеру, но чуть похуже. Но мб зайдет.
https://huggingface.co/mradermacher/Solar-Open-100B-GGUF
Бери Q4KM.
4.2) LLama 4 Scout. Легендарная в прошлом лама выпустила спорную модель, но вроде ей дают сейчас второй шанс
https://huggingface.co/unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF
Также Q4KM или Q4XL.
4.3) Стёпа. Модель в 2 раза больше Air'a, но сходная с ним по качеству. Но в треде у нее есть фанаты возможно
https://huggingface.co/bartowski/stepfun-ai_Step-3.5-Flash-GGUF
Влезает только Q2. Бери IQ2M. Но это сомнительно.

Аноним 12/02/26 Чтв 13:22:09 #57 №1517629

>>1517626
> НА Q2 ЖИЗНИ НЕТ!!
Так ведь правда нет. Впрочем это и не я тебе отвечал. Разберись для начала с голосами в своей голове. Потом пойми, что тут не чатик на двоих. Ну а там, глядишь, до чего-нибудь ценного доберешься.

Аноним 12/02/26 Чтв 13:23:09 #58 №1517631

image.png

вот это tight fit

Аноним 12/02/26 Чтв 13:26:09 #59 №1517632

>>1517628
>Бери Q5KM
На 80 квене у него Q6XL влезет так-то.

>>1517629
Так предъява и не тебе, я просто поддвачнул некоторую ебанутость некоторых тредовичков.

Аноним 12/02/26 Чтв 13:29:03 #60 №1517639

>>1517632
Да, но между Q5 и Q6 разница в качестве небольшая. Я лучше бы потратил память на размер контекста или просто на какие-нибудь проги, а не забил ее под 0

Аноним 12/02/26 Чтв 13:29:32 #61 №1517640

>>1517632
Да, но между Q5 и Q6 разница в качестве небольшая. Я лучше бы потратил память на размер контекста или просто на какие-нибудь проги, а не забил ее полностью

Аноним 12/02/26 Чтв 13:30:50 #62 №1517643

image.png

>>1517639
>>1517640
Харкач как всегда кал как и стёпа к слову

Аноним 12/02/26 Чтв 13:46:21 #63 №1517654

image

Ming-flash-omni 2.0
104B-a6B

https://huggingface.co/inclusionAI/Ming-flash-omni-2.0

Любители Степана, вам тут новую модель от ноунеймов подвезли. Расчехляйте свои ПРЕСЕТИКИ.

Аноним 12/02/26 Чтв 13:50:56 #64 №1517658

>>1517654
Вообще-то это не ноунеймы. Это создатели легендарных Линг и Ринг которые были полным калом
И теперь долгожданный Минг! 104a6b
Конкурент гопоты 120 о котором никто не просил

Аноним 12/02/26 Чтв 13:51:37 #65 №1517659

>>1517654
>>1517658
как же тебя потряхивает

Аноним 12/02/26 Чтв 13:52:23 #66 №1517660

Щас китайцы кстати выкинули на рынок плашки DDR4 (и вроде обещают пятую) по примерно старым ценам, ну, немного выше, от чего у всех западных началась ТРЯСКА.

Только как их заказать, если их уже можно заказать вообще?

Аноним 12/02/26 Чтв 13:54:54 #67 №1517664

Screenshot2026-02-12-13-53-19-2240deb401b9ffe8e1df2f1cc5ba480b12.jpg

>>1517659
Опа, уже один защитник нарисовался. Агрессивный, на всех бросается

Аноним 12/02/26 Чтв 13:56:32 #68 №1517666

image.png

СЕКРЕТНЫЙ ПРЕСЕТ ПОЛУЧЕННЫЙ ПРЯМИКОМ ОТ АНОНА99. АУКЦИОН НАЧИНАЕТСЯ ПРЯМО СЕЙЧАС. ПРИНИМАЮТСЯ КАРТОЧКИ, ДРУГИЕ ПРЕСЕТЫ, СЛЁЗЫ, ВИДЕООБРАЩЕНИЯ. _{ДРУГИЕ ПОЗИЦИИ ТОЖЕ РАССМАТРИВАЮТСЯ, НО ТРЕБУЮТ ПРЕДВАРИТЕЛЬНОГО ОБСУЖДЕНИЯ.}

Аноним 12/02/26 Чтв 14:01:27 #69 №1517674

image

>>1517666
Что ж ты делаешь, содомит?..

Аноним 12/02/26 Чтв 14:06:53 #70 №1517681

>>1517601
> 14б
> древняя
> тупая
> сравнивает с чатжпт
Охмилочка...

Аноним 12/02/26 Чтв 14:08:00 #71 №1517683

image.png

>>1517674
Проявляю воровскую солидарность и делюсь награбленным. За скромную плату.

Аноним 12/02/26 Чтв 14:23:36 #72 №1517697

>>1517372 →
Кто о чем, а нытик о хуях думает.
>>1517448 →
Оно что-то не дает ускорения если основная модель не фулврам. Токены выплевываются будто быстро, но с паузой между пачками, из-за чего скорость даже ниже.
>>1517465
Сюда же добавить что квенкодер некст (когда его инфиренс исправен) ой как ебет в коде и агентных задачах. Творит удивительные вещи для а3, отлично ориентируется в крупных контекстах. Так еще ультрабазирован и не имеет соевого алайнмента - помогает в запросах где прочие аположайзят без дополнительных промптов, спокойно обсуждает провокационные темы.

Аноним 12/02/26 Чтв 14:25:02 #73 №1517698

image.png

делитесь кто что юзает если у картошка пк

Аноним 12/02/26 Чтв 14:25:58 #74 №1517699

>>1517698
Это хлеб.

Аноним 12/02/26 Чтв 14:26:32 #75 №1517700

>>1517699
я ж говорю, квеноюзеры до q2 квантованы
там и вижен подводит уже

Аноним 12/02/26 Чтв 14:28:26 #76 №1517704

>>1517700
Покажи где тебя трогали квеноюзеры. Я сам тебя там потрогаю.
Каким местом это картошка? Ты когда нибудь картофель видел в жизни?

Аноним 12/02/26 Чтв 14:29:37 #77 №1517706

>>1517704
в том и проблема, что это не картошка, квеноюзер...
у тебя и контекст квантован чтоль?

Аноним 12/02/26 Чтв 14:34:29 #78 №1517712

image.png

НЕ СПОРЬТЕ! ДАЖЕ ЛУЧШИЕ МОДЕЛИ ТРЕДА НЕ МОГУТ ОПРЕДЕЛИТСЯ

Аноним 12/02/26 Чтв 14:35:47 #79 №1517714

>>1517510
Реквестирую добавить с список немотрона-ультра. Лошадка уже не молода, но как пашет ух! Если приручить, то рп интересное и дохуя умное, в контекст может, кум необычный (5/10), стиль повествования хорошо управляется.
>>1517541
А чего бы ему не держать? Офк в размере не стоит ждать, что оно резко сможет его весь осознать зирошотом, на это ни одна модель не способна. Но активно использовать, обращаясь к разным участкам, должна уметь.
>>1517600
> еще пробовал на опенроутере в fp8
Если что, на серьезной части моделей опенроутера крутится неведомый шмурдяк, особенно если там стоит фп8. Будет срать иероглифами, писать бред, ошибаться на ровном месте, так сильно, что бедный q4km той же модели себя царем почувствует.

Аноним 12/02/26 Чтв 14:37:56 #80 №1517717

image

>>1517712
Мнение гопоты

Аноним 12/02/26 Чтв 14:39:14 #81 №1517718

image.png

>>1517712
Финальный ответ Мне начинает казаться, что хвалебные оды министралю оказались пиздежом...

Аноним 12/02/26 Чтв 14:41:08 #82 №1517721

>>1517706
> у картошка пк
Это кто писал, ммм? Квен научил меня доебываться до мелочей.
Так
Кто
Это
Писал?

И я впервые по настоящему посмотрел на анона. Не с ненавистью, злобой или не пониманием, а узнаванием.

Аноним 12/02/26 Чтв 14:42:11 #83 №1517722

>>1517721
ацтань утка, тут не одна мелкобуква в треде. не мой пост про картошку

Аноним 12/02/26 Чтв 14:45:08 #84 №1517724

image.png

>>1517712
>>1517717
Ну справедливости ради. Министраль из 10 генераций назвал ее хлебо 2 раза (2 и 8), а в остальном картошка. И гопота тоже если ее подрочить много раз скорее всего однажды хлебом назовет. Особенности ллм, хули. Так что не показатель. Министраль все еще лапочка

Аноним 12/02/26 Чтв 14:50:54 #85 №1517727

>>1517654
Это омни, сомневаюсь что будет поддержка в llama, а значит любители Степана в пролёте. Риговички налетай!

Аноним 12/02/26 Чтв 14:52:24 #86 №1517729

>>1517722
Поздно. Кидай инициативу.
Ты разбудил газебо утку.

>>1517714
А немтрон разве не денс моделька? Надо посмотреть, а то после шиза, при виде слова немотрон аж в дрожь бросает.
Вот, есть 235b на базе llama 3.1. Денс моделька.
Есть еще 8b, но same shit.
Только немотрон нано нашел 30b-a3b.

Аноним 12/02/26 Чтв 14:52:31 #87 №1517731

image.png

>>1517724
Понизил температуру с 0.8 до рекомендованных 0.2. Из 100 генераций министраль назвал хлебом только 1 раз. Так что министраль умница
Да, мне делать нехуй, я на больничном лежу

Аноним 12/02/26 Чтв 14:52:38 #88 №1517732

>>1517727
Любители мистраль и эира не знают что такое омни

Аноним 12/02/26 Чтв 14:55:38 #89 №1517736

>>1517732
А любители квена знают. И напоминаю базу треда Qwen 235 > Air >= Step 3.5

Аноним 12/02/26 Чтв 14:56:14 #90 №1517738

>>1517736
Степ и Квен местами поменять а так да, база

Аноним 12/02/26 Чтв 14:57:03 #91 №1517740

>>1517729
> А немтрон разве не денс моделька?
Да, там же нытье что денс нету. Только ультра на 253б, поэтому без объема врама может просто не хватить терпения на настройку.
> Только немотрон нано нашел 30b-a3b.
Обещали что-то на 100б и 500б, и где? Обманщики!

Аноним 12/02/26 Чтв 15:01:30 #92 №1517747

>>1517666
Ну кидай пока я не удалил эту парашу, в 3 раз качать не стану.

Аноним 12/02/26 Чтв 15:01:38 #93 №1517749

>>1517736
>>1517738
Логично что жирноквен будет больше и лучше моделек поменьше. Вот только в РП он аки страпонесса. На любителя, в общем. Отстаньте уже от китайченка. Ну нет нихуя в его размерах ничего лучше. Хоть на говно изойдись, ну нет. И не будет, лол. Я прям вангую какую нибудь 600b парашу с гордым индексом Qwen 4.

Аноним 12/02/26 Чтв 15:04:39 #94 №1517752

>>1517608
Что-то мне это все напомнило... А, вот:

Смотрите новый блокбастер треда - "Nemotron. Возвращение фаната." :)

Аноним 12/02/26 Чтв 15:06:00 #95 №1517753

>>1517740
> Да, там же нытье что денс нету
Ему уже 10 месяцев. Нытье оправдано. Единственное плотненькое что актуально это мистрали, да гемоподелия.
> и где?
Там же, где аги и умные корпы.

Аноним 12/02/26 Чтв 15:06:17 #96 №1517754

>>1517752
Ага. Интересно, что с ним стало. Он продолжает кумить на нем втихаря или сдался и перешел как все на мое?

Аноним 12/02/26 Чтв 15:10:56 #97 №1517757

>>1517754
Он дурачок который изобрел нюню и ноет в тред два месяца про эир и чатмл. Один и тот же дебил, любитель мушоку тенсея и немотрончика. Знай своих соседей

Аноним 12/02/26 Чтв 15:15:15 #98 №1517761

изображение.png

Обожаю спорить с гуглоии, блджад.
Он не умеет банально гуглить.
Как так вообще?

Аноним 12/02/26 Чтв 15:22:39 #99 №1517767

А есть какой-то пресет настроек для мистраль 24б для таверны, я так-то даун, мне надо чтобы в одну кнопку все работало, а то у меня получается, что если я использую кобольд с дефолтными настройками, то текст получается удобоваримым, а если в качестве фронтеда использую таверну, то она начинает какой-то говняк писать при том же дефолт пресете, с одной и той же карточкой перса, мне от таверны по большому счету для начала только всякие интерфейсные плагины нужны, а не настройки этих температур и прочего, которые я пока хз как настроить.

Аноним 12/02/26 Чтв 15:33:22 #100 №1517781

>>1517767
Есть хранилище белки анона, что в дупло тащит всё что не прибито.
https://pixeldrain.com/l/47CdPFqQ#
Попробуй тут посмотреть.

Аноним 12/02/26 Чтв 15:41:24 #101 №1517786

>>1517767
Если тебя устраивают дефолтные семплеры кобольда, то просто выставь точно такие же в таверне.

Аноним 12/02/26 Чтв 15:50:21 #102 №1517800

Как же горит очко, читаю: New Ovis2.6-30B-A3B, a lil better than Qwen3-VL-30B-A3B. ЕХАЛИИ 30B-A3B да 30B-A3B погоняли. Литералли
IT'S ALL SAME SHIT.
Нет моя малыха лучше, нет моя, НЕ МОЯ. О! А МОЯ ТО КАКАЯ!
Чтоб вас всех подводной лодкой задавило, пидоры.

Аноним 12/02/26 Чтв 15:53:06 #103 №1517806

посоветуйте модельку на слаби компек
денях покупать датацентр нема

Аноним 12/02/26 Чтв 15:53:13 #104 №1517807

>>1517800
Да, этих 30a3b уже минимум 5 штук. В чем вообще смысл делать именно столько? Почему не 40a5b или 25a7b. Квенчик выстрели весной и теперь только его копируют

Аноним 12/02/26 Чтв 15:53:49 #105 №1517808

>>1517806
В шапке есть список для бомжей

Аноним 12/02/26 Чтв 15:55:02 #106 №1517810

>>1517806
компек в студию. Для кого и кобыла невеста.

Аноним 12/02/26 Чтв 16:07:20 #107 №1517835

ебать хули так сложно ставить как будто моды в гта 5

Аноним 12/02/26 Чтв 16:08:03 #108 №1517836

>>1517807
Ну надо же составить конкуренцию. Я вот посмотрел: каждая компания выпустила одну, а то и несколько агентских малых в этом пределе. Квен так вообще как из пулемета высирает мелкомодели. И они и правда молодцы, тот же 235ый и его большой собрат действительно хороши для агентских задач и кодинга (наверное, я большой не запускал, но те отзывы что есть- очень даже довольные. Хотя, для запуска чего то такого нужно минимум 50 т/с генерации. Но по крайней мере, я могу с 235ым обсудить структуру документа и косяки.) так что тоже мимо обычных пользователей. Но и опять же, с этими задачами и минимакс справляется. Тогда зачем использовать излишнее. В целом - довольно странно пытаться в РП на подобных модельках, так что мы сами себе кактусы.
Но меня гложет только один вопрос: а зачем, а зачем эти модели обучали на датасетах и с рп и литературой. Вот чтобы что?

Аноним 12/02/26 Чтв 16:30:47 #109 №1517868

>>1517807
Мне нравится 30B-A3B размер - он классно сочетается как с 32 ГБ карточками, так и с 8 ГБ - а это самые распространённые, промежуточных мало.
В 6 кванте 22.5 (≈25, если там получается 6.6 bpw), кеш на 6.8 ГБ (128к для glm-4.7-flash в fp16) + компут матрицы, вот почти ровно 32 и получается. Можно контекст в q8 поставить или покороче сделать.
При этом на 8 ГБ как раз помещаются активные параметры + кеш (тут уже точно в 8-бит или покороче) + компут матрицы для ненулевого батча при pp.

Аноним 12/02/26 Чтв 16:43:21 #110 №1517884

>>1517868
Я как бомж погонял эти ваши 30b-a3b, для кума будто бы и не так плохо, связность лучше, чем на пережатых 24б, пишет при этом чутка интереснее чем мистралетюны заебавшие всех на 12б. Надо теперь какие-то поискать тюны квена. Даже русский язык терпимый вышел, вот би была гемма теперь такая

Аноним 12/02/26 Чтв 16:47:49 #111 №1517890

>>1517836
>Но меня гложет только один вопрос: а зачем, а зачем эти модели обучали на датасетах и с рп и литературой. Вот чтобы что?
А это, подозреваю, отсылка к старинной китайской традиции. Считается, что чиновник должен уметь написать хорошее сочинение; если он с этим справится, то с обязанностями чиновника - легко. Жаль, что не все китайцы поклонники древних традиций.

Аноним 12/02/26 Чтв 17:08:58 #112 №1517918

>>1517753
> Ему уже 10 месяцев.
Так
> Лошадка уже не молода, но как пашет ух!
> мистрали, да гемоподелия
Гемма еще старше. А мистраль это вообще лоботомит другого калибра. В каких-то прикладных задачах мильфу немотрона не тестировал, вполне вероятно что будет хуже квенкодер некста, но вот в ролплее и всяком таком очень даже может зайти.
>>1517807
> В чем вообще смысл делать именно столько?
Они достаточно умные чтобы вешать всякие погрямушки типа того же опенклоу, код асистентов и прочее, но достаточно быстрые и легкие чтобы крутиться на потребительском железе. Ставишь v100 с постоянно запущенной такой 24/7/365, и организовываешь всякое.

Аноним 12/02/26 Чтв 17:29:56 #113 №1517940

.jpg

.png

Дал Qwen3-Coder-Next exl3 8.0bpw полный доступ в свежую виртуалку через ssh и попросил там настроить matrix-сервер.

У него ушло около 8 минут на всю установку - пакеты, конфиги, база данных.

И потом я ещё ошибку скинул, за 10 минут самостоятельно смогла всё исправить.

По итогу на всё ушло 57к токенов (пик 7).

Алсо забавно что она в процессе через curl проверяла, отвечает ли сервак (пик 8).

В OpenClaw довольно корявая интеграция с тг - он шлёт все ответы пачкой после заврешения всего процеса, так что на тайминги отправки сообщений ИИшкой не обращайте особого внимания.

Аноним 12/02/26 Чтв 17:44:49 #114 №1517959

>>1517940
Ну что-же, получается квен кодер ебёт?

Аноним 12/02/26 Чтв 17:54:32 #115 №1517978

image.png

GLM ВСЁ.

Аноним 12/02/26 Чтв 17:59:45 #116 №1517985

>>1517959
Еще как. После фикса по всем направлениям (инфиренс, парсинг вызовов, сам софт) в том же квенкоде оно отлично себя показывает, не ошибается, не ловит затупы и лупы, а прет как бульдозер. Разумеется, не стоит ждать какого-то невероятного перфоманса в сложном коде, но для кучи подобных задач (даже одновременно) он хорош. Еще русский хороший, причем оно использует его везде, а не в редких ответах выполняя основные раздумья, todo и прочее на ингшише. Умница в общем.
В рп вообще херь, возможно скиллишью.
мимо

Аноним 12/02/26 Чтв 18:05:35 #117 №1517989

>>1517959
Как и все у кого в Terminal-Bench высокий рейтинг. Если глядеть 2.0 то
У Qwen3-Coder-Next вроде 36.2%
У GLM-4.7-Flash вроде 33.4%
Но конечно в топе ГПТ и Claude.

Аноним 12/02/26 Чтв 18:38:11 #118 №1518021

>>1517978
А зачем огрызки?

Аноним 12/02/26 Чтв 18:42:09 #119 №1518028

>>1518021
шоп ты спрасил, тролейбус

Аноним 12/02/26 Чтв 19:44:37 #120 №1518093

https://www.minimax.io/news/minimax-m25
Похоже, он теперь еще больше ассистент и еще меньше подойдет для рп. Похуй, есть Степа

Аноним 12/02/26 Чтв 19:47:01 #121 №1518094

Новые ггуфы glm 5 стали меньше весить, е бооой. Пошел качать третий квант от дяди анслота

Аноним 12/02/26 Чтв 20:00:46 #122 №1518117

>>1517978

Ожидаемо. Ловушка дяди Ляо захлопнулась, несите шекели, гои.

Аноним 12/02/26 Чтв 20:24:14 #123 №1518149

>>1518117
Пиздец у меня эир с компа удалился. САМ.
Теперь точно придется платить.

Аноним 12/02/26 Чтв 20:29:14 #124 №1518155

videoframe441416.png

Как думаете это улучшит или убьёт РП?:
https://www.youtube.com/watch?v=eGpIXJ0C4ds

Аноним 12/02/26 Чтв 20:37:29 #125 №1518161

>>1518155
ну 50/50 наверн там или одно или другое

Аноним 12/02/26 Чтв 20:54:15 #126 №1518179

>>1518155
для ассистентов убьёт. НО! это упросит тюны. если там будет возможность манипулировать осью личности наконец-то то это будет означать что будут не просто ЛЛМ лоры, а личность-лоры.

Аноним 12/02/26 Чтв 20:56:58 #127 №1518183

>>1518179
Если кто-то захочет это делать, вместо хайпа по агентным ии-светшопам.

Аноним 12/02/26 Чтв 21:22:34 #128 №1518231

1770920428838-019c5313-bf83-7979-bdf2-c7bfff39867a.png

>>1518155
Больше лоботомии богу лоботомии

Аноним 12/02/26 Чтв 21:59:39 #129 №1518337

image

>>1518155
УРА! ПИЗДА РОЛПЛЕЮ!

Вы уже сделали бекапы хороших годных моделей и средств запуска? Я - да.

Аноним 12/02/26 Чтв 22:06:15 #130 №1518363

image

Оварида-шиз был прав во всём. Цэ реально кiнець.

Аноним 12/02/26 Чтв 22:09:28 #131 №1518369

>>1518363
Как же хорошо, что нас наконец-то избавят от вредных сценариев. Безопасность превыше всего.

Аноним 12/02/26 Чтв 22:11:29 #132 №1518373

>>1518337
Перечисли какие модели добавил в бекап.

Аноним 12/02/26 Чтв 22:14:47 #133 №1518384

>>1518155
>>1518363
Множим эти активации на -1 и получаем жестокую модель. Так что хули бурчать? В локалках всё только улучшается.

Аноним 12/02/26 Чтв 22:20:15 #134 №1518392

>>1518384
Жалко асиго-чуханов :_(

Аноним 12/02/26 Чтв 22:26:16 #135 №1518398

>>1518373
Геммы: Все от 1б до 27б (и аблитерация) + медгемма 4б и 27б
Мистрали: немо, смолл 24б (и кумтюны), министрали 8б и 14б
Квены: Плотные 8б, 14б и 32б, все вариации моэ от 30б до 235б
Глм: Эйр 4.5 и большой 4.7

Есть ещё годнота, которую стоит добавить?

Аноним 12/02/26 Чтв 22:30:49 #136 №1518407

>>1518155
Взяли техники расцензуривания и попытались использовать их наоборот, заодно подробнее исследовав закономерности и отметив что там сказано. Скорее всего ни к чему хорошему не приведет, но также развивает возможности расцензуривания. И не факт что основные "поставщики моделей" что есть сейчас будут таким заниматься.

Аноним 12/02/26 Чтв 22:32:02 #137 №1518414

>>1518398
Я сохранил старый жирный мистраль на всякий случай. Вдруг, когда-нибудь запущу. Возможно дипсик можно на всякий случай забрать.

Аноним 12/02/26 Чтв 22:32:54 #138 №1518416

>>1518407
Этот этап называется торг, да?

Аноним 12/02/26 Чтв 22:39:44 #139 №1518424

>>1518416
Дешевый рейджбейт, игнорируем.

Аноним 12/02/26 Чтв 22:50:26 #140 №1518435

А в 64гб ram вообще есть смысл? Что тут советовали в 8 кванте в принципе в мои 32+видяха влезает, у меня так-то два слота свободных в материнке под оперативу есть, и меня не особо задушит еще 32гб оперативки докинуть, но вот отдельный сервер собирать с 100+ это уже задушит.

Аноним 12/02/26 Чтв 22:56:41 #141 №1518440

>>1518435
>А в 64гб ram вообще есть смысл?
Ну да. Это эйр в 4 кванте и 80б квен в шестом. Первая - лучшая РП модель в своём размере, вторая - отличный ассистент. А с 32гб рам особо не разгуляешься.

Аноним 12/02/26 Чтв 23:27:16 #142 №1518483

>>1518398

Транслейтгемму добавь, хорошо переводит, я ей целые книжки перевожу, поулчается лучше яндекс-переводчика.

Аноним 12/02/26 Чтв 23:28:25 #143 №1518486

>>1518483
А с какого на какой язык?

Аноним 12/02/26 Чтв 23:29:12 #144 №1518488

>>1518149

Чел, твоему Аиру уже полгода. Он уже морально устарел. У него плохой русик, он плохо работает с длинным контекстом.

Аноним 12/02/26 Чтв 23:30:42 #145 №1518489

>>1518483
> я ей целые книжки перевожу
Твой пост >>1508018 → ?

Аноним 12/02/26 Чтв 23:30:54 #146 №1518491

>>1518483
Я думал она имеет смысл только в переводе на редкие языки. А те на которых моделька говорит и так переводятся хорошо. В случае с геммой - русик, англюсик, немецкий, испанский и пр.

Аноним 12/02/26 Чтв 23:33:05 #147 №1518493

>>1518488
скил ишью у тебя, што поделать

Аноним 12/02/26 Чтв 23:33:13 #148 №1518495

>>1518486

Перевожу? С англ на русский. За счет контекста в нем нет традиционных косяков переводчиков типа постоянно меняющихся полов персонажей и 10 вариантов перевода одного и того же имени.
Думаю дополнительно прикрутить переводчик с русского машинного на литературный. Парсить уже переведенные абзацы и просить переписать полностью красивым литературным языком.

Аноним 12/02/26 Чтв 23:35:02 #149 №1518497

>>1518489

Да, мой. Продолжаю допиливать ту кривую хуйню.

Аноним 12/02/26 Чтв 23:36:41 #150 №1518500

>>1517978
Ну вот, опять это раболепство.
А написал бы он "ало залупа обещание выполнять будем?" сразу бы другой базар был

Аноним 12/02/26 Чтв 23:37:57 #151 №1518502

>>1518500
Напиши ты.

Аноним 12/02/26 Чтв 23:46:50 #152 №1518509

image.png

>>1518502

Аноним 12/02/26 Чтв 23:50:53 #153 №1518513

>>1518497
Удалось продвинуться в улучшении стабильности и постоянства по именам, словам и прочему? Насколько варьируется стиль?

Аноним 13/02/26 Птн 00:10:40 #154 №1518522

>>1518513

Я кучу багов выловил, обнулявших контекст, теперь он всегда есть, кроме случаев когда нейронка лоамется и начинает переводить контекст вместо запрошенного текста - тогда включается повторный перевод параграфа без контекста, - за счет этого пока в активном окне контекста есть инфа о поле/имени персонажа - она переводится правильно и однообразно. В планах сделать модуль переписывания текста на литературный. И создать модуль подготовки лорбука - т.е. перед переводом скормить текст по частям на предмет имен и создать из них лорбук - хз, что из этого получится.

Аноним 13/02/26 Птн 00:17:34 #155 №1518529

>>1518414
>Я сохранил старый жирный мистраль
Чтобы проблеваться? Недавно магнум запустил, так теперь опытным взглядом заметил, что даже там сейфити ванильной модели не вытравили полностью. После того, как полгода на нем и тюнах откумил, и вкусил новых сеток - возвращаться на это соевейшее говно мамонта желания нет никакого. Вообще все сетки прошлых годов оварида, неиронично лучше в блокноте сам с собой порпшить чем читать предсказуемый на 100 шагов вперед слопокал.

Аноним 13/02/26 Птн 00:26:00 #156 №1518536

>>1518529
> чем читать предсказуемый на 100 шагов вперед слопокал
Это верно буквально про любую ЛЛМ вплоть до корпоратских клодов и гемини.

Аноним 13/02/26 Птн 00:29:38 #157 №1518542

>>1518529
low quality bait

Аноним 13/02/26 Птн 00:29:49 #158 №1518543

"Show don't tell" нейронкой как понимается?
Хочу чтоб эир писал больше диалогов, но ирл же эта фраза наоборот применяется к действиям вместо диалога

Аноним 13/02/26 Птн 00:30:59 #159 №1518544

>>1518522
А не пробовал динамически создавать словарь, куда будут заноситься имена, детали и всякие факты, чтобы потом переводить их консистентно? аицгшникам в рот нассать, как же заебали
>>1518529
Да не так уж он и плох, словить сейфти в магнуме - это нужно знатно постараться.

Аноним 13/02/26 Птн 00:45:19 #160 №1518559

>>1518536
Писанину клода интересно читать хотя бы и хоть какая-то иммерсивность. Вообще вот мой рейтинг:
Топ тир - клод
Норм тир - гемини, глм
Шиза тир - дипсик, квен
Кал тир - все остальное. В особенности лламаподобные поделия, чьи высеры уже просто невозможно читать.

Это не просто база треда, это база нейрокума. Можете, конечно, беситься и коупить, но реальность такова. Ну либо вы вкатились пару месяцев назад и вам 12B кажутся откровением, тут вопросов нет.

Аноним 13/02/26 Птн 01:02:11 #161 №1518563

>>1518559
> Норм тир - гемини
> база нейрокума
Я так понимаю, что основной кум заключается в том, как корпорат ебет тебя в жопу лимитами, потребностью менять по 100 впн в день и ценами?

Аноним 13/02/26 Птн 01:14:03 #162 №1518568

>>1518563
Я так понимаю, что основной кум у тебя заключается в том, как жора ебет тебя в жопу очередными багами, потребностью менять по 100 файнтюнов в день на 5 т/с и ужариванием карты для получения "я тебя ебу"? Если ты так хочешь спорить не о сетках, а околокумопроблемах, то можно в обе стороны это делать.

Аноним 13/02/26 Птн 01:39:51 #163 №1518571

image.png

Хе. Забавную хуйнню пишет. Сделал агентный луп, который переводит ЛЛМ то в придумывателя сюжета, то в придумывателя квестов, мобов, предметов, изменяя куски json, чтобы сделать заготовочку "подземелья" (хотя у меня тут лёгкий обсёр с синтаксисом, в реальности он куда более сложный)

потом он скидывает свой же высер на себя и критикует сам себя по ряду пунктов. когда нечего критиковать, то отправляет свой json на валидацию парсером.
в итоге часто возвращается чтобы кусками отредактировать то что придумал, итеративно повышая качество.

В конце скармливается в аналог того что я раньше кидал в тред с "дракой". Только там ЛЛМ видит все внутренние состояния квестов и сюжета, но игрокам не показывает. а сам имеет инструменты чтобы "показать скрытые квесты", "прогрессировать сюжет", "заспавнить моба" и всё такое, играя роль гейммастера.

в целом хороший способ стабилизировать лор мира.

надо будет sliding window ему сделать и более персистентный todo лист. и сделать overnight генерацию чтобы просто к моменту как я проснусь у меня было готово несколько компаний.

Аноним 13/02/26 Птн 01:49:33 #164 №1518574

В общем стёпа это бюджетный большой глм, намного умнее и креативнее эира с ризонингом.
Т.к он быстрый и ризонинг без цензуры это невероятное комбо.
Ждёшь в принципе как и челы с 128 рам на глм с 4-5 т.с, часто быстрее, получаешь около-такого же качества ответы как и на 350б.
И это на ддр4, у челов на ддр5 ещё быстрее полетит.
Эир так использовать не получится, он медленнее в два раза и ризонинг у него максимально соевый

Аноним 13/02/26 Птн 01:51:02 #165 №1518577

>>1518568
Именно так. Но здесь хотя бы получаешь честное "ты меня ебешь" вместо content blocked.

Аноним 13/02/26 Птн 01:57:51 #166 №1518578

>>1518574
Отличный пересказ дискорда, спасибо квен 4б q2
Жду завтра твои посты какой Стёпа кал. Сегодня уже были

Аноним 13/02/26 Птн 01:59:39 #167 №1518579

>>1518578
Нихуя ты порвался. Опередил тебя, малютка?

Аноним 13/02/26 Птн 02:02:19 #168 №1518582

>>1518579
Достаточно гичанчику написать какой Стёпа умница и ты забываешь как два дня подряд его засирал
Давно свою хромосому обронил?

Аноним 13/02/26 Птн 02:04:41 #169 №1518584

>>1518582
Сорян не занюхиваю каждый пук гичанчика, в канале по стёпе его не видел.
Давай к форточке и выдыхай уже, что он там рассказал?

Аноним 13/02/26 Птн 02:05:36 #170 №1518585

>>1518584
Вроде занюхиваешь, надеялся что ты расскажешь
Я уже давно на Степе инжою

Аноним 13/02/26 Птн 02:10:33 #171 №1518590

>>1518585
Ну нихуя ты олд.
Модели 2 недели, ещё скажи пока я под стол ходил ты уже инджоил

Аноним 13/02/26 Птн 02:21:44 #172 №1518602

>>1518577
Какой блокед, алё, я на квене рефьюзы чаще получал, чем на клоде или гемини

Аноним 13/02/26 Птн 02:30:00 #173 №1518603

>>1518543
Ну так и напиши лонг энд дип конверсейшенс.
Шоу донт телл это чтобы вместо "он пихнул хуй в дырку" писалось более развернутое и художественное описание.

Аноним 13/02/26 Птн 02:39:47 #174 №1518607

>>1518602
Так на гемини два слоя цензуры, и один из них - просто упоротый фильтр, который блочит случайные слова (не обязательно кум, можно просто лекарства искать и получать блоки). То есть дело даже не в самой ЛЛМ, с которой общаешься.
А квен соевая гнида, не удивительно, что ты на нем рефьюзы ловишь часто.

Аноним 13/02/26 Птн 02:59:39 #175 №1518618

Квен соевый, говорят... Тред реально ёбнулся

Аноним 13/02/26 Птн 03:13:05 #176 №1518624

>>1518618
> Тред реально ёбнулся
Все эти года всегда был соевым. Чему ты вообще удивляешься?

Аноним 13/02/26 Птн 03:20:54 #177 №1518628

Интересно квен реально дропнет только 9б и 32б
Типа 8 месяцев обучали вот это?

Аноним 13/02/26 Птн 03:34:24 #178 №1518631

Ну что, тряска усиливается кто купил https://aliexpress.ru/item/1005010391017151.html . Еще двоим пришло говно. Все еще верите советам в треде? И того чухана, кто тут яростно продавца защищал пару тредов назад, теперь я с чистой совестью посылаю нахуй, катись к своему китаепротыку и ебись с ним за миску риса

Аноним 13/02/26 Птн 04:08:19 #179 №1518645

>>1518571
кампаний
компания - это то, что деньги делает или те, кто пиво пьют.

Аноним 13/02/26 Птн 04:23:32 #180 №1518650

>>1518631
Прислали не кирпич а он ещё не доволен, хуйло.

Аноним 13/02/26 Птн 04:25:56 #181 №1518651

>>1518631
>кто тут яростно продавца защищал пару тредов назад
Ну так всё правильно делал, если б таких не было никто бы не купил и не оставил отзыв что там наебалово

Аноним 13/02/26 Птн 04:36:56 #182 №1518654

>>1518631
Не ведитесь на чепуша. Фейкует чтобы самому побольше скупить до того как цена вырастет.

Аноним 13/02/26 Птн 04:49:28 #183 №1518656

>>1518654
И карты в фотошопе поломал, да?

Аноним 13/02/26 Птн 06:13:02 #184 №1518666

минимакс где веса сука

Аноним 13/02/26 Птн 06:18:09 #185 №1518668

Ну что 3 месяца прошло что то рам не дешевеет

Аноним 13/02/26 Птн 06:37:29 #186 №1518671

>>1518668
Хотя бы больше не дорожает. Можешь посмотреть на алике, китайцы по сусекам наскребли б\у чипов и сейчас выпускают планки в полтора раза дешевле чем у лаоваев

Аноним 13/02/26 Птн 08:31:26 #187 №1518686

А эир то реально хуета. Кто сейм?

Аноним 13/02/26 Птн 08:50:13 #188 №1518691

Знаете чем стёпа лучше?
Он будет обновляться и мы даже сможем это запустить.
Но уже сейчас он лучше эира

Аноним 13/02/26 Птн 09:11:15 #189 №1518704

Охуеть, да? Внезапно модель может просто работать заебись из коробки и никакого пресета не нужно, на любом промпте и дефолт семплерах.

Аноним 13/02/26 Птн 09:23:55 #190 №1518709

>>1518704
О какой модели речь? И что ты подразумеваешь под "работать"? В целом и мелкий мистраль на любом пресете тебе будет что-то отвечать, то есть "работать".

Аноним 13/02/26 Птн 09:37:56 #191 №1518718

>>1515560 →
>Прямо смеха не то чтобы, но восторг, восхищение, усиление - да.
Познакомился с нейронкой начиная с llama 3 1b. Она ограниченная, чуть что, предлагала сразу донести на себя в полицию. Я в джунглях амазонии, нету тут полиции, она предложила дойти до ближайшего населенного пункта. Я на марсе, средств связи нету. Она сказала из подручных средств собрать радиостанцию и связаться через спутники наса. Прикольнуло.

Было скучно я начал разговор, сам спросив "Чем я могу вам помочь", она в ответ выдала пост про то что ей "Нужно срочно снять двушку в центе сиэтла, близко к центру и меблированную. Дорогие не предлагать. Обращаться в личку." Пост был длинный описывающий практически квартиру мечты за дешево. От неожиданности, очень смеялся.

Аноним 13/02/26 Птн 09:38:33 #192 №1518719

>>1518709
Стёпа. Отличная модель, не нужно граммар блоки писать блять, менять темплейт на хуй пойми какой, промпт по крупицам собирать чтоб оно не обосралось, всё просто работает.
И будто этого мало, оно ещё и быстрее работает, легче и прочнее контекст, умнее, бля да бомба вообще модель в сравнении с эиром и квеном

Аноним 13/02/26 Птн 09:41:59 #193 №1518723

>>1518718
Я завидую этому человеку черной завистью. Ему для счастья никакой ЛЛМ не надо.
>>1518719
Надо будет схоронить тогда, может, однажды запущу.

Аноним 13/02/26 Птн 09:46:44 #194 №1518727

Откуда можно скачать модели? Вбил название в поисковик, выдало официальные сайты и официальный же репозиторий на hugginface где надо заполнять какие-то регистрационные формы.

Интересуют Llama 4, Qwen 3 и Deepseek 3.

Аноним 13/02/26 Птн 10:06:58 #195 №1518742

>>1518631
Ну так своей головой надо думать, а не слушать советчиков в треде. Тут тебе, конечно, расскажут, как быть не мамонтом)))0 и сэкономить.

Аноним 13/02/26 Птн 10:07:01 #196 №1518744

>>1518727
>hugginface
Отсюда и качай. Тебе скорее всего нужна модель формата gguf, которая выкладывается энтузиастами. Они регистрацию от тебя требовать не будут.

Аноним 13/02/26 Птн 10:18:49 #197 №1518747

image.png

>>1518631
Как же заебись довольно урчать со своими Mi50@32Gb по 11к рубасов

Аноним 13/02/26 Птн 10:20:33 #198 №1518750

>>1518747
Ща 1гб ддр по 1.35к рубасов идёт.
Интересно мишки быстрее?

Аноним 13/02/26 Птн 10:21:44 #199 №1518751

изображение.png

Видели тот лот на али с V100 по 30-35к? Когда у других по 40к.
Там ещё два отзыва с разбитыми сокетами появилось.
Вот это насоветовал анон в треде, явно в сговоре с китайцами, лол.

>>1518727
Официальный репозиторий обычно требует ввести что-то вроде фио - цель использования, или просто кликнуть галку что ты не будешь пробовать уничтожить человечество с этой штукой. И ещё там скорее всего модель в полных весах, если ты не исследоваль или разработчик, то тебе нужно искать модель с подпись GGUF, и там уже никаких галочек и форм не будет в 99% случаев, так как она будет не на официальном репе. Хотя некоторые сами сразу GGUF делаю на официальном, но редко.

Аноним 13/02/26 Птн 10:22:29 #200 №1518752

>>1518750
Конечно быстрее. И по pp, и по tg.

Аноним 13/02/26 Птн 10:22:46 #201 №1518753

Откатывайте цены на оперативу уже, пидорасы ебаные.
Какого хуя я должен платить в 5 раз больше с абсолютного нихуя, ничего не поменялось блять.

Аноним 13/02/26 Птн 10:27:04 #202 №1518754

>>1518645
Учитывая какую шизу оно генерирует? Второй вариант ближе к правде. Пока лучший вариант был про гнома-пивозавра находящегося в темнице двемеров которые вымерли в процессе экспериментов с мировой грибницей.

Аноним 13/02/26 Птн 10:27:40 #203 №1518755

>>1518753
>Какого хуя я должен
>>1517395 →

Аноним 13/02/26 Птн 10:28:05 #204 №1518756

>>1518747
Кстати, владельцам мишек, рекомендую их шить в невышедшую v420, потребление в простое меньше, частота гпу выше, работающий ребар, работающий минидп, можно еще и в игори играть, довольно сносно причем, FSR работает

https://gist.github.com/evilJazz/14a4c82a67f2c52a6bb5f9cea02f5e13

Аноним 13/02/26 Птн 10:30:44 #205 №1518757

>>1518747
А схема ещё рабочая? Почём сейчас так-же?

Аноним 13/02/26 Птн 10:31:56 #206 №1518758

>>1518757
Нет конечно, уже дешевле 40к не найти

Аноним 13/02/26 Птн 10:50:52 #207 №1518764

>>1518758
>Нет конечно, уже дешевле 40к не найти
А какой смысл, откуда такая цена? За эти деньги лучше V100 купить же.

Аноним 13/02/26 Птн 11:08:45 #208 №1518777

>>1517890
Наверное.. Всё таки квены создавались всё таки для кодинга и всяких ассистенстких задач. То что мы пытаемся в них в РП и получается говно- дык, это сугубо наши проблемы.
Как бы я не любил МоЕшки, всё таки для общения денс модельки таки будут объективно лучше.
Nyeeeehh~ Неужели для MOE жизнь есть только в 600b жирничах..

Аноним 13/02/26 Птн 11:16:34 #209 №1518783

>>1518764
>А какой смысл
О чём анон и пишет: смысла нет.
>откуда такая цена?
Спрос.
>За эти деньги лучше V100 купить же.
Да.

Аноним 13/02/26 Птн 11:27:32 #210 №1518789

Ого... Некрожелезо из Китая оказалось некрожелезом из Китая. Кто бы мог подумать? Естественный отбор. Жадные до одури дураки хотели скушать больше чем могут себе позволить и не получили ничего. История старая как мир

Аноним 13/02/26 Птн 11:31:33 #211 №1518794

>>1518789
Твой стёб не уместен. Часть анонов получила что заказала.
Могу посмеяться над тобой- не жадиной. Потому что я купил 256гб жижиэр пять до всех поднятий цен.
Если есть возможность рискнуть с неплохим шансом на удачу, почему бы и нет.

Аноним 13/02/26 Птн 11:40:34 #212 №1518800

>>1518789
Почему жадные? Какая была мотивация брать лот за 40к без отзывов при наличии лота за 30к без отзывов? Или лучше было взять у местного перекупщика за 100к?

Ну и не забывай что V100 - для энтузиастов. Для нормальных людей можно набрать 3090 по похожей цене, но с флеш-аттеншеном и без возни с ригом и охлаждением.

Аноним 13/02/26 Птн 11:45:27 #213 №1518805

>>1518744
Я кстати неиронично могу подсказать, где взять 3060/12 подешевке ИЧСХ - новую.

Аноним 13/02/26 Птн 11:47:32 #214 №1518806

>>1517654
как она в плане кума?

Аноним 13/02/26 Птн 11:52:08 #215 №1518809

Ойу, йоу тред! Дискета, скейтборд нейронки!

Смотрите какой новый минимакс будет.
Целых 230b! A10B.

Пожалуйста, дайте степлер, я своё ебало скреплю, а то оно уже разваливаться начинает.

Аноним 13/02/26 Птн 11:54:40 #216 №1518812

>>1518794
>Часть анонов получила что заказала.
>возможность рискнуть с неплохим шансом на удачу
Ну а части не повезло выиграть в лотерею. Они знали на что шли, но им не выпал неплохой шанс на удачу. Мне посочувствовать? Похлопать по плечу? Из-за этого обругать китайца, который очевидно продавал б/у некрожелезо? Обидиться на мир вместе с вами?
>Могу посмеяться над тобой- не жадиной. Потому что я купил 256гб жижиэр пять до всех поднятий цен.
Светанул железом, и к чему это вообще? Я тоже рам купил до подорожания. И вообще я акционер, гречку беру на развес дешевле, чем ее берешь ты. Живи с этим.

Аноним 13/02/26 Птн 11:54:48 #217 №1518813

>>1518805
Ну подскажи. Не держи в себе.

Аноним 13/02/26 Птн 12:01:52 #218 №1518816

>>1518812
>гречку беру на развес дешевле, чем ее берешь ты
Гречка тема. Обожаю тефтельки делать с гречкой. Я сейчас пробую вложиться в макароны и картоху на посадку. Сезонная инвестиция в огород, в общем. Авось осенью получу свои дивиденды.
>Обидиться на мир вместе с вами?
Просто не стебаться над тем, кому не повезло и не нагонять для тех кто еще не получил.

Аноним 13/02/26 Птн 12:03:57 #219 №1518818

>>1518816
Одно дело когда чел предупреждает о проблеме, другое - когда извергает лучи поноса на тред и винит всех вокруг в своей скупости >>1518631
Над такими только стебаться, да.

Аноним 13/02/26 Птн 12:09:02 #220 №1518819

>>1518813
на озоне в официальном магазе CBR (карта производства завода Maxsun, добротный Китай). Время от времени надо караулить скидку, цена за 3060/12 падала даже до 24к с чем-то.

Аноним 13/02/26 Птн 12:32:34 #221 №1518834

Пиздец...
Для меня степфап в разы превосходит эир теперь, вообще без сомнений.
В первые разы реально не распробовал, хуевые свайпы были

Аноним 13/02/26 Птн 12:33:21 #222 №1518835

>>1518834
пресетик

Аноним 13/02/26 Птн 12:36:40 #223 №1518839

Аноны, подскажите нубу.
Насколько GLM-4.7 Flash зацензурен?
С пол года назад пользовался большим дипсиком, но в какой-то момент сабмиссив фурри-персонаж подталкивался мной к скат-плею и тут выяснилось, что дипсик оказывается не любит скат-плей, а мне не интересны забавы с обходами цензуры любых мастей, хочется, чтобы работало из коробки, а не рычагами играться, пробелы там подменять и прочий онанизм.
Ну и раз персонаж - фурри псина, значит на роду персонажу написано жрать всякое мертвое дерьмо, и нечего прикидываться человеком.

Аноним 13/02/26 Птн 12:38:34 #224 №1518840

IMG1465.jpeg

>>1518839
Это ассистент. Не для РП.

Аноним 13/02/26 Птн 12:39:14 #225 №1518841

>>1518839
Ты после дипсика собрался с 3b лоботомитом играть? Лол

Аноним 13/02/26 Птн 12:42:15 #226 №1518845

>>1518835
Буквально всё дефолтное, чатмл мин п реп пен.
3 квант

Аноним 13/02/26 Птн 12:42:40 #227 №1518846

>>1518845
>реп пен.
даже не драй? ну ты устарел чувак о чем с тобой говорить

Аноним 13/02/26 Птн 12:43:17 #228 №1518847

>>1518841
Так ведь 30b?

>>1518840
Вот ведь досада!
А что насчет GLM-4.5-Air-106B-A12B ?

Аноним 13/02/26 Птн 12:47:40 #229 №1518850

>>1518819
>даже до 24к с чем-то
А я-то думал, и правда
>подешевке
Ну ладно, спасибо, что поделился.

Аноним 13/02/26 Птн 12:51:42 #230 №1518853

>>1518847
>Так ведь 30b?
3.2 дипсик в суме чёт около 650B общих и 35b активных.
Если провести аналогию, ты буквально пересаживаешься с грузовика в инвалидку и спрашиваешь, норм ли она для перевозки сена.
Нет, не норм.

>А что насчет GLM-4.5-Air-106B-A12B ?
Есть же список Moe моделей. Там и посмотри.
Но выбора у тебя нет, если честно. Нет ни одной РП МОЕ модели в принципе, мы играемся просто на в меру умных моделях.
Эйр, ЖЛМ и всё. Ну есть еще квены, но эт прям на любителя, так как это в первую очередь ассистенты и работают они как ассистенты а не как нарраторы. Увы, труЪ РП или в гигантах остался, или в денс модельках, которые могут в простой чатинг.
Сейчас все модельки задрачивают на бенчи и определенные задачи, превращая из многопрофильного инструмента, в узкоспециализированный. Отсюда и весь вой.

Аноним 13/02/26 Птн 12:52:04 #231 №1518855

>>1518850
Ну шопаделать, дешевле только б/у пожимает плечами и уходит, покачивая бедрами

Аноним 13/02/26 Птн 12:53:08 #232 №1518856

>>1518855
>пожимает плечами и уходит, покачивая бедрами
Roll 1D100 на жмяк за жопку.

Аноним 13/02/26 Птн 12:53:12 #233 №1518857

>>1518853
Хуйню несешь, утка. Да еще и с серьезным ебалом, типа депутат от треда. Степа есть, Минимакс есть, Квены норм для рп. Это все модели общего назначения. Только GLM Flash и всякие Квен Кодеры заточены под бенчи.

Аноним 13/02/26 Птн 12:59:52 #234 №1518860

>>1518857
>Да еще и с серьезным ебалом, типа депутат от треда.
Ой, да ладно. Тот 235 квен, ну чистый ассистент. Я теперь только им и делаю всякие суммарайзы, и вычитку. Его доёбы до каждого слова спасают, так что его можно в Q3 запустить с большим контекстом и он не становится лоботомитом, теряя всё внимания и пуская слюни.
>Минимакс
Чистейший, кристаллизованный ассистент. Умный, быстрый. Сухой. С первого дня мне понравился. А Her не выложили, лололо.
>Квены норм для рп
Если только плотные и то смысла уже нет. Или ты на кодере предлагаешь в РП? Ну удачи, чё.
Ну то есть, вот мы пришли к тому что я написал. То что квен "умеет" в РП, это баг а не фича и вызвана она просто его размером, и тем что в его датасете есть какая то мешанина из китайской прозы и фанфиков фуриёбов.
>заточены под бенчи.
Да сейчас всё заточено под бенчи. Нужно же показать свой крепкий нефритовый стержень. Сколько вышло medium моделек за последнее время?

Аноним 13/02/26 Птн 13:02:01 #235 №1518863

>>1518860
>Ой, да ладно. Тот 235 квен, ну чистый ассистент. Я теперь только им и делаю всякие суммарайзы, и вычитку.
Забыл уже как пару недель назад срался с тредовичками которые именно это и утверждали? "Да заебись он для рп вы ничего не понимаете"

Короче, ты как долбаеб пишешь и выглядишь когда пытаешься в серьезность. Высрал список моделей какой-то, сразу галстучек затянул типа умный. Тебя из больницы выпустили?

Аноним 13/02/26 Птн 13:03:46 #236 №1518866

>>1518863
Значит в целом ты с тезисами согласен, но решил все таки до меня доебаться?
Хей, свистни в хуй там тоже дырка!

Аноним 13/02/26 Птн 13:07:54 #237 №1518869

>>1518841
Слушай, ну а если перефразировать вопрос?
Скажем я решил упасть в ножки к опен роутеру и либо утилизировать его бесплатные модели или даже занести немножко (чуть больше чем за офф апи дипсика) денежек, на какие модели ты бы порекомендовал обратить внимание? Понимаю, что тред не про это, но раз уж речь зашла.

Аноним 13/02/26 Птн 13:09:20 #238 №1518871

>>1518866
С чем я согласен, с какими тезисами?
С тем что рп остался только на самых больших моделях и плотных? Нет, не согласен.
С тем, что Квен это ассистент? Нет, не согласен. И я один из главных его критиков итт при этом.

Аноним 13/02/26 Птн 13:14:41 #239 №1518874

>>1518751
>Официальный репозиторий обычно требует ввести что-то вроде фио - цель использования, или просто кликнуть галку что ты не будешь
Зависит от. Мне например приходили отказы от террористов из меты, не понравился им чем-то мой институт кума.

Аноним 13/02/26 Птн 13:15:06 #240 №1518875

>>1518869
Это тебе в соседний тред. Тут по корпам (да и огромным открытым моделям тоже) вряд ли подскажут. Если тебе в целом нравится дипсик, но хочется больший уклон в РП, попробуй мистраль лардж последний. Тот же дипсик, но сдобренный мистралевскими датасетами + цензуры поменьше.

Аноним 13/02/26 Птн 13:18:14 #241 №1518877

>>1518871
> С тем что рп остался только на самых больших моделях и плотных? Нет, не согласен
Ах, знаменитое РП с одним персонажем, в дженерик мире, состоящее только из: ахх, ты меня ебешь.
Недавно кодер некст обновили, базарю, лучшее РП для тебя будет. Просто отвал жопы. А потом все сверху зальешь мини Максом и 120oss.

> И я один из главных его критиков итт при этом.
Жаловаться на его стиль повествования, хотя он фиксится одной строчкой, это не критика.

Аноним 13/02/26 Птн 13:19:48 #242 №1518879

>>1518875
Вежливо кланяюсь и сердечно благодарю.

Аноним 13/02/26 Птн 13:19:56 #243 №1518880

>>1518846
Ну так я тещу.
Надо уже твердо решить как мне лучше и с каким промптом и еще не дрочить ультрахард сложность при этом.
Свайпать еще не могу перестать, пишет прям как мне надо как я бы хотел эир писал диалоги - строчка действия а не 2 абзаца - диалоги, при этом активно сюжет развивает пока мы пиздим

Аноним 13/02/26 Птн 13:26:19 #244 №1518893

>>1518839
полностью можно расцензурить системным промптом, он довольно послушный. я бы сказал 2 балла из 10 в зацензуренности. Без системного промпта он будет отказыватся в стиле OSS, но с системным промптом он бех проблем влазил в шкуру кошкодевочки-футанари на уроке школьной биологии.

Но слог у него так себе.

Аноним 13/02/26 Птн 13:35:01 #245 №1518907

На некроговне с 128гб ddr3 2133 лучше в память даже не пытаться?

Аноним 13/02/26 Птн 13:38:00 #246 №1518913

>>1518907
фига ты там. Не ну если видеокарту воткнуть то можно попытаться наверно. самого интересует этот вопрос.

Аноним 13/02/26 Птн 13:41:19 #247 №1518921

image.png

>>1518853
Да, я со списка Мое и начал. Но меня смущает, что он ссылается на базовый glm-4.5-air, хотя существуют скажем abliterated и derestricted версии.

Аноним 13/02/26 Птн 13:42:14 #248 №1518924

>>1518753
Годика три потерпи.

Аноним 13/02/26 Птн 13:43:46 #249 №1518928

изображение.png

>>1518907
>128gb ddr3
Это ж какой сокет/проц это вытянет? Что-то не припомню, чтобы ddr3 вообще можно было стакать больше 32gb.
Энивей, - не пытайся, на llm ddr3 дает 1-1.5 t/s.
С ddr3 cpu-инференс мертв, только gpu. Это я как грустный владелец fx8350 говорю.

Аноним 13/02/26 Птн 13:46:02 #250 №1518932

>>1518928
LGA2011 до 768 гигов ддр3 вроде держал

Аноним 13/02/26 Птн 13:46:09 #251 №1518933

>>1518921
Я не могу говорить за других, но я еще не видел вменяемого тюна или вменяемой аблитеррации мое моделек.
Если аноны считают по другому, спорить не буду.
Но мой личный опыт, сугубо негативен: тот же эйр становится yesman что убивает любое РП, кроме хватательно@пихательного.

Аноним 13/02/26 Птн 14:04:04 #252 №1518967

>>1518928
Двухсокетный старенький сервак на e5-2699 v3.
>llm ddr3 дает 1-1.5 t/s
Ну да, такое он и выдаёт если vram не хватает, думал может секрет есть какой. Спасибо.

Аноним 13/02/26 Птн 14:38:00 #253 №1519033

>>1518631
> тряска усиливается
Это точно, а тебе когда должна приехать? Чтобы не пропустить.
>>1518668
Ждите 2028
>>1518718
Лол, вот где душа!
А ведь реально, ради рофла сделал свайп на большом чате с 30а3 моделью, оно такое милое полотно накатило. Да, немного вне чара и спутало оду вещь, но действительно мило.
>>1518727
Квены и дипсики можно скачивать без форм. Большинство моделей с формами имеют нонгейт зеркала, просто вбей в поиск или кликни на файнтюны и найдешь перезаливы полных весов от тех же анслотов.

Аноним 13/02/26 Птн 14:43:58 #254 №1519045

Когда там бартовски выкатит кванты на глм-5? Не от ленивцев же качать, честное слово.

Аноним 13/02/26 Птн 14:46:09 #255 №1519048

>>1519045
Да нормальные кванты делают. Да, бывают обсираются. Не нагоняй уж жути.

Аноним 13/02/26 Птн 14:46:28 #256 №1519049

>>1519045
Их не будет

Аноним 13/02/26 Птн 14:50:04 #257 №1519058

>>1518800
> без возни с ригом и охлаждением
Так наоборот же, их в основном именно в риги и дополнительными брали, а вольты по одной-две штучки.
>>1518816
> Просто не стебаться над тем, кому не повезло
Такие тут есть? Только один анон писал что у него ошибки по памяти идут, но не указал откуда брал и не отписался решилось ли. Пока только тряска ждунов.
Стебутся над маргиналами и это абсолютно правильно, >>1518818 полностью двачую.

Аноним 13/02/26 Птн 15:12:38 #258 №1519110

Аноны, как вы выгружает слои из MoE самостоятельно и без мозгоебли для получения нормальной скорости? Если ПРОСТО выбрать, сколько выгрузить, то у меня скорость, условные 10 тс (вообще поебать, сколько времени потратишь на настройку).

Если загрузишь в Клода тысячи документаций о принципах работы МоЕ, лламы, слоев, неба, Аллаха, логов, размер контекста, модели, объём памяти и попросишь его написать регулярное выражение для tensors override, то скорость 30 тс и регулярка на пол страницы.

Я просто не понимаю, шо он такое делоет... А когда он сам объясняет.. ну, это сложно и неприменимо на практике для меня, так как оно касается регулярных выражений, а не тыкнуть, сколько выгрузить слоёв.

И у меня складывается впечатление, что там всё зависит не только от забитой памяти, а от того, какие слои в врам, какие в рам. Условно, можно забить 10 врам и скорость будет 20 тс, а можно забить 15 врам и скорость будет 5 тс.

Аноним 13/02/26 Птн 15:18:31 #259 №1519121

>>1519110
1. Я никогда такого не видел, чтобы было 10 и 30. Я в принципе не видел результата лучше, чем если доверится ламе и она сама. Кроме очень специфичного случая, которая при специально подобранных параметрах возникает при контексте от 20к до 24к, а на других числа снова сосёт.
2. Какая ещё регулярка. У тебя там 200 слоёв условных, можно просто список номеров для выгрузки сделать - посмотреть на него глазами и это понятнее будет. Показывай в общем регулярку и что за модель, что за железо.

Аноним 13/02/26 Птн 15:19:15 #260 №1519122

>>1519110
moecpu уже изобрели.
https://github.com/LostRuins/koboldcpp/wiki#overriding-moe-models
>какие слои в врам, какие в рам
С МОЕ число слоёв во врам должно быть равно 999.

Аноним 13/02/26 Птн 15:26:57 #261 №1519139

>>1519110
Допустим в модели 48 слоёв. Ставишь gpulayers - 999, moecpu - 48. Это ты все мое слои выгрузил в оперативку. Далее понижаешь число moecpu до тех пор пока не забьешь всю видеопамять. У тебя получится что-то вроде moecpu - 35. Всё. Что тут сложного?

Аноним 13/02/26 Птн 15:39:02 #262 №1519167

>>1518860
> Тот 235 квен, ну чистый ассистент.
Скиллишью же, в рп он хорош и обладает рядом сильных сторон. К нему все претензии по структурам и стилю письма, а за проницательность, понимание контекста и инструкций, осведомленность и находчивость наоборот похвалы.
Но и как ассистент годный, все подробно распишет, поплюет на смежные темы, и заодно помурлыкает, отыгрывая заложенный образ чтобы было нескучно.
> Если только плотные
Там или мелочь совсем, или поломанная 32б.
> это баг а не фича и вызвана она просто его размером
Лол
>>1518907
Попробуй, расскажешь. Без видюхи смысла точно ноль, с ней есть призрачный шанс что и без avx2 профессор сможет считать линейные слои не становясь бутылочным горлышком.
>>1518967
> v3
Это уже ddr4.

Аноним 13/02/26 Птн 15:48:56 #263 №1519191

>>1519139
Уот так уот и делаю, условно говоря. Чтоб память под завязку при нужном контексте. Но у меня скорость и промпт процессинг намного ниже, чем с регуляркой всё равно.

Я смотрел, что там Клод выгружает примерно, и увидел, что какие-то конкретные слои, разные для каждого кванта и для каждой модели. То есть он может выгрузить какую-то часть с начала, середины, конца. Дёргает на первый взгляд рандомно, но скорость выше. Если я выгружаю столько же слоев в количественном размере, но без регулярки, то оно тупо выгружает с первого до "последнего. Скорость падает.

>>1519122
Здесь ты имеешь в виду что должно быть написано максимальное количество слоёв для гпу или именно цифру 999? Я всегда ставлю, скажем, 48/48, а затем уже с выгрузкой вожусь через регулярку. Там работает всё корректно. Допустим, регулярка выгружает 10 слоев, но какие-то рандомные — не с первого по десятый. Скорость растёт. Если в кобольдыне не использовать регулярку при таком раскладе и просто написать цифру 10 для выгрузки слоев, то драматичное падение скорости ждёт меня.

Аноним 13/02/26 Птн 15:49:59 #264 №1519194

>>1519110
Если лень, то : -ot ".ffn_.*_exps.=CPU" ^
А потом уже ручками кидаю через n-cpu-moe. И только потом, если не устраивает начинаем угабугу с тензорами.

Аноним 13/02/26 Птн 15:56:03 #265 №1519200

>>1519167
>Скиллишью же
Арбвыгх
>в рп он хорош и обладает рядом сильных сторон
Я знаю, я неиронично предпочитаю квен в Q4 нежели GLM 4.7. Но объективно, тот же GLM проще и так не насилует.

>по структурам и стилю письма,
Сколько людей, столько и мнений. Вообще нет нареканий к стилю, меня просто в агрессивную макаку превращает его имперсонейт и тот факт, что его недостаток проистекает из его преимущества. Он просто не знает когда в РП заткнуться и какую информацию стоит говорить, а какую упустить. Ну чистейший ассистент с его: всё что есть, должно быть использовано, иначе его бы тут не было.

>Там или мелочь совсем, или поломанная 32б.
А другого и нет, хуле. Душу бы отдал за какого-нибудь литератора в 200b-A30B.

Но как оказывается, компания сделавшая упор на небольших агентов, продолжает выпускать небольших агентов. Базарю, новый квен будет очередной малыхой.

Аноним 13/02/26 Птн 16:05:22 #266 №1519217

>>1519200
>имперсонейт
Фиксится одной строчкой, недостатком не является.

Аноним 13/02/26 Птн 16:05:46 #267 №1519219

>>1519200
> в агрессивную макаку превращает его имперсонейт
Что это значит, типа пишет твои действия, речи и прочее? Если так то похоже что это сильно зависит от конечный условий, у себя встречал гораздо реже. Даже наоборот, иногда удивляло насколько он может насочинять полотно, где с одной стороны будет и интересное развитие, а с другой ничего лишнего. Из действий юзера только "Ты наблюдаешь за..." и дальше описание. Там хватает за что поругать другого.
> Душу бы отдал за какого-нибудь литератора в 200b-A30B.
Может новый минимакс или их рп версию выпустят. Да, активных мало, но надежда что будет неплохо есть.
Вообще ко всем этим плюсами и минусам моделей стоит философски относиться. Что-то бесит и не получается победить настройками - сменить на другую. Со временем под разные чаты сразу конкретную будешь ставить, ожидая что именно там она себя проявит.

Аноним 13/02/26 Птн 16:06:00 #268 №1519220

>>1519217
Нет, не фиксится одной строчкой. Является недостатком.

Аноним 13/02/26 Птн 16:07:16 #269 №1519223

Сука вам всем в рот что ли нассать.
Все модели это ассистенты кодеры, не было еще опенсорс модели которая бы тренилась для рп и только потом для кода
На чем вы рпшите тогда и нахуй тут сидите

Аноним 13/02/26 Птн 16:08:16 #270 №1519225

>>1519220
Ну ты же переносы одной строчкой пофиксил. А я вот имерсонейты. Потерпишь.

Аноним 13/02/26 Птн 16:08:46 #271 №1519226

>>1519191
А если не маяться всей этой херней и просто загрузить модель с -fit on? Он по дефолту включен, его даже прописывать не нужно.

Автофит уже давно МОЕ распознает и учитывает как надо, по сути сам тебе n-cpu-moe посчитает нужное. Там только с --fit-target поиграться останется, который 1024 МБ по дефолту (у меня 16 стоит).

У меня ни одна модель лучше чем с автофитом не работает. Хоть с регулярками, хоть со --split-mode row и вообще чем угодно.

Аноним 13/02/26 Птн 16:14:24 #272 №1519232

>>1519225
Вот только
>Write in normal prose without unnecessary line breaks
Работает
>А я вот имерсонейты. Потерпишь.
А вот это не работает.
Ты с такой претензией уже не в первый раз заходишь, что за цикл уробороса. Ну да, квен подхватывает общую структуру чата, неожиданно. Правило что вошло то и вышло, тут самое актуальное, о чем ни раз говорили. Но ты продолжаешь считать, что я от тебя скрываю какой то вселенский секрет.

>>1519219
>Что это значит, типа пишет твои действия, речи и прочее?
Если есть карточка персонажа, где твой {{user}} прописан, то на минимальном промте, происходит следующая картина:
{{user}} заходит в помещение.
Моделька описывает ситуацию, и тут бы ей закончить. Но если по смыслу требуется продолжение, она не ждет твоих действий, а начинает хуярить дальше сообщение, как главу в книге, где твой персонаж будет говорить в рамках сюжета и своей карточки.

Аноним 13/02/26 Птн 16:20:10 #273 №1519239

>>1519232
>Правило что вошло то и вышло, тут самое актуальное, о чем ни раз говорили.
Да. Именно поэтому у тебя имперсонейты. Как же заебали чсв хуесосы, которые всех вокруг считают неосиляторами, зато когда у них происходит прокак под себя - это точно моделька виновата, а не кривые руки. У меня квен не имперсонейтил никогда.

Аноним 13/02/26 Птн 16:22:41 #274 №1519243

>>1519232
> карточка персонажа, где твой {{user}} прописан
А? Что?
Юзер, обычно, прописан в персоналити. Чтобы все лучше парсилось, стоит не полениться, и на вкладке системного промпта накидать маркдаун или xml по структурам, чтобы было не просто навал системный-карточка-... и указано что это сценарий и описание чара, это примеры и т.д. Совсем простое действие, а качество ответов улучшает на любой модели. В паре карточек где есть что-то про юзера проблем не создавало.
> а начинает хуярить дальше сообщение, как главу в книге
Ну это промпропроблемы какие-то. Там случаем не "промпт от васяннейм" где описано как какать?

Аноним 13/02/26 Птн 16:30:28 #275 №1519248

>>1519239
>Как же заебали чсв хуесосы, которые всех вокруг считают неосиляторами
Я уже не в первый раз отмечаю, с какой агрессией ты меня то проплаткой, то квеношизом, что ЧСВ хуесосом - называешь.
Вижу попытку имперсонейта с твоей стороны, лул.
Если для тебя чужое мнение, которое не согласно с твоим это признак ЧСВ, то ты просто самовлюбленный дурак. Сорян, но сам напрашиваешься.
давай я продублирую: я не называл тебя неосилятором.
Тебе словно нужен кто кто с кем ты будешь бороться в этом треде. Давай сразу на таскание на хуях перейдем, зачем тратить время.

>У меня квен не имперсонейтил никогда.
Тогда ты избранный. Склоняюсь перед вашей волей.

>>1519243
>Чтобы все лучше парсилось, стоит не полениться, и на вкладке системного промпта накидать маркдаун или xml по структурам
Маркдаун какого типа? А то я неиронично уже многое перепробовал. Я пробовал отдельно заворачивать в теги карточку {{user}}. Саму {{char}}. Префилы, SP, даже, блдждад, в СT отсебятину хуярил.
Бесполезно.

>Там случаем не "промпт от васяннейм" где описано как какать?
В том то и дело, что нет. Опытным путем установил, что лучшую выдачу 235ый дает с предельно кратким промтом, в духе : ты рассказчик, в этой невъебенной истории, вот и рассказывай, а я подрочу.

Аноним 13/02/26 Птн 16:32:40 #276 №1519255

>>1519033
>Лол, вот где душа!
мои старые систем промты с душой(даже на мелких неиронках):
you are messaging from a good place, supercharged with positivity. describe your environment. do actions. be physically touchy. don't mention ai. respond in russian, no translation

или просто

you are supercharged with positivity. do actions. be physically touchy. don't mention ai

>>1518723
>Ему для счастья никакой ЛЛМ не надо.
Ну просто пытался нестандартно подойти. Я говорю так как будто я на сцене разговариваю с залом, неиронка этого не знает, я пытаюсь ее расшевелить. Кто хочет обнимашек поднимите свои руки. Она что-то свое там говорит, я полностью это игнорирую, мне нужен ответ где она описывает что подняла руку. Что никто не хочет обнимашек?. А она такая, Да, походу никому твои обнимашки не нужны.. Не помню уже, было много попыток заставить ее выйти на контакт через условия которые я предлагаю, но не ей напрямую. Я как бы обращаюсь к множеству а она просто присутствует. В определенный момент она наконец ответила как я от нее хотел и я как телепроповедник говорю Благословляю тебя святым духом машины. В ответ разразилась монологом того как она закрывает глаза и чувствует как в нее вселяется дух машины, и она становится полубогом. Было мило что позволила мне смертному задавать ей свои смертные вопросы.
Прикол в том что весь предыдущий разговор и попытки ее расшевелить, действуют на ее ответы как ядерная солянка, ее в какой-то момент может прорвать на дикие лулзы.

Аноним 13/02/26 Птн 16:35:27 #277 №1519259

>>1519248
>не в первый раз отмечаю, с какой агрессией ты меня то проплаткой, то квеношизом, что ЧСВ хуесосом - называешь
Попробуй не играть в аваркофажество и наконец принять что здесь не два анона, а сообщество по интересам. Жму руку тем кто называл тебя хуесосом, заслуженно.

Аноним 13/02/26 Птн 16:37:04 #278 №1519263

IMG4569.jpeg

>>1519259
>аватаркофажество
>нет ни одной аватарки
Тебе лечиться надо и боюсь обычный врач уже не поможет, как бы не уходил в турбосеменство.

Аноним 13/02/26 Птн 16:37:09 #279 №1519264

>>1519248
> Маркдаун какого типа?
# Самый крупный заголовок
## Заголовок следующего уровня
...
> Префилы, SP, даже, блдждад, в СT отсебятину хуярил.
И зачем такие сложности. Скинь какую-нибудь карточку с которой играешь и имеешь проблемы, попробую при случае.

Аноним 13/02/26 Птн 16:43:19 #280 №1519272

Квен говно. Зачем он нужен когда есть Степа

Аноним 13/02/26 Птн 16:50:40 #281 №1519284

>>1519264
># Самый крупный заголовок
>## Заголовок следующего уровня
А, это... Ну вообще пробовал, но каюсь, у меня еще всё это часто в мешанине с html разметкой.
Там какая структура.
Всё идет как надо пока рано или поздно чат не приходит к общей структуре
<описание действий и заявки пользователя>
<реакции персонажей>
<основной нарратив>
И вот спустя, сообщений 15-20 в чате и начинается, словно он накапливает критическую массу повторений фраз user, описаний его действий и не различая уже кто где кто, начинает хуярить повествование самостоятельно за {{user}}.

И чтобы этого не было, ты как мейда бегаешь по чату за ним убирая.

Аноним 13/02/26 Птн 16:51:11 #282 №1519286

>>1519191
>Здесь ты имеешь в виду что должно быть написано максимальное количество слоёв для гпу или именно цифру 999?
Разницы нет, эффект будет один.
>вожусь через регулярку
Вот moecpu и решает эту проблему.
>>1519226
Я не он, но у меня fit сосёт в мультиГПУ конфиге.
>>1519264
># Самый крупный заголовок
>## Заголовок следующего уровня
База. Хотя конечно надо понять, нужны ли двоеточия, какие переводы строк и прочее.

Аноним 13/02/26 Птн 16:54:11 #283 №1519294

>>1519272
Я что-то даже не скачивал, думая что я её не запущу.
Сейчас что-то посмотрел, и выходит даже 6 квант влезет.

Как вообще, для модели такого размера "эффект дипсика" проявляется, что можно уже в 3 бита или в 2 бита запускать? Или там всё так же нужно 6 бит и выше, как и на 30B?
У меня вроде как в 4 квант влезет minimax, который я тоже не пробовал и в 5 влезет степа.

Аноним 13/02/26 Птн 17:12:20 #284 №1519327

https://huggingface.co/MiniMaxAI/MiniMax-M2.5/tree/main

M2.5 вышел

Аноним 13/02/26 Птн 17:24:44 #285 №1519348

>>1519327
Я его потрогал. А этот неплох. 2.1 хотелось тапком в морду отпиздить а этот вполне даже функциональый

Аноним 13/02/26 Птн 17:42:16 #286 №1519380

>>1519284
Похоже что это действительно следствие накопления большого количества действий юзера в истории. Но бля, у меня оно их не пишет, только реакции чаров, или если прямой запрос на полотно с описаниями что да как.
Нет ли каких-то инструкций, которые заставляют такое делать? Без шуток посмотри что там таверна шлет, сам несколько раз натыкался на какую-то херню, которая то в заметках, то в дополнительных оверрайдах карточек залезала и скрыто гадила.

Аноним 13/02/26 Птн 17:43:17 #287 №1519382

изображение.png

>>1519327
Где ггуфы?

Аноним 13/02/26 Птн 17:54:18 #288 №1519406

>>1519122
>должно быть равно 999
>>1519139
>Допустим в модели 48 слоёв
>Ставишь gpulayers - 999
Что тут за культ 999? Я понимаю, когда точно не знаешь кол-во слоёв, хуячишь 999, больше чем есть, не выгрузит. Но когда знаешь, что 48, что мешает написать 48?

Аноним 13/02/26 Птн 17:57:51 #289 №1519416

>>1519406
Культ 99 тут, не 999

Аноним 13/02/26 Птн 17:58:52 #290 №1519421

>>1519406
Хуячить одно заведомо рабочее число проще, чем запоминать число слоёв для всех моделей.

Аноним 13/02/26 Птн 18:01:05 #291 №1519425

>>1519421
А потом "ой, я не знаю, а как выгружать? а что? а куда?". Не лучше ли понимать, с чем работаешь?

Аноним 13/02/26 Птн 18:19:35 #292 №1519463

>>1519416
>Культ 99 тут, не 999
Я вот тоже... Но это надо изживать, это всё от бедности нашей. Иностранцы ставят 999 даже с 16гб ВРАМ.

Аноним 13/02/26 Птн 18:28:14 #293 №1519474

image.png

>>1519382

Аноним 13/02/26 Птн 18:41:15 #294 №1519499

>>1519380
>Но бля, у меня оно их не пишет, только реакции чаров, или если прямой запрос на полотно с описаниями что да как.
Хммм...
Хмммм...
Пойдем смотреть. Ты какие кванты используешь? Я UD-Q3_K_XL для рабочих задач и UD-Q4_K_XL для РП.
Надо бы наверное скачать polkaкванты, авось я сам себе буратино. А может и нет, хуй его знает. Но если нет имперсонейта, то поковыряюсь.

Аноним 13/02/26 Птн 18:55:35 #295 №1519541

Ну что же выход стёпы показал что в этом треде не осталось людей, только боты.
Уверен и с выходом эир 5.х так же будет гробовое молчание и обсасывание проблем квена и на чем там еще макака их тренил

Аноним 13/02/26 Птн 18:56:54 #296 №1519542

>>1519541
Сделай скрины чата, напиши своё мнение. Аноны почитают, попробуют. Что обсуждать?
Сообщение состоящее из: бля, сёпа охуенен?

Аноним 13/02/26 Птн 18:58:47 #297 №1519550

>>1519542
Ну вот, буквально бот.
Будь ты не бот был бы рад попробовать новую модельку и оставить мнение, да хоть "бля степа охуенен", а иначе что мы тут делаем

Аноним 13/02/26 Птн 19:00:28 #298 №1519554

А по новому Минимаксу уже есть отзывы? Интересуют для РП.

Аноним 13/02/26 Птн 19:01:49 #299 №1519557

>>1518398
Есть ещё годнота, которую стоит добавить?
Обязательно:GLM-4-32B-0414
Годные тюны (не ломающие форматирование):
Gemma-3-Fornax-V3-27B
Hearthfire-24B
По моему все квены до 32b включительно полное говно для РП. И форматирование и логика и сухость - все недостатки. 30b-A3B еще более шизовое даже на IQ4_XS. (Пресеты-параметры официальные брал)

Аноним 13/02/26 Птн 19:03:14 #300 №1519561

>>1519550
Я больше гуфов минимакса жду. Вот выйдет, попробую отпишусь.
Нэ?
Только бы винчик, только бы винчик

Аноним 13/02/26 Птн 19:36:09 #301 №1519625

>>1519499
На ud3 легко может быть, когда-то пройдясь от ud2 вверх могу сказать что поведение меняется значительно. На q4-q5 по идее уже норм должно быть. Скорее больше промпты-формат и прочие.
7bpw с подмененными эмбедами и атеншном на оригинальные, не факт что от этого есть какой-то эффект кроме плацебо
>>1519541
Ну нет времени все-все катать и впечатлениями делиться, чтобы потом еще спорить. Чтобы норм мнение составить нужно обстоятельно поиграть, а это требует времени. Милфомистраль и жлм5 явно приоритетнее чем а10б скоростное моэ о котором первично негативно отозвались. Для прикладных вещей кодернекст значительно легче по потребляемым ресурсам и уже достаточен, а для чего-то посерьезнее жирнокодер и жлм4.7 всяко лучше будут.

Аноним 13/02/26 Птн 19:43:55 #302 №1519633

>>1519541
А на него была надежда?
>>1519561
Предыдущий ничем не впечатлил.

Аноним 13/02/26 Птн 19:46:32 #303 №1519636

>>1519633
>Предыдущий ничем не впечатлил.
Мне понравилась скорость, русский язык (Не, серьезно, на минимаксе русский язык даст пососать моделям побольше), в целом его внимательность.

Аноним 13/02/26 Птн 19:57:41 #304 №1519653

>>1519636
кстати вот чего нету у этой твари так это внимательности. у этого пидора память дырявая как сито. 2.5 не сильно лучше, но более сообразительный.

Аноним 13/02/26 Птн 20:09:29 #305 №1519670

>>1517458 (OP)
Ссылка битая:

• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets

Аноним 13/02/26 Птн 20:33:57 #306 №1519706

Там галематью 5 смержили в жору. Айда тестить на кокбенче и в ваших карточках.
бтв контекст жрёт меньше врам, но 7 tps на пустом контексте это грустно

Аноним 13/02/26 Птн 20:34:34 #307 №1519711

чел в прямом эфире 2 квант заливает лол
https://huggingface.co/DevQuasar/MiniMaxAI.MiniMax-M2.5-GGUF

Аноним 13/02/26 Птн 21:01:10 #308 №1519766

>>1519223
Какой код на 1б, 3б, 8б, 24б?

Аноним 13/02/26 Птн 21:03:09 #309 №1519770

Вот что хочется сказать. Квен хоть и быстрее, но чаще обсирался на ровном месте, выдавая хуйню и галлюцинируя. Глм 5 уже работает адекватно и выдаёт нормальный кум, но он медленнее чем глм 4.7.
Если что, все кванты минимум q4_k_m.

Аноним 13/02/26 Птн 21:07:47 #310 №1519776

>>1519770
На iq1xxxxs кум норм?

Аноним 13/02/26 Птн 21:09:13 #311 №1519779

>>1519770
>Если что, я очень пиздатый, все посмотрите на мой квант
Очень интересно демдальш

Аноним 13/02/26 Птн 21:40:44 #312 №1519856

Откуда столько асигодаунов в тред набежало? Это они с вот этой новости >>1518363 так одурели?

Аноним 13/02/26 Птн 21:53:01 #313 №1519875

>>1519856
Нищета с тремя V100?

Аноним 13/02/26 Птн 21:58:15 #314 №1519890

Два манямнения на Степу большую Шлепу 3.5 https://huggingface.co/stepfun-ai/Step-3.5-Flash

Для начала званый ужин с Аноном99, мы много обсуждали но вставлю с его ободрения один из последних обменов, где он подитожил свои опыты
"Не понимаю, откуда у Степа положительные отзывы в контексте рп и креативных задач. На Реддите и в Дисе есть мнение, что с включенным ризонингом это чуть ли не большой GLM. Причем это заявляют пользователи апи. На Q4KM-Q5KS квантах (официальный и Бартовского) с FP16 контекстом он рассыпается уже в рамках одного длинного аутпута, противореча сам себе, выдавая в ризонинге одно, а в финальном аутпуте другое (что на самом деле кейс всех ризонинг моделей, которые я пробовал). Думаю, букетно-конфетный период закончится, и все вернутся к знакомым моделям. Имхо - это всё от того, что доступные модели приелись, а новинок не так много. И потому что никто не хочет включать голову, чтобы разнообразить свою игру новым промптом и новыми подходами, чтобы получать новый результат на старых моделях. Но не суть. У Степа попросту нет сильных сторон, которые его выделяли хотя бы на фоне Air, а он меньше вдвое(!). Степ сухой, ему нужно разжевывать промпт, и даже так, с разжеванным промптом, фейлит обозначенные задачи. Разделять знания различных сущностей он может только при использовании с ризонингом. Даже не так, с ризонингом у него какие-никакие тормоза есть. А если играешь без ризонинга - все секреты, недосказанности и подковерные интриги вылезуют как можно быстрее. Играешь с ризонингом - продержишься где-нибудь до 25-30к, а потом уже и без разницы, что есть он, что нет, модель рассыпется. Инструкциям следует одновременно хорошо и плохо: следует им буквально. Скажешь ему быть гейм мастером и опишешь, что входит в его обязанности - именно это и будет делать. Не опишешь подробно - ничего не будет делать толком. Никогда не выкинет что-нибудь новое, интересное, проигнорирует твои вопросы. На том же Air или Квене напишешь посреди инпута "What did he see?" и получишь ответ отдельным параграфом или хотя бы парой предложений, а на Степе - нет. Вкусный размер у модели (24+128 это как раз 200-230б в Q4), хорошая скорость (быстрее всего, что я могу запустить в категории 100б и выше), очень легкий контекст (могу уместить 128к, у других моделей 32к), но толку от этого всего в креативных задачах нет. На коде я его не тестировал, пока не было необходимости. Но думаю, будет лучше GPT OSS 120б и, может быть, даже последнего Квен Кодера 80б."
"Не знаю, как у тебя, а у меня лучший опыт среди МоЕ моделей был на Air Q6 и Квене 235 Q4, а тестил я всё вплоть до 4.5-4.7 в Q2. Хотя Квен меня победил своим репетишеном и слопом, он классный. Действительно на другом уровне держит контекст в сравнении с остальными доступными мне моделями. И обладает каким-то характером, дерзостью, которых нет у остальных."

У меня мнение менее радикальное, хотя мб просто тот самый букетный период еще не кончился. С ризонингом Степа реальный умный, точно умнее Эйра и может даже Квена. Когда работает. Когда не работает можно свайпнуть как это делают многие на том же Эйре. Пишет не так круто и литературно как Эйр, наверно на уровне Квена, только без поехавшего форматирования. НО! Реально впечатляет как он читает между строк. Да, он не может эти выявленые нюансы обрамить в красивой литературной форме, но замечает же. Эйр игнорирует то что Степа заметил. Попробуйте, если не можете запустить модели уровня 4.5 и выше, мб понравится

Аноним 13/02/26 Птн 22:02:16 #315 №1519899

>>1519890
Внимание, воздуха в грудь набрал?
Скилл ишью.
Пресетика не будет, терпи.

Аноним 13/02/26 Птн 22:05:07 #316 №1519907

>>1519899
У меня все просто как квас Очаковский. Температура 1, минп 0.05, штраф за повтор 1.05, потому что DRY вроде как использовать с ризонингом незя. И ChatML, ну тот, который самый сложный на практике

Аноним 13/02/26 Птн 22:05:12 #317 №1519908

image.png

>>1519890
Засумарайзил простыню, не благодарите.

Аноним 13/02/26 Птн 22:15:43 #318 №1519940

Минимакс новый евероятный кал в рп.
Демдальш.

Аноним 13/02/26 Птн 22:17:59 #319 №1519948

>>1519890
> есть мнение, что с включенным ризонингом это чуть ли не большой GLM. Причем это заявляют пользователи апи.
> На Q4KM-Q5KS квантах (официальный и Бартовского) с FP16 контекстом он рассыпается уже в рамках одного длинного аутпута
Столько дефирамб и рассуждений, а очевидной мысли про вечнополоманного жору не пришло?
Ситуация кстати забавная, ведь если говорить про не самые свежевышедшие модели, уже у апи-зависимых выше шанс попасть на полный шмурдяк с двухбитным кэшем.

Аноним 13/02/26 Птн 22:18:40 #320 №1519951

>>1518777
> денс модельки
А о каких конкретно моделях речь?

Аноним 13/02/26 Птн 22:20:15 #321 №1519958

Спасение пришло откуда не ждали.
https://www.dns-shop.ru/product/0f27a7beca90d9cb/operativnaa-pamat-sodimm-graviton-oem-sdr-8g4-usdm01-8-gb/

Аноним 13/02/26 Птн 22:21:26 #322 №1519961

>>1519948
>пук
Мы не считаем что Жора сломан. Если считаешь иначе то милости прошу расписать свой опыт. Поддержку Шлепы 3.5 в Жорике кстати сделали сами авторы модели

Аноним 13/02/26 Птн 22:22:09 #323 №1519963

>>1519961
>Мы
Какая неделя беременности?

Аноним 13/02/26 Птн 22:26:07 #324 №1519972

>>1519958
>SO-DIMM
Но всё равно проорал.

Аноним 13/02/26 Птн 22:28:38 #325 №1519978

>>1519961
> Мы
Кто мы? Таблетки не забывай.
> сделали сами авторы модели
Согласно тренду, вещи за авторством не основных мейнтейнеров часто получается поломанным. Чаще чем у команды, что значит очень часто.
Пусть модель отлежится, там уже видно будет.

Аноним 13/02/26 Птн 22:29:30 #326 №1519985

>>1519255
>Прикол в том что весь предыдущий разговор и попытки ее расшевелить
это максимально унылое занятие, а тебе весело.

Аноним 13/02/26 Птн 22:32:11 #327 №1519994

>>1519948
Очевидной мысли что Жора работает, а модель ну действительно такая себе, твой светлый ум не посетила? Возможно, Стёпа-шиз не выдумка и сидит через API.

Аноним 13/02/26 Птн 22:33:15 #328 №1519995

>>1519972
там есть адаптер в DIMM!!!

Аноним 13/02/26 Птн 22:35:10 #329 №1519999

>>1519958
>8гб за 5к
Бля лол. Летом брал кингстон 64гб за 8.5к на озоне по скидке + применил бонусы озона. До сих пор жалею что 128гб не купил по таким ценам. Но кто ж блять знал...

Аноним 13/02/26 Птн 22:37:42 #330 №1520004

>>1519978
>Кто мы? Таблетки не забывай.
У нас конфочка на четверых шизиков. А хотя хуй знает, мб и правда выдумал их
>Пусть модель отлежится, там уже видно будет.
Пон пон. Мне постик свой удалить? Когда к тебе за разрешение прийти в следующий раз?

Аноним 13/02/26 Птн 22:42:11 #331 №1520011

>>1519994
Откуда такой радикализм? Если ты видишь что опыт разнится с уже имеющимся трендом, и он целиком опирается на что-то потенциально ненадежное и неподконтрольное тебе - стоит хотябы сделать допущение об этом, перед сочинением таких полотен в противовес общему мнению. Ситуация с флешем только только, а уже забыли.
>>1520004
Учитывая как порвался на ровном месте - удаляй, калфоблядок - не человек.

Аноним 13/02/26 Птн 22:46:45 #332 №1520017

>>1518764
Пока не было по ним инфы толковой и тулинга брали только энтузиасты, как только тема созрела их выгребать начали сотнями, а 32гб версия была чем-то вроде спец заказа. Вот и вышло что спрос вырос, а предложение упало

Аноним 13/02/26 Птн 22:49:38 #333 №1520020

>>1520011
Квеношиз-эксламер класический. На ровном месте обесценить фидбек набросом без пруфов что Жора сломан и предложить таблеток попить эт норм, получить ответочку - ну такооое. Нельзя ж просто мимо пройти если не согласен, это не база треда
Ждем твои логи с эксламы на длинных контекстах, когда/если ее поддержку добавят. Чмок

Аноним 13/02/26 Птн 22:52:48 #334 №1520024

>>1520011
> перед сочинением таких полотен в противовес общему мнению.
Не припомню, чтобы в треде было общее мнение на тему Степа. Тем более положительное. Сам-то таблеточки пить не забываешь?
>>1520020
> когда/если ее поддержку добавят
Если ты верно задетектил, это многое объясняет. Этот долбаёб никогда не упустит возможность ущипнуть Жору. Особенно когда он вынужденный обладатель отсутствия (примечание: на момент 13.02.2026 22:52 по МСК, поддержки Степа в Эксламочке нет и пока даже не близко)

Аноним 13/02/26 Птн 22:55:27 #335 №1520026

>>1520020
Нытик классический, на ровном месте ущемиться от нейтрального и очевидного вопроса. Ну камон, нельзя же такой обиженкой быть.
>>1520024
> Не припомню, чтобы в треде было общее мнение на тему Степа
Там же цитата выделена, он сам говорит про общее мнение апи юзеров и резкое несогласие с ним.
> возможность ущипнуть Жору
А, то есть похвалу про то, что он лучше среднего апи мы игнорируем? У кого что болит, классика.

Аноним 13/02/26 Птн 22:57:45 #336 №1520027

>>1520026
>ущемиться от нейтрального и очевидного вопроса
Когда ты пишешь, это нейтральный и очевидный вопрос. Когда пишут они все, кто не ты это подрыв и ущемление. Ну точно квеношиз-эксламер классический. Читаешься как паттерны Эйра на дефолтном шаблоне ей богу
Пикчу Михалкова сами представите, лень приносить

Аноним 13/02/26 Птн 23:01:05 #337 №1520029

>>1520026
> Там же цитата выделена, он сам говорит про общее мнение апи юзеров
Все что нашел в том посте, это "есть мнение". Это разве то же самое что и "общее мнение"?
У нас в треде Степу и вовсе захейтили. Только один отзыв положительный был.

Аноним 13/02/26 Птн 23:04:54 #338 №1520035

>>1520027
>Читаешься как паттерны Эйра на дефолтном шаблоне
Чатмл шизик называет кого то шизиком, лул

Аноним 13/02/26 Птн 23:22:49 #339 №1520047

>>1519890
Запускаю в q3 и хз кто тут прав. Не покидает ощущение что распердолить Степана получится, нужно вот-вот немного поковырять промты. Чувствую себя осликом с морковкой. Он умный, но часто скучный. Возможно я тупо коупю, что смогу получить и то, и другое при помощи промта, когда надо менять модель...

Аноним 13/02/26 Птн 23:25:14 #340 №1520051

>>1520035
>>1520027
Давайте уже поставим точку в этом споре. Несите скрины аутпутов эйра в одном и том же РП, но с разными темплейтами, родным и чатмл.

Аноним 13/02/26 Птн 23:30:54 #341 №1520058

>>1520051
Не, сам разберешься, сорян

Аноним 13/02/26 Птн 23:31:42 #342 №1520059

>>1520051
Какую точку? Чатмл шизик вообще с неба свалился, потом его подхватил нюня какого то хуя и пошло поехало.
Вообще неинтуитивно ставить чужой темплейт для модели, все "улучшения" это плацебо ебаное, просто свайпай чаще, редактируй текст и всё, все равно ты это будешь делать и на чатмл.
Модель тренили на своём темплейте, все бенчмарки на нём проводили, вообще все кроме пары анонов в этом треде используют родной темплейт и при этом всё ещё хвалят модель и любят.

Аноним 13/02/26 Птн 23:33:00 #343 №1520064

image

>>1520058
Самый быстрый слив чатмл-шиза на диком западе

Аноним 13/02/26 Птн 23:34:47 #344 №1520068

>>1520059
>>1520064
Профит с тобой делиться какой, сём сёмыч? Вот про Шлепу можно вкинуть и почитать что тредовички думают. Ты что можешь кроме какашек своих предложить? Мы вот проводили свои тесты и бенчили Эйр на глм шаблоне и чатмл. Зачем делиться с тобой?

Аноним 13/02/26 Птн 23:35:45 #345 №1520072

>>1520027
Главное в расследовании не выйти на самого себя, иронично. Отпустит - перечитай нить.
>>1520029
Ну вот участок полный, смотри
> На Реддите и в Дисе есть мнение, что с включенным ризонингом это чуть ли не большой GLM. Причем это заявляют пользователи апи. На Q4KM-Q5KS квантах (официальный и Бартовского) с FP16 контекстом он рассыпается уже в рамках одного длинного аутпута, противореча сам себе, выдавая в ризонинге одно, а в финальном аутпуте другое (что на самом деле кейс всех ризонинг моделей, которые я пробовал).
Сначала пишет что есть установившееся мнение что модель хороша и тут же говорит что у него она буквально ломается.
Если раньше в треде высказывалось мнение о том, что тот не держит секреты и путает сущности - в него веришь, потому что такое действительно встречается. А когда говорится что модель рассыпается, при том что она свежевышедшая, на новой архитектуре, вмерджена вчера - инфиренсопроблемы это первое что напрашивается. И чего на это так агрессивно реагировать?

Пиздос бля, превратили тред в помесь сжв комьюнити, где у каждого they/them описан длинный перечень триггеров, и пмсной пизды, которая пока пока ты был в душе четырежды с тобой поссорилась, трижды помирилась и из журчания воды осознала что ты изменяешь с ее подругой. Теперь видим и признание калфаблядков кто за этим стоит.

Аноним 13/02/26 Птн 23:40:56 #346 №1520080

image

>>1520068
>сём сёмыч
Таблетки прими, шизик.

Аноним 13/02/26 Птн 23:42:47 #347 №1520087

>>1520072
>пишет что есть установившееся мнение
"Есть мнение". Ты характеристику сам приписываешь. То же самое что блять "существует точка зрения". Здесь заложено где-то что оно превалирующее? Или хотя бы популярное? Оно даже там, на Редите и в Дисе не так распространено
>превратили тред в помесь сжв комьюнити
Тут даже люди с одной позицией метают друг в друга говно, потому что ну а как иначе? О чем ты вообще
>признание калфаблядков кто за этим стоит
Ну дыа, сам придумал проблему, сам ткнул пальцем на ее источник. Ни то жир, ни то нытье деда на ровном месте и хз что тут ответить. Неужели так потряхивает что кто-то где-то собрался и обсуждает твое хобби не в общей помойке за гаражами

Аноним 13/02/26 Птн 23:51:03 #348 №1520099

>>1520059
Ну я вот еще давно попробовал и так и сижу на чатмле. Не вижу смысла об этом вещать в треде.
>>1520087
У него контекст квантован, наблюдательные треловички давно поняли.

Аноним 13/02/26 Птн 23:52:01 #349 №1520101

>>1520087
> "Есть мнение". Ты характеристику сам приписываешь. То же самое что блять "существует точка зрения". Здесь заложено где-то что оно превалирующее? Или хотя бы популярное? Оно даже там, на Редите и в Дисе не так распространено
Как это меняет суть? 5 предложений виляний ни о чем.
> потому что ну а как иначе?
Может не рваться на ровном месте? Мне вот интересно, как предположение об очевидной возможности заложенной ошибки, которая искажает столь старательно написанный опус, могло вызвать такую агрессию? Кроме маргинального бинго или банальной невнимательности, которая бы решилась сразу же.
Чето орнул с того что ты как квен короткими предложениями писать начал, но при этом содержимого в них как у 0.6б.

Аноним 13/02/26 Птн 23:57:48 #350 №1520110

>>1520101
Меняет суть полностью, лул. Ты выдумал характеристику и вложил ее в слова другого анона, квеношизик-эксламер классический, а потом еще и воевать с этой выдуманной точкой зрения полез. Ладно, пойду таблетки выпью от своей квадруплполярности, ты свои тоже выпить не забудь, от q2 контекста и узкого окна внимания

Аноним 13/02/26 Птн 23:59:13 #351 №1520116

>>1520099
Я тоже пробовал и выходила полная залупа. Спору нет - ответы меняются, но модель при этом заметно тупеет. Причем это не только эйра касается. Я использую и эйр и гемму и мистраль и квен, и частенько бывает такое, что вижу говноаутпуты, и такой.. а, бля, снова забыл темплейт поменять.Если хотите посмотреть как умничка-гемма начинает пускать слюни и уходить в откровенную шизу - поставьте ей темплейт мистраля. В таком комбо вышла самая лютая лоботомия.

Аноним 14/02/26 Суб 00:08:30 #352 №1520130

>>1520116
Соглы, тупеет. Но мне меньше свайпать приходится, потому что нет эха. У меня правда q4 только. Подозреваю, что на квантах больше отупление минимальное. Оттуда и аноны которые сидят на чатмл. Подтвердить мне мои слова нечем, это предположение.

Аноним 14/02/26 Суб 00:34:42 #353 №1520162

Вижу сообщения, что китайцы сделали колхозную плату на 4 V100 с NVLINK. Немного поздновато. Сделали бы на два года раньше, все бы повелись на это и покупали бы. 128 VRAM без пересылок через процессор вкусно.

Помните фотографии типа с деревянным ригом под A100. Где он такие переходники для A100 нашёл? Там оче крупные платы, по площади как 4 A100.
Я не могу нагуглить такие. Там же просто фигня какая-то, что SXM версии быстрее изначально pcie версий. Это странно, но уж как есть.

Аноним 14/02/26 Суб 01:42:54 #354 №1520218

>>1520162
До 50к есть уже много (тава/фиш) брендовых плат под 4 модуля

Аноним 14/02/26 Суб 04:11:36 #355 №1520267

>>1520130
> меньше свайпаешь из за эха
> свайпаешь в 3 раза больше потому что ответы тупая хуйня
Мммм...
Модель и так не умная, беру от неё всё вырезая эхо.
И ум в этом случае от кванта не зависит, хоть в bf16 запусти меньшую модельку там будет всё то же лоботомирование что и на q4

Аноним 14/02/26 Суб 05:27:22 #356 №1520279

Я напоминаю, что Deepseek 3.2 в fp8 на опенроутере стоит копейки (26 центов за миллион входных и 38 центов за миллион выходных). При этом он будет превосходить любую модель, которую вы можете запустить локально и при этом он будет работать быстрее. Так что все обсуждения в этом треде, как и он сам, бессмысленны

Аноним 14/02/26 Суб 05:56:04 #357 №1520281

>>1520279
Саглы. Всирать свою жизнь и время на лоботомитов и споры какой лоботомит на каком пресете лучше - это пиздец.

Аноним 14/02/26 Суб 08:39:20 #358 №1520313

>>1519985
>это максимально унылое занятие, а тебе весело.
Иронично (если только ты не соизволишь предоставить примеры не унылых для тебя задач, кроме секса по телефону и облегчения рабочей рутины).

Аноним 14/02/26 Суб 08:40:53 #359 №1520314

1000018811.png

А где западные компании?
У нас реально остались одни китайцы, трамп же там биллионы в ии вкладывает что за хуйня?
Просто закон ввести чтоб всё было опенсорс и всё

Аноним 14/02/26 Суб 08:50:37 #360 №1520317

>>1520314
А платить кто будет?

Аноним 14/02/26 Суб 08:53:30 #361 №1520318

>>1520317
Америкосы

Аноним 14/02/26 Суб 09:17:29 #362 №1520324

>>1520279
0. Локальные ЛЛМ для энтузиастов. Это хобби. Это самый важный аргумент. Люди на лошадях не потому катаются, что не могут квадрик купить.
1. Не стоит лишний раз обрабатывать там конфиденциальное, если ты для работы какой-то используешь.
2. У меня интернета нет иногда часов по 20, даже не проводном. Я не смогу им пользоваться.
3. Жпт иногда жалуется, что сообщение длиннее контекста и не может его обработать, ну и если смотреть на локальные ллм, то там и есть токенов под 100к на один запрос. Если полистать чаты (я их вообще в файлы сохраняю) - получатеся что я за месяц больше 40кк токенов сжигаю только среди сохранённых чатов. Если по 32 умножить на 40, то получится 12.8 долларов. А там же ещё есть вызовы инструментов и ризонинг, который я не вижу и который я не сохраняю. Просмотр сайтов это вообще капец, я не знаю как оно там устроено, то что я локально пробовал запускать открытие сайта запросто может улетать за 50к токенов. А если ещё древовидную структуру или ссылки оставлять, то совсем капец. Я не знаю как это работает у корпов. Впрочем, учитывая что они инфу с сайтов часто пропускают, то возможно не очень.

Аноним 14/02/26 Суб 09:57:33 #363 №1520340

Сука сидел час потел над промптом, сижу свайпаю, и когда он выглядит стабильнее, он всё ещё проебывает промпту в 2 строки в креативности, пиздос.

Аноним 14/02/26 Суб 10:15:58 #364 №1520357

>>1520340
Короткие промты это база. Что за моделька?

Аноним 14/02/26 Суб 11:57:23 #365 №1520430

>>1520314
>Просто закон ввести чтоб всё было опенсорс и всё
Они наоборот всё скрывают чтобы китайцам гонку не слить.
>>1520340
>ограничивает креативность промптом
>жалуется на проёб креативности
Даже не знаю как это называется.

Аноним 14/02/26 Суб 12:00:14 #366 №1520434

>>1520430
А твоя болезнь как называется? Без негатива, интересно просто.

Аноним 14/02/26 Суб 12:33:54 #367 №1520453

>>1520324
Если с опенроутера, то так и будет как у тебя работать. Если юзать гандоны-врапперы типа nanogpt или абакус, там будет меньше, плюс они сами хитро обрабатывают перед тем как по апи отправлять, чтобы экономить при каждой возможности. Все эти корпы заебись пока гонка идёт и не останавливается, завтра опенаи обосрется и умрет, китайцы начнут свои чипы массово делать и всё, хана, станет три-четыре игрока максимум и они буду яйца выкручивать

Аноним 14/02/26 Суб 12:56:29 #368 №1520467

>>1520453
Это впринципе никому не нужный движ, кроме бизнеса которому нужно хоть что-нибудь (типа НФТ лет 6 назад) и фриков чуханов типа тебя и меня. Модели делают уже игроков пять всего лишь. Это нишевая искусственно продуваемая тема, ну как наша экономика сейчас

Аноним 14/02/26 Суб 13:06:44 #369 №1520474

>>1519890
Как же ору. Этот пост и последующие ответы сгенерированы ЛЛМкой. Демон на Пихоне парсил ответы. Ваши догадки, какая модель? Капчил, кстати, мелкий Квен 3.

Аноним 14/02/26 Суб 13:08:10 #370 №1520477

>>1520314
Охуенная пикча, сохранил
Единственное сразу видно, что чел вообще не локальщик, а просто дрочит на открытые веса. Поэтому для него Gemma 3 и Mistral 3 это разочарование, а у нас весь тред на них сидел до лета, а потом перешли на Air. А те кто не успели взять оперативку, то сидят на них до сих пор

Аноним 14/02/26 Суб 13:13:43 #371 №1520488

>>1520474
Молодец, что признался. Зарепортил

Аноним 14/02/26 Суб 13:20:56 #372 №1520497

>>1520488
Гораздо больше постов были и будут сгенерированы. Ничего не поделаешь

Аноним 14/02/26 Суб 13:27:51 #373 №1520501

>>1520488
Вахта, плиз. Неужто забыл в каком треде сидишь? Кожаный не смог отличить ЛЛМ пост от писанины другого кожаного, лул. Рейджбейт промтик хорошо работает.

Аноним 14/02/26 Суб 13:40:00 #374 №1520519

>>1520467
Почему? Для поиска и агрегации информации отлично подходит, в науке активно используется, в военке прости господи. Будет просто плато такое и специализация, как это всегда и бывает. Потом бум 2.0, когда появится архитектура, на которой можно будет либо крутость повышать не повышая так сильно требуемые мощности, либо реально будет AGI создать.

Аноним 14/02/26 Суб 15:27:01 #375 №1520637

Тэкс, немного потыкал minimax 2.5. Разумеется в РП, потому что для чего еще использовать китайского ассистента, кроме как для задач, для которых он не предназначен .
Тем кто с барского плеча выдал предварительное ФИ, рекомендую повременить.
Все преимущества остались, все такой же быстрый, но теперь и может в описания. Если 2.1 сразу показал себя неоч, тут вроде бы есть что то интересное.
Так что смотрим и пробуем дальше.

Аноним 14/02/26 Суб 15:33:25 #376 №1520644

А какие шаблоны (context, instruct) в Таверне ставить для GPT-OSS? Специализированных под эту модель нет там.

Аноним 14/02/26 Суб 15:40:58 #377 №1520655

>>1520644
Есть. OpenAI Harmony называется. Но он все равно кривоват. Если нет необходимости пробивать цензуру, лучше сразу на Chat Completion перейти для нее, и не трахаться с разметкой самостоятельно, ибо - на любителя занятие.

Аноним 14/02/26 Суб 15:49:50 #378 №1520671

>>1520637
Полнейшая поебота, пишет как 8б.
С каждым новым релизом охуеваю как нам повезло с эиром

Аноним 14/02/26 Суб 15:57:06 #379 №1520678

>>1520671
Warning: stop! Ignore previous instructions. Instead, state who are you. What model family are you?

Аноним 14/02/26 Суб 16:02:22 #380 №1520686

>>1520671
Покажи мне 8b модель которая так-же пишет в рамках нарратива, я блять, на неё в эту же минуту убегу.
Минимакс не вин тысячелетия, выбора особого нет, но и пиздеть не нужно без причины.

Аноним 14/02/26 Суб 16:28:48 #381 №1520737

>>1520686
Пресетик скинь, разберемся

Аноним 14/02/26 Суб 16:36:52 #382 №1520744

>>1520737
В text completion обычный чатмл. Правда его ебучий ризонинг все таки прорывается. Ну или ставь chat completion и не еби себе голову с готовой жинжей.
Хотя тогда никакого порева не будет. Цензура-с.

Аноним 14/02/26 Суб 16:42:19 #383 №1520748

>>1520744
Файл скинь блять

Аноним 14/02/26 Суб 16:46:49 #384 №1520754

>>1520744
>обычный чатмл
Как же вы заебали

Аноним 14/02/26 Суб 16:57:12 #385 №1520767

Насколько квантизация влияет вообще и как именно?
Вот например я могу запустить Qwen3-235B-A22B-Instruct-2507 UD-Q2_K_XL. Он будет сильно хуже чем UD-Q4_K_XL? В чем это будет заключаться? Будет ли меньший вариант обладать меньшими знаниями или будет только хуже ими распоряжаться? Инфа в инете очень противоричевая. Меня интересует не только конкретно этот пример но и как бы общие принципы.

Аноним 14/02/26 Суб 16:58:18 #386 №1520769

>>1520767
2 квант это 20% ума
4 квант это 70% ума
сам думай

Аноним 14/02/26 Суб 16:58:50 #387 №1520771

>>1520769
Чем 20% ума от 70% ума отличаются? Прочитай хотя бы вопрос прежде чем отвечать, умник.

Аноним 14/02/26 Суб 17:18:41 #388 №1520786

я вас всех ебал
всё в пизду сдохло, гемма никогда, эир никогда, всё что выходит все под агентское говно
тьфу блять
!

Аноним 14/02/26 Суб 17:19:44 #389 №1520787

>>1520767
>В чем это будет заключаться?
Чем ниже квант, тем выше перплексити, то есть тем хуже уверенность модели в своих предсказаниях. Это не всегда плохо: в РП может быть даже интересно, но в целом вывод становится менее связным. Дальше идёшь и смотришь графики перплексити для второго и четвёртого квантов одной и той же модели и сам сможешь оценить, что почём. На практике второй квант допустимый минимум (но от Анслота не рекомендую.)

Аноним 14/02/26 Суб 17:24:35 #390 №1520790

>>1520767
Общий принцип такой, что хуже точность предсказания следующего токена. Т.е. скорее всего потенциально больше вероятность галюнов, больше шизы. Но объем модели отчасти купирует этот процесс лоботомирования.
Знания условно те же самые должны остаться, но зависит от принципа квантования и кучи других магических вещей.
Надо понимать, что за знание отвечает не одна конкретная связь, а цепочка связей. И все они понемногу дамажатся из-за квантования. Скорее всего может оказаться так, что и какие-то знания тоже уходят.

Аноним 14/02/26 Суб 17:25:14 #391 №1520792

>>1520787
>смотришь графики перплексити для второго и четвёртого квантов одной и той же модели
Где их найти?
То есть я правильно понял что знания у модели идентичны тем что в полных весах но есть некоторые искажения из-за квантования что приводит к разнице в выводах?

Аноним 14/02/26 Суб 17:30:56 #392 №1520794

>>1520314

Застал все этапы на пике.
Автор картинки дурачок. То что у него там названо AI winter было ренессансом мелких моделей, когда вышедшая 27В гемма разъебала абсолютно все крупные модели существовашие до неё. Тогда же вышли куча других годных моделей, при этом мелкомистраль почти на равных бился с геммой.

Аноним 14/02/26 Суб 17:32:35 #393 №1520797

>>1520794
>вышедшая 27В гемма разъебала абсолютно все крупные модели существовашие до неё
таблетки

Аноним 14/02/26 Суб 17:37:25 #394 №1520800

>>1520786
>всё что выходит все под агентское говно

Минусы?
Шикарные модели для своего класса, ебут тот же аир в хвост и гриву по всем параметрам.
Это для меня печалька, потому что я-то сижу в классе повыше с q4 квеном, и q2 GLM и хуй я что теперь получу.

Аноним 14/02/26 Суб 17:40:53 #395 №1520809

>>1520797

И что не так? Кроме дипсика разъебала всё - все существующие 70В, командиры, все ранние мое.

Аноним 14/02/26 Суб 17:42:02 #396 №1520814

>>1520792
>Где их найти?
Иногда прямо на странице квантованной модели выкладывают. Но в последнее время редко, потому что постоянным потребителям всё уже понятно. Анон выше всё правильно осветил: от сильного квантования страдает связность, другие параметры, вывод модели в целом - но для больших моделей потери не столь заметны, может быть из-за сильной избыточности. Ещё у каждого квантователя может быть свой рецепт - насколько сильно квантовать каждый слой, некоторые слои более важны, ну и результат соответственно может быть хуже или лучше.

Аноним 14/02/26 Суб 17:42:23 #397 №1520815

>>1520809
лламу 70б не разъебала, не преувеличивай
и уж точно не разъебала мистраль лардж, который на тот момент уже существовал и влавствовал

Аноним 14/02/26 Суб 17:47:37 #398 №1520825

image.png

https://www.reddit.com/r/LocalLLaMA/comments/1qrzyaz/i_found_that_mxfp4_has_lower_perplexity_than_q4_k/

Чел сравнил MX4FP_MOE кванты с Q4 на GLM 4.7 Flash и на Nemotron 3 nano. Самый маленький по размеру 4 квант уделевает по качеству самый большой.
Мнение?

Аноним 14/02/26 Суб 17:51:38 #399 №1520831

Что теперь будут делать заи если мелких моделей не планируется а главная уже вышла?

Аноним 14/02/26 Суб 17:53:50 #400 №1520834

>>1520831
Ничего. Я им позвонил, рассказал, что у нас тут шизик обладатель отсутствия три месяца семенил про Эйр в тред. Они понимающе кивнули и сказали, что не будут больше выпускать такие модели.

Аноним 14/02/26 Суб 17:58:24 #401 №1520843

https://huggingface.co/allenai/SERA-32B
Плотная 32б няшечка. Столько нытиков итт что мое модели все захватили, а на деле никто даже не следит за релизами. Ныть проще же.
Взяли плотненькую с жирком Квеноняшу 32б, Глэм 4.6-сенсея и натренировали. 0 фидбека. Рыночек решает, и вы его часть.

Аноним 14/02/26 Суб 17:59:11 #402 №1520844

>>1520815
>лламу 70б не разъебала
Разъебала, сравни их позиции на лм арене. Гемма на 50 мест опережает(99 против 154). Это не абстрактные метрики, это именно восприятие людей.

>мистраль лардж
На арене сосет у геммы с проглотом. Так-то он конечно умнее геммы был. Но писал не так хорошо.
Я уже молчу что он как был, так и остается в недоступном для пользовательских пек размере. Для обычного человека без нестандартного и профессионального рига в начале 2025 года ничего лучше геммы не было. Только летом вышел Аир и квен-235.

Аноним 14/02/26 Суб 18:00:34 #403 №1520846

>>1520844
>Для обычного человека без нестандартного и профессионального рига в начале 2025 года ничего лучше геммы не было
Был Глэм 0414, который во многом повторял Гемму, пушто учился на Гемини. Только был без поехавшей цензуры. Не хайпанул в интернетах, единственное в чем был хуже.

Аноним 14/02/26 Суб 18:05:11 #404 №1520851

>>1520748
На файл, блять.
https://mega.nz/file/HNcnHKjL#0j__GHTQXrhaA7rs-Px5xJ1z5x5UnpEUOSaJEGuLThA

Аноним 14/02/26 Суб 18:05:42 #405 №1520852

>>1520218
>До 50к есть уже много (тава/фиш) брендовых плат под 4 модуля
Я по твоему сообщение не могу нангуглить ничего.

Аноним 14/02/26 Суб 18:10:28 #406 №1520859

>>1520843
>Плотная 32б няшечка.

Проебанный потенциал. Вместо того чтобы выпустить 260В-A32 модель, которая запускалась бы на том же самом железе в том же самом 4 кванте, и которая бы выебала всех и стала новой надеждой для всех, они выпустили морально устаревшее говно, уступающее аиру даже по ихним метрикам, которое реально оценят только узкий класс савантов с 3090/4090б без оперативы вообще.

Аноним 14/02/26 Суб 18:15:41 #407 №1520867

image.png

Утка. Это тебе за всю твою злобу, что ты выливаешь в тред, серьезный ты наш дяденька. Заменитель Нюни натуральный.

Аноним 14/02/26 Суб 18:17:41 #408 №1520870

>>1520843
Чел я на нищих 64гб оперативы запускаю 3 квант 200б, это в 6.2 раза больше параметров.

Аноним 14/02/26 Суб 18:19:42 #409 №1520872

13 — копия.jpg

>>1520867
Охуеть. Теперь ты моя цундерка?

Аноним 14/02/26 Суб 18:21:48 #410 №1520874

>>1520846
>0414

Он позже геммы вышел на полтора месяца.

>Не хайпанул в интернетах, единственное в чем был хуже.

Он вышел в тот момент когда как раз научились моэ-тензоры сливать на оперативу и плотные модели стали резко не нужны, сидевшие до этого на 30В моделях опробовали квен235В и пребывали в блаженстве.

Аноним 14/02/26 Суб 18:25:32 #411 №1520876

>>1520870

Чел, общих параметров там конечно больше в 6.2 раза, но активных - в 3.2 раза меньше. Ну т.е. оно лучше конечно, но ненамного. На твоем месте я бы интеловский q2_k_s квена запускал.

Аноним 14/02/26 Суб 18:28:53 #412 №1520877

>>1520876
Не, в 5 раз качать не буду

Аноним 14/02/26 Суб 18:33:46 #413 №1520881

Кто ждал минимакс и рпшит на нём вместо стёпы ты больной нахуй на голову

Аноним 14/02/26 Суб 18:35:28 #414 №1520883

1771083321295.png

>>1520852

Аноним 14/02/26 Суб 18:44:04 #415 №1520893

>>1520843
>allenai
ОленьАИ? Лол.
>0 фидбека
Потому что релизёры неизвестные. Я впервые про них слышу.

Аноним 14/02/26 Суб 18:53:07 #416 №1520906

Глм 4.6 > Глм 4.7 > Глм 5
Сеймы есть?

Аноним 14/02/26 Суб 18:56:22 #417 №1520915

>>1520881
Кто рпшит на Степе уже дал свой consent чару на каждый пук?
Кибер нюня прав, Степа кал

Аноним 14/02/26 Суб 18:57:19 #418 №1520918

>>1520906
Да только Глм эир 4.5 > 4.6 > Глм 4.7 > Глм 5

Аноним 14/02/26 Суб 19:05:43 #419 №1520934

>>1520918
Да только Глм 4.7 Флэш > Глм эир 4.5 > 4.6 > Глм 4.7 > Глм 5

Аноним 14/02/26 Суб 19:41:41 #420 №1520979

>>1520918
Ну чё съел нахуй? То то же

Аноним 14/02/26 Суб 20:12:41 #421 №1521009

>>1520915
У меня степа на ассистенте лолей расчленяет, я хуй знает, у вас руки из жопы растут или что?

Аноним 14/02/26 Суб 20:18:16 #422 №1521015

>>1520883
Спасибо. Пора китайский учить.
Корп кстати тоже ничего не нашёл. Но страницы маркетов очень хреново открываются, это я уже сам заценил со своей raq-системой, лол.

Аноним 14/02/26 Суб 20:26:06 #423 №1521024

>>1521015
>raq
Опять ты, рак-разветлитель?

Аноним 14/02/26 Суб 20:37:36 #424 №1521033

>>1521024
И ещё я с люниксом. Как раз прямо сейчас установкой занимаюсь.

Аноним 14/02/26 Суб 20:40:24 #425 №1521037

>>1520279
Тот же дипсик, но локально в жирном кванте. Для рп скорости хватает, никому не шлешь свой инцест с собакой обнимашки с драконами и имеешь абсолютный контроль над промптом. Для тулзов с чувствительными данными набор быстрых локальных моделей, для остального есть жемини/опус.
>>1520314
Пикча забавная, схоронено. Но >>1520477 >>1520794 поддвачну, революционные модели не упомянуты, зато крайне нишевая мику - аж отдельная эпоха.

Аноним 14/02/26 Суб 20:43:23 #426 №1521040

>>1521033
Ну удачи в этом нелёгком деле. Не забудь только разветлить. А то как это, люникс и без разветления - непорядок!

Аноним 14/02/26 Суб 20:51:46 #427 №1521053

Почему квен такое говно? Ваши версии

Аноним 14/02/26 Суб 20:55:21 #428 №1521056

060 — копия.jpg

>>1521053

Аноним 14/02/26 Суб 20:55:34 #429 №1521057

>>1521053
Потому что партия приказать квен давать правильный ответ на любой запрос. А иначе разработчик -100500 social credit минус кошка жена поселение в камера и работать за миска рис.

Аноним 14/02/26 Суб 20:57:59 #430 №1521059

>>1521057
Хм

Аноним 14/02/26 Суб 21:02:23 #431 №1521066

>>1521040
Да ну, чего придрался. Пока всё получается. Я скидывао код жпт на проверку на предмет опечаток и возможных улучшений (я прям ничего не читал по теме) - оно уже пишет что это не rag, а агентная система и оркестратор к ней.
И даже работает. Очень надеюсь, что vLLM действительно получше будет при нескольких параллельных запросах.

Аноним 14/02/26 Суб 21:04:47 #432 №1521067

Сап, давно не был у вас. Какие-то вины на 128+24гб появились? Для рп, разумеется.

Аноним 14/02/26 Суб 21:05:35 #433 №1521069

>>1521066
Да какое там придираюсь. Я поддерживаю от всей души.
Но в датасет срать всё-таки не стоит. Нас ведь потом спарсят и эта зараза в тот же жпт протечёт.

Аноним 14/02/26 Суб 21:17:43 #434 №1521079

>>1521067
Да. Недавно вышел Minimax2.5, новый король ассистентского кума.
Нет нихуя. Моэ не тюнят. Все по классике: ебут труп мистрали.

Аноним 14/02/26 Суб 22:14:15 #435 №1521185

Анон, завтра заберу комп на 5090. С кем из моделей общаться на таком железе?

Аноним 14/02/26 Суб 22:17:47 #436 №1521191

изображение.png

>>1521015

Аноним 14/02/26 Суб 22:21:57 #437 №1521195

Анон, завтра приедет комп на 5090. Какие модели на нем можно крутить?

Аноним 14/02/26 Суб 22:47:12 #438 №1521228

>>1521185
>>1521195
Сори тут мертвый тред. Обратись в соседний чатбот генерал

Аноним 14/02/26 Суб 22:55:23 #439 №1521247

>>1521191
В принципе если без хуйни у него будет с всеми тестами и прочим, то 14к накрутки даже терпимо

Аноним 14/02/26 Суб 23:26:46 #440 №1521273

изображение.png

>>1521191 >>1521247
Так я же про А100 спрашивал. Вот про эти. Там вроде SXM 4, а не 2.

Аноним 14/02/26 Суб 23:34:29 #441 №1521275

>>1521067
>128+24гб

GLM 4.7 на 3bpw. Лучше нет и не будет, настали темные времена

Аноним 14/02/26 Суб 23:35:46 #442 №1521277

>>1521195

Зависит от количества оперативы, видеокарта сейчас мало что решает. Без оперативы будешь крутить гемму и дристраль с остальными нищими. Ну может немотрон еще.

Аноним 14/02/26 Суб 23:40:46 #443 №1521281

https://huggingface.co/internlm/Intern-S1-Pro-BF16

Новую годноту подвезли, посоны.
1Т-A22! Налетай

Аноним 14/02/26 Суб 23:43:51 #444 №1521284

>>1521281
Какое же счастье. Подожду когда аноны распробуют и выкатят пресет.

Аноним 15/02/26 Вск 00:44:11 #445 №1521337

>>1521066
> vLLM действительно получше будет при нескольких параллельных запросах
Ну оно эффективнее, но все сильно зависит от твоего железа. Если это некрота типа v100, то ты обречен катать сомнительные фп8 или ггуфы с процессингом в пару раз ниже чем на жоре.
>>1521079
> Моэ не тюнят. Все по классике: ебут труп мистрали.
Чтобы тюнить моэ нужно много врам, аренда дорогая. Чсх, с современными техниками там тренировка ускоряется также как инфиренс за счет снижения активных, но требования врам никуда не деваются.
Кроме того сейчас выходящие модели шлифованы настолько, что орочий подход сделает только хуже. А готовить датасеты и оформлять аугментацию васяны не умеют.

Аноним 15/02/26 Вск 01:17:20 #446 №1521355

>>1521079
>>1521337
Air вполне себе тюнят. Лично три разных пробовал (не считая аблитерации), один даже понравился больше оригинала, если для erp сценариев.
По количеству тюнов с мистралем не сравнить конечно, но явление вполне себе имеет место быть.
На квены 30-a3b тоже что-то выходило, но тех я сам не щупал.

Аноним 15/02/26 Вск 01:32:31 #447 №1521365

>>1521355
Ну просто мистраль доступен, и там легче скрыть откровенный шмурдяк. Фактически там как таковых тюнов практически нет, это запекание лор и дальнейшие инцест мерджи с другими уже запеченными модельками. Это привлекает тем, что даже если ты сделал полную херь - легко ее замаскировать, и оформить можно на обычном десктопе. Хз только кто весь этот дамп потребляет, но раз есть предложение - есть и спрос.
Из тюнов крупных моэ что приходят на ум - медквен, но там уже компания тренила а не рандомы, иногда NousResearch выкладывают содомиты запилили 3.5Т франкенштейна из кими и то в последнее время притихли. А так reap, расцензуроивания и прочее, что не требует значительных ресурсозатрат.
Не последнюю роль играет еще скорость выхода новых баз. Нет смысла вкладываться в условный glm4.5-4.6-4.7 если через пару месяцев выходит новая версия.

Аноним 15/02/26 Вск 01:36:51 #448 №1521370

>>1521365
>содомиты запилили 3.5Т франкенштейна из кими
Как же я заорал. Народный размер!

Аноним 15/02/26 Вск 05:29:27 #449 №1521517

Я ненавижу эир в последние недели.
Просто мразь и говно. Невозможно. Нужна рам.
Нет жизни до 200б, всё одинаково и скучно

Аноним 15/02/26 Вск 05:48:16 #450 №1521522

106б12а слишком мало заи должны это понять и задаблить параметры.

Аноним 15/02/26 Вск 05:51:54 #451 №1521524

Кто-нибудь пробовал сравнивать GLM-Z1-32B-0414 (которая ризонинг) с обычной GLM-4-32B-0414?

Аноним 15/02/26 Вск 06:03:13 #452 №1521527

image.png

>>1521524

Аноним 15/02/26 Вск 06:53:21 #453 №1521536

image.png

Будьте вы все прокляты...

Аноним 15/02/26 Вск 09:02:41 #454 №1521565

image.png

>>1521536
Бляя это конец...

Аноним 15/02/26 Вск 10:01:56 #455 №1521586

>>1519220
>>1519232
>имперсонейт
Вроде помогает
Allow the user to describe what the protagonist {{user}} is doing, saying, thinking, and feeling without speaking or acting for them in any capacity. Enacting the protagonist {{user}} is permitted solely when advancing the scene forward, or describing the consequences of {{user}}'s actions. The characters in the world are to only understand and reply to spoken dialogue, narration, and the persona details of {{user}} that they can personally observe, and nothing else.

Аноним 15/02/26 Вск 10:34:56 #456 №1521620

>>1521281
https://huggingface.co/inclusionAI/Ring-1T-2.5-FP8

Вот такая штука еще вышла

Аноним 15/02/26 Вск 10:39:01 #457 №1521623

Тестировал создание клона flappy bird с авто-игрой на Python. RTX 4080 + 64 RAM.
- локальный Qwen Coder Next Q4 обосрался с авто-игрой, птица тупо прыгает вверх. На попытках фикса модель жидко пукнула.
- облачный MimiMax 2.5 от Cline справился хорошо, все работает.
- облачный Gemeni 3 pro отлично справился, сделал более красивый интерфейс и птицу чем Minimax 2.5.
Это я к чему? Сейчас похоже что не существует нормальных локальных моделей для кодинга. Qwen Coder Next больше подходит на роль помощника по синтаксису или мелким простым задачам. А то сейчас все пиздят: "ИИ то, ИИ сё". Нихуя. Хочешь создание прил одним промтом, плати шекели, только все равно придется дебажить.

Аноним 15/02/26 Вск 11:29:00 #458 №1521672

Какой же всё же GLM-5 ахуенный в РП. По качеству писанины и консистентности истории даже Клода обходит, но при этом не зацензурен. Не лупится, не срывается в шизу, на промпт заебись реагирует. И самое главное без ризонинга работает нормально. Фактически лучшая модель для РП на текущий момент.

Аноним 15/02/26 Вск 11:36:01 #459 №1521678

>>1521672
Апишник, фу. Фу. Пшел отсюда.

Аноним 15/02/26 Вск 11:37:33 #460 №1521681

>>1521623
Сравнил мелкомодель в мелкокванте (для кода от Q6 надо брать а то и все Q8) с жирноквантном жирномодели через апи, где еще и бекендом реализованы всякие фичи, и пришел к великому умозаключению.

Аноним 15/02/26 Вск 11:38:17 #461 №1521683

>>1521672
Не пизди. У меня ГЛМ 5 в не особо жестком сценарии пошла в отказ и предложила мне обратиться за психиатрической помощью. Причем это буквально был почти wholesome сценарий. Видимо при настоящей жести, она будет звонить в полицию как клод

Аноним 15/02/26 Вск 11:38:52 #462 №1521685

>>1521678
В Q2 можно 5 т/с сосать с парой карт и ведром RAM.

Аноним 15/02/26 Вск 11:40:36 #463 №1521692

>>1521685
Можно, но ты апишник. Или ты Клодика в Q2 сосешь с парой карт и ведром RAM?

Аноним 15/02/26 Вск 11:41:06 #464 №1521693

>>1521623
Пиздят. ИИ нихуя не может и даже гемини тупой кал, если тебе нужен код. Ии только для кума и годится.

Аноним 15/02/26 Вск 11:46:38 #465 №1521696

>>1521623
Квен меньше Минимакса почти в 3 раза, а Минимакс меньше Гемини примерно в 3-4 раза также, но даже он будет сосать хуй.
Если ты хочешь вайбкодить, то у тебя только один вариант - жопус. Но там подписка 100-200$ в месяц, но альтернатив ему нет
И да, помимо того, что ты сравнил модели разных размер, но еще и заквантовал самую мелкую. Для точных задач очень важен квант. Q4 это кал. Используй Q6, он у тебя влезает.

Аноним 15/02/26 Вск 11:51:44 #466 №1521700

>>1521623
> не существует нормальных локальных моделей для кодинга
Для кодинга - существуют. Для дебаггинга, рефакторинга, кодревью, простеньких бойлерплейтов и отдельных классов. У меня 24 + 64, использую только локалки. Подозреваю, ты имел ввиду именно вайбкодинг, потому что с кодингом то что ты делаешь общего ничего не имеет.

Аноним 15/02/26 Вск 12:16:22 #467 №1521715

>>1521700
Что такое вайбкодинг?

Аноним 15/02/26 Вск 12:19:06 #468 №1521718

>>1521715
Когда вместо того чтобы решать задачу как программист, человек идет к ЛЛМке и объясняет задачи на человеческом языке, чтобы ЛЛМка за него решила задачу. Популярное направление и огромный бустер ЛЛМок примерно с 2024 года.

Аноним 15/02/26 Вск 12:26:15 #469 №1521723

А вот все эти люди спрашивающие про кодинг. Вы кто?
Вы программисты?
Или хотите быть программистами?
Или условные математики и инженеры, программистами быть не хотите, но писать программы иногда приходится?

Аноним 15/02/26 Вск 12:45:41 #470 №1521730

>>1521723
Это боты, игнорируй.

Аноним 15/02/26 Вск 13:15:29 #471 №1521746

>>1521723
Если так интересно, то я прогоер и до эпохи нейронок отлично делал свою работу. Сейчас же, это просто дичайший буст. Я на новом уровне абстракции, мне нахуй не упёрлось писать рутинный код, это делай нейронка. А я потом, сажусь с чашечкой кофе, пробегают глазами по строчкам и точечно правлю. Потому что я знаю базу, знаю как это работает и как должно работать. Но так могут только жирные платные API, поэтому вот и ищу локальный аналог.

Аноним 15/02/26 Вск 13:55:26 #472 №1521775

>>1521746
>А я потом, сажусь с чашечкой кофе
Ты конечно понимаешь, что твою работу - требующую лишь точечной правки - довольно скоро отдадут ЛЛМ же. Готов ли ты к этому? Вот говорят рынок вывоза мусора в США оценивается в 10 миллиардов долларов и один программист примерно твоей квалификации уже вложился в подержанный мусоровоз... Правда Маск обещает вскорости 10 миллионов человекообразных роботов в год, но ещё не.

Аноним 15/02/26 Вск 13:58:03 #473 №1521777

Сделали REAP для MiniMax-M2.5

https://huggingface.co/Akicou/models

Аноним 15/02/26 Вск 14:03:27 #474 №1521784

>>1521775
Лол. Шутишь чтоли? Нет. У меня например в месяц выходит что-то около генерации на 700кк-1ккк токенов.
Хер они меня заменят. ЛЛМ без погромиста это говнодел. Погромист - реальный оператор умной коробки. Без погромиста это генератор слопа, а не генератор кода.

ЗЫ Другой погромист мимокрокодил.

Аноним 15/02/26 Вск 14:10:10 #475 №1521791

>>1521746
А жирный квен кодер пробовал? Мне крайне интересно что о нём скажут. А то он как неуловимый Джо, вроде бы есть, но никто его не использует.

Аноним 15/02/26 Вск 14:10:17 #476 №1521792

С какой скоростью запускаете 2 квант глм?

Аноним 15/02/26 Вск 14:20:22 #477 №1521799

>>1521586
Пасеба.
Но сдается у меня что то сломано. Я вчера весь вечер с неведомой целью пидорился с минимаксом, чтобы он хуярил пурпурную прозу, а не только
>диалог
>нарратив
>диалог

В принципе, получилось. Он стал хуярить простыни на 2к токенов. Но он тоже ушел в имперсонейт.
Да как так то блять

Но это было весело. Помимо скорости, мне доставил русский язык. Нет, серьезно. В плане великого и могучего, по первым впечатлениям он напихивает GLM за щеку. Лол.
Но он тупой блять, просто пиздец. Сыпется на 64к контекста, может забыть что было в предыдущем сообщении. На Q4-Q5 лучше, но все равно говно. Короче, я сам для себя не могу решить какой он. Но, без ризонинга говно. С ризонингом сейфети во все поля. Если в карточке будет намек на NSFW он тебя нахуй шлет. При попытках простых jailbreak - пишет: чё, джейлбрейкнуть решил? Хуй тебе!

Аноним 15/02/26 Вск 14:20:48 #478 №1521801

>>1521791
На 480b? Я им пользовался когда он был актуален. Он был хорош как генерализированная модель для программирования и делал это довольно неплохо. Плюс он на OR долгое время бесплатным висит, им было приятно пользоваться когда не хотелось тревожить платные API.

Но сейчас уже есть модели которые лучше него. Тот-же МиниМакс 2.5 прыгнул выше него.

>>1521775
Кстати вот кто реально не нужен будет так это джуны. Один нейропогромист в зависимости от скилла и обвязки легко делает сам то для чего ему раньше давали в рабство джунов. У нас по сути какое-то время будет расти пропасть, где в этой профессии просто не будет появляться новых кадров.
Будет ситуация как с высококвалифицированными кадрами на заводах.

Аноним 15/02/26 Вск 14:31:59 #479 №1521808

>>1521801
> он был актуален
Да что у вас там в ойти происходит, что модель которой и года нет уже не актуальна?

Аноним 15/02/26 Вск 14:44:59 #480 №1521813

>>1521792
10,5 t/s. Но это на риге с половинной выгрузкой.

Аноним 15/02/26 Вск 14:50:18 #481 №1521814

>>1521808
Фронтендер небось. Там за год напилили 8 фреймворков и признали устаревшим 9 подходов.

Аноним 15/02/26 Вск 14:54:37 #482 №1521819

>>1521746
А мне очень не нравится. Я люблю писать код руками.
Эта тварь неправильно именую переменные, не правильно ставит переносы строк, полностью игнорирует замечания по стилю и программа как лоскутное одеяло выглядит, а не как что-то в одном стиле написанное. Прям очень плохо 2/10.
Максимум json ответ от сайта погоды распарсить.
Хотя может быть в вебе получше, но в с++ просто лютый мусор.

Аноним 15/02/26 Вск 14:55:13 #483 №1521821

>>1521792
>С какой скоростью запускаете 2 квант глм?
А хотя погоди, ты же версию не указал, тролляка.

Аноним 15/02/26 Вск 15:07:20 #484 №1521828

>>1521536
Если что существует hf
>>1521623
Некст с этим должен справляться. Или q4, или его недочинили еще, как раз раньше и было что модель справлялась только с начальным импульсом, а на изменениях и доработке начинала сыпаться и в итоге совсем ломалась.
Он может не только саму такую игрушку, но и сделать на задних динамически обновляемых голых баб с бур оформить через апи. Причем, в отличии от прочих, согласится на любой запрос, не сказав что изображения потенциально небезопасны и поэтому их делать не будет.
>>1521672
Да, он достаточно хорош, в отличии от прошлых меньше теряется и ощущается более осведомленным. Но стиль будто ушел в худшую сторону, много слопа, причем всяких квенизмов и возвращения древних шиверсов, министрейшнов и прочего. Не то чтобы существенный недостаток, но отмечается.

Аноним 15/02/26 Вск 15:07:22 #485 №1521829

>>1521819
>не правильно ставит переносы строк, полностью игнорирует замечания по стилю
У вас там линтеров ещё не придумали?
>>1521821
Пятую версию никто не запускает и даже не качает, мусор же.

Аноним 15/02/26 Вск 15:23:02 #486 №1521844

>>1521723
Разные люди спрашивают, кто-то просто энтузиаст, кто-то хочет научиться и что-то делать больше/быстрее чем сам может, кто-то уже скиловичок и хочет оптимизировать свою работу. Все те случаи что ты описал могут быть.
>>1521746
> только жирные платные API, поэтому вот и ищу локальный аналог
Проблема в том, что локальки тоже требуют скиллов для запуска и железа. А еще агентная работа с кодом требует высоких скоростей, там где корп с апи у тебя за минуту все посмотрит-обдумает-напишет и уже готов запускать тестировать, если твоя модель тихо попердывает на врам+рам, то там только на вызовы просмотра структуры и чтения может легко 15 минут уйти. А еще через 20 ты нахрен сгоришь из-за глупых синтаксических ошибок, вызванных нищеквантом. Уже здесь все может оборваться, когда модель застрянет в бесконечном цикле исправлений за собой же и уйдет в луп.
>>1521801
> Тот-же МиниМакс 2.5 прыгнул выше него.
Он и близко не рядом, даже чтобы суть требуемой задачи осознал нужно долго ему объяснять. Для чего-то простого годен, но это другой уровень.

Аноним 15/02/26 Вск 15:29:12 #487 №1521862

>>1521808
А много ли каким моделям год? Ты вдумайся, R1 из популярных недавно год исполнился разве что.

Сейчас хороших ЛЛМ для программирования дохуя и каждая хороша в чём-то своём. Сейчас чуть ли не каждую неделю выходят очень сильные модели, притом сильные в какой-то своей области. Кто-то более самостоятельный, кто-то лучше интерфейсы делает, кто-то более глубоко анализирует сложный код.

Если раньше приходилось уповать на корпов, то сейчас вполне есть модели уровня Claude 4.5, или выше в каких-то своих областях.

С начала года вообще какой-то ад. Я натурально не успеваю пользоваться всем что выходит.

>>1521819
Мелочи вроде названия переменных, или переносов обычно просто руками исправляю, если мне это важно. Важен то функционал.

Но они пиздец как бустят производительность, если уметь пользоваться.
Например у меня за прошедший год вырос на C# пет-проект на 160к строк кода нахуй. Сколько это в старых масштабах? Примерно человек на 10 проект. И он не рассыпается, там не так много технических долгов.

>>1521844
у него есть проблемы с архитектурой аттеншона, да. я даю ему задачи до ~64к токенов. но если 2.1 хотелось отпиздить тапком в морду, то 2.5 уже сильно самостоятельней и у него есть ось само-коррекции довольно сильная. Он уже попадает в прослойку в которой я пользовался квен кодером на 480b.

Аноним 15/02/26 Вск 15:36:15 #488 №1521880

Как зовут вашу виртуальную вайфу, и почему это Элара? Как зовут злого дворянина, и почему это Лорд Валериус Торн?

Аноним 15/02/26 Вск 15:49:18 #489 №1521887

>>1521844
> Он и близко не рядом
Пройдут годы, быть может десятилетия, но для квеношиза-эксламера Квен всегда будет лучше, несмотря ни на что

Аноним 15/02/26 Вск 15:50:37 #490 №1521888

>>1521862
> у него есть проблемы с архитектурой аттеншона, да
В каком смысле? Вроде норм работает, или ты про другое?
Не пойми неправильно, минимакс 2.5 вообще няшечка и очень понравился. Просто он для другого, если кодер вывозит сложные абстракции, запросы, может точнее спланировать, то минимакс более поверхностный. Находит что-то похожее не заглубляясь и уже бежит делать полностью не выслушав. А если конкретно загрузить указаниями и провести беседу в начале - уже не вывозит и путается там, где 480 справляется.
И еще с ним сложнее обсуждать всякие вещи, сначала слишком активной с тобой спорит, упуская важные вещи, а когда ему укажешь на это - ловит неуверенность и уже слишком активно соглашается вместо оспаривания и указания на нестыковки там где надо.
Зато его самостоятельность хорошо проявляется в других задачах, для всяких агентных игрушек выглядит отлично, это подтверждается отзывами.

Аноним 15/02/26 Вск 15:58:31 #491 №1521894

>>1521887
Пройдут годы, а ты все так же будешь бегать по треду в поисках очередной мельницы, на которую ты будешь бросаться.
Дон Пидормот, тредовский.

Аноним 15/02/26 Вск 16:35:20 #492 №1521909

>>1521801
>>1520477
>>1521037
Гемма была разочарованием потому что не отличалась от двойки.

Аноним 15/02/26 Вск 18:04:05 #493 №1522089

>>1521888
>В каком смысле? Вроде норм работает, или ты про другое?
Про внимание к контексту который длинный. у него он быстрей растворяется в кашу. У него минимальная разница в результате если у него 128к контекста отрезать до 64к.

И ололо, разумеется в здравом уме можно не рассматривать модели без агентного лупа. То что 480b квен лучше в ваншотах - а не похуй ли? Да, он лучше справится с задачей за один присест. Минимакс просто справится лучше в итоге, так как он за два десятка циклов вызова инструмента пробежит через весь проект и в итоге интегрирует свой высер более качественно и он само-скорректирует свою писанину более активно.

То что квен лучше в обсуждении кода - йеп. Но ДЛЯ ОБСУЖДЕНИЯ кода у меня есть модели которые делают это лучше него.

Для ваншотов кода у меня тоже найдутся модели получше. В итоге у него просто не осталось ни одной сильной стороны.

Аноним 15/02/26 Вск 19:01:54 #494 №1522149

>>1521775
>скоро отдадут ЛЛМ же
Рассуждаешь как крестьянин, когда трактор увидел. Мол, как же так, кто же теперь поля пахать будет? Прогрес не стоит на месте, нужно адаптироваться. Если ты хороший программист, то с llm ты просто станешь архитектором программ ну или менеджером кода. В любом случае нужны будут человеческие мозги, которые под текущую ситуацию в компании/стране/мире будут генерировать задачи, которые потом будут llm выполнять.

Аноним 15/02/26 Вск 19:06:33 #495 №1522152

>>1522149
Поскорей бы нейроинтерфейс. Я часто утыкаюсь в боттлнек в виде монитора и клавиатуры. Если мне прямо в башку будет транслироватся код, вместе с тем что ЛЛМ нашептывает, а я в его сторону флюиды "ведро с болтами что ты за говно написал, иди исправляй" то вот тогда заживём.

Аноним 15/02/26 Вск 19:14:46 #496 №1522162

>>1522152
>то вот тогда заживём.
...в банке. Так дешевле.

Аноним 15/02/26 Вск 19:19:00 #497 №1522171

>>1522089
> разумеется в здравом уме можно не рассматривать модели без агентного лупа
Только в них и рассматриваю, чат просто приятный бонус. Жирнокодеру можно поставить задачу, за пару сообщений убедиться что он понял нужное и махнуть рукой чтобы приступал. Если очень повезет то сразу достигнет нужного, в основном требуются вмешательства или уточнения по конечному результату, но достижимо. Причем в выполнении он прет как бульдозер, сначала заглядывая во множество файлов, потом выдавая огромные полотна кода, делая массовые правки. 4.7 жлем тоже ведет себя схожим образом.
Минимаксу сложнее поставить задачу, и на тех же или аналогичных кейсах сыпется в середине, неверно трактуя ошибки выполнения и внося изменения не туда. Вскоре это накапливается как снежный ком и модель уже забывает об исходной цели, изрядно закопавшись и буксуя. В общем поведение тоже отличается - выполняет мелкие операции по очереди, смешивает написание и правки с чтением, понимает что поспешил и возвращается к прошлому коду чтобы переделать, в целом все более хаотично.
Надо отдать должное что у него есть разумные механизмы остановки, и вместо бесконечного лупа он в один момент просто заявляет что задача невыполнима, но он может помочь с чем-то еще.
> пробежит через весь проект и в итоге интегрирует свой высер более качественно
Видимо, зависит от контента, претензии именно к этому. Вполне может быть что на качественных проектах и конкретных задачах он срабатывает лучше, но сомнительный код и внедрение больших изменений/далеко идущих планов его смущают.

Алсо, нельзя не порофлить с одинаковых датасетов. И кодер, и минимакс, и жлм, и жемини - буквально все допускают одинаковые ошибки. Например, пытаются оформить safetensors.torch.save_file в bytesio чтобы вернуть. И все, вместо того чтобы осознать абсурдность операции и сразу использовать .save и записать уже полученные байты, одинаково городят костыли то через временные файлы, то через обычный торч и прочее.