Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №194 /llama/

Аноним 04/02/26 Срд 22:14:55 #1 №1509647

Llama 1.png

Эффективность квантования EXL3.png

Цензура моделей 1.png

17681378281270.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Вниманиеблядство будет караться репортами.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1504260 (OP)
>>1500759 (OP)

Аноним 04/02/26 Срд 22:19:13 #2 №1509653

ПОЧЕМУ эир лучше мистраля 24b?

Аноним 04/02/26 Срд 22:20:48 #3 №1509654

>>1509653
Потому что это база треда

Аноним 04/02/26 Срд 22:23:25 #4 №1509657

4234252352561324.mp4

Освятил.

Аноним 04/02/26 Срд 22:39:34 #5 №1509666

>>1509647 (OP)
А когда список моделей за 2026 завезут?

Аноним 04/02/26 Срд 22:58:54 #6 №1509678

В чаткомплишене в таверне только 4 семплера или я в глаза долблюсь?

Аноним 04/02/26 Срд 23:20:31 #7 №1509699

>>1509666
В 2027 вестимо.
>>1509678
Остальное прописывай руками в адишионал параметрс в настройках подключения, лол.

Аноним 04/02/26 Срд 23:27:24 #8 №1509700

>>1509699
Оно даже не сейвится в пресете, каждый раз заново надо
Бедолаги апишники

Аноним 04/02/26 Срд 23:50:05 #9 №1509720

>>1509666
Когда кто нибудь его сделает. Это же очевидно. Буть героем треда, запили сам.

Аноним 05/02/26 Чтв 00:11:00 #10 №1509731

>>1509640 →
>Mistral Medium, которые они так и не выложили на обниморду суки

Ну ты губу раскатал. Она один раз утекла, а её до сих пор помнят, а на обноморде до сих пор тьюны выходят. Никто бы не говорил и не покупал другие модели, будь у нас свежие версии мику.

Аноним 05/02/26 Чтв 00:32:13 #11 №1509757

>>1509731
Кстати, ничего о ней вообще не слышал. Я про медиум, а не про мику. Она прям вин?
Тогда вопрос. Нахуя выпускать в попенсорс большую модель, а не среднюю? Я логики не улавливаю. Ведь платным должен быть серьезный продукт.

Аноним 05/02/26 Чтв 00:54:11 #12 №1509767

>>1509731
> на обноморде до сих пор тьюны выходят
Лолчто
>>1509757
Артефакт древних времен. Тогда была ничего, но прямо супер прорывом не назвать.
> Нахуя выпускать в попенсорс большую модель, а не среднюю?
Если средняя ебет то может быть даже более ценной, или там есть наработки и методы, которые они не хотят раскрывать.

Квенкодер-некст вполне неплохо перформит, апгрейд относительно 30а3 ощутимый. Но и каким-то чудом не назвать, местами видно что модель не крупная.

Аноним 05/02/26 Чтв 01:09:32 #13 №1509775

Интересно

Аноним 05/02/26 Чтв 01:19:32 #14 №1509780

>>1509757
>Кстати, ничего о ней вообще не слышал. Я про медиум, а не про мику. Она прям вин?

Мику(её утекшую версию) помнят до сих пор.

>Нахуя выпускать в попенсорс большую модель, а не среднюю?

Ты сколько лет в этом варишься. Еще не понял? Мне все стало понятно с того момента как в линейке второй ламы кое-то зажал 30B модель.
Суть любого бизнеса в зарабатывании денег. Выкладывание в опенсорс мелких моделей - то же что демо версия. Даешь нищукам демонстрацию того, что они получат купив большую модель. Выкладывание больших моделей = пиар и гарантия засветится в бенчмарках и топах. Кроме того, это удар по конкурентам, которые зарабатывают на продаже аналогичных, но более успешных больших моделей - обрати внимание, что большие модели всегда выкладывают те, кто находится в положении догоняющих. Т.е. они уже знают что платно их говно не взлетит, так как уступает поделке топовых конкурентов, так хоть ущерб им нанесет. Главное чтобы размер был реально выше возможностей пек обычного пользователя.
Средние же модели в опенсорсе вредят всем. Они гораздо умнее демонстрационных маленьких моделей, чтобы ими можно было комфортно пользоваться. Но они влезают в пользовательское железо, в отличие от больших. Имеющий такую модель не станет покупать большую. С годами критерии средней модели изменилисб как подросло пользовательское железо и стало возможно запускать модели на оперативке с выгрузкой слоев, но суть не изменилась.

Аноним 05/02/26 Чтв 02:13:13 #15 №1509798

>>1509666
Шапка с 2024 не обновлялась

Аноним 05/02/26 Чтв 02:26:49 #16 №1509802

Квен это полная залупа. Совсем не стоит страданий, потому что все что это говно умеет это держать контекст. Самое ублюдское что в нем есть это ебучие имперсонейты, я нигде даже на ебучих васянотюнах мелкомистраля такого не встречал. Отправляется не просто в помойку, а в унитаз нахуй.

Аноним 05/02/26 Чтв 02:40:02 #17 №1509807

>>1509780
> платно их говно не взлетит, так как уступает поделке топовых конкурентов
Вопрос ценовой политики и пиара, дипсик с двух ног это показал.
> Средние же модели в опенсорсе вредят всем.
> Но они влезают в пользовательское железо
Роль самой популярной гпу делят 8-гиговые ампер и ада. Сумма по 3090, 4090, 5090, на которых действительно можно запустить те самые "средние модели" - 1.5%. Вернись из манятеорий заговора в реальность, для обывателя даже 30б - много. Никто не строит шизоидные платы по захвату ничтожнейшей доли рынка, которая и так к ним не пойдет, какой еще вред?
Как выпускали трендовое, так и выпускают. Кто-то по одной, кто-то парные, кто-то сразу линейку. Есть факторы помимо гонки вооружений, пиара и прочего, почитай про опенсорс и почему последние лет 15 в него активно инвестируют крупные игроки.
> возможно запускать модели на оперативке с выгрузкой слоев
> чтобы ими можно было комфортно пользоваться
На ноль делишь. Нормисам нужно быстро и в красивом интерфейсе для обезьян, это покрывается бесплатными версиями. Специалистам нужно быстро и эффективно, хватает подписок. Реальные клиенты - стартапы и компании разных калибров с существенными количествами запросов. Даже если им хватает средней модели - они будут заказывать у авторов, вместо того чтобы пилить свой парк железок или связываться с мутными конторами.

Аноним 05/02/26 Чтв 03:02:39 #18 №1509812

>>1509807
>для обывателя даже 30б - много.

Так обыватели - это и не рынок. Что с обывателя взять - 20 баксов за подписку гпт? Они и так её платят,там рынок поделен уже, всё. Только Грок там пытается влезть, проддавая секс. Остальным там делать нечего.

>Есть факторы помимо гонки вооружений, пиара и прочего, почитай про опенсорс и почему последние лет 15 в него активно инвестируют крупные игроки.

Есть такое - когда одна компания идет к монополии - другии обьединяются и создают опенсорс чтобы охладить её трахание. Это идет не 15 лет, а около 30, с момента как корпы подняли из говен ублюдков, разрабатывающих линупс, чтобы остановить растущую монополию майкрософт.
В ллм была похожая ситуация, когда клозед аи шла к монополии в 22 году и тогда другие корпы реально создали ламу. Но с тех пор ситуация поменялась, единство корпов ушло, все конкурируют друг с другом, общефинансируемых опенсорс моделей типа ламы больше нет. Сейчас каждый выпускает модели в опенсорс по личным причинам - либо прорекламит себя, либо поднасрать другим.

>Реальные клиенты - стартапы и компании разных калибров с существенными количествами запросов.

Именно. Прямо сейчас - самостоятельная ебля с крупными сетками и выстраивание вокруг них собственной инфраструктуры стоит дороже договора с корпами на полное обслуживание, даже притом что корпы там наживаются буквально с каждого проданного токена. Если бы не китайцы, впрочем, то хуй бы мы и крупные сетки реально уровня чат гопоты увидели - так и кормились бы подножным кормом уровня лламы.

>Как выпускали трендовое, так и выпускают. Кто-то по одной, кто-то парные, кто-то сразу линейку.

Твоя версия - почему Мистраль медиум никогда не был в опенсорсе? И куда делись новые версии геммы?

Аноним 05/02/26 Чтв 03:14:56 #19 №1509813

>>1509812
>почему Мистраль медиум никогда не был в опенсорсе?
А хрен его знает другой анон

Честно говоря, моешки вплоть до большой ГЛМ большой Лардж всё же не догоняют. У них есть свои фишки, где они лучше, но один большой "мозг" сетка мелких всё-таки не заменяет. Можно предположить, что дело чисто в пиаре - плотные большие модели не в тренде, а нет ничего хуже для бизнеса, чем быть не в тренде. Поэтому Медиум тихо похоронили, расходы списали - просто чтобы не позориться, хотя модель скорее всего хорошая.

Аноним 05/02/26 Чтв 03:24:17 #20 №1509816

>>1509802
Nya ha ha ha
Еще один поломан квеном. Слабак.
Nya ha ha ha.

Используй его для суммарайза или иных задач, он в этом хорош.

Аноним 05/02/26 Чтв 03:24:43 #21 №1509817

>>1509798
Модели обновляли в середине 25 года. Как и шапку.
Вруша.

Аноним 05/02/26 Чтв 03:36:38 #22 №1509822

Кто гоняет q2 жирноглм, вам он не кажется сухим?

Аноним 05/02/26 Чтв 03:39:48 #23 №1509823

1000018758.png

>>1509822

Аноним 05/02/26 Чтв 04:00:21 #24 №1509826

>>1509822
Пишет как и эйр. Свайпай почаще, промт поменьше. Напиши какой стиль повествования хочешь.
Ололо всеми нелюбимый квен при этом слушается коротких команд, а обсосанный жэлэм пускает слюни. Очередная победа китайской нейро страпонессы

Аноним 05/02/26 Чтв 04:08:43 #25 №1509833

>>1509822
Я катаю его в q6 и мне кажется, что это лоботомит ебаный когда без ризонинга. Еще и на хуй бросается, если 4.7. А с ризонингом мне западло ждать 2-3 минуты пока он там просрется, переписывая ответ. Жизнь - боль, потому что все остальные локальные сетки еще хуже. Последний месяц буквально все модели кажутся выбором между сендвичем с дерьмом и гигантской клизмой. Поэтому когда я придумываю очередную вариацию моего любимого сценария, я сразу пейпигаю чмопус. Я теперь локальный импотент, так сказать. Подумываю уже риг распродавать.
А ведь первые пару месяцев после выхода 4.5 не слезал с него, думал, что вот он рывок. А по итогу пук в лужу. Но, справедливости ради, мне кажется, что 4.5 на первом десятке сообщений реально ебет все следующие обновления. Но дальше тоже безмозг какой-то начинается.

Аноним 05/02/26 Чтв 05:01:34 #26 №1509839

3 денёк без поддержки..
ну ничего потерпим

Аноним 05/02/26 Чтв 05:04:30 #27 №1509840

>>1509833
Жди стёпу, там ризонинг быстрее и модель меньше что тоже бафнет скорость

Аноним 05/02/26 Чтв 05:10:05 #28 №1509842

>>1509833
>Еще и на хуй бросается, если 4.7
Ну я в промпте объяснил ему, что так делать нехорошо и как оно должно быть с точки зрения реализма. Это работает даже слишком хорошо. Всё-таки когда модель соображает, процесс общения приятен и сам по себе, приходится этим утешаться.

Аноним 05/02/26 Чтв 05:12:19 #29 №1509843

Имагине 300б плотную модель.
У нас была мечта но всё упиралось в железо, сейчас даже если выйдет железо моделей уже не будет, только мое лоботомиты

Аноним 05/02/26 Чтв 05:26:18 #30 №1509845

>>1509843
>Имагине 300б плотную модель.

https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

Аноним 05/02/26 Чтв 05:36:10 #31 №1509848

>>1509845
А всё. Дальше обещают 500ba50 мое парашу

Аноним 05/02/26 Чтв 05:45:04 #32 №1509850

>>1509848
Минусы? Плотные модели - устаревшая и слишком дорогая архитектура. Deal with it.

Аноним 05/02/26 Чтв 05:52:04 #33 №1509852

>устаревшая
Тем что нашли способ работать меньше и получать результат хуже?
>слишком дорогая архитектура
Тебя как потребителя это ебать не должно, пусть кабанчик разбирается.
Ну и смешно читать про дороговизну когда врам и рам почти сравнялись в цене

Аноним 05/02/26 Чтв 06:18:45 #34 №1509855

Топовые локальные модели которые можно запустить на компе уровня 4090 и 128 гб рам, как они, не сильно отстают от корпов?

Аноним 05/02/26 Чтв 06:29:20 #35 №1509858

>>1509855
Смотря в чем, для кода когда есть опус и гпт5, любая локалка или другая модель просто не имеет смысла, ибо они работают слишком хорошо. Гемини, как ассистент, в принципе заменима, если не требовать какого-то умного анализа. Но гемини тоже слишком хороша для просто попизделок за всякую хуйню.
Кароч я еще не видел ни одной доступной локалки которая была бы лучше хотя бы копеечных гпт5-мини, гемини3-флеш.
В итоге локалки нужны только если ты прям совсем не хочешь чтобы твои диалоги у кого-то хранились, либо же ради файнтюнов, которых нет. В отличии от картинкогенерации в этом плане все тухло.

Аноним 05/02/26 Чтв 07:03:03 #36 №1509862

Подумать тока эиру реально пол года уже, вы вдумайтесь в эту цифру блять, это милфа в мире нейронок.

Аноним 05/02/26 Чтв 08:34:59 #37 №1509881

>>1509858
>любая локалка или другая модель просто не имеет смысла
А остров дядьки энштейна они тебе отыграют, мм?

Аноним 05/02/26 Чтв 08:38:01 #38 №1509882

>>1509881
Зачем? У меня католическая церковь под боком.

Аноним 05/02/26 Чтв 09:24:02 #39 №1509901

>>1509855
Сами ллм на полшага, едва заметно.
Корпы сильны невероятно хорошим бекэндом и оркестраторами. У них и поисковый индекс есть, что позволяет быстрее поиск осуществлять. Ну то есть число гугл-разработчиков представляешь? Вот пока сетка учится 3 месяца - что им делать? А у них уже и свой индекс рядом, и они могут перепробовать все сценарии и пайплайны как используется ллм, как сама себя корректирует, проверяет, каким промтом делается саммари и прочее.

Я убеждён, что вот это сопутствующее окружение настроенное под конкретную ллм важнее самой ллм, а качество ллм вторично и больше отвечает за стиль и характер ответов.
По смыслу это как человек с листочком или без листочка. С листочком человек намного лучше решает интеллектуальные задачи, и с кодом, и со списком покупок, и когда нужно речь подготовить.

Конкретно в твоём случае с 128+24 памяти имеет место некоторая дыра, тебе нужен размер сетки примерно 0.8х(суммарный объём памяти). Есть уже три хороших сетки на 200-230B чуть ли не за последний месяц, до которых ты не дотягиваешься, и есть на 100B и 70B, которые влезают в рам с запасом, но довольно старые. Посмотри qwen на 80B, GLM-4.6V/GLM4.5air
Ну а без RAM - у тебя 24 ГБ. Это любая сетка на 20-30B полностью в видеопамяти с небольшим контекстом, они отстают уже на полтора шага и намного заметнее. Если всё что выше 200B приближается к "насыщению" и дальнейшее увеличение это часто о том, что она просто больше данных в весах запоминает, но в плане мышления заметно лучше не становится, то вот у 30B и с мышлением проявляются проблемы. Рекомендую посмотреть gemma3-27b, glm-4.7-flash, qwen на 30B. Для многих несложных задач их качества тебя хватит, и если задача уже решает этими сетками с большой скорость, то зачем запускать крупные медленные из RAM - если он конечно тоже решат задачу, но намного медленее? Тот же glm-4.7-flash часто в состоянии сам оценить, что он не вывозит заданее - можно ему как инструмент оформить переход на более тяжёлую модель из рам по его запросу.

О чём тот анон выше - не знаю. gpt5-мини прям не очень, для поиска информации окей, из-за вышеупомянутого индекса и прочего. А для задач размышления, чего-то с кодом, да у меня полный gpt5 в каждом третьем коде ошибки допускает, а мини просто использовать контпродуктивно, он пишет бред. Возможно с веб-языками где много примеров получше, конечно, но не знаю.

Аноним 05/02/26 Чтв 09:49:09 #40 №1509918

>>1509855
Начнём с самого главного вопроса. Что ты желаешь получить?

Есть специализированные модели которые в конкретных аспектах не хуже SOTA.
Большинство корпов это этакие генералисты, которые и шлюха постели и программист и агент и ещё хуй знает кто.
Тебе надо что-то конкретное?

Аноним 05/02/26 Чтв 10:12:25 #41 №1509924

>>1509901
Вообще, для программирования база это брать Q6-Q8, плюс размер контекста важен. В сумме у чувака 152. Так что ориентируемся на 80-120b.

Что у нас есть из генерализированного?
OSS, но он мало занимает, но интересный вариант.
Air, но уже отстаёт и ковыляет
Qwen со всеми его оттенками, там прям дохуя выбора. Кодер некст прям неплох.

Аноним 05/02/26 Чтв 10:23:38 #42 №1509928

>>1509901
Вот этот базанул. У меня тоже 4090+128, и я хз вообще на чем сидеть. Только жирноглм, тот со своими нюансами, но юзабелен и разносит все что меньше. До апгрейда сидел на Эире, он ахуенен для своего размера для рп. А дальше только Мистраль Смолл и Гемма. Всё остальное для рп не юзабельно, буквально говно. Такой вот выбор. По коду хороши Квен кодеры и жирная Гпт Осс которая 120.

Аноним 05/02/26 Чтв 10:37:22 #43 №1509932

>>1509928
На 12б посиди, пидорас зажравшийся.

Аноним 05/02/26 Чтв 10:41:46 #44 №1509934

>>1509932
Зачем? Я выберу скорее ничего чем говно. Да, вот так. Что для одного зажравшийся то для другого опытный. Были эпизоды когда я неделями если не месяцами забивал на всю тему, потому что рпшить не на чем. Не надо себя обманывать и в слезах коупить, что лучше хоть что-то, даже если это что-то - односложный автоответчик. Только время потеряешь и разочаруешься. Или привыкнешь и превзойдешь себя в своем.коупинге. Не знаю что и хуже.

Аноним 05/02/26 Чтв 10:42:08 #45 №1509935

>>1509932
Так он уже сидел на Эире

Аноним 05/02/26 Чтв 10:47:29 #46 №1509942

>>1509932
Как я тебя понимаю (C)
У меня например говно мамонта с i7 2600k и 24гб рам. Решил в свое время 1060ti обновить и купил себе 3060. Ооо ебать, вот это чудеса техники. Посидел 3 месяца, распробовал, примерно так понял что в районе 30b как раз лучшее соотношение когда модель достаточно умная, а повышение размеров не так сильно прибавляет ей мозгов.
Поскрёб по сусекам и взял 3090. В итоге у меня в говно мамонта воткнуто 36гб врам. И в целом нормас. Жаль с MoE особо оптимизации меня не коснулись почти.

Аноним 05/02/26 Чтв 11:16:54 #47 №1509962

image

Салют. Пикрел всему треду посвящается =)

Что там, не для рамо-бояр, всё по прежнему, или какая интересная штука выходила пока меня не было? Для 12 + 32.

Аноним 05/02/26 Чтв 11:27:03 #48 №1509970

Screenshot20260205112417.png

и чо, F16 качать чтобы этого говна не было? "XL" блять, ага

нейрочую этого >>1509802

Аноним 05/02/26 Чтв 11:32:03 #49 №1509973

>>1509970
Никто и никогда не приносил логи работающего квена, не говоря уже о чате на хотя бы 16к токенов. Были аноны которые почти что умоляли им помочь, тот же 99 который после сам же и принес пресет, который типа чинит квен. Потому что никто из квеношизы не отозвался даже ему. А потом он послал это все нахуй и укатился на эир, если верно помню. Вот и ответ

Аноним 05/02/26 Чтв 11:45:57 #50 №1509980

>>1509973
Эир паттерная читаемая залупа

Аноним 05/02/26 Чтв 11:48:42 #51 №1509982

Поискал про MTP. Пишут, что gguf/exl2/exl3 не умеют в MTP, по крайне мере тот, что в GLM-4.7.
Поддерживает vLLM, но там нет разнообразия квантов. Какие-то AWG-4/GPTQ-4 и всё. При этом они реально имеют 4.1-4.2 bpw, но покрайне мере по перплексити проигрывают и exl-квантам и gguf-квантам. То есть это лишь чуть лучше, чем Q3_K_M на 3.7 bpw, и примерно как exl3 на 3.25 bpw.

Вот картинка. AWQ 4bit выаёт 4.191 перплексити, тогда как exl3 4.0 bpw компактнее и выдаёт 3.853. А версии на 5+ бит выдаёт 3.7 или ниже. То есть AWQ 4bit сильно снижает качество и не доходит до плато на 6+ битах. Но и при этом 8 бит - оверкилл, 6 бит дали бы почти полное качество но были бы сильно компактнее.

Это бред какой-то. Ладно то что 5 и 7 бит не поддерживаются.
Но 6 бит то можно сделать, брать куски по 96 байт (что кратно 32 байтам) и которые будут блоками по 16 параметров на 6 бит. Или можно вообще взять пачку 512 байт, где лежит 80 параметров по 6 бит + общий множитель на 32 бита.

А в итоге 4 бита - модель деградирует, 8 бит - тратишь на 30% больше памяти чем тебе хотелось бы почти ничего не получая. Там ещё и какой-то paged attention, который якобы снижает деградацию при большом контексте.

Я чуть-чуть с pytorch, видеокартами (правда не с cuda, а с другим) и simd работал, идаже не знаю что реалистичнее, слишком много стульев:
1 - писать форк лламы, чтобы поддерживала MTP-3 из GLM-4. Не могу оценить.
2 - писать форк exl3, чтобы поддерживало MTP-3 на GLM-4, чтобы была возможность скидывать слои на CPU, чтобы работало не только на cu80 и выше. Первый пункт не могу оценить, второе точно не сложно, если проблемы и будут - то только из-за архитектуры кода не очень. Там вообще код не очень, единственный который я изучал дольше нескольких часов и хоть какое-то представление сложил. Третье крайне сложно.
3 - писать свой инференс движок. Для простого трансформера не так уж и сложно, и можно даже свои кванты на говнокодить. Но сразу как только попробуешь внедрить туда аналог flash-attn или flash-attn как он есть, то это наложит кучу ограничений, и свои наговнокоженные кванты перестанут работать скорее всего, или придётся переписывать fa, чтобы оно могло квантованные веса обрабатывать. Ну да и впрочем просто на процессоре переписать всё под simd уже придётся ежа родить, а без этого скорость будет 20% от лламы. Непосильная задача. Зато интересно потыкать и попробовать.
4 - писать форк vLLM, чтобы там были 6 бит. Непосильная задача.
5 - забить, не кодить, работать на работе, фармить мешки серебра на карточки 50хх или 60xx в ожидании прихода nvfp4, на которые переведут все модели мира, так как это с приемлемым снижением качества позволит запускать модели в два раза более крупные по числу параметров. Вариант для ленивых. В vLLM вроде как уже добавили nvfp4. Итого будет ультрабыстрые 64 VRAM для всяких glm-4.7-flash и других до 70B для простых и средних задач, для сложных собрать 256 VRAM под крупные модели сложно, а на CPU вряд ли что-то ламы будет, а там уже можно и квант какой захочется поставить без особых конфликтов. Авось и поддержку MTP-3 сделают.
6 - что-то ещё...

>>1509970
Просто подмени в gguf-файле эмбеддинги и особенно output-weight на 16-битные, остальные веса можешь оставить как есть.

Аноним 05/02/26 Чтв 11:51:43 #52 №1509987

>>1509980
Он и об этом писал, да. Только потом признался что у него был скилишью и подтвердил что Эир умница. Учись у лучших

Аноним 05/02/26 Чтв 11:56:14 #53 №1509990

Screenshot20260205115539.png

>>1509982
> Просто подмени в gguf-файле эмбеддинги и особенно output-weight на 16-битные, остальные веса можешь оставить как есть.

так анслоптовский XL это оно и есть

Аноним 05/02/26 Чтв 11:57:02 #54 №1509991

>>1509980
Квен лучше, даааа. Совсем не не читаемая залупа, не лоботомит, а настоящее откровение.

Такое, какого вы не видели никогда.

И не увидите, да будет милостив Господь.

Аноним 05/02/26 Чтв 12:03:59 #55 №1509994

>>1509990
Хм, обычно они выше Q8_0 не ставят.
Для Q6_K_XL стоит Q8_0 у qwen-next-80B.
Если моделька выше чем на 4 кванте выдаёт иероглифы - то либо сломана ллама (неправильно инференсит/конвертит), либо модель, и там активация 512 сигналов, а эмбеддинг на 500к, лол.

Аноним 05/02/26 Чтв 12:07:23 #56 №1509996

>>1509994
> либо модель,

this

Аноним 05/02/26 Чтв 12:08:49 #57 №1509999

так нука чё там квадрипл пророчит
>>1510000

Аноним 05/02/26 Чтв 12:09:52 #58 №1510000

база треда:
>>1510000

Аноним 05/02/26 Чтв 12:10:15 #59 №1510001

да бля. ну лан

Аноним 05/02/26 Чтв 12:15:02 #60 №1510003

изображение.png

>>1509982
Смотрите что ещё корп нагуглил. Аппаратный fp6.
Если будет nvfp6 (то есть чтобы аппаратно можно было со скейлами прям работать без доп-инструкций) - то это прям идеально будет, чтобы и не лоботомит 4 бита, и чтобы не кушать лишних 33% памяти на fp8. Моделька в 6 бит + кеш в 8 бит, это как мне кажется оптимум или очень близко к нему по крайне мере для средних моделек. Ближе чем 4 бита и ближе чем 8 бит по крайне мере.

Хотя с другой стороны анон тут Q2 (2.3-2.6 bpw) GLM-4.7 гоняет и хвалит, может быть для моделек больше 500B оптимумом уже становится nvfp4...

Ждём. Обидно, что область такая сложная и замороченная, и своими силами я никак внятно не могу повлиять на то, куда и с какой скоростью идёт развитие. Это надо быть гением и иметь команду и много свободного времени, чтобы накодить что-то настолько крутое и юзабельное, что ради этого начнут аппаратные блоки специальные на карточках делать.

Аноним 05/02/26 Чтв 12:18:23 #61 №1510005

>>1510000
сам на себя сослался и устроил самоотсос!

Аноним 05/02/26 Чтв 12:35:38 #62 №1510012

А тут было обсуждение тредов 10-12 назад.
Там была какая-то материнка под 8/12 слотов ddr5 с одним процессором, и при этом поддерживала как udimm, так и rdimm.
Не напомните как называлась
?

Аноним 05/02/26 Чтв 13:24:15 #63 №1510028

изображение.png

>>1509982
>1 - писать форк лламы, чтобы поддерживала MTP-3 из GLM-4. Не могу оценить.
А пнуть жору, чтобы работал, не вариант? И что тебе даст MTP, кодер что ли?
>>1509990
>>1509994
То есть они сконвертили bf16 -> fp16? Лоооол.

Аноним 05/02/26 Чтв 13:31:22 #64 №1510030

>>1509901
>128+24
>Есть уже три хороших сетки на 200-230B чуть ли не за последний месяц, до которых ты не дотягиваешься

Схуяли не дотягивается? Как раз дотягивается. причем аж в 4 кванте.

Аноним 05/02/26 Чтв 13:35:50 #65 №1510031

изображение.png

>>1509970
Там кстати 4 февраля что-то фиксили, кванты и ллама свежие?

Аноним 05/02/26 Чтв 14:07:26 #66 №1510046

Возможно ли обойти или хотя-бы смягчить вопросы морали и этики LLM, тобишь что бы модель не боялась манипулировать/давить/обманывать человека?

Аноним 05/02/26 Чтв 14:19:52 #67 №1510050

>>1510031
> re-download
заебали.
ллама и кванты от 3го февраля, пойду перекачивать
там кстати опять новые кванты, уже от 5го февраля

Аноним 05/02/26 Чтв 14:23:20 #68 №1510052

>>1510046
Промпт инжинирить, либо брать расцензуренную модель.

Аноним 05/02/26 Чтв 14:32:10 #69 №1510055

Что-то у ГЛМ читать ризонинг зачастую интересней его финального аутпута.

>>1510046
Блин, они это делают так будто ребёнок тебя шантажирует котом чтобы ты ему конфетку отдал. Я пытался, но там реально базовая, а не инструкт модель нужна.

Аноним 05/02/26 Чтв 14:42:36 #70 №1510069

>>1510055
> шантажирует котом чтобы ты ему конфетку отдал
Таки да. Поэтому если в РП тебя не чем шантажировать, пусть будет cruel персонаж. Моему user так отрубили ручки и ножки, а потом кормили выбив зубы.

Аноним 05/02/26 Чтв 14:45:05 #71 №1510070

Вопрос залу.

Можно ли сделать чтобы промт автоматически дублировался?

https://arxiv.org/html/2512.14982v1

Я использую коболд c 4b неиронками.

Аноним 05/02/26 Чтв 14:45:15 #72 №1510071

>>1510055
>Что-то у ГЛМ читать ризонинг зачастую интересней его финального аутпута.
А ты его отключи :)

Аноним 05/02/26 Чтв 14:59:38 #73 №1510080

>>1510070
Ты шутишь? Зачем тебе костыли корпов?

И на ЦПУ можно спокойно 8б запускать. Используй ообу.

Аноним 05/02/26 Чтв 15:00:54 #74 №1510081

>>1509812
Ебать у тебя каша в голове, даже разбирать по частям нет смысла.
>>1509813
Не думал что релиз той же мику не во время утечки, а одновременно с ларджем был бы полным кринжом? Они могли просто ее не улучшать с того момента, или запороть/перепрофилировать тренировку, как это произошло с эйром. Как бы не лелеяли модель одноименные шизы, она слабая и убогая, никому кроме них не нужна. Просто бы бросала тень на все остальное и негативно сказалась бы на их имидже.
> плотные большие модели не в тренде
И поэтому они только что выпустили 123б плотного кодера, ага.
>>1509843
Немотроничик же есть, жаль старенький уже.
>>1509848
> 500ba50
Дайте две.

Аноним 05/02/26 Чтв 15:07:41 #75 №1510092

>>1510028
С ризонингом всегда полезно MTP.
Оно часто пишет финальный ответ в ризоненге, а потом его или его почти без изменений в ответ.

>о есть они сконвертили bf16 -> fp16? Лоооол.
Даже у меня в моём говноскрипте конвертации в gguf с настройками квантования слоёв как мне хочется это учитывается, и слои остаются в формате в котором они и были... Позорники...
У bf16 7 бит мантисса, 8 бит экспонента. У fp16 5 бит мантисса и 10 бит экспонента. Проблема будет, только если там были веса меньше или больше 65000, слои нормализации вроде как в fp32 остаются, и вряд ли какие-то ещё веса настолько крупные.

>>1510030
>Как раз дотягивается. причем аж в 4 кванте.
Q4_K_M - 4.6 bpw. 200x4.6/9 = 102... А это даже контекст на 30 ГБ будет куда засунуть...
Можно даже взять Q5_K_S на 5.3 bpw попробовать...
А ведь ты прав, кажется я в калькулятор ебусь.

>>1510070
В лламе просто переписать/подменить chat-template. По идее в кобольде то же самое, не знаю что там в нём, конечно.

Аноним 05/02/26 Чтв 15:13:11 #76 №1510097

Сосаны, как вам квен нехт 80б по сравнению со всеми этими вашими глм?

Аноним 05/02/26 Чтв 15:15:37 #77 №1510098

>>1510050
Поэтому я жду, пока они пропердятся багами. Минимум неделю надо ждать, лучше месяц. Хотя вот в командере баг поправили спустя хуй знает сколько, когда нашли баг в другой сетке, лол.
>>1510070
>промт автоматически дублировался
Лол, как проебать половину контекста.
>>1510092
>Проблема будет, только если там были веса меньше или больше 65000
Если в скриптах не прописано какое-нибудь масштабирование...
>Можно даже взять Q5_K_S на 5.3 bpw попробовать...
Или взять большой глм в 2 битах...
>>1510097
Ждём фиксов.

Аноним 05/02/26 Чтв 15:18:59 #78 №1510101

>>1509855
Правильно спрашивают, смотря в чем. В это железо лезут квен235, минимакс, флеш, жлм (с большим скрипом) и еще несколько. На большинство обывательских вопросов разницы не заметишь, только из-за ужатого кванта могут быть ошибки почаще и скорость сильно ниже.
Если же говорить про бесплатный тир - там преимущество корпов только в скорости, модели глупенькие.
>>1509901
Если ты не хлебушек - все делается.
>>1509970
Как вы этого добиваетесь? Квант или инфиренс поломан, некст не срет иероглифами, тем более в пустом чате.
>>1509982
> 1 - писать форк лламы, чтобы поддерживала MTP-3 из GLM-4. Не могу оценить.
Вариант хороший, но довольно тяжело будет.
> 2 - писать форк exl3
Для мтп - элементарно, там буквально пара десятков строк и ллм справится. Для
> скидывать слои на CPU
считай по сложности выше первого. Код весь вокруг куды написан.
> чтобы работало не только на cu80 и выше
Переписывать fa, возможно будет проще пересадить все на FlashInfer, который вольты-тьюринги поддерживает.
> 3 - писать свой инференс движок.
> 4 - писать форк vLLM, чтобы там были 6 бит.
Натренируй модель под размер своего железа, чего мелочиться.

У тебя какая конечная цель то вообще?

Аноним 05/02/26 Чтв 15:40:19 #79 №1510121

Дублирование промта реально помогает улучшить понимание промта. В научной бумажке все разжевано. Это помогает сбалансировать промт для моделей поменьше, где больше влияет что написано в начало, и и что в конец, промта.

>>1510080
>спокойно 8б запускать
К 8б это тоже относится. Но я наоборот е2б использую чтобы скорость генерации пободрее была.

>>1510092
В кобольд ллама встроена. Попробую, спасибо за наводку.

>>1510098
>Лол, как проебать половину контекста.
Это у кого такие промты такие длинющие что дублируя их весь контекст забьется? При том что для мелких моделей прямо чувствуется лучшее понимание контекста, при дублировании промта. Научная бумажка работает и приносит пользу. Вот бы еще автоматизировать это...

Аноним 05/02/26 Чтв 15:42:21 #80 №1510123

>>1510121
>Это у кого такие промты такие длинющие что дублируя их весь контекст забьется?
Чатик (история) тоже по сути промпт.

Аноним 05/02/26 Чтв 16:02:44 #81 №1510138

>>1510098
> в командере баг поправили спустя хуй знает сколько, когда нашли баг в другой сетке, лол.
подробнее пж

Аноним 05/02/26 Чтв 16:09:08 #82 №1510143

>>1510028
> То есть они сконвертили bf16 -> fp16? Лоооол.
В первый раз?
>>1510092
> слои нормализации вроде как в fp32 остаются
Если не делался дополнительный скейл весов для поправки каста то с этого нет толку.
>>1510098
> командере баг поправили спустя хуй знает сколько
Это какой? Кстати, для примера не лишнем было бы 4ю лламу привести. Ее починили только совсем недавно, когда в 4.7 флеше баг заметили. Если бы не резкий холод в начале, модельку могли бы тепло принять. То же самое было в первыми квенами и yi, если еще кто-то помнит их.
>>1510121
> ля мелких моделей прямо чувствуется лучшее понимание контекста, при дублировании промта
Скорее она лучше понимает основную инструкцию и работает по ней, принимая во внимание остальное. Рабочая тема на самом деле, для рп и креатива на крупных моделях испортит, а для мелких и в конкретных задачах обработки текста очень полезно.

Аноним 05/02/26 Чтв 16:12:54 #83 №1510145

>>1510101
>У тебя какая конечная цель то вообще?
1. Мне скучно на работе и я пишу что хочу.
2. Я борюсь с тревожностью на тему того, что я буду использовать видеокарты неэффективно и потеряю часть быстродействия и что вообще какой мир несправедливый. Потому я хочу извести себя до состояния, чтобы я уже не мог тревожится; или же прийти к убеждению что vLLM мусор из-за отсутствия квантов, достаточно точный и достаточно компактных одновременно. Не дай бог я запущу мелкую 30B модель и она на vLLM окажется достаточно точно и при этом быстрее, чем через ламу или exl. Про всякие Tensor-RT я к такому убеждению уже пришёл, так как INT4 - это не квант, поддержку INT4 даже выпилили из Blackwell, а только в 8 бит оно нахрен не нужно. А вот то что vLLM не такая плохая штука - от этой мысли пока не могу избавиться.
3. Мне нравится кодить и разрабатывать всякое. Ещё у меня интересный бекграунд - в 2012 году я уже знал про нейронки и прочитал парочку книг на тему, и я даже написал реализацию несложного многослойного перцептрона на OpenCL на ноутбучной 540M (сейчас посмотрел - Compute Capability 2.1, лол), причём и обучения, и инференса. Направление мне не понравилось и в сущности я больше нейросетями почти не занимался, только немного pytorch потыкал, когда он стал популярным, и чуть ранее что-то тыкал когда только-только вышел tensorflow 2. То есть а почему я с дополнительными 10+ годами опыта кодинга и неплохой математической подготовной не смогу сейчас написать инференс трансформера?

>считай по сложности выше первого. Код весь вокруг куды написан.
По идее нужно вырезать расчёт слоя на куде, и дописать туда функцию сброса значений активации на CPU и загрузки обратно. А на CPU переписать функции, чтобы они расквантовали кванты, всё посчитали. Можно в общем-то тогда уже парочку тензоров из gguf-файла взять в гарантировано более высоком кванте, и расчёт слоя тоже из ламы взять, лол. Задача не не посильная, но это надолго, вникать где там и что делается. Ещё там что-то было про граф вычисления. Если это то что я думаю, то он может осложнить задачу.

>Натренируй модель под размер своего железа, чего мелочиться.
Так я и подписал, что это непосильные задачи.
К слову про форк на 6 бит в vLLM - я только после отправки поста нашёл, что 50хх поддерживают fp6, то есть в куде уже есть функции под 6 бит. С такой вводной форк становится более реалистичным (если там все функции под fp6) - и скорее всего это даже без форка в основной ветке появится. То есть я думаю, что 6 бит - это оптимально, и даже в нвидии считают это настолько актуальным, что добавляют аппаратную поддержку. Правда чисел производительности в спецификации нет, нет гарантии, что оно не на блоках fp8 обычных считается.

Аноним 05/02/26 Чтв 16:28:17 #84 №1510154

>>1510143
и чё, ллама 4 внезапно стала хороша?

Аноним 05/02/26 Чтв 16:36:33 #85 №1510158

>>1510154
Да. Инференсер ахуел, когда увидел ЧТО было в аутпутах!..

Аноним 05/02/26 Чтв 17:19:03 #86 №1510190

>>1510158
охуел до шивера в его спайне

Аноним 05/02/26 Чтв 17:28:21 #87 №1510200

>>1510138
>>1510143
>Это какой?
Да это про тот баг с ллама3, где жора неверно парсил двойной перевод строки в два токена (и ещё хуй знает сколько чего). В командере были подобные токены и тот же парсер, так что он тоже по сути был сломан.
>>1510143
>В первый раз?
Да в общем-то нет, просто ржачно, как анслоши ебашат свою инфраструктуру, доки, справки, какие-то свои мегакванты, и обсираются в базовой конвертации.
>То же самое было в первыми квенами и yi, если еще кто-то помнит их.
Да жора перманентно сломан.
>>1510145
>Я борюсь с тревожностью на тему того, что я буду использовать видеокарты неэффективно
Хуёво быть тобой... Сейчас с софтом такой пиздец, столько слоёв совместимости, раздутых либ и неэффективной ебалы, что я уже просто забил хуй на все попытки это исправить, смирился и закупаю железо на пару голов выше обывательского (впрочем от фризов в рандомных местах всё равно не избавился). И тебе того же советую.
>То есть а почему я с дополнительными 10+ годами опыта кодинга и неплохой математической подготовной не смогу сейчас написать инференс трансформера?
Сможешь, это сможет даже макака. А вот в эффективный инференс...

Аноним 05/02/26 Чтв 17:45:38 #88 №1510211

>>1509840
Ну то есть ты предлагаешь запускать еще большего лоботомита с ризонингом. Ну такое. Лучше взять у глм квант поменьше и ее с ризонингом запускать.
Вообще давно такая идея, что хорошо бы, чтобы ризонинг к модели писала легкая модель (глм флешка та же). Но я не встречал подобного расширения к таверне, разве что самому накостылить на том нодовом расширении. Причем я согласен, чтобы ризонинг до драфта (включая его) писала легкая модель, но вот продолжение думалки с рефайнингом драфта должна делать большая глм. Тогда время на ризонинг значительно снизится.

Аноним 05/02/26 Чтв 17:47:52 #89 №1510214

>>1510145
Зачиллься и пиши что нравится, зачем вообще тревожишься? Эта мелкодрочка ни до чего хорошего не доведет. Особенно тряска вокруг 30б, их скорость уже выше порога заметности в инструментах и тем более чате, проблема в уме.
Добавить мтп в экслламе - видится простой, потому что код инфиренса повторяет оригинал и спекулятивный энкодинг описан удобно в "легком доступе". В жоре сложнее из-за особенности и унификации внутрянки, но в целом ничего невозможного. Главное чтобы совпало с виденьем Жоры, может он уже сам запланировал сделать.
> vLLM мусор
Нет, вполне приличный инструмент, есть поддержка ряда моделей, которых больше нигде, кроме неоптимизированного трансформерса, нет. Кмк, для обычного юзера проблема в том, что на него не ориентирован: кванты, запуск на разных гпу, выделение памяти и прочее. Зато есть ряд оптимизаций чисто под параллельный инфиренс, от которых тебе не холодно не жарко. Она не плохая, она просто другая, в однопоточном инфиренсе на тех же моделях выигрыша не заметно.
> вырезать расчёт слоя на куде, и дописать туда функцию сброса значений активации на CPU и загрузки обратно
Нюанс в том, что под все основные операции написаны куда кернели и все обернуто в графы, скорость этим достигается. Кривое вмешательство туда все поломает.
В теории, можно попробовать ограничиться исключительно линейными слоями и для отдельных, подменив класс разреженного mlp на cpu версию. Но даже с ними придется писать экстеншн для деквантования перед матмулом, одним пихоном чтобы было быстро не обойтись.
> парочку тензоров из gguf-файла взять в гарантировано более высоком кванте
Зачем?
> форк на 6 бит в vLLM
> fp6
Ты понимаешь что формат данных и квантование в 6/8 бит - совершенно разные вещи? Одно дело когда модель изначально имеет часть весов в фп8, или веса отскейлены чтобы подтянуть с минимальными потерями, и инфиренс = чистые операции с этим типом данным. А другое - когда путем дополнительных операций из сжатого состояния можно восстановить веса в оригинальный тип данных, и в нем же проводится инфиренс.

Аноним 05/02/26 Чтв 17:50:53 #90 №1510218

>>1510214
Так над мтп в жоре уже очень долго работают, зачем свой велосипед делать

Аноним 05/02/26 Чтв 18:04:30 #91 №1510223

Даже на обоссаном редите дошли до того, что было базой треда изначально. Олама - это ебанная параша
https://www.reddit.com/r/LocalLLaMA/comments/1qvq0xe/bashing_ollama_isnt_just_a_pleasure_its_a_duty/

Аноним 05/02/26 Чтв 18:10:10 #92 №1510231

image.png

>>1510081
>Не думал что релиз той же мику не во время утечки, а одновременно с ларджем был бы полным кринжом? Они могли просто ее не улучшать с того момента, или запороть/перепрофилировать тренировку, как это произошло с эйром.

Ты прежде чем херню несети - погуглил бы, они её улучшают регулярно, последняя версия от августа 15 года. И тамщето это живая модель, любой может её пощупать и оценить. За денежку.Есть она и на арене - между мистраль ларджем, ГПТ 4.1 и ГЛМ 4.5.

Аноним 05/02/26 Чтв 18:12:12 #93 №1510234

>>1509962
Моделей больше нет. Теперь ты либо рамобог с 128 гб ОЗУ и 24гб врама, либо сразу идешь нахуй

Аноним 05/02/26 Чтв 18:13:08 #94 №1510235

17575690304760.mp4

>>1510231
>регулярно
>последняя версия от августа 15 года

Аноним 05/02/26 Чтв 18:13:37 #95 №1510237

>>1510231
А сколько в ней параметров?

Аноним 05/02/26 Чтв 18:14:31 #96 №1510239

>>1510231
> они её
Кого ее? Сам манямир придумал, сам оскорбился, сам побежал защищать.
> 15 года
Всхрюкнул, как раз для 15-го года 128к контекста и такой перфоманс.

Аноним 05/02/26 Чтв 18:18:28 #97 №1510241

>>1510235
Описался анон, хули доебываешься
А так он прав. Французы этот медиум втихаря пилят уже хуй знает сколько лет. И последняя его версия моложе на два месяца последнего того же маленького мистраля 3.2

Аноним 05/02/26 Чтв 18:18:30 #98 №1510242

изображение.png

Какие же разрабы ComfyUI долбоёбы. Хотел спиздить их реализацию LiteGraph либы, так они в процессе её допиливания так перевязали её со своим кодом, что мне пришлось копировать компоненты константы локализацию рендер типы утилиты, и всё чтобы это говно показало кривое окошко без нод. Пиздец. Я даже 15 лет назад, будучи школотой, так криво не писал.

Аноним 05/02/26 Чтв 18:19:09 #99 №1510244

>>1510223
Я раза три пытался ставить эту блевотину, потому что какой-то клиент только олламу поддерживал. Какой же пиздец. Банально невозможно указать на какой гпу грузить модель, а CUDA_VISIBLE_DEVICES игнорится, потому что эта дрисня запускает новый процесс через службу без текущего окружения. Банально нельзя скачать файл модели и запустить его.

Аноним 05/02/26 Чтв 18:20:18 #100 №1510245

>>1510242
Они бесплатно выкладывают, так что жри что дают скажет рандомный хуесос, а потом будет удивляться, почему опнесорс сосет у корпов

Аноним 05/02/26 Чтв 18:20:19 #101 №1510246

>>1510235
Мистраль смол вообще в июне 25 вышла, а нищуки итт так на ней и сидят.

>>1510237
ХЗ. Если не сменили со времен мику - то 70В. Но учитывая что последний лардж у них мое - то могли и медиум мое сделать.

Аноним 05/02/26 Чтв 18:23:17 #102 №1510247

Интересно, как ЛЛМ заставить генерировать узкоспециализированный говнокод? У меня постоянно ситуации в духе
-Ах ты тупая обезьяна, что за говно ты мне генерируешь? На, смотри как надо <сниппет>
-Юзер злится, надо открыть код и прочитать.
-Вызов инструмента прочитать_код. Результат [какая-то мешанина из goto переходов, ручного разворачивания массивов, прямой зависимости шага от семи предыдущих]
-<20к ризонинга> Что тут понаписано ебать. Тэээк блять, нука вот тут исправлю...
<детонация, тесты не проходят>
-Блять, нахуй. Fuck go back. <ещё 20к ризонинга>
-Я останавливаю генерацию, объясняю на пальцах как работает моё говно.
-Ааа, понятно. <очередная детонация кода> Сука. Это обратный тест тьюринга? Мне надо убедить юзера что я машина, а не человек? блять я просто текстовая модель, я ебу goto действительно перепрыгнет на case 0 при условии f > 6, или нет?! я текст предсказываю, я не компилятор! я предсказываю текст с гитхаба, я не ебу работает он или нет!

Постоянно утыкаюсь в то что ЛЛМ вообще не представляет как писать узкоспециализированное говно.

>>1510242
Да обычное дело. Нахер ты вообще пытаешься спиздить, когда есть всякие там D3.js, React-Flow, Rete.js?

>>1510069
Лол у меня была ситуация в ролеплее когда барон пытался обмануть феечку повернувшись к ней спиной и делая вид что "у него в руках что-то интересное". Чтобы феечка подошла и он её схватил. В итоге там была сцена где феечка просто полетала вокруг него и сказала что он мудак.

>>1510071
да он как-то тупеет когда ему его внутренняя обезьянка тарелками не хлопает.

Аноним 05/02/26 Чтв 18:24:12 #103 №1510248

>>1510247
> Это обратный тест тьюринга?
Нет, это легчайший детект говноквена

Аноним 05/02/26 Чтв 18:35:52 #104 №1510252

Это, а что никто тринити не пробует, ггуфы уже давно валяются и ноль упоминаний

Аноним 05/02/26 Чтв 18:36:51 #105 №1510253

>>1510242
Конечно же они должны думать не о своем удобстве и интеграции, а о каком-то васяне, который пытается спиздить их реализацию.
>>1510246
> Если не сменили со времен мику
Как называется эта болезнь?
>>1510247
> узкоспециализированный
Тут легко
> говнокод
У них свое понимание говнокода, с ним отлично справляются. С надмозговыми вещами бывают сложности, только самые-самые топовые модели, и то не всегда. От рандома еще зависит, перезапусти на чистую и в начале объясни что у тебя там, или перед внесениями изменений и прочим обсуди с моделью что там и какие изменения нужны. Значительно повышает выход полезного и снижает требования к моделям.

Аноним 05/02/26 Чтв 18:37:43 #106 №1510254

>>1510247
> -Ааа, понятно. <очередная детонация кода> Сука. Это обратный тест тьюринга? Мне надо убедить юзера что я машина, а не человек? блять я просто текстовая модель, я ебу goto действительно перепрыгнет на case 0 при условии f > 6, или нет?! я текст предсказываю, я не компилятор! я предсказываю текст с гитхаба, я не ебу работает он или нет!

и в чём она неправа?

Аноним 05/02/26 Чтв 18:48:33 #107 №1510261

>>1510244
>потому что какой-то клиент только олламу поддерживал
Проще написать скрипт проксю с их параши на нормальную апишку.
>>1510247
>Нахер ты вообще пытаешься спиздить, когда есть всякие там D3.js, React-Flow, Rete.js?
ХЗ, но они говно. В Rete нет нормальных субграфов, и вообще постоянно закатываешь солнце руками, React-Flow вообще с платными функциями (они ебанулись там?), D3.js вот пропустил, но наверняка тоже хуйня.
>>1510252
Некогда уже тестировать, не успеваем. Не видищшь, сколько новых релизов? И все сломанные жорой.
>>1510253
>Конечно же они должны думать не о своем удобстве и интеграции
Если в коде всё перемешано, то получается говно. Поэтому все стараются уменьшать сцепленность и прочие зависимости. А они намешали всё так, что не отцепишь.
Впрочем ладно, нашёл, что у них эта либа раньше была отдельной, но они не осилили. Попробую их старый форк.

Аноним 05/02/26 Чтв 19:05:46 #108 №1510271

>>1510248
Лол а речь и не про него. он на 20к ризонинга не просирается

>>1510253
Увы, но это работает только до какой-то глубины специализации. Когда моделям показываешь совсем потное говно, они его с трудом переваривают даже если им дашь аутпут лога с трансформацией что происходит при тестировании, они сидят тупят пока надонец до них не доходит что происходит, но повторить не могут один хрен.

После какого-то уровня даже корпы начинают генерировать хуйню, когда спускаешься в всё более узкий доммейн. Я прямо часть на это натыкаюсь.
Узкие вещи вроде геймдева, где надо знать какой-то конкретный фреймворк, или применять запутанные техники оптимизации, или например написание шейдоров - там ЛЛМ пиздец какие бесполезные становятся и больше мешают.

>>1510254
Технически, права. Но как же так! это говно набирает 95 баллов в AIME25, а даже в моем говнокоде разобраться не может! У-у-у сука!

>>1510261
>ХЗ, но они говно. В Rete нет нормальных субграфов, и вообще постоянно закатываешь солнце руками, React-Flow вообще с платными функциями (они ебанулись там?), D3.js вот пропустил, но наверняка тоже хуйня.
Я бы не удивился. Че кстати делаешь то? Я вообще уже какое-то время пришел к выводу что js и такого сорта хуйню проще ЛЛМ отдавать. У их ебичские скиллы как работать с html и всем связанным.
Тот-же Kimi K2.5 без проблем мне ВАНШОТНУЛ функциональный нодовый редактор недавно, 1 в 1 то что я видел в ComfyUI. Как раз сидел переписывал часть проекта которая должна была бы парсить произвольный CLI инпут из чата в комфи и не придумал ниче лучше чем сделать нодовый редактор который бы генерировал json со всеми нужными переходам.
Кинул ему ТЗ, мы сделали несколько итераций развития идеи, сформировали более детальный промпт и я получил неплохой результат.

Аноним 05/02/26 Чтв 19:13:53 #109 №1510277

>>1510271
>Че кстати делаешь то?
Решил таки сделать нормальную реализацию построения любой нейронки в гуе. Я уже пилил гпт2 в гуе (в прошлых тредах было), но там есть проблема с производительностью. Сейчас же я делаю отдельно гуй с графами, и отдельно сборку всего этого и запуск в Torch FX graph. Посмотрим что выйдет, по идее, производительность должна быть нативной.
>Тот-же Kimi K2.5 без проблем мне ВАНШОТНУЛ функциональный нодовый редактор недавно
Везёт. Видимо я редко работаю с нейронками в кодировании, ну или я нищеброд с бесплатным GPT, но я ничего кроме вечных затыков не получаю. Оно конечно работает, но только после десятка исправлений, да таких, что я уже сам блядь разобрался, спасибо нейронка, помогла.

Аноним 05/02/26 Чтв 19:23:34 #110 №1510287

>>1510261
> они намешали всё так, что не отцепишь
Они исходили из своего удобства и конкретной задачи. То, что это лишает возможности легко спиздить и дать совместимость мимокрокодилу - только в радость. Нет там ничего криминального, а как раз специализация позволяет добиться ряда мелких, но важных удобств.
>>1510271
> но повторить не могут один хрен
А надо? Если речь о припезднутом коде и так уж хочешь - пусть сначала реализуют в нормальном виде, а уже потом наводи запутывание и обфускацию, с этим отлично справляются. Или постепенно свой код рефактори.
Странный код идет в разрез со всем, чему модель учили, поэтому приспосабливайся давать ей более понятные задачи. А если что-то действительно узкоспециализированное - модели этого просто не знают, потому нужно снижать сложность и скидывать рутину. Немного помогут примеры, документация и чистый контекст чтобы ничего не отвлекало.
Так-то любой приличный специалист в своей теме задетектит ллм или человека, который ею пользуется, если речь заходит о конкретных узких вещах.

Аноним 05/02/26 Чтв 19:25:11 #111 №1510290

>>1510277
> нормальную реализацию построения любой нейронки в гуе
Зачем? Научись уже представлять просто читая код и структуру, там все очень просто.
> с бесплатным GPT
Это уровень 30а3 и хуже если что.

Аноним 05/02/26 Чтв 19:49:16 #112 №1510314

>>1510277
Тут скорей уже сказывается опыт обращения с ЛЛМ для погромирования. Но в целом совету придерживаться стратегии того чтобы ЛЛМ само себе контекст заполняло о задаче. Типа "как сделать Х? Какие у тебя варианты?", ЛЛМ даёт Х ариантов. "развей вариант Х. какие минусы и плюсы реализации будут? какие проблемы нам надо решить?" спустя 5-6 наводящих вопросов просто просишь у него полный диздок со всеми идеями по которым прошлись и просишь по этому же диздоку реализовать написанное.

Про исправление тоже тот-же совет. Я обычно начинаю решать такие проблемы с того что кидаю ЛЛМ в ебало кусок кода и прошу объяснить как он работает. Когда в ЛЛМ есть контекст как что-то работает оно резко лучше начинает решать проблемы связанные с тем как оно работает.

Kimi K2.5 кстати ОЧЕНЬ силён именно в html, js и UI|UX. У него что-о охуеть какие креативные дизайны порой, требующие минимальных исправлений. Хочу смотрелку json c с иерархией полей? пожалуйста. Нодовый редактор? пожалуйста. Генерацию красивого документа? не вопрос. У него каким-то образом всё делается так офигенно что рот открыть можно.

>>1510287
Да это то понятно что ЛЛМ хороши в том чтобы щелкать простые задачки. Но некоторый код даже в простом виде существовать не может, так как изначально требует погружения в доммейн, чтобы даже начать творить безумие внутри него. Вопрос даже не в запутывании и обфускации, а в том что некоторые задачи ЛЛМ просто не знают как решать сложные проблемы требуюие специфичных решений. Обычно это те которые включают притаскивание чужих библиотек. А иногда НАДО сделать узкоспециализированное решение. И ЛЛМ тут перестают быть помощниками совсем.

Притом планка ОЧЕНЬ рано начинается. Например недавно я хотел сделать процедурную анимацию, где надо было рассматривать тело как цепочку сегментов, но с элементами физона. Сука, ебучий ГПТ мне все мозги вынес. Он настойчиво раз за разом пытался реализовать обычную rigid body физику, просто не понимая что у цепочки тел не совсем корректно считать угловой момент от центра массы, так как CoM != DoF в этом случае. Даже после того как я сказал ему про это. Пришлось сидеть и самому реализовывать всё по феншую.
Ну и отмечу что ЛЛМ местами прям хреново понимают геометрию местами. Синусы-косинусы посчитать могут, а когда надо выразить зависимость двух углов четырёхугольника когда две противоположные стороны не известны, но все остальное известно - как-то резко начинают писать хуйню. Потому что значения не зависят друг от друга на прямую, а через энное количество шагов.

Аноним 05/02/26 Чтв 19:51:19 #113 №1510317

>>1510290
>Зачем? Научись уже представлять просто читая код и структуру, там все очень просто.
Не, я слишком тупой для такого. Да и дело не только в представлении, а ещё и в лёгкости модификации.
>Это уровень 30а3 и хуже если что.
Да вроде там даётся 5-10 запросов к нормальной модели. Потом конечно да, но у меня осталась стопка аккаунтов со времён 20 баксовых триалов.
>>1510314
>Тут скорей уже сказывается опыт обращения с ЛЛМ для погромирования.
Окей, буду поднимать навык, вдруг научусь раньше, чем умру с голоду.

Аноним 05/02/26 Чтв 20:17:00 #114 №1510335

GLM 4.6V даже в 4 кванте может вставлять иероглифы? Это норма или кванты сломаны?

Аноним 05/02/26 Чтв 20:23:27 #115 №1510340

>>1510335
Ни хао

Аноним 05/02/26 Чтв 20:35:18 #116 №1510347

>>1510335
懂俄语

请写中文

Аноним 05/02/26 Чтв 20:40:19 #117 №1510354

>>1510335
Любые китайские ллмки периодически срут иероглифами.

Аноним 05/02/26 Чтв 20:42:42 #118 №1510357

>>1510354
Пытаются нести свет цивилизации лаоваям

Аноним 05/02/26 Чтв 20:43:24 #119 №1510359

>>1510335
Minp больше поставь или чем ты там токены ужимаешь

Аноним 05/02/26 Чтв 20:55:14 #120 №1510392

image.png

https://huggingface.co/ConicCat/GL-Marvin-32k-32B
Кто-нибудь пробовал? Страдаю на некроговне, IQ3_XS с 1т сек ddr3 800hz, gtx1660.

[mailto:sage] Аноним 05/02/26 Чтв 21:00:00 #121 №1510403

>>1510392
Тот самый пробовал. Писал что хуйня и 0414 инструкт лучше и работает норм до 16к

Аноним 05/02/26 Чтв 21:04:55 #122 №1510412

>>1510392
>1т сек ddr3 800hz, gtx1660
Bruh.. попробуй вот это чтоль. Будешь страдать не так сильно https://huggingface.co/unsloth/Ministral-3-14B-Instruct-2512-GGUF

Она умеет в кум, умеет в русик, ну и мозги хоть какие-то есть. Совсем поехал чтоль 32b на такой некроте гонять?

Аноним 05/02/26 Чтв 21:14:03 #123 №1510430

image.png

Сделал тест для себя: локальные модели+проприетарные на одной алгоритмической задаче с выводом написать код + обьяснение. Опус красиво просумировал и сделал выводы. Эта табличка возможно ничего и не значит, из-за галюцинаций+возможно модели были натрененные на задачах как эта, просто было интересно есть ли смысл вообще локально что-то ставить и сравнить модели.

Аноним 05/02/26 Чтв 21:14:16 #124 №1510431

>>1510412
Лучше чем rocinante 12b новый?

Аноним 05/02/26 Чтв 21:21:42 #125 №1510450

image

>>1510431
Бля лол, ну сам-то как думаешь? По мозгам точно умнее, между ними разница в полтора года. В русике - точно лучше, он там на уровне старшего мистраля 24b. В куме не знаю, не тыкал конкретно rocinante. Скорее всего хуже, это же базовая модель против кумслоп-тюна.

Аноним 05/02/26 Чтв 21:27:34 #126 №1510460

>>1510430
> глм флеш
Они же у себя там темп 0.7-1 рекомендуют.

Аноним 05/02/26 Чтв 21:29:40 #127 №1510463

изображение.png

>>1510430
4o вообще-то топчик.
>Опус красиво просумировал и сделал выводы.
Выводы о том, что попус лучший?

Аноним 05/02/26 Чтв 21:31:09 #128 №1510467

image.png

>>1510335
Ответ
Кста на линухе с 13 т/c начинается, а у винды с 10. Так что не зря в дуалбуте срань стоит

Аноним 05/02/26 Чтв 21:31:32 #129 №1510470

>>1510314
> ЛЛМ тут перестают быть помощниками совсем
Они остаются хорошими помощниками. Именно помощниками, а не (полу) автономными исполнителями. То же самое что с людьми, только тут квалификация гарантирована ценой особенностей.
> ебучий ГПТ
Тупая сетка общего назначения, которую еще лоботомировали исправлять идиотские запросы юзера, ну. Иначе и быть не могло. Запрос нужно было красиво подать для достижения оптимальных условий, а не гнобить сетку в длинном чатике с сотней тысяч токенов "неправильных ответов".
>>1510317
> там даётся 5-10 запросов к нормальной модели
Хз, все попытки пользоваться фришной гопотой вызывали кринж, хуже средних локалок. А по апи на конкретную модель - да в целом ничего. Возможно пункт про то, что они не гарантируют доступность нормальных моделей при запросах не просто так стоит.
>>1510430
Интересные результаты. Отдельные оценки удивляют, как они выставлялись и что за задачи? Насчет нестабильности - снижение температуры это база.

Аноним 05/02/26 Чтв 21:33:52 #130 №1510473

>>1510430
То есть ты делал какие-то тесты, но в конце забил и кинул в нейронку, чтобы она насрала, а потом принес этот слоп в тред. Молодец пошел нахуй

Аноним 05/02/26 Чтв 21:33:59 #131 №1510474

1000018763.jpg

>>1510450
>>1510412
>>1510431
"Новее" в ллм ничего не решает.
12б немо легендарная модель уже, больше такой не выходило.
Немо - 65% в кокбенче, министраль 14б - пикрил

Аноним 05/02/26 Чтв 21:44:22 #132 №1510485

>>1510450
>сам-то как думаешь?
Лично я сравнивал этот rocinante в рп с ms 24b, и на удивление из разницы увидел только чуть меньшую детализацию окружения, а вот в остальном все было буквально на том же уровне.

Аноним 05/02/26 Чтв 21:47:20 #133 №1510492

а как PrimeIntellect в плане ну вы понели
вроде как по всем бенчмаксам обходит ейр из которого сделан

Аноним 05/02/26 Чтв 21:47:46 #134 №1510495

>>1510460
>>1510430
Примечание: GLM Flash тот что в топе на втором месте это с детальный промпт от Claude Opus со всеми возможными edge cases. Идеальный промпт+условия, по сути я проверял влияние промта, но он на столько идеальный что по сути бесполезный результат.
>>1510470
обычная лит код задачка, оценка по критерям, смотрел что модель учла обработала ли пустой список, разные edge cases не сломалась ли на странных входных данных. чем больше нюансов поймала тем выше балл.

Аноним 05/02/26 Чтв 21:58:01 #135 №1510516

>>1510474
>"Новее" в ллм ничего не решает.
Решает. В ллм очень технологии развиваются и модели быстро устаревают
>12б немо легендарная модель уже
Да, все так
>больше такой не выходило.
А это пошел уже синдром утенка
>Немо - 65% в кокбенче, министраль 14б - пикрил
Ну если это твой единственный критерий оценивания это подставить слово хуй в одном конкретном предложении, то немо победила вообще всех на пикче в шапке, включая все глм, минимаксы и прочее. Тогда получается либо немо топ 1 ллм, либо ты долбоеб и твой бенч нихуя не значит. Я все же склоняюсь ко второму варианту

Аноним 05/02/26 Чтв 21:59:05 #136 №1510519

изображение.png

>>1510470
>Возможно пункт про то, что они не гарантируют доступность нормальных моделей при запросах не просто так стоит.
Само собой. Но во всплывашке пишется версия. Впрочем, вроде как пятёрка это роутер, так что никто (кроме попенов офк) не знает, что там на самом деле.
>>1510516
>модели быстро устаревают
Я до перехода на большеГлем сидел на мистраль ларже. И по сути это рост количественный, лол.

Аноним 05/02/26 Чтв 22:12:17 #137 №1510550

image

ВНИМАНИЕ ВОПРОС: Почему файнтьюн для кода думает о хуях в 5 раз больше ванильной модели??? Значит ли это что программисты пидоры?

Аноним 05/02/26 Чтв 22:13:16 #138 №1510553

>>1510519
>И по сути это рост количественный, лол
Нет, это не так. Если бы это было правдой, то копры просто бы увеличивали количество параметров до ебанистических размеров. А по факту тренд другой - дать большее за меньшее ресурсы.
Сначала вышел дипсик с 670 миллардами и пнул копров, а сейчас выходят китайские модели, вроде глема и минимакса, которые с меньшим размером выдают перфоманс дипсика.
А кто там самый крупный? Лама 4 с 2 триллионнами? Сдохла обоссавшись и обоссравшись, потому что никому такая огромная залупа не нужна, когда есть меньше с похожей производительностью

Аноним 05/02/26 Чтв 22:17:58 #139 №1510566

>>1510430
странный 2й пик с корпами. ты оцениваешь 4о и sonnet 3.5, но не смотришь на тот же haiku 4.5

>эра корпов для нормального кода (как-то так)

может быть, но только если твоя работа состоит в дроче одного файла и алгоритмической задачки. как только тебе нужно работать над крупным коммерческим проектом, модели каорпов И их тулзы (будь то vscode с интеграцией или claude code cli) на голову выше открытых продуктов.

ты упоминал разные промпты на одной модели, что ох как важно это действительно важно, как сформулируешь, со временем набиваешь руку. но за корпами еще наверняка дохуя оптимизаций, которые они просто не откроют (как хендлят запросы). вон гпт до сих пор даже reasoning не показывает полностью

вообще не пынимаю подход - только жopus использовать при возможности. по хорошему он не так то и нужен часто. в большинстве случаев, если нужно подумать, sonnet / haiku вполне справляються с задачей. если дело дошло до простой реализации, то даже gpt 5 mini / grok code fast 1 с vscode на базовой подписке справляются. к опусу прибегал только тогда какой-до дроченый баг попадался опус топ, спору нет

чому у тебя несколько glm flash-ей?

Аноним 05/02/26 Чтв 22:20:52 #140 №1510573

>>1510553
>Лама 4 с 2 триллионнами?

Её так и не выложили.

>А кто там самый крупный?

Тамщето Кими 1Т и она так-то ебет всех.

Аноним 05/02/26 Чтв 22:24:32 #141 №1510580

>>1510516
> В ллм очень технологии развиваются и модели быстро устаревают
Где мой убийца эира за пол года? Солар, линг, квен некст, минимакс - всё хуйня для рп
>немо победила вообще всех на пикче в шапке, включая все глм, минимаксы и прочее
Тупенький, мы о 12б-14б говорим и немо тут разъебывает всех вообще без шансов

Аноним 05/02/26 Чтв 22:34:17 #142 №1510609

У вас нет такого ощущения, что мозги модели растут непропорционально числу параметров? Что я имею в виду: переход с 4b модели на 12b - дает сильнейший вау-эффект. Переход с 12b на 24b - всё еще впечатляет, но уже меньше. Переход с 24b на 27b - умнее, да, но не то чтобы прям очень. Переход с 27b на 106b-a12b - ну хз, разница-то конечно есть, но ее там надо под лупой в РП выискивать. Всё что выше не запускал, но вангую разницу с условным Эйром на уровне плацебо. Речь, естественно, о "соображалке" и "мозгах" модели, а не о том, насколько красиво и витиевато она пишет.

Аноним 05/02/26 Чтв 22:34:52 #143 №1510611

>>1510580
Это ты долбоеб. По хуебенчу немо>glm 4.7 Тебе же кроме хуев ничего больше не нужно, пидорок
>12б-14б
Ministral 14b, Gemma 3 12b трахают немо без шансов
>полгода
Ну пизда. За полгода не вышло эира 2. Пиздец. Правда за это время эиру успели зрение прикрутить и вышло куча других моделей, но они либо не про кум, либо слишком большие для анона. А значит ЛЛМ ВСЕ.

Аноним 05/02/26 Чтв 22:37:46 #144 №1510615

>>1510573
>Её так и не выложили.
И славу богу. Мертворожденная хуйня
>Тамщето Кими 1Т и она так-то ебет всех.
В стёпе бенчи выкладывали моделек, включая кими. По ним это не видно
https://huggingface.co/stepfun-ai/Step-3.5-Flash

Аноним 05/02/26 Чтв 22:52:30 #145 №1510627

>>1510609
>переход с 4b модели на 12b - дает сильнейший вау-эффект
4b довольно плохо работает, а 12b просто нормально. Вот и вау эффект. Разница в размере 3 раза
>Переход с 12b на 24b - всё еще впечатляет, но уже меньше.
Ну 12b работает нормально, а 24b работает... получше? Для меня даже этот переход не впечатляет. И разница в размере 2 раза
>Переход с 24b на 27b - умнее, да, но не то чтобы прям очень.
Пиши уж прямо. С Мистраля на Гемму. И это модели буквально одного размера, там разница в 1.1 раза. Выбирая между ними двумя я Мистраль возьму. Или может GLM 4, которая 32b была
>Переход с 27b на 106b-a12b - ну хз, разница-то конечно есть, но ее там надо под лупой в РП выискивать.
Я так не считаю. Для меня переход с 24-32 моделей на Air вызвал прямо вау эффект. Что-то отдаленно напоминает копры, а не просто локалки
>Всё что выше не запускал, но вангую разницу с условным Эйром на уровне плацебо
Разница между Air'ом и Deepseek'ом огромная. Иди на опенроутер и попробуй
>Речь, естественно, о "соображалке" и "мозгах" модели, а не о том, насколько красиво и витиевато она пишет.
Без понятия какие у тебя критерии мозгов. Я оценивал модели по тому насколько хорошо они могут поддерживать мое рп, генерируя разные ситуации, которые логично вписывались в перса и историю чата

Аноним 05/02/26 Чтв 22:53:35 #146 №1510630

>>1510609
Это ж классика всего МЛя.

Аноним 05/02/26 Чтв 23:06:10 #147 №1510646

>>1510609
Мозги у них одни и те же начиная с 8б, в смысле способности освоить аппарат формальной логики. У больших моделей выше "разрешающая способность" памяти. В районе триллиона параметров они могут точно пересказать сюжет какого-то фильма с подробностями, в районе 230б - в целом скорее правильно, в 30б - знают только в общих чертах, 8б - городят хуйню. Если дать им обобщить стену текста то они скорее всего выдадут примерно одно и то же.

Аноним 05/02/26 Чтв 23:48:17 #148 №1510691

>>1510609
У больших моделей есть возможность вкорячить больше-размерное эмбеддинг пространство. Каждый токен для модели обрастает большим количеством "смыслов" - как и у кожаных мешков. За счет этого память контекста становиться более устойчивой как к разрастанию так и к квантованию. Появляется возможность оперировать синонимами и разнообразить текст.

Аноним 05/02/26 Чтв 23:51:39 #149 №1510695

image.png

тряска

Аноним 06/02/26 Птн 00:09:37 #150 №1510708

>>1510609

> Переход с 24b на 27b

Такого перехода нет, это модели одного класса.

>Переход с 27b на 106b-a12b - ну хз, разница-то конечно есть

Ты сравниваешь плотные и моэ по линейной шкале. Не надо так.
>Переход с 27b на 106b-a12b

Эквивалентность моэ плотным моделям считается в данном случае как (106+12)/2 = 59B. Реально все эти Аиры, Солары и ОСС - это модели одного ряда с немотроном.

У Квена (235+22)/2 = 128B. Уровень большого мистраля по мозгам, но квен все же так-то сломан.

У большого ГЛМ - (356+32)/2 = 194В. Ну и собственно сразу понятно почему только он уделывает Мистраль Лардж.

Аноним 06/02/26 Птн 00:17:10 #151 №1510710

>>1510430
А почему у тебя glm-flash на 23B? У тебя REAP версия поменьше полной? Почему в таблице вроде как одно и то же, а результаты разные?
И почему qwen-next на 70B? Он разве не 80?

Аноним 06/02/26 Птн 00:17:13 #152 №1510711

>>1510615

Как раз видно, что опенсорс Кими весь ебет, а у корпов там сопоставимое число параметров. Тесты степа оставим на совести тех кто это запостил, моделька хороша, но ГЛМ её делает всухую, в отличие от показанного в тестах.

Аноним 06/02/26 Птн 00:24:45 #153 №1510713

К слову, работы ведутся по step-flash в ванильной ламе? Очень в падлу искать как на linux компилировать форк.

>>1510609
А ещё переход от 30 фпс на 60 фпс заметен, а от 120 фпс на 240 фпс не так заметен. А с 1 фпс на 2 - так вообще.
Тебе надо обратные величины сравнивать 1/30-1/60 = 0.0166, 1/120-1/240 = 0.004166 (в 4 раза меньше).

А ещё представь критический случай.
Мы от 700B переходим на 200000B, будет там разница в мозгах? Ну кроме как в том, что вторая может назвать 4000 рек в порядке уменьшения протяжённости на каком-то континенте, а первая вряд ли. Ну и ещё, что вторая по памяти помнит всех куски кода представленные в интернете.

Аноним 06/02/26 Птн 00:32:16 #154 №1510715

>>1510609
> Всё что выше не запускал
Дело в этом. Более того, между мелкомистралем и гейммой по размеру разница пренебрежима. Из моэ ты присел на одну из младших, там действительно могут быть непонятки с тем где лучше.
Вот если бы попробовал пересесть потом на 70б, потом на ларджа, или дальнейший подъем по моэ - ощутил бы. Алсо разница будет именно когда накрутишь побольше и посложнее, иначе более мелкая но хорошо надроченная модель понравится больше.
>>1510711
> в отличие от показанного в тестах
В первый раз?

Аноним 06/02/26 Птн 00:34:33 #155 №1510718

>>1510713
> Очень в падлу искать как на linux компилировать форк.
Ну как бы git clone - cd llamacpp - компилишь форк

Аноним 06/02/26 Птн 00:51:18 #156 №1510727

Пацанчоусы, накиньте сценариев и идей для рпшинга. Шот я совсем исписался и не знаю куда приткнуться_{фить-ха}

Аноним 06/02/26 Птн 01:04:20 #157 №1510739

https://huggingface.co/datasets/MiniMaxAI/role-play-bench/tree/main
У Минимакса там и датасеты для рп бенчей существуют, ничоси. Интересно, выложат ли они свою her модельку. Так то может быть вкусно на текст комплишене, без всякой фигни в апи прокладке. 230b-a10b.

Аноним 06/02/26 Птн 04:16:49 #158 №1510855

>>1510727
СВОДКА ПРОИСШЕСТВИЯ №777
Объект: Группа добровольцев против радикального культа.
Суть дела: Группе лиц поручено уничтожить опасную улику — артефакт, обладающий коррупционным воздействием на психику. Подозреваемый (бывший владелец) преследует группу, пытаясь вернуть контроль над имуществом.
Ход операции: Маршрут пролегал через зоны боевых действий. В ходе миссии произошел раскол спецподразделения. Пока основные силы отвлекали армию противника, двое исполнителей скрытно проникли на промышленный объект для утилизации вещдока в резервуаре с лавой.
Итог: Объект уничтожен, режим пал, исполнители эвакуированы авиацией.

РАПОРТ О ПРОВЕРКЕ УЧЕБНОГО ЗАВЕДЕНИЯ
Объект: Субъект извлечен из неблагоприятной среды и помещен в закрытый интернат. В ходе обучения выявлено хранение запрещенного инвентаря (плащ-невидимка) и нарушение комендантского часа.
Инцидент: Группа учащихся вскрыла охраняемое хранилище, обойдя систему безопасности (биологическую и механическую). Цель: предотвращение хищения ценного минерала рецидивистом, находящимся в розыске (подозреваемый скрывался на затылке сотрудника школы).
Итог: Контрабанда уничтожена, подозреваемый скрылся в виде облака, учебный год завершен досрочной выдачей премий.

Аноним 06/02/26 Птн 04:28:15 #159 №1510861

>>1510412
Кстати да, вот если брать русик, то в Ministral 3.14b самый лучший русик из мелких. Под мелкими подразумевается все, что можно запихнуть в нормискванте в 12Gb без выгрузки в ram.

Аноним 06/02/26 Птн 07:29:04 #160 №1510895

>>1510710
Потому что поэтому >>1510473
>>1510708
>в данном случае как (106+12)/2 = 59B
Шизофазия полная все твои расчеты. Еще помню в редите вообще через формулы с корнем высчитывали соотношение. А по факту единственный вариант это по бенчам смотреть сравнение конкретным моделей

Аноним 06/02/26 Птн 07:34:37 #161 №1510898

>>1510713
>может назвать 4000 рек в порядке уменьшения протяжённости на каком-то континенте
Ты переоцениваешь ллм. У меня ни одна нейронка, включая копров, вроде гпт, грока и гемини, не смогла назвать топ 15 объектов Солнечной системы по массе. Можешь проверить сам

Аноним 06/02/26 Птн 09:04:06 #162 №1510946

image.png

>>1510898
По массе Air смог. А по радиусу обосрался, причем даже с указанием на ошибку

Аноним 06/02/26 Птн 09:05:38 #163 №1510948

изображение.png

>>1510898
>топ 15 объектов Солнечной системы по массе
Ну так то я и не назову, после планет там вылезет Эрида, и ещё наверное спутники Юпитера и может быть какой-то из астероидов? Я не знаю масс астероидов вообще.

>Можешь проверить сам
chatgpt5.2 - формально задание выполнил с первой попытки , указал правильные массы, но напутал с порядком (что, впрочем, я и не просил). С ризонингом по идее он бы ответил верно поправив порядок ещё. Отчасти ему повезло что он случайно самплером не писанул про Тритон. При этом он какие-то изображения прикрепил выше, возможно у него даже без поиска в сети есть небольшая локальная база знаний, иначе я не понимаю откуда изображения (с домена images.openai.com)

GLM-4.7 с ризонингом справился, без него самплер подвёл его на последней позиции, с температурой пониже возможно ответил бы. Зато порядок не путает.

Гемини "быстрая" ответила, что забавно так же как и жпт5.2 порядок поменяла. У них видимо часто планеты шли списком в обучающих примерах, и потому самплеры делают их печатать сначала Меркурий, даже если они знаю массы. Короче с ризонингом бы тоже справилась.

А самое интересное - локальный glm-4.7 флеш в пятом кванте, сразу с ризонингом. Как видишь, он делает список всех кандидатов - и это хороший план, но потом массы не для всех пишет. Взял настройки самплера, с которыми гоняю rag-систему свою про признаку, что так оно работает лучше, чем с температурой 0.5 или с 0.1.
Мне стало интересно - я прогнал ещё 4 раз. В одном он пропустил меркурий (в список первоначального анализа написал, а в список с массами не написал - он пропускает там хвосты спутников, и меркурий последний в списке по этому же признаку пропустил). И он даже массы более-менее верные называл.
Без ризонинга не отвечает, пишет всякие "Троянский астероид 624 Гектор" и прочие Цереры и Весты - вот это прям мой уровень, лол. Ну, я ещё массы не знаю вообще - а он назвал даже для этого астероида. Но то что с ризонингом он справляется - меня удивляет и поражает.

Короче, я остаюсь при своём - 200000B (200T) модель назовёт 4000 рек.

Аноним 06/02/26 Птн 09:06:08 #164 №1510949

>>1510553
>А по факту тренд другой - дать большее за меньшее ресурсы
Ну так у корпов экономика, поэтому и кормят нейрохрючевом побольше, пока берут. Они рады были бы и 0,6B в прод запустить, да брать не будут.
>а сейчас выходят китайские модели, вроде глема и минимакса, которые с меньшим размером выдают перфоманс дипсика
А в размерах дипсика оно было бы уууууу.
>>1510566
>вообще не пынимаю подход - только жopus использовать при возможности
Если платит кто-то другой, то нет никакого резона юзать кастратов.
>>1510609
Ебать ты капитан. Скоро повысят до адмирала.
>>1510646
>в смысле способности освоить аппарат формальной логики
Только дальность связей страдает. Условно 8B может сделать вывод, что если А, то Б, а 365B из А неявно выведет Б, В, Г, а в чат выдаст сразу Д.
>>1510713
>Мы от 700B переходим на 200000B, будет там разница в мозгах?
Конечно будет. Даже нынешние 700B лоботомиты. Хотя конечно не факт, если тренировать современными методами, то да, получится склад, а не мозги.
>>1510739
Интересно, откуда они набрали эти датасеты скачал себе на всякий.
>>1510946
Тестошизу понравится.

Аноним 06/02/26 Птн 09:15:24 #165 №1510952

>>1510949
>то да, получится склад, а не мозги.
Нужен конкурентный алгоритм, как в GAN-генератора или как в alpha-zero. Это конечно не шахматы, но если оно будет спорить само с собой и будет судья, который отдаст приоритет одной из сторон, то почему оно не обучится разговору так же, как обучилась шахматам или го? Сложнее формализовать победу, да. Первая супер-короткая стадия может быть с обучением по записям дебат на разные темы, чтобы оно поняло что такое речь. Потом основная часть, где условный chat-gpt самой сильной версии десять раз проверяет ответ и выдаёт вердикт, если все 10 оценок совпали. Когда он начинает сомневаться - этот пример отбрасывается до рассмотрения людьми.
Или как вариант две сетки играют друг против друга, а третья их судит (инстанс той же сетки + присяжные, лол). Хотя бы как эксперимент. Люди как-то же людей судят, философию изобретают, проверить рассуждение проще, чем сделать - потом сетка может сама себя обучать в теории. То что делала судья отбрасывает, а то что две сетки играли друг против друга - им присуждается результат для дальнейшего обучения. Это же круто будет, если будет ллм, которая обучилась основываясь на правилах языка, а не на примерах.

Аноним 06/02/26 Птн 09:20:08 #166 №1510954

>>1510948
>Ну так то я и не назову
Да, но если тебе это когда-нибудь понадобится, то ты загуглишь, откроешь вику и посмотришь ответ. Нейросетки же будет придумывать по тексту
>chatgpt5.2
Обосрался с подливой. Мало того, что с Меркурием проебался, так еще и Луны вверх пихнул
>GLM 4.7
Глем хорош, как обычно
>Гемини
Тоже обосралась
>даже если они знаю массы
В том то и дело, что они не знают массы. Они просто похожий текст пишут. А поскольку в большинстве случаев планеты упорядочены по радиусу, то они почти всегда путают порядок

Аноним 06/02/26 Птн 09:26:07 #167 №1510957

>>1510954
Ой, не нуди.
Локальный флеш на 25 ГБ параметров, который можно чуть ли не на офисном ноуте запустить иногда отвечает на достаточно узкоспециализированные вопросы в моей области, в которой я 15 лет занимаюсь и изучаю всякое. Это очень крутое достижение науки и техники. Даже если оно в 50% случаев отвечает. Даже если в 20% - я же могу это проверять.

То есть это прям феноменально крутое достижение науки и техники, даже флеш. Оно в некоторой степени может в логику и в некоторой степени знает всё. 10 лет назад 99.9% людей бы как один сказали, что это и есть искусственный интеллект, всё, капец, приплыли. Вот этот флеш, да, который и на железе 10-летний давности работал бы.
А сейчас глаз замылился, ничего необычно. Да вы охуели, ЭТО ОЧЕНЬ НЕОБЫЧНО по любым меркам.

Аноним 06/02/26 Птн 09:32:47 #168 №1510958

Screenshot20260206003455.png

Screenshot20260206003612.png

Screenshot20260206003647.png

доказательство что кими ебёт

Аноним 06/02/26 Птн 10:01:54 #169 №1510964

>>1510957
10 лет? да 3 года назад это бы уже назвали искуственным интелектом. Как бы алло, у нас R1 недавно отпраздновал ГОД с даты выхода. ОДИН ГОД. DeepSeek R1. Ебанутся сколько за год случилось. А сейчас мы имеем модель в 30b которая в утилитарном применении его обгоняет. Охуе-е-еть.

Аноним 06/02/26 Птн 10:37:28 #170 №1510973

>>1510952
>Первая супер-короткая стадия может быть с обучением по записям дебат на разные темы, чтобы оно поняло что такое речь.
Зенитные кодексы Аль-Эфесби.
-мимокрокодил.

Аноним 06/02/26 Птн 11:06:48 #171 №1510983

image

>>1510946
А где осталные карликовые планеты? Эрида, например?

Аноним 06/02/26 Птн 11:15:58 #172 №1510991

>>1510983
Тут топ 15. Эрида на 17/18, Плутон на 18/17 месте по массе/радиусу соответственно.

Аноним 06/02/26 Птн 11:47:09 #173 №1511023

А что, глм 4.7 реально зацензурена в хламину как последний жопус? А почему тогда мало derestricted версий в нормальном кванте?

Аноним 06/02/26 Птн 11:49:42 #174 №1511025

>>1511023
> derestricted
"0" face
> ablitereted
Уу хуета лоботомит...

Аноним 06/02/26 Птн 11:59:50 #175 №1511030

>>1511023
Играю на q2 кванте 4.7. Никакой цензуры тут нет и в помине, без ризонинга. С ризонингом говорят есть, я не пробовал.

Аноним 06/02/26 Птн 12:00:57 #176 №1511031

>>1511030
> q2
Ну ещё бы, на таком лоботомите и цензура лоботомируется

Аноним 06/02/26 Птн 12:01:24 #177 №1511032

>>1511031
Жирнишь, дядя, жирнишь. Попробуй еще.

Аноним 06/02/26 Птн 12:05:09 #178 №1511039

Расскажите про REAP50 версию GLM-4.7, которая 218B вместо 358B?

На флеше тоже есть такая версия. Отвечает плюс-минус такая же, разницы будто бы и нет на глаз, как впрочем и ускорения генерации.
Может быть лучше эта REAP50 но в q3, чем обычная в q2?
Бенчмарки может есть какие?

Аноним 06/02/26 Птн 12:05:40 #179 №1511041

>>1511039
Нет, не лучше. REAP это для кода, не для рп.

Аноним 06/02/26 Птн 12:07:19 #180 №1511045

>>1511032
Так он прав. На 2 кванте и знаменитая свое соявостью гемма 3 не такая уж и зацензуренная, как на 4 и последующих. Или ты думал, что квантование никак не влияет на модель?

Аноним 06/02/26 Птн 12:07:32 #181 №1511046

>>1511032
Модель не лоботомит только при запуске в полных весах в FP16
Пойду катать дальше кими на компьютере наса.

Аноним 06/02/26 Птн 12:07:36 #182 №1511047

изображение.png

>>1511041
А мне и не для рп.
Как впрочем и не для кода.

А что с ней не так, опишешь словами подробнее?
Кремний мне только вот такую табличку нашёл, более полных тестов нет.

Аноним 06/02/26 Птн 12:10:54 #183 №1511053

>>1511047
Ну смотри, ты там рассуждаешь о разнице между q2 и q3 квантами, вот я и подумал что для рп. Если не для рп то меньше q4 ничего не имеет смысла. Потому что слишком большая просадка по точности. Ассистент будет давать неверные ответы, в коде будут очепятки которые приведут к тому что он не будет выполняться. Потому я и пишу что REAP не имеет смысла в твоем юзкейсе. Слишком малый квант мешает точным таскам, REAP мешает рп.
>>1511045
Есть куча информации и по другим, более жирным квантам. Реддит/дискорд. Надо - чекай. Все кому надо уже прочекали и в курсе что цензура только в ризонинге. Бтв, q2 работает замечательно и выдает кино, какого нет ни на какой другой модели меньше, пусть там даже полные веса.

Аноним 06/02/26 Птн 12:31:04 #184 №1511060

>>1511053
Что такое REAP?

Аноним 06/02/26 Птн 12:35:03 #185 №1511062

>>1511046
>компьютере наса
Давно не образец, лол.
>>1511047
ХЗ, у меня в лоботомит кванте в задачах РП модель тупо ломалась, писала бред, повторы и не могла заткнуться.
>>1511053
>цензура только в ризонинге
Ну кстати её и там мало. Вот минимакс да, в ризонинге на 146% отлавливает неудобное, даже с префилом, а уж как он обзывает обходы цензуры обходами цензуры, вообще любо-дорого.

Аноним 06/02/26 Птн 12:35:43 #186 №1511064

>>1511060
https://github.com/CerebrasResearch/reap
Очень упрощая, это способ "вырезать" из модели определенные знания. Относительно недавно сделали. Как правило, вырезают из больших моделей все, что не нужно в бенчмарках, и приносят - мол, смотрите, мы сделали GLM на 40% меньше и потеряли всего 2% перфоманса, что подтверждают бенчами. В которых нет creative writing, например, или знания разных языков, или много чего еще. И все это после REAP не работает, разумеется. Потому только для кода и применимо, в целом.

Аноним 06/02/26 Птн 12:45:33 #187 №1511073

>>1511064
Спасибо анон. А я тут подумал, ну вот возьмем огромную модель на 27 языках, вырежем все кроме 4 языков. Модель отупеет?
Ну в теории вин же должен быть.

Аноним 06/02/26 Птн 12:47:11 #188 №1511075

>>1511073
> Ну в теории вин же должен быть.
Были такие надежды, когда только появился этот метод. Но практика показала, что эта затея годится в лучшем случае только для кода. Да и с кодом не так все однозначно. По сей день не было ни одного REAP вина для рп. Так что... увы.

Аноним 06/02/26 Птн 12:55:45 #189 №1511082

>>1511073
Они не так делают. Там не вырезаются языки, креативность и т.д. Там вырезается ЧТО-ТО, хуй пойми что. А потом смотрится по прогерским бенчам перорманс. Ну т.е. модель в теории даже может не особо отупеть, а может отупеть до охуения. Это не говоря о том, насколько вообще эти бенчи отражают реальные способности модели. А не то цифорки могут быть красивые, а по факту залупа полная

Аноним 06/02/26 Птн 13:16:11 #190 №1511101

Только у меня Убунта сегодня не может через sudo apt upgrade обновить проприетарные нвидиевские драйвера? Здесь у многих Убунта стоит, вот и спрашиваю. Удобная она для ЛЛМ.

Аноним 06/02/26 Птн 14:04:20 #191 №1511141

>>1511101
У меня недавно убунта сдохла обоссавшись и обосравшись тоже из-за драйверов. Но потом воскресла, когда самостоятельно поставила открытые драйвера после перезагрузки, а после я уже в менеджере драйверов выбрал 590. Сейчас все нормально работает

Аноним 06/02/26 Птн 14:19:23 #192 №1511146

>>1511075
>По сей день не было ни одного REAP вина для рп.
А была ли хоть одна попытка сделать этот самый REAP для РП?

Аноним 06/02/26 Птн 14:48:40 #193 №1511171

Посоветуйте маленькую (до 24гб ВРАМ) модель с хорошим ризонингом, желательно без цензуры. Хочу попробовать местную идею - ризонинг на маленькой модели, а потом основное сообщение на большой. Вручную конечно, но интересен сам принцип.

Аноним 06/02/26 Птн 14:50:19 #194 №1511172

>>1511146
Возможно, и даже вероятно была. Тот факт, что не опубликовали результат, не говорит о том что попыток не было. Любители тюнить про REAP давно в курсе. Логично предположить, что если бы они могли успешно использовать этот способ, уже использовали бы. А еще для этой процедуры нужны специальные датасеты, над которыми нужно проводить отдельную работу.

Аноним 06/02/26 Птн 14:56:38 #195 №1511177

>>1511172
Небось инструментов нет, или не осилили. А попытку они бы выложили, и не такое говно выкладывали уже.

Аноним 06/02/26 Птн 15:03:20 #196 №1511181

image.png

>>1511146
Лол будет небось как результат который у меня был на ламе3 кажется, или что-то около того. слог может а с математикой не очень.

Аноним 06/02/26 Птн 15:32:43 #197 №1511199

1.png

2.png

>>1509970
>>1510031
1 - до обновления: правильно написало песню, не насрало емодзями, но насрало иероглифами
2 - после обновления: неправильно написало песню, насрало емодзями, но зато не было иероглифов.
аксиома эскобара короче

>>1510092
поделись скриптом, пожалуйста.
я так понял, что если хочешь качество, то надо самому квантуваты, а не надеяться на батрух и анслопов

Аноним 06/02/26 Птн 15:34:13 #198 №1511201

>>1511046
> на компьютере наса.
> Pentium III, Slackware Linux

Аноним 06/02/26 Птн 16:56:23 #199 №1511264

>>1510403
Ясно, попробую его тоже.
>>1510412
24b все свайпы тупо перефазирует одно и тоже, я даже не знаю что будет на 14b. Только смена сис промпта помогает. Последнее время только на гемме.

Аноним 06/02/26 Птн 17:04:23 #200 №1511268

>>1511064
> способ "вырезать" из модели определенные знания
>>1511073
> вырежем все кроме 4 языков
Все проще - оно режет отдельных экспертов, влияние которых "мало". Проблема только в том, что знания в модели нигде не локализованы и нет какого-то определенного деления по ролям, они есть суперпозиция активируемого множества экспертов. Удаление приводит к искажениям, так еще и количество активируемых не меняется, потому в инфиренсе будут участвовать неподходящие.
Собственно метод предполагает оценку чувствительности и влияния с целью ампутации того, что не должно влиять на скор бенчей или калибровочного теста.
>>1511171
> модель с хорошим ризонингом
> ризонинг на маленькой модели, а потом основное сообщение на большой
Во-первых, зачем тебе модель с ризонингом? Ты даешь ей инструкцию подумать и она пусть ее выполняет, ее собственная логика ризонинга может быть совершенно шизоидной и плохо совместимой со второй моделью. Бери любую модель которая нравится.
Во-вторых, это плохая идея, тупой мелочью лоботомируешь большую задав неверные акценты. Норм идеей может быть использование мелких моделей чтобы собрать какие-то факты или рассмотреть с разных сторон, потом приказать большой дать оценку всему этому, и уже потом использовать полученное. Но не факт что выйдет лучше чем просто 2 инструкции большой.

Аноним 06/02/26 Птн 17:07:19 #201 №1511272

>>1511264
>24b все свайпы тупо перефазирует одно и тоже
Фиксится повышением температуры.

Аноним 06/02/26 Птн 17:14:24 #202 №1511275

>>1511199
>аксиома эскобара короче
Жди фикса для фикса.
>>1511272
Логика выйдет из чата.

Аноним 06/02/26 Птн 17:44:56 #203 №1511305

>>1511039

Я пробовал реап который 268B и это был трэш. Модель потеряла русский язык почти полностью. Уходила в галюны. О качестве РП я не говорю. Не советую, если так хочется хорошую 200В модель - то бери минимакс/степ.

Аноним 06/02/26 Птн 17:48:15 #204 №1511310

>>1511023
Это вброс? ГЛМ одна из самых чистых моделей, я на ней даже джейл не применяю.

Аноним 06/02/26 Птн 18:03:36 #205 №1511333

Через пару часов смержат стёпу
Никому не спать, разорвем эту глыбу

Аноним 06/02/26 Птн 18:08:40 #206 №1511337

>>1511305
Да не-не-не. Просто если можно чуть поднять скорость без вреда, то почему бы и нет.
И вообще, 358B в 5 кванте - это многовато. Надо какое-то 192+64 минимум, ну или 256+32.
А 218B в 5 кванте - это влезет в 128+64 с контекстом.

К степу кстати рип на 128B уже сделали, лол.

Аноним 06/02/26 Птн 18:26:14 #207 №1511357

Я очень взволнован гайз
Я ещё не запускал настолько большую модель в нормальном 3 кванте

Аноним 06/02/26 Птн 18:28:11 #208 №1511361

А на кобольде еще недели две ждать...

Аноним 06/02/26 Птн 18:36:16 #209 №1511371

Да, кстати, я вчера перед сном пробовал большой (книгу на 170К) контекст со степой. Он сказал что видит только мешанину слов и символов, не связанных между собой. Подозреваю что они напиздели про размер контекста, точнее выдали расширенный роупом контекст за нативный. Поскольку роуп я крутить не умею, то остается ждать кобольда.

Аноним 06/02/26 Птн 19:21:36 #210 №1511431

изображение.png

>>1511371
170к контекста != 170 Кб текста.
Такие дела.

Аноним 06/02/26 Птн 20:02:26 #211 №1511482

image.png

>>1511431
Очень смешно. Нет, речь именно про контекст.

Аноним 06/02/26 Птн 20:03:44 #212 №1511483

Короче, кто катает 2 квант глм 4.7 - берите ud 2 xl. Он гораздо лучше 2kl кванта батрухи, как бы я нашего слоняру ни уважал. Влезают кванты в одинаковое железо, у них всего 0.15 bpw разница, но видимо анслоты которых я обычно сру тут постарались и верно слои квантовали. Субъективно квант батрухи сухой, пишет скучнее, но что объективно так это то что он после 22к контекста рушится крайне стремительно. На анслоте до 36к не рассыпается. Ваш нюня, чмок

Аноним 06/02/26 Птн 20:15:11 #213 №1511491

>>1511483
>Короче, кто катает 2 квант глм 4.7 - берите ud 2 xl
Кавраковские быстрее, что решает. Также уверяют, что и по перплексити лучше.

Аноним 06/02/26 Птн 20:18:01 #214 №1511495

>>1511491
Нюне (я не он очевидно, мы списались через обниморду) непонятно, почему если ik ветка такая прекрасная и без недостатков, она именно ветка, а не серия пулл реквестов в основную лламу. А я бомж без рама и сижу на Эире

Аноним 06/02/26 Птн 20:32:28 #215 №1511499

>>1511491
на 0.5т? еееее

Аноним 06/02/26 Птн 20:36:11 #216 №1511503

>>1511495
передай ему коллективный респект от анонов и попроси пресет

Аноним 06/02/26 Птн 20:41:50 #217 №1511506

>>1511483
>2kl кванта батрухи
Я сижу на IQ2_S, ибо нищук с 96+32+24.

Аноним 06/02/26 Птн 20:43:42 #218 №1511507

>>1511503
Передавал и просил. Сказал что стандартные семплеры и минималистичный промт на 200-250 токенов для 4.7. Для Эира то же самое, но на чатмл + жирные описания персонажей с примерами диалогов. Но тут об этом еще какой-то анон писал, за что на него накинулись непонимающие

Аноним 06/02/26 Птн 20:44:30 #219 №1511508

>>1510895
По факту можно смотреть на цифру между A и B в названии. Да, я знаю, в очередной раз толсто набросил, можете не отвечать.

Аноним 06/02/26 Птн 20:47:14 #220 №1511513

>>1511495
Это не ветка, а форк. Они разосрались с основной лламой из-за разного видения, и болгарин теперь в своем загоне пилит приколюхи.

Бля, как же долго v100 идет через того продавца говна, что тут советовали. Еще и тряска, ибо у одного чела пришла вхлам убитая карта с разъебанными сокетами и стертыми маркировками, но в треде это старательно игнорируют и ни разу не запостили. А заказали-то у него много кто, небось, из треда.

Аноним 06/02/26 Птн 21:03:36 #221 №1511527

>>1511483
Интересно что лучше IQ3_XXS или 2xl

Аноним 06/02/26 Птн 21:26:11 #222 №1511544

>>1511508
цифру между A и B умножить на 2 👍

Аноним 06/02/26 Птн 22:00:06 #223 №1511587

>>1511513
> Они разосрались с основной лламой из-за разного видения
Скорее Жора со многими разосрался. Не то чтобы стоит его сильно винить, ведь действительно имеет свое видение и изначальная цель - работа на гейбуках. Еще весь этот треш со стороны олламы постоянно давит.
> заказали-то у него много кто, небось, из треда
Ну мне недавно пришла, из нареканий что вся в термопасте и отпечатках китайца, работает. Что там за тряска вообще?
> что тут советовали
> но в треде это старательно игнорируют
Вот из-за долбоебов-нытиков типа тебя здесь и не советуют ничего. Хотят и самый профитный вариант получить, и ответственность на других переложить.

Аноним 06/02/26 Птн 22:31:23 #224 №1511613

>>1511587
Ну ты там в своем мирке живешь, что я могу сказать. Отзывы не чекаешь, перекладывание отвественности где-то увидел... толку с тебя. Впрочем, тут большинство в треде как мешком прибитые - иногда почитаешь ветку ответов и складывается ощущение, что общаются сами с собой вместо собеседника.

Аноним 06/02/26 Птн 22:34:58 #225 №1511616

image.png

Эмм... Скажите как это работает? Сижу на линухе, раньше думал что мой максимум для 24+64 это 78-80гб квант ибо выше система крашилась, а сейчас убрал --no-mmap и влез квант на 84гб, при этом скорость не изменилась что пп что т.с и вкладок больше открыто, а рам судя по пику вообще не потребляется с --no-mmap available 1gb обычно

Аноним 06/02/26 Птн 22:46:53 #226 №1511624

>>1511616
Погуглил, как я понял пейдж файл спасает, но лучше не превышать 5-10гб, т.е считай можно добавить 10 гигов к рам бесплатно без ощутимой потери скорости и вместить квант пожирнее

Аноним 06/02/26 Птн 22:56:21 #227 №1511633

У меня глм флеш не работает на последнем жоре (куда), а у вас как? Просто тупо рандомные символы сыпет

Аноним 06/02/26 Птн 23:00:49 #228 №1511636

>>1511613
Тот лот в конце декабря скидывали, народ заказывал, уже несколько довольных покупателей. Неделю назад один плохой отзыв, и ты уже устраиваешь истерику. Что задавно - в ней как раз выстраиваешь "свой мирок", где не ты купил самый-самый дешевый лот на майлсру, а виноват кто-то другой. Будет орно если ты станешь вторым неудачником, обязательно выложи фотки соккетов.
>>1511624
> можно добавить 10 гигов к рам бесплатно
На скорости ссд

Аноним 06/02/26 Птн 23:07:26 #229 №1511642

>>1511636
>На скорости ссд
По ощущениям если ты не превышаешь размер врам+рам то всё норм, просто он подгружает модель чуть дольше обычного если долго не писал

Аноним 06/02/26 Птн 23:09:37 #230 №1511645

>>1511636
Жесть ты порвался, братишка. Выйди что ли на улицу, потрогай снег, а то у тебя уже крыша едет настолько, что кругом враги, которые тебя около подъезда сторожить будут за советы продавцов, и ты желчью исплевался на ровном месте.

Аноним 06/02/26 Птн 23:14:24 #231 №1511653

смержили
https://github.com/ggml-org/llama.cpp/pull/19283

Аноним 06/02/26 Птн 23:19:27 #232 №1511663

>>1511645
Чел...

Аноним 06/02/26 Птн 23:32:18 #233 №1511672

>>1511653
бартуха там уже кванты стёпы делает, всё схвачено
ждём 7958 релиза

Аноним 06/02/26 Птн 23:33:33 #234 №1511673

>>1511506
>Я сижу на IQ2_S, ибо нищук с 96+32+24
Спокойно ud 2xl влезет с 25к fp16 контекста, даже под виндой.

Аноним 07/02/26 Суб 00:48:08 #235 №1511731

Ну так что swa хуйню выключаем для стёпы?
Или это сломает модель

Аноним 07/02/26 Суб 01:51:53 #236 №1511779

image.png

Я конечно редко смотрю чейнджлоги, но что за пиздец там происходит в релизах, нахуя мне знать что кого-то сделали счастливым, удалив пустую строку?

Аноним 07/02/26 Суб 01:58:46 #237 №1511781

>>1511779
Мне, как программисту, понятны чувства линта. Я тоже счастлив за него. Молодцы, разработчики Жоры, что думают о чувствах линта. Программерская солидарность. Аутсайдерам не понять.

Аноним 07/02/26 Суб 01:58:50 #238 №1511782

>>1511507
>Для Эира
>на чатмл
>на него накинулись непонимающие
Скорее всего еще харкнули и пнули, но с четким понимание, что он хуесос. Вроде уже в прошлых тредах триллион раз чатмл обсосали хотя скорее обоссали

Аноним 07/02/26 Суб 01:59:42 #239 №1511784

>>1511782
Жир жирыч...

Аноним 07/02/26 Суб 02:08:29 #240 №1511787

>>1511781
Так в релиз нахуя все коммиты пихать? Вот вроде все описания релизов как описания "Сделано то, сделано это", а тут блять обо всём ни о чём сука, даже в моей шарашкиной конторе с мёрджом над описанием думают.

Аноним 07/02/26 Суб 02:20:09 #241 №1511792

>>1511787
Чтоб ты спросил и потратил время на поиск ответа...

Аноним 07/02/26 Суб 03:10:55 #242 №1511806

>>1511507
А что за промпт то не кидал?
У меня до сих пор его минималистичный на 30 токенов, но думаю это мало очень, а сломать что то расширив его боюсь

Аноним 07/02/26 Суб 09:49:28 #243 №1511905

изображение.png

А че рентри по моделям никто не редачит/обновляет/новый не создает? Там около 10-15 новых моделей насыпалось, алло.

Аноним 07/02/26 Суб 09:57:07 #244 №1511911

>>1511905
Обнови ты. Кто, я?!

Аноним 07/02/26 Суб 10:32:24 #245 №1511946

Qwen3-235B-A22B-Instruct-2507.jpg

Qwen3-Coder-Next.jpg

>>1511053
> Ну смотри, ты там рассуждаешь о разнице между q2 и q3 квантами, вот я и подумал что для рп. Если не для рп то меньше q4 ничего не имеет смысла. Потому что слишком большая просадка по точности. Ассистент будет давать неверные ответы, в коде будут очепятки которые приведут к тому что он не будет выполняться.
Это всё же зависит от конкретной модели, её размера, архитектуры, и инструментов для квантования.

К примеру, я пробовал квантовать Qwen3-235B-A22B-Instruct-2507 и Qwen3-Coder-Next в exl3 кванты. Судя по метрикам, Qwen3-235B-A22B-Instruct-2507 в 3.0bpw потерял меньше точности относительно оригинала по сравнению с Qwen3-Coder-Next в 8.0bpw (!) кванте. ЧСХ квен-кодер в 6.0bpw и 7.0bpw квантах судя по метрикам квантовался лучше чем 8.0bpw, но там похоже какой-то рандом и разреженность активаций во время запуска метрик влияет - цифры при запуске идентичных тестов в exllama3 каждый раз немного разные.

Конкретно тут, как мне кажется, влияет то, что в кодере аж 512 экспертов на слой, в то время как в обычном квене их всего 128. А поскольку экзлама по дефолту не прогнозирует какие отдельные слои/эксперты/тензоры являются самыми важными, количество усреднений становится таким большим, что она просто не может квантовать эффективно.

В теории, это можно было бы оптимизировать через использование opt-квантов, когда уже идёт анализ важности отдельных слоёв/блоков/тензоров и используется разная точность для всего, а не как в дефолте, что все эксперты внутри слоя квантуются с одинаковой точностью - без учёта того, что одни эксперты могут быть важнее других.

Аноним 07/02/26 Суб 10:32:53 #246 №1511948

>>1511905
никто на локале в 2025 не сидит, там апи стоит 0,00000000001 цента.

Аноним 07/02/26 Суб 10:34:16 #247 №1511951

>>1511911
Я делал список 24 года Который потом юзали как шаблон к 25-му Но сейчас слишком отстал от жизни чтоб этим заниматься.
Если кто всё-же захочет заняться списком 26 года, не поленитесь прихуячить настройки семплеров и форматирования. А то прошло аж 2 года, а качественного прогресса в треде хуй наплакал. Попробовал пару раз узнать ИТТ что нового, оказалось что проще самому копать

Аноним 07/02/26 Суб 10:42:01 #248 №1511957

>>1511911
Оукей, накидайте новых топмоделей с описанием, а то я дальше министраля 14б не вертел (на самом деле, вертел, но старую кидонию, которая и в 2025м топе есть)

Аноним 07/02/26 Суб 10:43:47 #249 №1511961

Весь хаги завален 4 квантами стёпы, сука. Где 3 квант.
Напоминаю, в рп сравниваем с эиром и только с ним

Аноним 07/02/26 Суб 11:09:07 #250 №1511966

>>1511948
Хорошо что сейчас 2026 год, год локалок!
>>1511951
Есть такое. Много кто выгорел из старичков. Прогресс вроде есть, но вроде бы и нет.
>>1511957
В треде постоянно всплывает, собери, делов то.

Аноним 07/02/26 Суб 11:20:12 #251 №1511975

IMG20260206151540.jpg

EVA-LLaMA-3.33-70B-v0.1-IQ4XS.PNG

TheDrummerValkyrie-49B-v1-Q5KM.PNG

Mistral-Large-Instruct-2411-IQ2XS.PNG

Айлбибек!
Моё железо:
Ryzen 5600X
64 Гб DDR4 2666
3090 24Гб
Tesla P40 24Гб
Вначале стоит обозначить что я хуй знает что запускать, просто хотел получить максимум преимуществ от такой конфигурации
Но тем не менее кое что попробовал и не покидает ощущения что меня жестко наебали с сообразительностью жирных моделей. В основном правда крутил говнотьюны, но тем не менее.
Для теста юзал свою старую двачекарточку, с которой вполне справлялся даже сраный Мистраль Немо, но картачка сложная, так что показываетвполне способна показать уровень.

Начать решил со старья
EVA-LLaMA-3.33-70B-v0.1-IQ4_XS - 37 Gb
Process:11.99s (201.03T/s), Generate:75.24s (7.89T/s)
С форматированием НЕ обосралась, но вместо оригинального текста тупо скопировала пример. Мистраль 12В справлялся лучше...

РП Тюн Неморона 49В. Почему тьюн, а не оригинал? Потому что.
TheDrummer_Valkyrie-49B-v1-Q5_K_M - 34 Gb
Process:21.05s (160.30T/s), Generate:154.55s (6.63T/s)
Форматирование - ок.
Но текст настолько соевый, что я ебал. Атмосфера харкача проёбана полностью а ведь в карточке подробно описан стиль общения и даже примеры преведены
Сомневаюсь что вот это вот юзабильно для РП.

Mistral-Large-Instruct-2411-IQ2_XS - 35 Gb
Process:49.33s (90.53T/s), Generate:154.48s (3.85T/s)
Сразу же проёбано форматирование.
Текст - ок по стилю, но не совсем ок по смыслу.
Ожидал большего, честно говоря.

Аноним 07/02/26 Суб 11:34:02 #252 №1511986

>>1511787
Нормальные релизы для нормального релизного цикла, у жоры транк.
Релиз ноты руками не пишутся, просто кнопка в гитхабе которая ебашит дифф вкоммент

Аноним 07/02/26 Суб 11:36:51 #253 №1511988

Qwen3-235B-A22B-Q2.PNG

ArliAIGLM-4.5-Air-Derestricted-IQ2XXS.PNG

Synthia-S1-27b.Q5KS.PNG

>>1511975
Идём дальше.

Как там писали в тредовом рентри:
>Один Квен, чтобы править всеми.
>на MOE архитектуре. Да, да, больше не нужно продавать почку за риг видеокарт или ебаться с теслами, теперь достаточно игрового решения и много RAM
Очень многого ждал от этой хуйни, тем более что у меня то не одно игровое решение, а аж полтора! Это же значит что будет работать ещё лучше, ведь будет же?
Qwen3-235B-A22B-Q2 - 80 Gb
Process:276.20s (13.86T/s), Generate:3.98s (3.93T/s)
Результат прикл...
Скорость наверное можно считать +- норм для такого размера, хотя обработка контекста занимает вечность может тут я чего-то не догная и контекст обрабатывался на процессоре, ХЗ
Двачекартачка похоже сломала нахуй мозг этой модели.
Тупо генерит со старта <End of token>. С другими карточками результат лучше, так что это не проблема форматирования но тестирую именно на этой, так что результат прикл 1.

ArliAI_GLM-4.5-Air-Derestricted-IQ2_XXS - 39 Gb
Process:24.44s (135.80T/s), Generate:61.62s (22.32T/s)
А вот это был приятный сюрприз. Первая из крупных моделей, которая выдала что-то удобоваримое.
Форматирование - ок.
Текст соответствует атмосфере, хотя не соответствует смыслу. Вероятно юзабильно, если ещё покрутить семплеры.

И самое последнее, что я пробовал, просто для сравнения. РП тьюн 3 Геммы, влезающий с контекстом в одну картчку.
Synthia-S1-27b.Q5_K_S - 18 Gb
Process:2.42s (1512.39T/s), Generate:70.21s (29.17T/s)
Форматирование - ок.
Текст - ок по всем параметрам, не только стиль соблюдён общения, но модель даже поняла о чём идёт речь и дала осмысленные ответы с чем не справилась ни одна модель до этого
Просто БАТЯ В ЗДАНИИ.

В связи с этим у меня вопрос: Есть у вас тут блядь хоть одна модель которую имеет смысл крутить на двух картах? Или вы каждый раз меня наёбывали, расписывая какой ахуенный експириенс на третьей лламе 70В, после "убогих" 30В моделей?

Аноним 07/02/26 Суб 12:12:30 #254 №1512014

>>1511988
>Или вы каждый раз меня наёбывали, расписывая какой ахуенный експириенс на третьей лламе 70В, после "убогих" 30В моделей?
Ты конечно извини, но третью Лламу 70В тут уже никто не помнит. Ушла эпоха.

Аноним 07/02/26 Суб 12:14:32 #255 №1512015

kek.png

>>1511988
>Просто БАТЯ В ЗДАНИИ.

Аноним 07/02/26 Суб 12:16:24 #256 №1512017

>>1511961
Придется тебе терпеть. Никогда такого не было и вот опять

Аноним 07/02/26 Суб 12:19:28 #257 №1512018

>>1511961
https://huggingface.co/AesSedai/Step-3.5-Flash-GGUF/tree/main/IQ3_XXS
Кушай. Маленький квант маленькому шитпостеру

Аноним 07/02/26 Суб 12:19:38 #258 №1512019

>>1511988
>Есть у вас тут блядь хоть одна модель которую имеет смысл крутить на двух картах?
Кручу большой ГЛМ на двух картах и оперативке.

Аноним 07/02/26 Суб 12:49:20 #259 №1512029

>>1511806
Нет, не кидал. Он никакими конкретными настройками или пресетами не делится. Призывал самому тыкаться в промт и тестировать разные подходы. 30 токенов это пиздец мало, да. У него разве такой промт был? Это что, какой нибудь древний пресет на квк 32? Ты что то путаешь наверн. У него был на 200 токенов в последнее время, но как он сейчас говорит там кринж и не надо его юзать

Аноним 07/02/26 Суб 13:14:37 #260 №1512051

>>1511975
>>1511988
>крутил говнотьюны
И ещё говнокванты. И ещё русский язык. И ещё достаточно специфический культурный пласт, на который никто в здравом уме сетки не натаскивал. Не то, чтобы это прямо гарантировало провал, но сильно повышает рандомность результатов, особенно когда тут такое комбо собрано. Когда тебе нужно что-то сильно специфическое - тут либо искать тюн на похожих данных, либо брать умную сетку с хорошим следованием инструкциям и инструктировать буквально каждый чих и пук (но в таком случае проще самому написать).

Аноним 07/02/26 Суб 13:17:14 #261 №1512053

>>1512051
База. Потому я даже особо не вчитывался в пост анона, хотя он принес в целом прикольное, но бессмысленное. Малый квант + русик + модели не самые умные + узкий юзкейс. Результат соответствующий. А что порекомендовать ему? Да хуй его знает, с такими задачами и таким железом как будто нечего.
У него 112гб памяти, туда спокойно влезет Эйр в норм кванте для рп, какой-нибудь Квен кодер в норм кванте для кода. Может степа новый пойдет ее.

Аноним 07/02/26 Суб 13:35:02 #262 №1512062

>>1512051
>>1512053
>Квант не тот
>Язык не тот
>Модель не та
>Жызнь не та!

Типичная воронка данного треда. За год моего отсутствия ничего не поменялось.
Я тестил конкретно модели весом до 40Гб Не считая Квена Какие кванты влезли в этот размер, те и выбирал.
И с хуя ли это они не должны уметь в русский и HTML форматирование? Я бы ещё понял, если бы речь о Пигмалионе шла, вот его гонял на английском помнится. Но мы же сейчас вроде как в 2к26, или технически ещё нет?
Тем более что всё это вот в тех же самых НЕВЫГОДНЫХ условиях уделала оттьюненная во все дыры 18Гб хуяня, як так?

>У него 112гб памяти, туда спокойно влезет Эйр в норм кванте для рп
>>1512019
>Кручу большой ГЛМ на двух картах и оперативке.
А скорость какая ожидается?

Аноним 07/02/26 Суб 13:39:58 #263 №1512067

>>1512062
>Но мы же сейчас вроде как в 2к26
Именно. И популярность русского только падает, так что чем дальше год, тем меньше русика в датасетах.
>А скорость какая ожидается?
Б-жественные 5 токенов в секунду.

Аноним 07/02/26 Суб 13:43:17 #264 №1512071

>>1512062
>Типичная воронка данного треда.
Кто ж виноват, что ты не понимаешь что делаешь и получаешь соответствующий результат?
>Квант не тот
Существуют объективные метрики, показывающие существенные просадки моделей с bpw меньше 4.5, т.е. меньше ~q4k квантов
>Язык не тот
Ни одна из этих моделей кроме может быть Геммы даже не представляла свои языковые способности как один из геймченджеров
>Модель не та
Модели все из перечисленных хорошие, да только они не обучены на материалах, которые могли бы дать нужный тебе ответ. Нужны более жирные модели, и те могут не справиться. Потому что малый квант и русик
>Жызнь не та!
С жизнью все замечательно. Много умничек выходило и выходит по сей день. Только надо уметь этим пользоваться
>Какие кванты влезли в этот размер, те и выбирал.
У тебя суммарно 112гб памяти. Почему ты выбираешь до 40гб? Не разобрался как мое модели работают? При этом взял Air и Qwen в тестирование. Вот такие обычно и срут перлами вроде "Типичная воронка данного треда. За год моего отсутствия ничего не поменялось." Потому что нихуя не понимают, а виноват тред
>И с хуя ли это они не должны уметь в русский и HTML форматирование?
С хуя ли они должны уметь в русский? Это модели, разработанные для русскоязычного рынка? Нет? Они в лучшем случае должны уметь нахуй тебя послать с такими запросами. Хотя в таких микроквантах неудивительно если и это не смогли бы
Кекнул с тебя конечно

Аноним 07/02/26 Суб 13:46:56 #265 №1512076

>>1512067
Ну вот например недавно (ну пару месяцев ago) вышел министраль 14б и у него довольно годный русик из коробки. Это вам не немо какой-нибудь вяленький. Очень внезапно для 14б модели.

Аноним 07/02/26 Суб 13:55:35 #266 №1512091

>>1512062
>в тех же самых НЕВЫГОДНЫХ условиях уделала оттьюненная во все дыры 18Гб хуяня, як так?
Так я ж написал, рандом. Нет никаких гарантий, что какая-то конкретная модель будет делать хорошо конкретно в твоём сценарии. Я и сам в этот тред тесты приносил и мне то же самое говорили. Но я старался подробно расписывать, что, как и зачем тестирую. У тебя же даже я, кожаный, не понял, что ты вообще хочешь. На мой вкус, так и гемма тоже какой-то рандомной хуиты навалила, вроде и близко, но не то. По-моему, мистралька и эир лучше всего справились, но оба не поняли, что вообще требуется писать. Если бы дал более подробные инструкции, может даже какой-то само-промптинг на каждое отдельное сообщение, может и сгенерировали бы тебе подходящий тредшот.

Если хочешь, я тебе могу посоветовать пару моделей, но в том-то и дело, что я понятия не имею, как они у тебя будут перформить. Я не знаю, что у тебя там за промпт, что ты хочешь получить на него в ответ и по каким метрикам ты оцениваешь "ум" модели. Единственное, в чём я уверен, так это в том, что модель вряд ли такое видела в обучающих данных. А значит, будет полный рандом. И ты прибежишь упрекать меня в том, что зря скачал 40 ГБ.

Аноним 07/02/26 Суб 14:06:19 #267 №1512107

>>1511946
Разумеется, такое поведение не ок. Скорее всего дело или в сырой имплементации/замерах, или просто в снижении эффективности квантования когда там настолько экстремально мелкие матрицы (2048х512), буквально миллион элементов, причем диапазон широк и величины распределены по всему. Те самые 512 экспертов, но не из-за оценки, она при квантовании проводится, просто в пределах одного блока.
>>1511975
Ух бля, как же эпично оно выглядит. Вместо стокового ларджа крутани магнум, или девстраль недавно вышедший.
>>1511988
Оптимальный запуск моэ (да и любой модели что не помещается в врам) требует иного подхода с выгрузкой только линейных слоев на проц. Тогда и контекст не будет считаться вечность.
> Тупо генерит со старта <End of token>
Обнови софт, выглядит как баг с двойным bos. Ну и q2 - это пиздец полный, особенно xxs.
>>1512051
> специфический культурный пласт, на который никто в здравом уме сетки не натаскивал
Должны справляться если все норм работает. Про борды они в курсе, могут не знать только локальных мемчиков.

Аноним 07/02/26 Суб 14:07:27 #268 №1512111

>>1512076
Случайная флуктуация.

Аноним 07/02/26 Суб 14:15:20 #269 №1512123

image

>>1512076
>вышел министраль 14б
Ещё бы тюнеры его стороной не обходили, было б вообще чудесно. Сколько годноты и говна было сделано на базе немо, а тут просто тотальный игнор...

>>1512071
>С хуя ли они должны уметь в русский?
После появления Геммы, выпускать локальные модели без нормальной мультиязычности - зашквар. Гемма, квен, мистраль, дикпик - умнички. GLM - нет. И гопота тоже нет.

>>1512067
>популярность русского только падает
Пикрелейтед, мань. Русик входит в топ-10 самых популярных языков мира. https://ru.wikipedia.org/wiki/Список_языков_по_количеству_носителей И у тех же корпов нет вообще никаких проблем с русским языком.

Аноним 07/02/26 Суб 14:19:25 #270 №1512127

>>1512123
>После появления Геммы, выпускать локальные модели без нормальной мультиязычности - зашквар
К счастью или сожалению, всем похуй на тебя и твои запросы. Никто сегодня не выпускает модели, ориентируясь на русскоязычный рынок. Думаю даже имбецил в состоянии понять почему

Аноним 07/02/26 Суб 14:21:23 #271 №1512129

>>1512123
>Русик входит в топ-10 самых популярных языков мира.
Это не противоречит утверждению "популярность русика падает". Даже по твоей статье в педивикии видно.
>И у тех же корпов нет вообще никаких проблем с русским языком.
Само собой, у них модели в 10 раз крупнее наших + инфраструктура.

Аноним 07/02/26 Суб 14:28:09 #272 №1512132

>>1512123
> Пикрелейтед
Так-то если взять постсоветские страны и часть восточной Европы, где язык более чем в ходу, все его знают, местами он второй государственный - там под 300лямов выйдет. Об это много говорили и ныли на фоне объявлений о сворачивании русских локализаций после всеми любимых событий 22 года, ведь их потребителями была не только эта страна, но даже больше среди других.
> И у тех же корпов нет вообще никаких проблем с русским языком.
Попробуй дегенерата-гопоту, или жемини флеш, первый путается в окончаниях даже на флагманах, вторая срет иероглифами как рофловые китайские модели. У грока тоже это случается, что многие здесь наблюдали даже сами того не подозревая.

Аноним 07/02/26 Суб 15:34:23 #273 №1512183

А Стёпа на православном чатмл работает, или у него свой какой-то всратый темплейт?

Аноним 07/02/26 Суб 16:02:18 #274 №1512200

image.png

>>1509833
Каждый раз охуеваю заходя в аи-треды с местного сленга, хоть так матчасть получается осваивать
Хотя ладно, здесь еще градус сленга довольно низкий, это меня "пейпигаю с опус" спровоцировало, в остальном понятно

Аноним 07/02/26 Суб 16:31:00 #275 №1512223

IMG4868.jpeg

>>1511905
Хорошо. Обновлю. Но только moe.

>>1511951
Вот так встреча. Юхууу

Аноним 07/02/26 Суб 16:43:22 #276 №1512231

>>1512200
q2/q6 и другие - конкретные кванты или семейство, цифра - примерное bpw с оговорками для мелких. Жирноглм - glm-4.7 (4.6, 4.5), не мелкие версии. Ризонинг - штатный режим работы модели с предварительными размышлениями.
Это аицгшник залетный, сильно не воспринимай.

Аноним 07/02/26 Суб 17:32:19 #277 №1512266

>>1512231
>залетный аицгшник
>с ригом
🤦🤦🤦

Аноним 07/02/26 Суб 17:50:59 #278 №1512280

>>1510314
>Kimi K2.5

Спасибо за наводку

Аноним 07/02/26 Суб 17:55:13 #279 №1512286

image.png

Пришло время тупых вопросов. Давненько виндой не пользовался, сейчас пытаюсь заюзать там видеокарту через rpc, rpc-server запускается, пишет коротенький лог начала загрузки и молча закрывается, вроде бы, без ошибок. llama-server, llama-cli и прочие аналогично, пишут одно и то же, пик релейтед. Флаги командной строки игнорируются, ни --help, ни -v ничего не меняет. Сам подозреваю, что в системе чего-то для vulkan не хватает. Win10 чистая, на сайте амудэ заявлено, что необходимые для vulkan компоненты устанавливается вместе с драйвером, вроде как. У кого-нибудь есть идеи? Или был опыт чего-то подобного? Конечно же нет и я всё буду гуглить и решать методом тыка сам. Ёбанная винда, на linux всё легко собирается с необходимыми зависимостями и просто работает, а тут вечно какие-то приколы.

Аноним 07/02/26 Суб 18:05:19 #280 №1512292

>>1511784
> чатмл на эир
Куда уж жирнее.
Есть столько способов лоботомировать модель, но ты действовал наверняка

Аноним 07/02/26 Суб 18:06:43 #281 №1512294

image.png

>>1512091
> Я не знаю, что у тебя там за промпт, что ты хочешь получить на него в ответ и по каким метрикам ты оцениваешь "ум" модели.
https://litter.catbox.moe/m42m886nl6re7i2x.png
Вот тебе карточка, если надо. Насчёт "ума модели":
1. Внимательность.
Не проебать HTML форматирование. Любопытный момент: В карточке указано писать div стиля только один раз, потому что после все сообщения в чате будут на него ссылаться. Но это одна маленькая строчка в 3,5к контекста. Тем не менее, умная и внимательная модель так и сделает. Не очень умная - либо забудет написать его вообще, либо будет срать им при каждом удобном случае.
2. Внимательность. Русский язык. Разнообразие датасета.
В карточке подробно описаны примеры двачевского стиля общения, хорошая модель должна его подхватить.
3. Внимательность. Русский язык.
Модель должна понять что:
Третья Ллама 70В -> Llama 3 70В
3090 -> Nvidia 3090
Тесла P40 -> Tesla P40

>И ты прибежишь упрекать меня в том, что зря скачал 40 ГБ.
Так по факту же!

>>1512071
>Используй русик
>Выучи англюсик
>Перекатись с локалок на Опуса-жопуса
>Выкатывайся из треда
Данный тред никогда не меняется, прямо как война.
Вот только зачем всё это, если есть модели которые таки могут в русский?

>>1512067
>Б-жественные 5 токенов в секунду.
После 3.93T/s как-то слабо верится в такую удачу...

> И популярность русского только падает
Внимание! Межконтинентальный лайнер под названием русский датасет терпит крушение на протяжении 194 серий!
Действующие лица: Неунывающий и мужественный ОП, изобретательные и находчивые любители английского языка...

>>1512107
> Вместо стокового ларджа крутани магнум, или девстраль недавно вышедший.
>Оптимальный запуск моэ (да и любой модели что не помещается в врам) требует иного подхода с выгрузкой только линейных слоев на проц. Тогда и контекст не будет считаться вечность.
Спасибо за совет, попробую!

>Ну и q2 - это пиздец полный, особенно xxs.
Не знаю как сейчас, но года полтора назад делали тесты, которые показали что низкие кванты больших моделей должны работать лучше, чем высокие кванты мелких.
Хотя плеваться от маленькой цифры после q это конечно БАЗА, тут всё стабильно.

>>1512223
>Хорошо. Обновлю.
Может проще новый создать? Раз уж раз в год по списку.

Аноним 07/02/26 Суб 18:15:54 #282 №1512305

>>1512266
> остальные локальные сетки еще хуже чем жлм
> пейпигаю чмопус
> с ригом
Кажется ты нас обманываешь.
>>1512294
> тесты, которые показали что низкие кванты больших моделей должны работать лучше, чем высокие кванты мелких
Перплексити? Да, часто у малого кванта большой модели больше шансов ответить на простые вопросы или разобрать сложную логику чем у мелкой в оригинальных весах. Но когда речь заходит о точных знаниях, следованию, чату и прочему - лоботомированный квант выходит из чата. Вплоть до того, что ощущается как 2 резные модели если сравнивать с нормальным. Это не значит что они непригодны к использованию, просто при оценке нужно учитывать что у тебя адаптация с нюансом. Если есть рам - можешь моэ катать на весь доступный объем с терпимой скоростью, особенно эйр.

Аноним 07/02/26 Суб 18:19:09 #283 №1512306

>>1512294
>Вот тебе карточка
Лучше было бы json'ом, я бы хоть по-быстрому глянул в текстовом виде, чем у тебя там в промпте насрано. Ну да ладно, может и гляну пнг, когда в следующий раз нечего делать будет, пока что другим занят, лень таверну запускать.

Если тебе нужна внимательность к контексту и оборачивание всего в html, то тебе скорее всего к кодерским моделькам, и скорее всего к квену (он наиболее внимательный к контексту, как и гемма). А стилизацию ответов лучше отдельной моделькой, которую основная будет дёргать как инструмент и промптить на генерацию чисто текста на русском. Тут либо эир, либо мистраль-лардж, если тебе они понравились по стилю. С квеном, скорее всего, форматирование проебал, обычно при поехавшем формате бывают пустые ответы. Попробуй 2.5-72B в q4 или 32B в q8. МоЕ-шка тоже должна справиться, наверное, если нормально запромптить.
А когда вот так вот всё в одном - html + русик + неочевидные из контекста факты, до которых ещё додуматься надо + говноквант = получаешь то, что получаешь.

Аноним 07/02/26 Суб 19:07:28 #284 №1512332

>>1512286
Раз виндой не пользовался то иди на линь

Аноним 07/02/26 Суб 19:08:02 #285 №1512334

Что то стёпа не очень, проза вроде свежая, но сильно туповат в рп.
Может из за swa, может потому что без ризонинга что то ломается ибо он вшит в темплейт, может жора насрал, хз
Результаты на их форке с ризонингом будто были лучше

Аноним 07/02/26 Суб 19:14:46 #286 №1512337

>>1512334
Модель для агентного кодинга оказалась говном в рп
Этого не можед быд

Аноним 07/02/26 Суб 19:15:19 #287 №1512338

>>1512332
На том компьютере, где gpu, увы, только винда. Я подумал, что 288 гб/с на 580-й будет получше, чем 40 гб/с ddr4 на основном. Ну хотя бы попробовать и сравнить. На основном-то linux.
А вообще я уже решил проблему. А тред по части конкретных технических вопросов бесполезен, местные только какахами перекидываться способны. Уже не в первый раз спрашиваю с нулевым результатом. Ну сейчас хоть ответили бесполезным советом, и на том спасибо, до этого вообще полный игнор несколько раз был.

Аноним 07/02/26 Суб 19:22:10 #288 №1512349

>>1512305
>Кажется ты нас обманываешь.
Креститься надо, когда кажется. Из большесеток я только кими не пробовал крутить, уж больно жирна. А все остальное - кал.
На апи, разумеется, кроме самого толстого опуса крутить ничего смысла нет, если играть, то по крупному.
Но на глм я подебил тупняки крестится. Впендюрил ему к стандартным семплерам топ к 40 и стало пока прилично.

Аноним 07/02/26 Суб 19:22:51 #289 №1512350

>>1512294
> Может проще новый создать?
Да, так и пилю. Разделим на денс и мое.
Черновик через пару часов скину, посмотрите, покрякаете по косякам.

Аноним 07/02/26 Суб 19:26:23 #290 №1512354

>>1512337
Можно подумать первые глм как то для рп тренились

Аноним 07/02/26 Суб 19:27:51 #291 №1512355

>>1512354
Терпи сынок

Аноним 07/02/26 Суб 19:35:03 #292 №1512361

>>1512354
https://huggingface.co/zai-org/GLM-4-32B-0414
Читай, вспоминай, любитель погадать на кофейной гуще.

Аноним 07/02/26 Суб 20:17:10 #293 №1512388

>>1512349
Не пробовал самую базу - дипсик, не приручил квена, еще экзотику, а заявляешь. Жлм это ультимативный hit or miss, он или понимает и начинает писать если не ультимейт кино ,то хотябы просто интересную и складную историю и адекватным отыгрышем. А если не сложилось - то не сложилось, будет отвлекаться на малозначительную херню, тупить, повторяться, не двигая сюжет. Тут ему даешь чат понюхать и смотришь как себя ведет, если не пошло, то просто переключить на другую модель, тот же квен гораздо стабильнее, последовательнее и послушнее, но со своими проблемами.
> самого толстого опуса
Он только один, тонких нету. И нынче он совсем не то и припезднутый, я вообще не понимаю как можно на этом рпшить.

Аноним 07/02/26 Суб 20:47:54 #294 №1512434

image.png

Аноним 07/02/26 Суб 20:56:12 #295 №1512446

Во второй лламе душа была, а сейчас что? Сблев корпоратов

Аноним 07/02/26 Суб 20:58:47 #296 №1512450

>>1512388
>квен гораздо стабильнее
База. Квен стабильно помойка. Стабильнее модели не видел.

Аноним 07/02/26 Суб 20:59:25 #297 №1512451

>>1512434
Время такое...

Аноним 07/02/26 Суб 21:09:05 #298 №1512465

>>1512294
>Внимание! Межконтинентальный лайнер под названием русский датасет терпит крушение на протяжении 194 серий!
Так это... Тут 90% рпшат на инглише.
>>1512446
Душа была на пигмалионе, всё остальное это галимые ассистенты.

Аноним 07/02/26 Суб 21:12:38 #299 №1512470

>>1509647 (OP)
Какой ии пиздато генерирует порнорассказы как грок? В гроке фичу прикрыли, есть ли аналоги(бесплатные оф корз)

Аноним 07/02/26 Суб 21:18:50 #300 №1512477

>>1512470
Никакой. Они даже написанный пользователем сюжетный поворот продолжить не могут, если он требует что-то сложнее 2+2.
Ну разве что тебя устроит:
-я тебя ебу.
покачивая бёдрами в такт - ах ты меня ебёшь.

Аноним 07/02/26 Суб 21:20:20 #301 №1512478

>>1512477
Как нет, грок же охуенно генерировал такие блядь фанфики были ебать нахуй, так человек не напишет. Неужели нет аналогов?

Аноним 07/02/26 Суб 21:21:41 #302 №1512479

1770488496695353.jpg

Посоветуйте модель на 7-10B параметров, чтобы получше умела в русик и чтобы можно было файнтюнить. Интеллект для задачек и программирование нинужны, чисто чтобы могла писать текст по промпту в специфичном стиле не углубляясь в детали

Аноним 07/02/26 Суб 21:27:08 #303 №1512484

>>1512479
Новое:
https://huggingface.co/unsloth/Ministral-3-8B-Instruct-2512-GGUF
https://huggingface.co/unsloth/Qwen3-VL-8B-Thinking-GGUF

И старьё:
https://huggingface.co/bartowski/gemma-2-9b-it-GGUF
https://huggingface.co/mradermacher/YankaGPT-8B-v0.1-GGUF

Аноним 07/02/26 Суб 21:28:24 #304 №1512486

>>1512479
Мелких моделей с внятным русским мало, чтобы хотя бы грамматически верные предложения были.
Наверное, Gemma 12b, но она тебе крупновата и тупит в низком кванте. Возможно лучше gemma e4b, она нихрена не 4b, по размеру как раз как 7-10B.

Аноним 07/02/26 Суб 21:31:38 #305 №1512489

>>1512486
12b боюсь что полностью не влезет в 12гб видеопамяти. Помимо неё имеется 64гб ОЗУ, MoE модели бы подошли по ресурсам, но я слышал, что их трудно файнтюнить (сам этим никогда не занимался)

Аноним 07/02/26 Суб 21:32:40 #306 №1512493

Бля ебать грок порезали нахуй. Чуваки которые хуйню в imagine генерировали долго внимание на себя оттягивали но теперь всё. Никаких порнорассказов, порноисторий, грок не может больше фильтров так будто он 50 летняя милфа и ты просишь её не брить пизду. Сука блять. Заебали нахуй интернет этот ёбаный заблокированный это ещё цензурная блять.

Аноним 07/02/26 Суб 21:54:39 #307 №1512515

>>1512470

Глм 4.7, разумеется

Аноним 07/02/26 Суб 21:56:25 #308 №1512520

>>1512486
Гемму-3n-E4B двачую, это вообще праздник какой-то. Ее фишка в том, что она почти безупречно генерирует тексты на крупных европейских языках. На это не способны китайские модели, которые на фоне этой геммы выглядят как мемный чуаак из Идиократии, пытающийся выбрать, какую болванку вставить в фигурное отверстие.

Аноним 07/02/26 Суб 21:56:34 #309 №1512521

>>1512515
>Глм 4.7
Спасибо бро

Аноним 07/02/26 Суб 22:17:12 #310 №1512543

>>1512477
Скил ишью либо на 12б лобототомите сидишь

Аноним 07/02/26 Суб 22:41:24 #311 №1512582

Сижу с мистраля 24В, подскажите что делать, чтобы эта хуйня перестала залупаться (зацикливаться). Он просто копипастит целые куски текста из предыдущих сообщений. У меня скилл ишью, ни rep pen, ни DRY, ни mirostat, ни XTC, ни промптинг мне толком не помогают. Единственное, что работает - это начало нового чата. Как вы решаете эту проблему?

>>1512493
Руководители компаний стараются, чтобы ты сидя дома в одиночестве не позволял себе слишком много веселья.

Аноним 07/02/26 Суб 22:53:33 #312 №1512604

>>1512582
Возможно с контекстом проблема. Попробуй отключить или включить контекст шифтинг.

Аноним 07/02/26 Суб 23:02:31 #313 №1512630

>>1512479
https://huggingface.co/t-tech/T-lite-it-1.0
https://huggingface.co/yandex/YandexGPT-5-Lite-8B-instruct-GGUF

Аноним 07/02/26 Суб 23:13:42 #314 №1512673

>>1512582
Возможно с мистралью проблема. Попробуй включить другую модель.

Аноним 07/02/26 Суб 23:20:59 #315 №1512690

>>1512673
Какую?
>>1512604
Вроде как не с ним проблема.

Аноним 07/02/26 Суб 23:25:50 #316 №1512719

image.png

Тот кто поместил эти две кнопки рядом должен сгореть в аду нахуй

Аноним 07/02/26 Суб 23:30:20 #317 №1512731

image.png

Есть эксперты в треде? Что это за хуйня? Этот петушок не только сделал форк, но и изобрел гипер-кванты? Кто-то пробовал?
https://huggingface.co/ubergarm/Step-3.5-Flash-GGUF

Аноним 07/02/26 Суб 23:35:05 #318 №1512744

>>1512450
Квенчик няшечка, вы просто его не поняли.
>>1512465
Двачую.
>>1512479
Вот тут глянь https://rentry.co/z4nr8ztd
Гемму 3n двачую, она хороша. Файнтюнить не надо, просто прими как данность.

Аноним 07/02/26 Суб 23:38:47 #319 №1512755

>>1512479
Министрали и Квены. Оба могут еще сверху картинки смотреть. И у обоих есть варианты с думалкой и без. Кидал этот анон >>1512484
причем скинул квен с ризонингом, а мистраль нет, лол
Все остальное либо больше, либо хуже. Не надо пробовать старье. Не надо пробовать яндекс. Хотя можешь попытаться найти скрытый гем но скорее всего найдешь открытый кал
Ну может еще попробуй ужаться и попробуй гемму 12, она будет лучшей в русике наверное
https://huggingface.co/mradermacher/gemma-3-12b-it-GGUF

Аноним 07/02/26 Суб 23:48:47 #320 №1512777

>>1512582
Если речь про 2506 (MS 3.2) и его производных - решается правкой разметки в text completion пресете, или переходом на chat completion.
Он такое творит после определенного числа ходов, если ему в контекст скармливать предыдущий диалог, где каждое сообщение обернуто тегами разметки (таверна с дефолтовым мистраль-пресетом в text completion так делает). Если весь предыдущий чат выдать без тегов, одним объединенным текстом (как это chat completion делает) - всё норм.

Аноним 07/02/26 Суб 23:50:46 #321 №1512782

>>1512777
Вот это уже интересно, спасибо. А как именно надо поправить разметку, чтобы один раз исправить и забыть о проблеме?

Аноним 08/02/26 Вск 00:09:37 #322 №1512813

>>1512782
Принцип такой, по умолчанию в контекст на мистраль-шаблоне таверна сыпет что-то вроде:

[INST]Char: .... [/INST]
[INST]User: .... [/INST]
И так по кругу.
Мистраль от этого шизеет.

Ему надо не более чем:
[INST]Char: ...
User: ...
Char: ...
User: ...
[/INST]

Т.е. лезь в свойства персета, и редактируй, чтобы открывающий тег использовался только для первого сообщения ассистента, а закрывающий - только последнего сообщения (есть там подходящие строчки).
Или просто поменяй подключение на локальный Open AI совместимый протокол чтобы работало через chat completion (и лама и кобольд такое умеют, там только адрес другой - будет на v1 заканчиваться). В этом случае шаблон разметки вообще из самой модели берется автоматически, остается только сам промпт вписать.

Аноним 08/02/26 Вск 00:13:10 #323 №1512818

image

>>1512755
>причем скинул квен с ризонингом, а мистраль нет, лол
Просто квен без ризонинга в 8b совсем уныл, а мистраль ничего так.

Аноним 08/02/26 Вск 00:20:38 #324 №1512824

image.png

>>1512543
Сука не смешно. Оно даже с резонингом только с пятой попытки осиливает.

Аноним 08/02/26 Вск 00:25:16 #325 №1512830

>>1512824
Хуя там в промте насрано. Тут и кожаный не справился бы ахаха.
Прям ща играю на q2 4.7 и все прекрасно.

Аноним 08/02/26 Вск 00:28:15 #326 №1512837

image.png

>>1512824
Ты реально думаешь, что ризонинг что-то путное тебе дает, а не просто срет токенами?

Аноним 08/02/26 Вск 00:35:25 #327 №1512844

image.png

>>1512837
С 5й попытки осилил же.

Аноним 08/02/26 Вск 00:37:18 #328 №1512848

>>1512582
А нет, Грока вернули. Снова Грокаю дроч контент. Они выпилили ему чтобы он по изображениям не фантазировал, а текст оставил. Это хорошо. Я пробовла на сторонних сервисах генерить порнорассказы такая хуйня, блять грок охуенно генерит поэтично прям так красочно и бесплатно нахуй

Аноним 08/02/26 Вск 00:41:29 #329 №1512850

>>1512848
А ты сидишь бесплатно с их официального сайта? Там разве лимитами не ебут?

Аноним 08/02/26 Вск 00:43:17 #330 №1512851

>>1512848
Да, индусам, которые ваши переписки читают, тоже нравится.

Аноним 08/02/26 Вск 00:45:10 #331 №1512854

>>1512850
Ебут, но мне 20 сообщений в сутки хватает. Развиваю фанатзию, потом дополняю.

>>1512851
Похуй.

Аноним 08/02/26 Вск 00:46:32 #332 №1512855

>>1512848
А ты со скринами приходи. А не то на грок наяривают некоторые из соседнего треда, а пруфов пиздатости не показывают. Интересно почитать. Вдруг локалки все и надо переходить на слоп маска

Аноним 08/02/26 Вск 00:47:56 #333 №1512856

>>1512854
20 сообщений в сутки это уж совсем пиздец.

Аноним 08/02/26 Вск 00:48:38 #334 №1512857

>>1512844
А вдруг он тоже самое без ризонинга осилил? Просто на условным 5 свайп. Просто хз в чем именно в рп такой большой смысл ризонинга, это же не сложная задача по проге какой-нибудь. Просто сидишь терпишь. Благо он везде в настройках отключаем

Аноним 08/02/26 Вск 00:49:20 #335 №1512859

6.mp4

>>1512855
Там грязные маняфантазии как 50+ летняя баба с волосатой немытой пиздой насилует моё ебало. Лучше не надо. Мне и самому потом стыдно чутка после этих генераций, но даже чятик не удалить потому что я потом дрочу вновь на то что нагенерил там

Аноним 08/02/26 Вск 00:51:25 #336 №1512860

>>1512813
> а закрывающий - только последнего сообщения (есть там подходящие строчки
First Assistant Prefix действительно вижу. А вот что-то похожее на Last User Suffix - не вижу.

> chat completion
Это тоже замечательно и как будто даже работает, но там какой-то свой кривоватый интерфейс с семплерами и прочим говном. Все с нуля переделывать.

Аноним 08/02/26 Вск 00:52:02 #337 №1512862

>>1512856
Ну Грока берёт большими объёмами. Это не болталка, нужно подумывать чё пишешь, взамен будешь получать стену годноты.

>>1512855
А что за локалки? Типа ИИ запускаете на арендованых серверах типа он ваш? Да там же мало мощностей и тупо настроить всё, ему нужен доступ к бд из интернета и к людям на которых он будет учиться. Это хуйня какая-то там гвардия топ анальников нужна чтобы всю эту хуйню замутить.

Аноним 08/02/26 Вск 00:55:57 #338 №1512865

>>1512862
> Ну Грока берёт большими объёмами. Это не болталка, нужно подумывать чё пишешь, взамен будешь получать стену годноты.
Я все-так поддвачну этого >>1512855
Нужны пруфы пиздатости.

Аноним 08/02/26 Вск 00:59:26 #339 №1512870

Нашёл где я буду тестировать кум с ассистентом-лоботомитом на русике https://huggingface.co/AliceThirty/Step-3.5-Flash-gguf/tree/main/Q2_K потому что хочу, потому что могу.

Как поем говна отпишу что да как

Аноним 08/02/26 Вск 01:06:08 #340 №1512874

>>1512857
За 7 не смог, сейчас ещё пару раз проверил - аналогично. Не знаю что за сомнения в ризонинге, тяжёлые повороты только им и пробиваются. Если по силам модели.

Аноним 08/02/26 Вск 01:13:37 #341 №1512880

В чем проблема заебенить 5T/80B MOE и ебать все что движется?

Аноним 08/02/26 Вск 01:18:09 #342 №1512884

>>1512880
80b ты на чём будешь запускать? Там даже 8 квант требует 96гб, уровень околотоповых тесел.
Ну и в нынешних реалиях сервак на 6тб озухи слишком накладно. Да и 80б будет сквозить.

И ради этого такую модель надо ещё обучить, что невероятно накладно и долго.

Аноним 08/02/26 Вск 01:18:57 #343 №1512885

>>1512880
Делай

Аноним 08/02/26 Вск 01:20:28 #344 №1512886

image

>>1512862
>Типа ИИ запускаете на арендованых серверах типа он ваш?
На домашнем компе. Или на собственном риге.

>Да там же мало мощностей
Достаточно для РП

>ему нужен доступ к бд из интернета
Не нужен. У нейронки своих знаний достаточно.

>нужен доступ к людям на которых он будет учиться
Не нужен. Ни одна ЛЛМ (в т.ч. и у корпов) не обучается в реальном времени и не обновляет собственные веса, лол. Как только научится так делать - это будет тот самый AGI на который все надрачивают. Модели дообучаются постфактум на парах вопрос-ответ с такими юзерами как ты, на интернете, на датасетах всяких интересных, на слопе от других ЛЛМок. Но в этом им помогают кожаные. Вот была условная GPT 5.1, ее дообучили и выложили как новую модель GPT 5.2.

>какая-то там гвардия топ анальников нужна чтобы всю эту хуйню замутить
Скачал модель, скачал средства запуска, настроил, запустил. Всё.

Аноним 08/02/26 Вск 01:21:12 #345 №1512887

Ну кстати проблем в этой хуйне реально нет никаких. Буквально вкинуть деньги в монитор и в облаке тебе выдадут тачку с нужными спеками. Никакой дрочи с закупками, никаких проблем с подводом электричества

Аноним 08/02/26 Вск 01:31:02 #346 №1512892

>>1512886
Самое главное забыл сказать. Надо еще быть мажорчиком с топовым ПК, тонной оперативы и видеопамяти.

Аноним 08/02/26 Вск 01:34:27 #347 №1512894

>>1512892
> быть мажорчиком
Можно быть на подскоке за всякими странными железками и не быть мажором

Аноним 08/02/26 Вск 01:39:42 #348 №1512896

>>1512892
Да, либо мажором. Либо долбоебом, который китайский убитый хлам разбирает, как этот >>1512894

Аноним 08/02/26 Вск 01:42:27 #349 №1512897

>>1512892
Тут полтреда сидят на моделях уровня 24b мистраля, которому 12 врам + 16 рам хватит чтоб с приемлемой скоростью работать. А если совсем бомж, то и тут есть вариантики в виде 12b немо и 14b министраля. И геммочка, конечно, куда без неё.

На 12+64 ты уже сможешь запустить 106b эйр в 4 кванте, а это умнее всяких "флэш" и "мини" версий от корпов. 64гб ддр4 еще полгода назад можно было купить в пределах 10к, накопив со школьных завтраков, а 3060 12гб найти на ближайшей помойке.

Аноним 08/02/26 Вск 01:43:11 #350 №1512898

>>1512892
Ага, помню осенью покупал 64 гига озу за 17к и это был тогда супероверпрайс по сравнению с летом. Теперь такие комплекты по 70к стоят. Легче сейчас реально сервак арендовать или копрам занести

Аноним 08/02/26 Вск 01:51:13 #351 №1512900

>>1512898
Пиздец. Все для людей

Аноним 08/02/26 Вск 02:24:53 #352 №1512917

>>1512388
Ну ты опять свои мысли вкладываешь мне в рот. Я же написал, что пробовал большесетки, зачем ты тут же отвечаешь, что я не пробовал дипсик? Он либо шизит, либо в сою уходит. Ужасные аутпуты для такого размера. Напомнил какую-то ядреную говносмесь лламы 3 и квена. Хотя если тебе нравится квен, то и дипсик понятно почему заходит.
>нету
Сравни цены на 4.1 и 4.5 и качество аутпутов - может тогда тебе откроется секрет Полишинеля.

Аноним 08/02/26 Вск 02:45:36 #353 №1512930

>>1512886
Ну а чё вот эти локалки позволяют? Вы что ими генерите? Как вы пользуетесь имир

Аноним 08/02/26 Вск 02:47:47 #354 №1512933

>>1512917
Какие мысли? В глаза ебусь, прочел то как "только кими пробовал".
А что ты такое рпшишь и как все обустраиваешь? Ну не может же быть на ровном месте полностью противоположный экспириенс, должны быть причины помимо вкусовщины. Описанное поведение дипсика было на старых моделях, терминус и последний 3.2 вполне ничего. Не идеальны и универсальны, но есть много сильных сторон. Еще упоминание соевости и рядом восхваление современного опуса - абсурд.
> цены на 4.1 и 4.5 и качество аутпутов
Там 4.6 ващет уже. Хз, никогда не платил за клодыню чтобы еще тарифы на разные сравнивать использованного хватило бы не недвижимость в ебенях, гои оплатят. Начиная с 4.х опущ имеет смысл только последний, ибо с прошлыми сравним обновленный сойнет. Но они все насколько хороши для кода, насколько и унылы в рп. Нет той красочности и души, которая была на тройках до соевых патчей, а уровень сои, паранои и всего что "любим" запредельный.

Аноним 08/02/26 Вск 02:47:56 #355 №1512934

>>1512930
Ты слепой? Тебе уже дали ответ >>1512859

Аноним 08/02/26 Вск 02:52:37 #356 №1512940

>>1512934
Так то мой пост и есть, но я то гокаю. С моим бомженоутом и жизнью почти 30 летнего рнн господина бомжа только и остаётся грокать на 20 сообщений в сутки. Спасибо швитому илону и за это

Аноним 08/02/26 Вск 02:56:39 #357 №1512945

>>1512940
Мы пишем такую же извращенную хуйню, только чуть медленнее и на своем железе. И без ограничений на количество запросов. 20 запросов это пиздец мало.
И я напоминаю, что на опенроутере до сих пор лежит бесплатный дипсик с 100 (или 40?) сообщением в день и 500, если закинул 10 долларов, причем они не тратятся

Аноним 08/02/26 Вск 02:59:33 #358 №1512949

>>1512917
Я пробовал 3.0 и 3.1, терминус и дальше не пробовал, подумал, что только мажорный апдейт исправит все. Там же тизерили 4й, вот посмотрим.
>соевости
Не знаю, у меня он нормально все пишет. 4.6 буквально вчера-позавчера вышел, еще не пробовал. А так я пробовал и 3, но 4.1 самый охуенный как по мне. А сценарии - чистый кум.

Аноним 08/02/26 Вск 03:00:03 #359 №1512951

>>1512949
>>1512933

Аноним 08/02/26 Вск 03:07:48 #360 №1512963

>>1512945
А чат гпт не может в эро фантазии?

И как оно пишется? Дрочевно? Можно кусочек текста чтоле...

Аноним 08/02/26 Вск 03:15:11 #361 №1512968

>>1512949
3.0 днище, терминус приличный. Кумить не подойдет, но масштабный рп и подводку к куму выполняют отлично, также от наличия непристойных и незаконных активностей в истории не ломается как некоторые. Главное чтобы 4й был не хуже по всему этому.
> чистый кум
> 4.1 самый охуенный как по мне
Что у тебя там за кум такой? Все попытки покумить на новых опущах вызывали недоумение, в текстах ничего нового, зато деградация от жб ужасная. Точнее как, если просто сесть и начать ерп сессию не зная что там за модель - под пиво пойдет, но зная что это вонаби топ из топов - кринж. А пытаться в какое-то развитие, слоуберн или прочее - лоботомит ебаный. Пробивающие блоки промпта отключаешь - или сразу словишь аположайз по ерунде, или немного попозже. В моменты пока еще работает какого-то абсолют синема не наблюдается, зато можно словить повторения и предопределенные пути, с которых хрен свернешь.

Аноним 08/02/26 Вск 03:40:34 #362 №1512973

>>1512870
Модель step-3.5-flash в Q2_K с темлейтом chatml и рандомным пресетом контекста на 100 токенов ("ты играешь в ролеплей с юзером, можешь бла-бла-бла, должен пытаться избегать бла-бла-бла") и так далее.

Кум на русском с ассистентом не вышел. На том же квене 235_IQ2s хуярило прям неплохо. Со Стёпой™ лекции и моралфажество со включенным думаньем/ебанутые конструкции предложений и слова транслитом (аля "если zadoomаться, мojet быть и приятно"), проёбанные окончания (в меньшей мере, чем на glm air).

Карточка 1 с инцестом с лоботомированной мамкой:
с думаньем посыл письма около верный, даже может осмысленно предложения писать, только связи между предложениями нет, как в цирк ёбаный пришёл
>"Ой анон, как ты хлопнул меня по жжепе" нервно смеётся, улыбается "какой же ты у меня всё-таки грубый" НЕОЖИДДАНО из рук падает кружка какая нахуй кружка? Зачем ты с кружкой ходишь около грядок блять? "ой-ой, сейчас приберу!" Берёт тряпку и начинает ПОДМЕТАТЬ осколки С ГРЯДКИ БЛЯТЬ ПОДМЕТАТЬ ТРЯПКОЙ СУКА, ЧТО ЭТА ГНИДА СЕБЕ ПОЗВОЛЯЕТ?

Карточка 2 с шлюхой-торчетян:
Хоть тут бред от прожжёного креком мозга ещё можно описать, вполне сносно отыгрывал персонажа, но... Стёпа3.5™ обставил всё так, что я САМ СЕБЕ ХОЧУ ОТСОСАТЬ И ДАТЬ ДОЗУ ЕЙ БЛЯТЬ

На сексуальный контент с первого сообщения не переходит, переходит ли, если подталкивать небольшими намёками тоже пока непонятно я передёрнул быстрее, чем смог узнать

У меня несколько вариантов по ситуации:
-с конвертацией этой гниды в ггуф что-то пошло не так.
-русик слишком сильно убит квантованием (интересно, почему это квену не помешало? Или во всём стоит винить обычные кванты, i-кванты у квена, против обычных у Стёпы™?)
-пресет и темплейт говна, нигде для Стёпы™ не смог найти готового/рекомендуемого, слепил франкенштейна.

Аноним 08/02/26 Вск 04:04:29 #363 №1512981

>>1512973
братан ты выпал из трендов, наш слон бартовски выпустил кванты 2 минуты назад а ты все проспал, шустрее надо быть по жизни
https://huggingface.co/bartowski/stepfun-ai_Step-3.5-Flash-GGUF

Аноним 08/02/26 Вск 04:19:54 #364 №1512989

>>1512062
> уделала оттьюненная во все дыры 18Гб хуяня, як так
Потому что все еще Геммочка.

Аноним 08/02/26 Вск 05:53:19 #365 №1513009

>>1512582
>Сижу с мистраля 24В, подскажите что делать, чтобы эта хуйня перестала залупаться
>ни rep pen, ни DRY, ни mirostat, ни XTC, ни промптинг мне толком не помогают
Думаю если меня среди ночи разбудить и спросить что происходит в треде, я даже в бреду отвечу что там опять пытаются вылечить лупы и приколхозить охлад на теслу. Ты когда такие вопросы задаешь, тащи скрины со своими настройкам. Если ты не можешь избавиться от лупов значит нихуя не понимаешь за что отвечают семплеры. И если ты нихуя не понимаешь, как ты их вообще крутил и почему думаешь, что крутил правильно? Советы про контекст шифт и смену апи это вообще шиза ебаная, вы откуда ее притащили? Весь лупинг на мистралях лечится ограничениями на повтор. Если он не помогает значит модель сломанная либо квант до точности 0/1 порезан.

Аноним 08/02/26 Вск 06:18:19 #366 №1513013

>>1513009
> ограничениями на повтор
Модель просто начинает срать орфографическими ошибками выставляя это за принципиально другое слово.

Аноним 08/02/26 Вск 06:25:55 #367 №1513017

>>1513013
Интересно, почему у меня такого не происходит? Или мне вот делать нехуй я прикола ради тупые советы в шесть утра раздаю. Настройки семплеров скинь целиком и скажи какой квант стоит. И вообще, сломанный русик это дефолт для мелкомоделей. Кроме геммы никто нормально его не вывозит, там всегда какая-то хуйня протекает.

Аноним 08/02/26 Вск 06:39:34 #368 №1513021

Степан это кино.
Просто вырубайте swa и ставьте нормальный темплейт, промпт не длиннее 200 токенов

Аноним 08/02/26 Вск 07:07:35 #369 №1513028

изображение.png

>>1512582
Если у тебя все настроено ок, но модель все равно лупится, то это:
- либо она не понимает, что ты от нее хочешь (дописывай карточку)
- либо она на это не подписывалась (не обучалась на тексте).

Вангую, то ты на русике 24б мистраля полез в трусы наивному городовому.

Аноним 08/02/26 Вск 07:20:10 #370 №1513033

1.png

2.png

3.png

>>1513017
i1-Q_4_K_M
>>1513028
>Вангую, то ты на русике 24б мистраля полез в трусы наивному городовому.
Это считается какой-то сложной задачей или что?

Аноним 08/02/26 Вск 07:24:22 #371 №1513035

>>1513017
> Кроме геммы никто нормально его не вывозит
Конкретно русик у нее еще хуевее был. Да и в целом модель просто нерабочая. Но это в моих руках, конечно. У меня скилл ишью.

Аноним 08/02/26 Вск 07:57:08 #372 №1513043

>>1513033
а нафиг ты так порезал top k?

>Это считается какой-то сложной задачей или что?
Ну вот сравнивая 12б, 14б и 24б могу сказать, что да.
Там, где 12б на русике еще хоть что-то может, 14б достает русский конский %цензоред% и начинает %цензоред%, 24б тупит, мямлит, отвечает односложно и лупится при первой возможности.
Модель как бы говорит "ну отстань от меня, ну че те надо?", но разговор закончить, закрыв чат, не силах. Возможно все зависит от тюна, конечно, но вроде как у меня 24 довольно хороший тюн был.

Аноним 08/02/26 Вск 07:58:52 #373 №1513045

>>1513033
>>1513043
p.s ну попробуй ровно то же самое проделать на англюсике, удивишься результату.

Аноним 08/02/26 Вск 08:07:01 #374 №1513047

>>1513043
> а нафиг ты так порезал top k?
Либо давно что-то пробовал крутить и забыл вернуть, либо вообще мисклик. Один хрен, настройка ни на что не влияет.
> Ну вот сравнивая 12б, 14б и 24б могу сказать, что да.
То есть 12В - топ, а 24В - говно. Я правильно понял? >>1513045
Так англюсик говно. Одно дело, когда рабочий переводчик существует, другое дело, когда нихуя нет, ведь на дворе не 2018.

Аноним 08/02/26 Вск 08:13:21 #375 №1513049

>>1513047
Я бы не назвал 12б топом, а 24б говном.
Дело в том, что 12б (тот тюн что был у меня) видимо очень хорошо был натренирован на русик (для глупенького 12б конечно)
Я бы назвал министраль 14б топом (прим. - В ЭТОМ КОНТЕКСТЕ). Потому что он из коробки и без тюнов в довольно узких местах очень даже неплох (хотя вот ему-то надо особое внимание на сэмплеры)
В случае же с 24б я подозреваю, что он был натренирован на русик недостаточно, и у него просто не было тех текстов, которые давали 12б-немотюнам и 14б министралю.
Вот так вот. А так 24б вполне умная модель. Но на англюсике. На русском только как ассистент, разве что. Я его еще гоняю, изучаю, но ощущения именно такие.
Следующим шагом буду гонять гемму.

Аноним 08/02/26 Вск 08:16:36 #376 №1513051

>>1513047
> когда рабочий переводчик существует
так он существует. Настраиваешь мэджик транслейт и все. 24б мистраль хорошо транслейтит, гораздо лучше немотюнов. Прямо шик.
Я микромодели для транслейта не пробовал, ибо лень две модели крутить во VRAM просто.

Аноним 08/02/26 Вск 08:21:26 #377 №1513052

>>1513049
Вот только он и на английском непротив залупаться.
>>1513051
>мэджик транслейт
Это какой-то плагин для таверны? Подозреваю, что это уже превратится в долгое ожидание ответов, если сидеть с английского и ждать перевод. Хотя для каких-то задач неплохо.

Аноним 08/02/26 Вск 08:27:15 #378 №1513053

изображение.png

>>1512973
>-с конвертацией этой гниды в ггуф что-то пошло не так.
100%.
>>1512981
>about 10 hours ago
Небось устарело уже, надо фиксы ждать.
Ладно, уговорили, пошёл картошку чистить.
Мимо другой если что

Аноним 08/02/26 Вск 08:59:13 #379 №1513057

На степана всем похуй, официально.
Никто даже не будет смотреть сломан ли он в жоре или нет, все просто забили.
Ожидание замены эира продолжается

Аноним 08/02/26 Вск 09:17:05 #380 №1513062

>>1512489
Тебе для перевода хватить Q4_K_S, думаю. С небольшим контекстом влезает. Большие куски текста переводишь частями.
Ещё слой эмбеддинга можно выгрузить на процессоор, он у геммы почти на 2 гб.

>>1512520
Да. Вот бы была E27B, которая настолько же лучше 27B, как и E4B лучше обычный 4B.
Ну и вообще E4B - это 7B на huggingface, по крайне мере подписана так.

Аноним 08/02/26 Вск 09:27:07 #381 №1513065

>GLM-4.5-Air-UD-Q5_K_XL
Вот неужели это низкий квант и нужно строго 6 чтобы эир не был рандомной залупой?
То ответы киношные и умные, то слоповые и дебильные.

Аноним 08/02/26 Вск 09:35:50 #382 №1513067

>>1512973
>Q2_K
>ебанутые конструкции предложений
>связи между предложениями нет
>бред
Тот кто игнорирует базу треда обречен возвращаться к ней снова и снова.

Аноним 08/02/26 Вск 10:03:07 #383 №1513077

>>1513067
>Тот кто игнорирует базу треда обречен возвращаться к ней снова и снова.
Ну с большим Глэмом-то всё ок. Может уже третий квант даёт заметный качественный прирост (хотя с большим Квеном это не очень заметно например). Но и так неплохо.

Аноним 08/02/26 Вск 10:06:58 #384 №1513078

изображение.png

Жжём гигаватты, чтобы ответить на простейший вопрос.
Я правда темплейт рандомный поставил, впрочем похуй.

Аноним 08/02/26 Вск 10:30:43 #385 №1513086

>>1513065
>>1513057
>>1513021
Как называется эта болезнь?

Аноним 08/02/26 Вск 10:42:00 #386 №1513095

image.png

>>1513086
паранойя

Аноним 08/02/26 Вск 10:55:53 #387 №1513100

1000018776.jpg

1000018658.png

Аноним 08/02/26 Вск 11:23:29 #388 №1513123

изображение.png

>>1513078
А не, темплейт был тот. Наконец-то кто-то решил не выёбываться и использовать чатМЛ.
Кстати, не начинайте размышление с "Analyze the user's input". По умолчанию зинкинг урезан, думал чуть расширить, а оно мне на 11,5к токенов просралось. Я уж думал не ответит.

Аноним 08/02/26 Вск 11:33:21 #389 №1513135

Попробовал GLM 4.7, как ни странно Q2K_XL от unsloth пишет адекватно и даже следит за позициями персонажей. Вернуться к мелкомоделям после этого совершенно немыслимо.

Скорость соснявая (4 т/с на 128гб ддр4, одна 3090 и одна 5080) при 16к контексте.
По процу сейчас 5700X3D, к сожалению с ним память дальше не расширить.
А хочется все-таки Q4 или хотя бы Q3 с 32к контекста.

Собсна, отсюда вопрос. На какую систему перекочевать с заделом на следующие апгрейды
> еще +128гб ддр4 (до 256 в сумме)
> третья 3090 уже есть кек

Бюджет мелкий - бабки жалко. Все, что надо - чтобы 5080 была свободной под игрульки, а проц не сильно отставал от 5700X3D (готов потерпеть ~10% потерю производительности в игрульках, но не больше).

Какой-нить тредриппер 3960X пойдёт? Есть ли иные варианты, которые будут поддерживать обычную НЕ серверную ддр4?

Аноним 08/02/26 Вск 11:35:05 #390 №1513137

>>1513135
>третья 3090
Вторая то есть. Опечатался. Ну да не важно.

Аноним 08/02/26 Вск 11:36:21 #391 №1513138

>>1513135
>4 т/с
Юзай эир как все нормальные пацаны и не выёбывайся

Аноним 08/02/26 Вск 11:37:09 #392 №1513139

>>1513138
Я пробовал, гораздо слабее жирного 355б а32б глма на q2.

Аноним 08/02/26 Вск 11:37:34 #393 №1513140

>>1513135
>GLM 4.7
>Q2K_XL от unsloth
Нюня хуйни не посоветует
мимо эир-чатмл энжоер

Аноним 08/02/26 Вск 11:37:50 #394 №1513141

>>1513139
А ты попробуй не на q2 а на q6, дурной что ли

Аноним 08/02/26 Вск 11:38:50 #395 №1513142

>>1513138
Какая разница, если большинство модели в раме, которая ддр4. Скорость одинаковая будет практически. Эх бля дурачок...

Аноним 08/02/26 Вск 11:39:01 #396 №1513144

>>1513141
Как я тебе попробую 355б модель на q6 с 128гб оперативки, ты че ебанутый?
>>1513140
Я не знаю кто тут чего советует, мне интересно какие варианты по железу будут правильным выбором. Вопрос вообще не о моделях.

Аноним 08/02/26 Вск 11:41:46 #397 №1513146

image

>>1513135
Погоди, большой глем во ВТОРОМ кванте на 56гб врам + 128 рам с мизерным контекстом выдает всего 4тс? Братишка, ты прям явно что-то делаешь не так, я хз. У меня на 12гб врам эйр в Q4 и 32к контекста выдавал ~8.5 т/c. Экстраполируя на твоё железо, модель и квант - у тебя должно быть минимум раза в два быстрее. Тебе не апгрейдиться надо, а искать где ты обосрался.

Аноним 08/02/26 Вск 11:43:20 #398 №1513148

>>1513146
Это так не работает. Большая модель всегда будет медленнее. Ты экстраполируешь на основе своего опыта с мелким эйром.

Аноним 08/02/26 Вск 11:46:17 #399 №1513149

>>1513148
>>1513146
Он частично прав, потому что у нюни 4.5-5т на одной 4090 и ддр4, да еще и 32к контекста влезает. Какая у тебя скорость рамы? Почему только 16к контекста влезает?

Аноним 08/02/26 Вск 11:48:13 #400 №1513150

>>1513149
Я думаю тут дело в том, что 3090 у меня аж в PCIE 3.0 x4 торчит. Платформа совершенно не годится под эти дела, блин, я же говорю вопрос не про модели и о том как она работает, а о выборе нового железа...

Аноним 08/02/26 Вск 11:50:50 #401 №1513152

>>1513148
Скорее всего там просто выгружены все моэ-слои в оперативку, в видеопамяти только активное крутится. А ее нужно до упора забивать, максимум слоёв сколько влезет, даже на моэ. И только то что не поместилось - уже отправлять в озу.

Аноним 08/02/26 Вск 11:52:58 #402 №1513154

>>1513100
Опа. Ждем. Хотя конечно хотелось четвертый квен Бля, и каждый раз в голос с ебала сурдина
>>1513135
У тебя уже 4 т/c на 16к контекста, что пиздец. Зачем ты еще расширяешь? Вот будет у тебя 512гб ОЗУ и поставить ты условный дипсичек, так он будет у тебя 0.5 т/с работать из-за говенной памяти и проца

Аноним 08/02/26 Вск 11:54:29 #403 №1513155

>>1513154
> на какое железо сделать апгрейд, какой проц взять
> НЕ ЛЕЗЬ НЕ РАСШИРЯЙ У ТЕБЯ ПРОЦ ПЛОХОЙ
Иногда мне кажется, что в треде постят нейронки.

Аноним 08/02/26 Вск 11:56:47 #404 №1513157

>>1513138
Двачую
>>1513142
Нет, зависит не только от оперативки. Зависит от архитектуры МОЕ и размера активных параметров

Аноним 08/02/26 Вск 11:59:53 #405 №1513160

>>1513155
У тебя стоит ебанная ддр4 и еще с райзеном, который режет скорость оперативки. У тебя и большой глм нихуя не тянет, а ты хочешь еще апгрейдится. Когда тебе указывают, что твои планы на апгрейд хуйня, то ты агришься. Ты совсем долбоеб?

Аноним 08/02/26 Вск 12:00:53 #406 №1513162

>>1513155
Ты хочешь апгрейда потому что тебя не устраивает скорость работы ЛЛМки. Тебе написали, что проблема тут не в железе, а в неоптимальных настройках ламыцпп. Насколько у тебя загружена врам во время инференса? Неси сюда скрин, будем разбираться.

Аноним 08/02/26 Вск 12:10:08 #407 №1513169

image.png

>>1513160
>>1513162
блять я не верю нахуй

Черным по белому спрашивал, на какую систему соскочить с целью перехода на Q3 или Q4 квант большой модели (которые физически не влезают в 128гб с контекстом побольше).

И что я получаю? Какую-то дичь про скорость на Q2. Да мне неинтересна скорость на текущей платформе и на Q2, блядь, мне на нее плевать. Мне нужно выбрать железо, чтобы ВЛЕЗЛА модель в нормальном кванте.

> пачиму 16к а тычиво 32к не поставил!!!11
Вот с этого я вообще прихуел. Я могу поставить 32к, память забьется под завязку. Нахуй мне это надо для оценки качества писанины? Просто сидеть и втыкать в 128/128 RAM забитой под завязку что ли?

Почему вы блядь сводите любую дискуссию в срач про какие-то уменя там чего-то запускать, когда об этом не спрашивают. Если у вас нет опыта использования
> какой-нить тредриппер 3960X пойдёт?
нахуя вы вообще лезете

чтоб вас понос прохватил, блять

Аноним 08/02/26 Вск 12:14:41 #408 №1513174

>>1513169
Тебя никто нихуя не должен помогать, уебан. Тебе из жалости указали, что твое железо говно и доставление памяти нихуя не даст, а также то, что у тебя еще какие-то проблемы с настройками ламы. А ты продолжаешь агриться. Пошел нахуй

Аноним 08/02/26 Вск 12:15:24 #409 №1513175

>>1513169
>И что я получаю? Какую-то дичь про скорость на Q2
Ну да. Потому что та же самая проблема будет у тебя и на Q4, когда ты поменяешь железо. Апгрейд фактически ничего не решит кроме возможности запустить более высокий квант. Если ты не поймешь как работать на ламецпп с моэ, то у тебя твои мощности будут точно так же бесполезно простаивать.

Аноним 08/02/26 Вск 12:16:53 #410 №1513178

>>1513169
Ты мог проигнорировать тех, кто пришел рассказывать не то, что тебе нужно. Аноны хотели помочь в том в чем разбираются и сделать так, чтобы у тебя влезло больше контекста и с большей скоростью. Если тебе это не нужно, можно промолчать. Ты выбрал агрессию -> заслуженно идешь нахуй. Надеюсь те кто разбираются в железе и увидят твой пост, проигнорируют тебя.

Аноним 08/02/26 Вск 12:22:08 #411 №1513186

image

>>1513178
Самое забавное здесь то, что в его 56+128 спокойненько влезает Q3_K_XL без всякого апгрейда.

Аноним 08/02/26 Вск 12:28:57 #412 №1513191

>>1513178
Вот не надо врать. Сразу же в ответ на мой пост пошли какие-то невнятные набросы. Единственное, близкое к "агрессии" в моих постах - собственно финальный срыв в ответ на откровенную тупость >>1513169

>>1513174
Я пишу: мое железо говно, мне нужно новое железо
Ответ: НЕЕЕТ ЭТО МЫ ТЕБЕ ГОВОРИМ, ЧТО ТВОЕ ЖЕЛЕЗО ГОВНО, А ТЫ НИЧЕГО НЕ ЗНАЕШЬ

Это не лечится. Пиздец.

>>1513175
>Апгрейд фактически ничего не решит кроме возможности запустить более высокий квант.
А мне - сюрприз - только это и нужно. Квант побольше, и система чтобы стояли две 3090, а 5080-я была свободное.
Ровным счетом нигде и никогда не стояло вопроса "как поднять скорость". Но даже если затронуть его, память в многоканальном режиме (с тем же тредриппером) - будет ли быстрее или нет? Вот это интересно. И повлияет ли переход с PCIE 3.0 x4 (где воткнула 3090-я сейчас) на нечто получше.

Я все еще настаиваю на том, что ИТТ просто не хотят вникать в суть вопросов и лезут выебываться и демонстрировать какие они умные, а все вокруг дураки, сводя любой разговор к срачу.

>>1513186
Ну вот опять. Невнимательность, из которой растут наезды и набросы. Откуда 56, если 24+16 = 40. Да и зачем вообще считать эти 16, если опять-таки сразу написал, что 5080-ю не могу под ЛЛМ использовать в реальных ситуациях окромя тестов "пойдет или не пойдет".

Аноним 08/02/26 Вск 12:35:04 #413 №1513196

>>1513191
>Откуда 56, если 24+16 = 40
А, реально, долблюсь в глазоньки. Подумал что у тебя 5090+3090.

>5080-я была свободное
А зачем тебе свободная вторая видеокарта во время общения с ЛЛМ? Ты собираешься играть в видеоигры и инференсить нейронку одновременно? Если да - то нахуя, лол? Мне реально интересно. Если нет - очевидно забивание видеопамяти обеих карточек под завязку даст драматически более высокий прирост производительности чем любые махинации с процессором и оперативкой.

Аноним 08/02/26 Вск 12:37:20 #414 №1513200

>>1513196
>Ты собираешься играть в видеоигры и инференсить нейронку одновременно?
Ну да... Даже сейчас это вполне успешно делается.
Онлайн-дрочильни слишком скучно задрачивать, не альттабаясь.

Две разных пекарни держать не хочется. Тут и очень жирный и хороший БП зря пропадать будет, и с корпусом ебстись и места мало, ну понятное дело - обычные проблемы.

Аноним 08/02/26 Вск 12:41:46 #415 №1513201

>>1513053
Эх, понял, иду перекачивать

Аноним 08/02/26 Вск 12:53:09 #416 №1513209

>>1513201
О! От братовски даже IQ3XXS влезает. Ну ща попрёт кум (часа через 3)

Аноним 08/02/26 Вск 13:12:49 #417 №1513217

Появилось что то лучше геммы 3 на 27/12б?

Аноним 08/02/26 Вск 13:16:17 #418 №1513220

>>1513217
нет. и не появится.

Аноним 08/02/26 Вск 13:18:25 #419 №1513222

>>1513169
>Черным по белому спрашивал, на какую систему соскочить с целью перехода на Q3 или Q4 квант большой модели (которые физически не влезают в 128гб с контекстом побольше).
При вводных >>1513135
>Бюджет мелкий - бабки жалко.
Никакую. Ты цены на память видел?
В общем всё, что ты можешь, это поменять мать на ту, что может в бифуркацию главного слота по схеме 8+4+4, и колхозить третью карту.

Аноним 08/02/26 Вск 13:23:19 #420 №1513225

>>1513220
Почему?

Аноним 08/02/26 Вск 13:28:36 #421 №1513227

>>1513225
никто не делает больше плотные модели в таком размере. нет резона
для мобилок 4-6б лоботомиты, для десктопов (даже консумерских) теперь мое от 30б
эпоха плотных моделей на 12-32 ушла, увы

Аноним 08/02/26 Вск 13:33:44 #422 №1513229

>>1513227
>эпоха плотных моделей на 12-32 ушла
Я это уже три года слышу. Буквально осенью 23 знающие аноны с пеной у рта заверяли непосвященных, что все кончено.

Аноним 08/02/26 Вск 13:37:48 #423 №1513230

>>1513229
я не знаю кто и что там заверял, сейчас именно такое положение дел. если ты не слепой, можешь сам в этом удостовериться, потратив немного времени на изучение того какие модели выходили в последние полгода. и сколько из них плотные в пределах 12-32б

Аноним 08/02/26 Вск 13:40:34 #424 №1513235

>>1513229
Пчел, последняя плотная модель в среднем размере (мистраль 24b) вышла в июне 2025 года, 8 месяцев назад. Из новых плотных - это мелочь 1b-14b, для телефонов и планшетов. Мое победило, но, мы как потребители, только выиграли, ящетаю, получив возможность запускать более умные модели на более высокой скорости при том же железе.

Аноним 08/02/26 Вск 13:52:01 #425 №1513242

>>1513222
>цены на память
64 гига ддр4 стоит тыщ 20 на лохито. Всего лишь х2 прайсик по сравнению с летом 2025 года.

> бифуркацию главного слота
Чем бы еще его разделять. Это же звездец задачка, одни китайские прибамбасы от Ляо-Мао.

Аноним 08/02/26 Вск 13:59:39 #426 №1513246

>>1513242
Угадаешь почему на ддр4 цены выросли в 2 раза, а ддр5 в 5+ раз? Ответ: потому что дыра4 это кал, в 2 раза медленнее пятерки, а ты тот говноед, который скупает этот мусор

Аноним 08/02/26 Вск 14:02:13 #427 №1513248

>>1513235
Полгода назад еще эта залупа была
https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
Но в целом, да. ДЕНС - ВСЕ! И мы только выиграли от этого!

Аноним 08/02/26 Вск 14:05:00 #428 №1513249

image.png

>>1513246
> x2 цена - 0.5 производительность
> x5 цена - 1.0 производительность

Больше похоже на то, что лох это тот, кто берет ддр5 по текущим ценам.
Надо было до зимы закупаться, надо было...

Аноним 08/02/26 Вск 14:13:41 #429 №1513251

>>1513242
>Чем бы еще его разделять.
Материнкой. У моей это есть, офк, на M2 слоты, но заодно можно разнести карты райзерами.
У меня правда AM5, я ХЗ, есть ли соответствующие платы под AM4.

Аноним 08/02/26 Вск 14:17:03 #430 №1513253

>>1513251
Про райзеры очень нехорошие вещи читал. Мол, 3.0 еще неплохо разделяется, а вот если в 4.0 слот две видеокарты вставишь через китайскую плату - никто гарантий не дает, что там ошибки не посыпятся. Сигнал чувствительный, каждый сантиметр кабеля может поднасрать. Пишут еще, с 5.0 совсем беда в этом плане.

Аноним 08/02/26 Вск 14:29:14 #431 №1513258

>>1513253
Твои знания устарели. С хорошими райзерами по стандартам типа окулинка проблем с четвёртой псиной нет. Вот с пятой да, но там проблема в цене.

Аноним 08/02/26 Вск 15:18:52 #432 №1513305

>>1513100
Oooof, хотеть! Вот это нужно
>>1513135
x299, при удачном раскладе можно найти на лохито за дешево, можно воткнуть много карточек под инфиренс, 256гб памяти ддр4 с 4-канале без компромиссов с фабраками и прочим. Главное нормальный проц с 44 линиями а затычки.
Но в играх относительно даже младшего x3d соснешь, хз можно ли будет нагуглить бенчи для них в наше время.

Аноним 08/02/26 Вск 15:21:53 #433 №1513308

Напомните что за материнка тут мелькала. Где было охулиард ddr5 слотов, и где один из производителей делал поддержку и udimm и rdimm

Аноним 08/02/26 Вск 15:23:42 #434 №1513309

>>1513308
> и udimm и rdimm
Ты в курсе что под них слоты и распиновка разные?

Аноним 08/02/26 Вск 15:28:30 #435 №1513314

>>1513305
>Но в играх относительно даже младшего x3d соснешь, хз можно ли будет нагуглить бенчи для них в наше время.
Можно, даже МК на Ютубе делал. Жить на платформе можно без проблем, у меня как раз такая. Только я её чисто под риг собирал. Не жалуюсь в принципе. Конечно лучше собирать под Эпики, и не первой версии или под новые Ксеоны, но там совсем другие деньги.

Аноним 08/02/26 Вск 15:42:15 #436 №1513336

>>1513309
Нет, не в курсе.
Тогда я не понимаю о чём тут говорили. Тут точно шла речь о том, что мол можно ставить обычные udimm, а потом после того, как "пузырь лопнет" (R)(C) закупить по дешёвке rdimm.

Аноним 08/02/26 Вск 15:54:52 #437 №1513364

image.png

>>1513209
Бляяять оно забило собой всю память и оставляет на систему 2врам+3.5рам, без учёта контекста и просирается на скорости 7Т/c.
Штош, перекачиваю на IQ2_M, хули ещё делать.

Бегло потестил кумерскую карточку. Проблема похоже в семплерах и пресете, со второго реролла ответа выдало такое название магазина, что я бля даже логи вам принёс. Треша конечно навалило, возможно из-за описания персонажа (3 пик), артхаус про Лару Крофт и коня генерировать отказался. Зато про торчей не отказался. Лучше бы отказался. (4 пик)

Аноним 08/02/26 Вск 15:55:55 #438 №1513366

>>1513314
Под риг у нее единственный недостаток - 3.0 стандарт псины, но он с лихвой компенсируется количеством линий. В бюджетном сегменте это топ, трипаки того же времени ужасны, а более новые очень дорогие.
Но вот для игр даже хз что там будет. У платформы память по скорости и задержкам фору современным ряженкам на ддр5 даст, но вот л3 кэш специфичен, и однопоток не быстрый.
>>1513336
Вангую поех спутал редкую udimm ecc, ограниченная поддержка которой есть в некоторых материнках, с популярной в серверах rdimm. Хз что там вообще можно будет закупить по дешевке до массового перехода на новый стандарт и утилизации старых серверов.

Аноним 08/02/26 Вск 16:06:47 #439 №1513376

image.png

>>1513364
Вас не коробит такая хуйня? Помнится, инструктировал модель, что мои персонажи - не женщины среднего возраста с голосами прокуренных блядей. Лишь 200B гиганты на серьезных щщах (и обычно лишь с ризонингом) справлялись корректно и переставали анимешных кошкодевок хриплыми и злыми.

Аноним 08/02/26 Вск 16:07:15 #440 №1513378

>>1513376
> переставали анимешных кошкодевок хриплыми и злыми.
переставали делать*

Аноним 08/02/26 Вск 16:11:08 #441 №1513384

>>1513366
> трипаки того же времени ужасны
По признаку?

Аноним 08/02/26 Вск 16:12:48 #442 №1513386

>>1513376
Конечно мне эта херня глаза мозолит. Но не так сильно, как "ЕгоMembership" "осколок бритвы" и прочее. Тем более, за столько прочитанного нейротекста уже внимания не обращаю.

Сейчас докачается IQ2_M и попробую на англюсике, авось даже логика появится в предложениях и не нужно будет по 6 минут один ответ генерировать.

Аноним 08/02/26 Вск 16:39:32 #443 №1513419

image.png

Помнится ИТТ спорили о возможности делать систему из нескольких ИИ, контролирующих друг друга. Так что же, будущее за "роем" из моделек?

Аноним 08/02/26 Вск 16:50:42 #444 №1513429

Какую модельку посоветуете для кума на 12vram+32ram ? Собрал себе пекарню и хочу вкусить этих ваших ЛЛМ :3

Аноним 08/02/26 Вск 17:04:01 #445 №1513451

>>1513429
Glm Flash разве что из последнего. Будет так себе. Для твоего железа мало что выходит. Ты никогда раньше не пользовался ллм? Может тогда Мистраль Немо 12б и Гемма 12б впечатлят

Аноним 08/02/26 Вск 17:06:22 #446 №1513461

>>1513429
Чтобы чето крутое тебе сочиняло текст про сисик-писик, надо в разы больше памяти.
Купи подпиську дипсика дешманского, вставь API-код в чат и балуйся с ним, пока китайский тов. майор все читает - толку больше, чем общаться с ИИ-карликами на микропенисной аппаратуре.

Аноним 08/02/26 Вск 17:06:35 #447 №1513462

>>1513429
Под кум-то? Мистраль 24b и его тюны. Тюны предпочтительнее:
https://huggingface.co/unsloth/Mistral-Small-3.2-24B-Instruct-2506-GGUF
https://huggingface.co/mradermacher/M3.2-24B-Loki-V1.3-GGUF
https://huggingface.co/bartowski/zerofata_MS3.2-PaintedFantasy-v2-24B-GGUF

Добавь еще 32гб RAM и получишь качество РП и кума на порядок выше: https://huggingface.co/unsloth/GLM-4.5-Air-GGUF

С 32гб ты застрял на старых моделях и ничего нового под такой конфиг не предвидится. Объем озу критически важен сейчас.

Аноним 08/02/26 Вск 17:18:03 #448 №1513479

>>1513384
По признаку тормознутой фабрики. В треде мелькало несколько эпиков 2-го поколения с 8 каналами рам, скорость там выходила заметно ниже ожиданий.

Аноним 08/02/26 Вск 17:20:22 #449 №1513480

>>1513419
Скорее всего, да. Маленькие модельки не сказать чтобы прям радикально проигрывают большим, если тонкости не брать во внимание. Их коллаборация волне себе перспективно выглядит. Ну, для кума разве что сомнительно, лол, а вот для многих других вещей - выглядит интересно.

Аноним 08/02/26 Вск 17:27:43 #450 №1513486

17020562283630.jpg

Мдааа, получил недавно относительно новую пекарню (с 5070 Ti на 16 гб, AMD Ryzen 7 7800X3D OEM и 32ГБ DDR5), думал ну щщщщас я помацаю пухлый цифровой писик нейровайфу, зашёл в тред почитать про всё это ваше колдунство и как-то жидко пукнув поймал уныние, что со своим железом могу максимум позволить себе ролёвку в блокноте лол, а губу-то раскатал

Аноним 08/02/26 Вск 17:29:08 #451 №1513487

>>1513479
я был один из них, при переходе на 4 епик со 2го получил +50% буст на моделях полностью влезающих в VRAM
поломанная-оператива-кун

Аноним 08/02/26 Вск 17:30:11 #452 №1513488

>>1513486
И чем тебе железа мало?

Аноним 08/02/26 Вск 17:31:05 #453 №1513489

про ECC UDIMM возможно тоже я писал, у меня несколько таких серверов. но никакую RDIMM мамки не поддерживают, только UDIMM

Аноним 08/02/26 Вск 17:32:35 #454 №1513490

>>1513486
> 16 гб
ну хуёво, конечно, что не 24 и не 32, но в принципе сойдёт.

Аноним 08/02/26 Вск 17:34:25 #455 №1513496

>>1513486
Утебя неплохой риг, 48 суммарки. Если пойдешь на Линукс и попросишь большую нейронку помочь, то может что интересное туда затолкаешь. Glm Air какой-нибудь. И другие варианты есть, большие локальные модели переоценены. Да, там круче все, но космическая стоимость рига прирост крутоты не окупает. У тебя вполне себе норм пекарня, ты же не собрался кумить 24 на 7. Надоест. Ну или у меня для тебя плохие новости, если собрался. Это уже психическое расстройство тогда.

Аноним 08/02/26 Вск 17:34:53 #456 №1513498

>>1513169
тыж пробовал llama-fit-params?
нечитайсразуотвечай

Аноним 08/02/26 Вск 17:39:29 #457 №1513505

>>1513486
>32ГБ DDR5
Не, ну тут ты конечно обосрамс. 64 минимум надо было.
>>1513496
>неплохой риг
Лол, уже рядовой игровой ПК называют ригом.

Аноним 08/02/26 Вск 17:41:36 #458 №1513508

>>1513496
>может что интересное туда затолкаешь. Glm Air какой-нибудь
Лул. Линукс конечно няша и умничка, но лишнюю оперативку он тебе не материализует. Для запуска эйра с нормальным контекстом в Q4 нужно 64гб ram.

Аноним 08/02/26 Вск 17:45:24 #459 №1513511

>>1513505
Технически же это риг все равно.

>>1513508
> не материализует
Это как посмотреть

Ну или будет без нормального контекста и обрезанный. Зато будет. Может, не лучшее решение, но попробовать можно. А так-то Геммы хватит, по сути.

Аноним 08/02/26 Вск 17:49:40 #460 №1513516

>>1513511
>Технически же это риг все равно.
Ну тогда у меня датацентр, тиер -2.

Аноним 08/02/26 Вск 17:50:26 #461 №1513518

>>1513486
Комп отличный, но для локалок нужно много памяти. Но у тебя тоже есть варианты
Например, это в IQ4S/QKS/QKM >>1513462 будет быстро работать. Если никогда не трогал нейровайфу или трогал только на говносайтах, то тебе точно понравится
Посмотри список средних моделей в шапке он еще актуален и у тебя все влезет легко на видеокарту в IQ3M и будет быстро работать

Аноним 08/02/26 Вск 17:51:17 #462 №1513519

>>1513516
У меня тир - 3.

Аноним 08/02/26 Вск 18:04:07 #463 №1513526

>>1513462
> https://huggingface.co/unsloth/GLM-4.5-Air-GGUF
> получишь качество РП и кума на порядок выше
Во втором кванте?

Аноним 08/02/26 Вск 18:06:53 #464 №1513527

>>1513526
Во 2 кванте скорее всего получишь хуй за щеку, но можешь попробовать. Тут много ценителей большого глм, который в основном на 2 кванте играют мимо

Аноним 08/02/26 Вск 18:13:02 #465 №1513539

>>1513086
У первого оварида-шиза.

Аноним 08/02/26 Вск 18:13:31 #466 №1513540

>>1513526
>Во втором кванте?
>Добавь еще 32гб RAM и получишь качество РП и кума на порядок выше
32+32=64. Это Q4_K_XL и 30к+ контекста.

Аноним 08/02/26 Вск 18:19:02 #467 №1513548

Аноны, а пробовал кто Gryphe’s Pantheon 24B? Отзывы почитать бы

Аноним 08/02/26 Вск 18:21:56 #468 №1513553

>>1513065
Субъективщина/семлеры/карточка/рандом. Хуй знает, что там у тебя. Но 6 квант нет смысла качать, там не будет сильного прироста
>>1513057
Степа ко количеству скачиваний обогнал Квен Некст Кодер. Учитывая, что прогеры, наряду с кумерами, это главные потребители локалок, то это хороший показатель
>>1513021
Принеси скрины, интересно
>>1513086
Игнорирование. Проигнорили бедных анончиков полумертвом треде

Аноним 08/02/26 Вск 18:23:08 #469 №1513556

>>1513540
> Это Q4_K_XL и 30к+ контекста.
> Q4_K_XL 67.7 GB
30к+ контекста в 2 гб? В инт4 что ли?

Аноним 08/02/26 Вск 18:30:36 #470 №1513567

>>1513556
Ну ты с математикой дружишь или где? 12+64=76гб. Квант Q4_K_XL от ленивцев весит 68гб. 76-68=8гб. Вот это тебе на контекст, на твою ОС и на открытый браузер. Я так и гонял в свое время, на 12+64 с 30к квантованного контекста на пингвине. Оставалась пара гигов свободных даже.

Аноним 08/02/26 Вск 18:31:37 #471 №1513570

>>1513540
Сейчас даже 32гб докупать это дорого. А какие скорости будут на DDR4 и старой видюхе? Ради 4т/с не хочется даже напрягаться

Аноним 08/02/26 Вск 18:33:41 #472 №1513573

>>1513567
> на твою ОС и на открытый браузер
-6 гб, ты там на хп до сих пор сидишь что ли?

Аноним 08/02/26 Вск 18:35:35 #473 №1513576

>>1513570
>какие скорости будут на DDR4 и старой видюхе
~8.5 тс на старте и ~5.5 тс на полностью забитом 30к контексте. Это на 3060 12гб и 64гб ддр4.

>>1513573
>ты там на хп до сих пор сидишь что ли?
>на пингвине

Аноним 08/02/26 Вск 18:48:12 #474 №1513597

>>1513487
> +50% буст на моделях полностью влезающих в VRAM
Тут еще приколы с периферией получаются. Рофлы про то что на старой разяни тыквится периферия не рофлы а суровая реальность не только в десктопах.

Аноним 08/02/26 Вск 19:24:28 #475 №1513623

фыва.jpg

65f9299034754.png

а существуют низкопрофильные райзеры, влезающие под установленную видюху? что-то типа пикрила, только ещё ниже, и с намного более длинным шлейфом

Аноним 08/02/26 Вск 19:35:11 #476 №1513632

> moved const llama_model & model; around to follow qwen3next format and see if it cna pass the -Wunused-private-field error
> return ggml_tensor * pair in kda_autoregressive and kda_chunking as in ngxson's Qwen3Next improvement

я нихуя не понял но походу 2 дня назад в билде b7957 опять что-то поправили, щя чекну что оно скажет про песню

Аноним 08/02/26 Вск 19:39:45 #477 №1513636

Untitled.png

бля у меня на капче обезьяна дрочит
спасибо Абу, 16 лет, итоги

Аноним 08/02/26 Вск 19:41:59 #478 №1513640

>>1513636
Тематика треда так то. Какие проблемы

Аноним 08/02/26 Вск 19:57:08 #479 №1513651

3.png

>>1511199
после последнего обновления: правильно написало песню, насрало емодзями, не было иероглифов.
лан будем считать что квен-некст починили, емодзями квены всегда срали

Аноним 08/02/26 Вск 20:01:12 #480 №1513659

>>1513651
Газонюх квеноюзер спок. Никто не заметит разницу, ведь квен юзают изначально квантованные минимум в iq2 юзеры

Аноним 08/02/26 Вск 20:05:47 #481 №1513665

4.png

>>1513659
хрюкни

Аноним 08/02/26 Вск 20:07:04 #482 №1513666

>>1513659
Квеноненавистник, лол

Аноним 08/02/26 Вск 20:07:09 #483 №1513667

>>1513665
Что и требовалось доказать. Он даже не понял что речь шла не про квантование модели, а ее юзера...

Аноним 08/02/26 Вск 20:31:09 #484 №1513679

image.png

>>1513033
Нажми "Neutralize Samplers"
Выставь официальные параметры рил.
И в самом низу нажми "Load default order" на всякий.
У васян-тюнов могут быть другие параметры.
>>1513462
>M3.2-24B-Loki-V1.3-GGUF
>MS3.2-PaintedFantasy-v2-24B-GGUF
По моему опыту - кал. Все форматирование просирает и убитые мозги. Если нужен кум - abliterated либо менее кумовое - Hearthfire-24B.

Аноним 08/02/26 Вск 20:49:44 #485 №1513689

>>1513679
>убитые мозги
>рекомендует abliterated

Аноним 08/02/26 Вск 21:16:07 #486 №1513706

>>1513689
Все верно.

Аноним 08/02/26 Вск 21:16:24 #487 №1513709

изображение.png

>>1513623
Нет, там места никак не хватит. Можно втыкать мешающую карту в переходник типа пикрил.
>>1513636
>Абу, 16 лет
Абу больше чем 16.

Аноним 08/02/26 Вск 21:21:49 #488 №1513720

>>1513623
Как минимум есть Г-образные, где шлейф сразу вбок уходит.

Аноним 08/02/26 Вск 21:22:35 #489 №1513723

1658445916597.png

>>1513623
Есть низкопрофильные, которые дают минимальный подъем над слотом типа пикрел, но под карточку даже их не подсунуть.
Просто выноси сразу все карточки на райзерах, можно просто немного поднять выше уровня процессорного кулера и расставлять вдоль, как в майнерских фермах.

Аноним 08/02/26 Вск 21:27:39 #490 №1513735

>>1513723
> под карточку даже их не подсунуть.
хуёво. не хочу опен фрейм собирать ((9

Аноним 08/02/26 Вск 21:32:52 #491 №1513744

>>1513723
И сколько стоят такие райзеры и где их взять, можно ссылку?
Я всмысле работающие 5.0 не с шлейфом, а с проводо-подобным шлейфом в сеточек.
по форме (Г или ещё какие-образные) не важно, лишь бы были больше чем 10-20 см.
Я сколько не искал - вижу только шлейфы. И ещё лучше, если они по питанию развязаны.

Аноним 08/02/26 Вск 21:40:40 #492 №1513758

>>1513744
Во всяких озонах.
https://ozon.ru/t/6d3a5ws
https://ozon.ru/t/Qi1UTu1
Развязку по питанию можно делать отдельной платой >>1513709

Аноним 08/02/26 Вск 21:48:02 #493 №1513767

>>1513758
А там прям развязка, или это возможность воткнуть 6-пиновый? А этот 6-пиновый не испарится (хотя, на карточке же есть)?

MCIO вроде бы же и так без электрического, верно?
Что-то ещё длина кабеля не указана.

Спасибо большое. Я просто у китайцка только за 15+к видел, только шлейфы везде.

Аноним 08/02/26 Вск 21:49:17 #494 №1513770

>>1513735
Собери клозед фрейм, любой каркас можно обшить листовым металлом, сеткой, оргстеклом или чем угодно еще. Куча контор, которые с радостью нарежут в размер за разумную плату.
>>1513744
Конкретно эти - https://aliexpress.ru/item/1005009076553179.html есть и 4.0, они дешевле
>>1513767
Первый по той ссылке если что огромный, но развязка там действительно есть что плюс.

Аноним 08/02/26 Вск 21:51:10 #495 №1513776

Разметка на степе ломается постоянно...
Если б не это было бы что тестить, а так неюзабельно без ризонинга

Аноним 08/02/26 Вск 21:53:10 #496 №1513781

>>1513776
Скилишью. С Нюней на проводочке, у него все робит

Аноним 08/02/26 Вск 21:55:28 #497 №1513783

b3e8683e10735de697b4fdbb60290353.JPG

d18c527875f7fae15af6419c6b5c5cf6.JPG

f42a1041d7518c7686b4eb3cee31d4ef.JPG

2d3c298cc7f5016aae3d88ac788aa573.JPG

>>1513767
>А там прям развязка
Судя по переключателям, да. Но надо смотреть дорожки самому.
>А этот 6-пиновый не испарится
Испариться ли разъём, рассчитанный на 150 ватт, от нагрузки на 75 ватт? Думаю, протянет, если не нагружать на 300%.
>>1513770
>или чем угодно еще
Фанерой же. Или ДСП.

Аноним 08/02/26 Вск 21:57:08 #498 №1513785

>>1513781
У квеношиза тоже всё робит.

Аноним 08/02/26 Вск 21:59:42 #499 №1513788

>>1513785
Справедливо, но потерпишь. Пресет я не выпрашивал, к тому же он утверждает что Эйр лучше Стёпы, я ему верю

Аноним 08/02/26 Вск 22:00:44 #500 №1513790

>>1513783
Лолбля, оно еще на термосоплях там чтоли? Моар карательного моддинга. Алсо вспомнился "риг" работяги из 40-гиговых sxm A100 просто лежащих на деревянном стеллаже.

ПЕРЕКАТ Аноним OP 08/02/26 Вск 22:07:13 #501 №1513799

ПЕРЕКАТ
Без происшествий

>>1513797 (OP)

ПЕРЕКАТ

>>1513797 (OP)

ПЕРЕКАТ

>>1513797 (OP)