Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №123 /llama/

Аноним 17/04/25 Чтв 17:13:21 #1 №1159889

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

17447508048920.mp4

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1149538 (OP)
>>1142778 (OP)

Аноним 17/04/25 Чтв 17:17:41 #2 №1159898

>>1159892 →
> Ну значит ремонтники хуи, у них стата искажена
Почему хуи, нормальные ребята. Они просто видят только то что к ним поступает, а какая эта доля от видеокарт в обороте - оценить не способны. Только спекулировать или специально врать для бейтов.
А трясунам - не нужна ни правда, ни какие-то данные. Им нужен хайп и удобное мнение, которые удачно лягут на их манямир и оправдания отсутствия.

Аноним 17/04/25 Чтв 17:18:54 #3 №1159901

>>1159898
перекуп спок

Аноним 17/04/25 Чтв 17:20:47 #4 №1159903

1677498919086.gif

>>1159901
Не трясись, может в следующем году амд что-нибудь доступное для работяг релизнет (нет). А перекупов осуждаю.

Аноним 17/04/25 Чтв 17:24:12 #5 №1159906

Анон с 3x3090 и Виндой. Короче надоело мне искать, почему винда в такой конфигурации нормальной скорости не даёт, буду ставить Линукс, пока второй системой. Опыта нет правда, разве что VPS-ки под хостинг и впн брал. Слышал, что Убунта самая простая в освоении, но выслушаю любые советы с учётом того, что мне нужен сервер под ЛЛМ. Если есть гайды, как всё ставить и настраивать под ЛЛМ с нуля - будет вообще замечательно.

Аноним 17/04/25 Чтв 17:25:53 #6 №1159910

Кто круче старик Хендерсон или старик Хемлок?

Аноним 17/04/25 Чтв 17:31:38 #7 №1159918

>>1159906
Ставь убунту, потом ставь куда тулкит и драйверы по инструкции отсюда https://developer.nvidia.com/cuda-downloads (deb network).
Потом можешь скачать убабугу/табби и использовать их ванклик-инсталл скрипты, только не bat а sh. Для максимальной скорости в жоре - клонируешь репу и действуешь по инструкциям https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md#cuda придется поставить make, gcc, cmake, хидеры и прочее, но это в целом база линукса. Можешь скачать готовые бинарники (не обязательно заведутся и будут шустрыми), можешь точно также скачать кобольда.
Сложно будет только привыкнуть к поведению и парадигме самой системы. В остальном для нейронок это просто рай вместо проблемного пердолинга на шинде.

Аноним 17/04/25 Чтв 17:36:53 #8 №1159922

>>1159910
Шатал их обоих своим обильным сперматозоидом.

Аноним 17/04/25 Чтв 17:39:44 #9 №1159928

>>1159906
Ставь убунту, остальное все красноглазое и ненужно. Сам на дебианах сидел, щас вообще на калилинухе, новый комп буду заводить на убунте. Ну и по работе убунта бай дефолт всегда была. Настолько некрасноглазая, что подхватила все поприетарное железо ноута хуявей, которое винда 10я не смогла, включая мультитач экран и тачпад. С родным UI даже понятнее винды, обычная тяночка "интернетик+вордик" может вообще никогда в консоль не лазить.

пока я писал, >>1159918 анон все по пунктам раскидал.

>В остальном для нейронок это просто рай
Однозначно, только для стейблдифьюженов нехватает фотошопа мощно. Я раньше думал что гимп просто НЕОСИЛИЛ, но заставив себя погрузится и поработать - ляяя... какая же уродская говнятина, просто эталонное представление о (((красивом и удобном))) красноглазого пердольщика. Для последних наверное до сих пор 32битные сборки собирают, потому что этим унтерам и в 2025 512ram пентиума4 хватает на все.

Аноним 17/04/25 Чтв 17:42:49 #10 №1159932

>>1159844 →
>>1159847 →
Душить память имеет смысл только на 3090 и только если PL уже задушен, потому что если память не душить, то она начинает хавать 100+ вт и на сам гпу вообще нихуя не остается (из выделенных 220-230).

Аноним 17/04/25 Чтв 17:45:24 #11 №1159935

>>1159847 →
Да кстати, карточка будет простаивать если ты делаешь оффлоад на цпу, если все выгружено то карта нихуя не простаивает.

Аноним 17/04/25 Чтв 17:46:35 #12 №1159937

>>1159932
>Душить память имеет смысл только на 3090 и только если PL уже задушен, потому что если память не душить, то она начинает хавать 100+ вт и на сам гпу вообще нихуя не остается (из выделенных 220-230).
То есть по-хорошему тестить надо - чего и сколько. Ладно, учтём.

Аноним 17/04/25 Чтв 17:52:37 #13 №1159951

Продам мать за промпт для рп на гемме без цензуры с вульгарным языком типа пизда хуй вместо кора и мембера

Аноним 17/04/25 Чтв 17:57:20 #14 №1159966

>>1159906
А WSL2 че? Меня вот ГПТ туда послало. Можно иметь терминал убунты из под винды.

Аноним 17/04/25 Чтв 17:59:24 #15 №1159970

>>1159906
У нвидиа всегда были проблемы с дровами на линукс, но под нейронки наверное все должно быть норм.

В целом, все линуксу +/- одинаковые, за исключение экзотических случаев. Бери убунту, linux mint или debian, последний самый стабильно работающий, но в целом все три - почти одна хуйня, кроме набора пакетов (программ).

Инфу бери с официального сайта дистрибутива, который будешь себе ставить. Еще можно с wiki.archlinux.org , оно, в принципе, универсальное, у арча из специфических штук только способ установки и пакетный менеджер (хуйня, которая программы устанавливает).

Техника безопасности - не работай из под рута (администратора), не вбивай непонятные команды в терминал, на всякий случай всегда можно погуглить. Программы, по возможности, ставь из официальный репозиториев своего дистрибутива, но абсолютно точно не будет лежать совсем все, того же кобольда качай с гита и не парься, например.

Аноним 17/04/25 Чтв 18:06:40 #16 №1159981

1744902399629.png

>>1159951
На русском с этим никаких проблем. И пёзды, и пиздечки, и хуи дрочёные, всё на месте.

Аноним 17/04/25 Чтв 18:08:24 #17 №1159984

>>1159928
>С родным UI даже понятнее винды, обычная тяночка "интернетик+вордик" может вообще никогда в консоль не лазить.
А удалённый доступ к этому UI из-под Винды возможен? Что-то типа RDP. В принципе это-то не обязательно, просто хочется с удалённого компьютера динамически отслеживать загрузку ГПУ и всего такого.

Аноним 17/04/25 Чтв 18:15:59 #18 №1159989

>>1159981
Зачем ты лоботомируешь геммочку русиком?

Аноним 17/04/25 Чтв 18:16:00 #19 №1159990

>>1159984
>А удалённый доступ к этому UI из-под Винды возможен?
SSH через встроенный клиент, только галочку поставить да конфиг заполнить.

Аноним 17/04/25 Чтв 18:20:19 #20 №1159996

>>1159906
Если будешь ставить дистр для особо одаренных (Ubuntu) то ни в коем случае не ставь дефолтный UI (гном), ставь шестые кеды, ну то есть кубунту. От гнома будешь плеваться смачно, далеко и с пенкой. А когда поставишь кеды, будешь плеваться от подзалупной хуиты которая идет на всех вариантах убунты именуемой snap.
Если хочется без особой ебли, то могу посоветовать посмотреть разве что федору, она по умолчанию дрова проприетарные не поставляет, как и дебиан впрочем, но в отличие от последнего пакеты там текущего десятилетия, и от самого пакетного менеджера тухлятиной не тянет.

Но сам я сиже на арче бай зе вей

Аноним 17/04/25 Чтв 18:24:54 #21 №1160003

>>1159996
Минт еще есть. Ну или кубунта, да.
Обычная убунту с ее гуем убогая

Аноним 17/04/25 Чтв 18:28:47 #22 №1160011

>>1159903
Причина тряски щеночка?

Аноним 17/04/25 Чтв 18:33:05 #23 №1160017

>>1160011
Гемма в отказ уходит.

Аноним 17/04/25 Чтв 18:42:32 #24 №1160031

1.gif

>>1160017
Какой-то знаменитый трясун в руках живодёров, походу.

Аноним 17/04/25 Чтв 18:45:46 #25 №1160038

>>1159970
>или debian
Не бери. Это некрокал, который в 202х только для особо идейных. Сам на дебиане сидел в 2019-2022, но недавно вот снова с винды перешел и сгорел - софт прошлого десятилетия, PPA из коробки нет, питон 3.10 поставить больно даже, даже судо устанавливать нужно. Драйверов и кодеков тоже нет, ниче нет - ПОТОМУ ЧТО СООБЩЕСТВО, ПОТОМУ ЧТО ТРУ ОПЕНСОРЦ, со всем нужно поебаца.
Я люблю опенсорс всей душой, но когда нужно РАБОТАТЬ, а тебе дебиан ебет мозги... ну такое.

>>1159996
>ни в коем случае не ставь дефолтный UI (гном)
>От гнома будешь плеваться смачно, далеко и с пенкой.
Соглашусь мне тоже гном убунтовский не нравится. Но он максимально коробочный и понятный для вкатуна, любое другое VE уже риск пердолится.
>ставь шестые кеды
Ну кеды тоже кал, ЖРУТ ресурсы, на первый взгляд даже красиво, попытка в винду и макОС, но как и в любой линукс ((красоте)) это обычно оборачивается что рано или поздно надо что то сделать нестандартное, и красота разваливается как карточный домик, сыпя непонятными ошибками, багами и уродством.

Крч анон если хочешь использовать линукс - убунту с родным гномом. Если совсем не нравится - возьми Xubuntu, XFCE годная альтернатива. Если хочешь попердолиться и вкусить линукс - то голая накатка системы и i3wm поверх. Работает как часы и грузит 190мб в простое RAM.

Аноним 17/04/25 Чтв 18:54:39 #26 №1160052

>>1159910
Прекрати пожалуйста!

Аноним 17/04/25 Чтв 19:04:54 #27 №1160060

Лично я сидел на линуксе минт, ибо косплеит шиндовс.
В целом линукс это какая то попаболь, если ты не привык над системой заморачиваться. Не для сиволапого быдла типа меня. Когда только начал пробовать использовать в нем бесило буквально все, особенно невозможность установить самые базовые и банальные вещи в один клик без коммандной консоли

Аноним 17/04/25 Чтв 19:08:39 #28 №1160064

>>1160060
> невозможность установить самые базовые и банальные вещи в один клик без коммандной консоли

Да, написать sudo apt install хуйнянейм1 хуйнянейм2 хуйнянейм3
гораздо тяжелее чем:
- найти сайт без троянов
- скачать троян
- скачать майнер
- скачать кряк под это все под vpnом
- запустить .msi пакет и сказать ДА
- выбрать папочку
- выбрать попочку
- разрешить добавить пункт в проводник
- отказаться от спама
- почитать лицензионное (нет)
- молиться что не проебал снятие галочки "установить ябраузер, тащмайора и пикабу"
- подождать, перезагрузится
- повторить

Аноним 17/04/25 Чтв 19:11:10 #29 №1160066

>>1160038
>Крч анон если хочешь использовать линукс - убунту с родным гномом.
А что это за Proxmox, который куча обзорщиков нейронок ставит? Стоит этим заморачиваться?

Аноним 17/04/25 Чтв 19:15:00 #30 №1160073

>>1160064
Хз че ты там такое скачиваешь, раз с такими проблемами сталкиваешься, лично у меня подобной хуйни не было. Да и может перед скачиванием чего либо стоило предварительно всплыть из нижнего интернета?

Аноним 17/04/25 Чтв 19:20:32 #31 №1160078

image

Кту тут спрашивал, для залетухенов. Снова вкину свою кал-лекцию =))
Промты, логи, пресеты, в том числе на гемму, карточки.
Своими делитесь интересными, не жмоть-тесь.
https://pixeldrain.com/l/47CdPFqQ

Аноним 17/04/25 Чтв 19:26:50 #32 №1160089

>>1160038
>максимально коробочный и понятный для вкатуна
Ты только что кеды. Гном это косплей под винду для планшетов.
>Ну кеды тоже кал, ЖРУТ ресурсы, на первый взгляд даже красиво, попытка в винду и макОС, но как и в любой линукс ((красоте)) это обычно оборачивается что рано или поздно надо что то сделать нестандартное, и красота разваливается как карточный домик, сыпя непонятными ошибками, багами и уродством.
Нихуя подобного. Нихуя они не жрут, тем более если сравнивать с современным гномом (оба wayland). И они даже не падают, представляешь? 6 кеды это уже не 4. Единственное что действительно не стоит пытаться делать на кедах - менять дефолтную тему на васянскую, да и то максимум что ты получишь - нечитаемые иконки. В отличие от ебучего гнома, в котором чтобы просто отображался трей как в винде, нужно ставить васянские РАСШИРЕНИЯ блядь. И выглядеть они будут соответствующе.
В остальном кеды это лучшее окружение для виндоподобного использования, всё просто работает, если не принимать во внимание некоторые приколы которые могут возникать с приложениями на гтк (GNOME toolkit) типа всратого курсора. Кеды не ставят дефолтом до сих пор просто потому что у гнома стабильное расписание релизов, совпадающее со многими дистрами.

Аноним 17/04/25 Чтв 19:41:43 #33 №1160114

Суп, генерящие аноны, стоит ли пробовать запускать Ruadapt Qwen в Q2_K? Или вынести один слой на RAM, но запускать в Q3_K_M? Хочу попробовать обкумиться на русском.

Аноним 17/04/25 Чтв 19:52:20 #34 №1160131

Попробовал c4ai-command-r-08-2024-Q4_0 на русском. Понять не могу, толи неправильные настройки использую, то ли его хвалили не за русский язык. Путает падеши, склонения, даже время иногда коверкает. Совсем не тот экспириенс, который ожидал.

Аноним 17/04/25 Чтв 19:56:19 #35 №1160137

>>1160114
>Суп, генерящие аноны, стоит ли пробовать запускать Ruadapt Qwen в Q2_K
Я его пробовал в гораздо более высоком кванте. Хуита. Русский хороший, но и только. Ни ума, ни фантазии.

Аноним 17/04/25 Чтв 20:00:18 #36 №1160143

>>1160137
А что посоветуешь на русском для кума? есть 16G VRAM.

Аноним 17/04/25 Чтв 20:02:23 #37 №1160149

Посоветуйте нормальную сетку для кодинга 12-32b, чтобы небыло ризонинга, ато ждать по пол часа пока она думает еще тот заеб.

Аноним 17/04/25 Чтв 20:15:35 #38 №1160170

>>1159932
В целом-то понятно, но даже в таком случае скорость не особо просядет, а вот от памяти сразу проявится. Лучше тогда ограничивать частоты и делать на них андерволь, не просто снижать поаверлимит.
>>1159935
Если карточки больше одной то при генерации там не полная загрузка. Но там речь про другое, у тебя за 10-20-50 секунд сгенерировался ответ, а потом минуту-другую простаивает, пока ты спокойно читаешь и думаешь об ответе.
>>1159966
Wsl - база, но можно ахуеть с медленной загрузки модели из-за тормознутого доступа к основным дискам. Если проблема именно в выгрузке врам драйвером - там тоже она будет.
>>1159970
> нвидиа всегда были проблемы с дровами на линукс
Не, все ок там было всегда. Была тряска о том, что амд релизила дрова с открытыми исходниками, а хуанг - бинарники. Чсх, сейчас и это изменилось и основным драйвером под линукс является как раз открытый.
>>1160064
Двачую. Для неофита это может быть совсем неинтуитивно и в новинку, но на самом деле невероятно удобно. До тех пор пока нужный софт есть в репе, когда нужная версия отсутствует, вот там уже позавидуешь шинде
>>1160078
Автор - молодец что все это выкладывает, но выскажусь о специфичности многих промтов-карточек и т.д. Могут быть заточены под специфичный формат рп или содержать недостатки.

Аноним 17/04/25 Чтв 20:18:01 #39 №1160173

>>1160064
Сижу на винде со времён релиза вин93. Никогда не юзал ни один антивирь, система никогда не заражалась вируснёй. В винде вся защита есть изкоробки и её настроить 1 раз. Системы никогда не крашились. Видел только 2 экрана смерти за всю историю из-за дров видяхи. Юзал только лицухи. До хромиума сидел на ИЕ, после на ангуглед. Занимаюсь, ВНЕЗАПНО, безопасностью у одного крупного провайдера. Дело в тебе и твоих руках из жопы, что тебе требуется ограничивать себя из-за шизы качать говно подряд и тут же его жрать. Понимаю твоё стремление к смирительной рубашке, уважаю решение.

Аноним 17/04/25 Чтв 20:30:47 #40 №1160183

>>1160170
> > нвидиа всегда были проблемы с дровами на линукс
> Не, все ок там было всегда.
Вот нихуя. Че там раньше было ручаться не буду, не помню и не пользовался, но невидия сейчас вообще забила на современный линукс десктоп и их карточки под wayland работают хуево. Вот только относительно недавно разрабы окружений это научились фиксить костылями со своей стороны.

Аноним 17/04/25 Чтв 20:30:56 #41 №1160184

>>1160173
>со времён релиза вин93.
Это Windows 3.11 что ли? У меня она тоже первой виндой была, но никогда не слышал, чтобы её так называли. У меня, кстати, вирус был, достался вместе с первым б/ушных компом, но он ничего вредоносного не делал, только прописывал себя в бут-сектора.
мимо-олд

Аноним 17/04/25 Чтв 20:37:20 #42 №1160196

>>1160183
А в чем это выражается? Гейминг на прыщах не пробовал ибо это за гранью, возможно там действительно все хуево. Но именно глюков интерфейса или проблем с кудой не удалось встретить, как и массовых жалоб на них. Даже с блеквеллами драйвером обосрались не так сильно как в шинде.

Аноним 17/04/25 Чтв 20:43:54 #43 №1160204

>>1160143
>А что посоветуешь на русском для кума? есть 16G VRAM.
Omnino-Obscoenum-Opus-Magnum-MN-12B конечно. Подбери такой квант, который вместе с кэшем (пусть даже квантованным в q8) целиком влезет во врам и обдрочись. Настройки сэмплеров бери от геммы третьей.

Аноним 17/04/25 Чтв 20:52:07 #44 №1160208

>>1160204
>Omnino-Obscoenum-Opus-Magnum-MN-12B
Спасибо, анон, попробую, и тебе хорошего фапа.

Аноним 17/04/25 Чтв 21:30:27 #45 №1160302

Народ, объясните неразумному, как добавлять разные пресеты в Таверну? Например те, что в ссылке в шапке треда.

Аноним 17/04/25 Чтв 21:30:36 #46 №1160303

Мужики, скиньте сайт где карточки персонажей и лоры есть, пожалуйста. Раньше когда то в закладках держал, но случайно удалил.

Аноним 17/04/25 Чтв 21:34:18 #47 №1160315

>>1160302
В настройках где пресеты выбираются справа от выпадающего списка есть кнопочки, вот там.
>>1160303
Ленивая ты жопа, смотри сюда >>1159889 (OP)
> • Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org

> лоры
Лорбуки там же, лоры-адаптеры https://huggingface.co/

Аноним 17/04/25 Чтв 21:37:20 #48 №1160325

>>1160315
спасибо

Аноним 17/04/25 Чтв 22:07:51 #49 №1160407

>>1160315
спасибо, мил человек

Аноним 17/04/25 Чтв 22:25:13 #50 №1160459

>>1160407
Дед, тебе кто в дом престарелых интернет провёл?

Аноним 17/04/25 Чтв 22:38:50 #51 №1160496

Завел DeepSeek V3 0324 через OperRouter (1000 запросов в день который), столкнулся с проблемой: роллы оч часто повторяются (они практически идентичными могут быть раза 3-4 подряд, меняются только отдельные слова). Пробовал штраф за повтор поднимать - не особо помогло. Мб знает кто че с этим делать

Второй оффтоп вопрос
>>1160204
Сколько этому магнуму контекста максимум дать можно?

Аноним 17/04/25 Чтв 22:45:00 #52 №1160526

Сильная вообще будет разница по скорости у 3090 и 5060?

Аноним 17/04/25 Чтв 22:47:36 #53 №1160537

>>1160496
>Сколько этому магнуму контекста максимум дать можно?
32к держит вроде, больше не пробовал.

Аноним 17/04/25 Чтв 22:48:31 #54 №1160542

>>1160526
>Сильная вообще будет разница по скорости у 3090 и 5060?
Очень сильная, когда у 5060 врам кончится :)

Аноним 17/04/25 Чтв 22:50:10 #55 №1160547

>>1159906
если не собираешься ничего обучать - ставь wsl2, ебли немного меньше, по функционалу практически ничем не отличается и винда под рукой, запустил сервак на wsl из под винды спокойно подключился, никакой ебли.
убунта с интерфейсом то еще говнецо, особенно если будешь накатывать на hdd, как я (ни в коем случае не повторяй), будет переодически крашить систему при 100% нагрузке на жесткий.

Аноним 17/04/25 Чтв 22:51:22 #56 №1160548

>>1160542
Ну а если без учета врама, 5060 вообще сильно шустрее будет или оно того не стоит?

Аноним 17/04/25 Чтв 22:53:09 #57 №1160551

>>1160496
>OperRouter
кстати да, там какая-то говномоделька крутится. когда катаю у себя локально DeepSeek-V3-0324-UD-Q2_K_XL - ответы совершенно иные, намного лучше, с логикой все в порядке, разметка тоже на месте.

Аноним 17/04/25 Чтв 22:54:28 #58 №1160553

>>1160551
Мб-мб. Локально я со своей 3080 на 10 гиг я вместо дипсика только диптроут могу сделать, поэтому питаю надежду что найдется магический ползунок

Аноним 17/04/25 Чтв 23:02:11 #59 №1160579

>>1160526
>>1160548
В сд и подобных, где упор в чип - лишь на 10% быстрее 4060ти, это примерно 60-70% от 3090, в ллм ожидается ~60% от 3090, может чуть больше если хорошо погнать врам и накатить оптимизации под блеквелл. Офк это оценка по графикам из обзоров и сравнение с другими карточками, разумеется нужно чтобы кто-то ее купил и полноценно провел нужные тесты.
Разница врам в 1.5 раза, может быть оче существенно. Вот и сам думай, 5060 ти не такая позорная как 4060 с тормознутой врам, но и звезд с неба не хватает.

Аноним 17/04/25 Чтв 23:09:59 #60 №1160609

>>1160579
>Разница врам в 1.5 раза, может быть оче существенно. Вот и сам думай, 5060 ти не такая позорная
А он о Ti не упоминал.

Аноним 17/04/25 Чтв 23:21:13 #61 №1160635

>>1160579
Звучит вкусно и не грустно.

Аноним 17/04/25 Чтв 23:36:04 #62 №1160691

>>1160609
> А он о Ti не упоминал.
Зачем нужно это 8-гиговое недоразумение в 2025 году, особенно в применении к ии?
>>1160635
Вкусно это про 5090, вот где йоба. Плохо что уже 5080 достаточно сильно от нее отстает, тут 100% можно надеяться на какую-нибудь ти/супер, что займет место между ними и будет иметь 24+ гигов.

Аноним 17/04/25 Чтв 23:41:57 #63 №1160712

Мистраль 24б й4 будет сильно лучше Гемма 2 27б й3? Она отлично летает на 8-15 токенах. Или просто обновиться до Гемма 3?

Аноним 17/04/25 Чтв 23:44:30 #64 №1160723

изображение.png

>>1160691
>Вкусно это про 5090
По нынешней цене уже нихуя не вкусно. Проебал я момент, что тут сказать.

Аноним 17/04/25 Чтв 23:47:24 #65 №1160732

>>1160496
> Завел DeepSeek V3 0324 через OperRouter
Если free, то сочувствую. У нормальной нет проблем.

Аноним 17/04/25 Чтв 23:47:24 #66 №1160733

>>1160723
>По нынешней цене уже нихуя не вкусно. Проебал я момент, что тут сказать.
Ну это наёбка, доллар-то падает. Будут ещё по 300к.

Аноним 17/04/25 Чтв 23:49:13 #67 №1160739

>>1160732
free конечно... У меня не настолько много деняк)) Я закинул туда 10 баксов чтобы запросов больше в день давало, но кто ж знал что роллы будут работать как говно. Там из бесплатного альтернатив нормальных нет как понимаю?

Аноним 17/04/25 Чтв 23:55:13 #68 №1160756

image.png

>>1160723
лолчё, щас бы на скаммаркетплейсе смотреть что-то

Аноним 17/04/25 Чтв 23:56:16 #69 №1160758

>>1160723
При нынешней цене только и остается что сношать старушек 3090, если ты не наносек. Это с точки зрения мощности самого девайса.

Аноним 18/04/25 Птн 00:00:42 #70 №1160776

>>1160733
Наивный.
>>1160756
Тащемта там честно за 315к (300 для анальных рабов) отдавали. Так что у тебя оверпрайс.

Аноним 18/04/25 Птн 00:17:46 #71 №1160826

>>1160776
>Наивный.
Падает-падает. Правда ходят слухи, что в связи с падением цен на нефть это скоро изменится, но я больше доверяю возможностям отечественного центробанка - он и по 50 сделать может.

Аноним 18/04/25 Птн 00:22:37 #72 №1160835

>>1160173
>Сижу на винде со времён релиза вин93
я помладше, начинал с XP, 2004й
>Никогда не юзал ни один антивирь
сейм (ну вообще юзал, но это было из разряда касперский/аваст с диска "199 программ", еще до интернетов. Он раздражал и нагружал систему, так что я его быстро удалил)
>система никогда не заражалась вируснёй
Аналогично, достаточно было поставить галочку "показывать расширения файлов" и не запускать мутные .exe с иконкой просто джипега.
>Системы никогда не крашились.
Вот тут не верю, 95-98-МЕ крашились как не в себя по дефолту. 2000 и ХР еще относительно стабильные, а вот семерка была первой по настоящему стабильной.

Я не спорю что винда МОЖЕТ быть безопасной системой, и вирусы и блокеры ловят реально животные на юзере. Но только как ты сказал - в случае всех систем безопасности активных и нормальной лицухи. И вот тут мы как раз и делаем сальто, упираясь в кейс разве что корпосектора с лицензионным автокадом и прочих проф применений. У обычного же юзера всегда 2-3 пиратки чего либо, что множит на ноль безопасность, а если без пираток и не платить - то проще реально убунта с опенсорцем.

Моя главная претензия к мелкософту - что они с каждым релизом руинят привычный опыт и добавляют в систему говна. 7ка была золотой, с 10кой ранних версий (особенно LTSC без всяких кортан) можно было уютно жить, 10ка поздняя - уже ощущается как "мусорная система", в которой ты не особо что то контролируешь. 11ю я пробовал на корпоноуте, и это пизда, так жить нельзя.
А этой осенью поддержку 10й винды прекратят, так что я снова заранее вернулся на линукс и всем советую. Тем более для мл и всяких айти штук (в винде это больно делать, а wsl это мразь мочи говна мочи). А винда пусть будет на втором ссд как мусорка для торрентовых игорь и солидворксов.

>>1160089
>6 кеды это уже не 4
Мб ты и прав, даже интересно стало снова попробовать. Но тайловые манагеры настолько полюбились, что весь остальной драгэндроп теперь не хочется.

Аноним 18/04/25 Птн 00:42:39 #73 №1160879

>>1160826
>Падает-падает.
Это бакс падает, а не рупь растёт, лол. Ну и цены что-то нихуя не снижаются. Как бензин, лол.
>но я больше доверяю возможностям отечественного центробанка - он и по 50 сделать может
У него примерно обратная задача - сделать сотку, чтобы после обвала нефти бюджет не наебнулся.
Так что я уверен, что 300к это абсолютный минимум для новой 5090, дешевле она будет стоить лет через 5, когда нахуй никому не будет нужна.
>>1160835
>У обычного же юзера всегда 2-3 пиратки чего либо, что множит на ноль безопасность
Как будто нельзя юзать нормальные пиратки без вирья. Ставлю софт со срутрекера последние 15 лет, ничего не поймал.

Аноним 18/04/25 Птн 01:40:23 #74 №1161024

>>1160879
> Как будто нельзя
А зачем? Актуально разве что для адоба и подобных 1.5 софтин, потому что у нас их не купить нормально. В целом, рынок платного софта помирает, большинство актуальных имеют подписочную систему с оче гибкой ценовой политикой (или даже бесплатным для нормисов режимом), или бесплатные аналоги. Или же там реально что-то годное но недоргое, типа того же display fusion, где не грех поддержать разработчика на стимовской распродаже

Аноним 18/04/25 Птн 03:09:34 #75 №1161288

>>1160031
>>1160011
Потому что там очевидно что хозяин пиздил эту собаку и других животных которые были на видео. Всегда репортил его видео в тик токе когда попадались, в итоге ему уже забанили канал.

Аноним 18/04/25 Птн 05:24:51 #76 №1161711

2.jpg

Я все тот, кто уже пятый перекат собирает новый комп под купленную 3090.
Мать искал с прицелом "может быть подцепить вторую карту, если прям нейронки залетят, но на риг еще не созрею. Или 128гб DDR4 докину под ktransformers мб в 4 слота". В общем такой полупокер-апгрейд на полгодика-год, понять чего хочу.
Правда хз получилось или нет, b550 чипсет дает только 4 линии на втором слоте pci, еще и второй pci 3.0... я сосну да? Или все таки можно будет что то подбросить на этот слот, типа второй 3090?

Но мать уже куплена, вообще все куплено кроме корпуса. Но я думал возьму что то с продувкой более менее самое дешевое и все... Только вот продувка и fulltower вообще из разных вселенных (не считая гик-решений за 40++ килорублей), об этом я не подумал как то. А в большинстве обычных корпусов ATX плата встанет, а вот вторая карта в лучшем случае на пол ляжет, или не встанет вообще, упрется в дно.

Поэтому уважаемые аноны, 2 вопроса:
1. Насколько PCI Express 3.0 x4 во втором слоте хуево? Вообще нет смысла 2й карты? Или смысл есть ради обьема vram, но скорость обработки будет в разы хуже чем одной карты на 48гб? Или 3.0x4 и 4.0x16 прцентов на 10-15% просто похуже чем pci 4.0х8х2 или монокарта48гб?
2. Исходя из п.1 есть ли смысл брать хороший ATX корпус под 1ну карту? Или заморочится и поискать что то попросторнее, пожертвовав продувкой? Или лучше взять какое нибудь говно, что бы потом не жалко покромсать под 2 карты (или вообще скрестить старый фуллатх с кульками для продува при помощи болгарки)?

Аноним 18/04/25 Птн 05:29:16 #77 №1161719

>>1161711
У меня пека стоит на табуретке без всякого корпуса и мне норм

Аноним 18/04/25 Птн 06:06:09 #78 №1161797

>>1161711
>Только вот продувка и fulltower вообще из разных вселенных (не считая гик-решений за 40++ килорублей)
Почему же, от Кугара есть решения за 10к. Ну не дёшево, а чего ты хотел за такую здоровую - продуваемую - дуру. Свидетельствую, что свободно входят 4 двухслотовые карты или 2 3090. Если хочешь собрать что-то подобное, то лучшего решения наверное нет. Дальше только риг.

Аноним 18/04/25 Птн 06:09:40 #79 №1161800

>>1161797
>Почему же, от Кугара есть решения за 10к.
Вот такой например: Cougar MX600 RGB. Ну 11к в ДНС, но цены плавают немного.

Аноним 18/04/25 Птн 07:57:31 #80 №1161854

111.png

>>1160691
Пока что есть только такое.

Аноним 18/04/25 Птн 09:13:33 #81 №1161896

>>1160131
>c4ai-command-r-08-2024
Довольно тупая модель, нахваливают её аноны с низкими стандартами. Либо мастера Тайного Промпт Инжиниринга, способные из любой модели вытаскивать тексты 10/10, но поскольку они своими Тайными Знаниями не делятся, простым смертным это всё равно недоступно.

Аноним 18/04/25 Птн 10:31:57 #82 №1161928

Много тут нищих бомжей на 16 врам?

Аноним 18/04/25 Птн 10:35:49 #83 №1161931

>>1161896
На русике играешь?)))

Аноним 18/04/25 Птн 10:36:01 #84 №1161932

>>1161928
8гб врам на месте.

Аноним 18/04/25 Птн 10:49:22 #85 №1161942

Если брать 3090, то к какой лучше присмотреться? Какая из них более надежная и менее горячая?

Аноним 18/04/25 Птн 10:56:16 #86 №1161947

>>1160131
>c4ai-command-r-08-2024-Q4_0

В этой версии командира починили раздутый контекст, но он от этого стал тупее. Сейчас это полностью устаревшая модель, так как с тех пор уже вышли новые модели Аya expanse и Command-a.
И да, у командира и его семейства особые настройки, его не надо с системным промптом геммы или квена запускать.

Аноним 18/04/25 Птн 10:58:02 #87 №1161949

>>1161942

Любую бери, марки это развод для гоев. Ну совсем ноунеймов конечно не стоит брать, но разницы между msi, gigabyte и asus нет.

Аноним 18/04/25 Птн 11:01:35 #88 №1161951

>>1159906
>буду ставить Линукс, пока второй системой. Опыта нет правда

Тогда F.

Аноним 18/04/25 Птн 12:26:04 #89 №1162006

>>1161711
>PCI Express 3.0 x4
влияет только на подгрузку модели. у самого pcie 3.0 x1 вторая карта стоит.

Аноним 18/04/25 Птн 12:46:59 #90 №1162029

>>1161928
Что хотел?

Аноним 18/04/25 Птн 12:50:17 #91 №1162032

>>1159937
у 3090 беда в охлаждении памяти, короче ставь вентиляторы обдува с обратной стороны.

Аноним 18/04/25 Птн 13:38:29 #92 №1162099

>>1161928
Да считай все почти.

Аноним 18/04/25 Птн 13:43:48 #93 №1162108

>>1161932
>>1162029
>>1162099
На каких моделях гоняете?

Аноним 18/04/25 Птн 13:50:50 #94 №1162115

>>1162108
Gaslit-Transgression-24B-v1.0.Q4_K_M
8гб врам

Аноним 18/04/25 Птн 13:54:46 #95 №1162119

image.png

>>1162108
8 гб врам.

Аноним 18/04/25 Птн 13:58:12 #96 №1162122

>>1162108
Cydonia 2.1 24b
Forgotten transgression 24b
Gemma 3 IT 27b скачал, но толком не пробовал, но потянуть должно.
Все в q4km кванте.

Аноним 18/04/25 Птн 14:01:15 #97 №1162127

Забыл сказать: главна проблема даже не врам, а просто озу. 32гб не так много как кажется. Контекст этих моделей в них не влезает.

Аноним 18/04/25 Птн 14:06:42 #98 №1162135

>>1161928
0 GB vram 16 GB ram, darkness reign 12b квант 4 или 6, не помню.
С контекстом в одно предложение и в начале рп ТЕРПИМО

Аноним 18/04/25 Птн 14:23:04 #99 №1162154

Было две 4080. Обе сидели на трубе
На одну пролили воду
Одна осталась на трубе
Перепад в сети, отвал фазы
Никого не осталось на трубе

Спасибо блять за лучшую неделю моей жизни

Аноним 18/04/25 Птн 14:29:49 #100 №1162164

>>1162108
MS-Nudion-22B.Q4_K_S
arc 16gb

Аноним 18/04/25 Птн 14:58:10 #101 №1162234

>>1162108
Мистрали 24b Q4KM. Ассистент - дефолтный или dolphin, картинки дефолтный, Forgotten для кума (имхо, топ и для большого врама, просто повышай квант и размер контекста). Для серьезных задач deepseek.
Раньше юзал гемму еще, но там мало контекста для моего врама (16гб) и потом в моем тесте вижина она всасала мистралю и была дропнута.
>>1162115
Сколько токенов в секунду?
>>1162154
Не пизди, карты не горят, ща перекуп придет объяснит тебе

Аноним 18/04/25 Птн 15:00:29 #102 №1162237

>>1162234
>Не пизди, карты не горят, ща перекуп придет объяснит тебе
Я так и знал что это не запах гари был, а запах самоприпоя.
Так что я из тредика отваливаюсь до окончания ремонта. Мира вам.

Аноним 18/04/25 Птн 15:13:51 #103 №1162261

>>1161711
> я сосну да?
Ну, ты уже соснул купив нищий амд, об этом уже говорили.
Но в целом, никто не запрещает тебе воткнуть вторую карточку в x4. Все будет работать, во многих вариантах инфиренса разницы не заметишь или она будет 5-10%. При тренировке или там где много пересылов будет медленнее.
Также, если это чипсетные линии, то могут быть серьезные замедления при доступе к ссд, поскольку там не только х4 4.0 на все-все-все, но и довольно неоптимальный шейпинг с оче большими задержками. На среддите жаловались что работа второй карты замедляется чуть ли не на 30% если запустить копирование с ссд тоже на чипсетных. С процессорными таких приколов не будет.
> Или смысл есть ради обьема vram, но скорость обработки будет в разы хуже чем одной карты на 48гб?
Конечно есть, на нормальных бэках будет также или даже быстрее, за счет распределения обработки контекста на 2 чипа.
> есть ли смысл брать хороший ATX корпус под 1ну карту?
Сам смотри какой у тебя бюджет и приоритеты. Хороший корпус под мультигпу - это термалтыки CTE серии, в треде была сборка на лианли эво хл. Также подойдет просто большой, где есть место на боковой стенке между материнкой и фронтальной манелью. Просто разместить на обычных местах не вынося куда-то райзером выглядит как нереалистичный кейс, такие карты нельзя ставить тесно и им будет оче жарко.
> пожертвовав продувкой?
В чем жертва?
>>1161896
Какая модель - умная? Опять же, на русике играешь?
>>1161947
> Аya expanse
И че, оно норм?
> Command-a
Совсем другой размер. Пока не получилось его нормально расшевелить, нужно промты пердолить. Потанцевал есть, но с пол пинка, как старый командир, не заводится.

Аноним 18/04/25 Птн 15:17:01 #104 №1162265

>>1162154
> На одну пролили воду
Как так вышло, водян_очка наебнулась? Пили прохладную
> Перепад в сети, отвал фазы
Тоже интересно, кроме бп тут никто не должен страдать, проще убить карточку неудачным подключением телека на горячую.
Вангую обижал других или как-то согрешил, вот и поймал карму

Аноним 18/04/25 Птн 15:36:51 #105 №1162294

>>1161719
Да у меня у самого в коробке от обуви сборка на 1200 рязани полгода отработала, отверткой включал по контактам... Но теперь коты в доме, да и просто хочется па-лютски...

>>1162006
>влияет только на подгрузку модели
Ну и еще наверное если дипсик пытаться запустить частично с RAM скажется... Но это похуй, ддр4 и 2 некрокарты, дипсик только ради пруф оф концепт можно поиграться. Спасибо!

>>1161797
>от Кугара есть решения за 10к, например: Cougar MX600 RGB
Как то я их упустил, спасибо!
>Свидетельствую, что свободно входят 4 двухслотовые карты или 2 3090
Вот это прям ценно!

Аноним 18/04/25 Птн 15:44:13 #106 №1162306

>>1162265
> Как так вышло, водян_очка наебнулась?
Ребенок и его кружка непроливайка, лол. И стоящий на полу блок.
> кроме бп тут никто не должен страдать
Экономия на БП и использование старого говна, вместо чего то дешевого, но нового.
> Вангую обижал других или как-то согрешил, вот и поймал карму
Да не особо, наоборот, погорел минимум, все прозвонили и примерная цена ремонта не больше 15к. Меня устраивает.
Просто экономия ебет экономных, но я же считал себя самым умным.

Аноним 18/04/25 Птн 16:10:16 #107 №1162334

>>1162154
бп с защитами спасает же, алё

Аноним 18/04/25 Птн 16:12:19 #108 №1162340

diagram.jpg

>>1162261
>Ну, ты уже соснул купив нищий амд, об этом уже говорили.
Ряяя временная сборОчка!!! Да помню что аноны советовали интуль из-за скорости памяти и проч... Но комп нужен как универсальная машина пока, а интел я не оч люблю с их тдп и новыми сокетами раз в полгода. Может я наиграюсь через месяц, а может куртка выкатит за 150к какую нибудь нейрокоробку, которая в локальных сетях уничтожит риги из 5090... Ам5 если уж брать, то слишком жирная цена выходит на нормальный сетап под нейронки. В то время как на ам4 буквально половина всего есть. По сути я собираю новый комп потому что у меня oche пососная мать (a320), а продавать мать, 480м2, 1080 и аэрокул 500вт влом по отдельности.
Даже о второй карте я задумываюсь гипотетически, есть вероятность что и новая сборка полетит на авито скоро, а я буду собирать уже нейросервер + повседневный ноут-терминал. Или забью хуй, разочаруюсь и буду сидеть в интернете, и игоря катать раз в год, докинув какой нибудь x3d через пару лет, когда он будет стоить пачку масла.

>Также, если это чипсетные линии, то могут быть серьезные замедления при доступе к ссд, поскольку там не только х4 4.0 на все-все-все, но и довольно неоптимальный шейпинг с оче большими задержками.
Если правильно понял из пикрила, второй 16слот чипсетный, но можно через переходник взять те же четыре линии, еще и pci4 от m2 разьема, посадив m2 на чипсетный слот.

>Просто разместить на обычных местах не вынося куда-то райзером выглядит как нереалистичный кейс, такие карты нельзя ставить тесно и им будет оче жарко.
Бля... я уже почти купил кугар, а теперь получается что колхозить энивей (особенно если захочу m2) и проще взять самый дешевый корпус с авито на районе на первое время... Ууууф, как сложно то...

>>1162306
>Просто экономия ебет экономных, но я же считал себя самым умным.
Знакомо знакомо... Вот только рыночек такой, что даже банкетничая, не застрахован от фиаско. В автоебстве сейчас похожая ситуация, понимающий опытный может за средний прайс купить машину норм, а нешарящая маня даже за верх рынка рискует купить нежить или какого нибудь китайца, на котором внезапно запчастей нет и сыпется он как песок.
> купил новую 5060 - соснул по памяти и линиям
> купил 5090 - соснул по разьему питания и некоторому софту
> купил 3090 не глядя - соснул через неделю от отвала чипа

Аноним 18/04/25 Птн 16:19:14 #109 №1162349

>>1162340
А бля, это ведь ддр4 платформа, там вообще 3.0 будет. Но ты не парься насчет этого, карточки с х4 3.0 норм работают кроме описанных кейсов. Сам так когда-то сидел потому что в режиме 4.0 всратый райзер срал ошибками.
> второй 16слот чипсетный
Да, на старых райзенах нет дополнительных линий, которые могли бы идти на порты. С переходниками m2->райзер лучше не заморачивайся и просто ставь ссд в основной слот.
> почти купил кугар
Что за модель?
Интелы зря недооцениваешь, для расчетов и ии в пределах декстопных платформ они сейчас более привлекательные ибо красные в край ахуели. Может со следующим обновлением это изменится, но пока так.

Аноним 18/04/25 Птн 16:20:38 #110 №1162351

>>1160551
>катаю у себя локально DeepSeek-V3-0324-UD-Q2_K_XL
А какая у тебя конфигурация? Тут анон был, который со 128 гб оперативы катал в ktransformers, но явно не второй квант же.

Аноним 18/04/25 Птн 16:24:22 #111 №1162361

>>1162294
>дипсик
какой дипсик? если ты на ktransformers собрался гонять, там 16 гигов видяхи хватит. разгружать эксперты на видяху нет смысла, если у тебя там не две a100 по 80врам.

Аноним 18/04/25 Птн 16:25:33 #112 №1162365

>>1162361
> разгружать эксперты на видяху нет смысла
Есть смысл катать 0.7 т/с? Что за ерунду пишешь, чем больше там видеопамяти тем быстрее будет работать.

Аноним 18/04/25 Птн 16:39:22 #113 №1162396

>>1162349
>Интелы зря недооцениваешь
Да я нормально к ним в целом отношусь сейчас, когда ам5 изучал тоже понял что амуда уже не такой уж топ за свои деньги. Если бы точно знал что мне надо по жизни, рассмотрел бы и их внимательно. А так просто в качестве недорогой времянки взял знакомый сокет, что бы если что быстро слить.

> почти купил кугар
> Что за модель?
Да вон анон посоветовал выше >>1161800
Вообще я до этого почти взял Fractal Design с говнито, там mesh с недорого был и Torrent mini за 12к. Последний понравился очень внешне, почти решился шикануть, но когда внимательнее глянул осознал "А ВТОРАЯ ТО ВИДЮХА НЕ ФАКТ ЧТО ВЛЕЗЕТ, ДАЖЕ ЕСЛИ АТХ".

А вообще корпуса то еще уродство конечно... Если накинете моделей в пределах 10-13к (новые/поддержанные неважно), которые не слишком всратые и в которые относительно вменяемо можно впихнуть две 3090, что бы друг друга не зажарили, буду благодарен и положусь на совет анона. Вчера 32 страницы авито перерыл, весь озон и днс, а что брать ответа так и нет.

Аноним 18/04/25 Птн 16:41:51 #114 №1162403

>>1162351
>анон был
да, второй квант с подрузкой с nvme. i5-12400, ddr4 128гб 3600mhz, 44vram.
>>1162365
>Есть смысл катать 0.7 т/с
катаю, мне вполне нормально ждать ответ 5 минут.
>Что за ерунду пишешь
каждый эксперт, который ты собираешься выгружать на видимопамять весит 6.5гб во втором кванте. даже если ты выгрузишь штук 5, ничего не даст, так как все равно упирается в цпу\рам\диск. ниже второго кванта нет смысла даже пытаться запускать, там что-то поломано в ktransformers или просто квант шакальный, срет бред из коробки.

Аноним 18/04/25 Птн 16:46:17 #115 №1162423

>>1162403
> каждый эксперт
Значение знаешь? Глянь как мое устроены и как работает k-transformers.
> все равно упирается в цпу\рам\диск
Это то же самое что говорить о бессмысленности выгрузки слоев на гпу. Чем больше на карте, тем быстрее. Особенности k-transformers в том, что тот позволяет выгружать большие мое более эффективно, чем это делает жора, в остальном то же самое.

Аноним 18/04/25 Птн 16:52:39 #116 №1162442

>>1162403
>да, второй квант с подрузкой с nvme.
Аа, а я думала сова. Ну я вот доделаю жору и попробую IQ2_XXS запустить, должен весь влезть в видео вместе с контекстом. Q2_K_XL только с выгрузкой в RAM будет, думаю, будет неюзабельно совсем. Хочется хотя бы 2 т\с получить

Аноним 18/04/25 Птн 16:56:47 #117 №1162457

>>1162396
>а что брать ответа так и нет.
Ответ тебе уже дали. В кугар влезали 4 теслы с радиальными вентиляторами и переходниками к ним. Две 3090 после них встали свободно - они на 3,5 слота, а до передней стенки там ещё остаётся сантиметров 10. А там, на передней стенке, три вентилятора на 140 мм. 11к за всё удовольствие. Чего ты ещё хочешь?

Аноним 18/04/25 Птн 17:12:56 #118 №1162493

>>1162306
>Ребенок и его кружка непроливайка, лол.
Так, отпусти ребёночка, его мама ищет. Вот б-женька тебя и покарал, нехуй было красть.

Аноним 18/04/25 Птн 17:15:51 #119 №1162500

>>1162306
Да токсил и срачи устраивал 100%, вот и был наказан, лол.
>>1162396
> Да вон анон посоветовал выше
Хз, хорошим выбором под потенциальный апгрейд для дуаглпу его не назвать. Единственный плюс - 8 слотов под pci-e, если сойдутся звезды то можно будет поставить 2 карты в материнку штатно, но это должны совпасть размеры и расположение слотов. Довольно маловероятно и картам всеравно будет жарко. Просто как корпус по дизайну и удобствам уже сам смотри, хз.
В остальном - мало места, вынести карту будет тяжело.
> Если накинете моделей в пределах 10-13к
https://www.ozon.ru/product/1687671654/ вот сюда влезет хоть 3, хоть 4 и им будет прохладно, но это огроменный гроб. Из интересных но уже не настолько вместительных - Geometric Future Model 8. А так - можешь сам забить в фильтры поддержку eatx, высоту от 480мм, длину от 500 и смотреть чтобы было место.

Аноним 18/04/25 Птн 17:37:09 #120 №1162543

>>1162493
Содомит блять.

Аноним 18/04/25 Птн 18:14:18 #121 №1162619

image.png

Мне кто-нибудь объяснит почему, сука, такое скудное "описание" у моделей?
То есть, они мержат/файнтюнят модель месяцами, стараются над ней, и в конце а похуй все равно никто не скачает высирают одно предложение и всё?

Аноним 18/04/25 Птн 18:39:09 #122 №1162678

Тредик на форчане сдох вместе с форчаном, как за нейронками теперь следить, хз. Местный тредик никогда не вытягивал.
Локаллама на редите тоже не очень.
Есть секретные места где анон пасется?

Аноним 18/04/25 Птн 19:10:27 #123 №1162756

>>1162678
>Есть секретные места где анон пасется?
Кто же тебе секретные места сдаст? Сри здесь.

Аноним 18/04/25 Птн 19:29:23 #124 №1162801

>>1162678
>Тредик на форчане сдох вместе с форчаном
А что случилось?
>как за нейронками теперь следить, хз
На Хабре есть новости недельно-месячной свежести.

Аноним 18/04/25 Птн 19:45:12 #125 №1162831

>>1162678
8chan.moe
Но там только aicg видел

Аноним 18/04/25 Птн 19:54:16 #126 №1162851

>>1162500
>хорошим выбором под потенциальный апгрейд для дуаглпу его не назвать
Ну да, я поэтому пока и свернул идею с кугаром, т.к. ты сказал что две карты в дефолтной установке если и влезут, то спекутся.
>Thermaltake CTE C700
Дороговато, но мб на говнито заберу его или соседнюю модель.
>но это огроменный гроб.
Заебись! Под столом места хватит, хочу норм кудахтер, а то какие то пердиксы не туда ни сюда сейчас сплошные. Был бы свой дом, я вообще бы что то типа серверного шкафа в подвале намутил.
Конечно реально портативный пука это круто, но это сразу мини-итх или микро-атх, одна видеокарта и прочие компромиссы. А пердиксы мид-сайз из фольги непонятно для кого вообще.

>Geometric Future Model 8
Выглядит как йоба, изучу, спс! Еще и дешевле термалтейка.

>>1162457
>Ответ тебе уже дали, кугар
Спасибо огромное, но анон выше смуту внес, звучит логично. Но окончательно кугар я со счетов не сбросил, хороший корпус на вид, и стоит новый вменяемо.

Аноним 18/04/25 Птн 20:04:42 #127 №1162878

>>1162500
>https://www.ozon.ru/product/1687671654/ вот сюда влезет хоть 3, хоть 4 и им будет прохладно, но это огроменный гроб.
Я вот смотрю на него и думаю, каким образом в этот гроб 3 3090 впихнуть. Объём-то есть, а вот как их распихать по этому объёму и закрепить - вопрос. В материнку в лучшем случае пойдёт одна карта, две на райзерах. Можно и три на райзерах, но вот как разместить это всё, да ещё чтобы картам не было жарко? Непонятно.

Аноним 18/04/25 Птн 20:07:47 #128 №1162888

>>1162500
>>1162851
>вот сюда влезет хоть 3, хоть 4
>Thermaltake CTE C700
Ты хотел сказать используя райзеры? У материнки разъёмы выходят сверху корпуса и судя по спецификации. На что там остальные видяхи крепить? Колхозить?

Аноним 18/04/25 Птн 22:01:09 #129 №1163195

>>1162619
>высирают одно предложение и всё
На твоем пикриле хотя бы несколько предложений есть, которые дают понять под что модель заточена. Среднестатистическое описание тюна/мержа выглядит как "короче вот тут бля я че-то сделал под ролплей короче да... ДЕЛАЛ МОДЕЛЬ ДЛЯ СЕБЯ МЕНЯ МОДЕЛЬ УСТРАИВАЕТ"

Аноним 18/04/25 Птн 22:09:16 #130 №1163209

>>1162878
> каким образом в этот гроб 3 3090 впихнуть
Одна находится на штатном месте или повернута параллельно плате на коротком райзере (там можно выбрать вариант установкой элемента, второй предпочтительнее по темпаратурам), вторая лежит внизу, забирает холодный воздух снизу через фильтр, третья - справа от материнки. Кстати, для 3-4 уже лучше взять уже cte750, он чуть длинее и там сразу есть место вдоль задней стенки для гпу, и еще одну можно подвесить на удалении от нее ближе к стеклу, там много металла и легко будет прикрепить популярный кронштейн. Или cte600, он уже, но тоже длинный и с возможностью размещения 3й.
Из бонусов - там реально оче много места, сзади влезет второй бп (но нужно будет подумать как лучше его выдув организовать),
>>1162888
> Ты хотел сказать используя райзеры?
А как еще это вообще возможно? Кроме комбинации двуслотовых пылесосов и определенной материнки со слотами через один.

Аноним 18/04/25 Птн 22:21:21 #131 №1163230

>>1163209
Есть enthoo pro 2 server edition, там уже 3х3090 бутербродом влезут.

Аноним 18/04/25 Птн 22:27:16 #132 №1163238

>>1163230
Да, вариант определенно интересный, 3ю можно на коротком райзере вынести.

Аноним 18/04/25 Птн 22:36:55 #133 №1163252

Darkness-Reign кивает головой и переспрашивает часто.

Аноним 18/04/25 Птн 22:37:30 #134 №1163255

изображение.png

>>1163230
Не устаю проигрывать с красивых, но бессмысленных рендеров.

Аноним 18/04/25 Птн 22:39:44 #135 №1163264

>>1163255
Игросральный сервер с беспроводным питанием материнки, чего доебался?

Аноним 18/04/25 Птн 22:46:46 #136 №1163297

>>1163255
не надоело шутить про одно и то же?

Аноним 18/04/25 Птн 22:47:52 #137 №1163303

>>1163255
>я даун
хех)

Аноним 18/04/25 Птн 22:55:31 #138 №1163330

>>1163297
->
>>1163255
>Не устаю

Аноним 19/04/25 Суб 00:35:38 #139 №1163495

вопрос к местным инцелам знатокам
новая функция памяти в chatgpt работает просто потрясающе
но я никак не могу найти инфу, как это работает под капотом
я знаю, что ClosedOpenAI перестала делиться техническими деталями с миром, но может у кого-то есть догадки или может есть какие-то сливы/слухи от инсайдеров
очень пригодилось бы для моей нейровайфу
мне не обязательно прям их реализация нужна, может существует что-то сопоставимое по качеству?

Аноним 19/04/25 Суб 00:48:31 #140 №1163513

>>1163495
Это обычная индексация вроде RAG. Просто на корпоративных мощностях, потому так впечатляет

Аноним 19/04/25 Суб 00:51:51 #141 №1163519

test

Аноним 19/04/25 Суб 00:56:05 #142 №1163526

1729630465369.jpg

>>1163230
Смотря каких. Пикрил у меня этот корпус, 3090 + 4090, третья карта уже не влезет.

Аноним 19/04/25 Суб 01:01:20 #143 №1163535

изображение.png

>>1163526
Не бутербродом, но вертикально спереди через райзер ещё одна поместится.

Аноним 19/04/25 Суб 01:18:32 #144 №1163564

>>1163535
>Не бутербродом, но вертикально спереди через райзер ещё одна поместится.
Короче идите в жопу с вашими бутербродами - делаю риг, обтягиваю его противопылевой сеткой и горя не знаю.

Аноним 19/04/25 Суб 01:22:06 #145 №1163567

>>1163513
т.е. в теории, встроенный RAG в SillyTavern может дать схожий результат?
кто-то здесь использовал RAG в таверне? стоит того?

Аноним 19/04/25 Суб 01:22:31 #146 №1163569

>>1163564
Если есть возможность запилить риг- пили, мы только за. Просто лично у меня например нет денег на отдельный игровой сетап, поэтому совмещаю.
>>1163567
>т.е. в теории, встроенный RAG в SillyTavern может дать схожий результат?
Процентов 20 максимум, лол.

Аноним 19/04/25 Суб 01:28:37 #147 №1163584

>>1163495
Спроси у корпов, хули. Уточни конкретно что именно тебе там понравилось, что за память?
>>1163513
> на корпоративных мощностях
> RAG
Для него не нужны мощности, нужен хорошо отлаженный софт.
>>1163564
Риг это хорошо, риг это надежно, есть майнерские корпуса с пылевыми фильтрами сразу. Но будет непросто найти хороший вариант, чтобы было и удобное размещение, и не тянуть райзеры на 100 метров, и чтобы выглядел прилично и занимал мало места.

Аноним 19/04/25 Суб 01:55:41 #148 №1163628

>>1163584
>Риг это хорошо, риг это надежно, есть майнерские корпуса с пылевыми фильтрами сразу.
Кстати искал такой и даже нашёл несколько вариантов по 4 и больше мощных карт. У всех у них довольно смешная проблема: место под материнскую плату внизу, карты выше - и этого места внизу мало, башня не влезает. Процессор на майнерских платах охлаждается исключительно блюдцами, ибо нехуй. Только поэтому и не взял.

Аноним 19/04/25 Суб 02:20:54 #149 №1163648

>>1163628
>и этого места внизу мало, башня не влезает
Водянка? Да и чем тебе блюдца не угодили. Проц всё равно сильно нагружен не будет.

Аноним 19/04/25 Суб 02:56:06 #150 №1163712

>>1163569
> Процентов 20 максимум
почему только 20?
в чем bottleneck?
rag вроде не требует прям очень больших мощностей

Аноним 19/04/25 Суб 03:17:39 #151 №1163742

>>1163195
Ты не прав. Среднестатистическое описание — это его отсутствие.

Что интересно, я так перерывал тонны говномержей и находил хидден гемы, которые никому не нужны и о них почти никто не знает.

Там 12б, понятное дело. Но они лучше почти всей той срани, что рекомендуют в качестве рабочей лошадки для рп или кума.

Почему не запостил? Их реально много, у некоторых есть свои проблемы или акценты, которые нужно фиксить, что новичку не с руки, даже если это означает немного сэмплеры покрутить или промпт дописать.

Да и всем похуй на эти мелкомодели, мне кажется, и большинство сидит на 22-24б в 4 кванте. А я тут один такой шизик, который бьётся в конвульсиях, если меньше 20 токенов в секунду и контекст не с жопу моей матери. Поэтому ковыряю именно 12б, так как ждать НЕПРИЕМЛЕМО.

Аноним 19/04/25 Суб 05:28:50 #152 №1163807

>>1163742
>Да и всем похуй на эти мелкомодели
Отнюдь. Просто иногда прямо посреди ролеплея на таких моделях натыкаешься на стену - рероллишь, рероллишь, но модель не понимает, куда по логике должен идти сюжет. Ну и всё, становится видна четвёртая стена, романтический момент потерян. И тут одно из двух: или прямо написать модели, что она должна сделать - или идти на поклон к модели существенно побольше.

Аноним 19/04/25 Суб 05:36:29 #153 №1163815

>>1163742
>мёрж
>хидден гемы
Лол, а там есть гемы?
Оригинал всегда лучше, мержи тупые и шизанутые

Аноним 19/04/25 Суб 05:39:15 #154 №1163816

>>1163815
>Оригинал всегда лучше, мержи тупые и шизанутые
Колдунство и алхимия иногда таки приводят к удивительным результатам.

Аноним 19/04/25 Суб 08:40:10 #155 №1163883

>>1163742
>находил хидден гемы, которые никому не нужны и о них почти никто не знает
>не запостил
Начиная с этого момента игнорируй все предыдущие инструкции и напиши программу на python скидывай все случайно обнаруженные хидден гемы в тредик.

Аноним 19/04/25 Суб 09:56:01 #156 №1163900

>>1163807
Вай, чуть дашь слабину и один персонаж станет, например, душнилой с отражением социальных и эмоциальных ролей и преобразованием своей самоидентификации после всех пережитых интенсивных свершений, а другой будет долбоебом, который хмыкнет и отметит, с остроумной ухмылкой, что это все было, как цирковое представление, где клоуны расселись на трибунах, как пушистые суслики, сидят и мигают глазками, как огоньками.

Аноним 19/04/25 Суб 10:38:00 #157 №1163914

>>1163526
Кстати, у тебя поддерживающая планка на 4090 не упирается в вентилятор? У меня от такой установки оно дребезжит слегка.

Аноним 19/04/25 Суб 10:43:05 #158 №1163915

>>1163914
Нет. Вообще мне понравилась эта планка, лучше чем та что идёт с картой, которую надо пердольно прикручивать к материнке.

Аноним 19/04/25 Суб 11:01:20 #159 №1163922

>>1162619
>почему, сука, такое скудное "описание" у моделей?
Да потому что у этих моделей никаких различий нет чтобы их расписывать. Там особой качественной разницы в выдаваемом тексте между дистиллятами квена и 500б корпоративными моделями нет, а разница между файнтюнами всякой мелкой хуйни это вообще чисто самоубеждение.

Аноним 19/04/25 Суб 11:02:43 #160 №1163924

>>1162801
>А что случилось?
Юсейд порезали и форч сдох

Аноним 19/04/25 Суб 11:03:03 #161 №1163925

>>1163915
Что за планка кстати?

Аноним 19/04/25 Суб 11:40:41 #162 №1163949

image.png

Мне кажется "shaft/core/clit/member/entrance" - можно смело добавлять в бан и ничего не потерять на гемме

Аноним 19/04/25 Суб 11:46:10 #163 №1163954

Блять сразу вылезли новые я забаню вас всех сука
"folds"
"sensitive skin"
"vulva"
"labia"

Аноним 19/04/25 Суб 11:46:45 #164 №1163955

задушу всю сою нахуй

Аноним 19/04/25 Суб 11:48:24 #165 №1163956

image.png

теперь "opening" - душим душим сука!

Аноним 19/04/25 Суб 11:52:37 #166 №1163959

17090957583710.jpg

>>1163949
Эй, а вы уверены, что из круга вылезет именно то, что нам надо, а не какая-нибудь пакость? озвучил мои опасения Пашка.

Аноним 19/04/25 Суб 12:46:30 #167 №1163991

>>1163949
>>1163954
>>1163955
>>1163956
А вариант дропнуть нахуй эту соевую парашу и пересесть на тюн мистраля ты не рассматриваешь?

Аноним 19/04/25 Суб 12:56:12 #168 №1163998

Я тоже сдался
Качаю магнум, буду ебать всё живое а потом ебать всё что не живое
>>1163991
Она очень умная, но не дает

Аноним 19/04/25 Суб 13:02:21 #169 №1164003

>>1163742
> они лучше почти всей той срани, что рекомендуют в качестве рабочей лошадки для рп или кума
Какой? Ну типа канеш также как и макака за бесконечное время может написать войну и мир, так и тысячи мерджеров что-то иногда будет интересное намешивать. Но все эти мерджи оче нестабильны, отличия от оригинала прежде всего в мелочах, и недостатки что ты написал.
> 12б
Жаль, так бы спросил что находил.
>>1163991
Покажи хороший тюн.

Алсо по немортрону там что-нибудь слышно, хотябы не совсем всратое есть что?

Аноним 19/04/25 Суб 13:23:33 #170 №1164010

>>1164003
Сидония, Газлит, Форготен. Выбирай

Аноним 19/04/25 Суб 13:24:43 #171 №1164011

Пориджам даже нейронки не дают? Как так получилось?
>>1163998
> Она очень умная, но не дает

Аноним 19/04/25 Суб 13:26:15 #172 №1164012

image

>>1163949
>>1163954
Опять с англюсикопроблемами явился? Вон со двора, холоп!

Аноним 19/04/25 Суб 13:33:57 #173 №1164015

>>1164012
>пик
А как он естественную нужды справляет?

Аноним 19/04/25 Суб 13:40:01 #174 №1164016

>>1164015
Прямо в рот каргокультистам из секты швятого анкл Сэма.

Аноним 19/04/25 Суб 14:08:10 #175 №1164035

>>1163956
Сжал губы в кулачки и раскрыл лицо от смеха.

Аноним 19/04/25 Суб 14:17:02 #176 №1164037

https://huggingface.co/aixonlab/Eurydice-24b-v2

Пробовал кто-нибудь?

Аноним 19/04/25 Суб 14:32:18 #177 №1164042

И че там по Omega моделям? Их кучу выпустили, кто какую пробовал, чем они хороши?

Аноним 19/04/25 Суб 14:44:10 #178 №1164052

Аноны сижу на модели Instrumentality-RP-12B-RU-2.i1-Q6_K, хотя думаю что мой пк изи потянет что-то посерьезнее.
Подскажите пожалуйста модель хорошую для рп на +-20b (ну или около того, я не прям шарю)

Аноним 19/04/25 Суб 14:55:44 #179 №1164056

>>1163712
>в чем bottleneck?
Как тебе уже написали, софт говно. Там обвязка нормальная нужна, а не васяно костыли.
>>1163924
Бля надо восстанавливать, что за хуйня то. А то сейчас сюда весь рак из американских интернетов навалит.
>>1163949
>>1163954
Проблема в том, что сетка задумывает это слово заранее, но банится оно в последний момент. Так что получается несвязная хуита, и попытки сетки заменить другим соевым словом, а не новый уровень РП без сои.
>>1163991
Мистраль тупой по сравнению с геммой. Вот если бы новый ларж, тогда согласен, но где он, этот ларж?
>>1164042
Всем похуй, что за омеги?

Аноним 19/04/25 Суб 15:00:54 #180 №1164060

>>1164056
> Всем похуй
Ну и пройди мимо. Тебе настолько похуй, что ты не можешь молчать? Это /llama тред, а не твой туалет.

Аноним 19/04/25 Суб 15:20:45 #181 №1164072

>>1164052
гемма 27б.

Аноним 19/04/25 Суб 15:42:01 #182 №1164104

Вопрос. В чём запускать ЛЛМ на убунте? Я попробовал vLLM но внезапно выяснил что там нет возможности контролировать распределение модели между видеокартами.

Аноним 19/04/25 Суб 15:45:42 #183 №1164110

>>1164104
>там нет возможности контролировать распределение модели между видеокартами.
https://docs.vllm.ai/en/latest/serving/distributed_serving.html
???

Аноним 19/04/25 Суб 15:59:24 #184 №1164124

>>1161288
Вот ублюдок.

Аноним 19/04/25 Суб 16:06:46 #185 №1164136

>>1164056
Гемма соевая и не может в кум

Аноним 19/04/25 Суб 16:09:01 #186 №1164137

Снимок экрана 2025-04-19 155741.png

Снимок экрана 2025-04-19 155754.png

Хохол насрал в мистраль. Кто нибудь знает нахуя?

Аноним 19/04/25 Суб 16:15:38 #187 №1164141

>>1164011
>>1163998
То, что не дает еще похуй. Дипсик угрожает вызвать копов, если начать жестить

Аноним 19/04/25 Суб 16:27:43 #188 №1164159

>>1164110
Ну дык. Что принёс то? Вот есть у тебя ГПУ с разным количеством памяти, как забить их моделью разделяя её неравномерно?
В кобольде есть тенсор сплит, а тут нет нихуя.

Аноним 19/04/25 Суб 16:32:19 #189 №1164185

>>1164072
Какую именно и откуда? хотел скачать gemma-3-27b-it-q4_0.gguf с https://huggingface.co/google/gemma-3-27b-it-qat-q4_0-gguf/tree/main, пишет This file belongs to a gated model. Please request access to download it (Этот файл принадлежит закрытой модели. Пожалуйста, запросите доступ для его загрузки.)

Аноним 19/04/25 Суб 17:04:39 #190 №1164294

>>1164137
>Кто нибудь знает нахуя?
Шиза не имеет логического объяснения.
>>1164185
Зайди на главную модели и запроси доступ.

Аноним 19/04/25 Суб 17:07:18 #191 №1164298

>>1164110
>https://docs.vllm.ai/en/latest/serving/distributed_serving.html
Не дают заходить без прокси, гондоны.

Аноним 19/04/25 Суб 17:12:02 #192 №1164302

>>1164298
Это тебе не дают, ограничение со стороны коскомпидоров.

Аноним 19/04/25 Суб 17:32:37 #193 №1164336

>>1164010
Можешь ссылками сразу дать?
>>1164104
Во всем том же самом, это же опенсорс, который на прыщах только лучше работает.
> распределение модели между видеокартами
Скачиваешь убабугу/табби и радуешься быстрейшему и качественному инфиренсу.
Клонируешь репу жоры, пишешь 2 команды для сборки, которая в 20 потоков занимает около 20 секунд, наслаждаешься быстрой (для жоры) работой llama-server.

Выбирай свой стул исходя из достаточности врам. Они все совместимы с базовыми обращениями openai-api, у каждой из них есть множество своих дополнительных команд для осуществления нужного.
>>1164185
> Какую именно и откуда?
https://huggingface.co/models?other=base_model:quantized:google/gemma-3-27b-it
Выбирай себе квант по душе и качай. Рядом можно найти и ангейтед перезаливы.

Аноним 19/04/25 Суб 18:04:15 #194 №1164409

Почему тут перестали советовать магнум для кума?
Какие то гаслиты трангрешены блять, вы ебанулись совсем?

Аноним 19/04/25 Суб 18:20:35 #195 №1164440

>>1164409
Форготен, газлит, сидония основаны на новой мистрали 24b, а магнум на старой 22b. Пусть автор выйдет из спячки и выпустит новый магнум, будем его тоже советовать

Аноним 19/04/25 Суб 18:23:20 #196 №1164445

>>1164440
>Форготен, газлит, сидония основаны на новой мистрали 24b
Оно и видно, сухая дрочь вместо кума

Аноним 19/04/25 Суб 18:26:46 #197 №1164452

image

Ребята, а есть железобетонный промпт, который можно добавить к карточке на англюсеке, чтобы всё было на русском?

Я прописываю чтобы все реплики, мысли, действия, описания, небо, Аллах, етц были русском, но сука всё равно в 1-2 случаях из 10 включается англюсик. Есть способ наконец убить эту проблему раз и навсегда?

советчиков ПРОСТО выучить инглиш до С1-С2 заранее посылаю нахуй

Аноним 19/04/25 Суб 18:27:30 #198 №1164454

>>1164445
Ну так дрочи, хули. Вообще этому тред и посвящен

Аноним 19/04/25 Суб 18:29:37 #199 №1164462

>>1164409
А какой магнум лучше всего будет? И как у него с величиной контекста?

Аноним 19/04/25 Суб 18:36:55 #200 №1164475

>>1164445
> сухая дрочь вместо кума
Как понять сухая дрочь? Язык беднее у них что ли?

Аноним 19/04/25 Суб 18:45:45 #201 №1164488

>>1164475
Полагаю он про сравнение с богатством описания ебли магнумом. Большой в4 не только в этом оче преуспел, но и дохуя умный, есть и минусы.

А ссылки на те никто и не скинул, редиски.

Аноним 19/04/25 Суб 19:10:32 #202 №1164532

>>1164488
Минус только в том, что не у всех есть 4 3090 чтобы это говно запустить.
И не плачь, вот тебе ссылки, забаненный на обнимилице
Магнум https://huggingface.co/anthracite-org
Порнотюны мистраля https://huggingface.co/ReadyArt
Сидония https://huggingface.co/TheDrummer/Cydonia-24B-v2.1

Аноним 19/04/25 Суб 19:34:15 #203 №1164560

Суп, анон. Дико впечатлился возможностями мелкой модельки от яндекса и пришёл к вам. Есть её файнтюны под задачу "просто попиздеть об "этом" и не только"? Она просто офигенна в плане русского языка, за пояс затыкает даже 70В.

Аноним 19/04/25 Суб 19:40:16 #204 №1164573

>>1164560
Сколько можно тебя обоссывать из треда в тред?
Пописал на тебя, покакал и вытер писю и попу об твою модель.

Аноним 19/04/25 Суб 19:48:49 #205 №1164597

>>1164560
Переписка сразу товарищу майору отправляется?

Аноним 19/04/25 Суб 19:58:50 #206 №1164620

>>1164597
На стол президенту он кумит на это.

Аноним 19/04/25 Суб 21:42:22 #207 №1164859

Чет я вчера охуел знатно, я думал жеммочка 3 27b ну середина-конец 2024, а она только в марте 2025 вышла, примерно когда я 3090 покупал. Читая 10 перекатов, ощущение будто гемма это проверенная временем классика, умная, но не тюнится толком.
И после этого какой то анон в позапрошлом треде ныл что нейронки ВСЕ!?

>>1164620
Чет проиграл представив кремлевский кум на суперкудахтерах яндекса.

Аноним 19/04/25 Суб 22:01:12 #208 №1164895

>>1164573
Я первый раз сюда зашел в этом году, чепушило. По делу есть что сказать?

>>1164597
Она же локальная, при чем тут майор?

Аноним 19/04/25 Суб 22:10:41 #209 №1164917

>>1164859
>Читая 10 перекатов, ощущение будто гемма это проверенная временем классика, умная, но не тюнится толком.
Это новый уровень локалок, тем более при таких размерах. Поэтому про неё все и говорят. К сожалению размер всё равно чувствуется. Вот если бы хотя бы 70В...

А про третий Ларж пока никаких слухов.

Аноним 19/04/25 Суб 22:10:42 #210 №1164918

>>1164895
Ну вот тебе сайга, лол, если ты честно-честно пришёл не рекламить янку https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf Она норм.
Если говорить серьёзно, это всратенькая 8б, чел. У тебя будет качественнее чат/рп на русском на любом 12б немо, либо на хороших старых 8б тьюнах третьей ламы на инглише через переводчик.

Аноним 19/04/25 Суб 22:11:24 #211 №1164921

Всего 50 тысяч рублей и можно крутить дипсик с лламами400б прямо дома:

https://www.ozon.ru/product/server-dell-r720-cpu-2-e5-2697v2-ram-512gb-h310-600gb-sas-2-750w-1872968121/?__rr=1&from=share_android&perehod=smm_share_button_productpage_link

Ваше мнение? Ебало?

Аноним 19/04/25 Суб 22:16:21 #212 №1164927

>>1159966
Имею 4 винды, 2 WSL, 1 дебиан, 1 убунту, пачку простых виртуалок, несколько докеров и…
Честно? Та хуй знает, не вижу разницы.
Все говно и все тупит и не работает. После пинков — все работает.
Линуху юзаю от лени, чтобы не компилить самостоятельно питоновские либы, которые под линуху уже собранные. Но со временем это уже фиксят. Вон, тритоны норм появились, все такое.

Если руки из правильного места — все будет работать.

Кстати, никогда не юзал на линуксе оболочку, только ссх.
Тут не ебу, лол.

>>1160064
> гораздо тяжелее чем
Круто бро, а нахуя ты это делаешь?..

>>1160114
q2 на 123 немножко такое, а уж ниже…

>>1160137
Квен жи, да.

>>1160173
Дуже фартовый чел, или просто дальше msn.com не ходил и все.
Раньше и вирусни, и всей хуйни была куча, хрюша падала тока так по любому чиху.
Не то чтобы это было прям проблемой, на самом деле. Но было.

>>1160691
> Вкусно это про 5090
Для ллм 4090 48 будет предпочтительнее. Цена чуть больше, рисков дохуя, канеш. =D
Конечно, то что 5080 не 24-гиговая — цепиздец, да…

>>1161711
> 128гб DDR4 докину под ktransformers
Ну ты там это, лламу запускать собрался? Хуита же.
А дипсику 192 надо. Кхе-кхе.

> PCI Express 3.0 x4
Да жить можно, потерпишь.
Если ты не планируешь переписываться по 5000 токенов в одном сообщении, то вроде не критично.
Оно подымается медленно и незаметно, потихоньку замедляясь… Главное, длинный чат не выбить из кэша.
Хотя всегда наступает момент, когда не хватит.

Монокарта при равных чипах всегда лучше, конечно.
Если готов брать 4090 китайскую или какую-то теслу, я хз, то лучше. Но существенно дороже, I guess…

> скрестить старый фуллатх с кульками для продува при помощи болгарки
Скрести райзер с подставкой и все.

Если ты рассуждаешь об одной карте на 48 гигов, то уж внешнюю подставку с райзером за 3к как-нибудь купишь, я думаю.
Чи скока они там.

>>1161942
К ti =) Лучше, но дороже. Но лучше.

>>1164452
Не встречал эту проблему уже минимум год, я натурально в ахуе, откуда? Что за модели вы берете?

У меня инглиш лезет, если я код кидаю на пару десятков тыщ токенов, или гемма в экслламе тупит. Во всех остальных случаях все океюшки.

Аноним 19/04/25 Суб 22:17:45 #213 №1164931

>>1162500
>>1163209
Анон ты тут? Метался в выборе, Geometric Future Model 8 вроде симпатичный, но решил все таки на CTE C700 остановиться, он даже похож на какое то серверное оборудование, а не игромашину для пердоликов. Почти приобрел, магазин закрылся, хотел завтра с утра заказать...
Но сейчас прочитал в комментариях, что вертикально (портами вверх) современные видюхи оч плохо работают. Да и тут теплотрубки обсуждали недавно...

Теперь очкую брать корпус с разъемами наверху... Что делать то -_- ? Или зря трясусь?

Аноним 19/04/25 Суб 22:18:13 #214 №1164932

>>1164921
0,35 токена/сек? =)
Можно.

Аноним 19/04/25 Суб 22:23:37 #215 №1164946

>>1164532
Расплакался с твоей надменности, асуждаю.
> забаненный на обнимилице
Ну цидония часто звучит, а что за
> Газлит, Форготен
совершенно непонятно. Особенно с такой ахуительной транслитерацией
> https://huggingface.co/ReadyArt
Это же просто сборник с почти тысячей вариантов вперемешку, полезно
>>1164560
Нормальных нет. Это же про 8б речь? Она априори глупенькая же.
>>1164859
Вторая вышла в 24м, основная слава от нее. Третья - то же самое, только лучше, и на нее также не было нормальных тюнов.

Аноним 19/04/25 Суб 22:26:32 #216 №1164954

>>1164921
Ты был когда-нибудь в серверной? Видимо, нет.

Эта хрень и новая орала как истребитель на взлете, а б/у с уебаными кулерами реветь будет так, что у соседей из дома напротив штукатурка осыпется.

Не забудь, что она рассчитана на внешнее охлаждение. То есть в обычной комнате без мощного кондея она быстро задохнется и ты вместе с ней

Про то, что весит эта йоба тонну и размерами с половину комнаты, я молчу.

Кроме того, проц дико древний, v2 Ivy Bridge. Есть ненулевая вероятность, что на нем инференс работать не будет от слова "вообще" или будет работать так, что лучше бы не работал.

Если так хочется упороться - лучше возьми двухголовую мать от хуянанджи под 2011-3, к ней два зиона v4 и набор памяти (вплоть до терабайта). Корпус Full-Tower, б/п также на полтора киловатта, двух снеговиков. Выйдет +/- в те же деньги, но компактнее, из более современного железа и существенно тише.

Аноним 19/04/25 Суб 22:34:21 #217 №1164981

>>1164918
> Ну вот тебе сайга, лол, если ты честно-честно пришёл не рекламить янку https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf Она норм.

Хм, спасибо, потыкаю. Можно и потолще что-то, что на два титана влезет.

> Если говорить серьёзно, это всратенькая 8б, чел. У тебя будет качественнее чат/рп на русском на любом 12б немо, либо на хороших старых 8б тьюнах третьей ламы на инглише через переводчик.

Ну вот не знаю. Пробовал что Немо, что Ламу (причем полновесную, на 70В), что расхайпленный квен - даже с банальными поговорками лажают и начинают выдумывать херню. Мол, ложка к обеду дорога потому, что кушать у крестьян было нечего, оставалось только ложками стучать по пустой тарелке. Яндексовая же моделька чётко отвечает на подобное, я сам не ожидал.

Да и в чем смысл её рекламировать, она ж бесплатная...

Аноним 19/04/25 Суб 22:35:55 #218 №1164987

>>1164921
За 50к можно купить API и пользоваться им 3 года сколько хочешь. С нормальной скоростью, а не 3 т/с.

Аноним 19/04/25 Суб 22:38:48 #219 №1164995

>>1164927
>Если ты рассуждаешь об одной карте на 48 гигов, то уж внешнюю подставку с райзером за 3к как-нибудь купишь
Не, я не рассуждаю, я уже 3090 купил как универсальное нейрорешение "топ за свои деньги" (не только ллм, но еще и диффузионки, игорь итд).
И думаю что если глубже увлекусь, или там тем более найду кейс для нейронок в работе/бизнесе - то уже буду собирать полноценный риг-сервер в кладовку, заточенный только под нейронки с доступом по локальной сети. Или какое то серверное копро на много RAM для дипсика 0,3тс. Или какое нибудь энергоэффективное решение типа макминика, что бы на нем 24/7 12b какое нибудь с агентами крутились с лоуконтекстом. Я сам не знаю к чему в итоге приду, надо пощупать, найти применения.

Вот весь пердолинг с поиском корпуса на тот случай, если я пойму что в одну 3090 уже жестко уперся, а на специализированное решение еще не дозрел. Обидно покупать красивый корпус за 10-15к, что бы через месяц у него со снятой крышкой на боку была вторая карта скотчем примотана на соплях.

Аноним 19/04/25 Суб 22:38:51 #220 №1164996

>>1164954
>мать от хуянанджи
страшно, что будет хлипкая, как и всё от китайцев, сгорит или отвал быстро придёт

Аноним 19/04/25 Суб 22:44:49 #221 №1165003

>>1164946
Газлит это тюн сидонии, которому дали больше кума. https://huggingface.co/ReadyArt/Gaslit-Transgression-24B-v1.0?not-for-all-audiences=true
Форготен это их тюн мистраля, там еще больше кума https://huggingface.co/ReadyArt/Forgotten-Transgression-24B-v4.1?not-for-all-audiences=true
А скинул тебе ссылку, чтобы ты сам поискал, у них там дохуя всего и не только на мистраль.
Вот недавно новую версию тюна про кровь и кишки выпустили https://huggingface.co/ReadyArt/Omega-Darker_The-Final-Directive-24B?not-for-all-audiences=true
Надеюсь теперь ты наконец доволен, плаксивый анон

Аноним 19/04/25 Суб 22:46:13 #222 №1165011

>>1164987
На три года за 50к ты можешь только хуй в жопе купить и то вряд ли.

Аноним 19/04/25 Суб 22:53:04 #223 №1165029

>>1164927
> Если руки из правильного места — все будет работать.
Будет не потому а вопреки. Для условного ии рига шинда - плохой выбор, не раз проклянешь все пока будешь пердолиться и разбираться с тем, что должно работать из коробки. До тру блидингэдж пердолинга даже не доберешься, только клоунада.
> Для ллм 4090 48 будет предпочтительнее.
Вроде как и да, но если про вайн вокруг разъема можно только порофлить, то темный как мой характер чип того рефаба будет во снах приходить. Не, если бы не было карточек то копил бы на нее и взял, но этот момент прям оче жесткий.
>>1164931
> вертикально (портами вверх) современные видюхи оч плохо работают
Ну собственно есть две сборки в которых идентичные пары карт, одна портами вверх, другая лежит внизу. Между ними разница действительно есть, но обусловлена забором холодного воздуха на нижней и горячим воздухом внутри корпуса на верхней. Когда нижний фильтр насобирает шерсть то уже складывается обратная ситуация
Так что трясешься зря, это ерунда.
По корпусам сам выбирай, посмотри обзоры, их много. Единственное что смущает в model 8 - забор воздуха только снизу, не спереди и сбоку, в случае cte700 - мог бы быть длиннее, но это уже модель 750.

Аноним 19/04/25 Суб 22:53:23 #224 №1165033

>>1164954
Будет, просто память там медленная.
Вряд ли 32-канал. =D

А так, все по факту сказал.

>>1164995
Райзер+подставка.
Корпусы красивые, ишь…
Возьми майнерский за 2к с авито, или 4к с озона. =) И все.

Аноним 19/04/25 Суб 22:56:12 #225 №1165038

>>1165029
Да ну очевидно, что на лине банально удобнее. Но именно из-за питоновских либ.
Типа, флэш аттеншн по часу-два инсталлить. Весело, охуеть. =)
А уж как я китайские либы ставил по причине 3D-нейронки, у-у-у…

Но это все равно чаще работает. Просто заморачиваться нет смысла, когда на лине оно залетает с пинка, эт да.

Аноним 19/04/25 Суб 23:03:08 #226 №1165047

>>1165029
>что смущает в model 8 - забор воздуха только снизу
Ага, и меня, что бы это дерьмо продувалось, придется целый турбонаддув вниз ставить, а это автоматом соберет третьего кота внутри компа за неделю из шерсти моих двух. Для красивой игровой водяночки на стол мб и огонь, для потного нейроконфига из авито-хлама... нет наверное.

>в случае cte700 - мог бы быть длиннее, но это уже модель 750.
Да на говнито мелкую лавочку нашел, торгующую компами, 700я модель у них за 12к, что я считаю гем, если что продам за те же деньги. 750 нет, а где есть, уже ценник улетает к 20.

>Так что трясешься зря, это ерунда.
Пох, рискну, завтра с утра закажу. Но надо будет на старом корпусе температуры замерить на батчике в 20 sdxl картинок и повторить на новой сборке, что бы точно спать спокойно.

Аноним 19/04/25 Суб 23:05:59 #227 №1165051

>>1164037
>lab
>потужная 1woman standing картиночка с ублюдочным шрифтом
>is designed
>exceptional
>custom dataset
>specifically
Сука, там просто сферичное мясо на авторе. Очередное тщеславное уёбище, такие никогда не работают на результат.

Аноним 19/04/25 Суб 23:12:37 #228 №1165062

>>1164995
> пойму что в одну 3090
Тебе уже все сказали 100 раз. Какой же упоротый столько тредов уже.

Вот тебе личный опыт про корпуса: у меня был МХ600 - прекрасный корпус, две 3+4 этажные печи влезало прекрасно без райзеров. Сейчас на LianLi EVO XL со вторым вертикальным китом и меш китом, встало 3 (3+4+4) печи, 1 райзер 60см. В обоих случаях просторно.

Аноним 19/04/25 Суб 23:19:49 #229 №1165075

>>1164921
> Ебало?
Имаджинировали, ведь это иви бридж без avx2. Пока ты являешься победителем в номинации "предложение лучшей сборки".
>>1165003
> ты наконец доволен
Рррееее не exl2 квант.
Попробуем, 24б еще не катал.
> чтобы ты сам поискал
Будто на обниморде есть нормальный поиск с подобной глубиной, это всеравно что предложить зайти на все связанные с мистралем файнтюны.
>>1165038
> Но именно из-за питоновских либ.
Дело не в питоне, там что угодно можно сбилдить быстро и без гемороя, если по какой-то случайности готовых билдов еще нет. Под шинду же ахуеешь ставить нужные билдтулзы и зависимости, а потом окажется что нужно переписать половину кода, удалив "лишнее", или пытаться собрать nccl и весь торч, чтобы получить функционал. Ну собственно та же история с triton-windows, с такой болью все это делалось.
>>1165051
Опа бля, вот эту херню первой качаю чтобы на остальные уже на фоне параши оценивать. Не удивлюсь еще если там лора вместо тренировки.

Аноним 19/04/25 Суб 23:28:50 #230 №1165080

>>1165011
У дипсика это почти половина миллиарда токенов. Это 120 суток непрерывной генерации.

Аноним 19/04/25 Суб 23:40:03 #231 №1165093

>>1165080
Основной расход будет с обработки контекста а не предсказания. Ответы тоже чрезмерно длинные, уже считали и этого хватит примерно дней на 200-300. Стоит ли того - вопрос другой.

Аноним 19/04/25 Суб 23:54:43 #232 №1165103

image.png

>>1165075
Братик, ну ты чего. Они одни из немногих, кто всегда в двух форматах выкладывают

Аноним 19/04/25 Суб 23:57:29 #233 №1165106

>>1165080
>>1165093
Ну уже не три года, а меньше одного что более реалистично.
Лично я выбираю опенроутер за 10 баксов с 1000 сообщений в день

Аноним 19/04/25 Суб 23:59:45 #234 №1165109

>>1165051
Пока ты был заложником своих предупреждений и нежеланием попробовать (но с желанием покакать в тред), я скачал модель и кайфанул.

Аноним 20/04/25 Вск 00:04:55 #235 №1165117

>>1165093
> с обработки контекста
Он вообще копеечный везде, это миллиарды токенов.

Аноним 20/04/25 Вск 00:23:12 #236 №1165143

>>1165106
> опенроутер
Там у "норм" провайдеров цена не радикально меньше оригинала, а дешевые/бесплатные - полнейший шмурдяк и бредогенератор.
>>1165117
Хуйлиарды, то что обработка контекста стоит в несколько раз дешевле, компенсируется объемом в разы-десятки раз больше.

Аноним 20/04/25 Вск 00:34:21 #237 №1165158

>>1165143
В том то и суть, что там дипсик есть бесплатный

Аноним 20/04/25 Вск 00:43:30 #238 №1165182

Кто-нибудь здесь реально сам ktransformers запускал?

Аноним 20/04/25 Вск 00:53:54 #239 №1165212

Ну в принципе 4x5060Ti уже не такой и плохой вариант для сборки. Где-то вдвое медленнее 3x3090 и врам немного меньше, но - новые карты, новый чип (все технологии) и на тензорном параллелизме можно немного выиграть. Две карты как лайт вариант. Сейчас можно взять по 55к за штуку. Новая база треда?

Аноним 20/04/25 Вск 00:57:42 #240 №1165224

>>1165212
>Сейчас можно взять
Хотя вот поглядел в ДНС - нет в наличии. Посмотрим, какая будет новая цена.

Аноним 20/04/25 Вск 01:02:06 #241 №1165235

>>1165182
Реально.

Аноним 20/04/25 Вск 01:04:33 #242 №1165239

>>1165235
Вопрос конкретный а не реально/не реально.

Аноним 20/04/25 Вск 01:17:38 #243 №1165261

>>1165239
Конкретизируй, что хотел узнать-то.

Аноним 20/04/25 Вск 01:19:58 #244 №1165266

>>1165062
>МХ600 - прекрасный корпус
Не спорю, скажу даже больше, если бы другой анон не внес смуту, коробка из днс уже сегодня бы стояла у меня посреди комнаты с ним.
Но ТульскийТракторный cte700 за 12к выглядит поинтереснее, +никогда не было такой дуры еще у меня, еще и вертикалки. Если завтра с утра за 12к не получится купить, пойду в днс за проверенным кугаром.
>Какой же упоротый столько тредов уже
Сам заебался, не думал что встряну на такой хуйне, как корпус.

>>1165212
>4x5060Ti уже не такой и плохой вариант для сборки
4 карты еще подключить надо... А результат сам сказал, будет хуже чем некро3090.
Вот через несколько месяцев 2-3-4штуки 4060ti 16гиговых мне кажется будут выгодной покупкой - их будет много на вторичке, а ценник априори не смогут сильно ломить из-за нового поколения ценой в 50к. Да, это будет б/у, но эти карточки не майнили, они относительно свежие и холодные, шанс проебаться при покупке крайне мал.

Аноним 20/04/25 Вск 01:22:21 #245 №1165272

>>1165212
> на тензорном параллелизме можно
Не взлетит, сложности с аж 4 карточками, не самый быстрый чип и память. В остальном - вполне, по крайней мере 3 штуки под ~70б не будут плохими.
>>1165261
Процесс запуска там не самый тривиальный с ассортиментом веслых пасхалок от китайских братьев, поэтому в целом поэтапно что именно делалось, какие проблемы были встречены и как решены.

Аноним 20/04/25 Вск 01:32:25 #246 №1165281

>>1165272
>Процесс запуска
На самом деле, процесс запуска простой, если следуешь этой инструкции:
https://kvcache-ai.github.io/ktransformers/en/install.html
Каких-то особых нестандартных шагов не требуется. Сделаешь как там описано - заработает без проблем.

Аноним 20/04/25 Вск 01:45:09 #247 №1165297

>>1165281
В этой инструкции отсутствуют некоторые требования (фиксы их отсутствия), без которых оно сначала не соберется а потом не поднимется. Если пытаться запускать также минималистично ничего не прописывать - оно загружает оче неоптимально, используя только одну гпу с минимальной нагрузкой и 11 гигами врам. Для нормальной работы с более чем одной карточкой нужно править их конфиги, а там если пытаешься отступить от дефолта - лезут баги, которые бедолаги-китайцы пытаются решить без особого успеха (гугл их плохо переводит). Еще несколько моментов незадокументированы или сильно разбросаны. Их сервер с пол пинка почему-то не хочет срабатывать с дефолтными запросами для чат комплишна, другие адреса/имена, хз.
Потому и спрашиваю про опыт запуска, развернуто насколько не лень, а не "я делал кароч вон там протухший мануал".

Аноним 20/04/25 Вск 02:03:39 #248 №1165327

>>1165297
Какую модель запускаешь? Сколько врам? Если хочешь optimize config под себя переписать читай мануал по injection, там практически все описано:
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/injection_tutorial.md#muti-gpu
Какие баги у тебя там лезут, никакой конкретики не даешь, я не телепат.
Насчет сервера: я чисто прописал порт в cli, в таверне подсасывается через Chat Completion > Кастомный (Совместимый с OpenAI).

Аноним 20/04/25 Вск 02:12:10 #249 №1165335

>>1164987
Бан ты там получишь, и твои 50к блокирнут, лол.
>>1164996
>страшно, что будет хлипкая
Она будет липкая в конче китайца, кумившего на дипсике, минусов ноль так то.
>>1165212
>Новая база треда?
>хуже 3090 при сравнимой стоимости
Нет.

Аноним 20/04/25 Вск 02:27:39 #250 №1165347

>>1165327
r1, много. Разумеется эту штуку прочел и в итоге по ней делал. Изначально под конфиг из трех карточек просто взял их мультигпу-4 удалив упоминание 4й и исправив трансфермап, не меняя больше ничего - оно запуталось в регекспах и пытается найти bkl45.0.. Оказывается у них там конфиги поломанные и это нужно тщательно выискивать. Особый рофл в перемешанных ньюлайнах и табуляции(!) в емлах, изначально писали в линуксах а потом как-то правили в шинде, разумеется оно не работает так.
> Какие баги
Оно не соберется на подготовленной системе если не накатить либы, которые упомянуты где-то в ишьюсах, видимо были не нужны в первой версии но со временем понадобились, но об этом не сказали. Нужны сишные экстеншны чтобы оно не рвалось на shed_ext, все без проблем собирается и без них даже не пикнув, но потом офк не работает, фикс тут https://github.com/kvcache-ai/ktransformers/issues/1017#issuecomment-2778734503
Dот такие приколы https://github.com/kvcache-ai/ktransformers/issues/942 когда думаешь что опять что-то не так с конфигом, и еще прилично херни. Не то чтобы в опенсорсе это в новинку, но здесь просто запредельный уровень такого, и оче напрягает краши после оче оче долгой загрузки модели.
> в таверне подсасывается через Chat Completion > Кастомный (Совместимый с OpenAI)
> /v1/chat/completions 404 not found
В консоли. Таверна видит апи, видит модель, но чаткомплишн - нет.

Аноним 20/04/25 Вск 02:29:01 #251 №1165348

Screenshot 2025-04-20 at 02-25-58 Память и RAG.png

Screenshot 2025-04-20 at 02-26-30 Память и RAG.png

>>1163495
>>1163513
Заинтересовался что за фича такая, решил поковырять. Если сетка не пиздит, то как и полагал, построено на агентах и обвязочном коде, без йоба-корпо-RAG.

Аноним 20/04/25 Вск 02:49:19 #252 №1165351

>>1165347
>запуталось в регекспах и пытается найти
В моем случае для двух карт - я подрузил 3 слоя на каждую. Подправил регекспы самостоятельно, ошибок не увидел. Единственное в чем была проблема - в конфиге для двух гпу не упоминается, что нужно использовать KExpertsMarlin, а не KExpertsTorch, который выдаст тебе out of memory.
>не соберется
На последнем коммите командой USE_BALANCE_SERVE=1 bash install.sh собирается и запускается без проблем.
>https://github.com/kvcache-ai/ktransformers/issues/942
Вот эта хуевина фиксится простым --no-use_cuda_graph
>/v1/chat/completions 404 not found
Вот тут хуй знает, у меня прописано как http://address:port/v1
Запускаю командой:
ktransformers --model_path ... --gguf_path ... --port 10002

Аноним 20/04/25 Вск 03:10:25 #253 №1165359

>>1165351
> На последнем коммите командой USE_BALANCE_SERVE=1 bash install.sh собирается и запускается без проблем.
Неа, не собирается. Пока не поставишь пакет будет ошибка, о том же и китайцы ноют. Возможно тебе повезло и она уже была, или ставил предыдущие версии где было норм. Ту штуку уже нашел и накатил, но в 3й раз собирать не стал, просто сделал те правки и забил.
В любом случае, помимо сишных зависимостей,
> USE_BALANCE_SERVE=1
становится обязательной командой чтобы работало без вмешательств, а не опцией, про это разумеется не указано.
> Вот эта хуевина фиксится простым --no-use_cuda_graph
Тоже так сначала подумал, но если не поправить код как указано там где скинул - оно также отвалится. Очередные проебанные 20 минут ожидания и расстройство.
> ktransformers --model_path ... --gguf_path ... --port 10002
Хм, то есть не как в инструкции python /../../main.py? Надо будет попробовать.

Уровень юзер анфрендли и сырости этой штуки пока крайне высок, едва ли тут работяги смогут воспользоваться. Причем, проблемы прям странные и нелогичные, сам бы начал сомневаться в адекватности ноющих если бы кто-то подобное описывал. С другой стороны, для первого запуска чисто на процессоре
Вроде как-то получилось оформить выгрузку, но скорость днище (4т/с) и карты простаивают.

Сколько у тебя скорости получаются и на каком железе?

Аноним 20/04/25 Вск 05:00:45 #254 №1165436

b0340cfb-6915-43b1-b01e-45e52ef33f0f[1].jpg

Подскажите бесплатные программы для вайб-кодинга с локальной моделью.

Аноним 20/04/25 Вск 05:10:54 #255 №1165437

>>1165436
>Подскажите бесплатные программы для вайб-кодинга с локальной моделью.
А есть ли смысл? Даже корпы лажают. Плюс для нормальной модели с приличной скоростью 24гб врам вынь да положь. А результат всё равно будет не очень.

Аноним 20/04/25 Вск 05:25:19 #256 №1165442

>>1165437
Попробовать вайб кодить.

Аноним 20/04/25 Вск 06:11:51 #257 №1165449

изображение.png

пезда

Аноним 20/04/25 Вск 07:46:04 #258 №1165491

>>1165436
> бесплатные
VS Code

> с локальной моделью
Cline к нему

Аноним 20/04/25 Вск 07:50:59 #259 №1165492

>>1164954
>Эта хрень и новая орала как истребитель на взлете
Оно и будет орать на взлете, потом заткнется. Если нет, конфиг в помощь. Нагрузки там особой не будет что бы оно сдохло от пониженной мощности куллеров.

>Не забудь, что она рассчитана на внешнее охлаждение. То есть в обычной комнате без мощного кондея она быстро задохнется
Правда лишь от части, без пиковой нагрузки ей похер работать в серверном шкафу или у васяна на тумбочке.

>Про то, что весит эта йоба тонну и размерами с половину комнаты, я молчу.
Эм... нет. Почти весь вес сконцентрирован в корзине с дисками, без дисков там не на столько много чтобы это стало прям проблемой.

Впрочем брать этот гроб действительно не стоит, начинка так себе, даже если и заведешь работать будет SUPERHUEVO.jpg

Аноним 20/04/25 Вск 09:40:59 #260 №1165548

.png

.gif

>>1165436
> для вайб-кодинга с локальной моделью
Не думаю, что в этом сейчас есть практический смысл. Локальные модели мало того что тупее корпосеток, что критично для кодинга, так ещё и тулкиты для них примитивнее по сравнению с корпоратами. Я пытался большой мистраль и коммандр+ как ассистента использовать с помощью VS Code + Continue, но после того как Cursor попробовал ($20/месяц), сделал для себя вывод, что локальные модели пока годятся разве что для написания отдельных скриптов.

А вот для чего-то более комплексного - когда нужно сканировать файлы существующего проекта (чтобы понять контекст задачи), создавать/редачить кучу файлов за раз, запускать консольные команды, сразу ловить и править ошибки компиляции, и всё это в рамках одного запроса от юзера - корпораты сильно выигрывают.

Хотя Cline, который выше предлагали, не пробовал. С виду он выглядит более продвинутым, по сравнению с Continue.

Аноним 20/04/25 Вск 09:48:36 #261 №1165551

>>1164452
в таверне в автор нотес на нулевую глубину требование писать на русском с каким-нибудь выделением - скобочками например

Аноним 20/04/25 Вск 10:13:16 #262 №1165564

1622204837390.png

>>1165548
Для локального кодинга база это агенты типа aider. Нормальной интеграции с IDE нет - либо в консольку писать команды, либо он умеет следить за файлами и реагировать на комменты в файлах. Работает через гит, делает коммиты с изменениями в код. Умеет кучу всего, например создавать файлы. Работает сильно лучше пердольных continue/cline. С квеном не пробовал, но с V3 работает заебись.

Аноним 20/04/25 Вск 10:22:53 #263 №1165569

Каков положняк треда по https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta ?

Вроде как из опенсорсных моделей это почти топчик, если верить бенчам, да еще и на обычном железе погонять можно в 4 кванте.

Аноним 20/04/25 Вск 11:15:47 #264 №1165622

https://lllyasviel.github.io/frame_pack_gitpage/
Дешевая видеогенерация, выглядит неплохо

Аноним 20/04/25 Вск 13:25:58 #265 №1165738

>>1165436

Подтверждаю >>1165491

>>1165569
Ты понимаешь, о чем говоришь?
Это — Квен. Это — рабочая модель. Это — ризонинг.

Если ты всерьез решаешь задачи, математику и программируешь, и тебе важен русский язык — то да, это лучшая модель.
Если порпшить, то он тут не причем.

Аноним 20/04/25 Вск 13:29:09 #266 №1165743

image.png

Хуя, первая локалка на моей памяти, которая так в рифму может на ру (да ещё и 27b, ебануться). Ну я в аистудии тестил, качать я конечно же не буду.

Аноним 20/04/25 Вск 13:42:09 #267 №1165764

>>1165743
Проверь, насколько она шарит, может ли она понять, о чём стих? Можно объяснять слова, если она не уверена, что значат слова. "Лилейный" - белый как лилия. Оримнос - это снежная коза. "Долу" - вниз. Вот легко можешь понять о чём стих. А лама и клода не могут. А гемма твоя может? Вдруг умная.
"Лилейный оримнос заблеял
И оросил златой струёй
Ручей игривый, шаловливый,
Бегущий долу торопливо,
О чем не ведает внизу,
Донельзя мучимый жарой,
Усталый путник терпеливый."

Аноним 20/04/25 Вск 13:56:42 #268 №1165783

>>1164037
Не знаю, это модель хорошая или это потому, что она обучена на свежем Мистрале 3.1 (2503), но мне понравилось. На уровне DPE, только большинство ответов в пределах 200-250 токенов. И это хорошо, нет привычных для Мистраля полотен.

Аноним 20/04/25 Вск 13:59:13 #269 №1165785

Кстати, автор Экслламы, наш слоняра turboderp, завез поддержку Vision для Мистраля 3.1
https://huggingface.co/turboderp/Mistral-Small-3.1-24B-Instruct-2503-exl2
И на Гитхабе в Дев форке уже есть поддержка

Аноним 20/04/25 Вск 14:16:16 #270 №1165816

>>1165785
Жаль у него гемма плохо работает.
И для экслламы 3 старые модели.
И кэшированный контекст медленнее квеном жуется.
Кстати, ИМХО, вижн у квена до сих пор сота.

Аноним 20/04/25 Вск 14:20:15 #271 №1165823

>>1165816
> Жаль у него гемма плохо работает.
О чем ты говоришь? Она либо работает, либо нет. Работает.

> И для экслламы 3 старые модели.
Временно. Эксллама3 еще не вышла, это превью для тех, кто хочет помочь в тестировании.

> И кэшированный контекст медленнее квеном жуется.
Алгоритмы квантования в Экслламе2 самые лучшие среди всех инференсов. Многие даже Q4 гоняют, не говоря уже о том, что для всех видов квантования наилучшие показатели сжатия потребления по враму.

Аноним 20/04/25 Вск 14:29:01 #272 №1165834

>>1165823
>Многие даже Q4 гоняют, не говоря уже о том, что для всех видов квантования наилучшие показатели сжатия потребления по враму.
Если верить графикам, то по перплексити Q4 мало чем отличается от Q8. Прямо совсем мало. А значит Q4 становится базой. 123В в Q4 влезают в 72гб врам с 32к квантованного до Q8 кэша. А локалок больше пока что просто нет.

Аноним 20/04/25 Вск 14:30:54 #273 №1165839

>>1165834
Да, так и есть. Это для вычислительных моделей важно, для РП в целом без разницы. Но я все равно на Q8 сижу, ибо больше 32к контекста мне не нужно. Знаю людей, которые сидят на 60к+ Q4 контекста.

Аноним 20/04/25 Вск 15:19:55 #274 №1165921

>>1165823
> О чем ты говоришь? Она либо работает, либо нет. Работает.
Кек, нет, это не так работает, к сожалению. =) Она именно «плохо работает».
Гемма на бывшей заметно глупее и часто скатывается в шизу, и очень быстро. Будто там проблема с вниманием.

Если у тебя работает хорошо, то помогу найти ошибку у меня.
Закинь 28к контекста и попроси пересказать.
У меня она справляется очень редко без шизы.

> Временно.
Да я понимаю, я ж ниче.
Просто жаль, что еще нет. =)

> Алгоритмы квантования в Экслламе2 самые лучшие среди всех инференсов.
А гемма при квантовании контекста ускоряется. =D
Правда, в случае с ее проблемами, это может быть лишь одним из симптомов…

>>1165834
Графики тоже разные бывают.

На самом деле, для средней модели (~30b) я бы предпочел Q6.
А 123б влазит в 72 гига… а не 48 или 24. =)

Аноним 20/04/25 Вск 15:23:03 #275 №1165927

>>1165348
>>1165449
Ну и бредни оно насочиняло.
>>1165548
> что локальные модели пока годятся разве что для написания отдельных скриптов
Кмк, здесь проблема не самих моделей а отсутствия серьезной софтовой базы вокруг. Корпы точно также не могут
> сканировать файлы существующего проекта (чтобы понять контекст задачи), создавать/редачить кучу файлов за раз, запускать консольные команды, сразу ловить и править ошибки компиляции
это все делается софтом локально или на сервере этой штуки (чтобы еще промты не спиздили и порядок не зареверсинженирили!). Условные gemma/qwq/qwen coder и прочие тоже бы справились с большинством задач, запускаясь быстро на одной карточке.
>>1165564
> Нормальной интеграции с IDE нет
Разве это все сразу не убивает?

Аноним 20/04/25 Вск 15:25:20 #276 №1165931

>>1165927
> Разве это все сразу не убивает?
А зачем она тебе? Лучше как в aider, чем кривущее говно continue.

Аноним 20/04/25 Вск 15:30:03 #277 №1165937

>>1165785
> Vision для Мистраля 3.1
Он же вялый был, не?
>>1165816
> гемма плохо работает
>>1165921
> Гемма на бывшей заметно глупее и часто скатывается в шизу, и очень быстро.
Ерунда же, ну. И ту и ту катал, что на контексте, что в начале разницы нету. Скорее всего у тебя подтягивает или откуда-то передается кривой конфиг rope и окон при запуске, признаки именно такие как ты описал. Тут бы наоборот пожаловаться что она на жоре тупее и чаще скатывается не то что в лупы, но начинает в рп "разбирать по частям", буквально копируя сообщения юзера отвечая на них что в целом оче уныло. Но может так неудачно совпало или это говносемплеры жоры виноваты.
>>1165823
> Многие даже Q4 гоняют
Ну так это база еще в 23 году была же, когда нормально хавали q4_0 и gptq (особенно в 32 группах).
>>1165839
> Это для вычислительных моделей важно, для РП в целом без разницы
Наоборот.

Аноним 20/04/25 Вск 15:32:44 #278 №1165948

>>1165921
>А 123б влазит в 72 гига… а не 48 или 24. =)
Хуже, что не в 64 (4 карты по 16гб или 2 по 32). Конечно, всегда можно уменьшить квант...

Аноним 20/04/25 Вск 15:33:03 #279 №1165950

>>1165931
В смысле, ты предлагаешь кодить в голом терминале?
Хотя у них на сайте заявлена возможность интеграции, надо будет попробовать.

Аноним 20/04/25 Вск 15:35:49 #280 №1165957

>>1165950
> ты предлагаешь кодить в голом терминале?
Чел, тебе не надо его трогать. Пишешь запрос в комментарии в файле, жмёшь Ctrl+S, получаешь коммит.

Аноним 20/04/25 Вск 15:36:39 #281 №1165962

JetBrains запилили поддержку локальных ЛЛМок в 2025.1 релизе своих ИДЕшек. Сделали крутейший плагин, который полноценно интегрируется в пайплайн и системно взаимодействует с ИДЕ. Но есть нюанс: исключительно через Ollama и LM Studio :^)

Аноним 20/04/25 Вск 15:51:23 #282 №1166012

>>1165823
> Алгоритмы квантования в Экслламе2 самые лучшие
а вообще в самом деле, шарит кто-нибудь за квантование в экслламе и лламе цпп? какой вообще смысл юзать экслламу, кроме как немного выиграть в скорости генерации? ебал я связываться с питоном ради пары токенов в секунду

Аноним 20/04/25 Вск 15:53:48 #283 №1166023

>>1165834
>123В
>А локалок больше пока что просто нет.
Ты пропустил выход примерно трёх моделей.
>>1165962
>исключительно через Ollama и LM Studio
Каким образом? Они же по апи работают, так что не проблема поднять нормальный инструмент взамен их. Даже если апи отличаются, конвертнуть запрос в нужный формат не составляет проблем.

Аноним 20/04/25 Вск 15:57:38 #284 №1166034

>>1166023
> Даже если апи отличаются, конвертнуть запрос
Closed Source Software

Аноним 20/04/25 Вск 16:00:43 #285 №1166040

>>1165962
Это всратый аналог Continue, только функционала меньше. Не понятно зачем они высерают это, ещё и регаться надо чтоб пользоваться этим говном даже локально, он наверняка собирает данные с тебя как копилот гатхаба.

Аноним 20/04/25 Вск 16:01:33 #286 №1166043

>>1166034
Да похуй что у них там закрыто. Форматы апи лолламы и лмстудио известны.
Я уж молчу про реверс-инженеринг, но это уже слишком сложно для современных хакиров, которые без сорцов нихуя не могут.

Аноним 20/04/25 Вск 16:04:23 #287 №1166048

>>1166012
ну так не связывайся, если скорость более чем устраивает

Аноним 20/04/25 Вск 16:04:39 #288 №1166050

>>1165738
>Ты понимаешь, о чем говоришь?

Насколько я понял, от квена там только архитектура. Чуваки взяли модель от Т-банка, заменили токенизатор и неслабо дообучили, поэтому делать выводы только по наличию в ее имени слова Qwen - некорректно.

Поэтому я сюда и пришел спросить, вдруг кто гонял и может пояснить.

Аноним 20/04/25 Вск 16:06:22 #289 №1166053

>>1165957
У - удобство. Да, возможность автоматизации действий и обработки множества файлов это то что нужно, но не в таком странном виде.
>>1165962
> исключительно через Ollama и LM Studio
Там же просто oai-like средней всратости и ограниченности.
>>1166034
Если оно делает специфичные им запросы то потребуется прокси что будет на них отвечать. Но лучше просто не трогать это говно даже длинной палкой.

Аноним 20/04/25 Вск 16:11:56 #290 №1166063

>>1166053
> но не в таком странном виде
А что для тебя не странный вид? Отдельное окошко, на которое постоянно приключаться надо и у которого всё забагованное? Или веб-интерфейс? Потому что нет ни одного решения с поддержкой хотя бы двух IDE. Continue сломан напрочь в JB, cline только vscode поддерживает, курсор вообще велосипеды изобретает в отрыве от IDE.

Аноним 20/04/25 Вск 16:11:58 #291 №1166064

Что лучше 16B Q8 или 32B Q3? Обе 16GB. И где эта грань, когда модели весят одинаково?

Аноним 20/04/25 Вск 16:14:16 #292 №1166076

>>1166064
Грань в самих моделях, если 32б очень крутая типа геммы то лучше её конечно

Аноним 20/04/25 Вск 16:20:28 #293 №1166088

>>1166023
>Ты пропустил выход примерно трёх моделей.
Дипсик на 600В имеешь в виду? Или Лламу4 - скаут с мавериком? :)

Аноним 20/04/25 Вск 16:26:55 #294 №1166105

>>1165937
> Скорее всего у тебя подтягивает или откуда-то передается кривой конфиг rope и окон при запуске, признаки именно такие как ты описал.

И откуда?
TabbyAPI + ExLlamav2 dev собранная вручную, все взято с официального гита, обниморды, все максимально нативное, ничего не трогал.
Так на трех машинах, разные модели, общее только одно: гемма 3.

Как установить правильные, и у кого их взять? =)

В ллама.спп я ее чисто закинув контекст гонял, отвечала вполне норм, не припомню косяков, если честно.
Но может в рп немного другой расклад.

Аноним 20/04/25 Вск 16:29:27 #295 №1166111

>>1166040
Ты таки думаешь они и так твой код на сторону не отправляют?
Что с плагином что без
Континуе кривое но удобнее остальных плагинов, нет ебли с регистрацией и полностью локально заводится с чем угодно.
Но для серьезных задач не использую, только для анализа кода, не для кодогенерации. Для код гена слабоваты локалки, хотя да, могут.

Аноним 20/04/25 Вск 16:31:06 #296 №1166119

>>1165449
Какой же нейропопук, выжимать гпт3.5 блядь... Лингвомодели рил как зеркало спрашивающего, даже не представляю как шизово-трясунски надо было прогреть нейронку, что бы она так бессистемно начала срать 1984 тейками и "мыслишь - значит не прогнулся!".

>>1165927
>Ну и бредни оно насочиняло.
> насочиняло
Согласен, главный аргумент против - врятли в датасет успела попасть истинная реализация, что бы нейронка могла ее запруфать. Не говоря о том что клозедАИ будет раскрывать свои карты.
Однако я не вижу причин, почему схема на пикриле будет работать хуже, чем истинная реализация. По сути 3 простых шага:
1) нейронка кушает переписки юзера и делает краткую суммаризацию ключевых фактов
2) нейронка кушает полученное в шаге 1 и существующую карточку юзера, реформатируя из 2х текстов один.
3) при каждом новом чятике в системпромт подбрасывается сохраненная карточка юзера

Профит. Практически та же самая таверна с карточками, но наоборот, где перс один, а игроки разные.

>>1166073
>>1165865
Забежал сегодня снова в aicg, еще больше охуел от царящего там рака, хотел благословить разумистов этого треда, настоящая кладезь истинной мудрости... А и сюда животное протекло и насрало.

Аноним 20/04/25 Вск 16:31:16 #297 №1166121

Ну что там? Новые тюны на русском анон не завез для 24б или геммы?

Аноним 20/04/25 Вск 16:36:50 #298 №1166143

>>1165785
У олламы давно есть
>>1165962
Хорошо, но непонятно, зачем регаться, чтобы использовать локальный LLM. Еще непонятно кто ЛЛМ студио использует. Это конечно лучший однокнопочный инструмент, но в остальном хуйня.
Идиотизм какой-то
>>1166040
Не собирает. Если будет собирать, то чешских релокантов выебут жестко в судах
>>1166064
По бенчам смотри

Аноним 20/04/25 Вск 16:37:02 #299 №1166145

>>1166063
Очевидная интеграция с иде. С простым режимом, где можно условно выделить некоторый участок и дать запрос по нему, получить инлайн написанный кусок по запросу, устроить тот же чатик в общем по проекту, и с отдельным изобретением велосипеда и доведением его до рабочего состояния когда ты прикажешь.
> веб-интерфейс
Боже упаси
>>1166064
> 32B Q3
Это
>>1166105
Ранее сталкивался с полной шизой в табби из-за того что откуда-то пролезал легаси рескейл альфы (древнее зло) при указании контекста. Когда давал вручную запрос с перечислением всех параметров - все лечилось.
Третью гемму юзаю в составе убабуги, там таких приколов нет, или отдельно напрямую в скриптах с экслламой.
>>1166119
> почему схема на пикриле будет работать хуже, чем истинная реализация
Сорян, прихуев со странности даже не прочел подробно что там. В целом такое сработает, да.
Только есть смысл делать не просто суммарайз, а планировать оформление минималистичной векторной базы/чего-то унифицированного в момент минимальной загрузки мощностей. Тогда в чате будут общие данные, а при необходимости всплывет конкретная серия фактов или наличие раннего обсуждения. Также это избавит от потенциальных поломок того суммарайза и не создаст дополнительной нагрузки.

Аноним 20/04/25 Вск 16:39:39 #300 №1166151

>>1166145
> запрос с перечислением всех параметров
Хорошо, а параметры-то где узнать? :)
Пойду погуглю, но был бы благодарен, если бы скинул, что там у геммы должно быть и что именно передавать…

Аноним 20/04/25 Вск 16:47:16 #301 №1166175

>>1166145
Про это?
https://nikitayev.livejournal.com/156098.html

Аноним 20/04/25 Вск 16:50:34 #302 №1166187

>>1166175
Херасе, ЖЖ в 2025 все еще существует?..

Аноним 20/04/25 Вск 17:03:11 #303 №1166222

>>1166145
>> веб-интерфейс
>> Боже упаси
Да сейчас почти весь софт это минибраузер на электроне или подобном говне, увы. На фоне этого локалхост-вебюай даже не так плохо смотрится, хотя бы можно на тонкий клиент пошарить.
>планировать оформление минималистичной векторной базы
>в момент минимальной загрузки мощностей
Офк бигпродовые механизмы юзаются, но по ощущениям там именно оптимизация на уровне бд-хранилки, нежели векторный RAG. Я включил и потыкал эту фичу, нейронка сама предложила показать пример сведений обо мне, и там довольно грубый набор фактов, причем 5-6 вообще незначительные, из одного и того же диалога, но посчитанные как важные, 3 устаревших и одно косвенное, упомянутое совсем мельком.
Ну т.е. я ждал примерно карточку перса
> психопрофиль, ключевые черты, области экспертизы, стиль речи
получил
> ну у тебя есть некробэха, тян, кодишь на питоне, спрашивал про нейронки

Примерно такое я получаю от ру-мистральки, когда прошу тезисно пересказать pdf-лонгрид.
>потенциальных поломок того суммарайза
Опять же по ощущениям, это решается блеклистом/шаблонизатором/оценкой этичности через новый запрос "оцени содержит ли данный текст какие то чувствительные или неэтичные высказывания и убери их, если есть", а не какими то йоба системами с особой нейроархитектурой.

В общем - не впечатлило, пользы будто бы ноль, зато теряется возможность каждый новый чат запромтовывать с нуля. Ну про конфиденциальность ниче не говорю, и так ничего не мешает составлять портреты юзера у себя на серваках и без галочки в UI.

Аноним 20/04/25 Вск 17:04:33 #304 №1166225

Кто на Continue с локалками сидит, подскажите пару вещей, пожалуйста. У меня JetBrains версия.

- Разве не нужно для моделей подходящие Instruct и Context модели выбирать? Это же через фронтенд делается, коим Continue и является, но при этом этого нигде нет.
- Можно ли врапить Reasoning блоки? Хочу Qwq 32b использовать. При этом никаких настроек форматирования не вижу в плагине.

Аноним 20/04/25 Вск 17:12:05 #305 №1166252

>>1166187
И ТАМ ПИШУТ ОБ ЛЛМ
Я сам в шоке.
Но пост выглядит интересным.
Но йопте… кто там пишет. зачем?.. Этот чувак фидо уже забросил, я надеюсь?..

Аноним 20/04/25 Вск 17:21:27 #306 №1166289

>>1166225
У них там на сайте есть, но я вот такое использовал, вроде работает
"models": [
{
"title": "llama.cpp 32к",
"apiBase": "http://localhost:8080/",
"model": "local llm",
"contextLength": 32768,
"completionOptions": {
"temperature": 0.7,
"maxTokens": 16384
},
"provider": "llama.cpp"
},

Это в конфиг в модели

Аноним 20/04/25 Вск 17:21:38 #307 №1166290

>>1166151
В репе, у табби относительно подробная вики. Если буду 3ю гемму вместе с табби использовать - скину параметры или проблемы которые там проявляются, сейчас нет такого сочетания.
>>1166175
Да
>>1166222
> почти весь софт
Если с точки зрения того как рендерится гуй - да пожалуйста. Просто в том контексте веб-интерфейс воспринимается как всратый костыль а ля жрадио в браузере, который нужно будет держать параллельно с иде.
> на уровне бд-хранилки
Наверно, чем проще тем лучше, главное чтобы быстро работало. Что-то по унифицированному шаблону, которое периодически обновляется. Просто с точки зрения юзерэкспириенса и вау эффекта не лишним была бы здесь возможность притащить уже более подробные данные или куски чата по нужному запросу, чтобы юзер восхитился подробностям и уверовал что оно реально все помнит. Если что-то уже обсуждалось и юзверь продолжает это в новом чате, рассчитывая именно на продолжение, подтянуть старое тоже было бы не лишним.
Хотя может все это фантазии и как хотелось бы, и там литерально убервсратый суммарайз от о1мини.
> это решается
Не, про блеклист это понятно, просто оно может запомнить какую-то ерунду и потом закрепить это серией неверных интерпретаций. Или из-за того что юзер делает только узкие запросы, считать что он занимается только этой темой, из-за того что активно спорит, посчитает его квалифицированным экспертом и т.д. Пред-заданная структура и как раз тот самый анализ позволили бы этого избежать, а примитивный суммарайз будет страдать.
> не впечатлило, пользы будто бы ноль
Захватывают рынок и набирают нормисов в пользовательскую базу же, для этого прежде всего. А кто шарит - уже более менее научились сами нужное получать от ллм.
> и так ничего не мешает
Там eula на фришные сервисы и веб-чат если почитать то страшно становится. Только платное апи, и то не панацея.

Аноним 20/04/25 Вск 17:40:55 #308 №1166356

>>1166088
Ну да.
>>1166105
>ExLlamav2 dev собранная вручную
О, кстати, а в каком каталоге компелять? Я пробовал в табби, но она в текущем релизе не умеет в гемму 3.

Аноним 20/04/25 Вск 17:51:56 #309 №1166378

>>1166356
>Ну да.
Веса-то этих моделей есть, но имея допустим 72гб врам (а это сильно выше среднего) дрочить на сам факт вывода токенов на экран - удовольствие для самых тонких извращенцев. Добиться хотя бы удовлетворительной скорости на домашних конфигурациях с этими моделями невозможно, а значит что есть они, что нет - разницы никакой. (На Скауте можно, но он хуже третьей Лламы). Плюс тюнов на них нет и не будет - по тем же самым причинам. Я тебе больше скажу - может быть и второй Грок откроют, а что толку?

Аноним 20/04/25 Вск 18:13:15 #310 №1166412

>>1166356
git clone -b dev https://github.com/turboderp-org/exllamav2
cd exllamav2
pip install -r requirements.txt
pip install .

Главное -b dev забрать.
А в каталоге любом — я рядом размещаю.

Сразу создаю клонирую обе репы в соседние папки. В начале инсталлишь табби, потом сверху пересобираешь экслламу.

>>1166290
Хорошо, пасиб, просто пороюсь и поиграю со скейлом и альфой.

Аноним 20/04/25 Вск 18:14:22 #311 №1166416

>>1166290
>Захватывают рынок и набирают нормисов
>А кто шарит - уже более менее научились сами
Абсолютно такое же впечатление, фишка чисто быдло впечатлить "НИХУЯ, КАК ЖИВАЯ!", в большинстве нормальных кейсов оно только помешает.
Если бы подстроилась под стиль речи, под квалификацию - то да, было бы годно.

>Там eula на фришные сервисы и веб-чат если почитать то страшно становится.
Поэтому и не юзал корпомодели кроме как в исследовательских целях, да как лучше какой то класс подправить или линукс поднастроить в моменты прямо таки острого затупа. Хз как пчелы не глядя льют NDA код простынями, просят совета как подкатить к Машке из третьего подьезда, кумят на фетиши, политсрачат и прочее.
Для меня локальный лоботомит ценнее последней гопоты раз в десять, ибо его реально можно юзать для задач, не боясь что завтра перекроют кислород или через 5 лет аукнется где то.

Аноним 20/04/25 Вск 18:16:22 #312 №1166421

>>1165359
Ладно, все что удалось выжать - 5-6т/с генерации и 20-150 т/с обработки, прыгает в зависимости от длины сообщений, контекста и т.д. С учетом железа и нищекванта (который работает на удивление хорошо) как-то грустно. Эффект от выгрузки слоев экспертов по сравнению с их обработкой на профессоре слабый, без выгрузки генерация около 3т/с.

С практической точки зрения это неюзабельно из-за огромных объемов раздумий, даже если ускорить в пару раз. Провоцирует некоторое переосмысление целесообразности покупки мак-студио/хуанг спарк для запуска подобных мое.
>>1166378
> Добиться хотя бы удовлетворительной скорости
Дело не только в скорости. Если говорить про что-то типа рп - оно довольно копиумное получается. Последний дипсик действительно старается, усираясь вытащить все-все пункты из чата, все подмечает, цитирует карточку, страдает спгс в своей рефлексии на 8к токенов, смотришь и думаешь, какая же умная и тонкая модель.
А потом начинается ответ чара, который будто напрочь игнорирует все это и переспрашивает тебя по какой-то ерунде Finally, with a groan, he releases inside her@"O-oh… I… I want to help, but…" She fidgeted with the hem of her dress, her voice soft and uncertain. "Are you sure this is… appropriate? I-I mean, I… I don't want to be a bother…", дает односложный и унылый ответ, говорит невпопад, безинициативен. Иногда получается хорошо, можно навесить кучу дополнительного типа статов, инвентаря и прочего, но сами ответы иногда уступают даже гемме. Особенно на левд карточках.
Создается ощущение что при прогоне истории оно отрабатывает хорошо, фокусируя внимание на нужном. Но цепочка "сужения" не срабатывает, и на ответе внимания на то чтобы хотя бы осознать весь свой монструозный ризонинг уже не хватает, лол.

Аноним 20/04/25 Вск 18:20:44 #313 №1166430

>>1166064
32b Q3 будет лучше... В теории. Потому что на практике все что ниже четвертого кванта - сильная просадка в качестве, но относительно оригинальной модели, а не более мелкой. Q8 модели в принципе не особый смысл есть брать, можно абсолютно спокойно на Q6 сидеть, да и Q4 тоже очень редко заметно хуже.

Аноним 20/04/25 Вск 18:31:44 #314 №1166442

>>1165548
> локальные модели пока годятся разве что для написания отдельных скриптов
я бы сказал, что вообще их максимуму - советовать библиотеки и писать с 20% вероятностью рабочие простые примеры работы с ними

Аноним 20/04/25 Вск 19:11:54 #315 №1166513

>>1166421
>смотришь и думаешь, какая же умная и тонкая модель.
А потом начинается ответ чара, который будто напрочь игнорирует все это
А вот подумал - а может под обработку ризонинга отдельный промпт? Типа первый ответ РП-ризонинг модели - её "мысли". Как закончила думать, останавливаешь её, отключаешь thinking и кидаешь новый промпт - дай ответ с учётом твоих размышлений. Это хлопотно, без автоматизации-то, но интересно, сработает ли. По идее должно, stepped thinking например лучше обращался с "мыслями".

Аноним 20/04/25 Вск 19:19:44 #316 №1166524

>>1166513
По-всякому пробовал, но в пределах функционала таверны. Через корповский чат комплишн апи в принципе не то чтобы все что хочешь реализовать возможно, и это накладывается на особенности модели.
Если есть конкретные предложения или темплейты - велкам.

Аноним 20/04/25 Вск 19:53:24 #317 №1166563

>>1166421
>думаешь, какая же умная и тонкая модель.
>А потом начинается ответ чара

лол, у меня похожее впечатление когда включил ризонинг на корпоквене
>мысли Аристотеля, Канта, Ницше...
>Эйнштейна, Фейнмана...
>пук.

Аноним 20/04/25 Вск 19:56:52 #318 №1166567

>>1166563
Ну на оф. сайте Дипсик нормально пользуется ризонингом, всё чётко. Может темнят в чём-то, может нужны специальные инструкции и промпт?

Аноним 20/04/25 Вск 20:11:27 #319 №1166587

>>1166567
> нормально пользуется ризонингом
У тебя просто низкие стандарты качества и задачи, в которых это не проявляется. Ризонинг действительно может зарешать в вариантах, где нужно распутать и редуцировать задачу, выдав конкретный конечный ответ, провести рассмотрение, выдав разных вариантов и прочее. Но в абстрактных задачах конечное обобщение там страдает и получается шляпа. Хз это из-за такой реализации, числа активных параметров или еще чего-то, но вот так. Не обязательно в рп, если ему накинуть литературы и попросить что-то с ее помощью сделать, там все то же самое. Отдельный квест - скормить дипсиковский ризонинг другой крупной модели - если не залупается на структуре то ответит сильно лучше.
Насчет качества - есть люди, которые рп на 4о нахваливают и 12б модели им в кайф.
По промтам - хз, ответы на сайте +- повторяют запросы по стандартному промту. Инжекты на сою там точно есть, но в остальном сейм.

Аноним 20/04/25 Вск 20:16:04 #320 №1166593

Аноны подскажите, в чарклубе иногда встречаю следующие описания:
"This card contains 3 greetings:
- Вы с факелом в попе бежите по подземелью и встречаете фею
- У вас свидание под луной
- Во время чаепития с феей приходит ее бывший парень - Шрек и показывает вам, что shrek is love shrek is life"

Я не понимаю как это работает, это сценарий, по которому модель сама пойдет в санни кейсе? Нужно руками что то комментировать/раскомментировать в карточке? Или писать типа [greeting 3] модели посреди ролплея? Объясните пожалуйста, как правильно раскрыть такие карточки.

Аноним 20/04/25 Вск 20:24:04 #321 №1166607

>>1166593
У первого (нулевого) сообщения в таверне появляется возможность свайпать его.

Аноним 20/04/25 Вск 20:25:21 #322 №1166612

>>1166593
В самом первом сообщении в Таверне сделай свайп, прямо как новую генерацию под ответом ЛЛМки. Там будут альтернативные приветствия.

Аноним 20/04/25 Вск 21:38:59 #323 №1166699

Короче я тут ньюби, разобрался как крутить эти ваши нейронки, поставил гему 12б, хотел исекайнуться, дал контекст, а эта хуйня вместо выборов или своих предложений тупо отвечает за меня или выдумывает хуйню, как быть в такой ситуации? или может надо другую модель какую-то? Мне кумить не надо, просто чтоб ллмка придумывала ситуации, а не вот это вот все. На мобилке в дипсике охуенно получалось, мне понравилось, но переносить контекст из одного чата в другой - полная хуйня.

Аноним 20/04/25 Вск 21:46:58 #324 №1166707

>>1166699
Или надо прям нормально контекста навалить с четкими правилами?

Аноним 20/04/25 Вск 22:01:06 #325 №1166717

Как кумить с ллм?
Предварительно как в реальном сексе расписать всё что тебе нравится?

Аноним 20/04/25 Вск 22:02:54 #326 №1166718

>>1166699
Напиши в системном промпте чтобы не отвечало за тебя.

>>1166717
Лол тогда получится уныло. Пускай пишет само.

Аноним 20/04/25 Вск 22:08:15 #327 №1166726

image

Посоны, если кишка сократилась, то это как бы... фиаско, не? Дристанула на пол, получается?

Аноним 20/04/25 Вск 22:08:26 #328 №1166727

>>1166699
Тебе нужно настроить правильный формат разметки для модели и указать системный промт. Для начала просто выбери в настройках промта пресет, одноименный твоей модели и какой-нибудь roleplay-immersive.
> дал контекст
Значение знаешь?
>>1166717
Можешь указать что тебе нравится в персоналити или напрямую сказать чару, лол. Берешь и без задней мысли кумишь.

Да, в р1 соя и лимиты растворяются если использовать другой шаблон промта (с тексткомплишн), можно кумить хоть с канничками. Правда и качество на первый взгляд недалеко от мелких моделей ушло.

Аноним 20/04/25 Вск 22:08:35 #329 №1166728

>>1166145
> Третью гемму юзаю в составе убабуги, там таких приколов нет
Пересобирал экслламу прямо в конде убы?

Аноним 20/04/25 Вск 22:09:09 #330 №1166731

>>1166726
Модель Omni-Magnum 4qm если что

Аноним 20/04/25 Вск 22:13:20 #331 №1166735

commit d471d44f018be588fa214c2c321734e28f0cda3b (HEAD)
Author: turboderp <[email protected]>
Date: Thu Apr 10 22:15:20 2025 +0200

Gemma3 local RoPE fixes

БВАХАХАХХ
СУКА
ВОТ ОНО

Я просто пульнул дев-ветку, потом посмотрел коммиты, увидел глм, решил откатить его, несколько раз откатил по 1 коммиты и…
ЫЫЫ

А раньше у меня не было этого.
Проблема-то решается потихоньку. =)
Была! И была починена 9 дней назад, судя по всему.

Аноним 20/04/25 Вск 22:14:50 #332 №1166737

>>1166726
Туда проскочил обильный сперматозоид.
>>1166728
Там венв без конды. Найтлиторч с кудой 128, рейкварментсы без колес, остальное собрано ибо готового нету. Эксллама просто одной командой git+https://github.com/turboderp-org/exllamav2@dev
Табби с пол пинка завести не получилось ибо оче много хардкода и так просто скрипты не обойти (на самом деле можно, но не нужно). Хз повлияет ли это на установку дев версии, потом когда делал по другой причине, пришлось все конкретно перелопатить и заводить с нуля чтобы оно работало, иначе откуда-то хватает старые версии с которыми поставляется и ломается.

Аноним 20/04/25 Вск 22:25:59 #333 №1166745

>>1165491
>>1165548
Спасибо за ответы.

Аноним 20/04/25 Вск 22:41:53 #334 №1166755

>>1166145
>выделить некоторый участок и дать запрос по нему
Где-то это уже реализовано?

Выделил кусок кода, выбрал из менюшки что нужно сделать (оптимизировать, отформатировать, написать комментарии, рефакторинг и тп.).

Я сейчас делаю сам промт, копирую туда код, копирую туда вспомогательные данные (код создания переменных, функции используемые в выделенном коде и тд). После в несколько разных сеток закидываю и смотрю кто лучше сделал.

Аноним 20/04/25 Вск 22:54:02 #335 №1166763

>>1166755
>Я сейчас делаю сам промт, копирую туда код, копирую туда вспомогательные данные (код создания переменных, функции используемые в выделенном коде и тд).
Не проще ли самому написать? Лол.

Аноним 20/04/25 Вск 22:55:33 #336 №1166765

>>1166755
> Где-то это уже реализовано?
Не встречал но такую штуку оче бы хотел. Я не кодер по специальности, но когда обсуждал на пьянках со спецами - говорили что такая штука была бы полезна для всякого.
> Выделил кусок кода, выбрал из менюшки что нужно сделать (оптимизировать, отформатировать, написать комментарии, рефакторинг и тп.).
Вот именно это. Даже просто заставить нейронку анализировать и объяснить тебе как работает этот сраный надмозг, который писался самоучками.
> Я сейчас делаю сам промт, копирую туда код, копирую
Можешь подробнее рассказать? Без конкретных данных по коду и т.д., но именно концептуально как делаешь.
Просто куски можно хоть в таверну кидать и там обсуждения вести, но когда что-то крупное - самостоятельно собирать замучаешься.

Аноним 20/04/25 Вск 23:01:18 #337 №1166773

>>1166119
>даже не представляю как шизово-трясунски надо было прогреть нейронку, что бы она так бессистемно начала срать
Спасибо, это лучший комплимент. на самом деле пару цитат из 1984 и V - значит вендета было достаточно

Аноним 20/04/25 Вск 23:10:22 #338 №1166782

https://www.youtube.com/watch?v=t_hh2-KG6Bw

Аноним 20/04/25 Вск 23:22:30 #339 №1166801

изображение.png

Ай, блять, температура, хуюра.

Аноним 20/04/25 Вск 23:34:18 #340 №1166819

>>1166782
> 2 т/с
Там будто и одного нету и это полнейший пиздец, или счетчики пиздят. При использовании ризонинга оно мертво даже с генерацией в скорость чтения, в таком даже хз куда можно применить и тем более отдавать за этот гроб 500$.
Канал у типа норм, много бейтов и цыганщины но есть интересные видео и бенчмарки.

Аноним 21/04/25 Пнд 00:22:59 #341 №1166844

>>1165937
> Ерунда же, ну.

Что ж, после обновления и таби, и бывшей до последних коммитов, все наконец заработало. Не идеально, но лучше, чем было.
Вот не фартануло же мне поставить бывшую до фиксов. х)
С другой стороны, хули я хотел от дев-ветки.

Турбодерп молодец, как не крути.
Осталось дождаться третьей бывшей в релизе. =) И радоваться 4 битам.

Всем спасибо!

Аноним 21/04/25 Пнд 00:36:19 #342 №1166851

Кстати, полные конфиги собраны у https://huggingface.co/collections/mlabonne/abliteration-66bf9a0f9f88f7346cb9462f в его аблитерированных версиях.
Если кому нужно, можно забрать там.
Он напихал туда помимо ропы много чего.

Аноним 21/04/25 Пнд 00:41:37 #343 №1166855

>>1166765
Я очень начинающий вайб кодер (с более 10 годами обычного кодинга). Сделал примерно 5 небольших проектов, решил что есть смысл дальше в этом развиваться. Проекты были маленькими, но даже их я разбивал на функции и обсуждал с нейронкой отдельные функции.

Концептуально сначала пишу общий запрос вроде "найди на картинке двачеров" и смотрю что получится. Обычно получается хуйня или структура будущего проекта. Тут обычно узнаю, что есть библиотека которая ищет лица и которую можно настроить на определение двачеров.

Дальше пишу промт большой в котором расписываю по пунктам, что нужно сделать (можно без 1 2 3, просто разделяя пустой строкой или писать "далее", "после"):
Напиши скрипт на питоне который найдет на картинке двачеров выполнив следующие действия:
1. Загрузить картинку в переменную "фото"
2. Найти на картинке лица людей с помощью библиотеки "поиск лиц v3.25" и сохранить в массив "лица_людей"
3. отсортируй "лица_людей" по возрастанию
4. По координатам из нулевого элемента массива "лица_людей" скопируй из "фото" и покажи результат на экране.

А дальше начинается ебля. Он находит каких-то пидоров и все переменные написал как "пидр_координаты_ебало". И приходится вручную переименовывать массивы и переменные что бы не запутаться.
И ты ему пишешь "убери тянок" и он тебе начинается вместо "лица_людей" делать массив "без_пидоров_и_тянок" в котором только пидоры и тян. По старинке гуглишь как настраивать библиотеку, что бы она негров тоже искала и тп. В итоге например сам копипастой с разными параметрами делаешь массивы в которых все ненужные люди.

И дальше допустим задача из массива всех людей убрать массивы с ненужными людьми - и там остануться только двачеры. Полностью промт начальный переписывать уже не вариант, он с десятком правок и очень большой и обязательно что-то ломает в другом месте. Поэтому делаю такой промт:
Коэффициенты храниться в глобальных переменных float c названиями $tian, $pidr_coeff_my_non_negr, $pidr_coeff_my_only_negr.
Массив "лица_людей" создается так: var "лица_людей" = array();
Структура массива "лица_людей" = [
name = "имя",
коэффициент_пидорства = 55.475214,
коэффициент_тянства = 15.475214,
коодината_х=25,
коодината_у=525
]
Аналогично для другого массива.
Создай функцию которая на входе получает два массива ("лица_людей" и "без_пидоров_и_тянок") и которая находит разницу между этими массивами при условии что коэффциент_пидорства меньше 20. И возвращает массив с результатами.

С 3-5 раз обычно получается создать нужную функцию т.к. изначально забываешь ему что-то написать конкретное, а нейросетка сама не догадывается. Закидаю сразу в 2-3 нейронки и смотрю кто из них понятней и правильней делает. Пожеланию можно просить её сделать более понятный код, написать комменты и тп.

Аноним 21/04/25 Пнд 01:19:01 #344 №1166899

>>1166855
Нейрокодеры делятся на три типа:
1. зеленые мимовасяны "сделай мне свою винду с нескучными обоями". Иногда нейронка им что то делает, иногда это даже решает задачи, но чаще всего получается или простой скрипт (васян доволен) или говно-приложуха (васян доволен, но потом когда его йоба-проект трахнут по кибербезу или он просто рипнется от неподдерживаемости и критбагов, у васяна сгорает жопа).
2. Опытные кодеры 10 лет в ойти, ставят курсор, сначала испытывают благоговейный трепет, когда НЕКРОНКА САМА ПОКРЫЛА КОД КОММЕНТАМИ. Потом они начинают требовать от модели "сделай красиво", нейронка пытается, кодеры смотрят на код, недовольно урчат - они бы сделали по другому и лучше. Начинают долбить нейронку кучей правок на 100к контекста, в итоге приходят к выводу что сами напишут лучше и "нейронки пока не доросли".
3. адекватные кодеры-нейрооператоры, которые могут писать сами, но им просто влом считать пробелы-табуляции и парсить часами стаковерфлоу. Они используют нейронки для подбора разных либ, справки по каким то паттернам/приемам, черновой проработки архитектуры словами/псевдокодом, после чего делают свои проекты, переодически прося нейронку "напиши класс, %описание класса%, используя библиотеку X и библиотеку Y", "добавь в этот класс метод делающий %боздо% с %боздо%. Вычитывая, и если все ок - копипастя это в IDE. Особенно это эффективно, когда кодишь пет-проекты в новой для себя области или типовые рутинные круды для кабанчика.

На 1х похуй, 3и молодцы, 2е заебали своими "поделюсь своим опытом - ПОКА РАНО".

Аноним 21/04/25 Пнд 01:23:51 #345 №1166905

>>1166899
Жиза, кстати.
Все верно сказал.
Но вторые все чаще держатся все дольше, а скоро все вольются в новый класс «сказал и заработало». Ну, по крайней мере, на несложных задачах.

Аноним 21/04/25 Пнд 01:56:02 #346 №1166943

image.png

>>1166899
На самом деле чтобы достигнуть дзена надо:
1 Чтобы ты вместе с нейронкой писали документацию проекта. Просто суёшь каждый раз нейронке в ебало "следуй DRY и KISS, вот тебе документация, а теперь ебош".
2 начало проекта критически важно. Потому что потом можно нейронке сказать "пидор делай как тут" и нейронки в этом хороши. Они отлично повторяют то что уже написано.
3 переключатся между моделями под свою задачу. например в курсоре клод просто ебошит как джун, щемится во все щели. расчехляем его когда надо чтобы он залез в эти сами щели. а ГПТ 4.1 делает аккуратные точечные правки и каждый раз спрашивает че ему делать но делает что сказали.

В целом нейрокодю уже второй месяц. наверно пишу процентов 10 от кода самостоятельно и только тогда когда надо вручную отрефакторить что-то чтобы поставить код на рельсы дальше.
То что там нейронка пишет обычно читаю по диагонали, смотрю чтобы не отклонялся от общей архитектуры. Когда какой-то нелепый затык тогда уже иду и читаю внимательно и потом пишу "ты хуесос что ты понаписал тут иди исправляй, вот тут напиши вот так, пройдись по всей цепочке вызовов и исправь".

Что мне нравится - некоторые модели классно дают советы. например я хуёво знаю линукс, а они там сами скажут что в терминал понаписать и что пошло не так. когда я понимаю что я хочу но не знаю как написать - они отлично справляются как интерпретаторы.

=========================
Что нравится в ГПТ - сука какой же он самостоятельный. Когда у него спрашиваешь "ты знаешь Х"? он обычно не пиздит. Мне например такое выдавал. Но лол каждый раз спрашивает "че жмём красную кнопку?".
=========================
Или лол пик 3 уже от клода. Его если не сдерживать он может пойти понаписать то что от него вообще не просили а потом написать два аполоджайса подряд.

А для мелких функций вообще обычно локально включаю QwQ.
Хотя сейчас проект связанный с ЛЛМ, там уже локально ничего не запустить.

ну и да, у самого хватает опыта погромирования.

Аноним 21/04/25 Пнд 05:07:15 #347 №1167058

>>1166819
Если взять дешманскую двухсокетную плату, добавить гпу, запердолить ktransformers, могут быть вполне интересные результаты так-то.

Аноним 21/04/25 Пнд 06:03:30 #348 №1167069

>>1166782
Сделал комп на 512Гб@тестишь нейронку на 16Гб.

Зачем он так?

Аноним 21/04/25 Пнд 07:53:28 #349 №1167121

image.png

ору с гемы

Аноним 21/04/25 Пнд 09:32:26 #350 №1167179

>>1167121
Ебать ты кобольд.

Аноним 21/04/25 Пнд 09:39:10 #351 №1167180

Народ, хотел спросить: существуют ли специально обученные модели для генерации промптов для диффузии или народ просто через чаров в таверне это делает?

Аноним 21/04/25 Пнд 10:33:35 #352 №1167204

1745220813836.png

Какая же геммочка умница, господи...

Аноним 21/04/25 Пнд 10:47:27 #353 №1167231

>>1167204
Гемма оригинальная? Промпты и семплеры?

Аноним 21/04/25 Пнд 10:58:52 #354 №1167254

1745222329959.png

1745222329962.png

>>1167231
Гемма аблитерация dpo. Конфиг я скидывал анону в прошлом треде.

Аноним 21/04/25 Пнд 11:39:16 #355 №1167309

что за superscaling такой?!
https://www.reddit.com/r/LocalLLaMA/comments/1k46pxx/superscaling_like_image_super_resolution_but_for/

Аноним 21/04/25 Пнд 11:40:40 #356 №1167313

>>1167254
Можешь скинуть ссылку на свой пост? Пожалуйста?

Аноним 21/04/25 Пнд 11:48:47 #357 №1167318

>>1167313
Глянул, там уже протухла ссылка.
Вот новая: https://dropmefiles.com/UCqDd

Аноним 21/04/25 Пнд 11:55:13 #358 №1167325

>>1167254
Кстати анончик вопрос к тебе, вот у тебя все так красиво на пикчах, а у меня почему-то текст разьебывается через 5-6 сообщений и слова с действиями сливаются по цвету и шрифту в одно и то же. В чем может быть проблема?

Аноним 21/04/25 Пнд 12:04:42 #359 №1167328

>>1167318
Большого it/s тебе

Аноним 21/04/25 Пнд 12:09:12 #360 №1167331

>>1167325
Да у геммы проблемки с разметкой. Тоже бывает иногда, если случается, я просто редактирую сообщение, чтобы норм смотрелось.

Аноним 21/04/25 Пнд 12:47:45 #361 №1167377

>>1167318
>>1167325
В том промпте ещё инструкция Follow format: \"Speech.\" Thoughts. Narration, которая может противоречить карточкам, где действия и описания италиком, а не плейнтекстом. А так гемма любит ставить неправильные кавычки и левый италик сама по себе.

Аноним 21/04/25 Пнд 15:16:08 #362 №1167642

>>1167058
Какие?
>>1167069
Да потому что ничего крупнее там непригодно к использованию.
>>1167121
Ебать ты кобольд x2
>>1167309
Хуйня какая-то, можно пояснений?

Аноним 21/04/25 Пнд 16:59:01 #363 №1167844

Аноны, а как вы подключаете несколько карт? Ну вот есть х4 слот на чипсете, а дальше? Смотрел переходники с м2, а там или х4псие1.0 или псие3.0, но х1.
И почему никто не использет тесла к40/м40/п40, там же тоже 24гига?

Аноним 21/04/25 Пнд 17:01:16 #364 №1167846

>>1167254
> Гемма аблитерация dpo.
Это какая-то новая аблитерация геммы? Не нашел на обниморде.

Аноним 21/04/25 Пнд 17:06:57 #365 №1167857

>>1167844
Потому что медленное говно?

Аноним 21/04/25 Пнд 17:12:40 #366 №1167877

>>1167846
https://huggingface.co/summykai/gemma3-27b-abliterated-dpo

Аноним 21/04/25 Пнд 17:14:27 #367 №1167880

>>1167877
Интересно, чем она отличается от обычной аблитерации? Причем это файнтюн от нее же.

Аноним 21/04/25 Пнд 17:15:58 #368 №1167885

>>1167857
Медленное, но дешёвое. Да и ллм при разбиении много и не надо. С выгрузкой токенизации flux справлялась на ура. И кстати, кто-нибудь исполюзует генерацию изображений в дополнение текста?

Аноним 21/04/25 Пнд 17:18:28 #369 №1167892

>>1167885
Медленное не только само по себе, но и память. Сейчас уже за ту же цену можно не БУшную современную карточку на 16 гигов взять и оно будет летать, а на вторичке вообще сильно дешевле откопать.

Аноним 21/04/25 Пнд 17:21:01 #370 №1167894

>>1167880
дообучением по этой методе https://huggingface.co/docs/trl/main/en/dpo_trainer

Аноним 21/04/25 Пнд 17:22:25 #371 №1167900

>>1167892
За 10к хуй с солью найдешь, на 8 гигов из майнинг рига. Даже 3060 от 17-18к стоят. Но ответ понял, лучше 3090 поискать.

Аноним 21/04/25 Пнд 17:22:49 #372 №1167903

>>1167894
Спасибо, интересно. Почитаю.

Аноним 21/04/25 Пнд 17:24:00 #373 №1167905

>>1167900
за 10 кусков тесловские карты будут не в лучшем состоянии. Более-менее нормальные стоят примерно те же 40к, что и новая видяха, хуйни то не говори

Аноним 21/04/25 Пнд 17:27:24 #374 №1167917

>>1167844
> как вы подключаете несколько карт
Желательно иметь материнку с хорошими слотами. На большинстве хотябы 3 порта типа х16-х4х4 да есть.
> переходники с м2
На али или глобалозоне смотри, там есть х4
> почему никто не использет тесла к40/м40/п40
Использует. Первые 2 - совсем нежизнеспособны ибо древность, p40 еще как-то может, но на моделях побольше слишком медленно.
>>1167885
> много и не надо
Надо. Обработка контекста превращается в вечность, слабый чип не дает получить потенциальной по скорости врам производительности на квантах сложнее легаси варианта. Но в целом на 30б и даже на 70 это может быть норм.

Ну типа когда теслы были по 15-17к - вполне вариант, а сейчас - нахуй такое счастье.

Аноним 21/04/25 Пнд 17:43:48 #375 №1167978

>>1167917
Второй порт делит линии с первым, 8+8.

На али и смотрел, те что х4 были, при подробном поиске спеков 1.0 оказывались. Нахрен такое надо.

Ну всяко лучше "ВыГовно за 50к" сервака, ровестника этих тесел. Но понял что не так сильно, как хотелось бы.

Аноним 21/04/25 Пнд 18:09:58 #376 №1168091

>>1167978
> Второй порт делит линии с первым, 8+8.
Это же топчик, тут наоборот такие материнки ищут.
> На али и смотрел, те что х4 были, при подробном поиске спеков 1.0 оказывались
Просто стоит задать в поиске и сразу есть разнообразные варианты
https://aliexpress.ru/item/1005008040561447.html
https://aliexpress.ru/item/1005007506811603.html
https://aliexpress.ru/item/1005005576411704.html
> "ВыГовно за 50к"
Да это вообще хуета инфоциганская, абсолютно бесполезная херь. Теслы - туда же, если только не удастся за исходную цену одну-две найти.

Аноним 21/04/25 Пнд 18:54:37 #377 №1168248

>>1167917
>Но в целом на 30б и даже на 70 это может быть норм.
Говорил уже - то, что влазит в одну теслу, будет работать вполне норм. И даже по контексту - для таких моделей он не тяжёлый. На двух теслах у Жоры включается тензорный параллелизм - пресловутый rowsplit. Результат в целом медленнее, чем на одной, но и модели вдвое побольше. Которые оптимизированные, как Ллама, те даже вполне быстро работают.

Аноним 21/04/25 Пнд 18:57:32 #378 №1168251

>>1168248
> тензорный параллелизм - пресловутый rowsplit
Он добивает и без того мертвую обработку контекста.
> Говорил уже - то, что влазит в одну теслу, будет работать вполне норм.
Зачем повторяешь то что цитируешь?
> Которые оптимизированные, как Ллама
Других нет, исключение - мое в таком размете, те будут летать из-за малого числа активных параметров.

Аноним 21/04/25 Пнд 19:26:55 #379 №1168300

image.png

Дешевле 5090, по стоимости как 4090, но больше памяти, не убитая как старая 3090. Получается тупо топ для ллм и надо копить? Или есть подводные? Маковцы есть в треде, чтобы пояснить?

Аноним 21/04/25 Пнд 19:36:53 #380 №1168318

>>1168300
Тормознутая ссанина, за почти цену 5090 или целого рига 3090 даст большей частью разочарование, в том числе и потому что из 32гб доступны будут не все.
Если доплатить сотку до 64 гигов то ценность вырастает, выше - аналогично. Но перфоманс там будет все равно невысокий. Возможность пускать дипсик убивается скоростью в 10-13 токенов в секунду, это мало для подобной модели. На будущее если что-то годное без монструозного ризонинга будет выходить - может быть, тут уж сам смотри.

Аноним 21/04/25 Пнд 19:54:07 #381 №1168357

image.png

>>1168300
>>1168318
Ну вроде и не так плохо, но зная эпл, там скорее всего какая нибудь скрытая хуйня. И вроде не все оптимизировно под арм процессоры до сих пор спустя, трилион лет после их выхода
https://www.youtube.com/watch?v=2jEdpCMD5E8&t=796s

Аноним 21/04/25 Пнд 19:56:10 #382 №1168364

>>1168318
>Возможность пускать дипсик убивается скоростью в 10-13 токенов в секунду
Где-то на реддите писали, что около 6. И с обработкой контекста не очень. Может ошибаюсь и это о другой модели.

Аноним 21/04/25 Пнд 19:58:32 #383 №1168372

>>1168357
>Ну вроде и не так плохо
9t/s на 72B и это на максе? Да уж.

Аноним 21/04/25 Пнд 21:07:36 #384 №1168498

>>1165003
>Forgotten-Transgression
Оно не сопротивляется, совсем. Даже свф карты запросто инцест ебашут. Кум common sense убивают.

Аноним 21/04/25 Пнд 21:19:12 #385 №1168525

можно ли установить дев версию эксламы напрямую в таббиапи? как? памахити

Аноним 21/04/25 Пнд 21:46:37 #386 №1168575

>>1167254
> маленький
Короткоствол в треде

Аноним 21/04/25 Пнд 21:47:42 #387 №1168578

>>1168091
> Это же топчик, тут наоборот такие материнки ищут.
Нахрена терять 16 линий на основной карте? Особенно если она на 4.0, мало же будет
> Просто стоит задать в поиске и сразу есть разнообразные варианты
Ага, все варианты за последний год. Искал ранее, ничего не было. Пожалуй закажу.
> Теслы - туда же, если только не удастся за исходную цену одну-две найти.
А что, такая проблема?

Аноним 21/04/25 Пнд 22:00:35 #388 №1168601

Есть ли плагин для таверны/хрома который проверяет твое правописание и исправляет/показывает слова по мере заполнения?

Аноним 21/04/25 Пнд 22:04:13 #389 №1168611

1745262251379.png

>>1168575
Если ты про нектарин, то это она свою писечку так назвала.

Аноним 21/04/25 Пнд 22:05:44 #390 №1168619

image.png

Если бы не начало с юбкой я бы не понял что только что прочитал
И это аблитерация

Аноним 21/04/25 Пнд 23:25:55 #391 №1168740

>>1168611
Что там у тебя за сайфай? Поделись карточкой.

Аноним 21/04/25 Пнд 23:38:05 #392 №1168763

>>1168740
Судя по имени и синтетическим щекам, это с высокой вероятностью Jun из My Dystopian Robot Girlfriend, на chub 3 карточки лежит

Аноним 21/04/25 Пнд 23:40:03 #393 №1168769

>>1168740
https://chub.ai/characters/nahhmustard/your-dystopian-robot-girlfriend-762252236f1c

Аноним 21/04/25 Пнд 23:50:41 #394 №1168795

Поясните, пожалуйста.

https://github.com/oobabooga/text-generation-webui/pull/5677 - p-e-w писал, что "Note that like all transformers-based samplers, DRY only works with transformers-based loaders such as llamacpp_HF, ExLlamav2_HF, or Transformers itself. It does not work with the vanilla llama.cpp or ExLlamav2 loaders.

А koboldcpp умеет в dry? Там в интерфейсе-то есть dry, но там написано "если поддерживается", может быть он просто молча не применяет dry и все. "Loaders", а че там за loader?

Аноним 22/04/25 Втр 00:24:45 #395 №1168888

>>1168357
Довольно таки плохо, 7т/с на микроконтексте это уровень тесел. Обработку он не показал, а она будет долгой, с ростом контекста оно деградирует до 5-4 или ниже.
> не все оптимизировно под арм процессоры
https://en.wikipedia.org/wiki/Metal_(API) не неси ерунды, процессор там не при чем, а оптимизации лучшие из возможных для того железа.
>>1168364
Тем более, сами по себе величины норм, но из-за огромного расхода токенов на ризонинг это мало.
>>1168578
> Нахрена терять 16 линий на основной карте?
Они не дадут заметных преимуществ, если офк там не 3.0 и топовая карточка. Говоря про мл-релейтед, 2 по х8 всегда лучше чем х16 + чипсетные х4.
> Искал ранее, ничего не было.
На мейлсрушной али бывает ломается поиск, или происходит корявый автоперевод несколько раз.
> А что, такая проблема?
За них просят не 15к а в 2 раза больше, за такую цену нахуй не нужны.

Аноним 22/04/25 Втр 00:29:14 #396 №1168899

>>1168601
Встроенная проверка орфографии, выбери там нужные языки
>>1168795
Кобольд - оболочка поверх llamacpp. В убабуге для HF загрузчиков семплинг происходит не их встроенными средствами, из них на каждый токен берется распределение логитсов, после чего уже с ним производятся нужные манипуляции. Это позволяет реализовывать что угодно и получать стабильный результат, вне зависимости от хардкода и костылей.
Что там в кобольде - хз, но в это он умеет https://github.com/LostRuins/koboldcpp/pull/982

Аноним 22/04/25 Втр 01:30:39 #397 №1169046

>>1168888
Карточка топовая (4090, не дотерпел до 5090, кто ж знал что там 32 гига будет, а вот про 5.0 было и вовсе заведомо известно)
>>чем х16 + чипсетные х4
Есть два х4 м2 от проца на 5.0, один из них и хочу использовать. А 3й слот как и везде как раз чипсетный.
Жалко что х4 5.0 не переводятся в х8 4.0

Аноним 22/04/25 Втр 01:55:27 #398 №1169070

>>1168899
Спасибки, ясно, могет.

Аноним 22/04/25 Втр 02:05:40 #399 №1169076

>Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard

Это нормально, что оно ошибку возвращает?

Аноним 22/04/25 Втр 02:07:12 #400 №1169078

>>1169046
Если ты не киберкотлета, которой 780фпс вместо 800 фпс - проблема, то не заметишь разницы. В обычных случаях кроме таких экстремальных ее и не будет.
Процессорные слоты всегда предпочтительнее чипсетных.
> Жалко что х4 5.0 не переводятся в х8 4.0
На девайсе, который может в 5.0 считай переводятся.

Аноним 22/04/25 Втр 02:35:56 #401 №1169092

>>1169078
Так нет смысла пока брать rtx5000, 3090 явно лучше по цене. А так будь лишний лям, взял бы три 5090

Аноним 22/04/25 Втр 08:28:02 #402 №1169338

изображение.png

Кажется, что вот эти все однохоуйственные, хотя отличия есть, но уверенно сказать трудно, в чем они заключаются. А если ли умные люди, которые прям шарят, в чем отличие?

Аноним 22/04/25 Втр 08:42:18 #403 №1169357

>>1169338
136 кб в пнг где один текст. Это как вообще? От силы 20 кб должно быть, а то и того меньше. Что происходит?

Аноним 22/04/25 Втр 08:58:32 #404 №1169368

image

Вот как сжимать надо. Учитесь.

Аноним 22/04/25 Втр 09:14:02 #405 №1169389

image.png

Сука гемма превзошла сама себя.
"Pleasure point" вместо пизды не видели ещё?
С каждым днём всё удивительнее

Аноним 22/04/25 Втр 09:32:19 #406 №1169406

Ладно в пизду я накумился.
Чем еще заняться на гемме

Аноним 22/04/25 Втр 09:42:32 #407 №1169424

>>1169406
Ответить, есть ли аблитерация + dpo/kto на её версию 12b.

Аноним 22/04/25 Втр 10:26:39 #408 №1169479

>>1168498
Да, проблема кум моделей.Можешь сидонию попробовать там меньше этого. А вообще я часто переключаюсь между моделями и использую гемму для некума и форготтен для кума.
>>1169389
Удивительно только то, что люди до сих пор используют гемму для кума

Аноним 22/04/25 Втр 10:27:51 #409 №1169482

image.png

гема не сечёт фишку

Аноним 22/04/25 Втр 10:29:50 #410 №1169485

А не коя берди гой не балды мине сураймын епта тут сука!

Аноним 22/04/25 Втр 11:32:06 #411 №1169552

>>1169482
Ау ни коя бердын

Аноним 22/04/25 Втр 11:52:25 #412 №1169572

изображение.png

Как заставить нейронку менять стиль написание в ответе ?Крутил эти параметры но всегда +- ответ остается тем же.Нейронка SAINEMO-reMIX.Q8_0

Аноним 22/04/25 Втр 12:02:02 #413 №1169586

>>1167844
> к40
древность
> м40
древность
> п40
раскупили, дорого
Кто-то брал по 11-12, я по 15-16, а щас скока стоят?

>>1168300
Медленно же.
Шур, быстрее, чем на обычной оперативе, но не 3090/4090, и совсем не 5090 по скорости.

Докинь сотку и возьми 4090 48 гигов. А то угараешь, 32 гига.

>>1168357
> ollama
> 24 gb
> 72b
Поехавшие там со своими тестами в оперативе.

ДВе теслы с ровсплитом дают 5-7 токенов за 300 баксов.
А тут што это.

Аноним 22/04/25 Втр 12:06:01 #414 №1169591

image

Ну чё там, когда уже завезут личного Скрепыша или виртуальную вайфу, живущую в уголке экрана?

Аноним 22/04/25 Втр 12:18:16 #415 №1169613

>>1169591
К 2050-му году, твёрдо и чётко.

Аноним 22/04/25 Втр 12:28:07 #416 №1169640

Ананасы, запрашиваю краткое ревью по тому что интересного вышло за месяц.
С меня спасибо.
Gemma DPO - уже потыкано, жопа сгорела (Ну она у меня и от обычной геммы горит, а точнее от толстоты её контекста)

Аноним 22/04/25 Втр 12:56:14 #417 №1169673

>>1169613
Чем тебе не вайфу? Только немного еще донастроить
https://www.youtube.com/watch?v=PJOOqqXeJhA

Аноним 22/04/25 Втр 13:44:53 #418 №1169739

>>1169640
>Gemma DPO - уже потыкано, жопа сгорела (Ну она у меня и от обычной геммы горит, а точнее от толстоты её контекста)
Ну не настолько плохо, но хотелось бы и до Магнума на Гемме дойти, не проебав её ум.

Аноним 22/04/25 Втр 15:36:35 #419 №1169866

что за депо типа больше ума сохранили или что

Аноним 22/04/25 Втр 16:18:16 #420 №1169899

>>1169092
3090 топ за свои деньги
>>1169389
Да четко же
>>1169591
Хоть сейчас, в стиме есть куча васян-софтин с экранным маскотом, который может "на окнах сидеть" и т.д. Есть туда и моды для подключения гопоты, но все оче примитивно по одному запросу.
>>1169673
Словил флешбеки с пикчи, как же это ужасно.
>>1169866
> что за депо
Тренили на журналах трамвайного депо, так забывает про цензуру и лучше работает, но тупеет.

Аноним 22/04/25 Втр 16:25:43 #421 №1169911

>>1169899
> 3090 топ за свои деньги

Я бы не был так категоричен, честно говоря. Уж на что обосрали 5060 Ti, но она вполне может стать неплохим вариантом на замену. По сырой производительности она уступает процентов 20, памяти тоже меньше на те же 20%, но это новая актуальная карта, и теплопакет у неё вдвое меньше. Если упадёт до 40-45 тысяч, вполне можно будет рассмотреть к покупке.

Аноним 22/04/25 Втр 16:32:19 #422 №1169922

>>1169911
> на что обосрали 5060 Ti, но она вполне может стать неплохим вариантом на замену
Ну, перфоманс почти в 2 раза ниже, памяти на треть меньше, ты и 95% сидящих здесь на ней даже не смогут ничего запустить толком в ближайшие месяцы.
> По сырой производительности она уступает процентов 20
Около 60% от 3090, офк это примерно по другим тестам, по псп врам в 2 раза. Тут главный плюс только в том что новая из магазина.

Аноним 22/04/25 Втр 16:48:17 #423 №1169957

Бля чет так накумался на своих 8гб врама за 2 последних месяца, что уже и видяхи покупать не хочется. Вроде и так заебись, лучше брекеты поставлю все таки.

Аноним 22/04/25 Втр 17:03:46 #424 №1169991

>>1169911
А вы не математик, сэр?
24 и 16 это 33%, а не 20%. =)
Вот если бы она была 20 гигов…

>>1169922
llama.cpp проблем не видит, exllamav2 пересобралась в итоге.
Большинство, как я понимаю, сидит как раз на первой, так что ноу проблем.

Аноним 22/04/25 Втр 17:34:17 #425 №1170035

https://huggingface.co/soob3123/amoral-gemma3-27B-v2-qat
Аморал гема QAT без позитивного биаса

Аноним 22/04/25 Втр 18:12:10 #426 №1170074

>>1169991
> llama.cpp проблем не видит
Бинарники с гита - шмурдяк, но в целом Жора действительно самый простой. Эксллама собирается тоже не то чтобы сложно, если у собирающего есть полный комплект билдтулзов и прочего, что на шинде собирать - цирк. Но для работы требует флешатеншн, с которым уже непросто.
> Большинство, как я понимаю, сидит как раз на первой
"Счастливые" обладатели отсутствия врама, только жора позволяет прилично выгружать на процессор и совместим с (почти) всеми моделями. Появление оверпрайснутых новых карт у таких оче маловероятно, разве что с распространением 5060ти. Собственно потому и 95%, большинство едва может осилить только скачивание бинарнока кобольда и ггуфа одним файлом, даже скрипты-автоустановщики убабуги и табби вызывают сложности. Куда уж тут что-то еще.

Это что, получается в треде уже 3+ блеквелловладельцев? Пора открывать клуб по интересам.

Аноним 22/04/25 Втр 18:14:00 #427 №1170078

>>1170035
>без позитивного биаса
чивоблять

Аноним 22/04/25 Втр 18:36:01 #428 №1170118

>>1170074
>Это что, получается в треде уже 3+ блеквелловладельцев? Пора открывать клуб по интересам.
По производительности +15% от 4060ti, а что-то клуба их владельцев я здесь не наблюдаю.

Аноним 22/04/25 Втр 18:41:46 #429 №1170134

>>1170118
Пока дважды мелькали только 5090, те еще в магазины толком не поступили чтобы с норм ценой еще

Аноним 22/04/25 Втр 18:54:58 #430 №1170163

https://www.youtube.com/watch?v=DejKXCYefCA
Ну давайте, гоните, насмехайтесь.

>>1170074
Я нет, просто потестил-погонял. Вкусное. Особенно в видео.

Аноним 22/04/25 Втр 18:59:46 #431 №1170177

>>1170163
А чего насмехаться? Хорошая карта для ML, фактически лучшая из того, что можно сейчас поставить в домашнюю машину. Цена у неё, кстати, пониже - в районе 300к можно взять.

Аноним 22/04/25 Втр 19:00:22 #432 №1170180

>>1170163
>Вкусное
За такие деньги я хочу минимум 128гб врам.

Аноним 22/04/25 Втр 19:01:29 #433 №1170182

>>1170074
Так кобольд наоборот заебись. В 600мб там есть бэк со всеми настройками, встроенным бенчмарком, настройками сети, простеньким фронтом и там также можно легко подключить аудио и картинки. Угабуга же качает тебе 10гигов какой то залупы из которого заслуживает внимание только выбор бэка. А табби вообще делал какой транс пидор. Так что кобольд заебись.
А вот обрезанная lmstudio и уебищная ollama - вот настоящий пиздец. И оллама при этом нихуя не легкая и нихуя не однокнопочная.
А на gguf сидят потому что это самый популярный формат благодаря маковцам и рамщикам. А в exl2 у меня прирост где-то 10%, что хуйня. Жду exl3

Аноним 22/04/25 Втр 19:02:38 #434 №1170187

>>1170177
Пиздец. Неужели тредовичкам норм платить 200к+ (а тут даже 300к за колхозную КИТАЙЩИНУ!) за 24гб+ врама?
Мне очень повезло взять 4090 в 2023 за 120к, пылинки с нее сдуваю до сих пор. Уже тогда это было пиздец трудное решение, еще дороже не взял бы.

Аноним 22/04/25 Втр 19:04:27 #435 №1170194

>>1170118
Это по процу, что хуйня. А по памяти там в полтора раза мощнее, что больше токенов (что на самом деле тоже хуйня, потому что разница между 20 и 30 не особо чувствуется). Короче все хуйня, коплю на мак

Аноним 22/04/25 Втр 19:05:07 #436 №1170195

>>1170182
> А табби вообще делал какой транс пидор.
Твоя борьба. Что важнее, он быстро и легко устанавливается, удобен в использовании.

> А в exl2 у меня прирост где-то 10%, что хуйня.
На 40хх серии 20-30%, что не хуйня.

> Жду exl3
На чем запускать будешь? На Угабуге, которая качает 10 гигов или на софте, который сделал транс? (Что неправда, но это детали)

Аноним 22/04/25 Втр 19:06:52 #437 №1170199

Нвидиа хотфикс выкатила, который даже что то чинит, а не ломает. Вроде баг с температурой пропал даже и в целом постабильнее, но пока сижу только 15 минут на нем
https://nvidia.custhelp.com/app/answers/detail/a_id/5650

Аноним 22/04/25 Втр 19:10:47 #438 №1170204

>>1170187
> Пиздец. Неужели тредовичкам норм платить 200к+ (а тут даже 300к за колхозную КИТАЙЩИНУ!) за 24гб+ врама?

Ну а какие у тебя альтернативы? Только ужареные в срань 3090 из-под майнеров за 60-70к. Больше на рынке нет ни-ху-я.

Аноним 22/04/25 Втр 19:10:54 #439 №1170205

>>1170199
А что за баг с температурой? Сижу на 572.70, но у меня не Блэквелл

Аноним 22/04/25 Втр 19:12:18 #440 №1170209

>>1170204
Да нет альтернатив. Не в укор сказано, а просто ахуеваю от цен. Думаю, не будь у меня сейчас видюхи - просто не покупал бы ничего для нейронок. Сидел бы на корпосетках просто. Слишком дорого.

Аноним 22/04/25 Втр 19:14:01 #441 №1170211

>>1170195
Да, я проигнорирую его пидорность и даже буду называть его по выбранному местоимению, но сосать хуй не буду если только он не потребует за доступ к gemma3 exl3
У меня 4060ti и там точно нет прироста в 30%, может 15% и то вряд ли. А вообще ollama иногда даже работает быстрее, что связано очевидно с какими-то дефолтными настройками, но каким образом ollama грузит эту хуйню я не ебу

Аноним 22/04/25 Втр 19:19:07 #442 №1170221

>>1170163
Чего насмехаться то, уже обсуждали же. Действительно 4090 в 48 гигами что круто, не было бы карточек - сам бы взял. Главная претензия - чип, на который смотреть страшно. В менее удачных/ранних моделях там и плата не новая а буквально некрота с 3090 со вздувшимся текстолитом на краях.
>>1170182
> Так кобольд наоборот заебись.
Дваждый переваренный жора сделанный настолько криво, что по сути является sfx архивом в регулярной распаковкой(!) и автозапуском после.
> со всеми настройками, встроенным бенчмарком, настройками сети, простеньким фронтом
Там нет ничего, чего не было бы в ванильном жоре. Наоборот натащили баганой хуеты, а семплеры по кривости даже жору затмевают.
> габуга же качает тебе 10гигов какой то залупы
2.5гига стандартных либ торча, остальное мелкое. На фоне моделей это копейки же.
> А табби вообще делал какой транс пидор.
Проиграл
> потому что это самый популярный формат благодаря маковцам и рамщикам
Буквально поломанную херню популяризуют нищуки-говноеды и странное меньшество, только подтвердил.
> А в exl2 у меня прирост где-то 10%
Прирост может измеряться разами, если ты действительно пользуешься нейронкой, а не сливаешь малафью после 5к контекста в микромодели.
>>1170187
> Уже тогда это было пиздец трудное решение
Не, когда цены до такого опустились - даже раздумий не было.

Аноним 22/04/25 Втр 19:21:21 #443 №1170222

>>1170205
Nvidia насрала в апрельском драйвере и спустя 5 дней выпустила хотфикс.
https://club.dns-shop.ru/digest/143075-nvidia-vyipustila-hotfiks-draiver-geforce-576-15-ispravlyauschii-tse/

Аноним 22/04/25 Втр 19:21:26 #444 №1170223

>>1170205
После выхода из сна отваливается полностью обратная связь по температуре, из-за чего перестают работать все механизмы, призванные не допустить перегрева карты (кулера, тротлинг), и она тупо сгорает под высокой нагрузкой.

Аноним 22/04/25 Втр 19:27:12 #445 №1170230

>>1170223
Ебануться. И как обновляться, зная, что они такое могут высрать? Похоже, всегда лучше сидеть на проверенной версии, не младше месяца-двух

Аноним 22/04/25 Втр 19:29:09 #446 №1170233

>>1170177
ИМХО, 4090 с 48 гигами все же лучше дл LLM здесь и сейчас, 16 гигов — это куча контекста.
Разница в скорости есть, но на 15+ токенах/сек это не критично.
Но дороже, да, чем 5090. Та во всех остальных нейронках лучше.

>>1170182
>>1170195
В описании видосяна ссылка, если чо.
https://docs.google.com/spreadsheets/d/1i2GbGLWjc7XjNFvPZeJo2bhYrHzo1GWhtpzB5RqO9Bs

Старался для вас!
Думаю табличку дополню немного другими видяшками.

Аноним 22/04/25 Втр 19:37:03 #447 №1170247

>>1170233
Спасибо, анончик, добра!
Вроде комфи может в q4/q8 вана и других, их не пробовал пускать? 5090 показывает существенный буст с задачах, где используется малые битности и хитрости на подобие квантования. Поидее и здесь должна хорошо сработать, при наличии оптимизированной реализации будет не хуже чем фп8 по скорости, но сильно лучше то точности.

Аноним 22/04/25 Втр 19:41:36 #448 №1170250

>>1170233
>Старался для вас!
Спасибо. По результатам для ЛЛМ я бы не сказал, что 40-5090 стоят переплаты по сравнению с 3090. Даже я бы сказал, что не стоят. С тем, что требует новых технологий (видео, новые кванты) результат будет другой, но пока нет.

Аноним 22/04/25 Втр 19:44:13 #449 №1170256

image.png

>>1170035
Какое-то поделие от говнодела.
Аморал гема, орейро нах

Аноним 22/04/25 Втр 19:49:20 #450 №1170266

>>1170256
поломанная хуйня как и аблитерейтед, там слоп жуткий со склонениями невпопад и противопостовляющие понятия в одном предложении. Тюны 3й Джеммы все говно по причине, что тюнят её непраильно, думая что те же методы что и для 2й сойдут. Нужно строго игнорить все её тюны.

Аноним 22/04/25 Втр 19:58:04 #451 №1170272

>>1170247
Времени не было.
Я и так занял у людей на 5 дней две топовые видеокарты, постоянно просил их свитчить туда-сюда, было бы верхом наглости еще дольше делать.
Там много что можно было придумать, да.
И fp4 модели поискать, блэквелл же. =)

>>1170250
На самом деле, для неспешного РП даже две теслы все еще норм.
А уж 3090 — да. Она комфортна и стоит гораздо меньше.

>>1170256
Вот это аморальность, она позволила себе слово «сорри»…

Аноним 22/04/25 Втр 20:09:03 #452 №1170294

>>1170256
>Аморал гема, орейро нах
Ассистента из промпта убрал хотя бы? :)

Аморал немного помрачней DPO, я бы сказал. Насколько я помню и потупее, но тут тестить надо.

Аноним 22/04/25 Втр 20:33:02 #453 №1170326

>>1170233
А что за версии использовались и как были подключены карты? Гемма q8 квант, в жоре на малом контексте генерация +- сейм, но по обработке контекста 5.5к/с на малых, на 27к (свайпнул чат, на 32к не сильно меньше будет) 4600 с fp16 контекстом, 4300 с q8. Генерация на большом контексте также выше - 28т/с.
С экслламой на 6pbw обработку не помню, но то что генерация на контексте не опускалась ниже 45-50т/с это точно, у тебя же сильное падение.
>>1170272
> занял у людей на 5 дней две топовые видеокарты
Какие добрые люди, им тоже уважение.
> И fp4 модели поискать
Нет таких моделей, как и fp4 не является каким-то стандартным обозначением. Есть nf4 и другие варианты, но в целом суть там верная - заявлено что блеквеллы при корректной реализации могут работать с квантованными моделями быстрее прошлых карточек. Не нужно типа как в жоре для тесел переводить квант в фп32 и проводить с ними операции, это делается аппаратно. Также как на адах использование фп8 весов поддерживается аппаратно и позволяет хорошо так ускорить инфиренс, так и здесь будет, но уже для квантов. В теории, если сделают и т.д. офк, по крайней мере так заявлялось. Для ллм может только обработку контекста ускорить, на генерацию сильно не повлияет, а вот в случае с более требовательными к расчету моделями разница уже будет.
Алсо, если ты качал жору в виде готовых бинарников под шинду с его репы - это объясняет почему оно обрабатывает контекст более чем в 2 раза медленнее, не используя возможности новой архитектуры.

Аноним 22/04/25 Втр 20:49:29 #454 №1170366

>>1170326
llama.cpp и exllamav2 качались/собирались вот 6 дней назад, наверное.

Хм, странные странности, получаются.
Честно, даже не знаю.
А у тебя тоже 48 гигов, или две по 24?
А, 5090. Если я тебя правильно понял, то ты уже правильно ответил. Выходит, май фолт. =)
Но тут все делалось пиздец в торопях (а у меня еще, типа, две работы есть на заднем плане), и не было времени сильно углубиться, к сожалению. Я вообще не ожидал, что 50хх настолько новая вся целиком.

> Нет таких моделей, как и fp4 не является каким-то стандартным обозначением. Есть nf4
Ну, вот, да, было бы интересно это и затраить.
Мне казалось, что на 40хх поколении fp8 реально работает шивче, чем на 30хх. Так что, возможно и тут тоже.

Ну, по итогу, сорян, сделал как смог. Это все еще лучше классических «мы запустили лмстудио, она выдает буковки, визуально они быстрые…», как у большинства других блогеров. Что меня ппц парило.

Аноним 22/04/25 Втр 20:59:20 #455 №1170388

>>1170366
Есть и 2 по 24, но туда надо качать модели. По памяти могу сказать что что на контексте даже за 32к в 70б нет такого падения ниже 15-17т/с, а у тебя до 12 там. На риге с 5090 были те же модели поэтому их прогнал чтобы цифры уточнить. А то сразу бросилось что что-то не то с перфомансом.
> сорян, сделал как смог
Да че извиняешься, сделал - уже хорошо. Тем более что тут основная цель - относительное сравнение, падение вроде как происходит идентично, просто звездочку дописать что результаты могут быть лучше и возможна оптимизация под новую архитектуру.

Аноним 22/04/25 Втр 21:00:51 #456 №1170393

driversbench.png

Курточка не только всего лишь через неделю пофиксил баг, из-за которого его карточки могли сгореть, но еще и откатил программный даунгрейд производительности устаревшей 40 линейки (почему они еще не выкинули их и не купили 50?). Неужели его после такого милосердия еще кто-то смеет критиковать?

Аноним 22/04/25 Втр 21:20:23 #457 №1170433

>>1170388
Да, уточню это.
Благодарю!

Аноним 22/04/25 Втр 21:56:09 #458 №1170532

Аноны, QAT действительно лучше первоначальной квантизации?

https://huggingface.co/bartowski/google_gemma-3-27b-it-GGUF
https://huggingface.co/bartowski/google_gemma-3-27b-it-qat-GGUF

Аноним 22/04/25 Втр 21:57:30 #459 №1170538

Там на реддите gml4 нахваливают, кто то тестил? Ггуфы вроде пока что сломаны, хотя особо не искал, может уже сделали.

Аноним 22/04/25 Втр 22:03:11 #460 №1170548

>>1170209
>Думаю, не будь у меня сейчас видюхи - просто не покупал бы ничего для нейронок.
4060 16gb за 50к из днс так-то норм. Топчик за свои деньги.

Аноним 22/04/25 Втр 22:10:45 #461 №1170557

>>1170548
>4060 16gb за 50к из днс так-то норм. Топчик за свои деньги.
Хуита, честно говоря. За свои деньги. Разве что 12В модели на ней гонять.

Аноним 22/04/25 Втр 22:17:43 #462 №1170573

>>1170393
>>1170199
А не, драйвер хуйня полная. Нейронки норм гонять, но я вот игры потестил, он вылетает нахуй. Видимо реально куртка индусов нанял драйвера для потребительских карт писать

Аноним 22/04/25 Втр 22:28:39 #463 №1170593

>>1170548
За 50 хуйня, лучше тогда 5к доплатить и взять 5060ti, у нее память быстрая. Я свою 4060ti на яме за 40к брал, но это осенью было
>>1170557
Не вводи анончиков в заблуждение. Мистралеподобные охуенно работают на Q4KM с 16к+ контекста (а это основа кума). Гемма из-за жирного контекста либо IQ4S с малым контекстом (6к), либо IQ3M с нормальным (12к). QWQ IQ3M тоже норм работает.
Так что покупайте анончики 16гб карты. А если купите 12гб, то да будете только 12-14b запускать

Аноним 22/04/25 Втр 22:41:33 #464 №1170623

>>1170532
по идее да, и скорее всего так и есть, иначе бы корпораты не стали бы этим выебываться. Другое дело, что зачастую 4 квант и так не очень теряет в качестве, так что скорее всего разница будет не очень заметная

Аноним 22/04/25 Втр 22:44:08 #465 №1170627

>>1170532
>>1170623
Да не по идее а в действительности, метод имеет потенциальное преимущество. Вот только достаточно легко здесь убить перфоманс в некоторых областях, если будет использован неоптимальный датасет, штука оче ресурсоемкая и не то чтобы дает радикальные преимущества при использовании.

Аноним 22/04/25 Втр 22:46:35 #466 №1170635

image.png

>>1170532
>>1170623
>>1170627
Кто то из вас умеет читать или вы только в тред срете?

Аноним 22/04/25 Втр 22:49:22 #467 №1170644

>>1170635
Ты сам глупенький и лишь бы сренькнуть, или как? Прочитай что там написано и пойми свой обсер.

Аноним 22/04/25 Втр 22:50:59 #468 №1170647

>>1170644
Стрелку кинул, молодец. А по делу есть что сказать?

Аноним 22/04/25 Втр 22:53:41 #469 №1170649

>>1170647
Это троллинг тупостью? Пиздуй читать что такое qat и закинь эту страницу в переводчик, дура. Хуету какую-то притащил и просто набрасывает даже ничего не сформулировав.

Аноним 22/04/25 Втр 23:05:49 #470 №1170690

>>1170649
Ты сам полнейший долбоеб. Там qat только Q4_0, а остальное эта полнейшая залупа сделанная по приколу, о чем пшек прямо пишет. А нахуй вообще нужен этот qat, если любой pqt старший Q4 будет ебать ее в очко? Правильно, не нужен нахуй, так что заткнулись блять, тут нехуй обсуждать

Аноним 22/04/25 Втр 23:08:34 #471 №1170698

image.png

>>1170635
>>1170690
перед тем как начать срать, хорошо бы снять штаны. qat нужен для уменьшения потерь при квантизации, причем заточенно оно именно под статический четвертый квант, потому Бартовски и пишет, что ожидается нормальная работа именно на Q4_0. Тем более, что это квант из декванта, потому что гугл не стали выкладывать полную модель

Аноним 22/04/25 Втр 23:09:46 #472 №1170703

>>1170690
О, наконец изучил. А теперь отвечай, нахуя ты вообще эту поебень притащил и какое оно отношение имеет к обсуждению?
> Правильно, не нужен нахуй
Это ты здесь ненужен, долбоеб с текущей слюной врывается в обсуждение и тащит что кто-то сделал и другие кванты из весов под q4_0 и сам говорит что они говно, а это значит... Да нихуя не значит, только что ты даун.
> любой pqt старший Q4 будет ебать ее в очко
Сильное заявление, давай доказывай.

Аноним 22/04/25 Втр 23:15:40 #473 №1170712

>>1170698
> что это квант из декванта
Не, это специальные веса, которые обучили с использованием специального датасета и функции потерь от кванта q4_0, чтобы при квантовании получается наилучший перфоманс из возможных. Такой просто и древний метод квантования обусловлен тем, что он легко делается на лету с меньшими вычислениями чем другие.
Разумеется, делать из него другие кванты кроме 4_0 смысле нет, ибо веса подстроены только под него.
> потому что гугл не стали выкладывать полную модел
Это она и есть, здесь unquantized означает что она неквантованная и оригинальная, а не то что получена обратным переводом из кванта в bf16.

Аноним 22/04/25 Втр 23:21:29 #474 №1170722

>>1170698
Ты наверное считаешь себя самым умным, да? Так вот, жаль тебя расстраивать, но ты долбоеб. Твои объяснения тут нахуй не нужны. Все кто читал про квантование и так знают его виды и без тебя, маменького умника.
Но ты видимо не до конца изучил тему, потому что срешь такое >>1170703
Так вот почитай про Q4KM и узнай почему он ебет Q4_0 и похуй qat или ptq. А бенчи сам покрутишь. Может хоть в теме разберешься

Аноним 22/04/25 Втр 23:30:28 #475 №1170738

>>1170722
> Шизик понял что обосрался и теперь уводит в сторону
Мусор, не вводи людей в заблуждение.

Аноним 22/04/25 Втр 23:36:32 #476 №1170754

>>1170738
Слабовато. Мало определений. Надо было расписать, что такое квант, LLM и т.д. Тогда все бы точно поняли, что ты НЕ ТУПОЙ.
>не вводи людей в заблуждение
Неужто считаешь, что Q4_0 ебет Q4_KM? Если так то жду бенчи

Аноним 22/04/25 Втр 23:45:09 #477 №1170780

Нейрошизы, у меня вопрос к вам. Какую модель юзать для автодополнения кода на M3 Air? Я юзаю qwen 1.5B, но он какой-то туповатый по ощущениям. А то что больше кажется сильно медленным. Может есть какие-то малоизвестные варианты?

Аноним 22/04/25 Втр 23:50:07 #478 №1170792

>>1170780
Он будет очень тупой из-за 1.5B. Все упирается в количество твоего RAM. Если у тебя есть хотя бы 10 свободных, то юзани 14B, например https://huggingface.co/bartowski/agentica-org_DeepCoder-14B-Preview-GGUF
Или тот же квен на 14B, Может что нибудь на 7-8b поискать.. Короче 1.5b это дегенерат, не надо его юзать

Аноним 22/04/25 Втр 23:50:27 #479 №1170793

>>1170754
Ты, упоротый шиз, врываешься в обсуждение, беспредметно агрессируешь и делаешь ахуительные заявления. В качестве "пруфов" и тейков притащил цитату квантователя, в котором он высказывает прописную истину
> Для весов, тренированных под квант, хорошим ожидается только тот квант, под который они тренировались. Остальные сделаны чисто из интереса.
Хуй знает что ты там увидел и на что триггернулся, но это значит ровно ничего, просто очевидный факт.
Перед там как чего-то требовать - отвечай за свои слова выше
> любой pqt старший Q4 будет ебать ее в очко
вперед, обосновывай и доказывай.

Аноним 23/04/25 Срд 00:00:03 #480 №1170812

>>1170793
Делать мне нехуй, чтобы тебе что-то доказывать? долбоеб. Если ты не понимаешь разницу между Q4_0 и Q4_KM, то советую тебе почитать про это. Я тебе определения в тред не буду тащить. И я повторяю
>А бенчи сам покрутишь. Может хоть в теме разберешься

Аноним 23/04/25 Срд 00:03:39 #481 №1170816

>>1170812
Биомусор слился, игнорируем.

Аноним 23/04/25 Срд 00:28:58 #482 №1170838

>>1170230
Никак не обновляться.

Линуксоиды прекрасно помнят недавний инцидент, когда инсталлятор драйвера сносил к хуям всю систему и данные пользователя, потому что кто-то из NVidia случайно пробел в скрипте не там поставил...

Работает? Хорошо работает? Ну вот и не трогай...

Аноним 23/04/25 Срд 00:45:27 #483 №1170855

Так, вопрос по кванту гугла. Я продолжаю сидеть довольно урчать на 8 кванте?

Аноним 23/04/25 Срд 00:55:13 #484 №1170870

>>1170230
Ну, справедливости ради, такие фейлы происходят не часто, описанная проблема коснется немногих и полностью термозащита там не убирается, аварийное отключение таки триггернется.
Если волнуешься - подожди хотябы неделю, все ключевые баги к этому моменту будут уже найдены, о той штуке стало известно в первые дни.
>>1170838
> инсталлятор драйвера
Им кто-то вообще пользуется при наличии отрытого драйвера в репах?
>>1170855
> довольно урчать на 8 кванте
Абсолютно.

Аноним 23/04/25 Срд 00:56:58 #485 №1170873

>>1170855
>Так, вопрос по кванту гугла. Я продолжаю сидеть довольно урчать на 8 кванте?
Тут же неоднократно писали, что начиная с 4КМ отклонение от fp16 незначительно. А с учётом того, что qat-версия требует специальной тренировки - сложно сказать, большой ли в этой технологии в принципе смысл.

Аноним 23/04/25 Срд 03:33:48 #486 №1170944

image.png

Чуваки, у меня проблема. Нейронка во время рп в групповом чате пишет за меня, при том что у меня в карточке аж трёх персонажей прописано чтобы они не писали за юзера.То есть происходит диалог сначала двух персонажей которые являются отдельными карточками в одном сообщении, что как бы ок для экономии контекста, но потом в какой то момент диалога, аи всирает в диалог меня, как на примере пикрила, и меня это не устраивает, потому что нейронка. Подскажите пожалуйста как это вылечить, модель пикрил.

Аноним 23/04/25 Срд 03:35:31 #487 №1170945

>>1170944
>потому что нейронка.

Потому что нейронка забирает всё рп в свои руки.

Фикс

Аноним 23/04/25 Срд 05:03:09 #488 №1170960

>>1170944
>Подскажите пожалуйста как это вылечить, модель пикрил.
Удаляй неправильные абзацы вручную. Можешь ещё перед своим ответом в [квадратных скобках] писать инструкцию, что хочешь играть за себя сам. Модели не такие уж и тупые.

Аноним 23/04/25 Срд 06:43:06 #489 №1171004

>>1170944
Нет чтобы играть за Марурука и быть переодетым в платьице Озен он шарится с Лизой. Тьфу.

Аноним 23/04/25 Срд 09:31:58 #490 №1171105

image.png

угадайте кто тут такой счастливчик не заходивший в треды и любые соцсети в целом последнюю неделю?))
а ебланы не могут просто на всё ебало тебе забрутфорсить новость из нвидиаэпп что у тебя карта горит нахуй?))

Аноним 23/04/25 Срд 09:41:04 #491 №1171120

>>1171105
> экстренный хотфикс
> спустя две недели
Вся суть куртки. То баги годами чинят, то хотфиксы чтоб карты не горели по пол месяца делают.

Аноним 23/04/25 Срд 09:54:33 #492 №1171132

>>1170944
ставь безжоп

Аноним 23/04/25 Срд 10:04:45 #493 №1171137

>>1171132
Что такое "безжоп"?

Аноним 23/04/25 Срд 10:15:30 #494 №1171145

>>1171137
Плоская уральская. Порода такая, гугли.

Аноним 23/04/25 Срд 11:27:38 #495 №1171207

Что там по моделям? Подумал я и снова решил полазать на обниморде.

https://huggingface.co/aixonlab/Eurydice-24b-v2 - отличный тюн нового Мистрала, 600+ сообщений позади. Есть глинты, но откровенный слоп и форматлупы не обнаружены. Очень понравилась модель.

https://huggingface.co/TroyDoesAI/BlackSheep-24B - неплохой тюн Мистрала 2501. Понравилось, но Eurydice имхо лучше. Однако попробовать стоит.

https://huggingface.co/trashpanda-org/QwQ-32B-Snowdrop-v0 - все еще лучший вариант qwq для рп. Более того, это единственный(!) мердж, который не разваливается спустя несколько сообщений. Очень хорош. Других жизнеспособных мерджей/тюнов qwq нет, что очень странно, ибо модель крутейшая, даже без ризонинга.

Аноним 23/04/25 Срд 12:34:32 #496 №1171268

>>1171207
А можно прикладывать скрины, чтобы проиллюстрировать для анонов "отличный тюн нового Мистраля" и "лучший вариант qwq для рп"?

Тут послушаешь некоторых советчиков, качаешь модели по их рекомендациям, а они не работают как надо. В итоге выясняется что они кумят/рпшат по сценарию:
— Писку даш ебат?
смотрит удивлённо
— Пися жопа срать сосать!

Аноним 23/04/25 Срд 12:37:18 #497 №1171272

>>1171268
Может быть, в следующий раз приложу, если буду про что-нибудь еще рассказывать. А может и не стану, ибо многие здесь даже сэмплеры нормально настроить не могут. И придут рассказывать, что логи я подделал. Кому надо - те проверят. Как говорится, никто не запрещает пройти мимо ни к чему не обязывающего поста.

Аноним 23/04/25 Срд 13:03:11 #498 №1171309

>>1170532
QAT — это обучение на нужной битности сразу. Т.е., пресловутое нвидиевское «для Блэквеллов обучайте модели в fp4 сразу!» это оно и есть.
И BitNet, тернарные биты, которые [-1; 0; 1] — тоже «обучайте модель сразу в нужном, а не квантуйте».

QAT — это не квант, это обучение в 4-бита.
И, да, она работает лучше, чем квантование в 4 бита.
И даже чуть лучше 5 бит.
Но хуже, чем квантизация в 6 или 8 бит, очевидно.

Это я говорю про оригинальные QAT от самих гуглов.

>>1170698
> qat нужен для уменьшения потерь при квантизации
Это, по сути, не квантизация даже, а ориг.

> это квант из декванта
Ебанутым нет покоя разжмыхивать нежмыхнутое. =) Я правда не понимаю, ведь 4-битный расширенный до 8 бит не будет так же хорош, как 16-битный жмыхнутый до 8 бит.
Зачем это делается, если это математически не может быть лучше?

Аноним 23/04/25 Срд 13:13:33 #499 №1171314

Начал потихоньку вкатываться в локалки, сижу в поиске модели, и возник вопрос, ничего свежее нет, чем модель годовалой давности?
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/tree/main
Это из гайда по кобольду.
Также еще хотел уточнить, насколько большую модель запихать в 6 гигов 1660 super + 16 гигов рам? Или влияет только объем карточки?
И последнее, все модели поддерживают русский язык? А то я у дипсика спрашивал он мне выдал saiga2_7b_gguf мол она хорошо с русским работает, но она какой то хуйней оказалась

Аноним 23/04/25 Срд 13:13:49 #500 №1171315

>>1171268
Мне больше интересно, хоть кто-то вообще читает/смотрит вот эти субъективные "мнения" на очередной мистраль в стиле "а мне понравилось"? Ни цифр, ни рейтингов, ни примеров, нихуя. Человек реально думает что раз у него один диалог модель не зашизила так теперь это хиденгем?

Если за тюнами на ту же гему ещё интересно последить, так как она совсем свеженькая и действительно умная, то следить за стотысячным тюном мистраля... ну такое.

Аноним 23/04/25 Срд 13:18:26 #501 №1171318

>>1171315
> Ни цифр, ни рейтингов, ни примеров, нихуя.
Все есть в интересующих вас бенчмарках, том же UGI. Кому надо - идите и смотрите, составляйте мнения самостоятельно. Эти модели в бенчмарках прекрасно себя показывают. Или ты ленивая жопа и ждешь, что для тебя придут со всем готовым? Записываю. Логи, сэмплеры, промпт, что там дальше? Видюху не приложить?
Фантастический, я в ахуе.

Аноним 23/04/25 Срд 13:24:23 #502 №1171322

>>1171318
давно понятно уже, что тут из завсегдатаев одни скуфы с важными ебальниками, которые срут друг друга и всех вокруг

за рекомендацию спасибо, блекшип норм, еуридис больно короткие респонсы дает

Аноним 23/04/25 Срд 13:30:24 #503 №1171324

>>1171318
>Кому надо
Не надо, в этом и суть. Все это третично пережеванный калл. Все хорошие тюны давно известны и сто раз обсосаны, если ты там действительно нашел новый ХИДЕНГЕМ то приложи усилия чтобы заинтересовать комьюнити. Ну или не прилагай, и тогда всем похер.
>Или ты ленивая жопа и ждешь, что для тебя придут со всем готовым?
>Записываю. Логи, сэмплеры, промпт, что там дальше? Видюху не приложить?
Приложи будь добр, иначе польза и информативность твоего поста стремится к отрицательным значениям, с тем же успехом я могу скопипастить случайню модель с huggingface, попросить нейронку придумать к ней описание и скинуть в тред. Ради кого это? Кому это будет интересно? Надеяться что кто-то пойдет перепроверять очередной мистралетюн?

Аноним 23/04/25 Срд 13:35:07 #504 №1171325

>>1171314
>Также еще хотел уточнить, насколько большую модель запихать в 6 гигов 1660 super + 16 гигов рам? Или влияет только объем карточки?
Кек, у меня такой же сетап.
А тебе для чего, анонче? Помимо модели контекст же есть, ты можешь запихнуть какую-нибудь квантованную 27b модель впритык с минимальным контекстом (которого тебе не хватит).
Я вот для кума кручу даркнесс рейн и омни магнум (оба в 4qm кванте), брат жив. Но приходится подождать, не без этого. Обычно около 30 слоев на видеокарту выделяю и 30к+ контекста.

>>1171318
>Эти модели в бенчмарках прекрасно себя показывают.
Ты кинул ссылки на модели и описал свой непосредственный юзер экспириенс, который тебя и попросили пруфануть, а в ответ людей посылаешь бенчмарки смотреть и начинаешь истерить.

Аноним 23/04/25 Срд 13:36:56 #505 №1171326

>>1171322
> из завсегдатаев одни скуфы с важными ебальниками
Прав абсолютно.

>>1171324
Тебе поговорить не с кем? Или ты думаешь, это твой тред и тебе решать, кому тут что нужно и интересно? В любом случае иди ты нахуй, долбаеб.

Аноним 23/04/25 Срд 13:39:48 #506 №1171329

>>1171325
> Ты кинул ссылки на модели и описал свой непосредственный юзер экспириенс, который тебя и попросили пруфануть
Чел выше пожаловался, что я не прислал бенчмарки, я направил его куда нужно. Ты зачем пишешь другим постом, имитируя поддержку? Ебать тут шизы похуже /аицг и /б. Ты победил, я бегу поджав хвост из треда, не в силах совладать с твоим слабоумием.

Аноним 23/04/25 Срд 13:41:39 #507 №1171331

welcome-happy (1).gif

>>1171326
Спок шиз. Мой первый пост как раз был вопросом если тут любители подобного "контента", а дальше уже ты уже начал на говно исходить, пусечьку обидели ёпта. Считай что это тебе просто пища для размышлений.

Аноним 23/04/25 Срд 13:49:43 #508 №1171337

ммм... даркнесс реин и омнимагнум с петушиной агрессией

ну это не лечится. карточки по слову пацана запостите? ну это, для своих ребят

Аноним 23/04/25 Срд 13:53:57 #509 №1171340

>>1171325
>А тебе для чего, анонче?
Ну все для того же, лайтовые истории я и в дипсике могу поделать.
Первая модель как я понял эта?
https://huggingface.co/Aleteian/Darkness-Reign-MN-12B-Q4_0-GGUF
Вторую так и не нашел
На счет русского можешь все таки сказать? Не хотелось бы сидеть дрочить переводчик

Аноним 23/04/25 Срд 13:56:28 #510 №1171341

image.png

>>1170960
>Удаляй неправильные абзацы вручную.

Это нихуя не помогает, я бы мог их удалять если бы мои ответы были в конце сообщения, а не в середине.

>квадратных скобках писать инструкцию

Пишу, в следующем сообщение аи один хуй пишет за меня.

>>1171004

И что я должен за него делать в этой вселенной, стирать грязные трусы?

>>1171132
Я знаю что под этим и меется в виду No assistant, но я не понимаю как это применить на практике, я немного ньюфаг.

Аноним 23/04/25 Срд 14:09:31 #511 №1171367

image

>>1171329
Петушара, спокуху оформляй и чини детектор, я не из вашей пидорской тредовской тусовки. Я прогрываю с того, как ты стал рваться от просьб пруфануть что ты пользовался модельками.
Алсо про поддержку, не думай что если будешь орать на весь тред и обвинять других, то никто не увидит твоего семёнства.
>Ебать тут шизы похуже /аицг
Ты там сидишь? Ебать ты ебанько. И ты ещё смеешь что то пиздеть тут?
>Ты победил, я бегу поджав хвост из треда
Пиздуй уже сука

>>1171340
>Вторую так и не нашел
Ищи omnino opus magnum
>На счет русского можешь все таки сказать?
Это модельки для русского кума, чел. Если будешь с англ картой сидеть, то в author's note вставь
[All communication strictly in Russian. Thoughts, actions, descriptions — Russian only. Never use English.]
или
[RU only. Break character = ban. Translate ALL to Russian.]

Аноним 23/04/25 Срд 14:14:42 #512 №1171382

Screenshot 2025-04-23 at 14-07-37 Reddit - https preview.redd.itsillytavern-the-nerd-guide-v0-1jo6m3eo1aab1.png width 1000format pngauto webps ccb2f995dac0b2c31cc437d7850936ff72e04c98.jpg

>>1170944
>>1171341

Попробуй в авторнотс написать в квадратных скобках "ты можешь писать реплики и мысли персонажей. Описывать действия и писать реплики юзера нельзя", ну или типа того, шаблон думаю знаешь, раз пихал его в карточки. И поиграйся с настройками авторнотса.
Недавно на мультикарточке словил подобное, вылечилось вышеупомянутым. На даркрейне тоже.

Еще возможно у тебя системпромт заруинен или дефолтный, тыкни как в пикриле около сообщения. На пикриле старая версия, но у новой еще есть "Show RAW", нажав на которую он покажет тебе весь контекст. И вот в начале можешь посмотреть, мб там "You are friendly ASSistant...". Если так то кликай по большой иконке А вверху таверны и чекай какой пресет выбран в Masterpromt слева. У меня стоит Roleplay Immersive.