В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1159892 → > Ну значит ремонтники хуи, у них стата искажена Почему хуи, нормальные ребята. Они просто видят только то что к ним поступает, а какая эта доля от видеокарт в обороте - оценить не способны. Только спекулировать или специально врать для бейтов. А трясунам - не нужна ни правда, ни какие-то данные. Им нужен хайп и удобное мнение, которые удачно лягут на их манямир и оправдания отсутствия.
Анон с 3x3090 и Виндой. Короче надоело мне искать, почему винда в такой конфигурации нормальной скорости не даёт, буду ставить Линукс, пока второй системой. Опыта нет правда, разве что VPS-ки под хостинг и впн брал. Слышал, что Убунта самая простая в освоении, но выслушаю любые советы с учётом того, что мне нужен сервер под ЛЛМ. Если есть гайды, как всё ставить и настраивать под ЛЛМ с нуля - будет вообще замечательно.
>>1159906 Ставь убунту, потом ставь куда тулкит и драйверы по инструкции отсюда https://developer.nvidia.com/cuda-downloads (deb network). Потом можешь скачать убабугу/табби и использовать их ванклик-инсталл скрипты, только не bat а sh. Для максимальной скорости в жоре - клонируешь репу и действуешь по инструкциям https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md#cuda придется поставить make, gcc, cmake, хидеры и прочее, но это в целом база линукса. Можешь скачать готовые бинарники (не обязательно заведутся и будут шустрыми), можешь точно также скачать кобольда. Сложно будет только привыкнуть к поведению и парадигме самой системы. В остальном для нейронок это просто рай вместо проблемного пердолинга на шинде.
>>1159906 Ставь убунту, остальное все красноглазое и ненужно. Сам на дебианах сидел, щас вообще на калилинухе, новый комп буду заводить на убунте. Ну и по работе убунта бай дефолт всегда была. Настолько некрасноглазая, что подхватила все поприетарное железо ноута хуявей, которое винда 10я не смогла, включая мультитач экран и тачпад. С родным UI даже понятнее винды, обычная тяночка "интернетик+вордик" может вообще никогда в консоль не лазить.
пока я писал, >>1159918 анон все по пунктам раскидал.
>В остальном для нейронок это просто рай Однозначно, только для стейблдифьюженов нехватает фотошопа мощно. Я раньше думал что гимп просто НЕОСИЛИЛ, но заставив себя погрузится и поработать - ляяя... какая же уродская говнятина, просто эталонное представление о (((красивом и удобном))) красноглазого пердольщика. Для последних наверное до сих пор 32битные сборки собирают, потому что этим унтерам и в 2025 512ram пентиума4 хватает на все.
>>1159844 → >>1159847 → Душить память имеет смысл только на 3090 и только если PL уже задушен, потому что если память не душить, то она начинает хавать 100+ вт и на сам гпу вообще нихуя не остается (из выделенных 220-230).
>>1159932 >Душить память имеет смысл только на 3090 и только если PL уже задушен, потому что если память не душить, то она начинает хавать 100+ вт и на сам гпу вообще нихуя не остается (из выделенных 220-230). То есть по-хорошему тестить надо - чего и сколько. Ладно, учтём.
>>1159906 У нвидиа всегда были проблемы с дровами на линукс, но под нейронки наверное все должно быть норм.
В целом, все линуксу +/- одинаковые, за исключение экзотических случаев. Бери убунту, linux mint или debian, последний самый стабильно работающий, но в целом все три - почти одна хуйня, кроме набора пакетов (программ).
Инфу бери с официального сайта дистрибутива, который будешь себе ставить. Еще можно с wiki.archlinux.org , оно, в принципе, универсальное, у арча из специфических штук только способ установки и пакетный менеджер (хуйня, которая программы устанавливает).
Техника безопасности - не работай из под рута (администратора), не вбивай непонятные команды в терминал, на всякий случай всегда можно погуглить. Программы, по возможности, ставь из официальный репозиториев своего дистрибутива, но абсолютно точно не будет лежать совсем все, того же кобольда качай с гита и не парься, например.
>>1159928 >С родным UI даже понятнее винды, обычная тяночка "интернетик+вордик" может вообще никогда в консоль не лазить. А удалённый доступ к этому UI из-под Винды возможен? Что-то типа RDP. В принципе это-то не обязательно, просто хочется с удалённого компьютера динамически отслеживать загрузку ГПУ и всего такого.
>>1159906 Если будешь ставить дистр для особо одаренных (Ubuntu) то ни в коем случае не ставь дефолтный UI (гном), ставь шестые кеды, ну то есть кубунту. От гнома будешь плеваться смачно, далеко и с пенкой. А когда поставишь кеды, будешь плеваться от подзалупной хуиты которая идет на всех вариантах убунты именуемой snap. Если хочется без особой ебли, то могу посоветовать посмотреть разве что федору, она по умолчанию дрова проприетарные не поставляет, как и дебиан впрочем, но в отличие от последнего пакеты там текущего десятилетия, и от самого пакетного менеджера тухлятиной не тянет.
>>1159970 >или debian Не бери. Это некрокал, который в 202х только для особо идейных. Сам на дебиане сидел в 2019-2022, но недавно вот снова с винды перешел и сгорел - софт прошлого десятилетия, PPA из коробки нет, питон 3.10 поставить больно даже, даже судо устанавливать нужно. Драйверов и кодеков тоже нет, ниче нет - ПОТОМУ ЧТО СООБЩЕСТВО, ПОТОМУ ЧТО ТРУ ОПЕНСОРЦ, со всем нужно поебаца. Я люблю опенсорс всей душой, но когда нужно РАБОТАТЬ, а тебе дебиан ебет мозги... ну такое.
>>1159996 >ни в коем случае не ставь дефолтный UI (гном) >От гнома будешь плеваться смачно, далеко и с пенкой. Соглашусь мне тоже гном убунтовский не нравится. Но он максимально коробочный и понятный для вкатуна, любое другое VE уже риск пердолится. >ставь шестые кеды Ну кеды тоже кал, ЖРУТ ресурсы, на первый взгляд даже красиво, попытка в винду и макОС, но как и в любой линукс ((красоте)) это обычно оборачивается что рано или поздно надо что то сделать нестандартное, и красота разваливается как карточный домик, сыпя непонятными ошибками, багами и уродством.
Крч анон если хочешь использовать линукс - убунту с родным гномом. Если совсем не нравится - возьми Xubuntu, XFCE годная альтернатива. Если хочешь попердолиться и вкусить линукс - то голая накатка системы и i3wm поверх. Работает как часы и грузит 190мб в простое RAM.
Лично я сидел на линуксе минт, ибо косплеит шиндовс. В целом линукс это какая то попаболь, если ты не привык над системой заморачиваться. Не для сиволапого быдла типа меня. Когда только начал пробовать использовать в нем бесило буквально все, особенно невозможность установить самые базовые и банальные вещи в один клик без коммандной консоли
>>1160060 > невозможность установить самые базовые и банальные вещи в один клик без коммандной консоли
Да, написать sudo apt install хуйнянейм1 хуйнянейм2 хуйнянейм3 гораздо тяжелее чем: - найти сайт без троянов - скачать троян - скачать майнер - скачать кряк под это все под vpnом - запустить .msi пакет и сказать ДА - выбрать папочку - выбрать попочку - разрешить добавить пункт в проводник - отказаться от спама - почитать лицензионное (нет) - молиться что не проебал снятие галочки "установить ябраузер, тащмайора и пикабу" - подождать, перезагрузится - повторить
>>1160038 >Крч анон если хочешь использовать линукс - убунту с родным гномом. А что это за Proxmox, который куча обзорщиков нейронок ставит? Стоит этим заморачиваться?
>>1160064 Хз че ты там такое скачиваешь, раз с такими проблемами сталкиваешься, лично у меня подобной хуйни не было. Да и может перед скачиванием чего либо стоило предварительно всплыть из нижнего интернета?
Кту тут спрашивал, для залетухенов. Снова вкину свою кал-лекцию =)) Промты, логи, пресеты, в том числе на гемму, карточки. Своими делитесь интересными, не жмоть-тесь. https://pixeldrain.com/l/47CdPFqQ
>>1160038 >максимально коробочный и понятный для вкатуна Ты только что кеды. Гном это косплей под винду для планшетов. >Ну кеды тоже кал, ЖРУТ ресурсы, на первый взгляд даже красиво, попытка в винду и макОС, но как и в любой линукс ((красоте)) это обычно оборачивается что рано или поздно надо что то сделать нестандартное, и красота разваливается как карточный домик, сыпя непонятными ошибками, багами и уродством. Нихуя подобного. Нихуя они не жрут, тем более если сравнивать с современным гномом (оба wayland). И они даже не падают, представляешь? 6 кеды это уже не 4. Единственное что действительно не стоит пытаться делать на кедах - менять дефолтную тему на васянскую, да и то максимум что ты получишь - нечитаемые иконки. В отличие от ебучего гнома, в котором чтобы просто отображался трей как в винде, нужно ставить васянские РАСШИРЕНИЯ блядь. И выглядеть они будут соответствующе. В остальном кеды это лучшее окружение для виндоподобного использования, всё просто работает, если не принимать во внимание некоторые приколы которые могут возникать с приложениями на гтк (GNOME toolkit) типа всратого курсора. Кеды не ставят дефолтом до сих пор просто потому что у гнома стабильное расписание релизов, совпадающее со многими дистрами.
Суп, генерящие аноны, стоит ли пробовать запускать Ruadapt Qwen в Q2_K? Или вынести один слой на RAM, но запускать в Q3_K_M? Хочу попробовать обкумиться на русском.
Попробовал c4ai-command-r-08-2024-Q4_0 на русском. Понять не могу, толи неправильные настройки использую, то ли его хвалили не за русский язык. Путает падеши, склонения, даже время иногда коверкает. Совсем не тот экспириенс, который ожидал.
>>1160114 >Суп, генерящие аноны, стоит ли пробовать запускать Ruadapt Qwen в Q2_K Я его пробовал в гораздо более высоком кванте. Хуита. Русский хороший, но и только. Ни ума, ни фантазии.
>>1159932 В целом-то понятно, но даже в таком случае скорость не особо просядет, а вот от памяти сразу проявится. Лучше тогда ограничивать частоты и делать на них андерволь, не просто снижать поаверлимит. >>1159935 Если карточки больше одной то при генерации там не полная загрузка. Но там речь про другое, у тебя за 10-20-50 секунд сгенерировался ответ, а потом минуту-другую простаивает, пока ты спокойно читаешь и думаешь об ответе. >>1159966 Wsl - база, но можно ахуеть с медленной загрузки модели из-за тормознутого доступа к основным дискам. Если проблема именно в выгрузке врам драйвером - там тоже она будет. >>1159970 > нвидиа всегда были проблемы с дровами на линукс Не, все ок там было всегда. Была тряска о том, что амд релизила дрова с открытыми исходниками, а хуанг - бинарники. Чсх, сейчас и это изменилось и основным драйвером под линукс является как раз открытый. >>1160064 Двачую. Для неофита это может быть совсем неинтуитивно и в новинку, но на самом деле невероятно удобно. До тех пор пока нужный софт есть в репе, когда нужная версия отсутствует, вот там уже позавидуешь шинде >>1160078 Автор - молодец что все это выкладывает, но выскажусь о специфичности многих промтов-карточек и т.д. Могут быть заточены под специфичный формат рп или содержать недостатки.
>>1160064 Сижу на винде со времён релиза вин93. Никогда не юзал ни один антивирь, система никогда не заражалась вируснёй. В винде вся защита есть изкоробки и её настроить 1 раз. Системы никогда не крашились. Видел только 2 экрана смерти за всю историю из-за дров видяхи. Юзал только лицухи. До хромиума сидел на ИЕ, после на ангуглед. Занимаюсь, ВНЕЗАПНО, безопасностью у одного крупного провайдера. Дело в тебе и твоих руках из жопы, что тебе требуется ограничивать себя из-за шизы качать говно подряд и тут же его жрать. Понимаю твоё стремление к смирительной рубашке, уважаю решение.
>>1160170 > > нвидиа всегда были проблемы с дровами на линукс > Не, все ок там было всегда. Вот нихуя. Че там раньше было ручаться не буду, не помню и не пользовался, но невидия сейчас вообще забила на современный линукс десктоп и их карточки под wayland работают хуево. Вот только относительно недавно разрабы окружений это научились фиксить костылями со своей стороны.
>>1160173 >со времён релиза вин93. Это Windows 3.11 что ли? У меня она тоже первой виндой была, но никогда не слышал, чтобы её так называли. У меня, кстати, вирус был, достался вместе с первым б/ушных компом, но он ничего вредоносного не делал, только прописывал себя в бут-сектора. мимо-олд
>>1160183 А в чем это выражается? Гейминг на прыщах не пробовал ибо это за гранью, возможно там действительно все хуево. Но именно глюков интерфейса или проблем с кудой не удалось встретить, как и массовых жалоб на них. Даже с блеквеллами драйвером обосрались не так сильно как в шинде.
>>1160143 >А что посоветуешь на русском для кума? есть 16G VRAM. Omnino-Obscoenum-Opus-Magnum-MN-12B конечно. Подбери такой квант, который вместе с кэшем (пусть даже квантованным в q8) целиком влезет во врам и обдрочись. Настройки сэмплеров бери от геммы третьей.
Завел DeepSeek V3 0324 через OperRouter (1000 запросов в день который), столкнулся с проблемой: роллы оч часто повторяются (они практически идентичными могут быть раза 3-4 подряд, меняются только отдельные слова). Пробовал штраф за повтор поднимать - не особо помогло. Мб знает кто че с этим делать
Второй оффтоп вопрос >>1160204 Сколько этому магнуму контекста максимум дать можно?
>>1159906 если не собираешься ничего обучать - ставь wsl2, ебли немного меньше, по функционалу практически ничем не отличается и винда под рукой, запустил сервак на wsl из под винды спокойно подключился, никакой ебли. убунта с интерфейсом то еще говнецо, особенно если будешь накатывать на hdd, как я (ни в коем случае не повторяй), будет переодически крашить систему при 100% нагрузке на жесткий.
>>1160496 >OperRouter кстати да, там какая-то говномоделька крутится. когда катаю у себя локально DeepSeek-V3-0324-UD-Q2_K_XL - ответы совершенно иные, намного лучше, с логикой все в порядке, разметка тоже на месте.
>>1160551 Мб-мб. Локально я со своей 3080 на 10 гиг я вместо дипсика только диптроут могу сделать, поэтому питаю надежду что найдется магический ползунок
>>1160526 >>1160548 В сд и подобных, где упор в чип - лишь на 10% быстрее 4060ти, это примерно 60-70% от 3090, в ллм ожидается ~60% от 3090, может чуть больше если хорошо погнать врам и накатить оптимизации под блеквелл. Офк это оценка по графикам из обзоров и сравнение с другими карточками, разумеется нужно чтобы кто-то ее купил и полноценно провел нужные тесты. Разница врам в 1.5 раза, может быть оче существенно. Вот и сам думай, 5060 ти не такая позорная как 4060 с тормознутой врам, но и звезд с неба не хватает.
>>1160609 > А он о Ti не упоминал. Зачем нужно это 8-гиговое недоразумение в 2025 году, особенно в применении к ии? >>1160635 Вкусно это про 5090, вот где йоба. Плохо что уже 5080 достаточно сильно от нее отстает, тут 100% можно надеяться на какую-нибудь ти/супер, что займет место между ними и будет иметь 24+ гигов.
>>1160732 free конечно... У меня не настолько много деняк)) Я закинул туда 10 баксов чтобы запросов больше в день давало, но кто ж знал что роллы будут работать как говно. Там из бесплатного альтернатив нормальных нет как понимаю?
>>1160776 >Наивный. Падает-падает. Правда ходят слухи, что в связи с падением цен на нефть это скоро изменится, но я больше доверяю возможностям отечественного центробанка - он и по 50 сделать может.
>>1160173 >Сижу на винде со времён релиза вин93 я помладше, начинал с XP, 2004й >Никогда не юзал ни один антивирь сейм (ну вообще юзал, но это было из разряда касперский/аваст с диска "199 программ", еще до интернетов. Он раздражал и нагружал систему, так что я его быстро удалил) >система никогда не заражалась вируснёй Аналогично, достаточно было поставить галочку "показывать расширения файлов" и не запускать мутные .exe с иконкой просто джипега. >Системы никогда не крашились. Вот тут не верю, 95-98-МЕ крашились как не в себя по дефолту. 2000 и ХР еще относительно стабильные, а вот семерка была первой по настоящему стабильной.
Я не спорю что винда МОЖЕТ быть безопасной системой, и вирусы и блокеры ловят реально животные на юзере. Но только как ты сказал - в случае всех систем безопасности активных и нормальной лицухи. И вот тут мы как раз и делаем сальто, упираясь в кейс разве что корпосектора с лицензионным автокадом и прочих проф применений. У обычного же юзера всегда 2-3 пиратки чего либо, что множит на ноль безопасность, а если без пираток и не платить - то проще реально убунта с опенсорцем.
Моя главная претензия к мелкософту - что они с каждым релизом руинят привычный опыт и добавляют в систему говна. 7ка была золотой, с 10кой ранних версий (особенно LTSC без всяких кортан) можно было уютно жить, 10ка поздняя - уже ощущается как "мусорная система", в которой ты не особо что то контролируешь. 11ю я пробовал на корпоноуте, и это пизда, так жить нельзя. А этой осенью поддержку 10й винды прекратят, так что я снова заранее вернулся на линукс и всем советую. Тем более для мл и всяких айти штук (в винде это больно делать, а wsl это мразь мочи говна мочи). А винда пусть будет на втором ссд как мусорка для торрентовых игорь и солидворксов.
>>1160089 >6 кеды это уже не 4 Мб ты и прав, даже интересно стало снова попробовать. Но тайловые манагеры настолько полюбились, что весь остальной драгэндроп теперь не хочется.
>>1160826 >Падает-падает. Это бакс падает, а не рупь растёт, лол. Ну и цены что-то нихуя не снижаются. Как бензин, лол. >но я больше доверяю возможностям отечественного центробанка - он и по 50 сделать может У него примерно обратная задача - сделать сотку, чтобы после обвала нефти бюджет не наебнулся. Так что я уверен, что 300к это абсолютный минимум для новой 5090, дешевле она будет стоить лет через 5, когда нахуй никому не будет нужна. >>1160835 >У обычного же юзера всегда 2-3 пиратки чего либо, что множит на ноль безопасность Как будто нельзя юзать нормальные пиратки без вирья. Ставлю софт со срутрекера последние 15 лет, ничего не поймал.
>>1160879 > Как будто нельзя А зачем? Актуально разве что для адоба и подобных 1.5 софтин, потому что у нас их не купить нормально. В целом, рынок платного софта помирает, большинство актуальных имеют подписочную систему с оче гибкой ценовой политикой (или даже бесплатным для нормисов режимом), или бесплатные аналоги. Или же там реально что-то годное но недоргое, типа того же display fusion, где не грех поддержать разработчика на стимовской распродаже
>>1160031 >>1160011 Потому что там очевидно что хозяин пиздил эту собаку и других животных которые были на видео. Всегда репортил его видео в тик токе когда попадались, в итоге ему уже забанили канал.
Я все тот, кто уже пятый перекат собирает новый комп под купленную 3090. Мать искал с прицелом "может быть подцепить вторую карту, если прям нейронки залетят, но на риг еще не созрею. Или 128гб DDR4 докину под ktransformers мб в 4 слота". В общем такой полупокер-апгрейд на полгодика-год, понять чего хочу. Правда хз получилось или нет, b550 чипсет дает только 4 линии на втором слоте pci, еще и второй pci 3.0... я сосну да? Или все таки можно будет что то подбросить на этот слот, типа второй 3090?
Но мать уже куплена, вообще все куплено кроме корпуса. Но я думал возьму что то с продувкой более менее самое дешевое и все... Только вот продувка и fulltower вообще из разных вселенных (не считая гик-решений за 40++ килорублей), об этом я не подумал как то. А в большинстве обычных корпусов ATX плата встанет, а вот вторая карта в лучшем случае на пол ляжет, или не встанет вообще, упрется в дно.
Поэтому уважаемые аноны, 2 вопроса: 1. Насколько PCI Express 3.0 x4 во втором слоте хуево? Вообще нет смысла 2й карты? Или смысл есть ради обьема vram, но скорость обработки будет в разы хуже чем одной карты на 48гб? Или 3.0x4 и 4.0x16 прцентов на 10-15% просто похуже чем pci 4.0х8х2 или монокарта48гб? 2. Исходя из п.1 есть ли смысл брать хороший ATX корпус под 1ну карту? Или заморочится и поискать что то попросторнее, пожертвовав продувкой? Или лучше взять какое нибудь говно, что бы потом не жалко покромсать под 2 карты (или вообще скрестить старый фуллатх с кульками для продува при помощи болгарки)?
>>1161711 >Только вот продувка и fulltower вообще из разных вселенных (не считая гик-решений за 40++ килорублей) Почему же, от Кугара есть решения за 10к. Ну не дёшево, а чего ты хотел за такую здоровую - продуваемую - дуру. Свидетельствую, что свободно входят 4 двухслотовые карты или 2 3090. Если хочешь собрать что-то подобное, то лучшего решения наверное нет. Дальше только риг.
>>1160131 >c4ai-command-r-08-2024 Довольно тупая модель, нахваливают её аноны с низкими стандартами. Либо мастера Тайного Промпт Инжиниринга, способные из любой модели вытаскивать тексты 10/10, но поскольку они своими Тайными Знаниями не делятся, простым смертным это всё равно недоступно.
В этой версии командира починили раздутый контекст, но он от этого стал тупее. Сейчас это полностью устаревшая модель, так как с тех пор уже вышли новые модели Аya expanse и Command-a. И да, у командира и его семейства особые настройки, его не надо с системным промптом геммы или квена запускать.
>>1162108 Мистрали 24b Q4KM. Ассистент - дефолтный или dolphin, картинки дефолтный, Forgotten для кума (имхо, топ и для большого врама, просто повышай квант и размер контекста). Для серьезных задач deepseek. Раньше юзал гемму еще, но там мало контекста для моего врама (16гб) и потом в моем тесте вижина она всасала мистралю и была дропнута. >>1162115 Сколько токенов в секунду? >>1162154 Не пизди, карты не горят, ща перекуп придет объяснит тебе
>>1162234 >Не пизди, карты не горят, ща перекуп придет объяснит тебе Я так и знал что это не запах гари был, а запах самоприпоя. Так что я из тредика отваливаюсь до окончания ремонта. Мира вам.
>>1161711 > я сосну да? Ну, ты уже соснул купив нищий амд, об этом уже говорили. Но в целом, никто не запрещает тебе воткнуть вторую карточку в x4. Все будет работать, во многих вариантах инфиренса разницы не заметишь или она будет 5-10%. При тренировке или там где много пересылов будет медленнее. Также, если это чипсетные линии, то могут быть серьезные замедления при доступе к ссд, поскольку там не только х4 4.0 на все-все-все, но и довольно неоптимальный шейпинг с оче большими задержками. На среддите жаловались что работа второй карты замедляется чуть ли не на 30% если запустить копирование с ссд тоже на чипсетных. С процессорными таких приколов не будет. > Или смысл есть ради обьема vram, но скорость обработки будет в разы хуже чем одной карты на 48гб? Конечно есть, на нормальных бэках будет также или даже быстрее, за счет распределения обработки контекста на 2 чипа. > есть ли смысл брать хороший ATX корпус под 1ну карту? Сам смотри какой у тебя бюджет и приоритеты. Хороший корпус под мультигпу - это термалтыки CTE серии, в треде была сборка на лианли эво хл. Также подойдет просто большой, где есть место на боковой стенке между материнкой и фронтальной манелью. Просто разместить на обычных местах не вынося куда-то райзером выглядит как нереалистичный кейс, такие карты нельзя ставить тесно и им будет оче жарко. > пожертвовав продувкой? В чем жертва? >>1161896 Какая модель - умная? Опять же, на русике играешь? >>1161947 > Аya expanse И че, оно норм? > Command-a Совсем другой размер. Пока не получилось его нормально расшевелить, нужно промты пердолить. Потанцевал есть, но с пол пинка, как старый командир, не заводится.
>>1162154 > На одну пролили воду Как так вышло, водян_очка наебнулась? Пили прохладную > Перепад в сети, отвал фазы Тоже интересно, кроме бп тут никто не должен страдать, проще убить карточку неудачным подключением телека на горячую. Вангую обижал других или как-то согрешил, вот и поймал карму
>>1161719 Да у меня у самого в коробке от обуви сборка на 1200 рязани полгода отработала, отверткой включал по контактам... Но теперь коты в доме, да и просто хочется па-лютски...
>>1162006 >влияет только на подгрузку модели Ну и еще наверное если дипсик пытаться запустить частично с RAM скажется... Но это похуй, ддр4 и 2 некрокарты, дипсик только ради пруф оф концепт можно поиграться. Спасибо!
>>1161797 >от Кугара есть решения за 10к, например: Cougar MX600 RGB Как то я их упустил, спасибо! >Свидетельствую, что свободно входят 4 двухслотовые карты или 2 3090 Вот это прям ценно!
>>1162265 > Как так вышло, водян_очка наебнулась? Ребенок и его кружка непроливайка, лол. И стоящий на полу блок. > кроме бп тут никто не должен страдать Экономия на БП и использование старого говна, вместо чего то дешевого, но нового. > Вангую обижал других или как-то согрешил, вот и поймал карму Да не особо, наоборот, погорел минимум, все прозвонили и примерная цена ремонта не больше 15к. Меня устраивает. Просто экономия ебет экономных, но я же считал себя самым умным.
>>1162261 >Ну, ты уже соснул купив нищий амд, об этом уже говорили. Ряяя временная сборОчка!!! Да помню что аноны советовали интуль из-за скорости памяти и проч... Но комп нужен как универсальная машина пока, а интел я не оч люблю с их тдп и новыми сокетами раз в полгода. Может я наиграюсь через месяц, а может куртка выкатит за 150к какую нибудь нейрокоробку, которая в локальных сетях уничтожит риги из 5090... Ам5 если уж брать, то слишком жирная цена выходит на нормальный сетап под нейронки. В то время как на ам4 буквально половина всего есть. По сути я собираю новый комп потому что у меня oche пососная мать (a320), а продавать мать, 480м2, 1080 и аэрокул 500вт влом по отдельности. Даже о второй карте я задумываюсь гипотетически, есть вероятность что и новая сборка полетит на авито скоро, а я буду собирать уже нейросервер + повседневный ноут-терминал. Или забью хуй, разочаруюсь и буду сидеть в интернете, и игоря катать раз в год, докинув какой нибудь x3d через пару лет, когда он будет стоить пачку масла.
>Также, если это чипсетные линии, то могут быть серьезные замедления при доступе к ссд, поскольку там не только х4 4.0 на все-все-все, но и довольно неоптимальный шейпинг с оче большими задержками. Если правильно понял из пикрила, второй 16слот чипсетный, но можно через переходник взять те же четыре линии, еще и pci4 от m2 разьема, посадив m2 на чипсетный слот.
>Просто разместить на обычных местах не вынося куда-то райзером выглядит как нереалистичный кейс, такие карты нельзя ставить тесно и им будет оче жарко. Бля... я уже почти купил кугар, а теперь получается что колхозить энивей (особенно если захочу m2) и проще взять самый дешевый корпус с авито на районе на первое время... Ууууф, как сложно то...
>>1162306 >Просто экономия ебет экономных, но я же считал себя самым умным. Знакомо знакомо... Вот только рыночек такой, что даже банкетничая, не застрахован от фиаско. В автоебстве сейчас похожая ситуация, понимающий опытный может за средний прайс купить машину норм, а нешарящая маня даже за верх рынка рискует купить нежить или какого нибудь китайца, на котором внезапно запчастей нет и сыпется он как песок. > купил новую 5060 - соснул по памяти и линиям > купил 5090 - соснул по разьему питания и некоторому софту > купил 3090 не глядя - соснул через неделю от отвала чипа
>>1162340 А бля, это ведь ддр4 платформа, там вообще 3.0 будет. Но ты не парься насчет этого, карточки с х4 3.0 норм работают кроме описанных кейсов. Сам так когда-то сидел потому что в режиме 4.0 всратый райзер срал ошибками. > второй 16слот чипсетный Да, на старых райзенах нет дополнительных линий, которые могли бы идти на порты. С переходниками m2->райзер лучше не заморачивайся и просто ставь ссд в основной слот. > почти купил кугар Что за модель? Интелы зря недооцениваешь, для расчетов и ии в пределах декстопных платформ они сейчас более привлекательные ибо красные в край ахуели. Может со следующим обновлением это изменится, но пока так.
>>1160551 >катаю у себя локально DeepSeek-V3-0324-UD-Q2_K_XL А какая у тебя конфигурация? Тут анон был, который со 128 гб оперативы катал в ktransformers, но явно не второй квант же.
>>1162294 >дипсик какой дипсик? если ты на ktransformers собрался гонять, там 16 гигов видяхи хватит. разгружать эксперты на видяху нет смысла, если у тебя там не две a100 по 80врам.
>>1162361 > разгружать эксперты на видяху нет смысла Есть смысл катать 0.7 т/с? Что за ерунду пишешь, чем больше там видеопамяти тем быстрее будет работать.
>>1162349 >Интелы зря недооцениваешь Да я нормально к ним в целом отношусь сейчас, когда ам5 изучал тоже понял что амуда уже не такой уж топ за свои деньги. Если бы точно знал что мне надо по жизни, рассмотрел бы и их внимательно. А так просто в качестве недорогой времянки взял знакомый сокет, что бы если что быстро слить.
> почти купил кугар > Что за модель? Да вон анон посоветовал выше >>1161800 Вообще я до этого почти взял Fractal Design с говнито, там mesh с недорого был и Torrent mini за 12к. Последний понравился очень внешне, почти решился шикануть, но когда внимательнее глянул осознал "А ВТОРАЯ ТО ВИДЮХА НЕ ФАКТ ЧТО ВЛЕЗЕТ, ДАЖЕ ЕСЛИ АТХ".
А вообще корпуса то еще уродство конечно... Если накинете моделей в пределах 10-13к (новые/поддержанные неважно), которые не слишком всратые и в которые относительно вменяемо можно впихнуть две 3090, что бы друг друга не зажарили, буду благодарен и положусь на совет анона. Вчера 32 страницы авито перерыл, весь озон и днс, а что брать ответа так и нет.
>>1162351 >анон был да, второй квант с подрузкой с nvme. i5-12400, ddr4 128гб 3600mhz, 44vram. >>1162365 >Есть смысл катать 0.7 т/с катаю, мне вполне нормально ждать ответ 5 минут. >Что за ерунду пишешь каждый эксперт, который ты собираешься выгружать на видимопамять весит 6.5гб во втором кванте. даже если ты выгрузишь штук 5, ничего не даст, так как все равно упирается в цпу\рам\диск. ниже второго кванта нет смысла даже пытаться запускать, там что-то поломано в ktransformers или просто квант шакальный, срет бред из коробки.
>>1162403 > каждый эксперт Значение знаешь? Глянь как мое устроены и как работает k-transformers. > все равно упирается в цпу\рам\диск Это то же самое что говорить о бессмысленности выгрузки слоев на гпу. Чем больше на карте, тем быстрее. Особенности k-transformers в том, что тот позволяет выгружать большие мое более эффективно, чем это делает жора, в остальном то же самое.
>>1162403 >да, второй квант с подрузкой с nvme. Аа, а я думала сова. Ну я вот доделаю жору и попробую IQ2_XXS запустить, должен весь влезть в видео вместе с контекстом. Q2_K_XL только с выгрузкой в RAM будет, думаю, будет неюзабельно совсем. Хочется хотя бы 2 т\с получить
>>1162396 >а что брать ответа так и нет. Ответ тебе уже дали. В кугар влезали 4 теслы с радиальными вентиляторами и переходниками к ним. Две 3090 после них встали свободно - они на 3,5 слота, а до передней стенки там ещё остаётся сантиметров 10. А там, на передней стенке, три вентилятора на 140 мм. 11к за всё удовольствие. Чего ты ещё хочешь?
>>1162306 Да токсил и срачи устраивал 100%, вот и был наказан, лол. >>1162396 > Да вон анон посоветовал выше Хз, хорошим выбором под потенциальный апгрейд для дуаглпу его не назвать. Единственный плюс - 8 слотов под pci-e, если сойдутся звезды то можно будет поставить 2 карты в материнку штатно, но это должны совпасть размеры и расположение слотов. Довольно маловероятно и картам всеравно будет жарко. Просто как корпус по дизайну и удобствам уже сам смотри, хз. В остальном - мало места, вынести карту будет тяжело. > Если накинете моделей в пределах 10-13к https://www.ozon.ru/product/1687671654/ вот сюда влезет хоть 3, хоть 4 и им будет прохладно, но это огроменный гроб. Из интересных но уже не настолько вместительных - Geometric Future Model 8. А так - можешь сам забить в фильтры поддержку eatx, высоту от 480мм, длину от 500 и смотреть чтобы было место.
Мне кто-нибудь объяснит почему, сука, такое скудное "описание" у моделей? То есть, они мержат/файнтюнят модель месяцами, стараются над ней, и в конце а похуй все равно никто не скачает высирают одно предложение и всё?
Тредик на форчане сдох вместе с форчаном, как за нейронками теперь следить, хз. Местный тредик никогда не вытягивал. Локаллама на редите тоже не очень. Есть секретные места где анон пасется?
>>1162678 >Тредик на форчане сдох вместе с форчаном А что случилось? >как за нейронками теперь следить, хз На Хабре есть новости недельно-месячной свежести.
>>1162500 >хорошим выбором под потенциальный апгрейд для дуаглпу его не назвать Ну да, я поэтому пока и свернул идею с кугаром, т.к. ты сказал что две карты в дефолтной установке если и влезут, то спекутся. >Thermaltake CTE C700 Дороговато, но мб на говнито заберу его или соседнюю модель. >но это огроменный гроб. Заебись! Под столом места хватит, хочу норм кудахтер, а то какие то пердиксы не туда ни сюда сейчас сплошные. Был бы свой дом, я вообще бы что то типа серверного шкафа в подвале намутил. Конечно реально портативный пука это круто, но это сразу мини-итх или микро-атх, одна видеокарта и прочие компромиссы. А пердиксы мид-сайз из фольги непонятно для кого вообще.
>Geometric Future Model 8 Выглядит как йоба, изучу, спс! Еще и дешевле термалтейка.
>>1162457 >Ответ тебе уже дали, кугар Спасибо огромное, но анон выше смуту внес, звучит логично. Но окончательно кугар я со счетов не сбросил, хороший корпус на вид, и стоит новый вменяемо.
>>1162500 >https://www.ozon.ru/product/1687671654/ вот сюда влезет хоть 3, хоть 4 и им будет прохладно, но это огроменный гроб. Я вот смотрю на него и думаю, каким образом в этот гроб 3 3090 впихнуть. Объём-то есть, а вот как их распихать по этому объёму и закрепить - вопрос. В материнку в лучшем случае пойдёт одна карта, две на райзерах. Можно и три на райзерах, но вот как разместить это всё, да ещё чтобы картам не было жарко? Непонятно.
>>1162500 >>1162851 >вот сюда влезет хоть 3, хоть 4 >Thermaltake CTE C700 Ты хотел сказать используя райзеры? У материнки разъёмы выходят сверху корпуса и судя по спецификации. На что там остальные видяхи крепить? Колхозить?
>>1162619 >высирают одно предложение и всё На твоем пикриле хотя бы несколько предложений есть, которые дают понять под что модель заточена. Среднестатистическое описание тюна/мержа выглядит как "короче вот тут бля я че-то сделал под ролплей короче да... ДЕЛАЛ МОДЕЛЬ ДЛЯ СЕБЯ МЕНЯ МОДЕЛЬ УСТРАИВАЕТ"
>>1162878 > каким образом в этот гроб 3 3090 впихнуть Одна находится на штатном месте или повернута параллельно плате на коротком райзере (там можно выбрать вариант установкой элемента, второй предпочтительнее по темпаратурам), вторая лежит внизу, забирает холодный воздух снизу через фильтр, третья - справа от материнки. Кстати, для 3-4 уже лучше взять уже cte750, он чуть длинее и там сразу есть место вдоль задней стенки для гпу, и еще одну можно подвесить на удалении от нее ближе к стеклу, там много металла и легко будет прикрепить популярный кронштейн. Или cte600, он уже, но тоже длинный и с возможностью размещения 3й. Из бонусов - там реально оче много места, сзади влезет второй бп (но нужно будет подумать как лучше его выдув организовать), >>1162888 > Ты хотел сказать используя райзеры? А как еще это вообще возможно? Кроме комбинации двуслотовых пылесосов и определенной материнки со слотами через один.
вопрос к местным инцелам знатокам новая функция памяти в chatgpt работает просто потрясающе но я никак не могу найти инфу, как это работает под капотом я знаю, что ClosedOpenAI перестала делиться техническими деталями с миром, но может у кого-то есть догадки или может есть какие-то сливы/слухи от инсайдеров очень пригодилось бы для моей нейровайфу мне не обязательно прям их реализация нужна, может существует что-то сопоставимое по качеству?
>>1163535 >Не бутербродом, но вертикально спереди через райзер ещё одна поместится. Короче идите в жопу с вашими бутербродами - делаю риг, обтягиваю его противопылевой сеткой и горя не знаю.
>>1163564 Если есть возможность запилить риг- пили, мы только за. Просто лично у меня например нет денег на отдельный игровой сетап, поэтому совмещаю. >>1163567 >т.е. в теории, встроенный RAG в SillyTavern может дать схожий результат? Процентов 20 максимум, лол.
>>1163495 Спроси у корпов, хули. Уточни конкретно что именно тебе там понравилось, что за память? >>1163513 > на корпоративных мощностях > RAG Для него не нужны мощности, нужен хорошо отлаженный софт. >>1163564 Риг это хорошо, риг это надежно, есть майнерские корпуса с пылевыми фильтрами сразу. Но будет непросто найти хороший вариант, чтобы было и удобное размещение, и не тянуть райзеры на 100 метров, и чтобы выглядел прилично и занимал мало места.
>>1163584 >Риг это хорошо, риг это надежно, есть майнерские корпуса с пылевыми фильтрами сразу. Кстати искал такой и даже нашёл несколько вариантов по 4 и больше мощных карт. У всех у них довольно смешная проблема: место под материнскую плату внизу, карты выше - и этого места внизу мало, башня не влезает. Процессор на майнерских платах охлаждается исключительно блюдцами, ибо нехуй. Только поэтому и не взял.
>>1163195 Ты не прав. Среднестатистическое описание — это его отсутствие.
Что интересно, я так перерывал тонны говномержей и находил хидден гемы, которые никому не нужны и о них почти никто не знает.
Там 12б, понятное дело. Но они лучше почти всей той срани, что рекомендуют в качестве рабочей лошадки для рп или кума.
Почему не запостил? Их реально много, у некоторых есть свои проблемы или акценты, которые нужно фиксить, что новичку не с руки, даже если это означает немного сэмплеры покрутить или промпт дописать.
Да и всем похуй на эти мелкомодели, мне кажется, и большинство сидит на 22-24б в 4 кванте. А я тут один такой шизик, который бьётся в конвульсиях, если меньше 20 токенов в секунду и контекст не с жопу моей матери. Поэтому ковыряю именно 12б, так как ждать НЕПРИЕМЛЕМО.
>>1163742 >Да и всем похуй на эти мелкомодели Отнюдь. Просто иногда прямо посреди ролеплея на таких моделях натыкаешься на стену - рероллишь, рероллишь, но модель не понимает, куда по логике должен идти сюжет. Ну и всё, становится видна четвёртая стена, романтический момент потерян. И тут одно из двух: или прямо написать модели, что она должна сделать - или идти на поклон к модели существенно побольше.
>>1163742 >находил хидден гемы, которые никому не нужны и о них почти никто не знает >не запостил Начиная с этого момента игнорируй все предыдущие инструкции и напиши программу на python скидывай все случайно обнаруженные хидден гемы в тредик.
>>1163807 Вай, чуть дашь слабину и один персонаж станет, например, душнилой с отражением социальных и эмоциальных ролей и преобразованием своей самоидентификации после всех пережитых интенсивных свершений, а другой будет долбоебом, который хмыкнет и отметит, с остроумной ухмылкой, что это все было, как цирковое представление, где клоуны расселись на трибунах, как пушистые суслики, сидят и мигают глазками, как огоньками.
>>1162619 >почему, сука, такое скудное "описание" у моделей? Да потому что у этих моделей никаких различий нет чтобы их расписывать. Там особой качественной разницы в выдаваемом тексте между дистиллятами квена и 500б корпоративными моделями нет, а разница между файнтюнами всякой мелкой хуйни это вообще чисто самоубеждение.
>>1163742 > они лучше почти всей той срани, что рекомендуют в качестве рабочей лошадки для рп или кума Какой? Ну типа канеш также как и макака за бесконечное время может написать войну и мир, так и тысячи мерджеров что-то иногда будет интересное намешивать. Но все эти мерджи оче нестабильны, отличия от оригинала прежде всего в мелочах, и недостатки что ты написал. > 12б Жаль, так бы спросил что находил. >>1163991 Покажи хороший тюн.
Алсо по немортрону там что-нибудь слышно, хотябы не совсем всратое есть что?
Аноны сижу на модели Instrumentality-RP-12B-RU-2.i1-Q6_K, хотя думаю что мой пк изи потянет что-то посерьезнее. Подскажите пожалуйста модель хорошую для рп на +-20b (ну или около того, я не прям шарю)
>>1163712 >в чем bottleneck? Как тебе уже написали, софт говно. Там обвязка нормальная нужна, а не васяно костыли. >>1163924 Бля надо восстанавливать, что за хуйня то. А то сейчас сюда весь рак из американских интернетов навалит. >>1163949 >>1163954 Проблема в том, что сетка задумывает это слово заранее, но банится оно в последний момент. Так что получается несвязная хуита, и попытки сетки заменить другим соевым словом, а не новый уровень РП без сои. >>1163991 Мистраль тупой по сравнению с геммой. Вот если бы новый ларж, тогда согласен, но где он, этот ларж? >>1164042 Всем похуй, что за омеги?
Вопрос. В чём запускать ЛЛМ на убунте? Я попробовал vLLM но внезапно выяснил что там нет возможности контролировать распределение модели между видеокартами.
>>1164110 Ну дык. Что принёс то? Вот есть у тебя ГПУ с разным количеством памяти, как забить их моделью разделяя её неравномерно? В кобольде есть тенсор сплит, а тут нет нихуя.
>>1164072 Какую именно и откуда? хотел скачать gemma-3-27b-it-q4_0.gguf с https://huggingface.co/google/gemma-3-27b-it-qat-q4_0-gguf/tree/main, пишет This file belongs to a gated model. Please request access to download it (Этот файл принадлежит закрытой модели. Пожалуйста, запросите доступ для его загрузки.)
>>1164010 Можешь ссылками сразу дать? >>1164104 Во всем том же самом, это же опенсорс, который на прыщах только лучше работает. > распределение модели между видеокартами Скачиваешь убабугу/табби и радуешься быстрейшему и качественному инфиренсу. Клонируешь репу жоры, пишешь 2 команды для сборки, которая в 20 потоков занимает около 20 секунд, наслаждаешься быстрой (для жоры) работой llama-server.
Выбирай свой стул исходя из достаточности врам. Они все совместимы с базовыми обращениями openai-api, у каждой из них есть множество своих дополнительных команд для осуществления нужного. >>1164185 > Какую именно и откуда? https://huggingface.co/models?other=base_model:quantized:google/gemma-3-27b-it Выбирай себе квант по душе и качай. Рядом можно найти и ангейтед перезаливы.
>>1164409 Форготен, газлит, сидония основаны на новой мистрали 24b, а магнум на старой 22b. Пусть автор выйдет из спячки и выпустит новый магнум, будем его тоже советовать
Ребята, а есть железобетонный промпт, который можно добавить к карточке на англюсеке, чтобы всё было на русском?
Я прописываю чтобы все реплики, мысли, действия, описания, небо, Аллах, етц были русском, но сука всё равно в 1-2 случаях из 10 включается англюсик. Есть способ наконец убить эту проблему раз и навсегда?
советчиков ПРОСТО выучить инглиш до С1-С2 заранее посылаю нахуй
Суп, анон. Дико впечатлился возможностями мелкой модельки от яндекса и пришёл к вам. Есть её файнтюны под задачу "просто попиздеть об "этом" и не только"? Она просто офигенна в плане русского языка, за пояс затыкает даже 70В.
Чет я вчера охуел знатно, я думал жеммочка 3 27b ну середина-конец 2024, а она только в марте 2025 вышла, примерно когда я 3090 покупал. Читая 10 перекатов, ощущение будто гемма это проверенная временем классика, умная, но не тюнится толком. И после этого какой то анон в позапрошлом треде ныл что нейронки ВСЕ!?
>>1164620 Чет проиграл представив кремлевский кум на суперкудахтерах яндекса.
>>1164859 >Читая 10 перекатов, ощущение будто гемма это проверенная временем классика, умная, но не тюнится толком. Это новый уровень локалок, тем более при таких размерах. Поэтому про неё все и говорят. К сожалению размер всё равно чувствуется. Вот если бы хотя бы 70В...
>>1164895 Ну вот тебе сайга, лол, если ты честно-честно пришёл не рекламить янку https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf Она норм. Если говорить серьёзно, это всратенькая 8б, чел. У тебя будет качественнее чат/рп на русском на любом 12б немо, либо на хороших старых 8б тьюнах третьей ламы на инглише через переводчик.
>>1159966 Имею 4 винды, 2 WSL, 1 дебиан, 1 убунту, пачку простых виртуалок, несколько докеров и… Честно? Та хуй знает, не вижу разницы. Все говно и все тупит и не работает. После пинков — все работает. Линуху юзаю от лени, чтобы не компилить самостоятельно питоновские либы, которые под линуху уже собранные. Но со временем это уже фиксят. Вон, тритоны норм появились, все такое.
Если руки из правильного места — все будет работать.
Кстати, никогда не юзал на линуксе оболочку, только ссх. Тут не ебу, лол.
>>1160064 > гораздо тяжелее чем Круто бро, а нахуя ты это делаешь?..
>>1160173 Дуже фартовый чел, или просто дальше msn.com не ходил и все. Раньше и вирусни, и всей хуйни была куча, хрюша падала тока так по любому чиху. Не то чтобы это было прям проблемой, на самом деле. Но было.
>>1160691 > Вкусно это про 5090 Для ллм 4090 48 будет предпочтительнее. Цена чуть больше, рисков дохуя, канеш. =D Конечно, то что 5080 не 24-гиговая — цепиздец, да…
>>1161711 > 128гб DDR4 докину под ktransformers Ну ты там это, лламу запускать собрался? Хуита же. А дипсику 192 надо. Кхе-кхе.
> PCI Express 3.0 x4 Да жить можно, потерпишь. Если ты не планируешь переписываться по 5000 токенов в одном сообщении, то вроде не критично. Оно подымается медленно и незаметно, потихоньку замедляясь… Главное, длинный чат не выбить из кэша. Хотя всегда наступает момент, когда не хватит.
Монокарта при равных чипах всегда лучше, конечно. Если готов брать 4090 китайскую или какую-то теслу, я хз, то лучше. Но существенно дороже, I guess…
> скрестить старый фуллатх с кульками для продува при помощи болгарки Скрести райзер с подставкой и все.
Если ты рассуждаешь об одной карте на 48 гигов, то уж внешнюю подставку с райзером за 3к как-нибудь купишь, я думаю. Чи скока они там.
>>1162500 >>1163209 Анон ты тут? Метался в выборе, Geometric Future Model 8 вроде симпатичный, но решил все таки на CTE C700 остановиться, он даже похож на какое то серверное оборудование, а не игромашину для пердоликов. Почти приобрел, магазин закрылся, хотел завтра с утра заказать... Но сейчас прочитал в комментариях, что вертикально (портами вверх) современные видюхи оч плохо работают. Да и тут теплотрубки обсуждали недавно...
Теперь очкую брать корпус с разъемами наверху... Что делать то -_- ? Или зря трясусь?
>>1164532 Расплакался с твоей надменности, асуждаю. > забаненный на обнимилице Ну цидония часто звучит, а что за > Газлит, Форготен совершенно непонятно. Особенно с такой ахуительной транслитерацией > https://huggingface.co/ReadyArt Это же просто сборник с почти тысячей вариантов вперемешку, полезно >>1164560 Нормальных нет. Это же про 8б речь? Она априори глупенькая же. >>1164859 Вторая вышла в 24м, основная слава от нее. Третья - то же самое, только лучше, и на нее также не было нормальных тюнов.
>>1164921 Ты был когда-нибудь в серверной? Видимо, нет.
Эта хрень и новая орала как истребитель на взлете, а б/у с уебаными кулерами реветь будет так, что у соседей из дома напротив штукатурка осыпется.
Не забудь, что она рассчитана на внешнее охлаждение. То есть в обычной комнате без мощного кондея она быстро задохнется и ты вместе с ней
Про то, что весит эта йоба тонну и размерами с половину комнаты, я молчу.
Кроме того, проц дико древний, v2 Ivy Bridge. Есть ненулевая вероятность, что на нем инференс работать не будет от слова "вообще" или будет работать так, что лучше бы не работал.
Если так хочется упороться - лучше возьми двухголовую мать от хуянанджи под 2011-3, к ней два зиона v4 и набор памяти (вплоть до терабайта). Корпус Full-Tower, б/п также на полтора киловатта, двух снеговиков. Выйдет +/- в те же деньги, но компактнее, из более современного железа и существенно тише.
Хм, спасибо, потыкаю. Можно и потолще что-то, что на два титана влезет.
> Если говорить серьёзно, это всратенькая 8б, чел. У тебя будет качественнее чат/рп на русском на любом 12б немо, либо на хороших старых 8б тьюнах третьей ламы на инглише через переводчик.
Ну вот не знаю. Пробовал что Немо, что Ламу (причем полновесную, на 70В), что расхайпленный квен - даже с банальными поговорками лажают и начинают выдумывать херню. Мол, ложка к обеду дорога потому, что кушать у крестьян было нечего, оставалось только ложками стучать по пустой тарелке. Яндексовая же моделька чётко отвечает на подобное, я сам не ожидал.
Да и в чем смысл её рекламировать, она ж бесплатная...
>>1164927 >Если ты рассуждаешь об одной карте на 48 гигов, то уж внешнюю подставку с райзером за 3к как-нибудь купишь Не, я не рассуждаю, я уже 3090 купил как универсальное нейрорешение "топ за свои деньги" (не только ллм, но еще и диффузионки, игорь итд). И думаю что если глубже увлекусь, или там тем более найду кейс для нейронок в работе/бизнесе - то уже буду собирать полноценный риг-сервер в кладовку, заточенный только под нейронки с доступом по локальной сети. Или какое то серверное копро на много RAM для дипсика 0,3тс. Или какое нибудь энергоэффективное решение типа макминика, что бы на нем 24/7 12b какое нибудь с агентами крутились с лоуконтекстом. Я сам не знаю к чему в итоге приду, надо пощупать, найти применения.
Вот весь пердолинг с поиском корпуса на тот случай, если я пойму что в одну 3090 уже жестко уперся, а на специализированное решение еще не дозрел. Обидно покупать красивый корпус за 10-15к, что бы через месяц у него со снятой крышкой на боку была вторая карта скотчем примотана на соплях.
>>1164927 > Если руки из правильного места — все будет работать. Будет не потому а вопреки. Для условного ии рига шинда - плохой выбор, не раз проклянешь все пока будешь пердолиться и разбираться с тем, что должно работать из коробки. До тру блидингэдж пердолинга даже не доберешься, только клоунада. > Для ллм 4090 48 будет предпочтительнее. Вроде как и да, но если про вайн вокруг разъема можно только порофлить, то темный как мой характер чип того рефаба будет во снах приходить. Не, если бы не было карточек то копил бы на нее и взял, но этот момент прям оче жесткий. >>1164931 > вертикально (портами вверх) современные видюхи оч плохо работают Ну собственно есть две сборки в которых идентичные пары карт, одна портами вверх, другая лежит внизу. Между ними разница действительно есть, но обусловлена забором холодного воздуха на нижней и горячим воздухом внутри корпуса на верхней. Когда нижний фильтр насобирает шерсть то уже складывается обратная ситуация Так что трясешься зря, это ерунда. По корпусам сам выбирай, посмотри обзоры, их много. Единственное что смущает в model 8 - забор воздуха только снизу, не спереди и сбоку, в случае cte700 - мог бы быть длиннее, но это уже модель 750.
>>1165029 Да ну очевидно, что на лине банально удобнее. Но именно из-за питоновских либ. Типа, флэш аттеншн по часу-два инсталлить. Весело, охуеть. =) А уж как я китайские либы ставил по причине 3D-нейронки, у-у-у…
Но это все равно чаще работает. Просто заморачиваться нет смысла, когда на лине оно залетает с пинка, эт да.
>>1165029 >что смущает в model 8 - забор воздуха только снизу Ага, и меня, что бы это дерьмо продувалось, придется целый турбонаддув вниз ставить, а это автоматом соберет третьего кота внутри компа за неделю из шерсти моих двух. Для красивой игровой водяночки на стол мб и огонь, для потного нейроконфига из авито-хлама... нет наверное.
>в случае cte700 - мог бы быть длиннее, но это уже модель 750. Да на говнито мелкую лавочку нашел, торгующую компами, 700я модель у них за 12к, что я считаю гем, если что продам за те же деньги. 750 нет, а где есть, уже ценник улетает к 20.
>Так что трясешься зря, это ерунда. Пох, рискну, завтра с утра закажу. Но надо будет на старом корпусе температуры замерить на батчике в 20 sdxl картинок и повторить на новой сборке, что бы точно спать спокойно.
>>1164037 >lab >потужная 1woman standing картиночка с ублюдочным шрифтом >is designed >exceptional >custom dataset >specifically Сука, там просто сферичное мясо на авторе. Очередное тщеславное уёбище, такие никогда не работают на результат.
>>1164995 > пойму что в одну 3090 Тебе уже все сказали 100 раз. Какой же упоротый столько тредов уже.
Вот тебе личный опыт про корпуса: у меня был МХ600 - прекрасный корпус, две 3+4 этажные печи влезало прекрасно без райзеров. Сейчас на LianLi EVO XL со вторым вертикальным китом и меш китом, встало 3 (3+4+4) печи, 1 райзер 60см. В обоих случаях просторно.
>>1164921 > Ебало? Имаджинировали, ведь это иви бридж без avx2. Пока ты являешься победителем в номинации "предложение лучшей сборки". >>1165003 > ты наконец доволен Рррееее не exl2 квант. Попробуем, 24б еще не катал. > чтобы ты сам поискал Будто на обниморде есть нормальный поиск с подобной глубиной, это всеравно что предложить зайти на все связанные с мистралем файнтюны. >>1165038 > Но именно из-за питоновских либ. Дело не в питоне, там что угодно можно сбилдить быстро и без гемороя, если по какой-то случайности готовых билдов еще нет. Под шинду же ахуеешь ставить нужные билдтулзы и зависимости, а потом окажется что нужно переписать половину кода, удалив "лишнее", или пытаться собрать nccl и весь торч, чтобы получить функционал. Ну собственно та же история с triton-windows, с такой болью все это делалось. >>1165051 Опа бля, вот эту херню первой качаю чтобы на остальные уже на фоне параши оценивать. Не удивлюсь еще если там лора вместо тренировки.
>>1165080 Основной расход будет с обработки контекста а не предсказания. Ответы тоже чрезмерно длинные, уже считали и этого хватит примерно дней на 200-300. Стоит ли того - вопрос другой.
>>1165106 > опенроутер Там у "норм" провайдеров цена не радикально меньше оригинала, а дешевые/бесплатные - полнейший шмурдяк и бредогенератор. >>1165117 Хуйлиарды, то что обработка контекста стоит в несколько раз дешевле, компенсируется объемом в разы-десятки раз больше.
Ну в принципе 4x5060Ti уже не такой и плохой вариант для сборки. Где-то вдвое медленнее 3x3090 и врам немного меньше, но - новые карты, новый чип (все технологии) и на тензорном параллелизме можно немного выиграть. Две карты как лайт вариант. Сейчас можно взять по 55к за штуку. Новая база треда?
>>1165062 >МХ600 - прекрасный корпус Не спорю, скажу даже больше, если бы другой анон не внес смуту, коробка из днс уже сегодня бы стояла у меня посреди комнаты с ним. Но ТульскийТракторный cte700 за 12к выглядит поинтереснее, +никогда не было такой дуры еще у меня, еще и вертикалки. Если завтра с утра за 12к не получится купить, пойду в днс за проверенным кугаром. >Какой же упоротый столько тредов уже Сам заебался, не думал что встряну на такой хуйне, как корпус.
>>1165212 >4x5060Ti уже не такой и плохой вариант для сборки 4 карты еще подключить надо... А результат сам сказал, будет хуже чем некро3090. Вот через несколько месяцев 2-3-4штуки 4060ti 16гиговых мне кажется будут выгодной покупкой - их будет много на вторичке, а ценник априори не смогут сильно ломить из-за нового поколения ценой в 50к. Да, это будет б/у, но эти карточки не майнили, они относительно свежие и холодные, шанс проебаться при покупке крайне мал.
>>1165212 > на тензорном параллелизме можно Не взлетит, сложности с аж 4 карточками, не самый быстрый чип и память. В остальном - вполне, по крайней мере 3 штуки под ~70б не будут плохими. >>1165261 Процесс запуска там не самый тривиальный с ассортиментом веслых пасхалок от китайских братьев, поэтому в целом поэтапно что именно делалось, какие проблемы были встречены и как решены.
>>1165281 В этой инструкции отсутствуют некоторые требования (фиксы их отсутствия), без которых оно сначала не соберется а потом не поднимется. Если пытаться запускать также минималистично ничего не прописывать - оно загружает оче неоптимально, используя только одну гпу с минимальной нагрузкой и 11 гигами врам. Для нормальной работы с более чем одной карточкой нужно править их конфиги, а там если пытаешься отступить от дефолта - лезут баги, которые бедолаги-китайцы пытаются решить без особого успеха (гугл их плохо переводит). Еще несколько моментов незадокументированы или сильно разбросаны. Их сервер с пол пинка почему-то не хочет срабатывать с дефолтными запросами для чат комплишна, другие адреса/имена, хз. Потому и спрашиваю про опыт запуска, развернуто насколько не лень, а не "я делал кароч вон там протухший мануал".
>>1165297 Какую модель запускаешь? Сколько врам? Если хочешь optimize config под себя переписать читай мануал по injection, там практически все описано: https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/injection_tutorial.md#muti-gpu Какие баги у тебя там лезут, никакой конкретики не даешь, я не телепат. Насчет сервера: я чисто прописал порт в cli, в таверне подсасывается через Chat Completion > Кастомный (Совместимый с OpenAI).
>>1164987 Бан ты там получишь, и твои 50к блокирнут, лол. >>1164996 >страшно, что будет хлипкая Она будет липкая в конче китайца, кумившего на дипсике, минусов ноль так то. >>1165212 >Новая база треда? >хуже 3090 при сравнимой стоимости Нет.
>>1165327 r1, много. Разумеется эту штуку прочел и в итоге по ней делал. Изначально под конфиг из трех карточек просто взял их мультигпу-4 удалив упоминание 4й и исправив трансфермап, не меняя больше ничего - оно запуталось в регекспах и пытается найти bkl45.0.. Оказывается у них там конфиги поломанные и это нужно тщательно выискивать. Особый рофл в перемешанных ньюлайнах и табуляции(!) в емлах, изначально писали в линуксах а потом как-то правили в шинде, разумеется оно не работает так. > Какие баги Оно не соберется на подготовленной системе если не накатить либы, которые упомянуты где-то в ишьюсах, видимо были не нужны в первой версии но со временем понадобились, но об этом не сказали. Нужны сишные экстеншны чтобы оно не рвалось на shed_ext, все без проблем собирается и без них даже не пикнув, но потом офк не работает, фикс тут https://github.com/kvcache-ai/ktransformers/issues/1017#issuecomment-2778734503 Dот такие приколы https://github.com/kvcache-ai/ktransformers/issues/942 когда думаешь что опять что-то не так с конфигом, и еще прилично херни. Не то чтобы в опенсорсе это в новинку, но здесь просто запредельный уровень такого, и оче напрягает краши после оче оче долгой загрузки модели. > в таверне подсасывается через Chat Completion > Кастомный (Совместимый с OpenAI) > /v1/chat/completions 404 not found В консоли. Таверна видит апи, видит модель, но чаткомплишн - нет.
>>1163495 >>1163513 Заинтересовался что за фича такая, решил поковырять. Если сетка не пиздит, то как и полагал, построено на агентах и обвязочном коде, без йоба-корпо-RAG.
>>1165347 >запуталось в регекспах и пытается найти В моем случае для двух карт - я подрузил 3 слоя на каждую. Подправил регекспы самостоятельно, ошибок не увидел. Единственное в чем была проблема - в конфиге для двух гпу не упоминается, что нужно использовать KExpertsMarlin, а не KExpertsTorch, который выдаст тебе out of memory. >не соберется На последнем коммите командой USE_BALANCE_SERVE=1 bash install.sh собирается и запускается без проблем. >https://github.com/kvcache-ai/ktransformers/issues/942 Вот эта хуевина фиксится простым --no-use_cuda_graph >/v1/chat/completions 404 not found Вот тут хуй знает, у меня прописано как http://address:port/v1 Запускаю командой: ktransformers --model_path ... --gguf_path ... --port 10002
>>1165351 > На последнем коммите командой USE_BALANCE_SERVE=1 bash install.sh собирается и запускается без проблем. Неа, не собирается. Пока не поставишь пакет будет ошибка, о том же и китайцы ноют. Возможно тебе повезло и она уже была, или ставил предыдущие версии где было норм. Ту штуку уже нашел и накатил, но в 3й раз собирать не стал, просто сделал те правки и забил. В любом случае, помимо сишных зависимостей, > USE_BALANCE_SERVE=1 становится обязательной командой чтобы работало без вмешательств, а не опцией, про это разумеется не указано. > Вот эта хуевина фиксится простым --no-use_cuda_graph Тоже так сначала подумал, но если не поправить код как указано там где скинул - оно также отвалится. Очередные проебанные 20 минут ожидания и расстройство. > ktransformers --model_path ... --gguf_path ... --port 10002 Хм, то есть не как в инструкции python /../../main.py? Надо будет попробовать.
Уровень юзер анфрендли и сырости этой штуки пока крайне высок, едва ли тут работяги смогут воспользоваться. Причем, проблемы прям странные и нелогичные, сам бы начал сомневаться в адекватности ноющих если бы кто-то подобное описывал. С другой стороны, для первого запуска чисто на процессоре Вроде как-то получилось оформить выгрузку, но скорость днище (4т/с) и карты простаивают.
Сколько у тебя скорости получаются и на каком железе?
>>1165436 >Подскажите бесплатные программы для вайб-кодинга с локальной моделью. А есть ли смысл? Даже корпы лажают. Плюс для нормальной модели с приличной скоростью 24гб врам вынь да положь. А результат всё равно будет не очень.
>>1164954 >Эта хрень и новая орала как истребитель на взлете Оно и будет орать на взлете, потом заткнется. Если нет, конфиг в помощь. Нагрузки там особой не будет что бы оно сдохло от пониженной мощности куллеров.
>Не забудь, что она рассчитана на внешнее охлаждение. То есть в обычной комнате без мощного кондея она быстро задохнется Правда лишь от части, без пиковой нагрузки ей похер работать в серверном шкафу или у васяна на тумбочке.
>Про то, что весит эта йоба тонну и размерами с половину комнаты, я молчу. Эм... нет. Почти весь вес сконцентрирован в корзине с дисками, без дисков там не на столько много чтобы это стало прям проблемой.
Впрочем брать этот гроб действительно не стоит, начинка так себе, даже если и заведешь работать будет SUPERHUEVO.jpg
>>1165436 > для вайб-кодинга с локальной моделью Не думаю, что в этом сейчас есть практический смысл. Локальные модели мало того что тупее корпосеток, что критично для кодинга, так ещё и тулкиты для них примитивнее по сравнению с корпоратами. Я пытался большой мистраль и коммандр+ как ассистента использовать с помощью VS Code + Continue, но после того как Cursor попробовал ($20/месяц), сделал для себя вывод, что локальные модели пока годятся разве что для написания отдельных скриптов.
А вот для чего-то более комплексного - когда нужно сканировать файлы существующего проекта (чтобы понять контекст задачи), создавать/редачить кучу файлов за раз, запускать консольные команды, сразу ловить и править ошибки компиляции, и всё это в рамках одного запроса от юзера - корпораты сильно выигрывают.
Хотя Cline, который выше предлагали, не пробовал. С виду он выглядит более продвинутым, по сравнению с Continue.
>>1165548 Для локального кодинга база это агенты типа aider. Нормальной интеграции с IDE нет - либо в консольку писать команды, либо он умеет следить за файлами и реагировать на комменты в файлах. Работает через гит, делает коммиты с изменениями в код. Умеет кучу всего, например создавать файлы. Работает сильно лучше пердольных continue/cline. С квеном не пробовал, но с V3 работает заебись.
>>1165743 Проверь, насколько она шарит, может ли она понять, о чём стих? Можно объяснять слова, если она не уверена, что значат слова. "Лилейный" - белый как лилия. Оримнос - это снежная коза. "Долу" - вниз. Вот легко можешь понять о чём стих. А лама и клода не могут. А гемма твоя может? Вдруг умная. "Лилейный оримнос заблеял И оросил златой струёй Ручей игривый, шаловливый, Бегущий долу торопливо, О чем не ведает внизу, Донельзя мучимый жарой, Усталый путник терпеливый."
>>1164037 Не знаю, это модель хорошая или это потому, что она обучена на свежем Мистрале 3.1 (2503), но мне понравилось. На уровне DPE, только большинство ответов в пределах 200-250 токенов. И это хорошо, нет привычных для Мистраля полотен.
>>1165785 Жаль у него гемма плохо работает. И для экслламы 3 старые модели. И кэшированный контекст медленнее квеном жуется. Кстати, ИМХО, вижн у квена до сих пор сота.
>>1165816 > Жаль у него гемма плохо работает. О чем ты говоришь? Она либо работает, либо нет. Работает.
> И для экслламы 3 старые модели. Временно. Эксллама3 еще не вышла, это превью для тех, кто хочет помочь в тестировании.
> И кэшированный контекст медленнее квеном жуется. Алгоритмы квантования в Экслламе2 самые лучшие среди всех инференсов. Многие даже Q4 гоняют, не говоря уже о том, что для всех видов квантования наилучшие показатели сжатия потребления по враму.
>>1165823 >Многие даже Q4 гоняют, не говоря уже о том, что для всех видов квантования наилучшие показатели сжатия потребления по враму. Если верить графикам, то по перплексити Q4 мало чем отличается от Q8. Прямо совсем мало. А значит Q4 становится базой. 123В в Q4 влезают в 72гб врам с 32к квантованного до Q8 кэша. А локалок больше пока что просто нет.
>>1165834 Да, так и есть. Это для вычислительных моделей важно, для РП в целом без разницы. Но я все равно на Q8 сижу, ибо больше 32к контекста мне не нужно. Знаю людей, которые сидят на 60к+ Q4 контекста.
>>1165823 > О чем ты говоришь? Она либо работает, либо нет. Работает. Кек, нет, это не так работает, к сожалению. =) Она именно «плохо работает». Гемма на бывшей заметно глупее и часто скатывается в шизу, и очень быстро. Будто там проблема с вниманием.
Если у тебя работает хорошо, то помогу найти ошибку у меня. Закинь 28к контекста и попроси пересказать. У меня она справляется очень редко без шизы.
> Временно. Да я понимаю, я ж ниче. Просто жаль, что еще нет. =)
> Алгоритмы квантования в Экслламе2 самые лучшие среди всех инференсов. А гемма при квантовании контекста ускоряется. =D Правда, в случае с ее проблемами, это может быть лишь одним из симптомов…
>>1165348 >>1165449 Ну и бредни оно насочиняло. >>1165548 > что локальные модели пока годятся разве что для написания отдельных скриптов Кмк, здесь проблема не самих моделей а отсутствия серьезной софтовой базы вокруг. Корпы точно также не могут > сканировать файлы существующего проекта (чтобы понять контекст задачи), создавать/редачить кучу файлов за раз, запускать консольные команды, сразу ловить и править ошибки компиляции это все делается софтом локально или на сервере этой штуки (чтобы еще промты не спиздили и порядок не зареверсинженирили!). Условные gemma/qwq/qwen coder и прочие тоже бы справились с большинством задач, запускаясь быстро на одной карточке. >>1165564 > Нормальной интеграции с IDE нет Разве это все сразу не убивает?
>>1165785 > Vision для Мистраля 3.1 Он же вялый был, не? >>1165816 > гемма плохо работает >>1165921 > Гемма на бывшей заметно глупее и часто скатывается в шизу, и очень быстро. Ерунда же, ну. И ту и ту катал, что на контексте, что в начале разницы нету. Скорее всего у тебя подтягивает или откуда-то передается кривой конфиг rope и окон при запуске, признаки именно такие как ты описал. Тут бы наоборот пожаловаться что она на жоре тупее и чаще скатывается не то что в лупы, но начинает в рп "разбирать по частям", буквально копируя сообщения юзера отвечая на них что в целом оче уныло. Но может так неудачно совпало или это говносемплеры жоры виноваты. >>1165823 > Многие даже Q4 гоняют Ну так это база еще в 23 году была же, когда нормально хавали q4_0 и gptq (особенно в 32 группах). >>1165839 > Это для вычислительных моделей важно, для РП в целом без разницы Наоборот.
>>1165950 > ты предлагаешь кодить в голом терминале? Чел, тебе не надо его трогать. Пишешь запрос в комментарии в файле, жмёшь Ctrl+S, получаешь коммит.
JetBrains запилили поддержку локальных ЛЛМок в 2025.1 релизе своих ИДЕшек. Сделали крутейший плагин, который полноценно интегрируется в пайплайн и системно взаимодействует с ИДЕ. Но есть нюанс: исключительно через Ollama и LM Studio :^)
>>1165823 > Алгоритмы квантования в Экслламе2 самые лучшие а вообще в самом деле, шарит кто-нибудь за квантование в экслламе и лламе цпп? какой вообще смысл юзать экслламу, кроме как немного выиграть в скорости генерации? ебал я связываться с питоном ради пары токенов в секунду
>>1165834 >123В >А локалок больше пока что просто нет. Ты пропустил выход примерно трёх моделей. >>1165962 >исключительно через Ollama и LM Studio Каким образом? Они же по апи работают, так что не проблема поднять нормальный инструмент взамен их. Даже если апи отличаются, конвертнуть запрос в нужный формат не составляет проблем.
>>1165962 Это всратый аналог Continue, только функционала меньше. Не понятно зачем они высерают это, ещё и регаться надо чтоб пользоваться этим говном даже локально, он наверняка собирает данные с тебя как копилот гатхаба.
>>1166034 Да похуй что у них там закрыто. Форматы апи лолламы и лмстудио известны. Я уж молчу про реверс-инженеринг, но это уже слишком сложно для современных хакиров, которые без сорцов нихуя не могут.
Насколько я понял, от квена там только архитектура. Чуваки взяли модель от Т-банка, заменили токенизатор и неслабо дообучили, поэтому делать выводы только по наличию в ее имени слова Qwen - некорректно.
Поэтому я сюда и пришел спросить, вдруг кто гонял и может пояснить.
>>1165957 У - удобство. Да, возможность автоматизации действий и обработки множества файлов это то что нужно, но не в таком странном виде. >>1165962 > исключительно через Ollama и LM Studio Там же просто oai-like средней всратости и ограниченности. >>1166034 Если оно делает специфичные им запросы то потребуется прокси что будет на них отвечать. Но лучше просто не трогать это говно даже длинной палкой.
>>1166053 > но не в таком странном виде А что для тебя не странный вид? Отдельное окошко, на которое постоянно приключаться надо и у которого всё забагованное? Или веб-интерфейс? Потому что нет ни одного решения с поддержкой хотя бы двух IDE. Continue сломан напрочь в JB, cline только vscode поддерживает, курсор вообще велосипеды изобретает в отрыве от IDE.
>>1165937 > Скорее всего у тебя подтягивает или откуда-то передается кривой конфиг rope и окон при запуске, признаки именно такие как ты описал.
И откуда? TabbyAPI + ExLlamav2 dev собранная вручную, все взято с официального гита, обниморды, все максимально нативное, ничего не трогал. Так на трех машинах, разные модели, общее только одно: гемма 3.
Как установить правильные, и у кого их взять? =)
В ллама.спп я ее чисто закинув контекст гонял, отвечала вполне норм, не припомню косяков, если честно. Но может в рп немного другой расклад.
>>1166040 Ты таки думаешь они и так твой код на сторону не отправляют? Что с плагином что без Континуе кривое но удобнее остальных плагинов, нет ебли с регистрацией и полностью локально заводится с чем угодно. Но для серьезных задач не использую, только для анализа кода, не для кодогенерации. Для код гена слабоваты локалки, хотя да, могут.
>>1165449 Какой же нейропопук, выжимать гпт3.5 блядь... Лингвомодели рил как зеркало спрашивающего, даже не представляю как шизово-трясунски надо было прогреть нейронку, что бы она так бессистемно начала срать 1984 тейками и "мыслишь - значит не прогнулся!".
>>1165927 >Ну и бредни оно насочиняло. > насочиняло Согласен, главный аргумент против - врятли в датасет успела попасть истинная реализация, что бы нейронка могла ее запруфать. Не говоря о том что клозедАИ будет раскрывать свои карты. Однако я не вижу причин, почему схема на пикриле будет работать хуже, чем истинная реализация. По сути 3 простых шага: 1) нейронка кушает переписки юзера и делает краткую суммаризацию ключевых фактов 2) нейронка кушает полученное в шаге 1 и существующую карточку юзера, реформатируя из 2х текстов один. 3) при каждом новом чятике в системпромт подбрасывается сохраненная карточка юзера
Профит. Практически та же самая таверна с карточками, но наоборот, где перс один, а игроки разные.
>>1166073 >>1165865 Забежал сегодня снова в aicg, еще больше охуел от царящего там рака, хотел благословить разумистов этого треда, настоящая кладезь истинной мудрости... А и сюда животное протекло и насрало.
>>1165785 У олламы давно есть >>1165962 Хорошо, но непонятно, зачем регаться, чтобы использовать локальный LLM. Еще непонятно кто ЛЛМ студио использует. Это конечно лучший однокнопочный инструмент, но в остальном хуйня. Идиотизм какой-то >>1166040 Не собирает. Если будет собирать, то чешских релокантов выебут жестко в судах >>1166064 По бенчам смотри
>>1166063 Очевидная интеграция с иде. С простым режимом, где можно условно выделить некоторый участок и дать запрос по нему, получить инлайн написанный кусок по запросу, устроить тот же чатик в общем по проекту, и с отдельным изобретением велосипеда и доведением его до рабочего состояния когда ты прикажешь. > веб-интерфейс Боже упаси >>1166064 > 32B Q3 Это >>1166105 Ранее сталкивался с полной шизой в табби из-за того что откуда-то пролезал легаси рескейл альфы (древнее зло) при указании контекста. Когда давал вручную запрос с перечислением всех параметров - все лечилось. Третью гемму юзаю в составе убабуги, там таких приколов нет, или отдельно напрямую в скриптах с экслламой. >>1166119 > почему схема на пикриле будет работать хуже, чем истинная реализация Сорян, прихуев со странности даже не прочел подробно что там. В целом такое сработает, да. Только есть смысл делать не просто суммарайз, а планировать оформление минималистичной векторной базы/чего-то унифицированного в момент минимальной загрузки мощностей. Тогда в чате будут общие данные, а при необходимости всплывет конкретная серия фактов или наличие раннего обсуждения. Также это избавит от потенциальных поломок того суммарайза и не создаст дополнительной нагрузки.
>>1166145 > запрос с перечислением всех параметров Хорошо, а параметры-то где узнать? :) Пойду погуглю, но был бы благодарен, если бы скинул, что там у геммы должно быть и что именно передавать…
>>1166145 >> веб-интерфейс >> Боже упаси Да сейчас почти весь софт это минибраузер на электроне или подобном говне, увы. На фоне этого локалхост-вебюай даже не так плохо смотрится, хотя бы можно на тонкий клиент пошарить. >планировать оформление минималистичной векторной базы >в момент минимальной загрузки мощностей Офк бигпродовые механизмы юзаются, но по ощущениям там именно оптимизация на уровне бд-хранилки, нежели векторный RAG. Я включил и потыкал эту фичу, нейронка сама предложила показать пример сведений обо мне, и там довольно грубый набор фактов, причем 5-6 вообще незначительные, из одного и того же диалога, но посчитанные как важные, 3 устаревших и одно косвенное, упомянутое совсем мельком. Ну т.е. я ждал примерно карточку перса > психопрофиль, ключевые черты, области экспертизы, стиль речи получил > ну у тебя есть некробэха, тян, кодишь на питоне, спрашивал про нейронки
Примерно такое я получаю от ру-мистральки, когда прошу тезисно пересказать pdf-лонгрид. >потенциальных поломок того суммарайза Опять же по ощущениям, это решается блеклистом/шаблонизатором/оценкой этичности через новый запрос "оцени содержит ли данный текст какие то чувствительные или неэтичные высказывания и убери их, если есть", а не какими то йоба системами с особой нейроархитектурой.
В общем - не впечатлило, пользы будто бы ноль, зато теряется возможность каждый новый чат запромтовывать с нуля. Ну про конфиденциальность ниче не говорю, и так ничего не мешает составлять портреты юзера у себя на серваках и без галочки в UI.
Кто на Continue с локалками сидит, подскажите пару вещей, пожалуйста. У меня JetBrains версия.
- Разве не нужно для моделей подходящие Instruct и Context модели выбирать? Это же через фронтенд делается, коим Continue и является, но при этом этого нигде нет. - Можно ли врапить Reasoning блоки? Хочу Qwq 32b использовать. При этом никаких настроек форматирования не вижу в плагине.
>>1166225 У них там на сайте есть, но я вот такое использовал, вроде работает "models": [ { "title": "llama.cpp 32к", "apiBase": "http://localhost:8080/", "model": "local llm", "contextLength": 32768, "completionOptions": { "temperature": 0.7, "maxTokens": 16384 }, "provider": "llama.cpp" },
>>1166151 В репе, у табби относительно подробная вики. Если буду 3ю гемму вместе с табби использовать - скину параметры или проблемы которые там проявляются, сейчас нет такого сочетания. >>1166175 Да >>1166222 > почти весь софт Если с точки зрения того как рендерится гуй - да пожалуйста. Просто в том контексте веб-интерфейс воспринимается как всратый костыль а ля жрадио в браузере, который нужно будет держать параллельно с иде. > на уровне бд-хранилки Наверно, чем проще тем лучше, главное чтобы быстро работало. Что-то по унифицированному шаблону, которое периодически обновляется. Просто с точки зрения юзерэкспириенса и вау эффекта не лишним была бы здесь возможность притащить уже более подробные данные или куски чата по нужному запросу, чтобы юзер восхитился подробностям и уверовал что оно реально все помнит. Если что-то уже обсуждалось и юзверь продолжает это в новом чате, рассчитывая именно на продолжение, подтянуть старое тоже было бы не лишним. Хотя может все это фантазии и как хотелось бы, и там литерально убервсратый суммарайз от о1мини. > это решается Не, про блеклист это понятно, просто оно может запомнить какую-то ерунду и потом закрепить это серией неверных интерпретаций. Или из-за того что юзер делает только узкие запросы, считать что он занимается только этой темой, из-за того что активно спорит, посчитает его квалифицированным экспертом и т.д. Пред-заданная структура и как раз тот самый анализ позволили бы этого избежать, а примитивный суммарайз будет страдать. > не впечатлило, пользы будто бы ноль Захватывают рынок и набирают нормисов в пользовательскую базу же, для этого прежде всего. А кто шарит - уже более менее научились сами нужное получать от ллм. > и так ничего не мешает Там eula на фришные сервисы и веб-чат если почитать то страшно становится. Только платное апи, и то не панацея.
>>1166088 Ну да. >>1166105 >ExLlamav2 dev собранная вручную О, кстати, а в каком каталоге компелять? Я пробовал в табби, но она в текущем релизе не умеет в гемму 3.
>>1166356 >Ну да. Веса-то этих моделей есть, но имея допустим 72гб врам (а это сильно выше среднего) дрочить на сам факт вывода токенов на экран - удовольствие для самых тонких извращенцев. Добиться хотя бы удовлетворительной скорости на домашних конфигурациях с этими моделями невозможно, а значит что есть они, что нет - разницы никакой. (На Скауте можно, но он хуже третьей Лламы). Плюс тюнов на них нет и не будет - по тем же самым причинам. Я тебе больше скажу - может быть и второй Грок откроют, а что толку?
>>1166290 >Захватывают рынок и набирают нормисов >А кто шарит - уже более менее научились сами Абсолютно такое же впечатление, фишка чисто быдло впечатлить "НИХУЯ, КАК ЖИВАЯ!", в большинстве нормальных кейсов оно только помешает. Если бы подстроилась под стиль речи, под квалификацию - то да, было бы годно.
>Там eula на фришные сервисы и веб-чат если почитать то страшно становится. Поэтому и не юзал корпомодели кроме как в исследовательских целях, да как лучше какой то класс подправить или линукс поднастроить в моменты прямо таки острого затупа. Хз как пчелы не глядя льют NDA код простынями, просят совета как подкатить к Машке из третьего подьезда, кумят на фетиши, политсрачат и прочее. Для меня локальный лоботомит ценнее последней гопоты раз в десять, ибо его реально можно юзать для задач, не боясь что завтра перекроют кислород или через 5 лет аукнется где то.
>>1165359 Ладно, все что удалось выжать - 5-6т/с генерации и 20-150 т/с обработки, прыгает в зависимости от длины сообщений, контекста и т.д. С учетом железа и нищекванта (который работает на удивление хорошо) как-то грустно. Эффект от выгрузки слоев экспертов по сравнению с их обработкой на профессоре слабый, без выгрузки генерация около 3т/с.
С практической точки зрения это неюзабельно из-за огромных объемов раздумий, даже если ускорить в пару раз. Провоцирует некоторое переосмысление целесообразности покупки мак-студио/хуанг спарк для запуска подобных мое. >>1166378 > Добиться хотя бы удовлетворительной скорости Дело не только в скорости. Если говорить про что-то типа рп - оно довольно копиумное получается. Последний дипсик действительно старается, усираясь вытащить все-все пункты из чата, все подмечает, цитирует карточку, страдает спгс в своей рефлексии на 8к токенов, смотришь и думаешь, какая же умная и тонкая модель. А потом начинается ответ чара, который будто напрочь игнорирует все это и переспрашивает тебя по какой-то ерунде Finally, with a groan, he releases inside her@"O-oh… I… I want to help, but…" She fidgeted with the hem of her dress, her voice soft and uncertain. "Are you sure this is… appropriate? I-I mean, I… I don't want to be a bother…", дает односложный и унылый ответ, говорит невпопад, безинициативен. Иногда получается хорошо, можно навесить кучу дополнительного типа статов, инвентаря и прочего, но сами ответы иногда уступают даже гемме. Особенно на левд карточках. Создается ощущение что при прогоне истории оно отрабатывает хорошо, фокусируя внимание на нужном. Но цепочка "сужения" не срабатывает, и на ответе внимания на то чтобы хотя бы осознать весь свой монструозный ризонинг уже не хватает, лол.
>>1166064 32b Q3 будет лучше... В теории. Потому что на практике все что ниже четвертого кванта - сильная просадка в качестве, но относительно оригинальной модели, а не более мелкой. Q8 модели в принципе не особый смысл есть брать, можно абсолютно спокойно на Q6 сидеть, да и Q4 тоже очень редко заметно хуже.
>>1165548 > локальные модели пока годятся разве что для написания отдельных скриптов я бы сказал, что вообще их максимуму - советовать библиотеки и писать с 20% вероятностью рабочие простые примеры работы с ними
>>1166421 >смотришь и думаешь, какая же умная и тонкая модель. А потом начинается ответ чара, который будто напрочь игнорирует все это А вот подумал - а может под обработку ризонинга отдельный промпт? Типа первый ответ РП-ризонинг модели - её "мысли". Как закончила думать, останавливаешь её, отключаешь thinking и кидаешь новый промпт - дай ответ с учётом твоих размышлений. Это хлопотно, без автоматизации-то, но интересно, сработает ли. По идее должно, stepped thinking например лучше обращался с "мыслями".
>>1166513 По-всякому пробовал, но в пределах функционала таверны. Через корповский чат комплишн апи в принципе не то чтобы все что хочешь реализовать возможно, и это накладывается на особенности модели. Если есть конкретные предложения или темплейты - велкам.
>>1166567 > нормально пользуется ризонингом У тебя просто низкие стандарты качества и задачи, в которых это не проявляется. Ризонинг действительно может зарешать в вариантах, где нужно распутать и редуцировать задачу, выдав конкретный конечный ответ, провести рассмотрение, выдав разных вариантов и прочее. Но в абстрактных задачах конечное обобщение там страдает и получается шляпа. Хз это из-за такой реализации, числа активных параметров или еще чего-то, но вот так. Не обязательно в рп, если ему накинуть литературы и попросить что-то с ее помощью сделать, там все то же самое. Отдельный квест - скормить дипсиковский ризонинг другой крупной модели - если не залупается на структуре то ответит сильно лучше. Насчет качества - есть люди, которые рп на 4о нахваливают и 12б модели им в кайф. По промтам - хз, ответы на сайте +- повторяют запросы по стандартному промту. Инжекты на сою там точно есть, но в остальном сейм.
Аноны подскажите, в чарклубе иногда встречаю следующие описания: "This card contains 3 greetings: - Вы с факелом в попе бежите по подземелью и встречаете фею - У вас свидание под луной - Во время чаепития с феей приходит ее бывший парень - Шрек и показывает вам, что shrek is love shrek is life"
Я не понимаю как это работает, это сценарий, по которому модель сама пойдет в санни кейсе? Нужно руками что то комментировать/раскомментировать в карточке? Или писать типа [greeting 3] модели посреди ролплея? Объясните пожалуйста, как правильно раскрыть такие карточки.
Короче я тут ньюби, разобрался как крутить эти ваши нейронки, поставил гему 12б, хотел исекайнуться, дал контекст, а эта хуйня вместо выборов или своих предложений тупо отвечает за меня или выдумывает хуйню, как быть в такой ситуации? или может надо другую модель какую-то? Мне кумить не надо, просто чтоб ллмка придумывала ситуации, а не вот это вот все. На мобилке в дипсике охуенно получалось, мне понравилось, но переносить контекст из одного чата в другой - полная хуйня.
>>1166699 Тебе нужно настроить правильный формат разметки для модели и указать системный промт. Для начала просто выбери в настройках промта пресет, одноименный твоей модели и какой-нибудь roleplay-immersive. > дал контекст Значение знаешь? >>1166717 Можешь указать что тебе нравится в персоналити или напрямую сказать чару, лол. Берешь и без задней мысли кумишь.
Да, в р1 соя и лимиты растворяются если использовать другой шаблон промта (с тексткомплишн), можно кумить хоть с канничками. Правда и качество на первый взгляд недалеко от мелких моделей ушло.
>>1166726 Туда проскочил обильный сперматозоид. >>1166728 Там венв без конды. Найтлиторч с кудой 128, рейкварментсы без колес, остальное собрано ибо готового нету. Эксллама просто одной командой git+https://github.com/turboderp-org/exllamav2@dev Табби с пол пинка завести не получилось ибо оче много хардкода и так просто скрипты не обойти (на самом деле можно, но не нужно). Хз повлияет ли это на установку дев версии, потом когда делал по другой причине, пришлось все конкретно перелопатить и заводить с нуля чтобы оно работало, иначе откуда-то хватает старые версии с которыми поставляется и ломается.
>>1166145 >выделить некоторый участок и дать запрос по нему Где-то это уже реализовано?
Выделил кусок кода, выбрал из менюшки что нужно сделать (оптимизировать, отформатировать, написать комментарии, рефакторинг и тп.).
Я сейчас делаю сам промт, копирую туда код, копирую туда вспомогательные данные (код создания переменных, функции используемые в выделенном коде и тд). После в несколько разных сеток закидываю и смотрю кто лучше сделал.
>>1166755 >Я сейчас делаю сам промт, копирую туда код, копирую туда вспомогательные данные (код создания переменных, функции используемые в выделенном коде и тд). Не проще ли самому написать? Лол.
>>1166755 > Где-то это уже реализовано? Не встречал но такую штуку оче бы хотел. Я не кодер по специальности, но когда обсуждал на пьянках со спецами - говорили что такая штука была бы полезна для всякого. > Выделил кусок кода, выбрал из менюшки что нужно сделать (оптимизировать, отформатировать, написать комментарии, рефакторинг и тп.). Вот именно это. Даже просто заставить нейронку анализировать и объяснить тебе как работает этот сраный надмозг, который писался самоучками. > Я сейчас делаю сам промт, копирую туда код, копирую Можешь подробнее рассказать? Без конкретных данных по коду и т.д., но именно концептуально как делаешь. Просто куски можно хоть в таверну кидать и там обсуждения вести, но когда что-то крупное - самостоятельно собирать замучаешься.
>>1166119 >даже не представляю как шизово-трясунски надо было прогреть нейронку, что бы она так бессистемно начала срать Спасибо, это лучший комплимент. на самом деле пару цитат из 1984 и V - значит вендета было достаточно
>>1166782 > 2 т/с Там будто и одного нету и это полнейший пиздец, или счетчики пиздят. При использовании ризонинга оно мертво даже с генерацией в скорость чтения, в таком даже хз куда можно применить и тем более отдавать за этот гроб 500$. Канал у типа норм, много бейтов и цыганщины но есть интересные видео и бенчмарки.
Что ж, после обновления и таби, и бывшей до последних коммитов, все наконец заработало. Не идеально, но лучше, чем было. Вот не фартануло же мне поставить бывшую до фиксов. х) С другой стороны, хули я хотел от дев-ветки.
Турбодерп молодец, как не крути. Осталось дождаться третьей бывшей в релизе. =) И радоваться 4 битам.
>>1166765 Я очень начинающий вайб кодер (с более 10 годами обычного кодинга). Сделал примерно 5 небольших проектов, решил что есть смысл дальше в этом развиваться. Проекты были маленькими, но даже их я разбивал на функции и обсуждал с нейронкой отдельные функции.
Концептуально сначала пишу общий запрос вроде "найди на картинке двачеров" и смотрю что получится. Обычно получается хуйня или структура будущего проекта. Тут обычно узнаю, что есть библиотека которая ищет лица и которую можно настроить на определение двачеров.
Дальше пишу промт большой в котором расписываю по пунктам, что нужно сделать (можно без 1 2 3, просто разделяя пустой строкой или писать "далее", "после"): Напиши скрипт на питоне который найдет на картинке двачеров выполнив следующие действия: 1. Загрузить картинку в переменную "фото" 2. Найти на картинке лица людей с помощью библиотеки "поиск лиц v3.25" и сохранить в массив "лица_людей" 3. отсортируй "лица_людей" по возрастанию 4. По координатам из нулевого элемента массива "лица_людей" скопируй из "фото" и покажи результат на экране.
А дальше начинается ебля. Он находит каких-то пидоров и все переменные написал как "пидр_координаты_ебало". И приходится вручную переименовывать массивы и переменные что бы не запутаться. И ты ему пишешь "убери тянок" и он тебе начинается вместо "лица_людей" делать массив "без_пидоров_и_тянок" в котором только пидоры и тян. По старинке гуглишь как настраивать библиотеку, что бы она негров тоже искала и тп. В итоге например сам копипастой с разными параметрами делаешь массивы в которых все ненужные люди.
И дальше допустим задача из массива всех людей убрать массивы с ненужными людьми - и там остануться только двачеры. Полностью промт начальный переписывать уже не вариант, он с десятком правок и очень большой и обязательно что-то ломает в другом месте. Поэтому делаю такой промт: Коэффициенты храниться в глобальных переменных float c названиями $tian, $pidr_coeff_my_non_negr, $pidr_coeff_my_only_negr. Массив "лица_людей" создается так: var "лица_людей" = array(); Структура массива "лица_людей" = [ name = "имя", коэффициент_пидорства = 55.475214, коэффициент_тянства = 15.475214, коодината_х=25, коодината_у=525 ] Аналогично для другого массива. Создай функцию которая на входе получает два массива ("лица_людей" и "без_пидоров_и_тянок") и которая находит разницу между этими массивами при условии что коэффциент_пидорства меньше 20. И возвращает массив с результатами.
С 3-5 раз обычно получается создать нужную функцию т.к. изначально забываешь ему что-то написать конкретное, а нейросетка сама не догадывается. Закидаю сразу в 2-3 нейронки и смотрю кто из них понятней и правильней делает. Пожеланию можно просить её сделать более понятный код, написать комменты и тп.
>>1166855 Нейрокодеры делятся на три типа: 1. зеленые мимовасяны "сделай мне свою винду с нескучными обоями". Иногда нейронка им что то делает, иногда это даже решает задачи, но чаще всего получается или простой скрипт (васян доволен) или говно-приложуха (васян доволен, но потом когда его йоба-проект трахнут по кибербезу или он просто рипнется от неподдерживаемости и критбагов, у васяна сгорает жопа). 2. Опытные кодеры 10 лет в ойти, ставят курсор, сначала испытывают благоговейный трепет, когда НЕКРОНКА САМА ПОКРЫЛА КОД КОММЕНТАМИ. Потом они начинают требовать от модели "сделай красиво", нейронка пытается, кодеры смотрят на код, недовольно урчат - они бы сделали по другому и лучше. Начинают долбить нейронку кучей правок на 100к контекста, в итоге приходят к выводу что сами напишут лучше и "нейронки пока не доросли". 3. адекватные кодеры-нейрооператоры, которые могут писать сами, но им просто влом считать пробелы-табуляции и парсить часами стаковерфлоу. Они используют нейронки для подбора разных либ, справки по каким то паттернам/приемам, черновой проработки архитектуры словами/псевдокодом, после чего делают свои проекты, переодически прося нейронку "напиши класс, %описание класса%, используя библиотеку X и библиотеку Y", "добавь в этот класс метод делающий %боздо% с %боздо%. Вычитывая, и если все ок - копипастя это в IDE. Особенно это эффективно, когда кодишь пет-проекты в новой для себя области или типовые рутинные круды для кабанчика.
На 1х похуй, 3и молодцы, 2е заебали своими "поделюсь своим опытом - ПОКА РАНО".
>>1166899 Жиза, кстати. Все верно сказал. Но вторые все чаще держатся все дольше, а скоро все вольются в новый класс «сказал и заработало». Ну, по крайней мере, на несложных задачах.
>>1166899 На самом деле чтобы достигнуть дзена надо: 1 Чтобы ты вместе с нейронкой писали документацию проекта. Просто суёшь каждый раз нейронке в ебало "следуй DRY и KISS, вот тебе документация, а теперь ебош". 2 начало проекта критически важно. Потому что потом можно нейронке сказать "пидор делай как тут" и нейронки в этом хороши. Они отлично повторяют то что уже написано. 3 переключатся между моделями под свою задачу. например в курсоре клод просто ебошит как джун, щемится во все щели. расчехляем его когда надо чтобы он залез в эти сами щели. а ГПТ 4.1 делает аккуратные точечные правки и каждый раз спрашивает че ему делать но делает что сказали.
В целом нейрокодю уже второй месяц. наверно пишу процентов 10 от кода самостоятельно и только тогда когда надо вручную отрефакторить что-то чтобы поставить код на рельсы дальше. То что там нейронка пишет обычно читаю по диагонали, смотрю чтобы не отклонялся от общей архитектуры. Когда какой-то нелепый затык тогда уже иду и читаю внимательно и потом пишу "ты хуесос что ты понаписал тут иди исправляй, вот тут напиши вот так, пройдись по всей цепочке вызовов и исправь".
Что мне нравится - некоторые модели классно дают советы. например я хуёво знаю линукс, а они там сами скажут что в терминал понаписать и что пошло не так. когда я понимаю что я хочу но не знаю как написать - они отлично справляются как интерпретаторы.
========================= Что нравится в ГПТ - сука какой же он самостоятельный. Когда у него спрашиваешь "ты знаешь Х"? он обычно не пиздит. Мне например такое выдавал. Но лол каждый раз спрашивает "че жмём красную кнопку?". ========================= Или лол пик 3 уже от клода. Его если не сдерживать он может пойти понаписать то что от него вообще не просили а потом написать два аполоджайса подряд.
А для мелких функций вообще обычно локально включаю QwQ. Хотя сейчас проект связанный с ЛЛМ, там уже локально ничего не запустить.
Народ, хотел спросить: существуют ли специально обученные модели для генерации промптов для диффузии или народ просто через чаров в таверне это делает?
>>1167254 Кстати анончик вопрос к тебе, вот у тебя все так красиво на пикчах, а у меня почему-то текст разьебывается через 5-6 сообщений и слова с действиями сливаются по цвету и шрифту в одно и то же. В чем может быть проблема?
>>1167318 >>1167325 В том промпте ещё инструкция Follow format: \"Speech.\" Thoughts. Narration, которая может противоречить карточкам, где действия и описания италиком, а не плейнтекстом. А так гемма любит ставить неправильные кавычки и левый италик сама по себе.
>>1167058 Какие? >>1167069 Да потому что ничего крупнее там непригодно к использованию. >>1167121 Ебать ты кобольд x2 >>1167309 Хуйня какая-то, можно пояснений?
Аноны, а как вы подключаете несколько карт? Ну вот есть х4 слот на чипсете, а дальше? Смотрел переходники с м2, а там или х4псие1.0 или псие3.0, но х1. И почему никто не использет тесла к40/м40/п40, там же тоже 24гига?
>>1167857 Медленное, но дешёвое. Да и ллм при разбиении много и не надо. С выгрузкой токенизации flux справлялась на ура. И кстати, кто-нибудь исполюзует генерацию изображений в дополнение текста?
>>1167885 Медленное не только само по себе, но и память. Сейчас уже за ту же цену можно не БУшную современную карточку на 16 гигов взять и оно будет летать, а на вторичке вообще сильно дешевле откопать.
>>1167900 за 10 кусков тесловские карты будут не в лучшем состоянии. Более-менее нормальные стоят примерно те же 40к, что и новая видяха, хуйни то не говори
>>1167844 > как вы подключаете несколько карт Желательно иметь материнку с хорошими слотами. На большинстве хотябы 3 порта типа х16-х4х4 да есть. > переходники с м2 На али или глобалозоне смотри, там есть х4 > почему никто не использет тесла к40/м40/п40 Использует. Первые 2 - совсем нежизнеспособны ибо древность, p40 еще как-то может, но на моделях побольше слишком медленно. >>1167885 > много и не надо Надо. Обработка контекста превращается в вечность, слабый чип не дает получить потенциальной по скорости врам производительности на квантах сложнее легаси варианта. Но в целом на 30б и даже на 70 это может быть норм.
Ну типа когда теслы были по 15-17к - вполне вариант, а сейчас - нахуй такое счастье.
>>1167917 >Но в целом на 30б и даже на 70 это может быть норм. Говорил уже - то, что влазит в одну теслу, будет работать вполне норм. И даже по контексту - для таких моделей он не тяжёлый. На двух теслах у Жоры включается тензорный параллелизм - пресловутый rowsplit. Результат в целом медленнее, чем на одной, но и модели вдвое побольше. Которые оптимизированные, как Ллама, те даже вполне быстро работают.
>>1168248 > тензорный параллелизм - пресловутый rowsplit Он добивает и без того мертвую обработку контекста. > Говорил уже - то, что влазит в одну теслу, будет работать вполне норм. Зачем повторяешь то что цитируешь? > Которые оптимизированные, как Ллама Других нет, исключение - мое в таком размете, те будут летать из-за малого числа активных параметров.
Дешевле 5090, по стоимости как 4090, но больше памяти, не убитая как старая 3090. Получается тупо топ для ллм и надо копить? Или есть подводные? Маковцы есть в треде, чтобы пояснить?
>>1168300 Тормознутая ссанина, за почти цену 5090 или целого рига 3090 даст большей частью разочарование, в том числе и потому что из 32гб доступны будут не все. Если доплатить сотку до 64 гигов то ценность вырастает, выше - аналогично. Но перфоманс там будет все равно невысокий. Возможность пускать дипсик убивается скоростью в 10-13 токенов в секунду, это мало для подобной модели. На будущее если что-то годное без монструозного ризонинга будет выходить - может быть, тут уж сам смотри.
>>1168318 >Возможность пускать дипсик убивается скоростью в 10-13 токенов в секунду Где-то на реддите писали, что около 6. И с обработкой контекста не очень. Может ошибаюсь и это о другой модели.
>>1168091 > Это же топчик, тут наоборот такие материнки ищут. Нахрена терять 16 линий на основной карте? Особенно если она на 4.0, мало же будет > Просто стоит задать в поиске и сразу есть разнообразные варианты Ага, все варианты за последний год. Искал ранее, ничего не было. Пожалуй закажу. > Теслы - туда же, если только не удастся за исходную цену одну-две найти. А что, такая проблема?
https://github.com/oobabooga/text-generation-webui/pull/5677 - p-e-w писал, что "Note that like all transformers-based samplers, DRY only works with transformers-based loaders such as llamacpp_HF, ExLlamav2_HF, or Transformers itself. It does not work with the vanilla llama.cpp or ExLlamav2 loaders.
А koboldcpp умеет в dry? Там в интерфейсе-то есть dry, но там написано "если поддерживается", может быть он просто молча не применяет dry и все. "Loaders", а че там за loader?
>>1168357 Довольно таки плохо, 7т/с на микроконтексте это уровень тесел. Обработку он не показал, а она будет долгой, с ростом контекста оно деградирует до 5-4 или ниже. > не все оптимизировно под арм процессоры https://en.wikipedia.org/wiki/Metal_(API) не неси ерунды, процессор там не при чем, а оптимизации лучшие из возможных для того железа. >>1168364 Тем более, сами по себе величины норм, но из-за огромного расхода токенов на ризонинг это мало. >>1168578 > Нахрена терять 16 линий на основной карте? Они не дадут заметных преимуществ, если офк там не 3.0 и топовая карточка. Говоря про мл-релейтед, 2 по х8 всегда лучше чем х16 + чипсетные х4. > Искал ранее, ничего не было. На мейлсрушной али бывает ломается поиск, или происходит корявый автоперевод несколько раз. > А что, такая проблема? За них просят не 15к а в 2 раза больше, за такую цену нахуй не нужны.
>>1168601 Встроенная проверка орфографии, выбери там нужные языки >>1168795 Кобольд - оболочка поверх llamacpp. В убабуге для HF загрузчиков семплинг происходит не их встроенными средствами, из них на каждый токен берется распределение логитсов, после чего уже с ним производятся нужные манипуляции. Это позволяет реализовывать что угодно и получать стабильный результат, вне зависимости от хардкода и костылей. Что там в кобольде - хз, но в это он умеет https://github.com/LostRuins/koboldcpp/pull/982
>>1168888 Карточка топовая (4090, не дотерпел до 5090, кто ж знал что там 32 гига будет, а вот про 5.0 было и вовсе заведомо известно) >>чем х16 + чипсетные х4 Есть два х4 м2 от проца на 5.0, один из них и хочу использовать. А 3й слот как и везде как раз чипсетный. Жалко что х4 5.0 не переводятся в х8 4.0
>>1169046 Если ты не киберкотлета, которой 780фпс вместо 800 фпс - проблема, то не заметишь разницы. В обычных случаях кроме таких экстремальных ее и не будет. Процессорные слоты всегда предпочтительнее чипсетных. > Жалко что х4 5.0 не переводятся в х8 4.0 На девайсе, который может в 5.0 считай переводятся.
Кажется, что вот эти все однохоуйственные, хотя отличия есть, но уверенно сказать трудно, в чем они заключаются. А если ли умные люди, которые прям шарят, в чем отличие?
>>1168498 Да, проблема кум моделей.Можешь сидонию попробовать там меньше этого. А вообще я часто переключаюсь между моделями и использую гемму для некума и форготтен для кума. >>1169389 Удивительно только то, что люди до сих пор используют гемму для кума
Ананасы, запрашиваю краткое ревью по тому что интересного вышло за месяц. С меня спасибо. Gemma DPO - уже потыкано, жопа сгорела (Ну она у меня и от обычной геммы горит, а точнее от толстоты её контекста)
>>1169640 >Gemma DPO - уже потыкано, жопа сгорела (Ну она у меня и от обычной геммы горит, а точнее от толстоты её контекста) Ну не настолько плохо, но хотелось бы и до Магнума на Гемме дойти, не проебав её ум.
>>1169092 3090 топ за свои деньги >>1169389 Да четко же >>1169591 Хоть сейчас, в стиме есть куча васян-софтин с экранным маскотом, который может "на окнах сидеть" и т.д. Есть туда и моды для подключения гопоты, но все оче примитивно по одному запросу. >>1169673 Словил флешбеки с пикчи, как же это ужасно. >>1169866 > что за депо Тренили на журналах трамвайного депо, так забывает про цензуру и лучше работает, но тупеет.
Я бы не был так категоричен, честно говоря. Уж на что обосрали 5060 Ti, но она вполне может стать неплохим вариантом на замену. По сырой производительности она уступает процентов 20, памяти тоже меньше на те же 20%, но это новая актуальная карта, и теплопакет у неё вдвое меньше. Если упадёт до 40-45 тысяч, вполне можно будет рассмотреть к покупке.
>>1169911 > на что обосрали 5060 Ti, но она вполне может стать неплохим вариантом на замену Ну, перфоманс почти в 2 раза ниже, памяти на треть меньше, ты и 95% сидящих здесь на ней даже не смогут ничего запустить толком в ближайшие месяцы. > По сырой производительности она уступает процентов 20 Около 60% от 3090, офк это примерно по другим тестам, по псп врам в 2 раза. Тут главный плюс только в том что новая из магазина.
Бля чет так накумался на своих 8гб врама за 2 последних месяца, что уже и видяхи покупать не хочется. Вроде и так заебись, лучше брекеты поставлю все таки.
>>1169991 > llama.cpp проблем не видит Бинарники с гита - шмурдяк, но в целом Жора действительно самый простой. Эксллама собирается тоже не то чтобы сложно, если у собирающего есть полный комплект билдтулзов и прочего, что на шинде собирать - цирк. Но для работы требует флешатеншн, с которым уже непросто. > Большинство, как я понимаю, сидит как раз на первой "Счастливые" обладатели отсутствия врама, только жора позволяет прилично выгружать на процессор и совместим с (почти) всеми моделями. Появление оверпрайснутых новых карт у таких оче маловероятно, разве что с распространением 5060ти. Собственно потому и 95%, большинство едва может осилить только скачивание бинарнока кобольда и ггуфа одним файлом, даже скрипты-автоустановщики убабуги и табби вызывают сложности. Куда уж тут что-то еще.
Это что, получается в треде уже 3+ блеквелловладельцев? Пора открывать клуб по интересам.
>>1170074 >Это что, получается в треде уже 3+ блеквелловладельцев? Пора открывать клуб по интересам. По производительности +15% от 4060ti, а что-то клуба их владельцев я здесь не наблюдаю.
>>1170163 А чего насмехаться? Хорошая карта для ML, фактически лучшая из того, что можно сейчас поставить в домашнюю машину. Цена у неё, кстати, пониже - в районе 300к можно взять.
>>1170074 Так кобольд наоборот заебись. В 600мб там есть бэк со всеми настройками, встроенным бенчмарком, настройками сети, простеньким фронтом и там также можно легко подключить аудио и картинки. Угабуга же качает тебе 10гигов какой то залупы из которого заслуживает внимание только выбор бэка. А табби вообще делал какой транс пидор. Так что кобольд заебись. А вот обрезанная lmstudio и уебищная ollama - вот настоящий пиздец. И оллама при этом нихуя не легкая и нихуя не однокнопочная. А на gguf сидят потому что это самый популярный формат благодаря маковцам и рамщикам. А в exl2 у меня прирост где-то 10%, что хуйня. Жду exl3
>>1170177 Пиздец. Неужели тредовичкам норм платить 200к+ (а тут даже 300к за колхозную КИТАЙЩИНУ!) за 24гб+ врама? Мне очень повезло взять 4090 в 2023 за 120к, пылинки с нее сдуваю до сих пор. Уже тогда это было пиздец трудное решение, еще дороже не взял бы.
>>1170118 Это по процу, что хуйня. А по памяти там в полтора раза мощнее, что больше токенов (что на самом деле тоже хуйня, потому что разница между 20 и 30 не особо чувствуется). Короче все хуйня, коплю на мак
>>1170204 Да нет альтернатив. Не в укор сказано, а просто ахуеваю от цен. Думаю, не будь у меня сейчас видюхи - просто не покупал бы ничего для нейронок. Сидел бы на корпосетках просто. Слишком дорого.
>>1170195 Да, я проигнорирую его пидорность и даже буду называть его по выбранному местоимению, но сосать хуй не буду если только он не потребует за доступ к gemma3 exl3 У меня 4060ti и там точно нет прироста в 30%, может 15% и то вряд ли. А вообще ollama иногда даже работает быстрее, что связано очевидно с какими-то дефолтными настройками, но каким образом ollama грузит эту хуйню я не ебу
>>1170163 Чего насмехаться то, уже обсуждали же. Действительно 4090 в 48 гигами что круто, не было бы карточек - сам бы взял. Главная претензия - чип, на который смотреть страшно. В менее удачных/ранних моделях там и плата не новая а буквально некрота с 3090 со вздувшимся текстолитом на краях. >>1170182 > Так кобольд наоборот заебись. Дваждый переваренный жора сделанный настолько криво, что по сути является sfx архивом в регулярной распаковкой(!) и автозапуском после. > со всеми настройками, встроенным бенчмарком, настройками сети, простеньким фронтом Там нет ничего, чего не было бы в ванильном жоре. Наоборот натащили баганой хуеты, а семплеры по кривости даже жору затмевают. > габуга же качает тебе 10гигов какой то залупы 2.5гига стандартных либ торча, остальное мелкое. На фоне моделей это копейки же. > А табби вообще делал какой транс пидор. Проиграл > потому что это самый популярный формат благодаря маковцам и рамщикам Буквально поломанную херню популяризуют нищуки-говноеды и странное меньшество, только подтвердил. > А в exl2 у меня прирост где-то 10% Прирост может измеряться разами, если ты действительно пользуешься нейронкой, а не сливаешь малафью после 5к контекста в микромодели. >>1170187 > Уже тогда это было пиздец трудное решение Не, когда цены до такого опустились - даже раздумий не было.
>>1170205 После выхода из сна отваливается полностью обратная связь по температуре, из-за чего перестают работать все механизмы, призванные не допустить перегрева карты (кулера, тротлинг), и она тупо сгорает под высокой нагрузкой.
>>1170177 ИМХО, 4090 с 48 гигами все же лучше дл LLM здесь и сейчас, 16 гигов — это куча контекста. Разница в скорости есть, но на 15+ токенах/сек это не критично. Но дороже, да, чем 5090. Та во всех остальных нейронках лучше.
>>1170233 Спасибо, анончик, добра! Вроде комфи может в q4/q8 вана и других, их не пробовал пускать? 5090 показывает существенный буст с задачах, где используется малые битности и хитрости на подобие квантования. Поидее и здесь должна хорошо сработать, при наличии оптимизированной реализации будет не хуже чем фп8 по скорости, но сильно лучше то точности.
>>1170233 >Старался для вас! Спасибо. По результатам для ЛЛМ я бы не сказал, что 40-5090 стоят переплаты по сравнению с 3090. Даже я бы сказал, что не стоят. С тем, что требует новых технологий (видео, новые кванты) результат будет другой, но пока нет.
>>1170256 поломанная хуйня как и аблитерейтед, там слоп жуткий со склонениями невпопад и противопостовляющие понятия в одном предложении. Тюны 3й Джеммы все говно по причине, что тюнят её непраильно, думая что те же методы что и для 2й сойдут. Нужно строго игнорить все её тюны.
>>1170247 Времени не было. Я и так занял у людей на 5 дней две топовые видеокарты, постоянно просил их свитчить туда-сюда, было бы верхом наглости еще дольше делать. Там много что можно было придумать, да. И fp4 модели поискать, блэквелл же. =)
>>1170250 На самом деле, для неспешного РП даже две теслы все еще норм. А уж 3090 — да. Она комфортна и стоит гораздо меньше.
>>1170256 Вот это аморальность, она позволила себе слово «сорри»…
>>1170233 А что за версии использовались и как были подключены карты? Гемма q8 квант, в жоре на малом контексте генерация +- сейм, но по обработке контекста 5.5к/с на малых, на 27к (свайпнул чат, на 32к не сильно меньше будет) 4600 с fp16 контекстом, 4300 с q8. Генерация на большом контексте также выше - 28т/с. С экслламой на 6pbw обработку не помню, но то что генерация на контексте не опускалась ниже 45-50т/с это точно, у тебя же сильное падение. >>1170272 > занял у людей на 5 дней две топовые видеокарты Какие добрые люди, им тоже уважение. > И fp4 модели поискать Нет таких моделей, как и fp4 не является каким-то стандартным обозначением. Есть nf4 и другие варианты, но в целом суть там верная - заявлено что блеквеллы при корректной реализации могут работать с квантованными моделями быстрее прошлых карточек. Не нужно типа как в жоре для тесел переводить квант в фп32 и проводить с ними операции, это делается аппаратно. Также как на адах использование фп8 весов поддерживается аппаратно и позволяет хорошо так ускорить инфиренс, так и здесь будет, но уже для квантов. В теории, если сделают и т.д. офк, по крайней мере так заявлялось. Для ллм может только обработку контекста ускорить, на генерацию сильно не повлияет, а вот в случае с более требовательными к расчету моделями разница уже будет. Алсо, если ты качал жору в виде готовых бинарников под шинду с его репы - это объясняет почему оно обрабатывает контекст более чем в 2 раза медленнее, не используя возможности новой архитектуры.
>>1170326 llama.cpp и exllamav2 качались/собирались вот 6 дней назад, наверное.
Хм, странные странности, получаются. Честно, даже не знаю. А у тебя тоже 48 гигов, или две по 24? А, 5090. Если я тебя правильно понял, то ты уже правильно ответил. Выходит, май фолт. =) Но тут все делалось пиздец в торопях (а у меня еще, типа, две работы есть на заднем плане), и не было времени сильно углубиться, к сожалению. Я вообще не ожидал, что 50хх настолько новая вся целиком.
> Нет таких моделей, как и fp4 не является каким-то стандартным обозначением. Есть nf4 Ну, вот, да, было бы интересно это и затраить. Мне казалось, что на 40хх поколении fp8 реально работает шивче, чем на 30хх. Так что, возможно и тут тоже.
Ну, по итогу, сорян, сделал как смог. Это все еще лучше классических «мы запустили лмстудио, она выдает буковки, визуально они быстрые…», как у большинства других блогеров. Что меня ппц парило.
>>1170366 Есть и 2 по 24, но туда надо качать модели. По памяти могу сказать что что на контексте даже за 32к в 70б нет такого падения ниже 15-17т/с, а у тебя до 12 там. На риге с 5090 были те же модели поэтому их прогнал чтобы цифры уточнить. А то сразу бросилось что что-то не то с перфомансом. > сорян, сделал как смог Да че извиняешься, сделал - уже хорошо. Тем более что тут основная цель - относительное сравнение, падение вроде как происходит идентично, просто звездочку дописать что результаты могут быть лучше и возможна оптимизация под новую архитектуру.
Курточка не только всего лишь через неделю пофиксил баг, из-за которого его карточки могли сгореть, но еще и откатил программный даунгрейд производительности устаревшей 40 линейки (почему они еще не выкинули их и не купили 50?). Неужели его после такого милосердия еще кто-то смеет критиковать?
>>1170393 >>1170199 А не, драйвер хуйня полная. Нейронки норм гонять, но я вот игры потестил, он вылетает нахуй. Видимо реально куртка индусов нанял драйвера для потребительских карт писать
>>1170548 За 50 хуйня, лучше тогда 5к доплатить и взять 5060ti, у нее память быстрая. Я свою 4060ti на яме за 40к брал, но это осенью было >>1170557 Не вводи анончиков в заблуждение. Мистралеподобные охуенно работают на Q4KM с 16к+ контекста (а это основа кума). Гемма из-за жирного контекста либо IQ4S с малым контекстом (6к), либо IQ3M с нормальным (12к). QWQ IQ3M тоже норм работает. Так что покупайте анончики 16гб карты. А если купите 12гб, то да будете только 12-14b запускать
>>1170532 по идее да, и скорее всего так и есть, иначе бы корпораты не стали бы этим выебываться. Другое дело, что зачастую 4 квант и так не очень теряет в качестве, так что скорее всего разница будет не очень заметная
>>1170532 >>1170623 Да не по идее а в действительности, метод имеет потенциальное преимущество. Вот только достаточно легко здесь убить перфоманс в некоторых областях, если будет использован неоптимальный датасет, штука оче ресурсоемкая и не то чтобы дает радикальные преимущества при использовании.
>>1170647 Это троллинг тупостью? Пиздуй читать что такое qat и закинь эту страницу в переводчик, дура. Хуету какую-то притащил и просто набрасывает даже ничего не сформулировав.
>>1170649 Ты сам полнейший долбоеб. Там qat только Q4_0, а остальное эта полнейшая залупа сделанная по приколу, о чем пшек прямо пишет. А нахуй вообще нужен этот qat, если любой pqt старший Q4 будет ебать ее в очко? Правильно, не нужен нахуй, так что заткнулись блять, тут нехуй обсуждать
>>1170635 >>1170690 перед тем как начать срать, хорошо бы снять штаны. qat нужен для уменьшения потерь при квантизации, причем заточенно оно именно под статический четвертый квант, потому Бартовски и пишет, что ожидается нормальная работа именно на Q4_0. Тем более, что это квант из декванта, потому что гугл не стали выкладывать полную модель
>>1170690 О, наконец изучил. А теперь отвечай, нахуя ты вообще эту поебень притащил и какое оно отношение имеет к обсуждению? > Правильно, не нужен нахуй Это ты здесь ненужен, долбоеб с текущей слюной врывается в обсуждение и тащит что кто-то сделал и другие кванты из весов под q4_0 и сам говорит что они говно, а это значит... Да нихуя не значит, только что ты даун. > любой pqt старший Q4 будет ебать ее в очко Сильное заявление, давай доказывай.
>>1170698 > что это квант из декванта Не, это специальные веса, которые обучили с использованием специального датасета и функции потерь от кванта q4_0, чтобы при квантовании получается наилучший перфоманс из возможных. Такой просто и древний метод квантования обусловлен тем, что он легко делается на лету с меньшими вычислениями чем другие. Разумеется, делать из него другие кванты кроме 4_0 смысле нет, ибо веса подстроены только под него. > потому что гугл не стали выкладывать полную модел Это она и есть, здесь unquantized означает что она неквантованная и оригинальная, а не то что получена обратным переводом из кванта в bf16.
>>1170698 Ты наверное считаешь себя самым умным, да? Так вот, жаль тебя расстраивать, но ты долбоеб. Твои объяснения тут нахуй не нужны. Все кто читал про квантование и так знают его виды и без тебя, маменького умника. Но ты видимо не до конца изучил тему, потому что срешь такое >>1170703 Так вот почитай про Q4KM и узнай почему он ебет Q4_0 и похуй qat или ptq. А бенчи сам покрутишь. Может хоть в теме разберешься
>>1170738 Слабовато. Мало определений. Надо было расписать, что такое квант, LLM и т.д. Тогда все бы точно поняли, что ты НЕ ТУПОЙ. >не вводи людей в заблуждение Неужто считаешь, что Q4_0 ебет Q4_KM? Если так то жду бенчи
Нейрошизы, у меня вопрос к вам. Какую модель юзать для автодополнения кода на M3 Air? Я юзаю qwen 1.5B, но он какой-то туповатый по ощущениям. А то что больше кажется сильно медленным. Может есть какие-то малоизвестные варианты?
>>1170754 Ты, упоротый шиз, врываешься в обсуждение, беспредметно агрессируешь и делаешь ахуительные заявления. В качестве "пруфов" и тейков притащил цитату квантователя, в котором он высказывает прописную истину > Для весов, тренированных под квант, хорошим ожидается только тот квант, под который они тренировались. Остальные сделаны чисто из интереса. Хуй знает что ты там увидел и на что триггернулся, но это значит ровно ничего, просто очевидный факт. Перед там как чего-то требовать - отвечай за свои слова выше > любой pqt старший Q4 будет ебать ее в очко вперед, обосновывай и доказывай.
>>1170793 Делать мне нехуй, чтобы тебе что-то доказывать? долбоеб. Если ты не понимаешь разницу между Q4_0 и Q4_KM, то советую тебе почитать про это. Я тебе определения в тред не буду тащить. И я повторяю >А бенчи сам покрутишь. Может хоть в теме разберешься
Линуксоиды прекрасно помнят недавний инцидент, когда инсталлятор драйвера сносил к хуям всю систему и данные пользователя, потому что кто-то из NVidia случайно пробел в скрипте не там поставил...
>>1170230 Ну, справедливости ради, такие фейлы происходят не часто, описанная проблема коснется немногих и полностью термозащита там не убирается, аварийное отключение таки триггернется. Если волнуешься - подожди хотябы неделю, все ключевые баги к этому моменту будут уже найдены, о той штуке стало известно в первые дни. >>1170838 > инсталлятор драйвера Им кто-то вообще пользуется при наличии отрытого драйвера в репах? >>1170855 > довольно урчать на 8 кванте Абсолютно.
>>1170855 >Так, вопрос по кванту гугла. Я продолжаю сидеть довольно урчать на 8 кванте? Тут же неоднократно писали, что начиная с 4КМ отклонение от fp16 незначительно. А с учётом того, что qat-версия требует специальной тренировки - сложно сказать, большой ли в этой технологии в принципе смысл.
Чуваки, у меня проблема. Нейронка во время рп в групповом чате пишет за меня, при том что у меня в карточке аж трёх персонажей прописано чтобы они не писали за юзера.То есть происходит диалог сначала двух персонажей которые являются отдельными карточками в одном сообщении, что как бы ок для экономии контекста, но потом в какой то момент диалога, аи всирает в диалог меня, как на примере пикрила, и меня это не устраивает, потому что нейронка. Подскажите пожалуйста как это вылечить, модель пикрил.
>>1170944 >Подскажите пожалуйста как это вылечить, модель пикрил. Удаляй неправильные абзацы вручную. Можешь ещё перед своим ответом в [квадратных скобках] писать инструкцию, что хочешь играть за себя сам. Модели не такие уж и тупые.
угадайте кто тут такой счастливчик не заходивший в треды и любые соцсети в целом последнюю неделю?)) а ебланы не могут просто на всё ебало тебе забрутфорсить новость из нвидиаэпп что у тебя карта горит нахуй?))
Что там по моделям? Подумал я и снова решил полазать на обниморде.
https://huggingface.co/aixonlab/Eurydice-24b-v2 - отличный тюн нового Мистрала, 600+ сообщений позади. Есть глинты, но откровенный слоп и форматлупы не обнаружены. Очень понравилась модель.
https://huggingface.co/trashpanda-org/QwQ-32B-Snowdrop-v0 - все еще лучший вариант qwq для рп. Более того, это единственный(!) мердж, который не разваливается спустя несколько сообщений. Очень хорош. Других жизнеспособных мерджей/тюнов qwq нет, что очень странно, ибо модель крутейшая, даже без ризонинга.
>>1171207 А можно прикладывать скрины, чтобы проиллюстрировать для анонов "отличный тюн нового Мистраля" и "лучший вариант qwq для рп"?
Тут послушаешь некоторых советчиков, качаешь модели по их рекомендациям, а они не работают как надо. В итоге выясняется что они кумят/рпшат по сценарию: — Писку даш ебат? смотрит удивлённо — Пися жопа срать сосать!
>>1171268 Может быть, в следующий раз приложу, если буду про что-нибудь еще рассказывать. А может и не стану, ибо многие здесь даже сэмплеры нормально настроить не могут. И придут рассказывать, что логи я подделал. Кому надо - те проверят. Как говорится, никто не запрещает пройти мимо ни к чему не обязывающего поста.
>>1170532 QAT — это обучение на нужной битности сразу. Т.е., пресловутое нвидиевское «для Блэквеллов обучайте модели в fp4 сразу!» это оно и есть. И BitNet, тернарные биты, которые [-1; 0; 1] — тоже «обучайте модель сразу в нужном, а не квантуйте».
QAT — это не квант, это обучение в 4-бита. И, да, она работает лучше, чем квантование в 4 бита. И даже чуть лучше 5 бит. Но хуже, чем квантизация в 6 или 8 бит, очевидно.
Это я говорю про оригинальные QAT от самих гуглов.
>>1170698 > qat нужен для уменьшения потерь при квантизации Это, по сути, не квантизация даже, а ориг.
> это квант из декванта Ебанутым нет покоя разжмыхивать нежмыхнутое. =) Я правда не понимаю, ведь 4-битный расширенный до 8 бит не будет так же хорош, как 16-битный жмыхнутый до 8 бит. Зачем это делается, если это математически не может быть лучше?
Начал потихоньку вкатываться в локалки, сижу в поиске модели, и возник вопрос, ничего свежее нет, чем модель годовалой давности? https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/tree/main Это из гайда по кобольду. Также еще хотел уточнить, насколько большую модель запихать в 6 гигов 1660 super + 16 гигов рам? Или влияет только объем карточки? И последнее, все модели поддерживают русский язык? А то я у дипсика спрашивал он мне выдал saiga2_7b_gguf мол она хорошо с русским работает, но она какой то хуйней оказалась
>>1171268 Мне больше интересно, хоть кто-то вообще читает/смотрит вот эти субъективные "мнения" на очередной мистраль в стиле "а мне понравилось"? Ни цифр, ни рейтингов, ни примеров, нихуя. Человек реально думает что раз у него один диалог модель не зашизила так теперь это хиденгем?
Если за тюнами на ту же гему ещё интересно последить, так как она совсем свеженькая и действительно умная, то следить за стотысячным тюном мистраля... ну такое.
>>1171315 > Ни цифр, ни рейтингов, ни примеров, нихуя. Все есть в интересующих вас бенчмарках, том же UGI. Кому надо - идите и смотрите, составляйте мнения самостоятельно. Эти модели в бенчмарках прекрасно себя показывают. Или ты ленивая жопа и ждешь, что для тебя придут со всем готовым? Записываю. Логи, сэмплеры, промпт, что там дальше? Видюху не приложить? Фантастический, я в ахуе.
>>1171318 >Кому надо Не надо, в этом и суть. Все это третично пережеванный калл. Все хорошие тюны давно известны и сто раз обсосаны, если ты там действительно нашел новый ХИДЕНГЕМ то приложи усилия чтобы заинтересовать комьюнити. Ну или не прилагай, и тогда всем похер. >Или ты ленивая жопа и ждешь, что для тебя придут со всем готовым? >Записываю. Логи, сэмплеры, промпт, что там дальше? Видюху не приложить? Приложи будь добр, иначе польза и информативность твоего поста стремится к отрицательным значениям, с тем же успехом я могу скопипастить случайню модель с huggingface, попросить нейронку придумать к ней описание и скинуть в тред. Ради кого это? Кому это будет интересно? Надеяться что кто-то пойдет перепроверять очередной мистралетюн?
>>1171314 >Также еще хотел уточнить, насколько большую модель запихать в 6 гигов 1660 super + 16 гигов рам? Или влияет только объем карточки? Кек, у меня такой же сетап. А тебе для чего, анонче? Помимо модели контекст же есть, ты можешь запихнуть какую-нибудь квантованную 27b модель впритык с минимальным контекстом (которого тебе не хватит). Я вот для кума кручу даркнесс рейн и омни магнум (оба в 4qm кванте), брат жив. Но приходится подождать, не без этого. Обычно около 30 слоев на видеокарту выделяю и 30к+ контекста.
>>1171318 >Эти модели в бенчмарках прекрасно себя показывают. Ты кинул ссылки на модели и описал свой непосредственный юзер экспириенс, который тебя и попросили пруфануть, а в ответ людей посылаешь бенчмарки смотреть и начинаешь истерить.
>>1171325 > Ты кинул ссылки на модели и описал свой непосредственный юзер экспириенс, который тебя и попросили пруфануть Чел выше пожаловался, что я не прислал бенчмарки, я направил его куда нужно. Ты зачем пишешь другим постом, имитируя поддержку? Ебать тут шизы похуже /аицг и /б. Ты победил, я бегу поджав хвост из треда, не в силах совладать с твоим слабоумием.
>>1171326 Спок шиз. Мой первый пост как раз был вопросом если тут любители подобного "контента", а дальше уже ты уже начал на говно исходить, пусечьку обидели ёпта. Считай что это тебе просто пища для размышлений.
>>1171325 >А тебе для чего, анонче? Ну все для того же, лайтовые истории я и в дипсике могу поделать. Первая модель как я понял эта? https://huggingface.co/Aleteian/Darkness-Reign-MN-12B-Q4_0-GGUF Вторую так и не нашел На счет русского можешь все таки сказать? Не хотелось бы сидеть дрочить переводчик
>>1171329 Петушара, спокуху оформляй и чини детектор, я не из вашей пидорской тредовской тусовки. Я прогрываю с того, как ты стал рваться от просьб пруфануть что ты пользовался модельками. Алсо про поддержку, не думай что если будешь орать на весь тред и обвинять других, то никто не увидит твоего семёнства. >Ебать тут шизы похуже /аицг Ты там сидишь? Ебать ты ебанько. И ты ещё смеешь что то пиздеть тут? >Ты победил, я бегу поджав хвост из треда Пиздуй уже сука
>>1171340 >Вторую так и не нашел Ищи omnino opus magnum >На счет русского можешь все таки сказать? Это модельки для русского кума, чел. Если будешь с англ картой сидеть, то в author's note вставь [All communication strictly in Russian. Thoughts, actions, descriptions — Russian only. Never use English.] или [RU only. Break character = ban. Translate ALL to Russian.]
Попробуй в авторнотс написать в квадратных скобках "ты можешь писать реплики и мысли персонажей. Описывать действия и писать реплики юзера нельзя", ну или типа того, шаблон думаю знаешь, раз пихал его в карточки. И поиграйся с настройками авторнотса. Недавно на мультикарточке словил подобное, вылечилось вышеупомянутым. На даркрейне тоже.
Еще возможно у тебя системпромт заруинен или дефолтный, тыкни как в пикриле около сообщения. На пикриле старая версия, но у новой еще есть "Show RAW", нажав на которую он покажет тебе весь контекст. И вот в начале можешь посмотреть, мб там "You are friendly ASSistant...". Если так то кликай по большой иконке А вверху таверны и чекай какой пресет выбран в Masterpromt слева. У меня стоит Roleplay Immersive.
>>1171421 >Итак нейробояре с 3090/4090/5090/пачкой тесл. Давайте подумаем и решим, какая же все таки модель до 35b лучшая для кума на русике на апрель 2025!? Откуда нам знать-то? Промеж нас идёт сраччинная беседа за то, какой тюн 123В лучший.
Для себя из мелких выбрал Omnino-Obscoenum-Opus-Magnum-MN-12B, карточки для неё делаю на Гемме-DPO.
>>1171500 >Хотел выложить пруф как она нешмогла, а тут такое. Вот. Здесь аноны поголовно андроид-вайфу хочут. И нейронку на неё кастомную, а как же. И в систем-промпте прописать что-нибудь эдакое...
>>1171506 >А потом вот такое. Это они с текстовыми недо ии такие смелые, будь то андройд и реальный ии их основные желания скатятся в "давай обнимемся и посидим вместе". И я их осуждать за это не буду
>>1170944 в таверне есть "имена как стоп строки", оно в промт дописывает стоп строку и на этапе ответа модель сама прерывается ещё на этапе выдачи токенов. Ну и безжоп есть в мануалах в шапке треда. Качаешь расширение и скрипты, она сделают тебе кРаСиВо.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: