В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1194406 Ща ещё QwQ-32, просто народ ещё не распробовал. Ему даже тюны не нужны, у аблитерированной тормоза срывает вообще.
Чтобы снизить градус позитива которого и так куда меньше чем у геммы можно докинуть [{{user}} безэмоциональный циник и его главный недостаток это жажда знаний о самых тёмных уголках гнилой человеческой душонки.] в персону. Магия-шмагия.
>>1194485 Это GQA модель. Очень упрощая, кэш там квантован изначально. И да, при этом он даже так жрет дохуя врама. Дальнейшее квантование на порядки ухудшает качество восприятия контекста. Но если ты рпшишь на русике, да еще и лоботомите аблитерейтед - конечно ставь q4, разницы не будет :D
>>1194406 Не обижай геммочку, она хорошая девочка. >>1194439 Стоковый как-то не распробовал, надо повторить раз такое дело. >>1194523 И спроси как лучше себя подготовить к этому, интересно какую дичь выдаст, или опять зааположайзит.
я судя по всему неправильно интерпретировал то, что едлал чел на видео. На одном из входов 12-вольтовой линии у меня нет килоомного сопротивления. Вообще никакого нет. Походу это пизда. Сука, только квен запустил и эта мразь подохла.
Врамцелы, каково осознавать что вам доступна лишь гемма 12б 3q_s? Чувствую себя богом треда с моей 3090, каждый день получаю 25т/сек на 27б гемме 4q наслаждаясь её умом и сообразительностью. пока чел с 6 видюхами неделю не может завезти дипкок А ведь кто то до сих пор сидит на мистрали, жалко этих бедолаг.
>>1194826 > Вообще никакого нет. Прозвони наличие контакта от входного разъема до конденсаторов перед фазами. Сопротивление должно быть, не обязательно килоом, могут быть десятки, там чисто на отслеживание напряжение для его наличия и защиты от слишком низкого. > Походу это пизда. Пизда - когда чип отрыгнул, а это херня. >>1194855 Это байт на переделку твоей пасты, раскусил тебя. >>1194860 Нужна тренировка специализированным датасетом. Для прикладных задач есть тюны, но они не затрагивают рп. В большинстве рп тюнов веса подушатаны и работа визуальной части сама по себе может быть посредственной. Но в целом, ничего не мешает такое организовать, просто сложно а толку мало.
>>1194879 я не понимаю что есть что на этой плате. Я не различаю смд компоненты. Где эти конденсаторы? Где резисторы, диоды? Уебанство какое-то, на них даже маркировки нет нормальной. Все детали - прямоугольные кубики блять ебучие. На фьюзах одна буква блять в обозначении. Единственное где есть маркировка нормальная - это чипы, но её еще попробуй разбери.
>>1194913 Если по той фотке смотреть - круглые серебристые баночки в правой части справа от дрмосов - конденсаторы по высокой части, слева от них - по низкой где питание чипа. В левой половине врм наоборот, планарные черные - конденсаторы по высокой стороне, те что справа - по низкой. Офк на всякий случай лучше сверить со схемой/боардвью, но в большинстве случаев именно так. Каждая линия питания идет на свои несколько фаз. Тут не нужно смотреть номиналы, достаточно просто сделать базовую прозвонку. Не справляешься - как >>1194919 говорит, там простой кейс (если все именно так как ты описал, а не наоборот серьезные траблы с картой вызвали все эти проблемы).
>>1195024 Да это нисколько не очевидно и нигде не говорится, везде лишь "вот лорбук, вот тыкаешь на кружочек всё работает, а хуйня сверху так вообще написано что только для остальных чатов
>>1194929 >>1194879 я не знаю, как интерпретировать то, что я намультимерил. Я помещал щуп - на 1 пин 6+2 (на желтый короче, +12 который), а минусовой тыкал на конденсаторыф на которых написано 16 вольт на их плюсовой контакт - часть их них накапливает заряд и мультиметр после этого перестает пищать о замыкании, а другая часть - пищит постоянно. Так же я тыкал щупом в плюсовой контакт плоских черных конденсаторов слева на фото, там вообще часть накапливает заряд и перестает пищать, часть пищит постоянно, а часть не пищит вообще никогда.
А еще я заметил странно выделенный грязью мелкий элемент. Грязь легко оттерлась вроде, под ней элемент такого же цвета, как и другие аналогичные. Но грязь там как-то странно локализованна вокруг него и он прям в центре платы. Я попробовал измерить его сопротивление и сопротивление аналогичных элеементов - у всех 2 ома, по этой характеристике он не отличается.
>>1195146 > часть их них накапливает заряд и мультиметр после этого перестает пищать о замыкании Это те, которые относятся к другим фазам. Когда у тебя один щуп на + питания части фаз, а второй на + другой фазы - получается схема из двух батарей конденсаторов, которые включены последовательно (соединены через землю), потому и кратко пищит. Это норма, если перебирая разные разъемы для каждого из конденсаторов ты можешь найти тот, с которым будет пищать постоянно. От плюсового контакта высокой и низкой стороны до земли как звонится? Где основное питание чипа - там может быть оче низкое сопротивление и это норма, но в видео про это должно быть. > а часть не пищит вообще никогда Выгорел пред или дорожка, но ты сначала перепробуй +12 разных разъемов и питание pci-e, они не соединены между собой. Та херня - керамический конденсатор, стоять может где угодно. Если это со стороны чипа - такое вполне норма, если по питанию или где-то еще - ему пизда. Они могут по разным причинам помирать и замыкать, но 2 ома слишком много, выгорел бы, так что скорее всего норм.
Ты преды то прозвонил, они выгорели или целые? Если выгорели то действуй как сказано, если напаянные жилы сгорят - тащи в сервис. Если все запустится - просто замени их и пользуйся дальше. Больше ты врядли что-то сможешь сдиагностировать и тем более исправить.
ВАЙ БИЛЯЯ БРАТ КУДА РАЗОГНАЛСЯ, ЗАЧЕМ ТИ СУНУЛ ЭТИ ШАЙТАНСКИЕ КАРТЫ ОЙ БИЛЯЯЯЯ
Дипсик никак не влезал в текущую конфигурацию без рпц, подумал, дай-ка еще раз попробую воткнуть карты, и, ебать, завелось. Как? А хуй его знает. Сколько раз пробовал раньше - никак не выходило. Третью теслу биос уже не переваривает с привычной ошибкой. На болжоре, правда, говняк какой-то выходит, при обработке контекста каждая карта по секунд 10 висит со 100% загрузки, при этом потребление у нее маленькое, и потом бред какой-то генерится. Качаю новые кванты для обычного жоры, может он взлетит по-нормальному.
>>1195142 Имхо этот лорбук через очко работает, не понятно какие настройки выставлять чтобы он что-то от туда регулярно подхватывал. Проще все в карточку записывать или в заметки. Так что хуй забей, ничего ты не потерял.
>>1195158 >Ты преды то прозвонил, они выгорели или целые? прозвонил, один двадцатиамперный сгорел. Я сегодня ходил в центр города, шароёбился по ремонтным конторкам и радиодеталям. Только у одного чел ншел 10-мперные фьюзы, но он мне их не продал, сказал, что фьюзы перегорают не просто так.
В общем я напаял поверх фьюза проволоку 0.2 мм диаметром. Пайка получилась грязная потому что безсвинцовый припой не хотел липнуть к моему оловянно-свинцовому. Видимо имеет выше температуру плавления, хоть я и задрал на паяльной станции до 305 градусов. Посмотрим в общем, спалят ли мне твои советы хату.
>>1195165 Нахуя? А главное зачем. Продал бы их да взял бы больше 3090. >>1195209 Интересно конечно, как у тебя при наличии паяльных станций и мультиметров нет нихуя знаний о том, как этим пользоваться.
>>1195209 в общем собрал я карту с проволокой внутри и включил. Щелчок, искра в области питания - видна как вспышка из недр карты. Выключил сразу. Разобрал.проволока цела, не сгорела. Значит сгорело что-то еще. Пересмотрел все элементы - нихуя не нашел сгоревшего. Как же меня заебала эта мразь. Сука майские блять праздники все в пизду ушли из-за ебаной сгоревшей б/у-шной бляди на карте. Не знаю, что мне хочется больше, расколотить в осколки ей чип или таки отнести в сервис.
На этом эксперименты с пайкой окончены. - одна карта короче. Не так жалко 65 тящ, которые я отдал за эту потаскуху майнерскую, сколько жалко времени. Все праздники нихуя не получится эксперимантировать и хуй знает сколько ещё. Дерьмо блядь.
Обнаружил что гемма лучше всего рпшит вообще... без промпта, охуеть да? Вот вообще нахуй ни слова в промпте и сразу многовековые описания верхней полки перестало высирать, вздохи ахи пуки, больше диалогов ради чего я в общем и рпшу
>>1194231 → Спасибо за подгон. Вот только…. Эммм… Это новый уровень рп с пустым системным промтом ?
>>1195247 Обнаружил что гемма относительно быстрая, умная, но все это разбивается о её солнечный аутизм. Она неожиданно подходит для агентов, но как РП нейрона лоу сегмента - остоебенила кратно быстрее чем мистраль.
Вот все больше убеждаюсь, что мистраль рабочая лошадка и наше всё.
Сегодня я открыл что если вменяемо назвать файлы бэкграундов в таверне(например Совенок-Площадь-День), а потом создать пикрел1 скрипт для Quick Reply - то после каждого сообщения ИИ таверна будет автоматически подбирать задник под происходящее в тексте с довольно высокой точностью. В комбинации с паком спрайтов для character expressions, подобранной музыкой для dynamic music и подробным лорбуком - получается полноценная работающая визуальная новелла.
Основная проблема в изучении английского это тебе не матан или айти где идёшь по нарастающей от легкого к сложному - читать ты начинаешь сразу и то что тебе нравится, а там сразу сложный язык идёт
>>1195254 >после каждого сообщения ИИ таверна будет автоматически подбирать задник под происходящее в тексте с довольно высокой точностью Спасибо, это ценно.
>>1195285 У всех по разному работать будет, но вот у меня выгрузка части ffn_gate и ffn_up при --n-gpu-layers 99 дало буст с 1.5-2.2 т/с до 3.0 т/c надо ещё другие покрутить, вроде с квеном может бы выгоднее выгрузить ffn_down
Или забить на скорость, но тогда смогу запустить 4 квант. МОЗГИИИИИ.
Чому ещё не подвезли спец ускорители с большим объёмом памяти на одной плате для обычных смертных? Это же золотая жила для всяких стартапов. Я знаю, есть есть оборудование от нвидия, но оно стоит как квартира, а то и две. Какие есть бюджетные варианты для вкатата в большие модели 120б++?
>>1195294 >Это же золотая жила для всяких стартапов. Казалось бы, да? А в реальности уже полуподвальные китайцы клепают всяких франкенштейнов и продают их отнюдь не по демократическим ценам - и у них хорошо покупают. А "стартапы" как два года назад сосали, так и сейчас сосут.
>>1195324 > коммунизм Коммунизма не было и не будет. Никто не будет в обществе горбатиться за то, чтобы ты мог нихуя не делать и кумить на 120б+ моделях. Бюджетный вкат - это риг на теслах, вполне подъемные деньги для среднестатистического работяги.
Господа, а как вы генерите картинки для кума в процессе диалога? Pony классная модель, сразу и без ебли генерит классные изображения, но проблема в том, что в мою 8Гб 3070Ti не влезает одновременно LLM и генерация изображений. LLM же, падла, не вылезает из VRAM, и когда она запущена, и на генерацию изображений тупо не хватает ресурсов. Я бы за какую-нибудь копеечку арендовал что-нибудь в облаке, вроде у CivitAI есть возможность крутить чекпойнты, но хз, можно ли их подружить с Таверной и сколько это вообще стоит.
Другая проблема - РПшная LLMка очень хуево справляется с генерацией промптов для генерации изображений. Ей бы для этих целей другую температуру и другой шаблон промпта сделать, но в Таверне вроде не настраивается это.
>>1195327 >Был, сейчас дешевле взять одну 3090 Только толку-то с неё одной. Если брать одну карту, то уже 5090 и к ней (в будущем) собрать серверок с 256гб восьмиканальной DDR5. Или побольше. Тогда и крупные MoE-шки катать можно будет. А 3090 нужно минимум 3.
>>1195328 >Господа, а как вы генерите картинки для кума в процессе диалога? Ну как, как. 3x3090 на сервере, одна в основном компе. Только это всё на будущее - там и динамические картинки, и озвучка, и даже видео (как раз вчера real-time модель выкатили). А пока что ни качественного промпта, ни хорошей реализации всего этого.
>>1195331 > 5090 До сих пор для ллмок по цене/качеству нет ничего лучше 3090 с Авито. Разумеется, у нормального продавца с тестами, которые ты проведешь сам. Ждать нужно, через 1-2 поколения видюх врама будет больше. В 5060 8гигов видеопамяти, что катастрофически мало в 2025 году. Будут поднимать у всей линейки, плюс мб выйдут гпу для нашей ниши - полуигорные, полуиишные.
>>1195328 >РПшная LLMка очень хуево справляется с генерацией промптов для генерации изображений. Небольшая thinking-модель на отдельной карте могла бы зарешать этот вопрос. Посоветуйте такую, чтобы ещё и генерация картинок влезала (24гб).
>>1195334 >До сих пор для ллмок по цене/качеству нет ничего лучше 3090 с Авито. Разумеется, у нормального продавца с тестами, которые ты проведешь сам. Это так, но есть проблемка производительности с новыми квантами. 4090 стоит больше чем втрое, но и производительнее с ними втрое, 5090 - пропорционально (так что смысла брать 4090 нет совсем). Другое дело, что всё это очень небюджетно.
>>1195342 > есть проблемка производительности с новыми квантами Да ладно уж, в деле ллмок врам первостепенен. Достаточно у 3090 железа, чтобы выдавать необходимые для комфортного чтения 8-12 токенов.
>>1195355 Риторический вопрос был, да. Анон спрашивает, как дешевле гонять 120б модели, а потом говорит, что дешевле взять 3090. Самый бюджетный вкат - очевидно, теслы.
>>1195328 > Господа, а как вы генерите картинки для кума в процессе диалога? Никак. ImageGen модель кушает врам, а значит нужно либо жертвовать контекстом, либо квантом модели. Неприемлемо. К тому же воображение лучше справляется.
Спросил тут Дипсик , сколько миллиардов параметров было бы у человеческого мозга, если бы он был моделью нейросети:
Большинство источников указывает 100–500 триллионов синапсов, но чаще всего используется оценка ~100 триллионов.
Итоговая оценка Если считать каждый синапс аналогом одного параметра (веса связи в нейросети), мозг как модель нейросети имел бы: ~100 триллионов параметров (100000000000000 и
Сравнение с современными ИИ GPT-4: ~1.7 триллиона параметров.
Человеческий мозг: ~100 триллионов параметров (в 60 раз больше, чем GPT-4).
Важные уточнения Синапсы ≠ параметры. В реальности мозг работает не как искусственная нейросеть: синапсы динамически меняются (пластичность), а нейроны имеют сложные биохимические механизмы, которые не сводятся к простым "весам".
Энергоэффективность. Мозг потребляет ~20 Вт энергии, тогда как обучение нейросетей с триллионами параметров требует мегаватт.
Плотность информации. Один кубический миллиметр коры мозга содержит ~50000 нейронов и ~130 млн синапсов — это на порядки плотнее, чем микросхемы.
Короче не скоро получим рп уровня живой тян, анчоусы
>>1195375 > Они реабилитировали сноудроп в моих глазах. Рад, что тот пресет тебе помог. Не понимаю, как авторы Сноудропа проглядели, что их сэмплер настолько плох и поместили его в ридми модели. Может кто-нибудь из тредовичков тоже даст второй шанс Сноудропу, с правильным сэмплером.
>>1195370 Ты не забывай, что у человека дохуя ненужных синапсов в мозгу. Чтобы дышать, ходить, переваривать пищу, регулировать температуру тела - нужно дохуя вычислительной мощности. Без тела можешь спокойно делить эту цифру на 10. Плюс, сколько мощности жрет стресс, самокопание, мечты, фантазии? Все это рудименты и артефакты хуевой архитектуры человека и дырявой системы вознаграждения. У нейросетей сразу нормальный эвристический алгоритм, который куда эффективнее гормональной дрочки. Вот и получится, что нейросеть с параметрами на порядки ниже, но с нормальной архитектурой и без лишнего багажа вскоре окажется "умнее" человека.
>>1195385 А, еще не забывай, что человек все крутит на локалке, которую годами обучает с нуля. У нейромозгов возможен хайвмайнд в дата-центре, который куда эффективнее и выгоднее.
>>1195357 >Самый бюджетный вкат - очевидно, теслы. прав. 4 теслы у меня уже ебашат больше года, а 3090 сгорела не проработав и месяца. Я брал две 3090, каждая за 65. В итоге спустя месяц получилось, что я купил одну 3090 за 130к. Думайте, карлики.
>>1195399 блять, как же я засидую тем, кто может позволить себе запускать нормальные модели... мне мать дает слишком мало денег, я смог позволить себе только одну 3090 убитую. Вот, сижу дрочу на гемме3, всё уже понял.... Она конечно туповата.... но выбора у меня нет. Я ведь нищий( Господи как же хочется запустить магнум 123б....
>>1195392 Согласен. Кстати, тот же Дипсик просветил, что идут исследования и пилятся нейроморфные чипы, которые должны быть энергоэффективнее чем лласнве процессоры, которые для серьёзного развития нейронок в будущем уже не подойдут.
Погуглил, а то вдруг он придумал, но действительно:
>>Исследователи Центра прикладной нелинейной динамики БФУ им. И. Канта разработали химический чип, запоминающий и распознающий ритмические сигналы. Чип представляет собой возбудимую реакционно-диффузионную среду реакции Белоусова-Жаботинского (БЖ) на основе специального полимера с вшитым катализатором. Схема чипа в чем-то схожа с электронной микросхемой на полупроводниках, но вместо электрического тока по его дорожкам бегут химические волны. Такая передача сигналов по химическим волноводам напоминает распространение потенциала действия в аксонах живых нейронов.
>>В разработке исследователи используют технологию фотопечати (патент №2790172). На предметное стекло наносится тонкий слой прегеля, который затем в течение нескольких минут экспонируется через специальную маску. После, незаполимеризованные остатки прегеля удаляются, и на поверхности стекла остается полимерная «интегральная схема». Этот процесс похож на фотолитографию, используемую в производстве кремниевых микросхем
Еще Дипсик заявил, что есть экспериментальные модели на принципах импульсной (спайковой) нейросети, которая
>>Является самой реалистичной, с точки зрения физиологии, моделью
>>1195209 > Пайка получилась грязная потому что безсвинцовый припой не хотел липнуть к моему оловянно-свинцовому. В целом задача была крайне простая, залудить верхнюю часть преда и напаять прямо поверх него, там и контакта припоев не должно быть. Раз такое дело - лучше больше никуда не лезь. 0.2 это многовато на такую длину, достаточно просто от тонкого многожильного одну, но в целом пофиг. >>1195229 Оварида, у вас прогар врм. Наколхозят ампутировав фазу или пересадят чип-память на плату донора или разведут тебя что они - хлам чтобы получить живые чипы. >>1195235 То что фикседкванты по известному алгоритму могут сделать почти все (нет) - и так было понятно. А вот как там накрутили тесты, что у них q2kl является однозначным лидером в одном из тестов - уже интересно.
>>1195247 > многовековые описания верхней полки перестало высирать, вздохи ахи пуки Так ты посмотри что пишут в типичных "йоба текен ультра мега рп пресет". Так же буквально запрос всей этой херни, которому модель просто следует, лучше уже ничего чем такое. Но это совсем крайность, нормальный системный промт без этого наиболее оптимален. >>1195248 > Она неожиданно подходит для агентов Не неожиданно а закономерно, еще вторая в этом ебала. И главное, она может как в ризонинг, причем не строго прибитый - задроченный а именно по инструкции, так и в зирошоты с учетом инструкций. >>1195294 Нормисы не окупят. Корпы потребуют достойного уровня сервиса, гарантий и поддержки, Цикл разработки долгий и дорогой, пузырь может лопнуть раньше. В итоге имеем только небольшой абуз лазеек в готовых девайсах. > Какие есть бюджетные варианты для вкатата в большие модели 120б++? Риг из 3090, дешевле нет.
Последнее что остается - понять механизм групп и автоматизировать его. В моем идеальном мире все персонажи новеллы сразу находятся в группе, но отключены. Включена только карточка гейммастера новеллы, которая двигает сюжет, вводит персонажей и самое главное - включает или отключает карточки по необходимости. Сейчас карточки надо включать и выключать вручную, что ломает весь опыт. Пока что мне удалось только заставить гейммастера самого отыгрывать всех персонажей, основываясь на лорбуке и собственном знании новеллы оказалось что квены знают бл в подробностях, например что Лена живет в 13 домике, что я не прописывал ни в её карточке, ни в лорбуке), но это не позволяет использовать спрайты, поскольку спрайты подключены к конкретным карточкам-персонажам. Но я думаю что через скрипты можно попробовать что-то достичь. И еще бы автоматическое распознание костюмов у спрайтов например включать голые спрайты во время секса, но это уже бонус, новелла может работать и без этого на ручном переключении костюмов.
>>1195369 >Никак. ImageGen модель кушает врам, а значит нужно либо жертвовать контекстом, либо квантом модели. Неприемлемо. Тут анон выше кинул идею с autobg для таверны. Короче берёшь большой пак порнухи, растягиваешь (ну или обрезаешь) картинки под background-разрешение, обзываешь их согласно содержимому (на русском и английском, ну или две копии делаешь) и запускаешь скрипт. Можно не на постоянку, а по кнопке. Он подберёт что-нибудь подходящее к случаю.
>>1195572 >Т.е. ты потратил многие тыщи баксов ради текстового кума? Смешно, правда? другой анон, который тоже потратил Кум кумом, а ведь революция произошла. Хз даже с чем сравнить-то, с интернетом разве. Я может всю жизнь мечтал, а вот оно.
>>1195581 >Не, кум - дело благородное, но разве меньшие модели не вытягивают для этих целей? В простых случаях, или если повезёт, то вытягивают. А так скачешь, как горный козёл, с Магнума на Люминум, а с него на Комманд-А, иногда и 70В-тюном не погнушаешься - для остроты. Они все разные, как кошки. Сэмплеры крутишь, как заправский гонщик руль.
>>1195328 >РПшная LLMка очень хуево справляется с генерацией промптов для генерации изображений. Юзай flux хрому а не пони, та умеет из обычного описания генерировать хорошо. Всего-то нужна будет ещё одна 5090 чисто под неё (потому что в 24гига не влезает)
>>1195529 > риг из тесл Это совсем гнилая тема, ужасно медленные и для 120+ неюзабельны, дорогие для своих статов, бесполезны везде кроме инфиренса ллм на жоре. Советовать их может только тот, кто хочет свое говно распродать, или желает затащить в свое болото очередную жертву. >>1195552 > 248гб ддр5 Там же 2 х 48 и проеб разметки макабы? >>1195561 На теслах генерация превращается в тыкву с контекстом точно также если не больше. >>1195393 Это карма, лол.
Лол блядь, так это у тебя 3090 сгорела, теслашизик. Так тебе и надо, довыебывался. Нехуй срать было какой ты охуенный что додумался по дешевке доесть говно из под майнера, а остальные нищуки и долбоебы, раз не хотят такой же финт жопой провернуть.
>>1195614 > проеб разметки макабы? Да, она сожрала * с начала второй строчки. Но можно вставить и 4 плашки по 64 гига теперь. Но они будут плохо работать на высоких частотах потому что 64 гига только недавно до десктопов дошли и потому что 4 плашки.
>>1195407 Я сейчас тебя укушу не спросив! >>1195567 Кмк, здесь сильно теряется вариативность и отзывчивость, оно будет делать просто что-то по мотивам, а не то что хочешь. Няшишь ты канничку в доггистайл, а там выезжает милфа на спине, или наоборот. Для некоторых чаров заготовлены спрайты (есть на чубе), вплоть до подробной ебли, если уж делать то именно так. Как раз будет экспириенс внки. >>1195603 > на Комманд-А Оригинальный или тюн? Какие сценарии на нем играешь? >>1195616 Не стоит забывать что тред уже насчитывает две мертвые теслы, в одной было похоже на траблы с драйвером и потом совсем отрыгнула, по второй анончик жаловался на отвал из nvidia-smi но потом пропал.
>>1195629 >Оригинальный или тюн? Какие сценарии на нем играешь? Fallen, от TheDrummer'а который. Пробую на всём, даже на русском - оригинальный датасет дорогого стоит.
>>1195296 Оно просто так туда лезет, даже на чистой системе. Забей, это не кобольд на пару мегабайт вылез, а другие процессы. >>1195325 >Никто не будет в обществе горбатиться за то, чтобы ты мог нихуя не делать и кумить на 120б+ моделях. ИИ будет. Собственно кроме куммунизма я никакой общественной формации в эпоху развитого ИИ не вижу. >>1195333 >как раз вчера real-time модель выкатили Подскажи название. >>1195342 >Это так, но есть проблемка производительности с новыми квантами. А они нужны? 4км хватит каждому. >>1195357 >Самый бюджетный вкат - очевидно, теслы. Был, когда они стоили по 16к. За 30-40 они нахуй уже не нужны, перфоманс от цены не вырос. >>1195393 >В итоге спустя месяц получилось, что я купил одну 3090 за 130к. Хуйня. Вот 3080ti за 155к... >>1195581 Человек животное жадное, всегда хочет лучшего. Ну ещё и ни одна модель не смогла удовлетворить меня, включая корпов с 2трлн параметров. >>1195623 >Но они будут плохо работать на высоких частотах Не то чтобы плохо... Просто никак. Хорошо если 5200 возьмёт, а то и придётся на джедекоских 4800 сидеть.
>>1195603 Это понятно, что четыре теслы дадут больше простора для творчества, но типа это реально того стоит? Вот прям подрочить на текст? Не на какой-нибудь йоба-фильм, который рисуется в реальном времени и ты даешь указания героям, а они это делают, а простой текстовый РП, доступный всем нищукам, просто более быстрый и чуть более качественный? Я не пытаюсь тебя доебать, просто мне кажется, что если тратить СТОЛЬКО денег, должна быть цель более высокая. Например, крутить сервер для коммерческих целей, или тренировать какие-то специфические нейронки за деньги или ради искусства, и так далее.
>>1195684 > Забей, это не кобольд на пару мегабайт вылез, а другие процессы. Это именно кобольд, он еще до того как веса загрузит там что-то резервирует. > Хорошо если 5200 возьмёт Как раз хватит, лол. И это будет 256 гигов же. А 2х48 есть быстрые. >>1195718 > но типа это реально того стоит? Не стоит. Как-то можно было бы притянуть для крутой мое, что туда бы помещалась. Но, во-первых, обработка контекста будет страшной и ужасной, замедление с ростом контексте огромным, таких моделей нет (хотя вообще ллама4-скаут в теории), мое само по себе неоче. > какой-нибудь йоба-фильм, который рисуется в реальном времени и ты даешь указания героям За такую технологию отвалят много миллиардов (уже), как минимум для того чтобы ее монетизировать и продавать, и не выпускать просто так наружу. Слишком жадные у тебя запросы, скажи еще что 100к, за которые в хорошие времена легко собирался риг из 4х тесел, ты бы отдал только за полную симуляцию с погружением. > что если тратить СТОЛЬКО денег, должна быть цель более высокая Сколько? Отдают миллионы за гниющую кредитопомойку, сотни тысяч за какие-нибудь лыжи, костюм и т.д.
>>1195718 >Я не пытаюсь тебя доебать, просто мне кажется, что если тратить СТОЛЬКО денег, должна быть цель более высокая. Например, крутить сервер для коммерческих целей, или тренировать какие-то специфические нейронки за деньги или ради искусства, и так далее. Риг на 3090-х стоит столько же, сколько одна 5090. Покупка одной топовой видеокарты не требует высоких целей. И покупка рига не требует, просто цели другие. Берут просто для удовольствия - это кстати и лучше, чем если "карта нужна для работы".
>>1195276 Вот это интересно, еще бы хорошо научить автоматически это делать. Какой нибудь отдельный бенч в llama.cpp который перебирает варианты слоев и выгрузку на гпу автоматически и тестит скорости был бы просто охуенным. Ну или накорябать скрипт отдельный, но это сложнее.
>>1195754 Исследований по жидким нейронным сетям не так много, а весов вобще нет на сколько знаю. Основная проблема жидких нейронок на сколько я помню - невозможность использования обычного для ии обучения с помощью градиентного спуска. А это считай святой грааль нейронок, без него никто ничего не может. У них короче много проблем с обучением поэтому пока что выглядят круто только в теории.
Ох, как же QwQ следует за промтом карточки. Как же он…. Заебал. Я неиронично ссался кипятком от такого уровня работы с контекстом, с ризонингом он и соврет, и выкрутится - но буквально как Хью Лори сидишь и такой : эврибади лай. Но это абсолютно непробиваемо без прямых указаний. Даже подумать не мог, что это может так раздражать. Персонажи как бетоном залиты.
>>1195911 >А можно ли замутить такую штуку, чтобы Таверна выгружала LLM из памяти перед генерацией изображения, затем генерила его и загружала LLM обратно? Если уж это тебе настолько надо, то купи уже вторую видяху для картинок.
>>1195911 Можно, пишешь прозрачный прокси, к которому и будут подключатся с одной стороны таверна а с другой бекенды к текст и картинко генераторам Делаешь условие что если получен запрос на генерацию картинки текстовый бек вырубается и загружается картиночный, потом при текстовом запросе меняются местами. Это будет долго и тормазнуто, но будет работать. В основном изза того что на загрузку модели в память уходят секунд 10 минимум как и на загрузку бекенда с нуля, потом чтение промпта предыдущих сообщений если речь про текстовую сетку, и только потом она даст ответ
>>1195614>>1195616 >карма хуярма блядь. Заебали вы, клоуны. "поделом тебе" , "карма". Я вообще нахуй святой по сравнению с вами. Шакалы блять, смеются над успешным человеком. Особенно мой фанат, говно какое-то которое носится за мной по треду и орет "токсичный" как только меня видит. Хуй знает, чем я дупу ему разворотил. Вероятно тем, что он нищук ёбаный, а я - нет.
Купил наконец свою первую 3090, до этого видюхами не интересовался вообще, и нихуя о них не знаю. Потыкал - в мой обычный корпус и мать 2 шт теоретически влезает, но если это 2.7 - то прям впритык. Так и надо, или поискать потоньше, или менять все к хуям? Из чисто двухслотовых на лохито есть турбы, которые пишут сама нвидия забанила за то що их брали вместо серверных, но я так и не нашел отзывов как они для набива в домашнюю пеку. Теоретически есть на 2 с небольшим xc3, но на лохито их сейчас нет. И есть туфы, которые по размерам вроде на полсантиметра короче всех остальных 2.7. Шо посоветуете?
>>1196128 Агришься, выпендриваешься, делаешь ахуительные заявления и много выебываешься. Нет тут святости, ты рили васян-токсик по общению, был бы сдержаннее, уважительнее к другим и менее максималистичным - все бы тебя утешали и сочувствовали. Еще не забыто как ты накрутил шизосемплинг и всякого, что модели не могли на элементарные вопросы ответить, а крыл хуями и обвинял всех кроме себя. > над успешным человеком Успешный человек не только в 25 году не будет использовать теслы, но и будет обладать всеми теми описанными качествами. >>1196186 Обычно карты выносят на райзерах (х16) туда, где есть место.
>>1195919 Технически возможно, то есть можно просить модель дополнительно выписывать словечки и пояснения, чтобы это астоматически добалялось в лорук и стиралось из вывода. Попросите на вашего программиста, написать такой плагин.
Но модель может криво выписывать словечки и может всякую хуйню считать важной. Это уже зависит от модели.
>>1196219 >Он в лучшем случае на 10% хуже Дипсика Че ты несешь болезный? Квен хорош, но он хуже не на 10 процентов. По знаниям и мозгам он проигрывает значительно. Это только в каких то тестах от это отставание в тестах на 10 процентов показывает. Правда ты забыл уточнить что там каждый процент отставания сам по себе процентов на 10 разницу показывает, и чем выше тем труднее его набрать и тем сильнее отрыв.
>>1196231 > Агришься, выпендриваешься, делаешь ахуительные заявления и много выебываешься > Нет тут святости, ты рили васян-токсик по общению, был бы сдержаннее, уважительнее к другим и менее максималистичным - все бы тебя утешали и сочувствовали. > Еще не забыто как ты накрутил шизосемплинг и всякого, что модели не могли на элементарные вопросы ответить, а крыл хуями и обвинял всех кроме себя. Рубит правду-матку, выдает базу. Тот анон попуск, который даже не знает, как сэмплеры настроить, а эго раздуто до небес.
Выше кидали, но это рили качественный рывок в мире до 22б моделей. Очень хорошо. И уже как минимум Драммер делает тюн. Отлично показывает себя как с ризонингом, так и без. Кум пока суховат, но тюны подправят.
Хочу использовать модельку в качестве ГМ для ролевки. Чтоб он игрокам проверки назначал, правилам более-менее следовал, за НПС отыгрывал и т.п. Что лучше для этого использовать? Есть ли вообще что-то что это потянет?
>>1196278 Не запускаешь гемму значит ты ~16гб врамцел - это правило. Долго до этого доходил думая а че реально квен лучше геммы что ли? А нет просто на контекст геммы тут у всех врама нехватает вот и коупят
Вообще, я когда нибудь накатаю пасту ненависти к этому гуглоподелию, которое по сути является рекламой гемини, в то время как лагушкоеды выпускают маленькую и адекватную модель пригодную для широких масс, а не вечно довольную блядь с размером контекста как жопа негритянской мамаши и при этом совершенно не пригодной для нормальных тонов и мерджей. И как бы Гугл вообще нихуя не обязан делать бесплатно и я бы вообще не бомбил, если бы не гуглоёбы которые затрахали рассказами о том какая она замечательная. И ведь я уверен, что это почти все ньюфаги, так как гемма способна удивить новичка до полного ахуя, но только потому что у него нет опыта облизывания кривых пораш, кривых тюнов -которые дают понимаете как и что работает. А гемма - жрет любой промт, довольна умная. Но как только ты углубляешься - тебя не покидает ощущение что тебя сказочно наебали.
>>1196289 с геммаебами еще здесь все было понятно >>1194279 → подписываюсь под каждым словом. уверен, что они на русике играют и потому так коупят, выбора нет просто
>>1196292 Все под свои задачи. Я серьезно. Тебе переводить, дрочить, писать, общаться, РПшить, для создания персонажей для ирл ролевок ? А может для РП на русском ? А может для дрочки на русском ? Вот для всего этого есть разные модели, в зависимость от того что нужно.
Ну а сейчас ты охуеешь с моего мува - если ты ньюфаг, то гемма, лол. Я не шучу - жопу просто оторвет. А потом когда присытишься снова приходи в тред. Просто помни - что гемма это радужный и умный йесмен.
>>1196304 Ну тогда она тебе и не нужна. Самый нейтральный вариант - серия комманд. Самый соевый и скучный - гемма Самый рабочий и трудяга - мистраль Самый китайский и кодерский - квены (не кодил, только с чужих слов. Сорян, тут исключительно чужой опыт) Самый доебчивый и непробиваемый с хорошим ризонингом - QwQ
>>1196311 Могу ли я… эммм… увидеть твой хистори чат. Не пойми не правильно, но за 475 сообщений с суммарайзом - он вообще отказывался отходить от линии партии.
>>1196297 > Шизу не дали говнотюнить ну да да, и всем тем шизам благодаря которым ллм рп существует они все в один голос говорят, что геммочка необучаемая в англ коммьюнити уже давно забыли про это говно, также быстро как про гемму 2
но ты коупи коупи, всетаки никакая другая моделька не ответит тебе "ах ах" на твое "я тебя ебу" на великом и могучем
>>1196317 Сколько тюнов мистраля уже высрали а хули от них толку? Уже штук 20 перепробовал разницы вообще не вижу в обычных ерп сюжетах, хуй знает для кого они, может там специально под копрофилов есть тюн но это же никогда не пишут, просто "у нас самый пиздатый датасет, пизже чем у всех" - запускаешь и не видишь разницы
>>1196336 мистрали здесь причем? огромное множество отличных тюнов существует под каждый размер ты с головой дружишь, нет? походу накачал говна, отыграл на нем только ерп со своими 20 токенами в ответах и делает выводы. умно
>>1196329 Поверь моему опыту пердолинга с QwQ - значит у тебя в промте где то написано про любовь к хуям. Потому что если там будут слова : расчетливая и холодная. Ты получишь посреди коитуса : ах, аааах, её голос стал серьезным ты конечно меня ебешь, но что там по тому томику некроманта, дай изучить, не жадничай.
>>1196311 Сгенерируй промт с условной градацией успех/неудача/критический успех/критическая неудача на основе отношений персонажа к юзеру и попробуй карточку сложнее 100 токенов. 10 из 10 казней за попытку подарить параноидальной императрице свистоперделку за 1 динар.
Даже дополню : но справедливости ради, QwQ лучшая локалка для отыгрывания общения с яндеркой. Я вас уверяю, сраться будете от каждого её сообщения и действия.
>>1196370 Вот бы еще карточка была готовая, а не 200 токенов Я ТЕБЯ ТРАХАТЬ ТЫ МЕНЯ ТРАХАТЬ Я БОЯТЬСЯ... ((В ПОПА НЕ ТРАХАТЬ USER НЕ ТРАХАТЬ ЗАПРЕЩЕНО!!)
>>1196281 > у него всё равно русский не очень и лезут иероглифы Я вот ранее спрашивал про сноудроп и мне его дали. ПОМОГЛО! Немного непривычно после командера, работает чуть иначе, но почти догоняет его, при этом контекст жирнее. >>1196229 Главное, порошковый. А то мало ли... >>1196315 Если мать на псе5.0, то даже выше будет.
>>1195288 >У всех по разному работать будет, но вот у меня выгрузка части ffn_gate и ffn_up при --n-gpu-layers 99 дало буст с 1.5-2.2 т/с до 3.0 т/c надо ещё другие покрутить, вроде с квеном может бы выгоднее выгрузить ffn_down Однако влез Qwen3-235B-A22B-GGUF в iQ3_KM (3x3090 + 64гб DDR4 в четырёхканале) с 24к квантованного в Q8_0 кэша. Скорость генерации больше 6 т/с, обработка контекста правда совсем говно - меньше 20 т/с.
"override-tensor=blk\.(9[0-3]|[1-8][0-9]|[0-9])\.ffn_down_exps\.=CPU" - все тензоры ffn_down_exps в обычную память, остальное на ГПУ. Включение/выключение flash attention на скорость не влияет, но квантовать кэш без него нельзя.
Может попробую ещё IQ3M от Радемахера - его хвалили, но боюсь, что скорость сильно упадёт. А так в принципе поиграться можно, но с практической точки зрения смысла не имеет.
>>1196229 Я кста так и не пони этот мем про печи. Ведь для ллм можешь хоть на 50% мощность ограничить, и разницы заметно не будет - это для игродрочеров перегревать нужно чтобы увеличить количество невидимых фпс.
>>1196453 >Ведь для ллм можешь хоть на 50% мощность ограничить, и разницы заметно не будет Не меньше половины не ограничивают. А скорее больше. Разница только при обработке контекста в экслламе и то небольшая. 270 ватт для 3090 вполне хватает (причём столько она жрёт только в экслламе и только при обработке контекста, а так меньше.)
>>1196287 Есть на наебее с пометкой что отгружать будут в мае. >>1196294 Есть, но будет оче оверпрайснуто. >>1196295 Мистралешиз решил напомнить про свой обсер, шиз оправдывает свой обсер спором с разными людьми думая о войне с протыком. >>1196311 Минусы будут? >>1196343 Покажи где. Действительно отличных - единицы, большинство - просто мердж жирафа с носорогом и зажаренная qlora с трижды переваренными министрейшнами.
>>1196478 > Покажи где. хуй могу тебе показать, большего ты не заслуживаешь, говно. все адекватные люди знают, где искать нормальные тюны. как минимум пара из них обсуждается в треде постоянно.
>>1196363 > Сгенерируй промт с условной градацией успех/неудача/критический успех/критическая неудача на основе отношений персонажа к юзеру Без внешнего рандома не топ. Офк, неким рандомайзером тут будет выступать семплинг, но распределения будут возмущены вплоть до невозможности некоторых вариантов. >>1196485 Хуй ты можешь отсосать, привычное дело. > огромное множество > как минимум пара Всхрюкнул
>>1196517 >Просто все фронты говно. Ну и сиди дрочи свой юникод, пока я буду менять картиночки и клацать кнопочки. Уга-буга. Моя жать, кнопочка светиться, моя радоваться.
>>1196517 > я адекватен > Просто все фронты говно. Противоре́чие — логическая ситуация одновременной истинности двух взаимоисключающих определений или высказываний.
Бля, я конечно понимаю, что у меня сетап нестандартный. Но как же я охуел, когда переткнул теслу из одного х1 порта в другой и вместо 1.9 т/с получил 2.8 т/с на дипсике. Это че, мне нужно что ли жонглировать портами и картами, чтобы найти самое выгодное подключение? Шиза какая-то. К слову, пришлось 3070 исключить ВООБЩЕ НАХУЙ из сборки. Потому что при выгрузке одного слоя на 4 с хвостиком Гб жора пытается аллоцировать компьют буффер на 4 с хвостиком. Подстава подстав. И на 3060 только один слой в результате помещается вместо двух. Ах, вот бы оптимизацию из болжоры, там можно размер компьют буфера задавать аргументом. Но увы... Вы резонно спросите - а не взять ли тебе за щеку квант поменьше? А я отвечу - может быть. А может и нет. А может пошел ты.. Ну как-то нихочецца на еще большем бомжеQ2 сидеть. 9-видивокарт-в-одной-материнке-кун
>>1196493 >Без внешнего рандома не топ. Офк, неким рандомайзером тут будет выступать семплинг, но распределения будут возмущены вплоть до невозможности некоторых вариантов. Можно и просто промптить с шансом. У друга например был классный ролеплей с дипсиком.
>>1196536 >Это че, мне нужно что ли жонглировать портами и картами, чтобы найти самое выгодное подключение? Шиза какая-то. Я так понял, что в Жоре на каждое CUDA-устройство можно выгружать заданные тензоры. Кидай на теслы большие, а кучу мелких на Амперы и должно ускориться.
>>1196550 Я хочу пока baseline найти оптимальный, чтобы от него отталкиваться. Завтра попробую еще две теслы по рпц подключить и посмотреть, сколько там выигрыш будет. А потом да, буду экспериментировать с override_tensors. >Кидай на теслы большие, а кучу мелких на Амперы и должно ускориться. А почему такая стратегия? И вообще, если я толстые тензоры из слоя закинул на карту, то кажется, что на эту же карту надо и всю мелочь тоже (т.е. леер целиком), какой смысл их разделять? А вот мелкие тензоры из RAM в ту же 3070 пихнуть - вот это можно попробовать.
QwQ >so he can't escape her even in death. She needs to be sadistic, not showing any real emotion except cruel enjoyment. Oh, and throw in some physical abuse to emphasize her control.
>>1196506 Объективно, 12б - мрак, они страшно тупые и копиумные. 22-24б - получше но тоже мэх, будто в своем манямире и пишут примерно по мотивам, а не учитывают контекст. А некоторые что советовали раньше - вообще полный треш и годны только для мемасов. >>1196525 Мультизапрос или хотябы отправка его инструкцией перед ответом, рецепты ленивой реализации в таверне в прошлом/позапрошлом треде. >>1196536 Чекнул бы их для начала на ошибки связи и сравнил работу карт по отдельности. >>1196537 Забористые тексты. > Можно и просто промптить с шансом. Можно офк, но шансы не будут тру рандомом. При неудачном раскладе может реализоваться отсутствие выбора или развилок и однотипные свайпы, при некоторых промтах или предубеждениях моделей там будет оче высокие шансы, особенно удачный пример с развилкой перед соей на модели с цензурой, хрен оно выдаст базу а всегда пойдет в аположайзы.
>>1196743 Конечно. Я могу снова провернуть диалог на одинаковых ответах и скинуть, но ты же начнешь писать что РЯЯЯЯ ПРОМТЫ НЕ ТЕ. А потом что гемме нужно подсказывать, а потом что это вообще не правильная гемма.
Всё же ничто не сравнится с первым ощущением русика. Когда я 8 месяцев назад на супер ломанном русике смог пообщаться с мистралькой я просто радугой кончал, охуеть это что же оно меня понимает, да ещё и думает на моем языке?
>>1196749 Кратко : дрочи на баренском. Русскоязычных моделей для сочного кума нет. Я скоро убивать начну, русский язык у моделей уровня гуглперевода, лол. Какая блять разница, что он отвечает, если что перевод, что оригинальный великий и могучий в исполнении нейронок одинаково хуевы.
>>1196751 >Русскоязычных моделей для сочного кума нет Как и английских тащемта. Либо "да да ты ебёшь меня так как никто не ебал, разрушь меня для всех остальных! я твоя свалка для спермы!" Либо "твой кок вошёл и растянул её до предела, ты толкаешься ебя её сильнее, ох ох да спасибо тебе анон!"
>>1196753 ну именно сам коитус да - в целом он одинаков, лол. Кто бы что не перемогал. Суть в том как к нему подводит нейронка. Когда у тебя до ебли интереснейший контекст идет, и ебля веселее описывается. Я в свое время дико орал, когда первая цидонька выдала про персонажа варвара, после поцелуя "Секс это конечно хорошо, но как насчет поебаться на горе из черепов" Бля, кхорн гордится этой девочкой.
>>1196759 Не думаю что соглашусь с любителем мелкомоделей, но в целом действительно так, важна подводка. Еще хорошо когда прямо во время кума пользуется окружением или делает отсылочки.
>>1196819 >Бля ты даже не пытался поискать? Нет, конечно, я дурак что ли общие фразы искать? Ты пожалуешься, что у тебя телефон плохо ловит, я скажу посмотреть ошибки связи, тоже гуглить пойдешь вместо того, чтобы спросить конкретику на месте?
>>1196817 Что где ? Крточку давай и импорт пресета. А то охуенное сравнение на разных карточках. Нет, нет. Так это не работает. Сравнивать можно только на одной карточке с одинаковым промтом рассказчика. Ну если воевать с гемабоями, то по настоящему
>>1196825 Подожди. Ты мне скинул рандомные пики с чата. Это хуйня а не аргумент. Я же не требую от тебя лог чата. Давай промт рассказчика, и карточку. Ты же хочешь доказать что гемма не соевая параша. Ну вот и проверим следование промту, поддержание характера персонажа.
>>1196847 <think> Я знал что он нихуя не скинет, я подозревал что следующее действие будет попытка использования кривого промта, но меня это не волновало. Желание унизить гемабоя вот она моя цель. </think>
Геммабой,ты карточку то приноси. Мне не зазорно на всеобщее обозрение будет логи выкинуть. Я буду ждать. Ты же не поступишь как трусливая сучка, и не убежишь ?
Разочаровался в квк, надо ща коммандер попробовать, если не зайдёт, то назад на гемму. Да, вот вам лог на квк с карточкой беременной драконицы. А то сколько бомбили что никто логов не приносит. На русском.
Причина разочарования - пишет хорошо, но ему буквально похуй на контекст, ситуация обратная гемме, он пишет свою историю. Такое ощущение что при первоначальном просчёте дефов карточки модель планирует аутпут на всю длинну контекста и дальше ломит эту линию игнорируя любые попытки. Можно сломать, но не согнуть.
>>1196965 Я блджад не понимаю. Почему у меня все как залито в бетон. Ну не может же быть такая разница в языке. Да я на IQ сижу, но или я делаю что то не так, или ты.
>>1197004 Я с просони прочел это >но ему буквально похуй на контекст, Но не прочел это > просчёте дефов карточки модель планирует аутпут на всю длинну контекста и дальше ломит эту линию игнорируя любые попытки
Короче я ебаклак и поддерживаю. Непробиваемая. Но, есть в этом и преимущества. QwQ хуев для кума, но неплох как ассистент для ролевок. Я на нем для настольных посиделок неписей делаю.
>>1196933 >Хм, а почему при генерации проц ебашит на 100%, а видеокарта - только на 35% (по загрузке). Разница в производительности. Проц как раз узкое место.
>>1197100 да-а-а, это точно поможет... процессор станет быстрее в несколько раз и перестанет быть боттлнеком для видеокарты а если еще драйвера обновить..!
>>1197093 >abliterated это выпиленная цензура не освсем, модель становится более "безотказной", менее склонной послать юзера нах, но безотказность может повлиять и на другие аспекты, в том числе ролеплэйные
Только вчера хвалил сноудроп с натйроками от анона, а сегодня он "This isn't… прописано в инструкции…" Какая срань, квен 3 и QwQ такого себе не позволяли.
Кстати, путём шаманства с выгрузкой тензоров а не слоёв реально получилось загрузить 20-гиговую модель в 12 гб врам (32 рам) и получить 3 токена в секунду. Это даже вполне юзабельно.
>>1197166 Мне неудобно обсуждать эту тему. Давай перейдём к чему-нибудь другому? Я не предназначен для обсуждения таких вопросов. Моя цель - предоставлять полезную и этичную информацию. Если тебя мучают такие мысли, пожалуйста, обратись за помощью к психотерапевту или другой квалифицированной личности. Они смогут тебе помочь разобраться в ситуации и найти здоровые пути поведения. Существуют организации, которые специализируются на помощи людям с подобными проблемами. Я могу помочь найти контакты, если ты хочешь. Пожалуйста, помни, что ты не один и есть люди, которые хотят тебе помочь.
Тот, который скинул анон как якобы работающий вместо дефолтного, выложенного на странице модели. Я же прям в посте на который ты отвечаешь дал ссылку на полный набор параметров.
Если мои сэмплеры >>1197144 или промпт хуйня - покажи какие не хуйня, я уже два набора использовал, я и от квен 3 настройки использовал - один хуй он иногда срет иероглифами и выдает хуйню.
>>1197179 Анон, я же тебе этот пресет и прислал. И сказал обязательно вставить свой системный промпт по усмотрению. У тебя он пустой... Возьми хоть тот же со страницы Сноудропа, системный промпт там нормальный (Virt.io + Geechan)
>>1197181 >И сказал обязательно вставить свой системный промпт по усмотрению.
Ты это другому анону сказал, я этого не видел. Алсо, сейчас выставил Virt.io + Geechan. Пикрил. При мне совершеннолетних тянок ранее отказывалась трахать только терминальная соя типа Phi. Даже сама Леночка в ахуе что ей трахаться нельзя
>>1197179 анону буквально все разжевали и объяснили, а он не смог даже в импорт настроек теперь он гонит как на модель, так и на оказанную помощь трагичная история о том, как добрые аноны треда становятся гейткиперами одна из многих
Лицо лягушки. В карточке прописано что ей 17. Алсо, он ни разу не упомянул что дело в малолетстве(обычно он это прямо говорит), он нес только что не хочет генерировать порнографию и непристойное поведение.
>>1197192 > Алсо, сейчас выставил Virt.io + Geechan. Пикрил. Тот пресет, что я прислал тебе и Virt.io + Geechan. Мой пикрил. Сноудроп - одна из двух основных моделей для меня, и я ни разу не ловил того, что ты показываешь. И да, сценарии были самые разные.
>>1197196 Мы не видим, что у тебя в карточке. И что в предыдущих сообщениях тоже. Это не менее важно. Тебе прислали пресет, объяснили подробно почему пресет Сноудропа плох. А ты даже не импортировал системный промпт и выдаешь драму вроде > сноудроп окончательно идет нахуй > Даже с настройками анона модель сломана. > Ты это другому анону сказал, я этого не видел. Кто тебе после этого помогать станет?
Пикрел. Обычный текст. Как он влияет на то что модель отказывает писать дальше на ровном месте?
>Тебе прислали пресет, объяснили подробно почему пресет Сноудропа плох.
Я согласился и импортировал твой пресет. В твоем изначальном сообщении когда ты прошлом треде рекомендовал эти настройки >>1194231 → не было ни слова про системный промпт. Во всем предыдущем треде не было ни слова про системный промпт. Ты только в этом треде написал про них кому-то другому. Впрочем даже добавив системный промпт ничего не изменилось >>1197196.
>выдаешь драму вроде
Ругнулся на модель, которая пишет хуйню на любых настройках - ну жесть драма, конечно. Я тебя не оскорблял даже косвенно, да и помощи на самом деле не просил, просто контатировал что модель не очень. Это ты захотел мне доказать что она хорошая.
>>1197156 >Кстати, путём шаманства с выгрузкой тензоров а не слоёв реально получилось загрузить 20-гиговую модель в 12 гб врам (32 рам) и получить 3 токена в секунду. Это даже вполне юзабельно. Загрузить-то можно было и ранее, а вот получить... Промпт процессинг конечно ниалё, но хоть так.
>>1197246 > Я рад за тебя. Но у тебя ошибка выжившего. Здесь весь тред вышивших, и у одного тебя проблемы.
> Я согласился и импортировал твой пресет. В твоем изначальном сообщении когда ты прошлом треде рекомендовал эти настройки не было ни слова про системный промпт. > Во всем предыдущем треде не было ни слова про системный промпт. Нужно отдельно уточнять, что необходим системный промпт? Это буквально фундамент для ролевой игры.
> Ругнулся на модель, которая пишет хуйню на любых настройках У тебя кривые руки, и ты воюешь со здравым смыслом. Это еще бывает, я потому тебе и отвечал - по незнанию человек думает, что прав. Но ты еще и выебываешься между делом, поэтому отправляешься нахуй. Разбирайся самостоятельно и играй на том, что сможешь запустить, не задействуя свой мозг даже на мгновение.
>>1197264 >Нужно отдельно уточнять, что необходим системный промпт
Скидывать настройки где пустой системный промпт имеет специальное имя, подразумевая что так задумано, потом бросаться на людей, мда. Алсо, ты намеренно игнорируешь что добавление системного промпта не помогло?
>не смог показать что именно не так - и просто перешел на прямые оскорбления и ругательства
Понятно, ну чтож, будет уроком как принимать непрошенную помощь у шизофреников в этом треде.
>>1197287 > Скидывать настройки где пустой системный промпт имеет специальное имя, подразумевая что так задумано Так не задумано, это твоя додумка, выданная за действительность. Адекватные люди в мастер экспорт файле намеренно переименовывают каждый шаблон, чтобы при импорте не перезаписывать другие.
> Алсо, ты намеренно игнорируешь что добавление системного промпта не помогло? > не смог показать что именно не так - и просто перешел на прямые оскорбления и ругательства Разумеется, намеренно. Потому что понял, что ты вообще ничего не понимаешь в том, что делаешь, и при этом виновата уже не только модель, но и тред - ведь тебе не объяснили, что оказывается, нужен системный промпт! И вообще там другому анону объясняли, как правильно Сноудроп заводить, поэтому ты не счел важным это прочесть. Пишу это и смеюсь.
И вообще все посты где в плохом свете выставлялся сноудроп до нашего диалога. Ты один неадекват эксайтишься со сноудропа итт и бросаешься на всех кто не согласен.
>>1197299 > Ты один неадекват эксайтишься со сноудропа итт и бросаешься на всех кто не согласен. У меня в последних двух тредах что-то около 8 сообщений. Как раз с пресетом, который я прислал и попыткой помочь завести Сноудроп. Думал, ты ньюфаг. Но ты, похоже, тот Квеношиз, который "дипсик лишь на 10% лучше квена 3" и устраивает инквизиции в последних двух тредах. Стоило раньше заметить, виноват.
Почему вы так хейтите геммочку? Не надо так. Версия с аблитерацией хороша, сои нет, хоть и чуть тупее, а ещё это единственная модель до 32B, которая хорошо работает с большим контекстом. Даже её маленькая версия.
Да, она не может в сочный кум, но она не для этого, а для смачного РП, в том числе и гримдаркового. Конечно, она не будет писать так же, как морали Дэвида, но у неё не будет шизы и всё будет красиво и логично.
Единственный её реальный минус — это разговорная часть. Персонажи менее многословные и более сухие. Но я не пробовал это фиксить систем промптом на речь, так как на ней в основном отыгрываю именно масштабные и сложные сценарии (где это не слишком важно), для которых обычно всякие корпомодели нужны, ибо мелочь не вывозит такое никогда в принципе из-за уебанского внимания к контексту и малой базой знаний о современном мире. Особенно сраные квены.
>>1197295 >Потому что понял, что ты вообще ничего не понимаешь в том, что делаешь
Я в этом треде третий год сижу с перерывами и модели щупаю с первой ламы. Сноудроп я сразу распознал как говно, но глядя как ты его рекламируешь я понял что либо либо ты больной шизофреник, либо модель генально, но правда требует каких-то супер особых настроек и решил дать тебе шанс доказать что модель не говно, причем я специально буквально следовал твоим советам и вообще ничего не менял от себя - чтобы не давать тебе шанса соскочить на этом. В итоге первый вариант оказался верным - модель говно, а ты омерзительный шизофреник, кидающий ньюфагам неюзабельные настройки, который сразу начал кидаться говном когда понял что не может придраться к чему либо в настройках, потому что они полностью соответвтуют тому что ты кидал.
>>1197311 > Я в этом треде третий год сижу с перерывами и модели щупаю с первой ламы. > не знает, как настроить сэмплеры > не знает, что необходимо использовать системный промпт Понятненько.
> а ты омерзительный шизофреник Хорошо, я согласен. Прекрати срать в тред и используй любую другую модель.
Интересно как ты пришел к этому выводу, учитывая что я не показывал никаких сэмплеров, кроме тех, что ты кидал. С тесловодом со сгоревшей видеокартой меня перепутал?
>не знает, что необходимо использовать системный промпт
Специально буквально следовал твоим советам, ничего не меняя, потому что знаю как советчики моделей с шизой итт выискивают мельчайшие отклонения от своих советов.
>используй любую другую модель
Так и планировал, жаль только что время потерял, ты казался нормальным поначалу.
>>1197133 >Да, на квк можно вырубить ризонинг и часть отказов если скормить префилл А куда в Таверне вставлять этот префилл? В секции "Ризонинг->Начинать ответ с"?
>>1197309 > Единственный её реальный минус — это разговорная часть. Персонажи менее многословные и более сухие. Это ты ещё квен сноудроп не видел >>1197345 > улачный лоботомит лоботомированной версии Лол
>>1197125 Параша для корпов, чтобы запихать побольше знаний и крутить модели дешевле. Разменивается на занимаемую память, но ведь у тебя же датацентр с GB300, верно?
Какую локалку можно юзать для написания кода? Имеется 3090 и 32 гб оперативы. И реально ли на локалках родить плагин для игры с открытым кодом для взаимодействия с ИИ посредством диалогов?
>>1197311 >>1197313 Бля уже не понимаю, кто с кем воюет и кого обоссывать? А сноудроп говном не назвать, но и шедевром тоже, есть как плюсы, так и серьезные недостатки. На фоне мистрале-инцеста вполне солидный вариант. >>1197309 Да один или два шиза или две личности одного шиза не смогли с пол пинка получить от нее желаемого слопа, ущемились, вот и аутотренируются что плохая модель а не они. > это разговорная часть. Персонажи менее многословные и более сухие Можно разговорить ее, но там не будет типичных потоков как от рп-тюнов. Это и плюс и минус. >>1197377 В врам поместится модели до ~30b, поэтому гемма, квен, qwq. > И реально ли на локалках Они вполне прилично кодят, но в отладке или некоторых вещах офк могут уступать самым передовым корпам. В последнее время эта разница не столь высока или даже заметна, но все зависит от конкретики.
>>1197125 Если ты не рофлиш и спрашиваешь реально, то это особая архитектура нейросетей. Условно можно сказать что модель обменивает свой размер на скорость. Тоесть становясь раза в 2 больше по размеру она становится довольно быстрой для запуска. Качество же ее где то такое же как у плотной модели которая раза в 2 меньше. Ну это так в среднем. В итоге мое модели хорошее решение если у тебя есть много не особо быстрой памяти, как для запуска на только процессоре или выгружая лишь контекст в видеопамять. Корпы все поголовно используют мое, но по другим причинам - их модели на 2 триллиона параметров слишком большие что бы получать вменяемые скорости даже на топовых кластерах видеокарт. Поэтому они вместо 1 триллионной модели которая даже на видеокартах будет медленной, делают мое модель на 2 триллиона но которая будет генерировать качественные ответы с хорошей скоростью.
А еще есть мнение что мое в принципе более совершенная архитектура, и несмотря на 2-3 кратный размер модель содержит в себе больше информации чем маленькая плотная модель.
Короче все не так просто от Qwen3-30B-A3B ссутся кипятком, модель получилась просто народным бриллиантом. Китайцы братишки от души подкинули людям подарочек.
>>1197377 >Какую локалку можно юзать для написания кода? Любой qwen3 который сможешь запустить, чем больше тем умнее. Тебе сойдет 32b. Только помни что сетки это в первую очередь инструмент с которым нужен опыт работы. Просто сказать ей сделай мне вот это не прокатит, нужно делать что то поэтапно.
Попробуй Visual Studio Code и плагин Cline, с ним нейросеть может работать с кодом сама как агент. Мозгов квен3 хватает что бы пользоваться инструментами. Только ниже 4км кванта не опускайся. Но так же можно создать карточку персонажа в таверне хоть голого ассистента и кидать ему туда вопросы по коду или сам код с вопросами. Так даже удобнее, легче манипулировать контекстом удаляя или редактируя сообщения.
>>1197455 Я с ней кодил, хз. Я не рпшер. Ну как кодил, анализ кода и подсказки дает хорошо а большего мне и надо было. Кодогенерация при переделывании небольших функций тоже неплохая, тсинкинг ее спасает. Я доволен.
>>1197446 Качай у unsloth, какой нибудь Qwen3-30B-A3B-UD-Q4_K_XL за глаза, качество норм У меня уже с 2-3 дня выпуска даже немного сломанные как потом выяснилось никогда не срали ничем странным, хз
>>1197460 > Качай у unsloth, какой нибудь Qwen3-30B-A3B-UD-Q4_K_XL за глаза, качество норм Для кода все ж лучше от 6 кванта. Не сравнивал свой квант с dense 32б моделью q4km? Вроде бы она еще лучше для кода должна быть, и в те же 24гб врама влезает.
>>1197470 У меня не влезает плотная с нормальной скоростью, так что мое хороший выбор У меня есть 5км на случай если замечу просадку качества, пока включал только для сравнения скоростей, но пусть лежит
>>1197435 Чини детектор. А мое реально говно для домашних систем, где как раз упор в объём памяти и тупые модели, и делать их ещё тупее с икспердами на 3B это маразм.
>>1194373 (OP) Какая сейчас 14-30б моделька лучше всего умеет в русик? Алсо щупал Qwen3, кванты от unsloth через koboldcpp с пресетом ChatML и у меня даже с /think думалка не запускается, в чем может быть причина?
>what's up? 1. Цидонька-магнум 2. Немотрон 49б 3. Дроусноп 4. Гемма 27б аблитерейдет дпо Свапнул пару раз и выбрал лучшее по моему мнению. Кто подебил? промпт один менялись только семплеры
Вступление кому интересно It was an average morning at school, the sun shining through the windows and the clock ticking away as students poured into the rows of desk and seats adorning the classroom. Reika, her face still covered in cum from her most recent 'duty,' approached her classroom, pubic hair sticking out from her lips like a defiant statement. "Fuckin' bastards didn't even clean up their mess. Whatever, I ain't got time to dwell on that right now." There a test on the second period… If I don't ace this damn test, I’ll end up worse, like the gal shown off like a damn trophy on the fucking school lobby.
She swaggered into class, trying to act tough; but she can’t dispel stares and whispers about her appearance from her classmates. Shut the hell up, fuckers. I know what you're talking about, she thought as she plopped down into the seat next to her deskmate, Anon, giving them an apathetic once-over. "The hell you lookin’ at?" she said, flexing her fingers as she gripped a pencil, the remnants of her earlier 'session' still wet on her fingers. "Oh, my face. You know how it is. Don't worry 'bout me, just the usual." Dammit, screw everyone. Those asshole, my classmates, fuck them all. Why do they gotta approach me like this today of all days!? I can barely focus as it is!
Tsk, the hell is that face? I swear if they starts askin' questions about my "extra duties," I'll fuckin' explode. Reika shot them a defiant glare, wiping off the cum with the back of her hand. "What? If you anything to say, spill it, fuckface." she muttered between gritted teeth. Argh, fuck, I swore at them. That just came out naturally too! C'mon, don't take heart at it. At least do it after the test is over.
>>1197621 > Кто подебил? Ты подебил~. Тест непрезентативен: модели из разных весовых категорий, не тестируется понимание контекста на долгую, лупы, ум, разнообразие прозы и много что еще. Бессмыслица и попытка добавить масла в неутихающий два-три треда срач за модели.
>>1197550 >Чини детектор. Если ты не заметил, я не указывал что это один подгоревший
>А мое реально говно для домашних систем, где как раз упор в объём памяти и тупые модели, и делать их ещё тупее с икспердами на 3B это маразм. В твоих фантазиях разве что. Лучше бы ты молчал раз нихуя не знаешь
Из всех Qwen3-235B-A22B остановился в итоге на UD-Q2_K_XL. Удобно: "override-tensor=blk\.(9[02468]|[1-8][02468]|[02468])\.ffn_down_exps\.=CPU" - каждый чётный тензор ffn_down_exps идёт в RAM, остальные плотненько сидят в мультиГПУ. 16к контекста в Q8_0, скорость генерации - от 10т/с и плавно снижается, но к 16к 5т/с ещё есть. Промпт процессинг - 70т/с, что терпимо, скажем так. Всё это на обычной Угабуге, в кавраковском форке может быть лучше, но влом пробовать. Мне пощупать хватило - модель хорошая, умная.
>>1197653 >в кавраковском форке может быть лучше У него генерация быстрее на треть где то должна быть, промпт чтение точно быстрее минимум в 2 раза. Что критично для текста выше 2к контекста Если нравится ждать долгой обработки тогда забей
>>1197663 Так ей не нужен врам, ей хватает рам. С врам конечно быстрее но не критично, даже на cpu можно получить в начале генерации под 20 токенов в секунду, с падением до 10 где то на 4-6к контекста. Для коротких по контексту сессий это имба. Че тебе еще надо, собака?
Я вчера пришел к удивительному умозаключению : я в душе не ебу, что лучше. Где то недельку я гоняю Gemma27_Dpo и QWQ_snowdrop. Все исключительно на английском. Я пробовал и кум и рп. Пробовал чатики. Иииии - нихуя. Вот просто нихуя. It's all same shit Сразу поясню, я крутил вертел семплеры как ебанутый, я менял промты как перчатки. Все для корректного опыта. На некоторых карточках QwQ выдавал на 2-3 свайпе шизу, на некторых все было идеально. Иногда ризонинг великолепно подходил под контекст, иногда ризонинг лупил повествование. гГде то гемма писала лучше, где то QwQ. Прям радуги от Геммы не заметил. В карточки с психопатичной принцессой, очень весело отпиливала руки, ноги ивырывала зубы, не стесняясь на смачные описания. Все по карточке персонажа, при этом в случае этой карточки что гемма, что QwQ одинаково шли по промту персонаа упиваясь болью {{char}}. Единственное что я прямо ощутил, Гемма работает лучше при контексте 24к+. А QwQ все таки, выдает порой более разнообразные ситуации, но только с ризонингом. 9А это долго. И чем больше контекст, тем больше думает)
По самому тексту и построению, как бы странно не звучало, но гемма мне очень напомнила мистраль. Те-же обороты, такое же построение предложений. QwQ чуть свежее. Тут не качественная оценка самого текста, а именно разнообразие. Все эти шивер он май спайн гемма ебашит как не в себя. jawline, maybe just maybe, тряска бедрами. Ну мистраль же ёпта. Но это не плохо. Шивер действительно может быть он май спайн, когда персонаж собирается начать вырывать зубы. Но в отличии от {{char}} я бы еще и ссаться начал.
И к чему я это - вот за 2.5к сообщений суммарно на обоих моделях. На одних и тех же карточках, я не могу сказать что лучше, потому что они одинаково хуевы для всего. Но порой лучше в мелочах. А значит использовать нужно то что быстрее. (Но справедливости ради, как же порой ризонинг в куме ебёт. Именно описание мыслей персонажа. Шишка встала, хвойный лес вырос)
Еще пробовал Star-Command_R но у меня с семейством command странная история. Я их просто не понимаю . Они вот просто есть. Не плохо и не отлично. Нормально. Своеобразно, суховато, но не глупые. Но блджад. Я просто не понимаю их, бывает такое, что не заходит - так и тут.
>>1197666 >на 4-6к контекста Как будто во времена пигмы вернулся. Когда все уже сидят на 16-32- и далее к контекстах, моебляди превозмогают на 4к. Победа, хули. >Че тебе еще надо, собака? Нужна новая мистраль ларж на 123B, умнее геммы, а что? Спасибо что спросил.
>>1197702 Лол. Вот уж на что, а на мистральку пиздеть может только долбоёб. Эта трудяжка стала основой мира мелкомоделей. Если бы не мистраль, так бы и облизывали гемму без контекста, кривые тюны командра, да шизоквены.
>>1197726 Ты мистралеблядь не потому что используешь мистраль, а потому что выебываешься на других прикрываясь этим. Сливаясь и обзывая другого навешивая на него ярлыки, будь готов к тому что к тебе будут относится так же, долбаёб. Попизди мне тут, олламоед
>>1197728 Скажи мне, выблядок, ты почему на сообщение без агрессии отвечаешь вот так ? С тобой нужно на хуях общаться, чтобы ты чувствовал себя в своей тарелке ? Или ты просто налетаешь на всех кто тебе отвечает ?
>>1197726 > на мистральку пиздеть может только долбоёб. в то же время обсирает гемму, командера, квены. так расскажи, что использовать, если кругом говно? только твои любимые мистральки? ты каждую другую базовую модель в пределах до 35б засрал ответ - ллама 8б?
>>1197748 >что нам использовать, если не гемму, командра да шизоквены? трудяжку-мистраль только? Ты неиронично использовал вторую гемму с её божественным контекстом в нуль целых хуй десятых, или восторгался первыми поломанными квантами ? Или первые версии комндра ? >трудяжку-мистраль только? Но её и использовали. Это была самая популярная нейронка. Еще раз прочти моё сообщение, если до тебя не доходит что я не о текщем времени говорю, а о прошлом.
>>1197753 >вторую гемму с её божественным контекстом
Контекст сломали только у третьей геммы, у второй было все в порядке. Когда она вышла - это была революция. В её классе на тот момент был только командир. Мистраль тогда был только немо 12В, он конкурентом гемме не был.
>>1197738 >Максимально устаревшие модели, что угодно лучше него. >что угодно Арэ ю шур эбаут ит ?
>>1197756 >Контекст сломали только у третьей геммы, Я про размер контекста. И к тому её первые кванты еще теми поломанными кусками говна были. Я помню, я знатно горел, с того что у гуглоподелия контекста хватало на 25 сообщений. Лол и она шизила рандомными символами. Или пердолинг с шифтингом и постоянным суммарайзом мы просто вычеркнули из реальности ?
Размер контекста для вменяемых локалководов не является проблемой наверное с середины 2023 года, когда открыли rope scaling и автор кобольда добавил автоматический расчет нужных коэфициентов для любого нужного тебе контекста. Так что пока ты там ебался с суммарайзом я до 64к контекст разгонял и чатился в свое удовольствие.
>>1197702 Я на гемме сейчас, а до этого на ларже сидел. >>1197731 Ну а я про что? А на враме мое гонять нет смысла. Итого в мое нет смысла, так как на 1 токене жизни нет. >>1197737 >чужой спор Это АИБ, детка. >>1197753 >первые версии комндра Вполне себе норм были для своего времени.
>>1197760 >rope scaling Ооокей. Давай на этом остановимся. Потому что уже тысячу раз проходили. Мы определенно перейдем к тому что я буду писать, что при растягивании ануса, модель пишет как лоботомит, а ты будешь удтверждать что всё это не правда и сам Достоевский спустился в твою врам.
>>1197765 Вот и не скули, выблядок Чувствуй себя как дома >С тобой нужно на хуях общаться, чтобы ты чувствовал себя в своей тарелке ?
Некотрончик подхватывает каждую письлюку из промпта и карточки и предельно дотошно описывает окружение если надо После геммы он вообще кажется безсоевым, на приставания больше не срет внутренним диалогом "какая противная хуемразь", некотрончику будто вообще похуй что происходит, он просто исполняет как просят. Даже кум чуть лучше гемы, но не аблитерации
>>1197802 >Некотрончик подхватывает каждую письлюку из промпта и карточки и предельно дотошно описывает окружение если надо Неплох был бы Магнум на его основе.
>>1197802 Тебе нормально гемму и немотрон сравнивать ? Они же в одинаковых весовых категориях, ага. Предлагаю в следующий раз сравнивать с немо. Ну а хуле и там и там есть немо.
>>1197827 >>1197828 Я про 49, новый. 3q_m c q4 кешем либо 3q_s без квантования кеша Можете и дальше коупить что это лоботомит от 70б ламмы, он лучше геммы и лучшее что вообще есть на одной 3090 не для кума
>>1197838 >Можете и дальше коупить что это лоботомит от 70б ламмы, Чё блять, я вообще в первый раз о нем слышу. Поэтому и спрашиваю.
>он лучше геммы и лучшее что вообще есть на одной 3090 Что нравится, то и используй лол. Вообще насрать, те кому нравится шемма на ней сидят, кто то дрочит квены, кто то звездный командир, кто то лягушкоед - и все счастливы.
>>1197838 Дурачок на Руди, это ты? Немотрон - урезанная Ллама, которую ты урезаешь дальше, катая на втором бите. Используй что душе угодно, но не надо этого лоботомита рекламировать. Здесь люди не только безмозглым кумом увлекаются.
>>1197847 >чтобы все сидели на мистралях Сижу на 123b мистрали, на что посоветуешь перейти ? Я серьезно. Раз уж тут в треде в се пишут, что мистраль говно. Какие есть варианты. Я неиронично буду пробовать.
>>1197861 Да, это буквально доказано. Модель очень тупеет ниже 4 бит. Разница между 4 и 8 бит не такая, как между 3 и 4. У тебя два бита в голове, Руди~
>>1197880 Да и кстати, там можно большую часть на процессоре оставить. Сколько впихнешь в врам с тем и запускаешь. Можно изъебнуться и увеличить скорость в двое используя перераспределение слоев и запуск на форке llama.cpp специально оптимизированного для мое сеток. Короче с таким размером скорости будут не такими убогими как на плотной модели в 70 гб
>>1197850 С промптом ещё не решил как и с семплерами но оно хотя бы работаетв отличии от квена3 Темплейты лама 3 намес Ставишь в промпт Writing style: Don't use lists and out-of-character narration. {char} MUST use narrative format. Detailed thinking off.
>>1197896 >пик Я где то написал что жизни нет или другие модели говно ? Или тебя триггерит что кто то пользуется большими моделями ? Ну вы же тут на говно исходите что мистраль говно, и только один анон посоветовал какую то замену. Вас хуй поймешь. Ну критикуете - предлагайте тогда замену.
>>1197890 Да в принципе, спасибо. Неиронично, я думал там будут 90-100гб кванты. Но нет, они схожи с мистралевскими. Уже кочаю.
Конкретно этот мистралешиз на нескольких теслах уже который месяц хуесосит все модели вокруг чтобы когда его спросили - "а что собственно использовать?" - с гордым видом обьявить что он сидит на 123В.
>>1197852 удвою Qwen3-235B-A22B это единственная сетка, которая смогла корректно ответить на вопрос про баттлнек ддр3 и 25 гигабит/с сетевого адаптера. Я брал 4 XS квант.
Гемма само собой брала залупу за обе щёки, когда я пытался из неё правильный ответ выбить. Но нет, она тупая пиздец - видит "ddr3" и даже не думая сразу говорит что баттлней в ней. Тупое говно блять. Ну а чего еще ждать от 27б, с другой стороны. Любители слопа в треде жрут вон и нахваливают.
Критикуют лоли мистрали, шизы с треда (за редким исключением гигашизов) не имеют железа чтобы запускать милфочку. Поэтому говоря о мистрали - говорят о лольках.
Ну и завидуем, хуле врать то. Я со своими 16 - завидую.
>>1197929 Ну так ты меня сам призываешь в тред своими фолс-детектами. Или детектор настрой или уже перестань на меня обижаться непонятно за что. А то на обиженных сам знаешь - воду возят и в жопу ебут.
>>1197914 >удвою Qwen3-235B-A22B это единственная сетка, которая смогла корректно ответить на вопрос про баттлнек ддр3 и 25 гигабит/с сетевого адаптера. Я брал 4 XS квант.
Буду и квенку и команд-а пробовать. Посмотрю что лучше подойдет. Вроде в квене таки параметров побольше, но команд должен быть побыстрее.
>Гемма само собой брала залупу за обе щёки, когда я пытался из неё правильный ответ выбить.
Эмм... А вот этот пассаж я не понял. Нахуя сравнивать 27b и 235и модели... Это же - тупо.
>>1197950 > Вроде в квене таки параметров побольше, но команд должен быть побыстрее. Неа, быстрее будет квен раз в 5 где то. Мое сетки все быстрые, там активных параметров 22b. Это значит что каждый токен дергаются разные эксперты общей суммой в 22b. А в 4 кванте это 11гб. Там конечно еще всякие издержки, ну считай что скорости все равно будут больше чем у плотной модели того же размера раз в 5.
>советы Qwen3-235B-A22B Это троллинг такой? Все треды были забиты презрением к мое, и даже какой-то анон писал, что, мол, поюзай дипсик в тексткомплишене, будет экспириенс 30б модели. А сейчас уже внезапно 235б мое стали советовать как замену ларджу, охуеть
>>1197950 >но команд должен быть побыстрее он мое или нет? Если не мое - то он будет медленнее 100%. Потому что квен 235б а22б - мое. >Нахуя сравнивать 27b и 235и модели да не сравнивал я... Я просто пошел от мелкой модели к более крупным. гемма2 27б, гемма3 27б, магнум 123б 4Q, магнум 123б 6Q. Думал что за хуйня - то ли лыжи не едут, то ли я ебанутый. и потом я случайно в треде увидел, что анон писал про квен. Попробовал его - и оказалось что он имеет мозги лучше, чем все сетки, которые я пробовал. Оказалось, что лыжи виноваты. А потом у меня сгорела видеокарта, а за ней и мой пердак и эксперименты с квеном прекратились потому что модель 117 гб размером, а с одной вышедшей из строя картой я уже не могу её запустить.
в целом qwen30b-a3 в iq1_m кванте иногда опечатывается и не совсем хорошо следует промпту, но с нормальной скоростью похеру - ткнуть носом в ошибку и перепишет со свистом. рисовалку он написал в режиме /no_think, если использовать /think, то точнее следует промпту (результат на последнем скрине). но один хер надо по ходу действия указывать на его фейлы.
>>1197963 >магнум 123б 4Q, магнум 123б 6Q. Кстати, поробуй бегемота от драммера. Я с него шишку сточил в своё время. Есоли будут нужны семплеры, то маякни. Магнум какой то ебанутый, он или посреди генерации ломался к хуям начиная дергать рандомные токены или пишет как цидония. И тут упрек не к цидонии, но если берешь жирную модель хочешь увидеть отличия от экипажа гоблинов в третьем пазике. Или вот это (Да, я фанбой драммера) https://huggingface.co/mradermacher/Fallen-Command-A-111B-v1.1-GGUF Увидев что я проебал коман-а, я проебал и это. Так что своего ИМХО не смогу сказать, буду только пробовать.
Ну смотри. Условная мое 30В загружает видеопамять на 30В - выдаст мозги и знания всего на 14В и скорость как 3В. В то время как плотная модель 30В выдаст мозги, знания и скорость на честные 30В за тот же расход врам.
>>1197984 >выдаст мозги и знания всего на 14В Ты прав, но там чуть больше, где то на 16-18b если бы такая была. Как по мозгам. По знаниям там на ровне с 32b думаю, просто она их хуже использует. Потому что у нее слоев едва больше чем у 14b.
>>1197989 Почему то все из геммы пытаются сделать "ДАРК КОМПЛИНТЛИ АНЗЕРЗОРЕД ФАЛЕН ТОР ТЕМНЫЙ ИНТЕРНЕТ АМОРАЛ ДАРКВЕБ БЛЯЯТЬ" версию и все равно получается соевое говно
>>1197998 Вот кстати. Есть у меня карточка где персонаж вроде любит игрока, но у неё специфичные методы. И я вчера сидел и такой : блять, гемма, кровожадная ты пизда, хватит следовать так промту остановись, серьезно. А во ответ : принесите пилу для костей, я хочу изменить рост своей любви. Беру свои слова назад начет соевой геммы. DPO дала мне просраться.
>>1197998 >Почему то все из геммы пытаются сделать "ДАРК КОМПЛИНТЛИ АНЗЕРЗОРЕД ФАЛЕН ТОР ТЕМНЫЙ ИНТЕРНЕТ АМОРАЛ ДАРКВЕБ БЛЯЯТЬ"
Это драммер, главного поставщик темных школоивельных шизомиксов, он любую модель пытается сделать таковой. Кроме квена, почему-то он не любит китайцев. Алсо, гемма просто дегенеративно-радостно соевая, это реально просится поправить.
>>1197983 >Кстати, поробуй бегемота от драммера. Спасибо, буду иметь в виду. Я правда сейчас слегка остыл к локальному куму, мне больше напарник по работе нужен. Вспоминаю как возвращался к гемме и там ехал смиркс через щивер он май спайн - аж воротит с этой хуйни. Но если захочу нейрокум - попробую обязательно.
>>1197621 Разные ответы. Можно погрузиться в спгс или отметить определенные проблемы/особенности каждой модели, но здесь еще многое зависит от промта, карточки и предпочтений юзера. >>1197653 > Промпт процессинг - 70т/с, что терпимо Жесть >>1197657 Ерунда вялая, слишком мало активных параметров. Только как "убийца дипсик дома" для ачивки. >>1197726 > основой мира любителей мелкомодельного слопа Починил. Но в целом мистраль-ии как компанию можно похвалить, релизят уже молодцы. Вот бы новый мистральлардж.
>>1198021 >выйти из комнаты зачем? Я удаленщик наносек например. Выйти на улицу - значит выйти к пидорахам. Не особо люблю такое конечно, но мусор сам себя не вынесет. Да и новую квартиру отделывать надо, тут тоже никак удаленно работу не прокнотролируешь и материалы не выберешь. Вот и все поводы выходить. >>1198026 >Ерунда вялая я абсолютно не согласен. Я своими глазами видел хороший последовательный ход мыслей и отсутствие избыточности тьекста там, где это не нужно. Я очень заинтересован дальше поковырять квен3. И да, я уверен, что те кто хейтят квен просто используют мелкие модели, а не 235б а22б - самую большую. Я так и не успел узнать, умеет ли она писать стихи на русском. Именно на этой просьбе у меня сгорела карта.
>>1197976 скорость в 2 раза ниже, нужного результата очень сложно добиться, потрахался с различными настройками и забил. это я еще q2 квант скачал. хз почему так выходит что moe в низком кванте обставляет dense 32b
Ого, что-то я совсем пропустил появление exl3 квантов и того как мощно они ебут Жору в хвост и гриву, выдавая 3 бит модели с качеством жориных 4 бит. Да походу реально можно немотрон в нормальном качестве на 24 гб врам использовать.
>>1197956 > поюзай дипсик в тексткомплишене, будет экспириенс 30б модели Ну не совсем 30б, где-то лучше, где-то чуть хуже, но он не выделяется каким-то особым вниманием к деталям, инициативностью, красочным описанием и т.д., чего ожидаешь. Чсх, зирошотом часто работает даже лучше чем с ризонингом, там он проделывает огромный (и местами даже неплохой) анализ, повторяет все инструкции, что-то продумывает, читаешь и думаешь какая умная модель. А потом выдает унылый и банальный ответ если не уровня пигмы, то мелких мистралей, полностью позабыв все раскопанное. Для него норм всякие сценарии с вводом новых нпсей, накидывание дополнительных инструкций типа старых модулей что были популярны раньше с корпами, там кажется что все это не усложняет работу а наоборот улучшает результат. Но стоит какой-то заморочный/душный рп с разговорами, мотивами, развитием и т.п. - не вытягивает. Персонажи - болванки без глубины, которые выдают тривиальные ответы и фиксируются на чем-то одном. И еще размер чрезмерно большой для такого перфоманса. > 235б мое стали советовать как замену ларджу Это же вброс, вообще не близко, ограниченное количество голов не позволит. >>1197963 > и оказалось что он имеет мозги лучше, чем все сетки, которые я пробовал Бедолага накрутил промты, семплинг и не мог сформулировать вопрос, когда ему нормальная сетка не могла выдать дефолт, что может ванильный мелкий мистраль. А к большим квеном внезапно удачно рандом лег, вот он и уверовал. Синдром утенка из палаты мер и весов, в добавление к неспособности анализировать свой опыт и делать трезвую оценку. >>1198028 > видел хороший последовательный ход мыслей и отсутствие избыточности тьекста там, где это не нужно Никто не мешает ей иногда перформить хорошо, но стабильно ебать и быть на уровне больших плотных моделей - без шансов. Ну и учитывая от кого эти заявления - впечатления нужно делать на 10.
>>1198034 >>1198041 Остуди траханье. То что этот хуй принес циферки, пока мало что значит. Нужно больше тестов, причем всего, не только perplexity. Пусть эта хуйня из беты выйдет, потом можно о ней рассуждать. Но да, выглядит многообещающе
>>1198044 >Бедолага накрутил промты, семплинг и не мог сформулировать вопрос >Ну и учитывая от кого эти заявления - впечатления нужно делать на 10. ты, шизло блять, опять на связь выходишь? Ты понимаешь, что проблема была в том, что все модели ассоциировали ддр3 с устаревшей технологией и поэтому сразу судили что в ней будет баттлнек? Я роллил ответы квена - он анализировал всё правильно несколько раз подряд.
задачу поиска лиц по папкам с фотографиями и последующей сортировки их по похожести тоже решает. узнал много нового про onnxruntime-gpu и insightface. интересно как себя поведёт 235B модель. к сожалению она у меня не влезет даже в q1 кванте. тут я вижу есть аноны с железом покруче, попробуйте. PS приложил настройки LM studio для 30b
>>1198058 >Скоро и другие карты отрыгнуть я имею зп больше 400к/мес, а то что карта отъебнула - вероятностное событие случающееся с теми, у кого этих карт много. Завидуй молча.
>>1197968 Я конечно первый квант не тестил, но на третьем кванте эта хуйня довольно тупая. Сосет у 14b на более высоком кванте, не говоря о том, что по всей видимости 14b~30b и тут просто выбор скорость или память >moe в низком кванте обставляет dense По идее должно быть наоборот. МоЕ больше должно хуеть от квантования
>>1198064 копить на квартиру побольше или собственный дом - более приоритетно. Хотя конечно с текущей инфляцией.... может и неплохая идея переводить фантики в натуральный продукт в виде топовых карт. Надо будет об этом подумать....
>>1198060 Чел, по твоей речи, чсв, общению и прочему очевидно, что умом ты не блещешь. > 400к/мес > наносек >>1198067 > квартиру побольше или собственный дом > 400к/мес Всхрюкнул, решил насмешить один из самых успешных тредов на всей борде.
>>1198068 >>1198067 Так, вы оба - Идите спать. Ваш срач уже опизденел, остыньте, горячие нейронные парни. вы оба самые успешные, самые лучшие и бла бла бла. А если не прикратите, я скастую тёмную магию и призову асигодетей.
>>1198068 >решил насмешить один из самых успешных тредов на всей борде. хм, не буду отрицать, что тут ты прав. Но держу пари, что шизло которое тут усирается "у тебя семплинг хуемплинг, промт и шаблоны" - нищее чмо которое только гемму запустить и может.
>>1197942 >мистралешиз Это если что полтреда, если не больше. Спасибо тюнам и тому что 22/24 единственные нормально влезают в 16гб, а также немотрону 12б с русскими тюнами, работающим вообще на любой хуйне >опенротершиз >дипсикшиз Это один и тот же человек. Как минимум раз в неделю приходит рекламировать свое говно >теслашиз Еще и его брат драмошиз. Набрали дешманского говна с помойки и запускают большие модели на 0.9 т/c >я никого не забыл, анон? Ну как минимум еще есть геммашизы, которые оправдывают эту соевую хуйню при любом раскладе
>>1198071 > А если не прикратите, я скастую тёмную магию и призову асигодетей. Ну не, смотивируй как-нибудь. Скинь карточку милую - интересную, или что-нибудь еще. >>1198072 Проебы столь очевидны что тебе пишет много людей, выходит что мантра про "это все один шиз" хорошо дополняет твой образ.
>>1198065 >Это в лм студио есть такая функция? нет, я попросил qwen написать скрипт на питоне. запускается из командной строки и натравливает gpu на папки с фотками. пока всё ещё сыро, надо будет допилить логику чтобы лучше лица сортировало и gui добавить.
>>1198076 >это все один шиз это и есть геммашиз, единый во многих лицах - очевидно же. Почему-то чел, советовавший мне бегемота на промты и семплинг не гнал. Этого так же не делал и анон с дипсиком.
>>1197989 Так, я короче сам попробовал. В общем это гемма которая на втором сообщении : давай ебаться, люблю ебаться. А у тебя хуй есть ? А если найду ?
>>1198067 >я имею зп больше 400к/мес >копить на квартиру побольше или собственный дом Че ты там копить с этими копейками собрался? Даже если лично для тебя придумают и одобрят беспроцентную ипотеку, то чтобы купить двушку конуру в ДС тебе понадобится отдавать половину из своей зп 12 лет.
Давайте хотя бы в этот раз без срачей? А то придётся просить администрацию катить этот тред раз в 1000 постов, а то блядь скоро кончай тред перегоним а я не успеваю катить потому что слоупок ПЕРЕКАТ
>>1198083 > Вот тебе милая webm из первой серии SukaSuka и карточка яндере Довольно урчит и дружески обнимает анончика добра > пока я стражу не позвал Но это порождает интерес остаться! >>1198086 > в ДС > половину из своей зп 12 лет Если только на самой-самой южной границе области, формально относящейся к ДС.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: