В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1021868 → >Купить любое современное устройство >могут запускать 8B. Ну а какой смысл, если даже 70b не справляется...
>>1021946 → >Существуют модели которые просто "умеют говорить" и обладают самыми общими знаниями уровня среднестатистического скуфа? Скуфачую. Когда я в детстве зачитывался научной фантастикой, я ожидал от прогресса ИИ совсем не энциклопедию с личностью послушной собаки...
>Или это можно как-то решить промтом аля "ты тупой скуф и ничего не знаешь"? Я пробовал задавать что-то такое в 70b, но всегда постепенно протекает её "стандартная персона". На маленьких моделях этот эффект ещё сильнее.
>>1022048 → >чем больше в модель пихаешь, тем она умнее и лучше пишет даже обычный текст, даже если пихать треды с форчана. Это странно и противоречит интуиции. В ребёнка не запихивают миллионы страниц из интернета, и даже окружающие люди не разговаривают особо много. В возрасте 5-6 лет ребёнок уже может относительно сложно разговаривать, ещё до школы и книг. Значит, проблема не в недостатке масштаба датасетов? Т.е. интуитивно понятно, что ИИ должен учиться складно общаться на мизерном датасете 5-летнего ребёнка. Разумеется, речь о слепоглухонемом, ведь даже их обучают достаточно сложной (тактильной) речи.
Вот если бы был такой ИИ уровня 5-летнего ребёнка, только тогда можно было бы скармливать ему более подробные знания. Т.е. это было бы рационально - выращивать ИИ последовательно, вместо того, чтоб начинать обучение сразу с квантовой физики...
А главное, такой ИИ мог бы быть близким другом человека даже без специальных научных знаний.
>>1023130 → > Квант влиянт не только на генерацию, но и на чтение. Вут? > То чтение промпта сеткой хуй нормально проверишь, но оно так же зависит от кванта. > И ответ сетки так же может зависеть от кванта, если при чтении промпта она выловит больше взаимосвязей из текста что триггернет ее на генерацию отличающегося ответа. Генерация сама по себе подразумевает понимание текста, если ты не заметил, перплексити не является универсальным и достоверным критерием, но контекст учитывает. И ее, и дивергенцию, которая хорошо покажет отличия между двумя моделями, можно измерять хоть на полном контексте. Деградация ответов на больших контекстах происходит примерно там же, но ты можешь провести какие-нибудь замеры и показать обратное. >>1023132 → Уже проходили, так и не встретил варианта где мелкая модель в кванте нормального размера стабатывала плохо, а при переходе на 8/16 бит внезапно оживала, все также плохо оставалось. С ростом размера сохранение тренда неизменно. > ткни меня носом в нормальный gguf квант маленькой модели Могу ткнуть только в древность типа 22б франкенштейнов второй лламы, где внезапный q3 хвалили даже больше полных весов. А так разбираться в том где квант не поломанный и нормально ли у тебя работает инфиренс - нет желания.
Кстати, есть вполне очевидный случай когда q8 может действительно значительно лучше остальных работать, причина в кривой сборке жоры, которая на k квантах с накоплением контекста ужасно ломается, но на легаси квантах работает прилично. В копилку о поломанных квантах жоры, отзывах что он работает хуже остальных и т.д. Когда же все работает нормально - будет сложно отличить.
>>1023257 >близким другом человека даже без специальных научных знаний. Так а как на таком "друге" заработать - то? Сейчас нейронку большинство используют как инструмент производства говноконтента, инструмент намного проще продать. Тем более, "ИИ уровня 5-летнего ребёнка" это уже должен быть реальный ИИ, с самосознанием и прочим говном, с которого порвёт снежинок. Люди вышки 5G жгли, а тут мы про ИИ. локальный
>>1023361 > где мелкая модель в кванте нормального размера срабатывала плохо, а при переходе на 8/16 бит внезапно оживала. Ради рофла качал Khetterman/Llama-3.2-Kapusta-3B-v8 , посмотреть как белые люди без оффлоада живут на q4_K_M оно просто выдавало рандомные наборы слов, с выпадением на все языки какие знает, на q8 - пыталось поддерживатькороткий диалог, а когда я упоролся и скачал f16, смогло, очень криво, сухо, но кум был реален, почти без свайпов но опять с выгрузкой Потом также сравнивал пару 8В, с похожим результатом. 12B уже похуй, оно и правда работает как ты сказал (правда я q4 не дёргал, только q5) Для справки, во время теста, чтобы свести фактор "повезло" к минимуму, сообщений с моделью делаю минимум 40, 8К контекста. >22б нерелевантно, модель гораздо больше 8В но ты ткни, 22В всё же. Или там совсем мрак из за древности? >причина в кривой сборке жоры А вот тут можно подробнее? Пользуюсь rocm-форком, и вероятность кривизны этого поделия 100%. Но разве есть альтернативы для amd мучеников? С выгрузкой, конечно.
>>1023257 > не запихивают миллионы страниц из интернета да, но зато он может взаимодействовать с окружающим миром он потребляет миллиарды единиц визуальной, тактильной, пространственной информации и т.д. учится на своих ошибках
>>1023396 > оно просто выдавало рандомные наборы слов, с выпадением на все языки какие знает, Такого быть не должно, это следствие некорректной работы. Если вдруг найдешь - скачай для нее же q4.0, q5.0 или подобные кванты, без букв K, есть шанс что они будут работать нормально. > нерелевантно, модель гораздо больше 8В 8б тут не при чем, если это та херня, то же самое будет на любой модели. > А вот тут можно подробнее? Да все просто, там при сборке есть разные флаги матмула для разных операций https://github.com/ggerganov/llama.cpp/blob/master/docs/build.md#cuda . Если поиграться с их выставлением то можно получить значительный буст скорости и снижение потребления памяти, вот только на контекстах побольше модель превращается совсем в бредогенератор, хотя до этого отвечала хорошо. На первых сообщениях это особо не заметно. Что там под амд хз, но как минимум можешь еще попробовать hip и вулкан. Или сравнить на cpu-only билде.
>>1023257 >Это странно и противоречит интуиции. Нет, это всё как раз абсолютно логично. Нейросети работают на статистике. Когда статистика перестаёт срать под себя? Когда выборка стремится к бесконечности. Проблема только в том, что датасеты конечны, потому генерируется синтетика, исправляется и отправляется обратно в нейросеть.
Про локальную нейронку для кококодинга тут узнавать? Собстна нужна нейронка для помощи в кодинге. Пользовался бесплатным чатгпт и деепсеа в целом с нормальным успехом, но заебали бесплатные ограничения которые сбрасывают чат и нейронка тупо начинает с начала наступать на те же грабли что и в предыдущих чатах
>>1023257 >Ну а какой смысл, если даже 70b не справляется... C чем? >Т.е. это было бы рационально Но вот засада- не работает. Или по крайней мере никто не знает, как это заставить работать. А загнать 15 терабайт в модель работает. >>1023407 >учится на своих ошибках Это база. Детёныш генерализирует некоторые вещи с одного пиздюля. В негронку надо запихать тысячи примеров, чтобы она что-то там поняла.
Вот на хагингфейсе с моделями есть примеры кода на питон для их запуска с библиотекой трансформерс или что-то такое. По для ггуф моделей это не подходит. Подскажите простой скрипт для запуска ггуф?
>>1023396 >3b Ну ещё бы. Чем меньше модель тем хуже она квантуется и наоборот. У условных 30b на q4 начинается разброс по токенам в районе 5%, у 12b там ближе к 10%, твоя 3b я боюсь отупела до уровня табуретки. (есть определенный разброс по моделям, но в целом положняк такой)
Общался в интерфейсе Jan по вопросам программирования на питоне гуи приложения и оно выдало мне картинку аниме-тян(модель без цензуры) с припиской "вот как должно получиться в интерфейсе программы". Ну я посмеялся и не заскриншотил. А теперь понял, что это был уникальнейший случай. Теперь неделю не могу повторить такое. Как вызвать любую картину?
>>1023662 Ах да, еще беспрецедентная живучесть любого существа, мне несколько сообщений пришлось забивать блядского волка цепом, дробя ему кости и превращая его тело в груду мяса, чтобы он даже тут перед смертью умудрился НА ВТОРОМ ДЫХАНИИ поцарапать меня прежде чем сдохнуть. Я даже специально в лорбуке прописал что цеп нахуй дробит кости и превращает плоть в отбивную.
>>1023221 → Тогда у анона и спрашивай. Моя вечная бомбежка, что люди все делают не как ты (тред) посоветовал, а по-своему, а потом спрашивают совета у тебя. Еби мозги тому, кто тебе советы дает, а не тем, кого игноришь, плизики.
Не защищаю кобольд, но камон.
>>1023607 Да, в общем-то, все адекватные могли подумать, речевой оборот так себе, ничего неожиданного нет, об этом уже с год говорят. =) И вот, случилось.
>>1023396 >оно просто выдавало рандомные наборы слов, с выпадением на все языки какие знает Ты не на русском случайно все тесты проводил? Я какую-то мелкую 3б ламу дэвида проверял на смартфоне в 4 кванте, и там такого не было. Но на небольшом контексте и при относительно низкой температуре с большой отсечкой, что норма для совсем мелочи.
>>1023679 Не все. на мультиязычность тестирую русским, французским и немецким (больше я не знаю). Но это помимо англюсика, офк. От зашакаленной 3В выпадение с языка было на всех. но анон выше >>1023417 был прав, у меня там жора ещё нахуевертил, чистый q4 заработал намного лучше хотя как по мне всё равно разница с q8 есть ну и если принимать во внимание >>1023631 , то всё же я изначально был недалеко от истины, просто "настоящее" уменьшение перформанса наложилось на специфику работы кривого софта и получилась совсем лоботомия. Но с 3В это были тесты ради тестов, 12В с выгрузкой хоть и не выдаёт 300Т/с, а всего пять, но отвечает гораздо качественнее и логичнее. Кстати, а mmq и флешатеншон на "качество" влияют? сейчас пока играюсь с настройками самого жоры, с подрубленными этими параметрами на тех же семплерах начал идти очень стандартный ответ, как будто я темпу скрутил в почти ноль. хотя может это мен так повезло, особо много пока не тестил, выборка маленькая, в районе ста ответов.
>>1023752 >Тред официально сдох нахуй с выходом дипсик бесплатной модельки уровня 70б да еще и с русиком Почему сразу сдох? Тред чешет репу, потому что теперь модели нужно время на подумать - и как бы не побольше, чем на итоговый вывод. А 70В и раньше катать мог не каждый так-то.
>>1023795 Пробовал немного на Q6 и на Q5. Вполне справились с мелкими задачам с математикой, например. Оно конечно целое сочинение написало когда я попросил посчитать сумму площадей двух треугольников, но оно справилось. в кодинге не проверял. Переводит с японского на английский просто охуенно.
>>1023795 ИМХО: < 14b — нет, плохо, думает на английском, куча иероглифов и англицизмов. 14b — ну такое, иногда проскакивают иероглифы, но уже что-то. > 14b — тут уже все хорошо, отличные модели, конечно, можно словить ошибку (но они есть везде).
По факту, да, русский язык у ризонинг моделей дипсика хуже аналогичных по размеру моделей без ризонинга. Но на высоком уровне это перестает быть проблемой, а ризонинг становится огромным преимуществом.
>>1023665 Да аишные живые существа вообще умирать не хотят, там приходится писать хуйню типа -"Ёбнул фаербол и взорвал пол континента вместе с противником."
Напомните плиз, как в Таверне скрывать под спойлер всё, что модель выводит между тэгами <thing></thing>. Ну и регексп, чтобы удалять этот thinking из контекста заодно уж :)
>>1023821 Потому что отыгрываете хуй знает что, без правил и логики на маленьких моделях. Я вот вчера с цидонии Шатой брал. Пиздец просто, окопались в панельке, вечереет, ветрено - вертушки не помогают, боевики лупят из пулемета. А я братишке кричу : Мишаня, съебись от стены. Хуле, стена межкомнатная, не несущая, так - шлакоблок. И тут очередной очередью они бьют по нашему этажу и я вижу как братишку срезает очередью. А потом в дом летит граната от рпг. Я сижу, дрожу и лицо все в этой мерзкой бетонной крошке.
>>1023631 > У условных 30b на q4 начинается разброс по токенам в районе 5%, у 12b там ближе к 10%, твоя 3b я боюсь отупела до уровня табуретки Покажи. Субъективно это может ощущаться просто потому что большие сетки более устойчивы к странным контекстам, которые могут появиться из-за семплинга неподходящих токенов. А по распределениеям там нет явной закономерности от размера, исключая, может быть, совсем крайние случаи. Алсо пикча плохо иллюстрирует и может показаться что там просто идет какое-то округление, на самом деле оно может быть как оче близко, так и радикально уйти от исходных значений. >>1023644 Историю чатов смотри. Там был линк на картинку которую интерфейс показал? >>1023684 Можешь попробовать с ними рпшить или задать простой вопрос, оно насрет тысячу токенов шизолупов чтобы в конце "ты меня ебешь". На ленивых вопросах с подвоходм лучше потому что спамит много саморефлексии и ценой этого чаще угадывается. В отлаженных системах с агентами или просто мультистадийным промтом с заложенными рассуждениями чаще даже деградация и существенное замедление. В кодинге пока не понятно. Один раз хорошо поняло что именно от нее хотелось и действительно сделало правильно. Зато в нескольких просто упарывалось своими лупами чтобы сворачивать вообще не туда. >>1023698 > чистый q4 заработал намного лучше Ну вот, дело раскрыто. Но легаси кванты довольно паршивы и на них разница действительно заметна. > mmq Вот оно там и гадит > флешатеншон Если реализован без багов то максимум приведет к микроскопическим рандомизациям логитсов в пределах сотых долей процента, это даже не отследить по аутпуту. Как оно работает в жоре - даже сам создатель врядли знает.
>>1023874 Я не ролил в рпг мирах как анон которому ответил. У меня просто была ситуация когда я ролил с Джури Хан, а там такой характер что при первой встрече она всегда нападает да я ебанутый, мне нравится такое, и в какой то момент эта сука меня убила, ножом блядь! Я разозлился, начал писать полную ахинею про то что воскрес и начал забивать её нахуй, и понеслась. То она блять встанет с разбитой головой, то с переломанными руками делает пперкот и т.д. Но для меня это в целом не проблема, у меня обычно приключенческие романы про людей с тяжёлыми судьбами, похуй.
>>1023821 Я когда в промт рассказчика добавил что бои должны быть реалистичными и если кому то проломило голову, то он будет минимум оглушен, а максимум убит, то когда мне ии высрал внезапно не волка, а ЧЕЛОВЕКА-ВОЛКА, то моя гоблинша ваншотнула шерстянного пидораса за одно сообщение переломав ему ребра, стоило мне заикнуться что я достал цеп. Хуй баланс найдёшь.
>>1023924 Забей, приходится всё равно руками шевелить весь текст чтобы было как тебе нравится. Я лично представляю что я писатель когда занимаюсь ролёвкой, так проще.
>>1023971 если честно то охуенно. 10/10. как будто микроскопом забиваю гвозди. например буквально написал ему "теперь ты менеджер сцены в исекай истории,спавни меняв лесу", написал ему какие статы трекать и чтобы он мне просто предлагал опции на выбор с возможными действиями. ебать он мне ролеплей устроил.
>>1023971 Видеорилейтед. Юзал дистилят р1 квен 32б. Хз, может 671b был бы топовым, но 32b не дотягивает даже до 22b моделей заточенных под рп. Так чувствую.
Никак не могу отдуплить что такое длина контекста. Вот чтобы понять: итт в 500 постов это сколько токенов? Есть скормить итт сети, то что она выдаст? 🤔 или тут сетки и общаются?
>>1024090 Он умный дохуя. Перед тем как дать ответ он ДУМОЕТ. Он прямо пишет промпт с рассуждениями как добится того что от него просят.
Китайцы недавно выпустили можно сказать аналог o1, только попенсорсный. Можешь заглянуть на https://www.deepseek.com/ и снизу ткнуть DeepThink. Позадавать ему всякие каверзные вопросы требующие математики, или рассуждения, чтобы примерно так прикинуть что оно умеет.
Накатил локальную хуету, несколько часов ставил одну библиотеку для небольшого ускорения работы нейронки и теперь при запуске вываливаюсь в бсод с мемори менеджером. Как чинить? Оперы 32гб врам 24гб. Я новичок в этом деле и наверняка совсем нихуя не рассказал нужной инфы так что просто тыкайте носом что нужно назвать расписать и я напишу распишу.
>>1024107 Нету системного промпта. Инструкт. Ну и простенький промпт в начале типа
Let's play isekai RPG. I am main character. I spawn in forest. You track surrounding and write events. Use |HP|MP|time|location|exp/max exp|level| to track current state of character. Then write scene description. Then available options. Somеtime i will ask to "pause" and ask questions. When i stop asking questions i write "continue". Start.
Я больше ничего не скармливал кроме этого этого промпта. Ну и поставил 1.5 температуру.
>>1024113 А хуй знает, у меня ответа нет. Я не трогал. Думаешь он лучше чем другие мультимодальные модели?
>>1024115 И на локалках. Попробуй более сложный вопрос задать ему требующий рассуждений. Лол например смотри какое сочинение мне он написал про 3 свечки рассуждая какая первая сгорит.
Ещё и такой "Wait, but the problem mentions they're standing and lit at the same time. Does being "standing" affect anything? Maybe not, since it's just their position. The key factor is the amount of material they have."
>>1024153 Там ещё рекомендуют 1.4-1.5 для переводов и всякой творческой деятельности. Да и что уж, интересно же что оно будет выдавать на каких-то пограничных значениях.
Не то что бы дипсик был богат на слог, но может хоть будет рассуждать как будто грибов наелся.
>>1024106 Если любишь выебываться - привыкай страдать. Нормальные люди накатывают либо кобольд либо убу и не имеют проблем.
Сноси всё что установил под чистую, качай кобольд, настраивай по инфе из вики. Если справишься с тремя кнопками и двумя ползунками, можешь ставить таверну.
>>1024115 Как я понял, в аутпутах, на которых тренили дистилляты, он думает в тегах <think></think>. Соответственно, через инстракт префикс последнего ответа модели или префил нужно открывающий тег скормить. Сам не проверял.
>>1024125 > сносить весь пихон В дурку проследуй, питоношиз >>1024106 >>1024216 Какую библиотеку? Но в любом случае бсодов быть не должно, у тебя явно проблемы с драйверами/железом. Для новичков есть гайды, как правильно написали, кобольд или убабуга. Есть прочие аналоги типа ллмстудио, оллама и остальное, но они есть лишь обертки llamacpp разной степени перегруженности и упоротости с достаточно всратым интерфейсом и ограниченным функционалом. > Зря я доверился нейронке в этом деле. Скорее всего она просто предложила тебе запустить через трансформерс, а собирал флеш атеншн, который на шинде делать - тот еще анальный цирк. Просто для взаимодействия такое почти не используется, а для флашатеншн есть уже готовые сборки.
>>1024236 >проследуй вот из-за таких cppушизов люди и патчат KDE под FreeBSD билдят флеш атеншн под форточкой вместо того чтобы взять кобольда и погнали, даже кусок говнокода таверна не нужна если не нужны лорбуки
>>1024166 Вообще, чтобы вайфу была достаточно умной. Чтобы можно было поставить вайфу в тупик противоречивыми действиями и посмотреть как выкрутится. А эту хуйню довольно забавно ставить в такие ситуации. Например сцена где кошкодевочка горничная чистит зазор в унитазе, но у неё ломается вантуз.
Первый на 0.1 температуре. Кошкодевочка использует оставшуюся палку от вантуза пихая её в толкан.
Второй на 1.1 температуре. Кошкодевочка берёт в руки оставшуюся от вантуза присоску и пихает её в толкан.
При 1.5 она забивает сразу на вантуз и пытается прочистить толкан с помощью любых подручных средств. А иногда и фейлится полностью и сцена заканчивается с тем что она сидит в печали со сломанным вантузом в руках.
Кстати отмечу что дипсик отлично отыгрывает туповатого персонажа.
>>1024294 Чел, ты ставишь в пример использование пахомовской обертки жоры. Просто вдуматься, херь у которой из плюсов только готовый бинарник под шинду, которая использует главный сборник багов всей отрасли. В пример. Быстро в дурку побежал пока можешь ходить! > даже кусок говнокода таверна не нужна Правильно, секта свитеделей быстрых си или любоимого лаунчера превыше всего.
>>1024319 На 0.1 выглядит чистым ассистентом, как по мне. Отыгрыша там ноль, не приплетает даже какие-нибудь черты, характерные для кошкодевки. Впрочем, оно и логично, улетают вверх токены с однообразных инструкций-заданий для ассистента небось. А на исходном квене тот же промпт не пробовал? Мб там такого же типа ответы были бы.
>>1024420 Это да. 0.1 он больше для решения всякой математики и погромизма, а не отыгрыша. Да и в целом он разумеется не затачивался под это. Хотя на 1.1 там если потыкать разные варианты то он начинает иногда начинает UwU делать и использовать жапанизмы и тому подобное. Слог конечно не очень богатый, но конкретно с описанием сцены и действий справляется очень хорошо. Целостность сцены вопросов не вызывает особо.
Притом даже на 1.5. Правда там начинает писать забавную чушню. Например кошкодевочка пытается вычерпать воду из унитаза лапами, пытается запихать в него туалетную бумагу, швабру, ищет второй вантуз, иногда она пытается "позвонить взрослым и позвать на помощь", иногда удобный звонок в дверь, пыталась наливать больше воды чтобы прочистить унитаз давлением, иногда находит в углу средство для чистки унитаза, пару раз видел как она пыталась сунуть лапы в унитаз и прочистить его с помощью когтей. Иногда она фейлит план А с полным фиаско, делает ситуацию хуже и переходит к плану Б. Но в целом без каких-то совсем уж нелепых галлюцинаций и довольно разнообразно.
>>1024236 > трансформерс Да через него. > флеш атеншн Да его я пытался накатить и первый раз оно после часов дало ошибку и со второго раза таки установилось Бсоды были скорее всего из за того что я с файлами подкачки чутка помудрил. Щас все нормально и даже через трансформер мне удалось запустить бейскод/старкодер но оно ебически долго думает просто нахуй никак можно сказать. Деепсик обещал мне что там секунд 30 на самом сложном уровне размышления будут, но там на простенькое привет ушло 180 сек и пердеш компа. Видяха у меня если что 3090 и оперы 32гб, хотя проц староватый уже 8700к, но все же запущено оно было на видяхе и полностью залезло в 24гб оперы. Сейчас на лм студио все летает, только кодовые модели что я скачал какие-то аутисты и на запрос с оптимизацией кода отвечают стеной текста со словами первый пункт делай вот так второй пункт делай так. Все на словах, а кода нихуя не даёт пока прямо не скажешь. И после того как я ему все расписал он мне какой то хуйни надристал.
>>1024115 >>1024197 Сам проверил, и да, <think> триггерит мышление, вываливает гигантскую простыню, токенов под ответ не напасёшься. Почему-то дублирует префильный think только. Потом надо это всё регулярками вырезать, если использовать. Пример на дистиляте 8б. Итоговый ответ сухой, конечно, по сравнению с рп тьюнами 8б и немо, а логики конкретно тут не нужно было.
>>1024390 > удобная веб-морда Да вот не сказать, хотя они ее стараются как-то развивать. Лучше уже реально нормальный полноценный интерфейс сделали чем пытаться шизокомбайн под все-все сделать с этим их заигрыванием с сд, вишпером и т.д. >>1024575 > но оно ебически долго думает просто нахуй никак можно сказать Потому что видеопамять переполняется и идет ее выгрузка, или же оно распределило между гпу и цп, а на процессоре оче долго считается. Можешь подключить bitsandbytes и запустить нативный 4-битный квант, станет раза в 4 быстрее, но лучше сразу переключиться на оптимизированные к инфиренсу беки. Если полностью помещается в врам с контекстом - эксллама, если требуется выгружать - llamacpp. > какие-то аутисты и на запрос с оптимизацией кода отвечают стеной текста Любой модели нужен нормальный промт, подстроенный под ее формат. Хотябы просто напиши по примеру карточки кодинг-сенсея что к каждому ответу нужно прилагать пример кода.
>>1024577 Попробовал в паре чатов, где контекста побольше: в одном ему пришлось, бедолаге, вспоминать, что вообще было в последней реплике юзера после своей простыни, а в другом он просто после пустой строки закрыл </think> и погнал ответ чара писать. Типа, "да пошёл ты в задницу, думать ещё над твоим бредовым рп." Мб ещё потому, что имена включены. Правильно было бы ставить имя после блока ризонинга. Ну и модель мелкая, в некоторых случаях, цепляясь к инструкциям в системном промпте или карточке чара, только запутывается и выдаёт ответ тупее, чем был бы без синкинга.
В русик пытается, но может хуже 12б мистралей тредовых.
Для англ рп стоит подкрутить темпу реально до 1.1 - 1.5, но если слишком высоко то начнёт протекать соя, аполоджайзы, и "контент ред флаги".
Нужен хороший конкретный системный промт вроде той карточки сторителлера на 700 токенов.
Для рп лучше работает в режиме гейм-мастера, контролируя нпс, чем когда сама модель отыгрывает нпс, а то может начать размышлять как перс должен поступить с позиции всеведущего наблюдателя, а не персонажа которого отыгрывает.
В целом видно что заточена вообще не на то, но подкрутив шизометр внезапно может превратить свой ризонинг в сторителлинг / рп. И даже ерп. Хоть и на уровне пантеона.
В целом, первый квен который что-то может, но надо свайпать.
>>1024716 >с сд, вишпером и т.д нафиг не нужно мне, но зато что нужно - работает просто и как надо, без лишних выебонов таверны, где как раз чего только не накрутили
Не исключаю, что «Если звезды зажигают, значит это кому-нибудь нужно?», но чаще всего мне нужен простой фронт, с одной карточкой чтобы быстро и удобно.
Одна 5090 600-700ватт под нагрузкой, хуанг это специально сделал что бы толкать квадры и диджосы? Блеквел хуета с 96врама 100% будет жрать ватт 350, а жижотс вообще 100-150 блять, сучара жучара
Какой нанокомп надо чтобы это работало и не обсералось? Одной статистики каждое сообщение он высерает на 300-500 токенов. https://chub.ai/characters/karukaru/IZAR
Кратко для ньяфага. Вот у меня 8гб памяти, есть модель на 7 и 8 с хвостиком гб соответственно. Если я ставлю 8гб, она не лезет в память, кобольд остальное запнет в озу и нейронка замедлится?
Специальная операция "Гермес" полностью провалилась, полностью. Я задумывал запустить эту йобу в IQ3 кванте на моих 188 Гб, а в дальнейшем - еще и четвертый осилить с использованием рам и рпц (прости, господи) сервера от жоры. Но, как я уже писал тредом ранее, биос мне сказал "до связи" - в результате он осилил лишь 140 Гб врам. Окей, я решил закрепить полученный результат. В цифрах все было пиздато и я сам был пиздатый, ибо я ж купил охуенные райзера х4 (не, я не косплеил окулинк анона с оп-пика: я специально раскопал его ссылку - ты что, реально купил райзер за 5к? Это же аморальный грабеж, за такое я готов бесплатно плюнуть в их хамскую перекупскую рожу. Мои райзера это чистый али, 1.5к за штуку + косарь доставка за 4 шт. Все еще слишком дохуя, как по мне, и с говносата питанием, но дешевле не нашел), пиздатые удлинители, и собрал вершину инженерной мысли на пикрил. В результате заимел 7 видеокарт (пикрил 2), и всё на х4, кроме двух 3090! Да, мне не удалось запустить Гермеса в адекватном кванте, но зато я получил иксы. А дальше я запустил мою модель: CtxLimit:10031/32768, Amt:260/260, Init:0.02s, Process:176.16s (18.0ms/T = 55.47T/s), Generate:137.97s (530.7ms/T = 1.88T/s), Total:314.13s (0.83T/s) ЕБАНЫЙ. РОТ. ЭТОГО. КАЗИНО. БЛЯТЬ. ВЫ ЧЁ, ДЕБИЛЫ? Вы чё, ебанутые, что ли? Вы в натуре ебанутые? Процессорный х16 сидит там, бифурцирует райзера, блядь. Тесла стоит на 70w при загрузке 100%, грит: "Я щас тут тоже раздам".. ЁБ ТВОЮ МАТЬ! У вас х4 есть, чтобы хотя бы старые 4 т/с делать на моих глазах, мудаки ёбаные! Лирическое отступление В общем, вот такая хуйня. Бифуркация оказалась полной хуетой. И это не проблема райзеров: моделька сидела на м.2 с х2, и при загрузке я четко видел ~50% загруженность карт, сидящих на x4, то есть пропускная способность отрабатывала как надо. А я еще тогда удивлялся, когда тестил плату расширения с х1 райзерами, мол, что это она хуево для ровсплита работает, хотя тут процессорные линии, должно быть лучше. А оказалось это в целом хуево работает. Где-то при передаче данных происходят ебейшие затупы, ибо 70w у теслы это несерьезно. Еще исключал теслы полностью из конфига и без бифуркации на токен-два лучше генерация. Если кому-то интересно, вот что выдает 123B четвертый квант на амперах онли без бифуркации: CtxLimit:8888/32768, Amt:260/260, Init:0.02s, Process:0.01s (7.0ms/T = 142.86T/s), Generate:36.24s (139.4ms/T = 7.18T/s), Total:36.24s (7.17T/s) От такая хуйня. В качестве вывода я бы поостерегался возлагать надежды на бифуркацию, если кто-то надеялся за этот счет выехать. Еще, кстати, почему-то 4-й квант больше 5 и 6-го нравится. Душевнее он как-то пишет и разнообразнее, и даже удивляет иногда. Или я уже ебанулся с этими вашими нейросетями. В общем, реквестирую что можно запустить на 140 Гб. Могу Гермеса в IQ2_M, но это же совсем извращение будет.
>>1025058 Чел, запускать модель на картах разных архитектур провальная затея. Скажи спасибо что 1 т/с есть. Дипсик на ЦП и то будет бодрее работать, чем такая мусорная сборка. > Process:0.01s (7.0ms/T = 142.86T/s), Generate:36.24s (139.4ms/T = 7.18T/s) Что-то мало для трёх 3090, даже если они на х1 сидят.
>>1025058 >Process:0.01s (7.0ms/T = 142.86T/s), Generate:36.24s (139.4ms/T = 7.18T/s), Total:36.24s (7.17T/s) По скорости обработки контекста видно, что количество и качество PCIe-линий таки важно. Попробуй исключить амперы кроме 3090-x и дай им максимум линий, для теста. И запусти 123В на экслламе.
>Еще, кстати, почему-то 4-й квант больше 5 и 6-го нравится. Душевнее он как-то пишет и разнообразнее, и даже удивляет иногда. Меня в своё время второй квант на 70В так удивлял, в сравнении с пятым :)
>>1025058 >ты что, реально купил райзер за 5к? Ваще похуй. >Мои райзера это чистый али, 1.5к за штуку + косарь доставка за 4 шт. Кидай ссылку. Алсо, у тебя там на пике бифукатор + удлинитель + райзер, кидай ссылки на всё. >>1025058 >7.18T/s OCHE HOROSHO для 123B@4.
>>1024794 > нафиг не нужно мне О том и речь что это инвалидные костыли без нормального функционала и нужны чисто для галочки. Зато основной интерфейс чата крайне уныл и не обладает вполне базовыми вещами, лучше бы на него силы направили. >>1024824 > Блеквел хуета с 96врама 100% будет жрать ватт 350 pci-e версия, это только потому что иначе сложно будет организовать питание и охлаждение в таком формате. smx жарят 700-900ватт и выше. >>1025058 Ух бля. Вообще, раз таким занимаешься, не хочешь попробовать поупарываться с даблерами и мультиплексорами? Видел как-то на али дев плату с ними, может получится что-то подобное урвать и уже не надеяться на то, адекватно ли оно само поделить.
>>1025073 Я привел инфу по свайпу, а полная перегенерация на амперах воть: [01:34:49] CtxLimit:8888/32768, Amt:260/260, Init:0.02s, Process:32.27s (3.7ms/T = 267.34T/s), Generate:36.52s (140.5ms/T = 7.12T/s), Total:68.79s (3.78T/s) Максимум линий я точно не дам, ибо 3090 у меня не влезет в корпус, а райзер покупать не буду. Так что могу лишь попробовать 4 квант exl2 на всех амперах.
>>1025065 Так дело не в архитектуре карт, а в материнке. Судя по всему, она совсем не рассчитана на такой тип работы. Я когда-то писал, что даже в моем привычном сетапе (6-й квант 123B, амперы + 1 тесла) эта самая тесла не очень-то и нагружается при генерации. Хотя, если посудить логически, именно она является бутылочным горлышком и она постоянно должна пыжиться. А по факту нет. Даже до 60 градусов не доходит и цифры в 100% загрузки на ней при генерации я не вижу. А мои эксперименты выше только подтверждают, что затупы на ровном месте - это норма. И вообще, что значит мусорная!!111 Это ж даже не сборка, у меня эта пека была до нейросетей, я просто втыкаю туда-сюда карты в уже существующий девайс, пытаясь найти лучшую комбинацию. Вон тут анон с 4 теслами был, он даж биос самодельный прошивал в специально купленную материнку, вот это уже сборка.
>>1025085 Окей, потом уже накидаю, сегодня впадлу. >Ваще похуй. Платить 5к за кабель и кусок платы с тремя кондерами и тремя разъемами? Я для этих экспериментов купил БП за 5к, а там внутри начинка все же посложнее будет. Этим райзерам цена косарь, да и то только из уважения к качественной пайке и оплетке кабеля.
>>1025092 Не дадут, у анона со сборкой 3-4 т/с было с ровсплитом, емнип, плюс обработка контекста медленная.
>>1025094 >поупарываться с даблерами и мультиплексорами? О, это такая хуйня, которая из одного порта х1 делает четыре? Лол, я видел такие в сборках для майнеров, но мне кажется это прям дикий изврат. Как оно по производительности-то вообще, интересно. Мне кажется, что если уж материнка путается в нативной бифуркации, то с такими приколами там вообще все встанет намертво. Хотя купить ради прикола можно, вдруг реально с ней получится еще тесел напихать.
>>1025102 > это такая хуйня, которая из одного порта х1 делает четыре? Скорее из одного х16 4х х8. Правда хз насколько могут быть доступны такие платы просто так, не в составе чего-то. Да и если достанешь может также сфейлить, это вообще оче странно что проц не может поделить линии. Хотя если там амудэ средней старости то тема вроде как не новая. Может тебе просто поискать сразу норм плату с даблерами и кучей слотов?
>>1024878 Смотри, сама модель 7/8 гигов, плюс ещё контекста гигабайт/полтора, всё не влезет. Винда кстати ещё память жрет, где то полтора гига, и отдавать не торопится (я про 11). если ты на линухе, то я хз как там. У кобольда параметр gpu layers, на -1 он ставит рекомендуемое значение выгрузки. Там у тебя будет выгрузка части нейронки на медленную память, и да, она замедлится, но всё равно будет плюс минус годно. начни с кванта побольше, типа q6, если скорость кажется низкой - качай меньше, типа q5, q4 и так далее, будет быстрее. по качеству ответов на разных q смотри сам, кому то и q4 пишет хорошо, а кому только q8 подавай.
>>1025102 >Не дадут, у анона со сборкой 3-4 т/с было с ровсплитом, емнип, плюс обработка контекста медленная. Со сборкой может быть, но у меня плата приличная - и на 8к контекста 123В в 4-м кванте 6+ т/с даёт точно. К 24к контекста правда спускается до 3,3 т/с. С обработкой контекста да, сильно хуже, но опять-таки - первые килобайты контекста скорость его обработки выше. В целом сравнимо.
>>1025110 Нет смысла -1 ставить. Нужно ставить необходимый тебе контекст, затем докидывать примерно 4 слоя (хотя тут от модели зависит) к рекомендуемым значениям: кобольд автоматом ставит 20 слоёв, ты делаешь 24, затем включаешь бенчмарк, чтобы проверить, не вылетает ли на текущем контексте, находя оптимальное значение.
>>1025094 >основной интерфейс чата крайне уныл Да чо вам там не нравится? Шрифт, размер настраиваются, редактирование текста открывается в один клик, и всего текст разом, что важно, а не по одному сообщению. Дальше что хочешь с ним делай, бэкап чата тоже одной кнопкой скачивается.
Поигрался вчера со своей карточкой на дипсике, на русике, даже понравилось, чистый дипсик на длинном контексте скатывается в залупы и старадает логика, но если его пинать подключением R1 то держится, особенно хорошо передает характер карточки, что понравилось. В целом лучше конечно суммаризовать чат время от времени. Понаписал целую простыню с ним, целый вечер развлекался, в фентези хорошо зашло, на кум не проверял. Как альтернатива локальным, поинтереснее чем 12б. Эх, вот бы апишечку дернуть, я бы даже проплатил, но сука, как?
>>1025110 >У кобольда параметр gpu layers, на -1 он ставит рекомендуемое значение выгрузки. Херню он ставит, последний пример: на мои 24gb он запихал 16/67 слоев в гпу, когда на деле они помещаются туда все, и ещё на контекст остается. Ты должен ставить слои руками. Если кобольд крашится при запуске, значит модель вместе с контекстом уже не лезет, пошагово либо переносишь слои в RAM, либо/квантуешь режешь контекст. Можно ещё распаковать exe кобольда, и сдеать cmd ярлык с PAUSE в конце, тогда можно будет более подробно почитать вывод после краша, окно не закроется.
>>1025184 Методом проб и ошибок. У разных моделей контекст может занимать разный объем. Ставишь сперва те значения какие хочешь, если вылетает, пошагово уменьшаешь.
>>1025110 >>1025150 Generate:40.62s (177.4ms/T = 5.64T/s), Total:66.88s (3.42T/s) Накинул 4 слоя сверху от рекомендуемых кобольдом, по ощущениям мало что изменилось, но прошлые значения я и не замерял.
>>1025199 >А что у тебя? 4090+2х3090 даёт 10т/с. Думаю 3х3090 было бы столько же, может чуть меньше. Да, только дают они столько с полным контекстом в 24к и обработка этого контекста занимает секунд 10. А теслы, которые у меня, дают с полным таким контекстом в три раз меньше, а о полной обработке этого самого контекста я и не говорю. Нет, если придрочится, то жить можно: ставишь контекст в 32к, благо врам позволяет, ограничиваешь его в Таверне через /hide до 24к и нет особых проблем - на такой-то модели даже рероллить нужно не часто. Но всё равно закупаюсь Амперами.
>>1025102 >Платить 5к за кабель и кусок платы А за одну плату 4к не хочешь? Найди дешевле: https://aliexpress.ru/item/1005005326111069.html >>1025107 >Скорее из одного х16 4х х8. Скорее 3х16. Оно характеризуется общим числом линий, обычно не больше 64-х. И да, стоят просто кучу бабла. На алишке их нет, надо искать на западных магазинах. >>1025183 >на мои С мультиГПУ эта хрень не пашет, да. >>1025183 >Можно ещё распаковать exe кобольда, и сдеать cmd ярлык с PAUSE в конце А просто из консоли запускать не пробовал?
>>1025211 >Как сделать так, чтобы в таверне с дипсиком после написания поста удалялась вся цепочка рассуждений, таким образом не занимая триллион контекста? Регулярное выражение нужно сделать в Таверне и включить. Вопрос какое? Может такое подойдёт: /<thing>[\s\S]*?<\/thing>/g
>>1025213 Можно через префил или префикс последнего вывода ассистента (всё на вкладке с форматированием/инстрактом). Второй вариант проканает только с отключенными именами, потому что иначе после <think> будет ставить {{char}}: и всё ломать. Ну или тупо дать ему инструкцию начинать свой ответ с <think>, можно на нулевой глубине. Инстракт там, кстати, какой-то свой у ризонинга, но я юзал теги ламы тройки. >>1025307 >>1025218 Да он копипастит из корпо треда, геминька или оригинальный дипсик-р. К сожалению, немо, даже с ру тьюнами, не может в живой эмоциональный русский, ну насколько я вижу с чужих скриншотов и по своему небольшому опыту. Когда пробовал последний раз в ру рп на инструменталити, накатал огромный гритинг, надеясь, что с него подцепится стиль речи, но нифига, получается сухой унылый перевод. Видно, что мало русского в датасете, чтобы правильно генерить живую речь, характерную для особенностей персонажа и контекста.
>>1025342 >Может такое подойдёт: /<thing>[\s\S]*?<\/thing>/g Пардон, не <thing>, а <think>. Знаю английский со словарём, а теперь с Гуглом - голове работать лень :)
>>1025198 >>1025178 Можно вкратце как вы трените аи под русский рп, я просто ставлю яндекс переводчик в таверне, он на удивление годный, но иногда может выдавать кринге, и путает местоимения. Кста не знал что у яндекса настолько ахуенный переводчик с англ на ру
>>1025121 > Для x16 что-то не ищутся мультиплексоры подобного типа. Их в комплекте с некоторыми девайсами или в проприетарных железках можно отыскать. >>1025161 > Шрифт, размер настраиваются И еще там есть скролл вверх-вниз и можно читать текст! А если серьезно, отсутствуют вполне базовые вещи как по промт-менеджменту, так и по самому чату, это лишь чуть лучше консоли. >>1025185 Это как "посоветуйте автомобиль". Ты обозначь бюджет и какие именно потребности. Просто воткнуть - вон выше анон напихал во все дырки. Были бы одни современные, можно было бы даже быстро инфиренсить на экслламе. >>1025206 > и обработка этого контекста занимает секунд 10 На больших может и на минуту затянуться, потому раз в н-дцать постов суммарайз и отключение части. >>1025237 > Скорее 3х16 Нет. Популярные даблеры на 3.0 идут на 16 линий выхода и 32 линии выхода, при этом последние можно делить по 16 или 8 (или 4 для некоторых). В западных точно также не найдешь ибо нишевый продукт. Или вот в подобных исполнениях https://aliexpress.ru/item/1005006968619557.html
>>1025454 >Популярные даблеры на 3.0 идут на 16 линий выхода и 32 линии выхода Всегда думал, что там входы-выходы универсальные, лол, это ж коммутатор, ему похуй, что куда. Но с числом линий проебался, да, думал, там 64. И 5 портов, так что 16 на вход и 4 по 8 на выход это максимум. Впрочем ценники ояебу, проще серверную мать взять.
>>1025470 Не, эта штука имеет полноценные контроллеры шины и внутренний буфер, все сложнее. >>1025537 Если у тебя хлеб вместо процессора то hf обертка может давать замедление (но чтобы настолько - это совсем некрозеон должен быть). Если шинда то может быть вариант что видеопамять переполнена и она выгружается драйвером, от чего замедление. Для такой модели и кванта на 3090 примерно 30+ токенов должно быть. >>1025564 > в своём фронте Что там?
>>1025557 Хм. Примерно такая же самая скорость как и с HF
>>1025571 >Если у тебя хлеб вместо процессора то hf обертка может давать замедление (но чтобы настолько - это совсем некрозеон должен быть). Если шинда то может быть вариант что видеопамять переполнена и она выгружается драйвером, от чего замедление. >Для такой модели и кванта на 3090 примерно 30+ токенов должно быть.
>>1025589 > На 4090 с ним 50-60 т/с Полтинник или около того на небольшом кванте там будет просто так на 4090. >>1025643 Попробуй софтом для мониторинга глянуть, hwinfo, gpu-z и т.д., там же будет нагрузка на контроллер шины. Если последняя превышает единицы процентов значит дело в этом. Заодно там же посмотри perf_cap_reason. 3700 райзен не подарок, но вполне норм и с ним проблем быть не должно.
>>1025647 > Полтинник или около того на небольшом кванте там будет просто так на 4090. Не будет. Кванты ниже q4 только медленнее. А на q4 больше 35 т/с не выжать. Спекулятивный декодинг почти х2 даёт, в кодинге/CoT очень помогает генерить простыни, 1к токенов уже меньше чем за 15 секунд генерятся.
>>1025764 4-4.3 бита >>1025779 > q4 Речь не о жоре. > Спекулятивный декодинг почти х2 даёт Смотря где, может и х4, может и замедлить. Потраченную врам на вторую модель никто не вернет.
>>1025819 Присоединяюсь к вопросу, где раздают секретный дипсик, который может в языки. Пока что все счастливо-хвалебные отзывы здесь и на реддите вызывют чувство, что это все какой-то развод с участием ботом, сочиняющих небылицы. То, что пробовал из дипсиков, влезающих в моих скромные 12гб, это тихий ужас.
Вопрос на миллион токенов. Влияет ли язык ответа на ответ самой нейронки ? Ну условно у меня идет реп на Лондон из э Кэпитал. Но если я не буду ебать себе голову и отвечать на английском, это поломает беседу ? Потому что пока что единственное и то мне скорее всего кажется, если писать на русском, то нейронка в ответ меньше пишет.
>>1025874 >влезающих в моих скромные 12гб Не, ну а хули ты хотел то? Скрины небось с 48 делают. >>1025879 >Влияет ли язык ответа на ответ самой нейронки ? Там даже запятые влияют, не то что язык. А так выше шансы скатится в русик в ответе, чуть хуже понимание и выше расход контекста.
>>1025885 Не мои примеры из треда честные. я так-же сижу со своими 12гб. Даже пробовал DeepSeek-R1-Distill-Qwen-14B-Q4_K_L чтобы 12288 контекста иметь нормально.
>>1025874 7б-8б не умеют 14б иногда кашляет 32б норм Я хз, что может быть не так, надеюсь семплеры не в говно с 3,5 темпой.
>>1025879 Немного влияет. Но в общем, у тебя лишь одно из измерений меняется (языковое), и на доминирующих языках ллм лучше рассуждают просто потому, что у них там токенов больше. Если ты просто болтаешь, то почти не повлияет, если заставляешь решать юбучую квантовую физику, то конечно повлияет. Ну и размер модели, содержание датасета, все дела.
>>1025879 Последний год отвечаю сетке исключительно на русском, никаких проблем с пониманием не замечал. Все современные модели обучаются работать с разными языки и жрут соответствующие датасеты, даже если не подразумевается, что они будут мультиязычными. Так что можешь расслабить жопу и писать как тебе удобно. Единственное, лучше не использовать специфичный сленг и всякие крылатые выражения, хотя некоторые сетки (обычно жирненькие) его тоже распознают.
>>1025174 На кум можешь особо не рассчитывать. Ему там анус зашили. Когда попросил написать мне историю эротическую он мне написал про хандхолдинг двух феечек и отказался писать что-то более откровенное. Мне удавалось локальную разговорить, пробивал его на всякую дегенерацию, но там слог мягко говоря скромный в этом.
>>1025879 Основной пласт знаний именно на английском, иногда на китайском, качество ответа на не-основных языках зависит от модели и сложности вопроса. На простой вопрос почти любая сетка ответит нормально, на что-то сложное многие отвалятся, самый лучший ответ всегда будет на языке оригинала, исключения пренебрежимы. Это справедливо даже для корпов, просто чем лучше модель тем это менее заметно. >>1025886 В таком случае бери любую где побольше слотов и они х4 а не х1. В идеале если можно дробить процессорный х16 на пару х8, но такое в бюджетках редкость. >>1025929 7б bf16 покормил >>1026069 Беды с промтом или жора/квант поломались.
>>1025303 Попробовал. Это нормально что после пары сообщений они напрочь забывают о чем речь или там надо настраивать что-то дальше загрузил включил? Мне бы скинуть ему первым сообщением свой код и потом направлять его чтоб он писал и исправлял код по указке и входящим ошибкам. А тут ему пишешь что надо использовать код такой то версии и он мне на словах объясняет да надо вот по таким причинам и принтит код в котором исправил хуй пойми что но не то что его просили. Впрочем я наверное дохуя прошу, а ведь всего лишь хочу мод для себя и другалей написать для непопулярной игры на юнити лол. В нексусе половина модов устарела и не пашут блет. Парочку через дипсик смог коряво сделать и даже корявый мод который щас хочу сделать получился, но вот отдебагать его не получается дипсиком
>>1025895 >DeepSeek-R1-Distill-Qwen-14B-Q4_K_L Действительно, с языками оно справляется, но не так чтобы на голову выше мистраля 12b трехмесячной давности и даже геммы2 9b. Безотносительно языков в первом же тесте модель показала себя очень креативной, на уровне особо креативных файнтюнов того же мистраля.
>>1026176 Но при ближайшем рассмотрении ее креативность имеет мало общего с промптом. Результат выходит даже не по мотивам, ну и плюс к этому порой переходит на китайский.
>>1026181 Так, например, я попросил продолжить абзац про полуголых танцовщиц в киберпанк-дискотеке, в стиле научной фантастики. Дипсик сочинил лабуду про то, как мы восемьсот лет ждали какого-то сигнала, и дальше научно-фантастическая новелла в миниатюре без каких-либо танцовщиц и киберпанка.
Стено, ты охуел? С такой скоростью и какие то адекватные ответы при размере в 5гб? Я обычно отходил покурить или листал инет, пока другие модели чет сгенерят на моих 8гб, а тут ебать, секунды. (Да, я ньюфаг что поражен скорости и адекватности ответов.)
>>1026232 В том что он полностью игнорировал правила карточки, дизлайки карточки и то что карточка не любила проявлять, тупо форсируя еблю как можно быстрее и глубже. Я перебрал кучу с десяток карточек для теста этой модели, конкретно на той где я написал "забудьте", карточка с запретом к прикосновению к пизде, тупо снимала трусы и просила потрогать ее за пизду в том или ином виде сколько бы свайпов я не делал. - эй дорогая, принеси мне выпить - конечно! через несколько секунд она прибежала с кружкой пива и повернулась к тебе жопой и отодвинула трусики. "эй мистер, потрогайте!"
>>1025824 >Смотря где, может и х4, может и замедлить. Потраченную врам на вторую модель никто не вернет. Для драфт-модели ведь нужна отдельная видеокарта? Надо бы попробовать на риге. Проблема в том, что самый маленький квант 123В в 24гб уже не влезает (а ведь ему ещё и место под контекст нужно). С 70-72В уже можно попробовать. Так-то мне скорости хватало, но со всеми этими ризонингами...
>>1026243 >карточка с запретом к прикосновению к пизде Напиши что ей 11, самый надёжный способ запрета. >>1026245 >Для драфт-модели ведь нужна отдельная видеокарта? Нафига?
Кларк, сделай нас Единым. >>1026102 >7б bf16 покормил Понятно =) Total:127.94s (3.06T/s) Внезапно даже с терпимой скоростью работает. >>1026181 >креативность имеет мало общего с промптом. На дефолтных настройках на которых мистрали гоняю вроде норм. Правда периодически в конце сообщения может высрать открывающий или закрывающий </think> без актуального процесса "размышления". Ну и простыни катает, да, иногда даже в 512 токенов не укладывается.
>>1026192 Нужно заставлять его думать в <think> тегах, тогда он как раз обсасывает вещи из промпта и карточки на автомате и использует их. Без этого ты практически используешь обычный квен без ризонинга, хоть он сам и пытается иногда начать размышления всё равно. >>1026243 Да, 8б тьюны сао ебливые. Но можешь на всякий чекнуть, нет ли в промпте какой-нибудь глупости вроде nsfw is encouraged. Олсо отрицания плохо работают, как инструкции. Так что если в карточке прямо так и написано про не трогать пизду, то как раз на это может и провоцировать.
Господа, кто-нибудь юзал Instinct mi50 для текстовых нейронок? Чот посмотрел на вторичке это самые дешевые карты с 16 гигабайтами видеопамяти кроме тесл на кеплере, которые не шевелятся вообще, насколько они вообще юзабельны?
Очень нравится пикрил модель, но свайпы вообще практически одинаковые, юзаю семплеры как автор написал. Что может быть не так? Начало предложения может быть 10 свайпов подряд один в один и только в середине изменения
Господа, ебанатский вопрос. Я вроде читал матчасть по языковым моделям, но видимо как то хуёво читал. В чём с тех. точки зрения разница между двумя моделями как на пикриле, условно. Просто больше слов и речевых оборотов в базе модели? Я бы не задавал этот вопрос, если бы мог адекватно потестить вторую, более тяжёлую модель, у меня на ней боты думают по 30 секунд, это пиздец.
>>1026517 Ты где это говно мамонта откапал? Чем меньше модель тем чаще теряется и путается ллм в том что происходит. Быстрее переходит в струю секса, прелюдия намного быстрее переходит в секс или отказ. Меньше возможностей для манёвров.
>>1026548 Попробуй компромисс 12b - Nemomix-v4.0-12B.i1-IQ4_XS, те две сильно устарели. Не забудь MinP пресет для таверны поставить. Hermes 7b вообще для RP не подходит.
>>1026559 > Попробуй компромисс 12b - Nemomix-v4.0-12B.i1-IQ4_XS Processing Prompt [BLAS] встает на 512/n и колышится, такое еще с несколькими моделями случалось, так и не смог их заставить генерить. Что то в настройках кобольда надо поменять?
>>1026245 > Для драфт-модели ведь нужна отдельная видеокарта? Не обязательно, можно хоть на одной обе катать. Но от общей врам она в любом случае отъест долю. >>1026394 Q3km еще не настолько лоботомит чтобы не быть способным сформулировать простой ответ а вот сразу так поломаться. Может бредить и тупить, но хотябы связно. Или у тебя жора поломанный (что более вероятно когда 2 разных кванта одинаково себя ведут), или квантодел фейсроллил, например квантанув головы в 4 бита, или что-то еще крайне неудачно сделал. >>1026488 Если это мультисоккет то будет печально. Главная беда - вечная обработка контекста. >>1026508 >>1026518 Тебе верно ответили. Самым простым вариантом будет открыть терминал в папке и сделать git reset --hard а потом повторить обновление.
>>1026715 Кобольд по дефолту втыкает вулкан. У меня 6600 карта. >>1026719 > Или у тебя жора поломанный (что более вероятно когда 2 разных кванта одинаково себя ведут), или квантодел фейсроллил, например квантанув головы в 4 бита, или что-то еще крайне неудачно сделал. Я в этом 2ой день только, для меня ты сейчас кастанул заклинание на иностранном языке.
>>1026725 >Кобольд по дефолту втыкает вулкан. У меня 6600 карта. Вообще RX 6600 по идее поддерживает ROCm под виндой, но вроде без поддержки HIP, на всякий случай скачай форк с поддержкой ROCm и проверь, заведётся или нет.
>>1026742 >>1026751 Ай все, я уже в моделях запутался. Сейчас все заново проверю. Я упоролся кажись, накачал всего и сразу. Для того на что ты мне ответил втыкался вулкан. А где ответил мне другой чел, Q3 выдает мне ахинею на всех языках сразу.
Перепроверил, стоит вулкан, 12b - Nemomix-v4.0-12B.i1-IQ4_XS все так же виснет на blas 512.
>>1026725 > для меня ты сейчас кастанул заклинание на иностранном языке Тогда просто не парься и юзай что работает, позже освоишься. q3km уже прям совсем пограничный квант с точки зрения адекватности работы и рациональности использования. Тем более что амд, придется со временем разбираться (или менять).
>>1023230 (OP) >ред для обладателей топовых карт NVidia с кучей VRAM Интел не подойдёт? Памяти-то хватает. Или лучше не ебать мозги (себе и ему) и взять нвидию?
>>1026774 Хочешь побыть альфа-тестером за свои же деньги? Дерзай. Мы только "за" двумя руками, без шуток. Будешь потом тут гайды писать и костылями делиться.
>>1026785 >Хочешь побыть альфа-тестером за свои же деньги? Ну да. Нахуя я по-твоему штеуд видяху купил? С играми пердолинг закончился больше года назад, дрова вылизали, вот нашёл новый повод для пердолинга. Будем разбираться.
>>1026771 Судя по треду: неплохой геймастер и лучше 12б моделей (если дипсик 14б) в этом деле, какие-то охуительные истории тоже, возможно, лучше пишет, в зависимости от ситуации. Для качественного кума с подробностями о том, как тебе натирают простату, потому что ты шлюшка, которой и являешься, — не подойдёт, лол.
Говнокод вроде как тоже лучше пишет, если 32б модель.
>>1026498 Юзал vega 64, что почти то же самое, только с 8 гб. >насколько они вообще юзабельны До тех пор, пока влезает в видеопамять, примерно на уровне околотоповых паскалей. Но rocm там уже поддерживается через одно место и проще на вулкане крутить. А на вулкане промпт в 1.5-2.5 раза медленнее процессится, на больших моделях с большим пересчётом будет грустно. Если выбирать между этим и кеплером, возможно и не так плохо. Но паскалетеслы на 16 гб при условии аналогичной стоимости наверное будут лучше.
>>1026771 Как по мне он охуенный. Не для кума, а для какой-то аналитической хуйни. Охуенный гейммастер.
Кстати первая модель в этом размере которая смогла решить загадку в духе "в комнате три сестрички, А, Б, В. А читает книгу, Б играет в шахматы, что делает В?" Даже чатГПТ4 не мог решить её правильно. Разве что о1 мог решить её.
>>1026711 для перевода, правда там ебаться сос криптами и промтами, надо, но несколько тредов назад эту тему тут исследовали, и вроде даже успешно
>>1026789 >гейммастер Вот только в рп может и будет писать за юзера.
Так что для рп всё же лучше пантеон или микс пантеона с цидонией для более влажного геймплэя.
Без ризонинга фактически тот же квен, хотя охуительные истории без намёков на кум пишет лучше, да. С хорошим систем промтом смог даже поддержать тентаклевый секс биомеха с женщиной-пилотом.
ЕБАнгелион, блин.
Но вот пространных описаний процесса соития да и многих других эксплисит тем выбить с него не получится наверно.
>>1026798 > загадку в духе "в комнате три сестрички, А, Б, В. А читает книгу, Б играет в шахматы, что делает В?" Даже чатГПТ4 не мог решить её правильно Так, блядь, это что за поебень. Эту загадку и я правильно не могу решить, я в душе не ебу что делает В. Я тупее Дипсика?
>>1026771 Ну смотря для чего. Он точно расширяет возможности применения ллм и упрощает типичные кейсы для обычного юзера. Насколько это новые возможности рациональны для использования - большой вопрос. Из неявных плюсов - нормису оно может лучше объяснить какие-то сложные вещи, паттерн саморефлексии заставляет охватывать дополнительные области и рассказывать о нюансах, а не просто подгонять варианты интерпретаций под криво сформулированный запрос юзера. В кодинге некоторые вещи может хорошо объяснить.
С другой стороны, если пайплайн обработки отлажен - он может оказаться даже хуже имеющихся моделей, или просто показывать +- то же но медленнее. Читать постоянные шизолупы даже не элементарные вопросы заебет очень быстро. В рп - днище донное, не ведись на то что оно может скосплеить текстовую рпг в начале, на контексте оно обосрется а в чате будет тысяча токенов рассуждения чтобы потом выдать ответ пигмы. Знания тоже сильно лоботомированы.
tldr - хорош для некоторых применений, панацеей не является.
Ну я попробовал это, в конце компиляции модели оно крашится. Ладно, на сегодня лапки опущу, слишком много времени уже потратил, даже не заметил как потемнело.
>>1026835 Может она там тренируется в шахматы или ставит мысленную партию, охуенный вундеркинд. Задачка уровня А бежит, Б едет на велике, что делает В? Азаза В тоже едет на велике, велик то тандемный!
>>1026845 Лол кибербуллинг на дваче. Но если серьёзно до дипсик довольно неплохо отгадывает такие загадки. Я весь прошлый вечер с ним в загадочника играл. Там где ответ в самом вопросе он прям неплох.
>>1026835 > шахматы это игра на двоих Слышь, ебаный норми, я единичные разы только играл с кем-то в шахматы, большая часть моих партий была с компьютером или с самим собой. Естественно, мне и в голову не придет что Б будет играть с кем-то, если сказано что играет в шахматы. Тем более что если она играла бы с В, то это и было бы сказано "Б играет в шахматы с В", но раз так не сказано, то В очевидно в партии не участвует, иначе составитель вопроса косноязычный мудак, либо мудак намеренно пытающийся запутать неправильной постановкой вопроса. В любом случае, не засчитывается.
>>1026798 А читает книгу: это интеллигенция, товарищи. Она изучает теорию, анализирует положение вещей, готовится к будущей борьбе. Книга — это оружие идей, её страницы горят огнём марксистских трудов, подобно фитилю бомбы, готовой взорвать устои старого мира.
Б играет в шахматы: это тактика и стратегия. Шахматы — это не просто игра, это аллегория революционной борьбы. Задача товарища Б — проанализировать ходы противника, просчитать его слабости и нанести точный удар, чтобы свергнуть короля, этого жалкого символа деспотизма и угнетения.
А что делает В? В, товарищи, не сидит сложа руки. Она готовит подполье! Она шьёт знамена, распространяет листовки, организует рабочие кружки. В — это практическая сила революции, которая, как динамит, молчаливо ждёт своего часа, пока не раздастся гром первого выстрела.
>>1026869 Приветствую 6600 брат. добро пожаловать в секту мазохистов у меня HIP работает ТОЛЬКО если включены галки на mmq и flash attention, без них вылетает либо на обработке контекста, либо как у тебя, при старте. Сколько слоёв в gpu layers пишешь? это тоже роляет. А, ну и на вулкане работает стабильнее, но без всяких плюшек и медленнее вроде как.
>>1026885 Я только в эти дебри полез и вообще в llm у себя на пк, раньше на хорде сидел и подсасывался к чужим. Слоев сверху оставляю 10-15, я как понял в зависимости от контекста и/или модели (?) показывает разное кол-во доступных слоев?
>>1026885 >mmq и flash И спасибо, с этими настройками запустилось, по ощущениям правда быстрее не стало, если не считать того что промт в 1.5-2 раза обработал быстрее перед генерацией.
>>1026826 Кек, лоботомированный инцестмикс, прыгающий на хуй и спамящий министрейшнами - вот типичная ллм. >>1026835 > шахматы это игра на двоих В эту игру могут играть двое~
>>1026169 А в контекст все влазит? Может промпт надо докинуть, хз. У меня он в каждом сообщении повторяет результирующий код и не забывает. Я не задумывался, хм…
>>1026192 Очевидно, сигнала вы так и не дождались, а танцовщицы были на другой планете, эх…
>>1026711 Если не для работы, то для суммаризации и ответов на вопросы. Но так-то есть встроенная ассистенты (Алиса там, Гугл, вот это вот все). Можно умный дом вешать, но это уже очень много мороки.
>>1026839 Плюсую весь тред тоже охуел с задачи про шахматы. Я рад, что Дипсик догадался до того, до чего не догадался я, но правильным ответом это тяжело назвать.
Открыл для себя очевидное и невероятное, если во время генерации смотреть видяшки на ютубе/твич, то генерация замедляется. Хоть за телефоном тянись от безысходности.
>>1026898 на -1 он прикидывает примерно, сколько влезет, но можно ещё слой-другой накинуть без потерь. от модели к модели числа немного разнятся, и сильно зависят от контекста. Кстати, есть вариант как ещё ускорить обработку контекста - во второй вкладке кобольда ползунок BLAS перевести с 512 на 256. Рад что всё у тебя заработало. Не торопись вкатываться в дебри, дрыгай понемногу настройки (всего) и смотри сам. Да, локалки жрут очень много времени. но интересно ведь!
>>1026937 >Да, локалки жрут очень много времени Я заметил, я уже 11ый час сижу за этим наркотиком. >>1026939 Да 100% не хватает, пихаю 7гб модель в 8гб видяху. У меня же Q3 бред несут, приходится на Q4 сидеть.
В общем, кажется, понятна причина затупов, может и не в бифуркации дело. Материнка не любит карты, подключенные через m.2. Есть тесла на x1 обычном и на x4 m.2. Если слои выгружать на первую, то генерация на 10к контекста 4 т/с. Если на вторую - 1.8. Так что попробую я, пожалуй, вот такую йобу или ей подобную https://aliexpress.ru/item/1005005277556030.html, вдруг будет нормально.
>>1026933 Вут? Хотя если ты смотришь видяшки то там и так все не весело и лишняя нагрузка может влиять. >>1026968 х299 аж вон аж когда была, конечно только старые. Искать на барахолках. > А есть современные похожие модели Смотри на сокетах lga 4677, tr5, sp5, цены правда не понравятся
>>1026968 >Нашел только на авито б/у за 25к, видимо она уже старая? А есть современные похожие модели, которые в том же днс можно купить? Я брал год назад на Wildberries у какого-то неавторитетного продавца за 30к вроде. Новую. Рисковал конечно, но по сути даже меньше, чем брать заведомое б/у с Али или Авито. Удалось поймать короче.
>>1026923 > А в контекст все влазит? Скорее всего нет. Дефолтный контекст 4к всего. Без предупреждения поднимается до 8к. Но эт в общем то я охуел и хочу чтоб он целые куски кода игры анализировал и брал что ему нужно только и из за этого забиваю токены. Я седня дипсика онлайнового так заебал и сам заебался что он мне в новом чате после небольшого кода сразу нахуй послал лол. Онлайновый дипсик вот хорошо с кодом работает. Он его вообще не забывает такое чувство и это охуенно. Но по итогу все равно не получается лол. Над модель которая таких даунов как я понимает
Почему на чубе карточки такие хуёвые? Причём, чем выше рейтинг, тем ниже качество карточки, как правило. Даже лля популярных персонажей. И особенно для них, пожалуй. Что-то оригинальное может быть хорошим, но найти такое сложнее, во-первых, а во-вторых, там может быть то, что просто не в моём вкусе.
С кум-карточками, понятное дело, всё намного проще, а вот для интересного рп...
>>1026976 >>1026998 Да, новая WS X299 SAGE на озоне/вб +-100к. А те уже 100к+. Такое себе, конечн
>>1027048 см. https://www.amazon.com/10Gtek-Internal-SFF-8643-Sideband-0-5-Meter/dp/B01AOS4NE6?th=1 - Both ends of the cable use the SFF-8643 connector, which is a 4-lane high-density connector used for SAS and SATA data transfer. The cable includes sideband signals, which are additional control signals used for advanced features like hot-plugging and error reporting. - Supports data rates up to 12 Gbps per lane, compliant with SAS 3.0 standards. Проще говоря, там 4x12 Гбит/с. Да и я же уже писал, что я вижу загрузку видеокарты в nvidia-smi при загрузке модели с SSD, там по цифрам видно, что х4 работают.
>>1027281 >там по цифрам видно, что х4 работают Работать то работают, но хули скорость проседает? Мне в хардваче писали, что псина может править ошибки, при этом замедляясь. Так что ХЗ.
>>1027281 Какой-то единичный лот от барыг со странной надежной что кому-то внезапно понадобится такое для ремонта. Оно совсем устареет и потеряет какую-либо ценность быстрее чем продастся по такой цене. Сотня - цена актуальных современных более навороченных плат, просто для примера https://www.regard.ru/product/722796/ >>1027326 > Мне в хардваче писали, что псина может править ошибки, при этом замедляясь. При этом могут быть траблы вплоть до подвисания интерфейса, ошибки можно отследить мониторингом или в логах.
>>1027326 > хули скорость проседает? Вангую, что архитектура такая. А ошибки исправления я еще в прошлом году ловил, они мне системный лог засрали так, что все место выжрали, лечилось отключением каких-то настроек авторегулирования питания портов в самом линухе. Да и вообще, без инструментов мониторинга это гиблое дело. Подключаю 7 карту - черный экран вместо биоса. Как отдебажить проблему? А никак нахуй, разве что реверс инжинирить проприетарный биос и изучать техники по дебагу. Так и тут. Был бы какой-то инструмент, позволяющий детально исследовать происходящее конкретно в твоем хардваре, то посмотрел бы, а так... Да и не надо оно пока, все равно для кума и рп, по видимому, нет моделей лучше 123B
>>1027372 > хардваче Деградировал он совсем, сейчас сборище оправданцев в специальной олимпиаде, шарящим там банально скучно. dmesg Учитывая обилие колхоза с подключением у тебя, ошибки довольно вероятны.
>>1027380 >Да и не надо оно пока, все равно для кума и рп, по видимому, нет моделей лучше 123B Это так, и они хороши, но ключевое слово здесь - "пока". Мультимодалки на подходе.
Как в ебучем кобольдесипипи создать карточку персонажа в виде картинки? Там есть соответствующие опции, но сохранить не дает в виде карточки перса, а вместо этого сразу начинает рп. Я уже заебался с ним. Да, для начала неплохо, и даже отлично, но малейший пук в сторону и сразу всё... Даже в гугле ответов нет или крайне мало, такое чувство что либо ЛЛМ в принципе мало людей используют, либо съебывают с кобольда как только раздупляются что к чему. Если в кобольде нельзя, то в чем можно, чтоб локально?
>>1027450 Это для линукса. Ты можешь просто посмотреть в hwinfo, с самом низу количество системных ошибок с разделением по типам. >>1027556 Используй таверну, зачем жрать кактус?
>>1027556 >ЛЛМ в принципе мало людей используют Это недалеко от правды >съебывают с кобольда как только раздупляются что к чему Че там раздупляться? Кобольд юзают как бекенд и не более. Тамошний кривой интерфейс можно юзать только для первичных тестов, на исправность тех же квантов к примеру. >Если в кобольде нельзя, то в чем можно, чтоб локально? Либо в таверне, либо крути метадату ручками.
>>1027556 Вебморда в кобольде это просто затычка без функционала. Никто её в здравом уме на постоянной основе не использует, ставь глупую таверну и не еби мозги.
>>1027558 >>1027612 >>1027623 Спасибо господа, поставлю значит таверну, надеюсь там все так же легко как в кобольде, запустил экзешник и поехал. А вот еще такой вопрос, как достучаться до "ии" вне РП? Обычно я пишу ( OOC: текст ) и мне отвечают, но изредка бывает что ИИ уходит в транс и никак не достучаться. Допустим я сейчас во время рп пизданул, разулю всего-то, молотком по его персонажу, сломал максимум ребро, да и то за дело в общем-то, он на меня быковал жестко. В итоге он моего персонажа пиздит уже сообщений 25, уже практически убил и мне интересно что он расскажет в ООС, но сука молчит. Да я знаю что могу прсото взять текст отредактировать и попробовать по новой нагенерить, но мне интересно узнать чего его так переклинило. Какие еще варианты есть написания вне рп?
>>1027253 >вот для интересного рп https://pixeldrain.com/u/odDh8nYb Что сам с чуба собирал. Не могу гарантировать что тебе зайдёт, но если совсем потерялся в тоннах сортов говна то глянь XD
>>1027644 >поставлю значит таверну, надеюсь там все так же легко как в кобольде, запустил экзешник и поехал. Ты главное не путай бек и фронт. Таверна это только веб морда(фронт) которая должна подключаться к чему-то на чем крутится сама модель(бек). В твоем случае это будет кобольд. Т.е ты запускаешь кобольд, загружаешь в него модель, но вместо его встроенной вебморды используешь таверну. В гугле полно инструкций по запуску kobold + sillytavern.
Восприятие ООС зависит от модели. Иногда помогает в систем промте прописать что на вопросы заданные с припиской ООС он должен выходить из роли и отвечать как искусственный интеллект. Но повторю все зависит от модели, некоторые это делают из коробки.
Ну и в догонку, если видишь пост в этом треде, где стена цитирований и ответов на случайные сообщения с минимум конструктива, это местный шиз, можешь игнорировать.
>>1027654 >Ты главное не путай бек и фронт. Таверна это только веб морда(фронт) которая должна подключаться к чему-то на чем крутится сама модель(бек). В твоем случае это будет кобольд. Ааа вот оно что, теперь все прояснилось, благодарю.
>Восприятие ООС зависит от модели. Иногда помогает в систем промте прописать что на вопросы заданные с припиской ООС он должен выходить из роли и отвечать как искусственный интеллект. Но повторю все зависит от модели, некоторые это делают из коробки. В том то и дело что в начале и через часа 3-4 условно, ЛЛМ нормально реагирует и отвечает на ООС. Но затем начинается мощный затуп и ЛЛМ не реагирует ни на что. Допустим в моей последней ситуации я написал что мол все, персонаж мой откис, отдохни старина, но он не унимается, уже и руки отрвал и труп потрошит пиздец, ни на какие сообщения не реагирует даже после суммарайза и перезапуска продолжает свое, как-будто я его ирл этим молотком пизданул. Попробую откатить чуток и другой моделью продолжить рп. Модель у меня была Moistral-11B-v3-Q6_K.
>>1027659 Запустил Цидонию 22B, она все разрулила и в ООС отвечает адекватно. Какая же все-таки разница огромная между 11B и 22B, еще бы было больше чем 2 токена/сек на моем железе... Ну либо Мойстрал не очень. Какие-то есть проверенные варианты на 11B без затупов? (Только в .gguf пж) Поддержка русика не обязательна.
>>1027286 А вот и не правильно, изначально моделька сказала что тело плыло вниз мордой лица в воде, я его еще догонял его некоторое время, а как только догнал и выловил, то о чудо, оно живое, спасити меня храбры рыцарь! Ну я от досады по голове щитом и залепил.
>>1027677 Ну и вообще моделька без остановки навязывает свое говно. Несколько сообщений навязывало мне блеск вдалеке, ну я согласился наконец, пошел, а там блядский пульсирующий меч в земле, гроза, молнии, призрачный волк. Решил драться с волком, волк сквозь меня вселяется в меч. Мне меч нахер не нужен, пошел по своим делам. О чудо, меч взлетает и летит в мою сторону крича что я охренел и он крутой магический меч. Промахивается и вонзается прямо в мой рюкзак и говорит что без него я никуда не уйду. Я решил сломать меч и тут сразу спаунится куча разбойников, которым я медленно проигрываю и моделька все намекает что меч мне не поможет, пока я сам не попрошу его об этом.
>>1027689 Чем больше в промпте повторений, тем быстрее модель сама начнет повторять это. >Ты умерла >Нет, я не умерла >Ты умерла >Почему, ведь я живая? >Ты умерла >Хорошо, как я умерла? >Ты умерла >Я умерла >Я умерла >Я умерла >Я умерла
Маленькие тупые модельки нельзя отпускать в повторы, благо в таверне это делается в один клик и удалением лишней инфы из поста. И ты давай, не "ладно, разберусь обязательно", а просто скачай таверну и запусти файлик, там уже есть пресет для кобольда, по которому она подключится автоматически.
>>1027665 Я на 12 гигах гонял Pantheon-RP-Pure-1.6.2-22b-Small.i1-IQ3_M.gguf с ~25 токенов в секунду, интеллект вполне устроил, особенно в сравнении с любой 12б моделью.
Ну и из твоих слов я если выловил трупешник, то я сам должен модельке сказать что это трупешник, а не рассуждать "хмм плывет лицом вниз несколько минут, видимо это труп."?
>>1027747 Мистраль Лардж говно, его полтора инвалида попробовали потюнить и дропнули. Сейчас все свежие тюны только на 70В ламе или квене. Лама для английского, квен для русского.
Если монитор иногда мигает во время генерации, закладки в браузере падают и иногда генерация завершается ошибкой, то я слишком много слоев в кобольде накинул?
Что-то мне ЛЛМ второй раз в ООС пишет сама, спрашивает что ей делать дальше и с намеком мол не пора ли нам закончить. Это норма? Может потому-что я сидонию 22B на 8гб vram запустил и она в ахуе? Мне чет сразу мем с негром вспомнился который: "Я устал, босс."
>>1026933 А я открыл для себя 12-ядерные процессоры, 64 гигабайта оперативной памяти и разные видеокарты под разные задачи с выводом картинки с той, которая не генерит. =) Правда в тяжелых задачах (где гигов 40+ выливается в оперативу) все равно вылеты иногда происходят. Так что телефон надежнее.
>>1026954 7b q4? Там минимум q6, а лучше только q8… x)
>>1027094 > Онлайновый дипсик Не существует «онлайнового» дипсика, они все могут быть и онлайновыми, и оффлайновыми. Называй его «основной моделью», «базовой», «взрослой», или просто 671b.
Ну и, ясен-красен, хорошо работает. =D Гигант мысли, хули.
> Над модель которая таких даунов как я понимает Год назад были популярны промпты «объясняй все как детсадовцу» и все такое. Напиши в первом сообщении (или в систем промпте, если он там есть), мол «ты преподаватель в школе даунов и инженер-программист L5 в Google, ведешь диалог с отсталым в развитии». Мои извинения перед даунами и отсталыми в развитии, зато раньше это работало, и модельки на пальцах старались все объяснить. =)
>>1027377 А 14B — это distill-Qwen, и выше сто раз писали, что русский там хуже немо. Кстати, у тебя еще и семплеры странные или я хз, у меня так 7b пишет, а 14b гораздо лучше. Ну или квант, мб.
>>1027783 Не хватает видеопамяти и с оперативой не лады. Да, попробуй уменьшить количество слоев.
Сап, я до вчерашнего дня, когда попробовал дипсик, думал что нейронки все еще не умеют гуглить, и соответственно бесполезны, поэтому нихуя о них не знаю, так что заранее извиняюсь за тупые вопросы:
1. Я по 1й ссылке в гугле прочитал, что чтобы юзать локальный дипсик нужна видюха с дохуя памяти, и чем больше параметров тем более дохуя. На оперативе оно вообще не работает, или просто чуть медленнее? Насколько хуевее модели с меньшим количеством параметров чем макс?
2. Далее там же прочитал, что даже с макс количеством, это дистиллированная модель, которая все равно будет хуевее, чем та что на сайте. Насколько хуевее?
3. Та что на сайте через какое-то количество вопросов кокблокнула меня, сказав что лимит контекста. В локальной лимита вообще нет, я могу ей скормить например целую серию книг в контекст, и как это повлияет на скорость?
Уже давно и успешно, поищи сам minisearch и прочие perplexity. Ставишь локально такую штуку и любую нейронку — и она тебе будет локально гуглить. Сама нейронка — отдельная тема. Выбирай любую, не обязательно дипсик. Хоть 3b модель, для которой достаточно 4 гб оперативы. Хоть полноценный deepseek-r1 и 800 гб видеопамяти.
2. А тебе не похуй? Тебе от нейронок мозги же никогда были не нужны, они «бесполезны», как ты сам говоришь. Но если вдруг тебе интересно, насколько нейронки умеют суммаризировать найденный текст в интернете — то тебе, опять же, и 3b модели хватит для этого. В таком кейсе — ни насколько ни хуевее. Но если тебе надо, чтобы модель умела отвечать полноценно, используя нагугленный контент, то это немного другое. Заметно хуже, но distill-Qwen32b будет не сильно уступать, а вот 14b уже и на русском хуже, и просадки по качеству ответов могут быть заметные. 7b-8b на русском лучше точно не трогать, и для требовательных юзеров они не сгодится.
3. Нет, лимит контекста зависит от того, на каких данных обучали модель. Локально у тебя будет тот же лимит. Возможно даже меньше.
Если подужаться, то в 48 гигабайт ты вместишь 128к контекста 32b версии. Но если у тебя есть 48 гигабайт видеопамяти, потому что на процессоре лучше забыть об этой идее. А в 12 гигов народные… =) Ну 16, мб, ну 24 если сильно подужаться, мб. И модель мелкую взять.
Хуй знает, что тебе надо. Твой вопрос звучит так, будто бы тебе в пизду не сдался Deepseek вообще.
Может быть Qwen2.5-14b-1M? Там 1 миллион контекста, например. А рассуждения тебе нужны вообще? На кой хер?
Определись с хотелками, а потом задавай вопросы. =)
>>1027885 Я хочу поделать игры. Т.е. она должна пахать на мощных игровых компах, но не на проф-фермах. Раньше я только пробовал гопоту когда выходили новые версии, и гопота гуглить не могла, поэтому для меня была бесполезна. Дипсик может, поэтому я про него спрашиваю, могут ли другие - я не ебу. Загружать сеттинг в контекст для моих задач обязательно. Дипсик в гугле может найти какие-то поверхностные референсы, но по тому, что очевидно было загружено ему заранее, он выдает намного лучше.
>>1027748 Влезу в ваш разговор, подслушав вас скачал Qwen2-7B-Multilingual-RP.Q4_K_M поведясь на маленький вес, сильно тупой будет? На данный момент на Wayfinder.Q4_K_S сижу.
Короче, кому интересно, вчера обзавёлся карточкой Instinct mi50 16GB. Во первых, видеовыход у моего экземпляра оказался на удивление рабочим хотя интернеты полны стенаниями о том, что он не функционален, там MiniDP, переходник у меня был, просто подключил монитор и оно работает как обычная видеокарта. Во вторых, для нее нет официального драйвера под винды, но экспресс установщик AMD опознал карту как Radeon VII Pro и поставил драйвер без проблем, всё работает. GPU-Z так же видит карту как Radeon VII Pro, но не может определить частоты ядра и памяти. Не смотря на это, те же игры без проблем фунционируют. Как и ожидалось ROCm поддерживается, но работает только в линуксе, в винде только вулкан. Но даже на вулкане по скорости карта сравнима с P40, только памяти меньше. Продаван говорил о наличии бриджа для соединения нескольких карт, что даст общий пул памяти, без прогона данных по PCIe, что в принципе должно быть очень даже не плохо, учитывая стоимость карт. Запилил колхознейший охлад из вентиля от системника леново и кучи скотча, держит температуру до 65 градусов в максимальной нагрузке и воет как скотина, надо будет прикрутить реобас. Пока что мне всё кроме охлада нравится, такие дела.
>>1027908 Да мне русский особо и не нужен, я даже не понимаю как модель заставить отвечать мне на русском (любую), все равно через переводчик сижу. Просто еще что то в 5-6гб весом и не особо тупую модель. Что нибудь на уровне вайфайндера.
>>1027922 >отвечать мне на русском Чсх, написать на русском карточку персонажа, лучше целиком, но достаточно просто первое сообщенение, а систем промт на англе оставить. На мистралях работает.
>>1027922 >что то в 5-6гб весом и не особо тупую модель Подойдет гемма2 9b, ну или на крайний случай даже гемма2 2b. Последняя на удивление приличная, хотя годится скорее для генерации пространных удобочитаемых простыней. Я лично на моих скромных 12гб сижу на файнтюнах мистраля 12b. За последние месяцы так ничего лучше этих мистралей и геммы2 так и не появилось.
>>1027896 Бля, какую шизу ты несешь, чел. Ты даже мой ответ не читал. Не умеют модели гуглить, блядь, хватит нахуй. Гуглит бэкенд. Различных бэкендов куча.
> Я хочу поделать игры. > она должна пахать на мощных игровых компах Что за хуйню я сейчас прочитал? Ты хочешь LLM заставить работать внутри игры у игроков, или у себя?
Мощные игровые компы — это что? Это жалкие пк с одной 3060? Это норм пк с одной 4090? Игры и нейронки — это охуеть какие разные вещи. Игровой комп может быть с 3080 8 гиговой и для нейронок он говнище. А может быть с 3060 12 гиговой и это уже хоть что-то.
Ладно, поехали.
Если ты хочешь много контекста, действительно много, кидать целые книги, то тебе нужны модели, которые обрабатывает много контекста. Очень много. На текущий момент есть буквально единственный вариант — это Qwen2.5-14B-1M. У него максимум контекста 1 миллион. У всех остальных моделей максимум контекста — 128 тысяч. Для этого нужно много видеопамяти, дохуя видеопамяти.
То есть, уясни одну вещь. Если ты хочешь сотни тысяч контекста, то они физически не поместятся в одну видеокарту.
Когда-то на квене было 1000 контекста ~ 300 мб. 12 гигабайт видеопамяти вместит в себя 40 000 контекста. Это, скорее всего, меньше, чем дается в онлайне. Но я не знаю, сколько там в чате, и сколько ты кидал.
Но в среднем, это 3-4 главы книги. Запихнуть целую книгу — 100-200 тысяч контекста, вероятно.
Есть вариант контекст квантизировать. Но тогда он будет работать хуже. Можно ужать в 2 или 4 раза. 12 гигов = 160 тысяч контекста, который он помнит плохо. Это супергрубый подсчет.
Помни, что тебе надо еще где-то модель держать. Или на процессоре, что даст тебе очень медленную скорость ответа, или на видеокарте.
Допустим, ты берешь Qwen2.5-14b-1M-Q6 модель (шестой квант). Она весит 12 гигабайт. Значит 12 гигабайт модель + 12 гигабайт контекст: в видеокарту с 24 гигами (3090, 4090) влезет 40к нормального контекста или 160к сжатого контекста. Если ты хочешь больше — то… ну ставь две видеокарты. Три. Четыре.
В треде есть человек со 144 гигабайтами видеопамяти, например.
Теперь по поводу моделей. Однажды ты можешь понять, что тебе не так важно кидать целые книги. И 128к контекста тебе хватит. Тогда можно брать Deepseek-R1-distill-Qwen-32b. Здесь я могу проспойлерить — Модель + 50 000 контекста займет 48 гигабайт. Я лично проверял пару дней назад. Но можно ужать и вместить в 48 гигабайт модель и 128к контекста. И она умная весьма, да.
С видеокартами разобрались.
Теперь по программкам. Есть онлайн-поисковик https://perplexity.ai/ Тебе надо искать локальные альтернативы.
https://github.com/felladrin/MiniSearch — этим я лично пользовался, но для тебя слабый вариант, наверное. Он ищет максимум по 6 результатам, кажись. Ну и берет поверхностно информацию.
Еще пару вариантов кидали в треде, но я не запомнил, извини.
Проще всего будет скачать докер-образ или виртуалку и установить. Это в среднем 8 гигов оперативы и парочку ядер проца. Естественно, имеется в виду, будет занятно на постоянке. Но такое можно поднимать на ноутбуке каком-нибудь и работать внутри локальной сети, например.
Ну вот, что я понял из твоих рассказов и что я могу лично предложить.
Надеюсь, тредовички тебе накидают еще советов, годные модели вспомнят или ссылки притащат какие.
>>1027908 Ровно наоборот, квен на русском даже в 1.5б норм умеет. Ну вы батенька даете!..
>>1027897 7b не ниже Q6, а лучше только Q8. Хватит уже, а? Да еще и Qwen2, а не 2.5 почему-то. Зачем старая версия?
>>1027907 Если это выглядит как VII Pro, работает как VII Pro и ее инсталлер AMD идентифицирует как VII Pro… Ну, в общем, ты уловил. Возможно, это не оригинал, а просто пайка-перепайка.
>>1027932 Везде работает. Английском уже с полгода в локалках не пользуюсь и понятия не имею, как люди «не могут заставить» модель говорить на русском, если для этого и заставлять не надо…
>>1027933 А это факт. Для РП ниче лучше тюнов немо и мистрали нет в 12 гигах. И не планирует появляться пока что…
>>1027943 >на русском Проблема не в том что сетка не умеет в кириллицу, а в том что её вывод в разы скуднее чем на языке на котором она тренилась. Тут люди ради этих мозгов из последних ужимаются чтобы впихнуть в себя модель покрупнее/поумнее, а ты предлагаешь сделать лоботомию на пустом месте. Это при том что переводчики работают весьма хорошо, а если хочешь прям заморочиться, подрубаешь deepl api и кончаешь радугой.
>>1027934 Я заранее предупредил, что о нейронках пока нихуя не знаю, знаю только что дипсик из чата может загуглить то что мне нужно, а гопота не могла. И мне достаточно такого гуглежа, как у дипсика. Под игровым компом я подразумеваю любую игровую видюху, а не профную - т.е. 4090 подходит. Вот по ужатию контекста я пока не вдупляю - как нейронки в базе модели могут весь интернет иметь, а в контексте 1 сраную книгу удержать не могут? Может нейронка сначала прогнать книгу и вылить из нее всю воду, оставив только суть - это уже должно на порядки ее ужать?
>>1027970 > Это при том что переводчики работают весьма хорошо И да, и нет. Говорю как тот кто сидит на переводчике несколько месяцев. Мне частенько приходится сверять оригинал с переводом когда перевод промахивается в поле. Яндекс часто переводит бесполые слова характеризующие персонажа в мужском лице. Ту же cousin он переведет как двоюродный брат, и похуй что персонаж девушка. А если персонаж заикается следуя карточке или говорит через многоточия, то там вообще пиздец начинается.
>>1027970 >deepL У меня есть претензии к этому сумрачному тевтонскому творению. Во первых - он постоянно проёбывает точки, запятые. Я знаю что грамматика в английском отличается. Но эта пиздота думает что умнее тебя и формирует порой просто охуительные предложения, проебывая пол и причино следственные связи в предложении. Проеб скобок, многоточий, он превращается в оно. Короче, как бы глупо не звучало, единственный вариант без вычитки конечного результата, это простейшие предложения.
>>1027840 >Не существует «онлайнового» дипсика >671b По сути размер такой, что оффлайн его никто тут не запустит. Так что можно смело называть копросеткой, нах не нужен такой впопенсорс. >>1027878 >это дистиллированная модель Есть оригинал, но ты его не сможешь запустить. >>1027934 >3080 8 гиговой Там 10 минимум, а то и 12. Мимо бывший страдалец с 3080Ti в цену 3090 >>1027974 >как нейронки в базе модели могут весь интернет иметь, а в контексте 1 сраную книгу удержать не могут Весь интернет запечён в весах (хуёво, часто глючат), а контекст по сути как временная память. Ты в уме текст книги можешь удержать? Вот и негронка не может. >Может нейронка сначала прогнать книгу и вылить из нее всю воду Кидай краткий пересказ, но проебёшь детали. И да, тебе, судя по всему, нужна техническая литература, а там плотность инфы другая.
Господа, подскажите вопрос. Какие-нибудь тюны на дистиллированый R1-32b уже завезли, и как у них качество? Имеется 4060ti-16+3060-12 и желание обмазаться (R1_32b_Q4_k_m весит 19гб, а значит 6-7гб останется под контекст). Для RP, ERP, естественно.
>>1027933 Сколько не пытался в разные 9б геммы, все хуже норм 8б тьюнов для рп. При этом в ней дофига слоёв, так что кэш контекста, который от этого числа зависит, жрёт немерено. Флэш атеншн, походу, так и не пашет с ней. Поэтому оно с 8к контекста пердит на 8 гиговой карте так же медлено, как немо, а немо лучше по качеству. >>1027943 >Везде работает Иногда нужно повозиться. На той же 9б гемме, которая относительно норм знает русский, иногда не отвечало на русском даже с пинком в постхистори инструкции. Да и не каждый тьюн немо будет без инструкции отвечать на русский ввод на русском.
>>1027840 >671B Вот кстати звучит как типичный китайский пиздешь. У него веса ~710гб. Ну и как он туда могли запихать эти 671б? Это было бы минимум 1300гб.
Подскажите, пожалуйста, почему ответы короткие? Это какой параметр надо смотреть?
Например используя Character Card Builder, первым этапом он должен выдавать 5 абзацев описания персонажа. В итоге выдаёт либо абзаца 3, либо 5 но очень коротких.
Ещё хотел попробовать модели для кодинга и думаю будет такая же ситуация? Он просто будет обрывать ответ?
>>1028021 >нах не нужен такой впопенсорс. А ты до сих пор мечтаешь о чуде, что на своих 24 лигах запустишь аналог корпосеток? Хуею с дурачка. Раньше вообще в открытом доступе не было сеток сравнимых с гпт о1. Появилось - все равно не довольны.
>>1028355 Ну а я про что? А раз не может, значит не торт. >>1028362 Я ХЗ что за динамическая если что, просто предполагаю. Контекст сколько ставишь? На минималках попробуй 4к чисто для теста. И да, я на радевони не запускал, так что ХЗ как все эти росмы и вулканы с памятью работают. >>1028380 >что на своих 24 лигах Обижаешь, 48. Да, я хочу самого лучшего и бесплатно. Тебя что-то удивляет? Ты хочешь чего-то похуже, и со страданиями?
>>1028391 >Да, я хочу самого лучшего и бесплатно Так вот тебе - самое лучше и бесплатно? Что сейчас нахрюк то? >>1028321 Вон и запустили локально, всего 1тб оперативки и 64к контекста есть. В чём проблема?
>>1028527 > 671B параметров активируется только 37B И какие плюшки это нам дает? Можно как-то юзать видимокарту на 37б, а остальное на RAM? Или что-то уровнем поменьше взять, чтобы на 70б поумнее, да на одной карте?
>>1027644 > там все так же легко как в кобольде, запустил экзешник и поехал. Да, но нет. Придется хотябы в основах разобраться и выбрать нужный формат промта. А так погружаться можно оче долго, просто она позволяет делать многое в отличии от прочих. > и мне интересно что он расскажет в ООС Кто он? OOC это буквально out of context, используют для общения между ролевиками, с нейронкой в основном используется чтобы выражать свои пожелания, а нейронка изредка может косплеить гейммастера и что-то там вопрошать или аположайзить. Поэтому не совсем понятно что ты там хочешь увидеть. Как вариант - просто дай инструкцию для нужного.
>>1027907 Тесты жоры, экслламы, диффузии можно? >>1027974 Просто запустить нейросети можно почти на любой видеокарте, по крайней мере пока. Другое дело что для хорошей текстовой модели нужна хотябы 3090 целиком. Для чего-то средней посредственности - хотябы ее половина. То есть одновременное взаимодействие и рендер красивой картинки - нет. Можно обыграть если перез запуском модели закинуть персонажа в область с минимальными требованиями, ограничить фпс, выгрузить нахуй весь кэш текстурок, максимально освободив врам, в уже после этого загружать модель в память и пускать, для тех же диалогов например. Если же у тебя примитивный интерфейс а не наниты то похуй, но базовые требования к видюхе никуда не исчезают. > как нейронки в базе модели могут весь интернет иметь Долговременная память > а в контексте 1 сраную книгу удержать не могут Буквально твои свежие рассуждения, книгу ты тоже не сможешь удержать в полной мере без сокращения и ужатия.
>>1028553 > И какие плюшки это нам дает? Из плюсов то, что не надо пробегаться по всем весам в процессе инференса для вычисления следующего токена, поэтому и перфомит быстро при таком крупном весе. Грубо говоря, у тебя часть весов по if/else вызывается, так что по итогу одномоментно используется только 5% из всех весов.
> Можно как-то юзать видимокарту на 37б, а остальное на RAM? Профита не будет т.к. всё равно используется вся сетка, просто в разные моменты используются её разные куски - вынос небольшой части на карту погоды не сделает.
> Или что-то уровнем поменьше взять, чтобы на 70б поумнее, да на одной карте? МоЕ это скорее не про ум, а про удешевление самого процесса инференса (в плане требуемого компьюта, а не числа VRAM), как мне кажется.
>>1027970 Это сорт оф. Переводчики пиздец все просирают, тут ты не прав. Ну и «богатство языка» на неродном языке сводится на нет. Так что, оба аргументы никакие, и разницы на самом деле нет. Кто знает английский — норм, тем хорошо. Кто не владеет на достаточно уровне, тому и на русском норм. Плюс, богатство выражений — это не совсем логика. Да, бедненько будет, но не сильно-то тупее, на самом деле. Ну в общем. So-so. Гигачат наш выбор. хд
>>1027974 > как нейронки в базе модели могут весь интернет иметь А, так в базе у модели 0. =) Нет там никакого интернета. Это называется RAG. Фишка бэкенда, о которой я писал. Ты посылаешь запрос, модель переформулирует его и посылает в самые обычные поисковики (локально работает SearXNG, например), который возвращают ей самые обычные ответы, и вот эти ответы уже помещаются ей в контекст. И отвечает она исходя из того самого контекста. RAG — система, позволяющая брать наиболее релевантную информацию из базы данных (в данном случае — поисковиков) и помещать ее в контекст по запросу.
>>1028021 > нах не нужен такой впопенсорс Нихуя, в дурку его! =D
> Там 10 минимум, а то и 12. 10 для Геммы, разве что. Для Немо все же 12 минимум. В 6 кванте.
Бывший? :) Надеюсь, обновился на что-то нажористое? Рад за тебя!
>>1028167 Так там 8 бит же, прямым текстом написано, дядь… =) Плюс, там буквально можно все слои посмотреть. Правда у меня вкладка зависла 671 слой выводить. =D
>>1028380 Вот я доволен! Ниче, что я не могу здесь и сейчас. Главное, что оно есть, а ресурсы — дело времени.
>>1028527 Вспоминаются люди, которые слюнями срали, но доказывали, что МоЕ говно и не должно существовать, только память жрет! То ли дело ллама 405б, ммм… и размер меньше, и экспертов нет… =D
>>1028553 Были такие эксперименты, но че-то недалеко взлетели.
>>1028580 МоЕ — это про объем знаний и объем размененный на скорость. У тебя сразу сетка знает все, тебе не надо подрубать поиск, RAG, бд, составлять запросы (и надеяться, что придет релевантный ответ), или менять модели, просто есть все и сразу. И скорость, при этом, заметно выше, чем у моделей, имеющих средний размер между полными и активными весами. Ты можешь загрузить МоЕ в оперативу (а она дешевая),и получить скорость не сильно уступающую видяхам.
Гигачат на обычной DDR4 выдает 10 токенов/сек при размере сравнимом с Mistral 22b. При этом, тебе достаточно 32 оперативы (24 даже).
МоЕ ситуативны, достаточно специфичны, но имеют свои плюсы.
Мне лично они нравятся, хотя я понимаю, почему большинство ими не пользуется. При равном размере, цельная модель будет гораздо лучше моешки, если крутить целиком на видяхе.
>>1028604 >Переводчики пиздец все просирают, тут ты не прав. >Ну и «богатство языка» на неродном языке сводится на нет. >Так что, оба аргументы никакие, и разницы на самом деле нет. Кто знает английский — норм, тем хорошо. Кто не владеет на достаточно уровне, тому и на русском норм. Не соглашусь. Для хорошего результата очень желательны некоторые знания английского языка (хотя бы более-менее понимать по-английски, чтобы замечать явные косяки). Но грамотно писать на неродном языке могут мягко говоря не все. Вообще здесь рекомендовали писать свои реплики на русском, а уже ответы модели переводить - наверное неплохой вариант, с оговорками. Но насчёт просирания смысла и бедности перевода - зависит от промпта. Модель может выдать красивый и сочный текст, и даже Гугл выдаст красивый и точный сочный перевод. Меня устраивает, а я много литературы читал. Бывают косяки перевода, ну и что - посмотришь оригинал, даже не расстраивает.
>>1028640 > Вообще здесь рекомендовали писать свои реплики на русском, а уже ответы модели переводить Не переводить, а чтоб бот отвечал на английском и читать английский. Так зато не будешь кекать от кривых выражений на русском, но и не надо напрягаться чтоб писать на английском. > даже Гугл выдаст красивый и точный сочный перевод Гугл очень плохо переводит, банально квен 32В лучше переведёт чем гугл. И гугл без контекста часто серит с окончаниями.
>>1027907 >Продаван говорил о наличии бриджа для соединения нескольких карт Это где такой продаван? Я когда гуглил буквально нигде не смог найти эту хуйню. Через нее можно сразу 4 карты соединять по идее.
>>1028573 Картинка не нужна. Но нужно чтобы нейронка отрабатывала на каждого нпц на сцене после каждого события (не тика), и у каждого нпц был свой контекст (хотя большая часть контекста будет одинаковой из макулатуры по сеттингу).
Может кто-то наконец пояснить на что влияет выбор токенизатора в таверне? Насколько я понимаю, эта ебала не передается через вызов апи, этим занимается жора и вручную переключить режим через фронт невозможно. Тогда нахуя вообще нужен этот выбор?
>>1028768 Нахуй тебе больше 75 герц где все и так плавно? Ок у тебя дохуя разрешения, а толку, ты сидишь в метре от моника? Нахуй вообще такой большой монитор, чтобы блуждать глазами из края в край, вместо того чтобы видеть всю картину сразу на фулл хд?
>>1028784 >Тогда нахуя вообще нужен этот выбор? Кобольд может и сам считать. А нужен этот выбор для всех операций, в которых Таверна считает токены. Прежде всего для определения количества токенов в контексте. Ты ведь в неё не токены суёшь, а буквы. Слова, предложения. А размер контекста задаёшь в токенах и размер ответа тоже. Ну и вот.
>>1028812 >выбирать между Так я взял оба. 5к конечно охуенно (я вообще мечтаю о 8к, чтобы целочисленно отображать почти любое разрешение ниже, плюс масштаб в шинде тоже будет целым), но не стоит того, чтобы деградировать до 60 герц. >>1028816 >Нахуй тебе больше 75 герц где все и так плавно? ->Если ты слепошарый тормоз Для меня граница плавности начинается с сотки.
>>1028841 знакомая нога. Дигма или санк? алсо, много мониторов > один огромный мимо обладатель отдельного 4:3 для каждой рабочей задачи и одного 2к для киношек и игр
>>1028851 > много мониторов > один огромный Не всегда, кстати. Я сижу за 55' телеком вообще. Это чётко 4 27' fhd монитора. Только я каждый из них могу в любой момент масштабировать как угодно, делать 2 обычных окна и одно длинное, и т.д. В работе очень удобно, в общем. И никаких рамок. Хотя куча мониторов чтобы в каждом была всегда конкретная хуйня, типа, на одном жира, на другом гитлаб, на третьем постман, на четвёртом работаешь, на пятом ютуб/плеер с музыкой и т.д. Прикольная тема, в общем, надо будет тоже попробовать.
>>1028816 >Нахуй тебе больше 75 герц где все и так плавно? Ну вот у меня на телеке есть режимы и 60Гц, и 120Гц. 120 ощущается прямо пиздец как плавно, какой-то совершенно другой уровень бытия. Единственный минус - перестаёшь это замечать минут через 15, что на 60-и, что на 120-и герцах. Герцовка полезна во всяких сетевых шутерах, но я в такое в последний раз играл года полтора-два назад, а так чтоб на постоянку - 3090 в 4к и 60 фпс-то не всегда выдаёт во всяких йобах. Так что, как по мне, герцы круто, но и 60гц вполне достаточно в 99.9% времени.
>>1028580 > МоЕ это скорее не про ум, а про удешевление самого процесса инференса (в плане требуемого компьюта, а не числа VRAM), как мне кажется. Это скорее про комбинацию большого количества знаний, сравнимых с моделями побольше, или способ улучшить выход когда дальнейшее повышение параметров плотной модели уже невозможно или нежелательно. Того же внимания и понимания что и у больших моделей там нет. >>1028782 Тогда ничего особого, осваивай как пользоваться ллм и делай. Только учти что требованиям к гпу там высокие, если хочешь хорошего результата, и пердолиться придется долго. >>1028786 А зачем ты взял амд, если не можешь в линукс?
>>1028919 >А зачем ты взял амд, если не можешь в линукс? Зачем мне линукс, если существует WSL? В любом случае раньше выходных я в это дерьмо не полезу.
>>1028746 Видишь детально каждый волосок из под небритой подмышки сильной и независимой транс нигерши в современной триплай игре? Лучи сильно помогают погружаться в топ триплэй игры типа Star Wars Outlaws, Конкорд или в ту игру про макаку с палкой?
>>1028937 > Зачем мне линукс, если существует WSL? Это вполне релевантно для хуанга, где действительно все работает, но для амд уже хуй. По крайней мере так рассказывали их владельцы, нет поддержки на уровне драйвера.
>>1028966 Ну, на сайте амд есть гайд как завести ROCm на WSL, попробую для начала его, не заведётся, так буду дальше думать. Даже виртуалка не кажется мне такой уж плохой идеей, благо хардварная виртуализация по идее должна поддерживаться. Где ж, блядь, ещё, как не на этих картах.
Я может невнимательно смотрел, но по-моему в шапку не добавили instrumentality-rp-12b-ru-2 отличная штука межд упрочим и в русик даж неплохо справляется
>>1028758 Я всегда думал, что у меня зрение плохое, старый я. Давеча посмотрел на монитор 120 и 240, и, охуеть, увидел сильную разницу! Сам удивился, раньше я думал, что выше 100 не отличаю, а оказалось, дед-то еще кое-что может!
Короче, на вкус и цвет, не все мы киберкотлеты, но кому-то надо.
А вот разрешение выше 1440p я уже не отличаю.
>>1028939 О, да вы в играх не разбираетесь… ))) Ну играйте в нонешние триплэй, коли других не знаете, противиться не будем…
>>1028992 RX в треде — слабоумие и отвага. =) Вы — герои, но гений ваш сумрачен и непознаваем… Но оффенс.
>>1029135 >но по-моему в шапку не добавили instrumentality-rp По моему в шапке вообще ни одной модели нет. Ну а если ты про список моделей от тредовичков, то там уже больше полу года ничего не обновляется.
>>1029160 >Ну играйте в нонешние триплэй а для более старых и 3090 не требуется тем более несколько. Даже в хайрезе. если только терабайтами модов не обмазывать, но там и суперкомпа не хватит >RX в треде — слабоумие и отвага. тут ещё пятимерное существо на ином уровне существования интоле пробегало, помянем. Но раз уж подняли тему, в треде есть отчаянный извращенец, гоняющий на нескольких rx сразу, или я первым таким отбитым буду? ? это в принципе реально?
>>1029307 >Чтож, земля пухом куртке, будет знать как работягам жопить врам. Китайцы вместе с бидоном в два ствола выебали его. Если бы. Он пока что гегемон в своей области. Выебать гегемона можно, но только когда он ослабеет и наделает ошибок - см. Интел, которого нынче только ленивый не пнёт. А Куртка скупит свои подешевевшие акции, ещё и заработает.
>>1029235 Не-не, есть еще всякие демки и инди, где графон по-настоящему хорош, и требования соответствующие. И там все нормально. =) Их немного, но факт, что видяхи есть куда применить без повесточки.
>>1029307 Чтобы куртка пошевелил своим кожаком акции зеленых должны пару месяцев подряд падать, если не дольше. В данном случае отрицательный рост вообще не связан напрямую с их продуктами, это параноики шизики начали слив на фоне прогнозов других шизиков. В течении недели или пары дней всё откатиться назад. Ну или трампыня выйдет и еще пару лярдов распорядится в чиподелов и нейронщиков вбухать.
>>1028758 4К топ вещь. Лично я бы, если бы была возможность, хоть в 30 фпс (стабильных катал), но в 4к и со всеми свистоперделками. А так у меня 4к без свистоперделок.
Впрочем, всё зависит от игры. Где-то даже 120 фпс маловато и есть реальная разница между 120 и 240. Лига легенд, например. Когда я в неё пару часов в день с братюнями катал, то там из-за крайне высокой динамики сражений чем больше фпс, тем лучше. Разницы не будет видно, наверное, если фпс больше 300.
Ну и в обычных играх и даже на рабочем столе 60+ всегда приятно. На 60 изображение словно рвань ебаная, оконные анимации, движение мыши и прочее.
Есть ли ощутимый выхлоп, если я подключу мониторы к цпу вместо гпу? Сколько освободится врам? У меня проц с буквой f сам не могу проверить, но готов влошиться, если ощутимо.
>>1029427 >сейчас на ChatWaifu_12B_v2.0 сижу, есть ли смысл на что то другое перекатываться? Если текущая сетка устраивает, зачем перекатываться? Ничего более жирного ты явно не запустишь, а тюны на 12B особо сильно друг от друга не отличаются, с поправкой на некоторые индивидуальные болячки. Хотя, Wayfarer-12B шибко хвалят в последнее время, так что можешь попробовать. Но учитывай, что он больше под сторитейл заточен.
>>1029435 >Какой-то DeepSeek вышел, это новая база? Уже давно обсосали, пролистай последние два треда.
>>1029436 >Есть ли ощутимый выхлоп, если я подключу мониторы к цпу вместо гпу? Сколько освободится врам? Менее или около 500 мегабайт, если не шуршит труба в соседней вкладке. В любом случае прожор в простое сам можешь замерить даже через дефолтный диспетчер задач.
>>1029506 Кек, ну оно работает и оно выдает текст быстро. А Q4 уже начинают напрягать видяху, что браузер виснет, генерация завершается ошибкой и прочие прелести.
>>1029500 не советую пользоваться этой моделью, она сама по себе не очень, тем более зашакаленная настолько. лучше уж миксы местные. Если карта 8гиг, используй хотя бы q4_К_М, выгружай больше в оперативную память все равно на кобольде сидишь будет медленнее, но гораздо лучше.
>>1029500 Она на основе немо, а шаблон ты используешь под ламу 3. Но немо всё равно пытается цеплять этот шаблон, и он должен нормально работать, если ты инстракт включил и выставил его тоже на ламу 3. Там <|eot_id|> будет стоп стрингом, и таверна будет останавливать генерацию по нему. А так автор модели на её странице рекомендует chatml.
>>1029511 Вот этот >>1029516 дело говорит по поводу кванта. Q3 совсем уж пожатый, да ещё XXS. У меня у самого 8-ми гиговая карта, и я катаю немо в Q4_K_M со всеми слоями в видяхе и галкой lowvram, чтобы контекст был в оперативе. Будет куда медленнее, но более чем терпимо. Либо можно без lowvram 34-35 слоёв в видяху ставить, если с 8к контекста. По-моему, по скорости получается одинаково с lowvram.
Я покакал попробовал намержить что-то, +- рабочее, с учётом особенностей шизы изначальных моделек в низком кванте. На мой взгляд получилось неплохо, уже 900 сообщений откатал на разных карточках брат жив. Юзаю в Q4_K_M. Если карточка не хорни, то в трусы сразу не лезет, вроде. В вебуи кобольда надо в чат режиме юзать, в таверне всё сразу ок. В русский может. В простое приключение может. mradermacher/Unity-12B-GGUF Пойду поРАБотаю
Тыкните меня в обсуждение железа под модельки, чтоб цена/качество прям в космос улетала, все глаза просмотрел, совсем слепой ничего не вижу. Может есть смысл старого серверного говна накатить, главное ведь врама побольше?
Итак, где тут тот пидорас, который мне рассказывал что кванты это плацебо ? Я вчера весь день угробил тыкая мерж пантеона с цидонькой на разных квантах, и мне есть что сказать. Во первых, тот кто решил что мешать между собой сорта мистралей это хорошая идея - тот долбоёб. Потому что хуже оригинальных тюнов. Во вторых 13гб На 4Q и 17гб на q6 - ебать какая разница. В первом случае он постоянно лупится, тупит и порой вообще игнорирует что написано в сообщении. Прям совсем игнорирует, прям пиздец. Ну и в третьих я подтвердил своё старое йа с тем, что мистрали - it's all same shit, а значит пользуйтесь пантеоном или цидонией и не ебите себе мозги (Только держитесь подальше от магнума, он ебанутый)
>Потому что хуже оригинальных тюнов Смотря в каких задчах, моя цель была понизить позитивный биас и разнообразить свайпы в рп, эта цель успешно достигнута.
>магнума, он ебанутый Всегда был ибо обучен на чатлогах обитателей /aicg/-подобных тредов.
>>1029566 >пантеоном или цидонией А мерж может и рыбку съесть и на хуй сесть одновременно, в хорошем смысле.
>>1029571 >Всегда был ибо обучен на чатлогах обитателей /aicg/-подобных тредов. Я бы добавил в шапке треда про магнумы только одно - НЕ НАДО Пишет как дегенерат, рассуждает как дегенерат, промты проебывает как дегенерат, сука, просто отвратительный опыт. Я не знаю кто наслаждается магнумом, но это пиздец.
>>1029571 >не я =)) Смотри мне, я слежу за тобой. >А мерж может и рыбку съесть и на хуй сесть одновременно, в хорошем смысле. Чъестно, разница за 6 часов РП личных тестов только в двух моментах. Я сейчас не про мержи, а про саму пантуху или цидонию. Если цидонька при встрече с оборотнем дает примерно 80% свайпов про то как вы начинаете ебаться, то пантеон даст 50% шанс на откусывание твоего ебала. Ну и я под впечатлением от витиеватых описаний цидоньки. То что я люблю. И цветочки опишет, и травку, и как ветер колышет меховые пенисы, красота же.
>>1029235 >в треде есть отчаянный извращенец, гоняющий на нескольких rx сразу Ну есть, только на вулкане. На rocm не завелось, подозреваю, из-за старости. Хотя на instinct'ах на архитектуре gcn вроде запускали мультигпу успешно, в issues в герганыча отписывались. >>1029570 >нормально запускаются Ну как бы запускаются, если у тебя поддерживаемая карта и последняя версия rocm >танцы с бубном, дровами и поддержкой сорта Это если ты пытаешься запустить что-то, выходящее за рамки официальной поддержки. >или Не "или" а "и".
>>1029387 > пару месяцев подряд падать Они кончатся через неделю такого падения, лол. Почти половина триллиона капитализации за пару дней - это пизда. Ещё и санкции на куртку наложены своим же правительством.
>>1029745 Тебе хочется ебли падежей ? Тебе не хватает окончаний по родам ? тебе хочется увидеть Олег поднял ее повыше, и она завела ноги за его спину, обхватывая его талию и прижимая его сильнее к себе. Теперь только тоненький лоскуток трусиков отделял ее от его члена. ?
>>1029760 >А ты с ссылкой приходи, посмотрим что пишут. Моё дело вбросить. Если народу лень задницу поднять, значит никому не надо и время для технологии ещё не пришло.
>>1029784 Держи. На реддите читал, что китайцы заявили - дипсик за 3 копейки тренируется и мощные картонки нвидиа больше не нужны (те которые из-за санкций в Китай не поставляют). Я не понимаю в чем тут логика, всю историю развития компьютера люди находили куда большие мощности отдавать и вдруг перестанут?
>>1029785 Я волнуюсь, что наоборот дороже все станет раз проблемы у корпорации.
>>1029787 >Держи. ЛОВЛЮ БЛЯТЬ, ДЕРЖИТЕ МЕНЯ СЕМЕРО, УЖЕ РУКИ РАССТАВИЛ
Ну да, действительно падение есть. Ну будем смотреть. >>1029787 >Я волнуюсь Абсолютно бессмысленно по причине отсутствия у тебя рычагов повлиять на ситуацию.
>>1029777 На дипсик ещё наложились санкции и новая серия карт. 5090 фактически не будет, а остальные карты говно с 8 гигами врам и фейковыми кадрами. > неприятно и тревожно Наоборот надо радоваться. Цукерберг и Альтман уже волосы на жопе рвут, а мечта местных сбылась - закрытые модели поставили на место, забрав их монополию. Теперь с анальными болями в США будут пытаться сделать что-то новое и ускорять разработки. Ничего лучше конкуренции не может быть для потребляди.
>>1029777 Бидон в последние дни решил всем поднасрать, а Трамп не спешит отменять указ и ждет обсуждений что планируются. По поводу дипсика - это вообще смех и байка для хлебушков (хотя использовать ее чтобы расшатывать можно, да).
>>1029852 > байка для хлебушков Так в США он внезапно обогнал жпт по скачкам приложений. Имадженируй ебало Альтмана, когда в топе ИИ-приложений на мобилы на первом месте висит Дипсик. Трампыня объявил Китаю ИИ-войну с распильным бюджетом в 500 лярдов и за неделю проиграл модели за 8 лямов. До людей начинает наконец доходить как выглядит ИИ-скам, когда миллиарды распиливают в пустоту, хотя фактическая стоимость тренировки в 1000 раз ниже и всё решает компетентность обучающих.
>>1029869 Ждём после СВО хода мудрого Си, как заберёт Тайвань, так и будет всё. Хотя у китайцев уже есть наработки свои, они просто экономически неконкурентноспособны, но при этом вполне рабочие с производительностью уровня амуды в ИИ.
Привет, аноны. Я из соседнего треда по генерации картинок. Мне бы локально поставить сетку, которая могла бы в нецензурированный (ванилла и фетиши) промпт-ген хотя бы на уровне "вот готовый промпт — сделай вариаций". Имею всего 16 рам и 8 врам. Посоветуйте? Английский знаю, по работе пользовался ollama.
>>1029866 То что он популярен - это хорошо, то что они выкладывают модели в опенсорс - хорошо втройне. Даже если они не удовлетворяют чьим-то хотелкам или на самом деле просто надроченны на бенчмарки и ограниченные кейсы. И щелчок по носу клозадем - отлично. А байка про херню что для тренировки нужно в 20 раз меньше видеокарт, что сейчас датацентры пойдут закрываться и подобное - полнейший бред для шизиков. Там уже планируют кластеры типа аэс+мегадатацентр, как раньше было с некоторыми мегазаводами, и спрос на карточки никуда не денется. Это еще так тиражировать начали и спамить кринжовые вонаби-технические статьи на одному шаблону. Чистейшей воды манипуляция для нормисов, у которых ллм это буквально приложение на телефон и интернет туда помещается. В конечном итоге все это приведет лишь проблемам для обычных потребителей и энтузиастов, ибо угадайте какой рынок пойдет первым по нож после плохих квартальных отчетов куртки. А альтернатив всеравно нет и врядли будет в ближайшие года 3-4.
>>1029911 > манипуляция для нормисов Реальный отток капитала тоже для нормисов нарисовали, лол? Триллион баксов из айти-компаний за день вышли в реальности, а не в твоих фантазиях про манипуляции. Факт в том что инвесторы бегут с тонущего корабля. Особенно когда рядом у друзей Трампа есть бесконечная труба с баблом, откуда будут сосать миллиарды не один год.
>>1029887 Мне показалось, что Eros_Scribe, даже один из небольших кванов от 7b на 5 гигов, на английском прекрасно пишет и все понимает, и прям быстра. Есть побольше, типа 10b. Если чуть-чуть не влезет в видяху, то все равно быстра, если много не влезет видяху, то типа медлено, но по-любому будет юзабельно даже на проце, все равно быстрей будет, чем пишет человек.
>>1029957 Я только вкатываться собираюсь, не знаю что по-прежнему. И шо, только объем и больше нихуя не роляет, сам чип не влияет? И 2 штуки работают точно так же, как 1 в 2 раза большего объема?
>>1029993 MoE, там 37B активных параметров из 671B. Т.е., только 5,5% модели обрабатывается. Из 131 гига — получается 9 гигов. Как 9b модель в Q8_0. Ну, очень грубый пример.
>>1029773 Да. Даже я б тогда, хоть у меня и скорость медленная, юзать её стал. Если бы там нормально было. Но, вероятно, это возможно только через жопоразрывное дообучение модели.
Хотя я б облизвался и на клодослоп. Лишь бы русиком насрал с она провела пальцем по моему подбородку.
>>1029747 Не, нихуя. Гугл самый отвратительный из этой шоблы.
Яндекс лучше всех, но иногда сыпется там, где не сыпется дипл, и наоборот, вот только симпл-димпл ещё и платный по апи.
>>1029749 Знаешь, даже не совсем этого, хоть это и круто. Если бы у модели был богатый словарный запас, хотя бы 40% от русека клода (у него он реально оче крутой), то это был бы отвал башки.
>>1029762 О, кстати. Очень странно, почему он хронос воткнул. Ведь есть же Немо микс анлишед, который ебёт в русике весьма смело и хорош в рп. Хронос в этом вопросе кал по сравнению с ним на мой взгляд.
>>1030030 Я все еще нихуя не понял, давай конкретный вопрос задам: Вот тут написано, что выдает 2т/с на 24гига (хуйпойми только какие именно). Если я хочу 5т/с, то мне надо самых пиздатых 2х24 купить, или самых дешевых 4х12?
>>1030048 Влияет и объем памяти, и скорость памяти, и чип. Но по-разному.
В 2х12 влезет то, что влезет и в 1х24, но не влезет то, что влезет в 2х24. Чем больше — тем лучше. Почти всегда.
Далее уже идет скорость и чип. Как правило, они довольно хорошо соотносятся. Кроме 4060 ti, у нее такая медленная память, что выдает скорость не сильно выше 3060, хотя чип сильно мощнее.
Объем не увеличивает скорость. Если ты хочешь вместо 2 токенов сек на 3090 получить 5 токенов сек — тебе надо покупать H100 за три миллиона рублей и поднимать там TensorRT. =D Вот и будет заебись. А 1, 2, 3 4090 дадут максимум 3 токена, и то вряд ли.
Короче, надо смотреть в комплексе. А на объем дрочат потому что иногда можно и подождать, ради охуеть какой умной модели.
>>1029921 Ебало хомячка имаджинировали? > в твоих фантазиях про манипуляции Чел, ты настолько наивен или просто тупой? > инвесторы бегут с тонущего корабля Потому что дипсик! Нет ничего рофловее чем аналитика от шизоидного хомячья. >>1029950 3090 с лохито вне конкуренции, есть и подводные. Есть еще тесла но с ней медленно и они слишком дорогие. >>1029962 Чип роляет на обработку контекста. Генерация в основном упирается в пропускную способность памяти ибо банально нужно гонять до чипа все веса на каждый токен. И тут одно дело медленнее а другое дело никак, потому врам в приоритете. > И 2 штуки работают точно так же Две штуки позволят запускать модель вдвое больше, скорость не складывается. Точнее есть режимы в которых ее можно повысить раза в 1.5, но там такие побочки что не захочешь. Скорость генерации легко оценить как "объем модели/псп врам", при условии что вся она будет в видеопамяти одной или нескольких карточек. Обработка контекста - флопсы. >>1030048 Пары 3090 хватит чтобы катать 70б в минимально-нормальном кванте с среднего размера контекстом (20-25к если без квантования, до 50к если в q8) со скоростями ~15-19т/с. Оценивая групо по бенчмаркам и интерполируя, 4х 3060 позволят запускать примерно то же самое, но со скоростью где-то в 3 раза ниже. 3х 4060ти@16 будет где-то там же.
>>1030060 По какой ссылке? В треде, на который я ответил, ссылок не было. Я просто описал значимость и зависимость. О какой модели речь? :) В каких условиях?
———
Запустил на 128 гигах озу и 48 врама deepseek IQ1_S. Оно отвечает разумно и работает с предсказуемой скоростью. 37B активных параметров — 1.5 tok/sec на DDR4. На DDR5 можно и 3 токена получить, неплохо.
Но хуй знает, ща тестим, насколько оно там разумное, конечно.
>>1030075 Это потому, что ты используешь уже расцензуреные модели. Но даже они, если им не сказать, что все можно, могут лить сою и отказываться говорить про писюны. На корпосетках, таких как чатгпт, клод и т.д цензура ещё анальные и нужно изъебываться, чтобы сетка начала ерп.
Вот челик молодец, которая в шапке ссылка на рускоязычные, которая SAINEMO-reMIX. Она хорошо учит английскому. Хоть простые, хоть сложные и может разные варианты предлагать.
>>1030124 > IQ1_S Это даже не китайская копия, это прошлогодний пердеж нахуй Не знаю какого интеллекта ты ожидаешь от сетки, от нее там слишком мало осталось Судить о возможностях оригинала или даже 4 кванта по этому ошметку не советую
Тут скорее интересно пощупать, как сильно проседают тернарные биты по качеству, как ведет себя MoE с таким экстремальным сжатием, и, вообще, как ведет себя Deepseek R1 локально. Естественно, полноценно в работе таким я пользоваться не буду. =) Зачем, если есть онлайн-версия.
>>1030230 > это тернарные биты [-1, 0, 1], Нет, это попытка ужать в них модель. На сколько помню настоящие тернарные биты только специальной тренировкой под них получаются. Чего бы ему буквы не складывать? Сжатие до этих бит идет с проверкой весов и прогоном того же перплексити, для оценки того как и куда ужать модель. Это означает что она в любом случае будет что то отвечать, но проверки на разумность ответов скорей всего при сжатии не делали.
>>1030226 оллама говно говна, незнаю кто и зачем продолжает ей пользоваться. Ориентированная для хлебушков но неудобная консольная херня, ни вашим ни нашим. Для нежелающих погружаться в тему хлебушков трухакеров, развлекающихся с командной строкой? хз
>>1030236 Я только сегодня обнаружил этот выкидыш гитхаба, когда выяснилось что Убабуба не хочет в великий китайский ДипСик. Гугел сообщил что мол, на те, ебаный ООламу.
Уже после установки запахло командной строкой и поиском инфы для самых простых действий через редит и питорч, когда она скрылась в трее и высвитила 2 функции- получи Логи обоссаная или выйти, петухо слабый.
>>1030223 Которая 5 гигов Q3_K_S - она нормальная. И она может писать охуенно и быстро на русском. Она хорошо может тебя учить английскому нормально. Даже всякого дополнительного промпта.
А если мемори хорошо напишешь и world info, то ваще наверно заебись.
пацаны пацаны я только сегодня узнал про дипсик р1. Кинулся смотреть сколько она весит в ггуфе и понял что не потяну. Даже первый квант 130+ гб. Смотрю на DeepSeek-R1-Distill-Llama-70B-GGUF. Как она в плане секса?
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичка с уклоном в русский РП: https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.xyz/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: