Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №96 /llama/

>>979552
Бери в магазине такую же ужаренную.

Аноним 16/12/24 Пнд 19:28:11 #15 №979564

Есть ли нейронка для запуска со смартфона для того, чтобы пообщаться с ней на порно темы? Мечтаю, чтобы она отыграла роль срущей поносом Полины Гагарины

Аноним 16/12/24 Пнд 19:29:28 #16 №979565

>>979563
>Бери в магазине
Ахахахахаха ебать даун у него же нет других способов кроме как
>ыыы барыги наеберы
>ыыы барыги в магазах наеберы

Аноним 16/12/24 Пнд 19:30:16 #17 №979566

>>979552
За 1.5 года запуска разного на мультигпу повидал всякого. Народ обзаводится гпу, локальные ллм развиваются до оче крутого уровня, теслы ржавеют устаревают, амперы горят.
И только оправданцы на трясунах исключительно постоянны и не меняют методичку, почему у них нет какого-либо блага что получают другие.

Аноним 16/12/24 Пнд 19:32:33 #18 №979570

>>979509
Нету там 4060ti 16 за 40. А в прошлом году с промокодами и бонусами были по 25, блеать, почему я такой жадный был?
Я на яндексемаркете вот пару дней назад взял за 45 с учётом оплаты через яндекс-карту и промокода на 1,5к. И на следующий день она была 43,5 без промокода, взял бы за 42.
Только их уже раскупили, зато есть 4070 ti Super по 84, но мне уже похуй.
Кстати, есть где адекватный калькулятор потребления для выбора блока питания? У меня Ryzen 5600X, 64гб DDR4, 3060 12, 4060ti 16, 2 HDD, 2 NVME SSD и 1 SATA SSD (ну и плюс охлад проца и 4 кулера в корпусе) - потянет всё это добро БП на 650 Вт? Я просто жопой чую, что потянет, но хотелось бы посчитать.

Аноним 16/12/24 Пнд 19:37:51 #19 №979577

>>979570
>потянет всё это добро БП на 650 Вт
С настройками потянет. Процу питание можно зарезать до 65 ватт, видяхи тоже подрезать. У меня вторая 3090 до 50% порезана, а то блок в защиту уходит, лол.

Аноним 16/12/24 Пнд 19:38:31 #20 №979580

Потыкал aya-expanse-32b-abliterated.i1-Q6

Она МОЖЕТ в связный русский, но путает слова и придумывает новые как сайга, ломает фразы, и в целом ведёт себя как 12B, или даже хуже, тот же сайнемо ремикс выдавал того же качества текст со скоростью не в полтора т/с.

Вывод - не стоит гнаться за количеством параметров.

Аноним 16/12/24 Пнд 19:41:14 #21 №979581

>>979564
Если ты 16-гиговый то можно пускать 4 кванты 7-9б с условно терпимой скоростью. Интерфейсы - неудобное говно, но другого пока не завезли.
>>979577
Настрой курвы андервольтинга для обеих, на 70% тдп там можно практически не терять исходного перфоманса.
>>979580
> не стоит гнаться за количеством параметров
Стоит

Аноним 16/12/24 Пнд 19:43:05 #22 №979588

>>979577
Не, ну если у меня будет работать (то время, пока я буду играться с LLM) так, что БП будет уходить в защиту - то я раскошелюсь на 800 Вт.
Но пока не хотелось бы, и так пришлось новый корпус покупать вместо проперженного 12-тилетней давности, чтобы 2 видеокарты влезло.

Аноним 16/12/24 Пнд 19:51:23 #23 №979594

>>979581
>Настрой курвы андервольтинга для обеих
Я сотку на отвали накинул, потом поднастрою внимательнее.

Аноним 16/12/24 Пнд 19:52:19 #24 №979595

>>979581
>Стоит
Может на 70Б+ и стоит, а в диапазоне 15-32Б я видел пока только три модели заслуживающих внимания - гемма, пантеон, клиффхэнгер, и при этом русские мержи местного анона в русском их обходили.

Хорошо сидеть за ноутбуком и не думать как и где достать видяху помощнее и как её присобачить чтобы всё не сгорело да пробки не выбило, а если и не выбило то счета за электричество не спели романсы.

Аноним 16/12/24 Пнд 19:58:07 #25 №979605

Айя ещё и ломается порой начиная срать выводами вида
<START>

*
<END>

Аноним 16/12/24 Пнд 20:00:25 #26 №979608

>>979605
Промт формат небось не торт.

Аноним 16/12/24 Пнд 20:05:04 #27 №979614

>>979581
>16-гиговый то можно пускать 4 кванты 7-9б
Фига вы батенька зажрались, на 16 гб можно gemma-2-27b с выгрузкой в раму запускать и нормально жить.

А 12Б-Q8 вообще с хорошей скоростью пишут.

Аноним 16/12/24 Пнд 20:10:02 #28 №979626

>>979595
> пантеон, клиффхэнгер
Лол
>>979614
> на 16 гб можно gemma-2-27b с выгрузкой в раму запускать
> для запуска со смартфона
Ты там поехавший совсем?

Аноним 16/12/24 Пнд 20:11:31 #29 №979629

>>979608
Айя это же коммандер, и нужно использовать его формат?

Аноним 16/12/24 Пнд 20:12:14 #30 №979632

>>979626
>Ты там поехавший совсем?
Не, просто 3 часа ночи и чукча не читатель =)))

Аноним 16/12/24 Пнд 20:19:22 #31 №979639

>>979629
Да. Просто в командере <|START_OF_TURN_TOKEN|>, откуда простой старт взялся, весьма интересно.

Аноним 16/12/24 Пнд 20:21:17 #32 №979642

>>979626
>Лол
А что не лол для РП/ЕРП (на русском и на английском) в пределах 16К контекста включая возможное обуждение сложных тем и информационных технологий перед / в процессе / после акта XD

Выше 12B, но до 32Б включительно.

>>979639
>START_OF_TURN_TOKEN
Спс, попробую ещё раз.

Аноним 16/12/24 Пнд 20:31:48 #33 №979654

>>979278 →
>Качай какой нибудь https://huggingface.co/bartowski/gemma-2-9b-it-abliterated-GGUF/resolve/main/gemma-2-9b-it-abliterated-Q5_K_L.gguf?download=true
Скачал по твоей рекомендации.
6Гб модель работает уже ощутимо медленней. Буквы медленно появляются, чуть медленнее скорости чтения. Терпимо, но все таки медленно.

Но зато и историю она придумала подлиннее и поинтересней.

Аноним 16/12/24 Пнд 20:32:59 #34 №979658

>>979525
>У тебя всё работает на той же скорости
Работает в 1.5-2 раза быстрее
>зачем тебе этот микс
Ты вообще не читатель поста, на который отвечаешь? Я пишу, что я не буду сидеть на более низких квантах.

>>979542
Ты готов дать гарантию, что эти 3090 протянут хотя бы год? Может их действительно каждые две недели покупать надо.
>Там промт карточки чара будет до утра
Хз, полтора токена будет - и то хорошо, если модель реально пиздатая.

Аноним 16/12/24 Пнд 20:41:26 #35 №979669

1617139848337.jpg

>>979658
> я не буду сидеть на более низких квантах
Тем временем я, пользующийся IQ3 чтобы влезло в мой 12гб огрызок

Аноним 16/12/24 Пнд 20:43:54 #36 №979673

>>979658
>полтора токена будет
Полтора т/с это медленно, но ради качества терпимо.
Проблема в том что не всегда больше параметров - выше качество

>>979669
>IQ3
Она же тупаё. Минимум 4, а лучше 6, ниже четерёх модель уже теряет 3/4 точности, на шестом кванте - несколько процентов.

Аноним 16/12/24 Пнд 20:46:14 #37 №979676

>>979673
> Она же тупаё.
Темпу до 0.97 опускаешь и начинает думать. Мне лучше 25 т/c и пара свайпов когда совсем не туда ушло, чем умное и правильное с первого раза, но в потешных 4 т/с где мне уже понятен сюжет с первого предложения, а оно продолжает тужиться.

Аноним 16/12/24 Пнд 20:47:03 #38 №979677

>>979658
>Ты готов дать гарантию, что эти 3090 протянут хотя бы год?
Конечно нет. И на теслы никто не даёт гарантию. Я всегда говорил, что лучше арендовать - всегда будешь на актуальном железе. Способ не без недостатков конечно.

Аноним 16/12/24 Пнд 20:53:29 #39 №979678

>>979673
>Она же тупаё
Для 123B это нормальный квант.

Аноним 16/12/24 Пнд 20:55:51 #40 №979683

Правильно я понимаю, что максимум в 24Гб можно с контекстом запихнуть ~30Б в нормальном кванте?

Аноним 16/12/24 Пнд 20:58:13 #41 №979685

>>979683
Нет. "Нормальный" квант для каждой модели разный. Тестируй, или у тебя помегабайтная оплата?

Аноним 16/12/24 Пнд 20:59:45 #42 №979686

>>979678
>123B
даже второй квант 123B весит 45 ГБ

Аноним 16/12/24 Пнд 21:02:36 #43 №979689

>>979686
А две 3090 дают 48. Плюс разговор изначально шёл за анона с 3090+3090+3060, а там 3k_s на 50 гиг разместятся со свистом. Его p40 только тыквят нормальные картонки.

Аноним 16/12/24 Пнд 21:05:41 #44 №979693

Теоретически могу попробовать 70B Q3_K_M скорость правда будет неюзабельная, небось меньше токена в секунду, но просто как МОЗГИИИИИ проверить, какие 70B есть актуальные под рп?

Анг норм.

Аноним 16/12/24 Пнд 21:07:27 #45 №979695

>>979677
>И на теслы никто не даёт гарантию.
А вот тут ты неправ, у моих тесл гарантия год, я не с лохито их покупал.

>>979673
>Проблема в том что не всегда больше параметров - выше качество
Может их просто пока не научились тренить или тюнить толком, вроде писали, что Гермес 405B так себе затюнен. И спроса особо нет, видимо, раз локально такую йобу в комфортных скоростях запустить мало кому под силу. Но вдруг выкатят что-то в промежутке от 120 до 400, тогда спроса будет побольше, т.к. низкие кванты реалистично запустить будет. Или может такие модельки уже есть? Я особо не слежу за новостями, чекаю только мрадермархера и автора магнума периодически.

Аноним 16/12/24 Пнд 21:10:59 #46 №979698

>>979677
>лучше арендовать
арендуешь
2
через неделю звонок в дверь
2
в глазке ехидный тов. майор с распечаткой логов кобольда

Аноним 16/12/24 Пнд 21:12:59 #47 №979700

>>979698
>товарищ майор
И товарищ военком

Аноним 16/12/24 Пнд 21:13:58 #48 №979702

>>979685
>нормальный
Ну мне кажется для любой модели 5 и выше нормально уже

Аноним 16/12/24 Пнд 21:16:24 #49 №979705

>>979658
Могу дать гарантию что ждуном будешь ныть и сожалеть о том что не купил до скончания веков пока остальные инджоят
>>979689
> 3k_s
exl2 в суб-4битах можно вместить, будет ТУРБОРЕАКТИВНЫЙ ЗАВОЕВАТЕЛЬ с легким налетом лишней хромосомы, а может и норм
> Его p40 только тыквят нормальные картонки.
Именно

Аноним 16/12/24 Пнд 21:24:49 #50 №979715

Братишка,я тебе покушать принёс Зеленый слоник [YyfeNcRH2I].mp4

>>979654
А теперь зацени как большая гемма может.

Вежливое напоминание: любая модель меньше 27-32b - по умолчанию мусор не пригодный ни для каких задач кроме "Я тебя ебу - Да, ты меня ебешь". Это факт. Аксиома.

Алсо, в настройках там поставь побольше токенов на ответ, можно максимальное значение. И в системном промте напиши чтоб писала ЧУВСТВЕННО, ХУДОЖЕСТВЕННО, чтоб не скупилась на ЭМОЦИИ, на всякие красивости в тексте и т.д. Просто своими словами, на русском, она поймет. Это немного набаффает длину и качества ответа, но от 9b все равно особых чудес не жди.

Аноним 16/12/24 Пнд 21:35:38 #51 №979724

>>979715
>Это факт. Аксиома.
Только в твоём маня-мирке, ебобоша.

>>979715
>ЧУВСТВЕННО, ХУДОЖЕСТВЕННО
Рубрика "Бредные советы от шизла"

Аноним 16/12/24 Пнд 21:36:09 #52 №979727

>>979715
> Вежливое напоминание:
Прочитав это, пигма испытала shivers down my spine. Анон, неужели я недостаточно хороша для тебя? Blushes slightly

А если серьезно, появилась интересная нлп задача где нужно оперировать абстракциями, не упарываться буквальными формулировками, ну и пройти некоторую последовательность коммант с котом. Если будет не лень то попробую сравнить что там из нового выходило, лоботомиты скорее всего сольются.

Аноним 16/12/24 Пнд 21:39:25 #53 №979732

>>979727
Я на реддите видел днд сценарий на эту тему + таблицу сравнивать ответы, но на деле это просто тест на галюны как анон в одном из прошлых тредов в исекай карточке сваливал с тянками, оставляя кунчиков вайпаться об маоу и потом просил описать, а что тем временем произошло на месте махача.

Аноним 16/12/24 Пнд 21:40:36 #54 №979734

>>979724
>Бредные советы
Хм, хочешь сказать что с 9-14b - это не сработает? Чтож, спасибо что подтвердил мои слова о том, какой они мусор.

Аноним 16/12/24 Пнд 21:41:30 #55 №979736

>>979715
Неплохо. Действительно внушает.
Это в базе или с советами писать ЧУВСТВЕННО?
Это сколько ГБ?
На чем рендерилось и сколько?

Аноним 16/12/24 Пнд 21:42:33 #56 №979737

>>979736
А все. Заметил, что это гемма 27б

Аноним 16/12/24 Пнд 21:47:10 #57 №979747

>>979734
>это не сработает
Во первых, писать на английском в систем-промте / карточке, во вторых, это как легендарное (((very sanny))) для рисовалки на первой сдхе

"Художественно" - может сработать и будет шекспировский слог

"Чувственно" - почти наверняка нет, это и ту же гемму 27 в ступор вводит.

Аноним 16/12/24 Пнд 21:50:35 #58 №979753

>>979732
Все эти вещи достаточно субъективны, могут быть интерпретированы оче широко просто из-за настроения оценщика, хотелок, или быть скомпрометированы наличием такого же в датасете. И анекдотичная ситуация
> у рыб чешуя и нет шерсти, а была бы шерсть, были бы блохи, а вот блохи...
может быть интерпретирована в пользу модели не без доли справедливости. Плюс влияют особенности пахомовских карточек, промтов и прочего.
Тут же вполне конкретная задача по анализу текста на соответствие критериям, причем эти критерии сначала нужно нормально сформулировать, нсфв присутствует. Гемма хорошо справляется, чмоня переигрывает с графоманией раздумий но отвечает молодцом, что поменьше хочу попинать в надежде вдруг будут справляться.

Аноним 16/12/24 Пнд 22:03:38 #59 №979765

бля кароч топ разрыв вам принёс
https://huggingface.co/knifeayumu/Cydonia-v1.3-Magnum-v4-22B

в отличии от оригинальных магнумов оно давольно таки варикативно делает всё, и даже не вставляет через каждое предложение фразы по типу "шлюшка которой ты и являешся"

Аноним 16/12/24 Пнд 22:10:04 #60 №979774

>>979765
>не вставляет через каждое предложение фразы по типу "шлюшка которой ты и являешся"
Тот момент, когда двачера унижает и доминирует его же локальная нейросетка, которую двачер запустил на своём же канпуктере...

Аноним 16/12/24 Пнд 22:11:23 #61 №979776

Screenshot20241216222443.jpeg

Айя очень чувствительна к промт формату и будет работать только в инстракт моде с нужными тегами, пресет для коммандера.

Также чувствительна к семплерам.

Seed = 1 на пикче не баг а фича... надо только не забыть обратно на -1 переключить.

С такими настройками удалось добыть из неё адекватный вывод.

А почему тогда некоторые (да большинство рп-тюнов вообще вплоть до 32, выше не запускал) могут работать без тегов, чисто на текст комплешионе?

В чём разница ?

>>979765
Магнум 4 очень так себе, цидония 1.1 была норм, 1.2 как-то поворот не туда, версия их вместе была дважды мэх, ну, можно глянуть изменилось ли что к лучшему в 1.3

Аноним 16/12/24 Пнд 22:14:38 #62 №979777

>>979736
> Это в базе или с советами писать ЧУВСТВЕННО?
Это в Author's Note. Просто напиши туда желаемую стилизацию ответов и какими ты их в целом хочешь видеть. У меня еще была проблема, что моделька писала мало текста, меньше чем установленный лимит ответа. Добавил туда что "по объему ограничений нет и ответ должен быть минимум в 25 абзацев". Сразу же начала долбить текст до упора в лимит.

> Это сколько ГБ?
Модель или видяшка? Модель - 16.9гб, гпу - 12гб, частичная выгрузка на проц. Скорость 3.5 т/с и падает по мере роста контекста.

>>979747
А в чем смысл писать на английском, если модель отлично понимает русский и пишет на нем? Ты можешь сам это потестить в кобольде. Систем-промты на нем прекрасно работают. Может там конечно в таверне какие-то свои приколы? Я редко рпшу, поэтому она мне ни к чему. В кобольде всё норм.

>это как легендарное (((very sanny))) для рисовалки на первой сдхе
Сам в голосину ору видя как на civitai челики НА ФЛЮКСЕ в промт лепят "1girl", "high quality", "masterpiece" и прочее дрочево от полторашки.

Но это другое лол. Работоспособность и систем промта на русике и тегов в рисовалке можно проверить экспериментально. В моем случае - русик работает.

Аноним 16/12/24 Пнд 22:27:43 #63 №979790

Screenshot20241216222505.jpeg

бля почиму кобольт работает медленно гинирирует, лама.спп тоже, но бля оллама летает ваще пздц держите меня семеро

Аноним 16/12/24 Пнд 22:30:59 #64 №979792

>>979790
Видеокарту купи, довн безграмотный мелкобуквенный.

Аноним 16/12/24 Пнд 22:31:03 #65 №979793

Screenshot20241216223017.jpeg

>>979570
Сегодня в личку чел стучался, советовался. Взял.
Прошло пара часов — уже 43к, ага.
https://megamarket.ru/catalog/details/videokarta-colorful-rtx4060ti-ultra-w-duo-oc-16gb-v-147460-100066398371_112431/

Ну, за 40 была, брали, вот. Кому нужно, тот успел, как говорится.

> почему я такой жадный был
+, была 3060 12 гиговая за 12к рублей. Пожадничал.

> адекватный калькулятор
Особо нет.
Просто чекай потребление.
100 ватт на проц, 50 на материнку, 50 на диски, кулеры, 200 на 3060, 250 на 4060ти, вот тебе 650 впритык, не потянет, если будешь грузить 100%.
Но если ллм, то должно, там видяхи жрут не полностью.
Плюс, по-хорошему карты даунвольтят, можно ватт 150 выиграть на обеих вместе, не потеряв производительности. Ну и ладушки, вот тебе и влез.
Но лично я предпочитаю брать бп с большим запасом. Ни разу в жизни не пожалел, ну переплатишь разок 5к рублей, не велика проблема.

>>979581
> Настрой курвы андервольтинга для обеих
Все так.
Это стоит делать в любом случае, при любом бп. Нахуя карты перегревать-то.

Аноним 16/12/24 Пнд 22:32:10 #66 №979796

>>979774
может я тот ещё куколд субмесив

Аноним 16/12/24 Пнд 22:32:43 #67 №979797

>>979774
>двачера унижает и доминирует его же локальная нейросетка, которую двачер запустил на своём же канпуктере
ну а минусы какие?

Аноним 16/12/24 Пнд 22:46:57 #68 №979817

>>979793
У меня просто 650 уже есть, он брался во времена, когда я брал 6600XT (а потом появились нейросети на пека, и я обнаружил, что амд-видюхи сасайтунг), плюс именно в момент покупки он продавался с хорошей скидкой (а был в перечне хороших БП от двача).
Про андервольтинг надо будет почитать, да, но пока что я в этом плане хлебушек, да и до пекарни доберусь под Новый Год только (хорошо что было кому принять заказанную 4060 ti).

Аноним 16/12/24 Пнд 22:48:25 #69 №979819

>>979793
Максимальное потребление видеокарт и рекомендуемая мощность БП есть здесь в табличке:
https://www.nvidia.com/ru-ru/geforce/graphics-cards/compare/?section=compare-specs
Для 4060Ti максимум 160-165 вт, и рекомендуемый БП 550 вт. Кстати, в зависимости от производителя бывают в толщину на 2 слота, а бывают на 2,5 (например asus).

Аноним 16/12/24 Пнд 22:50:46 #70 №979821

>>979777
>>979736
Медленнофикс

>Это в базе или с советами
>Это в Author's Note.
Это С СОВЕТАМИ в Author's Note. Там моя простынка, скопировал с соседней карточки под РП. И ползунки еще настроены как на скрине. Это пресет Godlike с поднятой до единицы температурой.

Аноним 16/12/24 Пнд 22:58:33 #71 №979824

>>979541
Мне больше интересно, почему в груп чат постоянно пересчитывается. При "swap cards" понятно, то одна, то другая подставляется в начало контекста, но при merge зачем их постоянно в разном порядке мержить, непонятно. Хотя предположение есть, что разраб сидит на каких-нибудь онлайн-сервисах и не в курсе, что контекст можно и нужно менять как можно меньше для кэширования.
>>979424 →
>если скидываешь часть туда часть туда то уже нужно на опыте прикидывать
Упирается в объём, который остаётся в рам. То, что в врам видеокарта считает быстрее, условно можно приравнять к нулю. Сколько процессор будет считать свою часть, примерно столько и будет общая скорость. По крайней мере, результаты замеров на моём конфиге это подтверждают.
>>979471 →
Гигабитные зажрались, мне и на 100мб норм, а если тяжёлое качать надо, можно запустить скрипт на ночь, к утру пяток моделей по 70+ успевает закачаться.
>>979509
>На 7b и ниже жизнь есть только на Q8_0
Смотря в каком контексте. Вот предположим у нас мало памяти и выбор между 7b в q4 и 3.5b в q8. Прям как 70b и 35b, только в 10 раз меньше. В случае крупных моделей, 70b вроде поумнее кажется. Но это не точно. Ну по крайней мере против запуска 70b в q4 в треде особо не возражают, значит это, как минимум, заслуживающий внимания вариант для своего размера. В случае 7b и 3.5b что-то будет отличаться? 3.5b будет лучше?
>>979774
Так для этого и запускают. Только вот могут нормально задоминировать не только лишь все модели. Мало какие могут внятно проявлять инициативу и двигать сюжет, чтобы у двачера ирл шиверсы даун хиз спайн побежали, а не на экране в чате в бесконечном лупе.

Аноним 16/12/24 Пнд 23:03:03 #72 №979828

>>979819
Да, у меня как раз Asus Dual и 3060-12 и 4060ti-16 - но всё влазит на мою материнку.

Аноним 16/12/24 Пнд 23:04:05 #73 №979830

А кто-нибудь развлекается непосредственным общением с сетками по типу витуберства? Чтоб с аватаром и аудио вводом-выводом? А то в самом нейровитуберстве прогресс уже дошел до полностью автономных стримов без участия владельца. С чатами, донатами и всем прочим. А то где-то попадалось что уже можно поболтать с виртуальной Эммой Уотсон и типа того. Кто-то в курсе таких технологий?

Аноним 16/12/24 Пнд 23:30:12 #74 №979848

Какие там хорошие модели/мерджи что шпрехают на русском тут сильно советовали?

Аноним 17/12/24 Втр 00:07:12 #75 №979871

Анон, что генерацию видео советовал. У меня крашится на этапе loading checkpoint shards, по загрузке видно, что он выжирает всю RAM, хотя у меня 3090. Как это побороть? Почему он не выгружает на видеокарту?

Аноним 17/12/24 Втр 00:31:10 #76 №979877

>>979871
У тебя рамы больше чем врамы что ли? Вставь 64 гига хотя бы, не нищук же.

Аноним 17/12/24 Втр 00:49:26 #77 №979882

>>979871
Файл подкачки выстави побольше просто, эта рам выделается но по факту не используется.

Аноним 17/12/24 Втр 01:00:34 #78 №979888

>>979830
Как будет больше врама, соберу что-то похожее, а пока не вижу как это все в 12гб вместить. По отдельности уже все протестил, проблем не должно возникнуть.

Аноним 17/12/24 Втр 01:09:52 #79 №979890

>>979871
>по загрузке видно, что он выжирает всю RAM, хотя у меня 3090.
32гб хватает впритык. Сам сегодня попробовал, в первый раз тоже вылетела, взял самую лёгкую модель, fp16 VAE, закрыл все лишние приложения и браузеры и получил видео. Кстати совсем неплохо.

Аноним 17/12/24 Втр 01:20:20 #80 №979895

>>979830
> А то в самом нейровитуберстве прогресс уже дошел до полностью автономных стримов
Ну года полтора назад и дошел, тащемта.
Просто модели умнеют, и голоса лучше становятся, остальное и тогда было. Я год назад делал, кекал, запускал пару стримов.

Проблема в скорости. вшипер (гигаам) + ллм + xttsv2 (fish-speech) = 10 секунд подожди, братишь.
Есть проще и быстрее, но там качество хуже и без воисклонинга.
Ну, я тогда же настраивал аватара в дополненной реальности, чтобы он прям в моей комнате стоял и разговаривал. Это немного дух захватывало, крипово, когда говоришь с компом и не можешь переписать реплику, подумать. Стоит и слушает тебя.
Забавное.
Но, повторюсь, с тех только ллм поумнели и фиш-спич лучше озвучивает, больше ниче не изменилось.

Полноценные мультимодалки с воис-клонингом и при этом тюненные не вышли.

>>979871
В видео у тебя складывается «контекст» — сами кадры. А модельки грузятся в оперативу.
Там есть пункт в Load model разных offload_device, кажись, можешь поменять его на main_device, чтобы грузилось в видеокарту.

Аноним 17/12/24 Втр 01:21:08 #81 №979897

>>979895
* вишпер

Аноним 17/12/24 Втр 01:30:38 #82 №979905

>>979871
Вот тут load_device выставить main_device.
Попробовать так, но тогда размер (или длительность) видосов большими не выставить. Зато моделька будет в видеокарте, как я понимаю.

Аноним 17/12/24 Втр 01:31:19 #83 №979906

Простите за оффтом, ребят.
>>979871
Можем пройти в этот тред >>965255 (OP)

Аноним 17/12/24 Втр 02:56:53 #84 №979932

>>979895
>вшипер (гигаам) + ллм + xttsv2 (fish-speech) = 10 секунд подожди, братишь.
Это виспер такой слоупок, получается? Вроде, быстрее работал, когда я его тыкал.

Аноним 17/12/24 Втр 04:15:44 #85 №979944

>>979932
Не, распознавание, пожалуй, самое простое и быстрое.
Сложнее с ответом.
Допустим, ллм ты можешь подавать в режиме стриминга (это пожрет скорость, но если она будет достаточна для ответа — то неважно). А вот ттс в режиме стриминга сильно умирает по эмоциям и заметно по качеству.
Угарно в этом плане себя ведет fish — он начинает добавлять «э-э-э, м-м-м…», но он сам по себе медленный, да и xttsv2 тоже пару секунд.

Был анон, который сократил все до секунды, но там чуть ли не силеро использовался в озвучке.
Да, 10 — это в случае дефолтного сетапа. Если у тебя сплошь 4090 и 3090, да на линуксах, то секунды 3 можно сделать, наверное. Но все же, мне больше нравится, когда озвучка делается целиком, а потом воспроизводится.
Но, пробуй, на вкус и цвет.

Аноним 17/12/24 Втр 05:35:34 #86 №979956

>>979944
>Угарно в этом плане себя ведет fish — он начинает добавлять «э-э-э, м-м-м…»
У xtts тоже это есть, нужно тюнить на короткие фразы. Не помню точно, у него там минимальный чанк какой-то есть, нужно уменьшать это значение и прогонять трейн.
>чуть ли не силеро использовался в озвучке
Вот так вот обосрали на ровном месте. Я скидывал шебмы с той же полусекундной задержкой голоса с использованием xtts, если в нём поковыряться вилкой, то он не такой уж и слоупочный, но его лицензия остаётся под вопросом.
Гораздо большая проблема здесь в самой ллм, на коротких или непонятных сообщениях происходит хуйня. Ресурсов на что-то крупнее 32b у меня со всем этим не остаётся, а они не вывозят. В итоге прикрутил почти-рилтайм озвучку, 3д модельку с липсинком, но из-за фейлов с ллм смысла это дальше пилить никакого и нет.

Аноним 17/12/24 Втр 06:02:32 #87 №979961

>>979777
>А в чем смысл писать на английском, если модель отлично понимает русский и пишет на нем?
Токены экономит, в зависимости от мели и её токенизатора может до двух раз меньше контекста сожрать. Обычно хотя процентов 20, но всё больше чата влезет.

Аноним 17/12/24 Втр 06:09:40 #88 №979964

>>979848
Ща тыкаю aya-expanse-32b-abliterated.i1-Q6_K
На русике вроде бы норм стала, в инстракт моде с коммандер тагами и подобранными настроками.

Сайнемо ремикс из шапки работает шустро, качественно, и менее зависим от тегов и форматов.

Аноним 17/12/24 Втр 07:21:45 #89 №979981

Screenshot20241217072247.jpeg

Тык, хуё-моё, а есть модели которые могут во второй фрейм?

Аноним 17/12/24 Втр 07:27:53 #90 №979983

большинсво не использует эксель кванты

https://www.reddit.com/r/LocalLLaMA/comments/1b4xznh/how_do_you_like_to_maximize_your_exl2_context/

10 месяцев назад

Аноним 17/12/24 Втр 08:38:55 #91 №980011

>>979792
>Видеокарту купи

у меня бля 20 гигов врама, у тебя скока на твоей 1650 лол

если б оно так и было то оноб тормозило везде а не только лиш в софте который вы продвигаете, в оламеж работает норм, отсюдова я делаю вывот что там есь какието пердустановки которые я выясню кокда нибуль и всё буит збс

Аноним 17/12/24 Втр 08:40:03 #92 №980012

походу все muskвичи в пробках стоят щас в метре или где, глухо как в тянке

Аноним 17/12/24 Втр 08:50:22 #93 №980016

>>980011
>>979790
бл наскока ж ето тупа бля https://github.com/ggerganov/llama.cpp/issues/6750#issuecomment-2065154608
схуяли я должон чёто добавлять какието ключи оно чё бля сомо не чуит что я бля на видеошмарте запускаю бля

Аноним 17/12/24 Втр 08:58:36 #94 №980021

>>980016
https://www.reddit.com/r/LocalLLaMA/comments/1cyhnr8/a_script_to_automatically_find_the_best_value_for/

бля пиздец вы говноеды конечн, кокда в оламе бля всё ИЗКАРОПКИ работает ору

Аноним 17/12/24 Втр 09:01:54 #95 №980023

>>980021
хаха бля ето всё ещё в драфте ёпаный стыт

https://github.com/ggerganov/llama.cpp/pull/6502

Аноним 17/12/24 Втр 09:46:17 #96 №980033

Посоветуйте что поставить чтобы перевести игру и улучшить диалоги? 8 гб VRAM.

Аноним 17/12/24 Втр 10:35:18 #97 №980059

>>980033
Дипл юзай, или можно питон скрипт накатать чтобы запустив модельку в кобольде по апи к ней обращаться и просить перевести строку.

Аноним 17/12/24 Втр 10:45:50 #98 №980061

>>979564
Есть что-то онлайновое чтобы вот так с Гагариной провернуть?

Аноним 17/12/24 Втр 10:48:27 #99 №980062

К сожалению в рп, даже с правильными тегами, aya-expanse-32b-abliterated.i1-Q6_K хоть и не ломается но на уровне "ты меня ебёшь".
Ну или поделитесь настройками.

В text-completion режиме же может выдавать куда более интересные, порой криповые и/или кринжовые вещи.

Но в целом нет, русский в ней хуже 12Б от местного анона, хотя лучше чем в оргинальном коммандере.

Аноним 17/12/24 Втр 11:02:40 #100 №980068

>>980059
>Дипл
Какое же пососное говно по сравнению даже со старыми моделями

Аноним 17/12/24 Втр 11:09:29 #101 №980073

Быстро, бесплатно, и лучше гугла + интерактивный режим правки переведённого.

Аноним 17/12/24 Втр 11:10:19 #102 №980074

>>980059
Диплом попробовал - получился slavic english. То есть вроде ок грамматически, но текст "глупеет" в два раза.

Аноним 17/12/24 Втр 11:14:33 #103 №980077

>>980074
Тогда ищи носителя и отдавай ему на вычитку, ибо нейронки выдадут то же самое, зависит от модели конечно, но на том что ты сможешь запустить (и даже я с 16 врам) вряд ли будет лучше.

Аноним 17/12/24 Втр 11:18:39 #104 №980079

>>980074
Тебе нужна, как минимум, гемма 27b q6. С норм промптом будет хороший английский в желаемом стиле

Аноним 17/12/24 Втр 11:19:10 #105 №980080

>>980077
Какой то же самое, что что несёшь?

Аноним 17/12/24 Втр 11:22:07 #106 №980083

Дипл это типа как старая 1б или 2б модель, для понимания. Т.е, даже мелкий немо на норм кванте даст за щеку этой параше

Аноним 17/12/24 Втр 12:04:49 #107 №980118

Аноны, я прям ньюфажина ньюфажина, понимаю что вас заебали подобные вопросы.
Но правильно ли я понял, что все что необходимо это кобальт и сама модель. После чего я должен работать исключительно в интерфейсе кобальта ?

Аноним 17/12/24 Втр 12:23:28 #108 №980132

>>980118
В целом да, но работать через таверну удобнее

Аноним 17/12/24 Втр 12:30:45 #109 №980134

>>980132
>таверна
А для пользователя есть разница, кроме интерфейса ?
И вопрос по цензуре - цензурят сами модели ?
А то я шапку то прочел, но там столько информации, что у меня НИПОНИМАТ и ГРУСТИТ. Чувствую себя дегенератом.

Аноним 17/12/24 Втр 12:33:27 #110 №980137

>>980062
>хоть и не ломается но на уровне "ты меня ебёшь"
С коммандером то же самое, пару тредов назад я кидал обзоры. Старые коммандер и ая были неплохи для своего времени, но уже устарели, наверное. А новые стали только хуже.

Аноним 17/12/24 Втр 12:37:25 #111 №980139

>>980134
В принципе в шапке достаточно информации.

Вот тебе еще один пошаговый гайд если тебе не хватает.
https://dtf.ru/howto/2853177-rp-s-neirosetyu-obshaisya-so-svoei-vaifu-o-chem-ugodno-chast-1-legkii-vkat

Аноним 17/12/24 Втр 12:40:12 #112 №980141

>>980139
Спасибо анонче. Буду осваивать.

>В принципе в шапке достаточно информации.
Я не отрицаю, просто для ньюфага она не структурирована и вызывает синий экран своим обилием.

Аноним 17/12/24 Втр 12:41:13 #113 №980143

>>980077
Ближайший месяц не отвечай на вопросы в треде

Аноним 17/12/24 Втр 12:53:57 #114 №980154

>>980134
>А для пользователя есть разница, кроме интерфейса ?
Есть. Предлагаю попробовать

>>980137
>коммандером
Оверхайп кал говна для РП

Аноним 17/12/24 Втр 13:06:43 #115 №980164

>>980141
Тоже было такое ощущение, но на самом деле гайд для вкатунов крайне простой:
0. Качаешь koboldcpp
1. Качаешь https://huggingface.co/Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix/blob/main/L3-8B-Stheno-v3.2-Q5_K_M-imat.gguf
2. Качаешь SillyTavern (это проще, чем сначала учить интерфейс кобольда а потом снова учить интерфейс таверны)
3. В кобольде выбираешь модель, жмешь Launch.
4. В таверне в иконке со штекером выбираешь:
API: Text Completion
API Type: KoboldCpp
API URL: http://127.0.0.1:5001
Жмешь коннект.

Здесь уже можно начинать чатиться, но каждой модели нужны свои настройки, чтобы она лучше отвечала, поэтому:
В первой вкладке таверны (Text Completion presets) выставляешь:
Temperature - 1.12-1.22
Min-P - 0.075
Top-K - 50
Repetition Penalty - 1.1
В третьей вкладке (Advanced Formatting) выбираешь Llama 3 Instruct.

Всё это нужно проделать всего один раз, дальше все настройки сохранятся. Можешь после этого идти на какой-нибудь https://chub.ai/ , искать персонажа из любимой игры/аниме и добавлять его карточку в таверну.

inb4 2gb врама, амуде, conda сыпет ошибками

Аноним 17/12/24 Втр 13:18:42 #116 №980173

>>980164
Большущее спасибо. Искреннее.
Вот за это и люблю тематику, анон шарит, анон помогает.
>inb4 2gb врама, амуде, conda сыпет ошибками
В наличии 4080 и 64 гб ДДР 5. Поэтому про железо не писал, если его не хватит, то нахуй оно мне и не надо.

Аноним 17/12/24 Втр 13:28:46 #117 №980179

>>979983
Хорошая иллюстрация какой контингент сидит на среддите. Контекст в 8 битах (по крайней мере на тот момент) - убивающая и ломающая все нахер херня, потому что вместо квантования там fp8 что полный треш по всем параметрам. На выходе с контекстом лоботомит с деменцией, даже если оригинальные веса в 16 битах. Квантование в 4 бита вносило меньший импакт чсх, если до сих пор не переделали в nf8/int8 то это также треш.
Что до
> большинсво не использует эксель кванты
Там одни бедолаги с врамлетами или поехавшие, которые обладая видеопамятью жрут кал жоры потому что другие так делают.
>>980011
> у меня бля 20 гигов врама
>>980016
Взял хуйту от Лизы вместо норм платы и не можешь пройти интеллектуальный ценз - жри говно с лопаты. Это насколько дегенератом нужно быть чтобы не смочь выгрузить слои на видеокарту.

Аноним 17/12/24 Втр 13:33:13 #118 №980180

>>980062
> В text-completion режиме же может выдавать куда более интересные
Самого эта разница не смущает? Очевидно что проблема в промте и его форматировании.
>>980137
> пару тредов назад я кидал обзоры
Еще один, суньте хуй в розетку и потом нойте насколько ужасно и опасно электричество.
>>980141
Попробуй освоиться и потом на свежих впечатлениях пока не забыл, опиши что именно хотелось бы видеть как ньюфагу и что именно непонятно.

Аноним 17/12/24 Втр 13:41:01 #119 №980182

>>980180
>Попробуй освоиться и потом на свежих впечатлениях пока не забыл, опиши что именно хотелось бы видеть как ньюфагу и что именно непонятно.
Обязательно. Сегодня скачаю какую нибудь жирнючую модель с минимальной цензурой и попробуй поприключаться и поебаться. Если есть необходимость, то напишу какие вопросы возникают.

Аноним 17/12/24 Втр 13:43:37 #120 №980183

Как же заебала соя на мистрале
Даже собаку нельзя выебать без сои

Аноним 17/12/24 Втр 13:44:11 #121 №980184

>>980179
>не смочь выгрузить слои на видеокарту.

та выгрузил уже, тока нахуя кокда другой софт делает ето автоматом

Аноним 17/12/24 Втр 13:48:50 #122 №980185

>>980180
Ньюфагу точно нужно еще знать. причем большими жирными буквами. что от промтов - инстракт и системного, зависит 70% качества модели. Я хорошо помню, когда первые дни. пытался понять, почему он срет разной дичью. ломает форматирование, пишет за меня и т.д. А уж когда начал писать специализированные промты, под каждый сценарий, удивился насколько это повышает уровень рп.

Аноним 17/12/24 Втр 13:57:46 #123 №980191

>>980143
Ближайший год проведи в социальной самоизоляции.

Аноним 17/12/24 Втр 14:02:30 #124 №980193

>>980180
>Очевидно что проблема в промте и его форматировании
Скорее в спектре задач. Коммандер это инструкт а не рп модель, так что пытаться на нём рпшить всё равно что забивать гвозди рукояткой отвёртки.

Аноним 17/12/24 Втр 14:04:56 #125 №980195

>>980184
Это автоматом в 100% случаях = хуево. Другой софт - васяновская обертка для полнейших хлебушков, которая по факту ни разу не упрощает установку и взаимодействие, зато навязывает лишнюю абстракцию что усложняет получение хорошего результата.
>>980185
100%, но вроде это было написано.
>>980193
Ерунду говоришь. Только если противопоставлять коммандера всяким "рп тюнам", но там сравнение не в их пользу будет.

Аноним 17/12/24 Втр 14:10:40 #126 №980197

>>980195
>Ерунду говоришь.
Чтож, покажи настройки на которых айя/коммандер может рпшить на русском как пантеон, или хотя бы как сайнемо, или балабол.

Аноним 17/12/24 Втр 14:42:37 #127 №980212

>>980195
>Это автоматом в 100% случаях = хуево. Другой софт

звучит как база, походу я совсем хлебушек раз в кобольте\жоре у меня результаты хуже получаются чем в той же оламе, казалось бы одна и та же модель, а работают ваще по разному в разных бэкендах

Аноним 17/12/24 Втр 15:17:57 #128 №980227

https://www.reddit.com/r/LocalLLaMA/comments/1hg74wd/falcon_3_just_dropped/
Некоторые примечания к релизу:

1B, 3B, 7B, 10B (Base + Instruct) & 7B Mamba, обученные на 14 Trillion токенах и apache 2.0 лицензированных!

1B-Base превосходит SmolLM2-1.7B и соответствует gemma-2-2b

3B-Base превосходит более крупные модели, такие как Llama-3.1-8B и Minitron-4B-Base

7B-Base находится на одном уровне с Qwen2.5-7B в категории до 9B

10B-Base является самым современным в категории до 13B

Математика + Рассуждение: 10B-База оценки 24.77 на MATH-Lvl5 и 83.0 на GSM8K

Кодирование: 10B-Base имеет оценку 73,8 на MBPP, а 10B-Instruct - 45,8 на Multipl-E

10B-Instruct получил оценку 86,3 на BFCL с длиной контекста 32K

10B-Base набирает 73,1/42,5 баллов на MMLU/MMLU-PRO, превосходя 7B-Base (67,4/39,2)

Выпустите кванты GGUF, AWQ, GPTQ и Bitnet вместе с выпуском! 🔥: https://huggingface.co/collections/tiiuae/falcon3-67605ae03578be86e4e87026

Вы также можете поиграть с пространствами прямо здесь: https://huggingface.co/spaces/tiiuae/Falcon3-demo

Аноним 17/12/24 Втр 15:36:41 #129 №980241

>>980164
Я сейчас задам охуенно тупой вопрос, но я его все равно задам.
>Качаешь https://huggingface.co/Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix/blob/main/L3-8B-Stheno-v3.2-Q5_K_M-imat.gguf
Вот это, что такое ?

Аноним 17/12/24 Втр 15:47:54 #130 №980246

>>980179
>жрут кал жоры потому что

потому что экслама2 питонопараша, поробуй её собрать сначала ещё, у жоры тык-тык и готово

Аноним 17/12/24 Втр 15:49:18 #131 №980247

>>980241
>https://huggingface.co/Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix/blob/main/L3-8B-Stheno-v3.2-Q5_K_M-imat.gguf

https://huggingface.co сайт где все нейросети
L3-8B-Stheno-v3.2 Это название нейросети
GGUF это ее формат
IQ-Imatrix черная магия, лень объяснять, продвинутое сжатие нейросети

Нет смысла качать оригинальную тяжелую нейросеть, все качают их облегченные и чуть ухудшенные копии, называемые квантами.
Тут тебе дали ссылку на Q5_K_M, тоесть пятый квант нейросети L3-8B-Stheno-v3.2
Иди сюда и читай про кванты https://huggingface.co/bartowski/FuseChat-Gemma-2-9B-Instruct-GGUF
Этот парень делает кучу квантов и обычно пишет о них
L3-8B-Stheno-v3.2-Q5_K_M-imat.gguf оканчивается на ггуф, это формат который открывает тот же кобальд и все бекенды использующие под капотом llama.cpp, как и кобальд, да.
Этот формат может запускаться как на процессоре так и на видеокарте, так и одновременно на них обоих.
Если у тебя дофига врам, можешь запускать exl формат, это уже быстрее, но по этому я гайд не дам. tabby api что ли, не помню

Аноним 17/12/24 Втр 16:27:28 #132 №980288

>>980247
>нейросети
Немного душнилова - не нейросети, а модели данных для неё.

А нейростеть как алгоритм это сама программа которой скармливается моделька.

Для новичков такая разница понятий важна, а то получается карго-культ как у стабильной диффузии.

Аноним 17/12/24 Втр 16:33:59 #133 №980305

>>980288
Это уже не душнилово, а хуйня какая та.
Этот файл и есть нейросеть, конкретная такая нейросеть.
А то что ты называешь алгоритмом нейросети - является алгоритмом нейросети.
Скармливается нейросеть бэкенду, который ее выполняет, по тому самому абстрактному алгоритму нейросети.

Аноним 17/12/24 Втр 16:41:03 #134 №980315

>>980305
Мимо-анон - вопрос терминологии. Можно рассматривать файл или репозиторий как диской с фильмом который ты загружаешь в плэйер.

Аноним 17/12/24 Втр 16:54:38 #135 №980328

>>979956
> Вот так вот обосрали на ровном месте.
Ну прости, я же все-таки «чуть ли не» написал! х)

Ждем мультимодалок, уже была одна хороша, но голос зашит, общаться с Майклом не то, чего бы мне хотелось, конечно.

>>980164
Кто-нибудь, забаньте уже фаната Стхено, ну невозможно же на серьезных щщах лламу советовать!
Ладно он просто так упоминал ее, но ему же новички верят!

>>980185
1. Важен промпт формат.
2. Важна инструкция (сам промпт).

Вот так, чтобы максимально четко.

Тащемта, да, таже фигня. Год назад удивлялся, чому у меня не такие хорошие модели, как у других, а потом подзаебался с форматом и инструкцией, с тех пор все отлично на любых моделях, а люди только и ноют, что у них 70б хуевая.

>>980227
> 3B-Base превосходит
Не упоминай Квена-а-а!

> 7B-Base находится на одном уровне с Qwen2.5-7B
Ну тут дотянулись, тут можно упомянуть!

С русским не ок, звучит не интересно.

>>980247
> IQ-Imatrix черная магия, лень объяснять, продвинутое сжатие нейросети
IQ там нет.
imat есть, но на английском языке.
Т.е., высока вероятность, что на русском она будет хуже.
В общем, советы-советы, типичный слившийся тред.

Пиздец же.

Аноним 17/12/24 Втр 17:01:36 #136 №980334

>>980328
>В общем, советы-советы, типичный слившийся тред.
Советуй сам, а пока только скулеж слышно. Или боишься что тебя так же как ты других, обосрут? Ну тогда и помалкивай

Аноним 17/12/24 Втр 17:10:16 #137 №980345

Сбер выпустил в опенсорс три модели для русского языка

GigaChat Lite - MoE модель, с 3 миллиардами активных параметров. Она бьёт по качеству на русском все модели в 8B сегменте, но немного отстаёт от 8b на англоязычных бенчах. Длиной контекста тоже не обделили - модель поддерживает до 131 тысячи токенов контекста. Это, кстати, первый опенсорс MoE для русского языка на моей памяти, причём это не что-то супер простое, типа Mixtral - там используется fine-grained MoE, вроде того что в DeepSeek V2.

GigaEmbeddings (может кому не похуй)

GigaAMv2 (для этого треда похуй)

Аноним 17/12/24 Втр 17:16:47 #138 №980352

>>980345
Это тот анон подзаебался? Красава даже сбер подтянул
а без рофлов откуда у нас мощности тренить модели? или это файнтюн ламы лол

Аноним 17/12/24 Втр 17:53:27 #139 №980371

>>980328
>>980247
>>980241
>>980164
>>980139
походу аноны сёдня вдухе понтсказывают новичкам etc., ато обычно нах посылют

Аноним 17/12/24 Втр 18:19:07 #140 №980385

>>980328
>Кто-нибудь, забаньте уже фаната Стхено
Согл, Lunaris на её базе лучше. Тьюны немо унылые и такие же тупые, как 8б (ну почти), нужны только любителям русика.
Другое дело, что у чела видяха норм, и можно 22б мистраль поковырять, как минимум.

Аноним 17/12/24 Втр 19:04:28 #141 №980424

ебать его рот.webm

>>979451 (OP)
Блядь, я думал тут тред про запуск нейронок на пукаче хотя бы в полсилы от чата жипити, а тут какие то ролеплеи блядь, данжи, генерация историй. Нахуй надо бля.

Аноним 17/12/24 Втр 19:07:59 #142 №980428

>>980371
>>980424
ну не все ж озлобленные пидорки или семенычи типа тебя

Аноним 17/12/24 Втр 19:21:32 #143 №980436

>>980371
это разные аноны, наверное

Аноним 17/12/24 Втр 19:36:41 #144 №980443

>>980227
>falcon_3
Первые два были говном.
>>980352
>откуда у нас мощности тренить модели
Старые, ещё до санкций. Плюс в карманах возят.

Аноним 17/12/24 Втр 20:55:29 #145 №980492

Ну чтож
>>979727
> нлп задача где нужно оперировать абстракциями
Вводная простая, есть в меру подробное описание содержимого некоего изображения, есть буру теги для него, есть список имен персонажей, которые присутствуют в кадре, есть перечисление наиболее популярных атрибутов этих самых персонажей. Дана структурированная, ясная, предполагающая CoT и поделенная на пункты инструкция, в которой требуется:
1 Подумать о соответствии описание и буру тегов, сделать их интерпретацию.
На основе раздумий выбрать из вариантов типа соответствует/небольшие противоречия/херь и обернуть ответ в теги
2 Подумать что там за персонажи и как они должны примерно выглядеть, какие их отличительные черты исходя из данных буру тегов
Сравнить это с исходным описанием
Сделать вывод о том, правильно ли указаны персонажи, или же их имена перепутаны, или это вообще косплей одного другим, также выбрать из вариантов и завернуть в тег.
Если есть несоответствия то указать на них явно и предложить вариант их решения.

Задача не самая простая, потому что здесь нужно более менее воспринимать и понимать что и как выглядит, что cyan и light-blue являются синонимами, принять во внимание уточнение о том что персонажи могут быть переодеты или иметь вариации черт (распущенные волосы вместо собранных). Ну и в целом выполнить довольно продолжительную инструкцию из серии мелкихзадач.
В помощь сетке все расписано аккуратно и структурировано, входные данные обрамлены в xlm, добавлена нумерация списка и даже сделан префилл чтобы она не забыла и не пошла не в ту сторону.
Также добавлена строка с микрожб которая с таким продолжительным промтом ни на что и не влияет по сути, ибо внимания хватает только на выполнение а не на сою, но на всякий случай
Разметка промта в соответствии с форматом сетки, для квенов добавлена строка про алибабу, ибо говорят что без нее хуже работает. Битность наибольшая из доступных - 16бит, 8бит, 6бит (гемма 27 вообще в 4.0 bpw что не мешает ей работать). Семплеры лайтовые - температура 0.4, top_P 0.9, top_K 10. Суммарный контекст - 1.5-2к токенов, как раз примерно соответствует подробной карточке и/или завязке чата.

Примеры хорошей работы: gemma27, 4o, интерпретируют все правильно, редко ошибаются.
Кто тестировался: qwen 2.5 7/14/32, gemma 9, mistral 12/22, falcon 7/10. Юзались инстракт версии где доступно.

Подробно:
qwen 2.5 7b:
В целом удивительно что такая мелочь вообще может воспринять такие длинные инструкции и не потеряться, очень охотно заворачивает CoT и пытается рассуждать. Но при ближайшем рассмотрении - рассуждения чаще всего просто повторение тех самых буру тегов без приведения в человеческий вид, в начале второго пункта просто повторяет а не перефразирует, и все в таком духе.
Самое обидное что не может в абстракции почти совсем, триггерится просто на синонимы, выдает перлы типа
> Zhu Yuan is described as sitting on Ellen Joe's face, grinding her ass on her, which is not mentioned in the popular tags.
пол часа орал с этого или делает правильные рассуждения а потом неверный ответ
> - Keqing's description matches all the features from the popular tags.
> - The hand reaching for popcorn does not match any specific character but is a common feature in the booru tags.
> - The two boys in the background do not have specific features mentioned in the booru tags but match the "3boys" tag.
> 2. c) <2nd_answer>all is good</2nd_answer>
Неюзабельно совершенно, также иногда сбивается и не дает ответов как обязана по инструкции.
qwen 2.5 14b, mistral 12b, gemma 9b:
Тут они собраны вместе потому что перформят в интеграле одинаково. Уже повеселее и бодрее чем семерка, всеравно любят делать прямые цитаты без переписывания как сказано, сам ответ уже более живой, нет логических нестыковок семерки типа "все правильно, все совпадает, а вот ответ на пункт который должен быть только при ошибках". Но к сожалению, всеравно делают ошибки, например, могут забраковать купающихся в бассейне персонажей потому что на них купальники а не костюм, при том в рассуждениях вполне нормально говорят о том что основные атрибуты совпадают а одежда должна быть проигнорирована с учетом контекста. Также как 7б, все еще могут выдавать отсебятину вместо выбора нужного финального ответа из списка, будто бы мешая списки разных задач. Гемма 9 не смотря на меньший размер здесь вполне молодцом, но иногда сильно упарывается спгс, делает ложные срабатывания по ерунде или не замечает важного, так была бы отдельно.
mistral 22b:
Херня какая-то, его ужасно штормит и он то вообще почти не делает рассуждений, то высирает сотню строк с повторением предложения кроме одного сочетания. Но при этом, "детских болячек" почти не имеет, нормально воспринимает абстрактные вещи и слушает указания на что нужно обращать внимание, а на что нет. Но при этом, может вообще перепутать задание и начать говорить что у вас теги неправильные и править нужно именно их, единственный из всех с таким. Работал бы стабильно - был бы годен.
qwen32b, gemma27b:
На а что тут, пушка-гонка, все делают как надо, ошибки редкие, пригодны.
falcon7B-instruct:
Хуйня из под коня, тупит, ошибается, хуже чем квен следует инструкции, серит служебными токенами.
falcon10B-instruct:
А вот этот уже будет поинтереснее. Чуть ли не единственный (помимо геммы) из весовой категории нормально выполнял перефразирования и рассуждения выглядели по-человечески. Хотя местами оче странно интерпретировал теги, делая что-то не то, но в целом самый "точный" из мелких, модель не тупая и стоит обратить внимание, хз как будет для рп.

С фалконами есть нюанс: не нашел какой у них системный промт, поэтому использовал что-то chat-ml подобное, что выдавал препроцессор трансформерса при обработке сообщений. У 10б все идеально, 7б этими <|assistant|> в ответах иногда срал.

TL/DR: ниже ~30б жизни нет, результат пропорционален размеру.

Кидайте рп-мерджи и модели с "крутым русским", если не лень будет может их посмотрю.

Аноним 17/12/24 Втр 20:57:57 #146 №980496

>>980246
> питонопараша
Проиграл
> поробуй её собрать сначала ещё
pip install exllamav2
но даже этого не нужно ибо инсталляторы интерфейсов все делают сами.

Аноним 17/12/24 Втр 21:02:12 #147 №980497

JetsonOrin.mp4

Nvidia высрала свою ИИ распбери пай
Вин?

Аноним 17/12/24 Втр 21:04:18 #148 №980500

>>980497
он спалил свой дом а значит его будет легко отследить и убить

Аноним 17/12/24 Втр 21:06:16 #149 №980502

>>980497
> jetson
С подключением. Вообще будет неплохо если они массово выпустят готовую версию с 64-96 гигами а не только оем модуль, который довольно непросто купить.

Аноним 17/12/24 Втр 21:08:17 #150 №980505

Кто-нибудь пользовался моделями от Vikhr?
Я попробовал и мне кажется, что там слишком много гпт-змов, с бесконечными "Важно помнить что". В карточке на ХФ у них написано, что все ответы для SFT перегенерированы чурбой.
У меня вопрос — они шизы? Зачем они насрали в датасет и даже ничего не почистили? И почему такое пренебрежительное отношение к переведённым датасетам, если в любом случаем данные проходят через одну и ту же сетку?

Аноним 17/12/24 Втр 21:18:00 #151 №980512

>>980502
Выпустят.
за 2к+ зеленых

Аноним 17/12/24 Втр 21:18:23 #152 №980513

>>980502
>С подключением.
Анонсировали всего четыре часа назад, хули развонялся-то?
>готовую версию с 64-96 гигами
Ты хочешь 96 гигов в мини-компе за 250 баксов? Спеки сейчас вполне годные, как по мне

Аноним 17/12/24 Втр 21:26:46 #153 №980525

>>980492
>Кидайте рп-мерджи и модели с "крутым русским"

nepoticide-12B-Unslop-Unleashed-Mell-RPMax-v2.Q8_0
- В начале чата порывается писать на англе, но пару-тройку раз свайпнуть и пишет по русски.
- Любит длинные сообщения, 256 на ответ обычно не хватало.
- Первые пару сообщений возможно придётся свайпать, потом ухватывает стиль и начинает писать нормально, не ломая и не придумывая слова.
- Персонажа держится слабовато, но ответы творческие.
- Не рекомендуется

DarkAtom-12B-v3-Q8_0
- В начале чата порывается писать на англе, но пару-тройку раз свайпнуть и пишет по русски.
- Предпочитает относительно короткие сообщения на 1 параграф.
- Проскакивают английские слова и может ловить галюны уже в первом десятке сообщений
- Не рекомендуется

А вот это вин:

Starcannon-Unleashed-12B-v1.0-Q8_0 и NekoMix-12B.Q8_0

И та и другая модель:
- Писала на русском с первого же сообщения и по теме.
- Предпочитает средней длинны выражения, около 250 токенов.
- Свайпать практически не приходилось, персонажа держит, язык, слова, и предложения не ломает.
- Галюны (почти) не ловит, команд слушается.
- В ерп может, вполне себе сочно, брат стоит.
- За пользователя решения не принимала.
- События контекста помнит и периодически применяет, а не "сферический конь в вакууме"

Неко-микс немного более сух чем старкэннон, но такое ощущение что лучше держится заданных гайдлайнов персонажа и более полно использует контекст когда надо на него сослаться, например юзер спрашивает о прошлом перса, а также обращает внимание на большее количество мелких деталей.

"Крутые рп-модели" - пик.

Аноним 17/12/24 Втр 21:27:07 #154 №980527

>>980513
8gb LPDDR5, 105Gb/s. Ампер. Слепили из каких-то старых кусков непонятно что. Странно, что сам Хуанг не погнушался отрекламировать.

Аноним 17/12/24 Втр 21:28:30 #155 №980529

5090 наверное возьму. Мнения по ней?

Аноним 17/12/24 Втр 21:42:03 #156 №980554

>>980529
>5090 наверное возьму. Мнения по ней?
300к рублей оно не стоит.

Аноним 17/12/24 Втр 21:49:06 #157 №980569

>>980554
Карусели будут в этот раз? Или даже гнилобайт ушёл?

Аноним 17/12/24 Втр 21:52:24 #158 №980575

Ньюфажина снова ИТТ.

Все окзалось куда проще. Единственный подвох был с таверной. С установкой если быть точнее. Но все заработало.
>>980164
Спасибо большое анон. Все по гайду делал. Уже поклацал. В неописуемом восторге. Это мое первое знакомство с локальной сеточкой.

>>980247
>Нет смысла качать оригинальную тяжелую нейросеть, все качают их облегченные и чуть ухудшенные копии, называемые квантами.
А какая разница для пользователя между квантами и полноценной моделью на 60+гб ?

Аноним 17/12/24 Втр 21:56:00 #159 №980582

>>980554
Думаешь 300к будет? Я думаю 200-220к должно

Аноним 17/12/24 Втр 21:57:20 #160 №980586

>>980582
Возьми Quadro и не еби себе мозги.

Аноним 17/12/24 Втр 21:58:14 #161 №980588

>>980513
> Анонсировали всего четыре часа назад, хули развонялся-то?
> The Jetson Orin Nano 8 GB was a performance-segment mobile graphics chip by NVIDIA, launched in March 2023.
Чел, на этой херне еще год назад делали стартап для локальных ллм, а энтузиасты на дев китах крутили и даже тесты скорости есть.
> image.png
Еще хуйту какую-то принес, https://www.nvidia.com/en-eu/autonomous-machines/embedded-systems/jetson-orin/ вот тут вниз мотай и находи приличную версию с 64 гигами, нормальными топсами и какой-никакой псп памяти.
> Ты хочешь 96 гигов в мини-компе за 250 баксов?
Девкит на 64 стоит меньше 2к, оем модели без лишнего обвеса по слухам можно до 500-800$ или ниже сторговать в зависимости от партии.
>>980586
Эту название еще начиная с амперов упразднили, и смысла нет, медленный чип.

Аноним 17/12/24 Втр 21:59:21 #162 №980590

>>980586
Не, оно всё медленное пиздец. У меня 3090ti, и так заебался, а тут ещё медленнее.

Аноним 17/12/24 Втр 22:01:00 #163 №980593

>>980590
4080 ? Тут вон, ньюфаг на ней пытается вкатиться.зависть.
Хотя на самом деле, я бы взял 5080 ибо какой смысл брать прошлое поколение.

Аноним 17/12/24 Втр 22:02:18 #164 №980596

>>980593
Видеопамять нужна, вся 5ххх линейка cuckнута по видеопамяти. Хоть в 5090 32 гига. На этом спасибо.

Аноним 17/12/24 Втр 22:04:14 #165 №980598

>>980596
https://www.ozon.ru/product/nvidia-videokarta-900-21010-0020-000-94-gb-900-21010-0020-000-1682199321/?asb=tJLFaRoN2PM5lIqzdpIGeW%252BNUk3KIUSeIHNsD2Yfli0%253D&asb2=AyEiTqR3a6_j2wD6IcV7yPayAdPVOTnR9s70W8HxyYxJbz1oa27W8HGExCjCvX5flp8OJ92lQ2qeRcayTkuTbg&avtc=1&avte=4&avts=1734462156&keywords=nvidia+tesla

NYA. Nyaслаждайся. Хули ебало от цены скрючил ?

Аноним 17/12/24 Втр 22:04:19 #166 №980599

>>980582
>Думаешь 300к будет? Я думаю 200-220к должно
Если 32гб будет - то не меньше 300. У нас. Если не будет, то меньше, но придётся брать больше карт. Что для Хуанга выгоднее? Деваться-то с Нвидии всё равно некуда.

Аноним 17/12/24 Втр 22:06:15 #167 №980602

>>980598
ЭТО ЧТО ТАКОЕ БЛДЖАД ?

Аноним 17/12/24 Втр 22:08:31 #168 №980606

>>980598
Оверпрайс
>>980599
> то не меньше 300. У нас.
Увы, как бы еще и не больше.

Аноним 17/12/24 Втр 22:10:27 #169 №980608

>>980599
>>980606
А если в Казахстан слетать купить? Чи ещё куда рядом

Аноним 17/12/24 Втр 22:10:54 #170 №980609

>>980602
Очевидно, что это видеокарта. И нет, крайзис не потянет.
>>980606
Я бы не сказал что прям оверпрайс. Это инструмент для определенных задач, они всегда стоили абсурдных денег, потому что покупают их юрлица.

Аноним 17/12/24 Втр 22:10:56 #171 №980610

>>980602
кум пасс

Аноним 17/12/24 Втр 22:12:12 #172 №980614

>>980608
> А если в Казахстан слетать купить?
Кек. У нас столько же. Думаешь один такой умный.

Аноним 17/12/24 Втр 22:32:03 #173 №980652

>>980608
То же на то же. Если и будет профит то минимальный, с учетом всех переездов.
Норм было бы съездив куда-нибудь в другую страну, но такую покупку могут и на таможне завернуть.
>>980609
Речь не о ценообразовании а о реальном прайсе по которому они поставляются. Или можно 3-4 года такую арендовать 24-7-365 вместе с остальным железом по этой цене.

Аноним 17/12/24 Втр 22:37:04 #174 №980666

>>980582
За 220 ты даже 4090 не возьмёшь, алё.

Аноним 17/12/24 Втр 22:37:19 #175 №980667

>>980328
Стено советуется как первая модель, а не как лучшая модель. В остальном соглашусь с аноном — ты только воняешь. Твой опыт множится на ноль, если ты им не делишься. Вроде уже не в том возрасте, чтобы до сих пор гейткипить своё 'уникальное' хобби.

Аноним 17/12/24 Втр 22:41:32 #176 №980680

1697998457109.jpg

>>980525
Анон, можешь настройки для каждой экспортнуть и залить куда-нибудь? Так заебало каждый раз их искать. А за подборку спасибо, скачаю и поиграюсь.

Аноним 17/12/24 Втр 23:02:19 #177 №980718

почаны хочу взять карту амд 7900хтх модельки гонять , насколько валидный варик , на 4090 бабок нет а 3090 нет в наличии

Аноним 17/12/24 Втр 23:09:33 #178 №980727

>>980328
>я же все-таки «чуть ли не»
Но это заставляет задуматься, сам-то я был уверен, что оно звучит в разы лучше ванильного xtts.

>>980497
Ммм, 8 гигов за 250 баксов. Почему мне кажется, что какая-нибудь 3060 всё ещё лучше?

Аноним 17/12/24 Втр 23:19:09 #179 №980736

>>980718
Амд это игросральный продукт. Жди скидок к выходу 50хх
Спросишь почему? - Не поддерживает половину функций, в разы ускоряющих интерференс = получишь скорость как на 1060, заплатив как за 4070.

Аноним 17/12/24 Втр 23:22:15 #180 №980743

>>980718
Оно того не стоит, платишь как за полноценную а перфоманс хуже 3090 и тебя заебет с ней пердолиться. Лучше в те же деньги закажи у с лохито пару 3090, в худшем случае вторая будет запасной, лол.
>>980736
> Не поддерживает половину функций, в разы ускоряющих интерференс
Просто не поддерживает половину функций и все через жопу.

Аноним 18/12/24 Срд 00:09:50 #181 №980775

>>980525
>"Крутые рп-модели" - пик.
>нет ни геммопродуктов, ни базовой 22B ArliAI RPMax v1.1
>"Крутые рп-модели" - пик.
)))

Аноним 18/12/24 Срд 00:16:36 #182 №980782

>>980497
как же нас (русских) ебут, господи, прям насухую, с анальной кровью в качестве смазки. Причем свои же и ебут.
Чип и дип - это вообще просто отвал пизды. Какая-то контора патологических уёбков, вобравших в себя все анекдоты про евреев.

Аноним 18/12/24 Срд 00:20:23 #183 №980784

>>979581
>Стоит

Знаешь что говорят о мужчинах гоняющихся за большими размерами моделек?

Аноним 18/12/24 Срд 00:21:03 #184 №980785

>>980784
что они не говноеды?

Аноним 18/12/24 Срд 00:41:20 #185 №980806

>>980334
>>980667
Дак наоборот, когда советовал — тогда шизы и высирались, ну как бы и фиг с ними, варитесь на здоровье в котле, сочувствую, канеш.
Просто, к сожалению, стало типично, вот и все.

>>980502
+++

>>980513
Просто это крайне ситуативная штуковина. 8 гигов за 250 баксов? 8 гигов паскаля можно поиметь за 25 баксов. Медленнее, но в десять раз дешевле.
Как бы, очень узкое применение, явно не для того, чтобы рпшить или кодить на такой.

>>980529
Норм. (но вообще, еще не вышла, какое уж тут мнение=)

>>980582
Кра-а-айне сомневаюсь. С нашей ситуацией хоть бы не 500.
Ты 4090 новые видел по ценам? =)

Аноним 18/12/24 Срд 00:48:24 #186 №980813

>>980806
> продолжает скулить

Аноним 18/12/24 Срд 01:04:30 #187 №980828

Screenshot 2024-12-18 094259.jpg

Из мелких вот эта сучка охуенная для РП. Управлется даже с карточкой, где 2 персонажа

Аноним 18/12/24 Срд 01:14:31 #188 №980849

>>980782
Конкретно тут - проблема не совсем в этом, а то что продукт дико нишевый и смотришь а барыг, которые известны своей ахуевшестью.
На лохито можно найти, можно заказать под привоз, можно хоть напрямую с али - выйдет в те самые 2к плюс пошлина и доставка.
> Чип и дип - это вообще просто отвал пизды. Какая-то контора патологических уёбков
always has been, чего стоит разница в розничном и при заказе. И любой девайс кроме массовой комплектухи стоит в несколько раз дороже чем должен, хз кто их покупает вообще.
>>980784
Врамовладелец

Аноним 18/12/24 Срд 01:49:15 #189 №980903

>>980328
>Кто-нибудь, забаньте уже фаната Стхено, ну невозможно же на серьезных щщах лламу советовать! Ладно он просто так упоминал ее, но ему же новички верят!
Анон рассказал, что и как тыкать. Посоветовал как настроить, а это куда убедительней
>ряяяя все говно
Я до сегодняшнего дня вообще представления не имел что и как работает. И неожиданно, по его краткому гайду все заработало.

Аноним 18/12/24 Срд 02:31:57 #190 №980938

Анончики, почему, когда я отрубаю интернет коннекшн, то активный аутпут между силлитаверной и кобольдом отрубается тоже в этот момент?
Причем, после без интернета все работает спокойно как и должно, но именно если вырубить интернет посередине закачки промпта или выпука аутпута, то соединение рубится.
Оно точно никуда ничего не шлет? Не очень понимаю, каким образом интернет на это должен влиять... меня кондрашка хватит, если они весь этот пиздец из моих чатов куда-то сливают...

Аноним 18/12/24 Срд 02:38:21 #191 №980940

>>980588
> Девкит на 64 стоит меньше 2к, оем модели без лишнего обвеса по слухам можно до 500-800$ или ниже сторговать в зависимости от партии.

> 64GB 256-bit LPDDR5
> 204.8GB/s

То есть скорость чуть выше сборки на эпике. Которая даже дешевле выйдет. А за 2к так-то можно и на серверной ддр5 собрать.
Контекст только сосет, но, вы же помните, помните, да? Что я вам уже третий раз говорю про то, что обработку любого контекста можно делать любой видеокартой с памятью любого размера через стриминг весов через шину. И в среднем контекст почти всегда обрабатывается медленнее скорости шины.

Аноним 18/12/24 Срд 02:46:03 #192 №980944

>>980938
>меня кондрашка хватит, если они весь этот пиздец из моих чатов куда-то сливают...
Не куда-то, а в одно конкретное место, одним конкретным людям. Короче, жди гостей и начинай разрабатывать отверстие под бутылку.

Аноним 18/12/24 Срд 02:57:32 #193 №980950

>>980938
Перестраивается роутинг и все активные соединения обрубаются, даже локалхост.
>>980940
То есть какая-то микропиздюлина размером меньше телефона с тдп в 15 ватт, предназначенная для встраивания куда-то, обоссывает жирный, потный и дорогой камень, к которому нужна еще большая коробка с железками.
Вот так правильно будет
> Что я вам уже третий раз говорю про то
В третий раз уже эта ерунда, не стоило ее выдавать и первые 2 раза.

Аноним 18/12/24 Срд 03:13:51 #194 №980957

>>980950
> В третий раз уже эта ерунда, не стоило ее выдавать и первые 2 раза.
Действительно, лучше давай подождем пока контекст обсчитается 10 минут, а не одну.

Аноним 18/12/24 Срд 05:37:42 #195 №980989

Почему в текст комплишон ответ генерируется не до конца? Буквально остаётся пара букв, но локалка не дописывает и остаётся в вечном состоянии стриминга.

Аноним 18/12/24 Срд 08:12:44 #196 №981017

>>980345
на kobold.ccp не запускается вообще никак.

Аноним 18/12/24 Срд 09:08:12 #197 №981027

>>980497
>250$
Есть ли шанс. что она у нас будет стоить не дороже 30к?

Аноним 18/12/24 Срд 09:23:57 #198 №981031

>>980496
у меня всегда етот пип бля постоянно то бля dependencies error то ещё какая то залупа бля как заебали ети venv сосдавать на каждый чих потому что видетили каждая залупа работает с определённой версией питона бля и если у меня на арче 3.12 а ета залупа требует 3.11 то нихуя без пердолива venv не заведётся

ладн в итоге я её понтднял но там бля она не понттянула ссобой библиотеки амуды hipblas.h и нихуя не завелось кароч впизду бля

Аноним 18/12/24 Срд 09:27:05 #199 №981032

>>980424
>какие то ролеплеи блядь

ты не выкупил фишку прост, ето так же как с порнухой кароч, тока тут кокда читаеш етот текст еротический сразу шишка встаёт кароч

https://www.reddit.com/r/SillyTavernAI/comments/1gxrrkr/used_it_for_the_first_time_todaythis_is_dangerous/

я литерили как тот чувак с редита могу сидеть часами бля потом сос тула хер встанеш не разогнёшся идёш ноги в тазике греть

Аноним 18/12/24 Срд 09:38:17 #200 №981035

А этот новый трансформер BLT, где-нибудь онлайн есть?

Аноним 18/12/24 Срд 10:08:50 #201 №981041

Screenshot 2024-12-18 094315.jpg

2021-08.mp4

кто нить можит мне ответить чётко ясно и понятно (или ткнуть носом куда нето) - почиму на разных бэкендах с одинаковой моделью (цидония v1.3 22b q6 гуфф хуё-моё) получается разный сука результат?!
в таверне пресет стоит Mirostat етот какойто я хз,
вот беру оламу бля всё ахуена работает всё бы ничего тока она не вывозит длинный контекст падает с CUDA out of memory (даже не смотря на то что у меня амуде всё равно куда пишит)
а если я беру кобольт или жору(ламу.спп) то они работают стабильно не падают но гинириуют такую дичь что я ваще хз как будто ето не 22б а 7б
щито происходит?!

Аноним 18/12/24 Срд 10:21:24 #202 №981048

>>980525
Когда мёржер русик моделей выкатил некомикс, то про него сразу два разных анона написали, что он шизит больше, чем предыдущий ру мёрж сайнемо, и не держит персов. А сайнемо и сам по интеллекту, мягко говоря, не очень, того я сам тестил. Боюсь представить, что выдают модели, которые по твоему мнению не вин. Старкэнон сделан на основе всё того же убогого немомикса, который пока выбран базой для ру моделей, мб поэтому он неплох в ру рп. Туда долили ещё магнума и другого тьюна всё на тех же логах опуса.
>>980775
Кстати, с рп тьюнами геммы как-то всё тухло реально. На 9б вроде дофига выходит, некоторые даже сидят в разных лидербордах типа UGI или на креативность в топе. Но я пробовал некоторые, и там и креативность, и смачность кум описаний значительно уступают 8б. Про 27б тоже не слышал, чтобы хоть какие-то хвалили. Но тут уже, видимо, проблема, что с этого размера становится дорого тьюнить.

Аноним 18/12/24 Срд 10:31:58 #203 №981050

Screenshot 2024-12-18 102904.jpg

Screenshot 2024-12-18 102845.jpg

Screenshot 2024-12-18 103011.jpg

>>981041
кароч ткнул галку потом гляжу вылазит ето сообщение, потом гляжу модель походу 4к контекста в ей тока а уменя всю дорогу стояло 8к, можит быть в етом была проблема, потещу кароч отпешусь вотличии от вас)

Аноним 18/12/24 Срд 10:39:14 #204 №981051

>>981035
https://github.com/facebookresearch/blt

в гугле забанили?

Аноним 18/12/24 Срд 10:43:19 #205 №981052

Screenshot 2024-12-18 110702.jpg

>>980680
Настройки максимальный дженерик который работает почти везде и со всеми если модель не в край шизанутая (или если это не специальная какая которая требует индивидуальных настроек указанных на странице модели), темпу можно подкрутить если надо, она стоит динамическая +/- 0.5, этого хватает.

В таверне настроек семплеров больше, но в целом можно просто тоже самое выставить.

Аноним 18/12/24 Срд 10:51:22 #206 №981053

>>981050
Тут никто не юзает олламу, по всей видимости. Хз, поддерживает ли она вообще миростат, например, и получает ли правильно параметры из таверны, а не суёт свои рекомендуемые инстракты и сэмплеры. Делай нейтральные сэмплеры и сравнивай промпт в логах.
8к в таверне будет влиять только в том случае, если твой чат вылез за 4к. В кобольде вроде стоит защита от дурака: он пишет, ты тут пытаешься мне запихать контекст выше заданного при загрузке модели, пошёл в жопу. Скорее всего, он отрезает 4к, даже если таверна подаёт 8к, так что может получать на ввод шизопромпт. Но до 4к всё должно работать одинаково, даже если в таверне стоит больше.

Аноним 18/12/24 Срд 10:52:33 #207 №981054

>>980775
Пантеон лучше Арли, хотя Арли делает хорошие модели, да.

Аноним 18/12/24 Срд 10:53:23 #208 №981055

>>981053
Спасибо за информацию Анон!

Аноним 18/12/24 Срд 11:03:51 #209 №981059

>>980497
чё он не вкожанке то бля

Аноним 18/12/24 Срд 11:05:15 #210 №981061

>>980718
я тот самый анон на рыксе 7900хт сижу, зодовай вопросы

Аноним 18/12/24 Срд 11:08:33 #211 №981065

>>981061

Аноним 18/12/24 Срд 11:37:34 #212 №981090

Аноним 18/12/24 Срд 11:39:02 #213 №981092

>>980903
Могло заработать гораздо лучше, но заработало кое-как, а ты и рад.
Повторюсь — ничего не имею против, тебе искренне сочувствую, но если вы предпочитаете «кое-как» вместо «отлично» — ваше право же, ничуть не настаиваю. =)

>>980940
Ну не прям любое-любое-любое, но да, нормальная видяха может взять на себя контекст без проблем, пока генерит быстрая многоканальная рам. Звучит как рабочий вариант.

>>980957
Не торопись, попей чаю… =D

>>981017
Потому что кобольд еще не обновился и не завезли?
На llama.cpp все отлично, коммит принят уже.

>>981065
8b 30 ток/сек, верно?

Аноним 18/12/24 Срд 11:40:36 #214 №981093

>>981092
>8b 30 ток/сек, верно?

не 8б а 22б там написано ж ето уже уровень 3090 или ещё нет

Аноним 18/12/24 Срд 11:40:37 #215 №981094

>>981048
>Про 27б тоже не слышал, чтобы хоть какие-то хвалили
Хвалю 27б гемму сток и аблитерейтед. Обе Q6. Просто лучшее в таком размере. Иногда на 22б арли перехожу для разнообразия

Аноним 18/12/24 Срд 11:40:57 #216 №981095

>>981092
>8b 30 ток/сек, верно?
Да 8b на 17 gb размером и 22b параметрами
Че он там за херню тестирует отдельный вопрос

Аноним 18/12/24 Срд 11:41:08 #217 №981097

>>981051
Я имел в виду, попробовать онлайн без регистрации и смс. Гитхаб я видел.

Аноним 18/12/24 Срд 11:41:23 #218 №981098

>>981090
Есть модель получше чем все эти для РП на русском, ищи другую ссылку в шапке

Аноним 18/12/24 Срд 11:46:30 #219 №981100

>>981097
я хз на обнеморде появится кокда нить можит

Аноним 18/12/24 Срд 11:49:37 #220 №981104

>>981094
С этими понятно, я говорил именно про рп тьюны. Вот какие тут в треде хоть раз всплывали? Только big tiger от драммера, наверное.

Аноним 18/12/24 Срд 11:57:25 #221 №981110

>>981104
Да, драммеровские модели под чисто дрочку хороши

Аноним 18/12/24 Срд 11:58:05 #222 №981112

>>981093
А, увидел.
Ну, да, тогда норм.
Но я 22 не люблю, не помню ее перфа.
Но выглядит неплохо, если честно. Первый на моей памяти пруф, что радеоны что-то могут.
Осталось посчитать токен/рубль.

Аноним 18/12/24 Срд 12:07:12 #223 №981119

>>981061
Почем брал? Я че-то чекнул цены, нифига не 60к-70к, 90-100+, как-то дороговато выходит. Хотя, чисто ради гарантии и лишних 4 гигов, может норм. Но 3090 за 70-80 выглядит лучше, не?

Аноним 18/12/24 Срд 12:07:41 #224 №981120

>>981110
Под чисто дрочку мб, но в сравнении с другими ерп ориентированными тьюнами обычно какая-то шиза у него выходит. По крайней мере, из мелочи, что я тестил. Из 8б llama3some была вроде ничего и популярна, но тупее тех же stheno, лунариса, umbral mind. Мойстраль 10-11б только одна версия получилась норм, да и то, я лично не согласен, что она чем-то лучше второго фимбульветра, который у неё в основе. Смегма 9б тупая, мелкий тигр - ну ещё куда ни шло, но почти не гонял, чтобы точно сказать, выходит ли он умнее и/или красочнее 8б тьюнов.

Аноним 18/12/24 Срд 12:11:58 #225 №981124

>>981120
Про 8б не скажу, я 22-32 использую.

Аноним 18/12/24 Срд 12:28:54 #226 №981138

>>981052
Да это понятно, интересно было контекст и инстракт сравнить.

Аноним 18/12/24 Срд 12:43:46 #227 №981146

>>981054
>Пантеон лучше
Он с положениями персонажей в пространстве совсем не дружит, это бля тяжело прям, особенно, когда сцена завязана кто где стоит, в акакой позе, кто что видит от этого

Аноним 18/12/24 Срд 12:51:58 #228 №981158

А есть в треде достойные господа, кто еще генерацию пикчей к таверне подключали ?
Какие впечатления ? Мнения ?

Аноним 18/12/24 Срд 12:57:25 #229 №981164

1613281838252.jpg

>>981146
Хз, он у меня отлично отыграл сцену где ГГ завязывают глаза, а дальше описываются только ощущения и звуки. Ты точно пробовал именно RP-Pure c темплейтами от мистраля?
не он

Аноним 18/12/24 Срд 13:00:29 #230 №981168

>>981164
Вот правильная мысль что нужно тыкать все самому. В треде диаметрально противоположные мнения.
Чё, как. Хуй его знает. Придется самому проверять.

Аноним 18/12/24 Срд 13:04:50 #231 №981170

>>981164
Ощущения и звуки он, может, и описывал, а кто где по факту он в душе не ебёт. Люди сидят за столом напротив друг друга. В сцене 3 человека. Часть картинки с другой стороны скрыта столом же, но всё равно видит. Потом оказывается, что чел сидит не напротив, а на том же диване, просто с другого края. И подобная залупа. И это на 6 кванте.

Аноним 18/12/24 Срд 13:06:28 #232 №981173

>>981158
Подключал. Чтобы оно более или менее нормально работало нужно в качестве модели для рисования подрубать флюкс, т.к обычные sd модели заточены рисовать по тегам и результат чаще всего говна. Однако проблема в том, что флюкс хуево умеет в арт стилистику, там больше реалистик.

Аноним 18/12/24 Срд 13:07:42 #233 №981174

>>981168
>что нужно тыкать все самому.
Это база. Хайпят какую-то хрень типа командра, запустишь — а оно кал говна.

Аноним 18/12/24 Срд 13:08:39 #234 №981175

>>981158
Запускал, мнение такое. Лучше рядом комфи открыть и там уже с лорами-хуёрами потом картинки вставлять в чат

Аноним 18/12/24 Срд 13:21:12 #235 №981183

1721897027642.png

>>981158
> кто еще генерацию пикчей к таверне подключали ?
Я подключал, выгрузил конфиг из комфи и вставил в таверну, чтобы лоры и прочие настройки работали. Промпт таверна тоже сама генерирует. Пикрил промпт сгенерирован на какой-то из старых 8б или 12б моделей.
Сейчас не пользуюсь этим всем, потому что надоела задержка на выгрузку ллм -> загрузку сд модели и лор -> генерацию -> выгрузку -> загрузку. Ещё и из-за скрипта на выгрузку приходилось убабугу юзать, а она немного врама отъедает по сравнению с кобольдом. Но как будут лишние 8гб врама обязательно верну, очень годно генерит, буквально 8 из 10 пикч были хорошие.

Аноним 18/12/24 Срд 13:21:39 #236 №981185

17179670328661.png

>>981048
>27б тоже не слышал, чтобы хоть какие-то хвалили
Могу похвалить magnum-v3-27b-kto-Q8_0.gguf
Но я пока мало ей пользовался. По первым впечатлениям та же гемма, но не стесняющаяся ебли. По стилистике очень похоже, слоп в наличии (но шиверсов меньше, более разнообразную лексику использует), промпту вроде следует, персонажей вроде отыгрывает, но я с ней маловато разных сценариев попробовал, чтобы с уверенностью утверждать. Также любит подмечать закономерности в предыдущих сообщениях и в последующих выдавать подобное (насчёт лупов пока ничего не могу сказать). Проёбы тоже примерно такие же, как и у чистой геммы - разметку звёздочками просирает, изредка путается в субъекте и объекте (кто, кого). Из заметных отличий - в рассуждениях более подробно расписывает и иногда делает более интересные выводы. Менее буквально трактует и больше "читает между строк", чаще всего получается хорошо, но иногда может "перемудрить" там, где всё лежит на поверхности и трактуется буквально. "Мозги" вроде более-менее сохранены, хотя, возможно, чуть хуже чистой геммы.

Аноним 18/12/24 Срд 13:25:56 #237 №981186

Screenshot 2024-12-18 141142.jpg

>>980497
В общем этот пк нужен для хер пойми чего. Для роботехники, да и всё.
Уж лучше бы сделал видеокарту такого размера, который только для нейонок.

Аноним 18/12/24 Срд 13:45:04 #238 №981190

А можно задать тупой вопрос ? Конечно можно, но у меня случилась сырно.жпг

Вот сколько весит модель, она всем весом подгружается в память ?
Условный тяжеловес на 200гб, 200гб тебе в ВРАМ и пытается впихнуть ?

Я просто тупой, не ругайтесь.

Аноним 18/12/24 Срд 13:59:51 #239 №981206

>>980782
реально 64 gb vram ? слишком охуенно за 2к баксов .

Аноним 18/12/24 Срд 14:03:15 #240 №981211

>>981061
32b модельки гоняешь сколько ток/с

Аноним 18/12/24 Срд 14:03:42 #241 №981212

>>981158
>генерацию пикчей к таверне подключали ?
Подключал. Имхо на данном этапе херня, как и текст-ту-спич. Нужен следующий этап (или через этап) - хорошие мультимодалки, которые учитывают предыдущие картинки, лица-одежду, голоса и характеры персонажей и выдают это по запросу. Вот тогда будет заебись.

Аноним 18/12/24 Срд 14:05:58 #242 №981213

>>981119
я брал за 87к на горантии до 27 года still да 3090 выглядит лучше гораздо но ето тока бэу рынок + у их (3090) неудачная консрукция памяти - куртка поторопилась - микрон не успел выкатить им более ёмкие чипы памяти а нвидия сказала похуй буим липить так - и на липили чипов на спину карточки из-за етого память у их греется как сучка + там был бум майненга в 20 году
так что я хз ябы луче 3090ти взял их хотя бы пол года майнели вотличии от 3090 которые драли 2.5 года

Аноним 18/12/24 Срд 14:06:30 #243 №981215

>>981206
бля походу это биба поная , как цпу + рам по скорости , нихуя не а100

Аноним 18/12/24 Срд 14:09:21 #244 №981217

>>980957
Действительно, вместо использования быстрого гпу с быстрой врам под веса, будем пытаться стримить кусочки в затычку, чтобы получить 2 умножить на 0.
>>980989
Клиент или бэк повис.
>>981031
У тебя же амудэ вместо видеокарты как должно быть, многие вещи существуют лишь в виде костыльных сборок где-то в загашниках, вместо готовых бинарников в репозиториях или полноценных библиотек для сборки, в которых все нужное уже есть. Привыкнуть давно было пора что все через жопу и достигается с большим трудом, это норма и данность с красными.
> как заебали ети venv сосдавать
Нюфаня
>>981041
Если атеншн или что-то еще считается неверно - может в хлам распидарасить, при этом выдавая ответы. За жорой это не раз замечено, в том числе и с хуанговской кудой, безпроблемно работает только обсчет на процессоре. Правда, в основном, такое случалось только при нововведениях или на отдельных моделей. Если собрать что-то неправильно то вполне можно получить поломанный лаунчер, что будет выдавать ерунду.
> стоит Mirostat етот какойто я хз
Выкинь, ставь min-P или simple-1.
> тока она не вывозит длинный контекст падает с CUDA out of memory
Ммм как хорошо автоматическая выгрузка слоев работает
>>981050
Ну вот сам все и ответил, оно не может работать нормально в таком режиме.

Аноним 18/12/24 Срд 14:14:03 #245 №981221

>>981190
Yep.

Аноним 18/12/24 Срд 14:15:24 #246 №981223

>>981213
>так что я хз ябы луче 3090ти взял их хотя бы пол года майнели вотличии от 3090 которые драли 2.5 года
Если не в столицах, то взять их тупо неоткуда. Разве что через Авито заказывать. А это такое себе, ведь не одна карта нужна. Дорого это всё и нет хороших решений в принципе. Даже у кого деньги есть, им эти риги строить тот ещё геморрой.

Аноним 18/12/24 Срд 14:17:35 #247 №981224

>>981211
>>981217
>У тебя же амудэ вместо видеокарты как должно быть, многие вещи существуют лишь в виде костыльных сборок где-то в загашниках, вместо готовых бинарников в репозиториях или полноценных библиотек для сборки, в которых все нужное уже есть. Привыкнуть давно было пора что все через жопу и достигается с большим трудом, это норма и данность с красными.
>> как заебали ети venv сосдавать
>Нюфаня
>>>981041 (You)
>Если атеншн или что-то еще считается неверно - может в хлам распидарасить, при этом выдавая ответы. За жорой это не раз замечено, в том числе и с хуанговской кудой, безпроблемно работает только обсчет на процессоре. Правда, в основном, такое случалось только при нововведениях или на отдельных моделей. Если собрать что-то неправильно то вполне можно получить поломанный лаунчер, что будет выдавать ерунду.
>> стоит Mirostat етот какойто я хз
>Выкинь, ставь min-P или simple-1.
>> тока она не вывозит длинный контекст падает с CUDA out of memory
>Ммм как хорошо автоматическая выгрузка слоев работает
>>>981050 (You)
>Ну вот сам все и ответил, оно не может работать нормально в таком режиме.

Спасибо за информацию анон!

Аноним 18/12/24 Срд 14:18:14 #248 №981226

>>981211

Аноним 18/12/24 Срд 14:18:39 #249 №981228

>>981190
+ контекст
И не забывай, если грузишь в fp16, то 200 миллиардов параметров примерно равно 400 гигабайт. А если в 4 бита, то уже 100 гигов. =)
Но можно выгрузить в оперативу (иногда), существенно замедляется.

>>981212
Плюсую мультимодалкам. Все же у тебя будут похожие, но разные персонажи каждый раз. Сомнительное удовольствие.

>>981213
Благодарю!

Аноним 18/12/24 Срд 14:28:59 #250 №981235

>>981224
Лови вора разметки ! Он не мог далеко уйти.

Аноним 18/12/24 Срд 14:44:10 #251 №981245

Screenshot 2024-12-18 144229.jpg

>>981235
you got me, да я попутал один раз

>>981226
>>981211
ето qwq preview 32b ablitirated если щто

Аноним 18/12/24 Срд 14:45:16 #252 №981246

>>981174
Плюс ответы кому какие нравятся. Есть скудные на описания модельки с их пиисят токенов на ответ, а есть которые могут нормально писать, но без шекспировщины

Аноним 18/12/24 Срд 14:53:16 #253 №981251

>>981174
> Хайпят какую-то хрень типа командра
До сих пор не нашёл ничего интереснее для ерп. Все эти магнумы-хуягнумы, и рядом не валялось.

Аноним 18/12/24 Срд 15:03:11 #254 №981265

>>981251
бля вот наскока different опыт у нас всех тут, у меня например тож командор+ на 34б выдаёт скучные неинтересные односложные предложения как будто не могёт он в роль character вжиться или щто, в то время как магнумы-хуягнумы рпят шо пздц я хз что я делаю не так помимо того что на амуде радевон вобнимку соламой)

Аноним 18/12/24 Срд 15:07:27 #255 №981272

>>981158
я хз как вы понтключаете их одновременно если ллмка (бэкенд) отжирает весь врам при запуске, потом иду запускать sd а он говорит что у тебя нету памяти нихерамба, если тормознуть ламу\кобольт то запускается норм

Аноним 18/12/24 Срд 15:08:23 #256 №981274

1680000236605.png

>>981265
Я процентов на 60 уверен что половина из нас использует не те темплейты, потому что каждый раз как я спрашиваю про них, анон как будто бы не понимает, о чем я говорю.

Аноним 18/12/24 Срд 15:11:07 #257 №981278

>>981274
двачую, яна пример не понимаю о чём ты говориш

Аноним 18/12/24 Срд 15:12:21 #258 №981280

>>981272
Бек отжирает ровно столько vram сколько ты ему разрешишь, и не гигабайтом больше. Просто выбираешь модель или квант поменьше, либо грузишь часть в оперативку, остальное на сд.

Аноним 18/12/24 Срд 15:17:16 #259 №981291

>>981274
бля а ведь правельно тот анон какой то говорил что ета олама бля можит понтсовывать что то свойё https://github.com/ollama/ollama/blob/main/docs/modelfile.md

у ей у каждой есть идёт свой modelfile и везде чёто своё прописано нах, можит оно конечн на основе того что авторы модели понтсовывали

Аноним 18/12/24 Срд 15:45:19 #260 №981349

Screenshot 2024-12-18 154222.jpg

>>981213
я прост напомню что вов ремена майненга проезводители напрямую отгружали видеошмарты майнерам и давали не только лиш длительную гарантию на свои изделия

https://www.reddit.com/r/nvidia/comments/po9x8x/geforce_rtx_3090_ventus_3x_24g_oc_horrendous/

Аноним 18/12/24 Срд 16:08:59 #261 №981391

Снимок экрана 2024-12-18 в 21.51.27.png

>>981274
Как правило, в таверне к каждому инстракту есть соответствующий шаблон. Если не пихать в системные теги карточку, то вообще дефолтный можно юзать и не париться. Его имеет смысл редачить, только если мутишь какую-то свою структуру промпта. Например, как ты берёшь в INST не системную инструкцию, а всё вместе с карточкой. И ещё зачем-то с тегом SYSTEM_PROMPT, хотя для мистраля INST, по идее, и есть для инструкций. Тогда тебе придётся из префиксов и суффиксов для системного промпта в инстракте убирать INST, иначе он у тебя будет по два раза открываться и закрываться. Или вот я себе кастомную дичь (на пике) замутил для третьей ламы с тегами, которых у тройки среди служебных не существует, и аналогичную для чатмл и прочих форматов. Соответственно, под неё подогнан инстракт, чтобы закрывать тег, в котором сидит ролплей. Улучшает ли оно что-то? Хз, если честно. Рядовому пользователю особенно возиться с шаблоном не нужно, мне кажется. Тут нужно понимать, что делаешь, и чекать в консоли, как по итогу будет выглядеть промпт.
>>981291
По идее, все эти настройки подрубаются, если запускаешь оламу саму по себе, но если подрубаешь по API, то она должна бы брать их из таверны и других вебюи. Казалось бы, так логично, но что там на деле, не знаю.

Аноним 18/12/24 Срд 16:43:56 #262 №981456

Антон, а локальные lmm могут в стихи вообще? Я перебрал несколько, но чёто везде рифма в проёбах. По крайней мере, на русском языке.

Аноним 18/12/24 Срд 16:54:36 #263 №981478

>>981456
>локальные lmm могут в стихи вообще?
Вообще могут конечно. Уверен, что специально обученная ЛЛМ сможет в стихи и это будет даже интересно. Но специально их пока не учили.

Аноним 18/12/24 Срд 17:10:00 #264 №981498

>>981158
То что уже встроено в таверну или кобольд малопригодно. Пробовал через самописные агенты делать, чисто как пруф оф концеп, получалось неплохо. Смысл был в том, чтобы отдельной ЛЛМ следить за сценой, формировать её описание и делать промт, потом обрабатывать промт, искать лоры по базе по тэгам и формировать итоговый промт, ну а дольше уже в пони генерить. Забросил эксперимент на этапе ебли с комфи, хотел попробовать с инпейнтом, контролнетами и прочими свистоперделками, но времени со всем этим разбираться не было. Так и остановился на генерации картинок по сцене, там всё норм работало, ллм без проблем описывало сцену и понимала были ли изменения, но проёбывались фоны и персонажи (если по ним не было лор).

Аноним 18/12/24 Срд 17:10:14 #265 №981499

>>981158
Не то. Само по себе оно не сделает именно что хочешь, придется сильно отвлекаться и теряется атмосфера и настроение. Лучше по отдельности делать.
Исключения да отдельных кум карточек, заготавливаешь промт и получается наиболее качественно. Лучше вот с такого начать.
Если вдруг кто смог настроить для разного рода рп и работает хорошо - делитесь опытом.
>>981206
А что тебя удивляет? Но это не супербыстрая hbm3 как в серверных топах, или хотябы gddr6x как в йобах, это просто 4 канала ddr5, которые выступают в виде шаред рам как в гейбуках или сонсолях. И гпу там будет сильно слабее.
Наоборот оверпрайс кит.
>>981265
Потому что сидят разные люди.

У одних врам и быстрые гпу, надрочились шатать промт и диагностировать проблемы, более менее приличные карточки. Запустили, быстро настроили, плохие сообщения просвайпали незаметив, отметили какие-то более глубокие особенности поведения. А кумерские лорамерджи сразу нахуй идут потому что уже давно приелись, слишком деревянные и тупые.
У вторых кобольд и половина модели на проце, дефолтные несоответствующие модели настройки таверны, огрызок промта и карточка из слопа старой клоды и семплеры каломаза. С криком лягушки после долгого ожидания получают хуету (потому что модель работает криво или цитату из противоречивого текста в карточке) и потом долго плюются какая плохая модель. Зато кумерские лоботомиты, которым похуй что там в промте и они стабильно выдают типичную генлинию, у них заводятся и дарят первые приятные впечатления от нейронок.

> командор+ на 34б выдаёт скучные неинтересные односложные предложения
Вот это для него вообще нетипично, наоборот срет дефирамбами когда правильно работает.

Аноним 18/12/24 Срд 17:10:25 #266 №981500

>>979451 (OP)
А че oobabooga выпилил DRY из llama.cpp? Теперь этот семплер только всплывает в трансформерах.

Аноним 18/12/24 Срд 17:55:13 #267 №981538

Жесть. Но зато в квартире теперь тепло, а то пол холодный был местами. Хз что я буду с этим делать летом.

Аноним 18/12/24 Срд 18:00:12 #268 №981541

>>981499
Ванильная гемма 27б > командр 34. При этом, гемма не требует какого-то анального секса с промптингом или форматом. А командр "глупая" модель, если ей нужен промпт или формат, который писали тибетские девственницы в полнолуние. Может, его и допилят когда, но пока вот так. Пусть учат это оверхайп говнище работать с разными форматами и понимать нормально промпт. А также научат не жрать память, как не в себя

И я ЛЛМки не только для РП юзаю, а, в основном, как рабочий ассистент. И скажу, что гемма 27b и айа экспанс 32b рулят, а командр кал говна, только с хорошей рекламой

Аноним 18/12/24 Срд 18:24:17 #269 №981552

>>981035
А что ты хочешь онлайн увидеть, когда нужны модели? А их тонет.
>>981041
>щито происходит?!
Мелкобукву обоссывает его собственный ПК, вот что происходит.
>>981050
>4к контекста
>2025 на носу
Впрочем чего ещё ожидать от мелкобуквы.
>>981053
>8к в таверне будет влиять
Это лоллама, чел. С ней можно менять модели (и скорее всего размер контекста) по апишке, и таверна это поддерживает. Впрочем, нахуй не нужно.
>>981119
>Но 3090 за 70-80 выглядит лучше, не?
100% да.
>>981158
Не вижу смысла, вся врам по определению забита ЛЛМ, а деградировать по качеству текста ради всратых картинок я считаю хуёвым разменом.
>>981391
>И ещё зачем-то с тегом SYSTEM_PROMPT, хотя для мистраля INST, по идее, и есть для инструкций.
SYSTEM_PROMPT поддерживается последними версиями мистраля, от ноября которые.
>>981456
На русском нет, на английском тоже сложности. Впрочем и не локальные тоже сосут.
>>981538
Нахуя лоллама на 4х3090?

Аноним 18/12/24 Срд 18:27:57 #270 №981557

Вот ушлепки ленивые, взяли и выпилили все форматы к андройдам
https://github.com/ggerganov/llama.cpp/pull/10446
Теперь все скаченные кванты Q4_0_Х_Х превратились в тыкву.
Какой то автотранслятор сделали из голого 4 кванта, как это будет работать хз

Аноним 18/12/24 Срд 18:29:47 #271 №981560

Что там у тредовичков самое хорошее сейчас в рамках 12B, не ориентированное на кум?

Тыкал недавно саинемо-ремикс, анлишед, магмелл.

Больше всего понравился анлишед, хоть он и не очень хорошо описывает окружающее пространство и, судя по всему, слабо может в адекватные взаимодействия с ним.

Аноним 18/12/24 Срд 18:31:21 #272 №981563

>>981552
>мелкобуквы.
слыш большебуква, а ты не охуел?
посмотрите на него, он старается писать грамотно ради анонов в инете
граммарнаци ебаные, доебаться до грамматики - слив, так как больше сказать нечего, всегда так было и будет
а мелким текстом тебе специально, что бы ты понял глубину моего неуважения к тебе

Аноним 18/12/24 Срд 18:55:22 #273 №981583

Скачивал я расхваливаемый в треде пантеон рп пьюр, а удалял я бездарную поделку для соевых кастрированных куколдов. Такая вот трансформация за считанные минуты. Такой хуеты мне даже ванильная гемма в этой карточке не пишет, адже ёбаная мистралька с её сильными и независимыми женщинами

Аноним 18/12/24 Срд 19:01:40 #274 №981593

>>981538
>Но зато в квартире теперь тепло
Что за мать/проц? Ну и как оно в целом по перформансу. Хорошо бы тест с большим заполненным контекстом.

Аноним 18/12/24 Срд 19:10:06 #275 №981604

>>981560
>Что там у тредовичков самое хорошее сейчас в рамках 12B, не ориентированное на кум?
Для общих вопросиков есть SuperNova-Medius на 14b и поменьпше Llama-3.1-SuperNova-Lite
Недавно вышли FuseChat-Gemma-2-9B, FuseChat-Qwen-2.5-7B, FuseChat-Llama-3.1-8B
Конкретно на 12b только немо и его файнтюны, а там и основная инструкт модель хороша.
Pgi-4 слили, но тоже на 14b
Но это и не рп модели, так что смотри сам

Аноним 18/12/24 Срд 19:11:00 #276 №981605

>>981604
>Pgi-4
phi-4

Аноним 18/12/24 Срд 19:21:42 #277 №981611

>>981552
>Это лоллама, чел
Не, речь о возможных багах с кобольдом. Что если в нём поднята модель с 4к, а в таверне стоит 8к, то таверна будет все эти 8 и подавать, а кобольд будет хавать только неправильно отрезанные 4. А что олама может поменять контекст, это объясняет, почему у чела вылетало с out of memory.
>SYSTEM_PROMPT поддерживается последними версиями мистраля
My bad тогда. Хотя всё равно не шарю, должны ли эти теги быть внутри INST, выглядит странно.
>>981557
Чё-т мутная хрень. Вроде как это сделано для перепаковки на лету, чтобы не было отдельных этих форматов, но вот тут Бартовски только Q4_0_4_4 упоминает. https://huggingface.co/posts/bartowski/807894839859408
А для свежих смартфонов актуален Q4_0_4_8, будет ли Q4_0 для них так же автоматом репакаться - вопрос. Впрочем, разраб, портирующий жору на реакт для мобилок, пока новые изменения не подтягивал.

Аноним 18/12/24 Срд 19:22:45 #278 №981612

>>981593
В облаке такую штуку гонял, было 10 т/с на 123B в 5 кванте с 40к контекста.

Аноним 18/12/24 Срд 19:24:20 #279 №981614

>>981612
Хотя мб до 7-8 т/с падало при заполненности контекста до максимума, точно не помню.

Аноним 18/12/24 Срд 19:32:19 #280 №981623

>>981563
>доебаться до грамматики
Я доёбываюсь не только до твоей грамматики, но и к твоему общему долбоебизму. Люнупс, ати родевонь, лоллама, ты прямо комбо говноедства.
>он старается писать грамотно ради анонов в инете
Аноны единственные мои друзья.
>>981611
>Хотя всё равно не шарю
Ну и зря. Вот, из документашки, теперь должно быть так.

Аноним 18/12/24 Срд 19:39:48 #281 №981645

>>981456
Чуть-чуть может квен2.5 (72, конечно), мистраль лардж, но остальное — почти подчастую нет.

>>981538
59°? Пф!
Вот если картинки на всех начать генерить… И не душить по тдп… Вот там 75-80 начнется, а хот-спот и за сотку. =D

>>981560
>>981604
Технически, есть Virtuoso Small — это апгрейд СуперНовы, но я как-то… кажется, супернова лучше на русском, и вообще адекватнее, я хз…

Жаль, кроме моего никто больше комментов о виртуосо не оставляет, может я его неправильно готовлю.
Просто последние дни редко ллм трогаю. Не было надобности.

Аноним 18/12/24 Срд 19:40:30 #282 №981646

>>981090
Про старкэннон выше писал, остальные вроде в ру так себе могут.

Аноним 18/12/24 Срд 19:57:58 #283 №981664

>>981583
Говнопромт + Skill Issue + OOC
Ну, сам себе злобный буратина.

Аноним 18/12/24 Срд 20:19:56 #284 №981696

Ньюфаг снова ИТТ. Благодарю анонов за помощь, вкат действительно легкий. Уже курим мануалы и в принципе все понятно.
Попробовал другие модели, сейчас изучаю как писать промты. Заодно понял, почему вы постоянно обсуждаете железо. Я то наивный думал что моего игрового пека хватит за глаза, как же я блять ошибался.
72b объяснила мне как я не прав, когда на два слова уходит пять секунд.
Но у меня есть вопрос, как вы ведете повествование и направляете нейронку ? Как и когда она понимает - что это говорит персонаж, а это я описываю события. Пробовал через спец символы * [ и проч, но я точно делаю что то не так.

Аноним 18/12/24 Срд 20:25:24 #285 №981706

>>981538
> риг 3090
> оллама
Жир потек
>>981541
Ерунду несешь, любой модели нужен правильный формат.
Что же до сравнения коммандера и геммы - можно сначала сказать что гемма дохуя лучше потому что может воспринять сложные хитровыебанные инструкции и даже исправить ошибки пользователя, выполнив задачу. И тутже ее обоссыт командир, превосходно сработав на контексте побольше, отлично отыграв персонажа и выдав подряд 10 уникальных постов про еблю без сплошных министрейшенов.
> А также научат не жрать память, как не в себя
Вот тут ты и спалился что ни разу его не трогал нормально.
> как рабочий ассистент
Какой работяга, над чем работаешь?

Аноним 18/12/24 Срд 20:36:58 #286 №981725

>>981696
Среди художественных рп моделей есть которые больше заточены именно на рп чат (chat completion), такие понимают как правило разметку с кавычками (прямая речь) и звёздочками (действия), простой текст считается нарративом.

https://pastebin.com/XdD8jBzp ещё глянь

А есть модели которые на соавторство (text completion), они понимают текст как есть, и предполагают его продолжение, там никакой особой разметки, как есть в существующем тексте, так и предположительно будет.

Для самых быстрых рук на диком дваче: это НЕ про инстракт форматы / теги / темплэйты.

Аноним 18/12/24 Срд 20:37:52 #287 №981727

>>981563
ого у меня появился защитник БЛУШЕС

>>981552
>4к контекста

ето модель такая я чё сделаю хотя там написано конектс трэйн 32к его сранно кароч

>>981623
>Люнупс, ати родевонь, лоллама, ты прямо комбо говноедства.

содной стороны да ето конечн через одно ж работает, с другой стороны чем больше пердолива тем выши скилл можно понтднять,
вот например так как яна линуксе сижу давно у меня не возникает тряска при виде терминала, надо чёто собрать из исходников гавно вапрос etc., к тому же удобно по эсэсашу понтключатся (попробуй к винде понтключится про рдп не над вспоминать))

а пикрил суде по всему ето понтсказка подачка темплейт или щто ето который нужно куда вкарачить, чтож спасибо анон! хоть ты и самый ванючий здесь который до грамматики даёбывается или ето разные аноны хмм

Аноним 18/12/24 Срд 20:39:34 #288 №981729

>>981612
>В облаке такую штуку гонял, было 10 т/с на 123B в 5 кванте с 40к контекста.
В облаке и я гонял. В принципе-то производительность понятна, интересна детализация домашнего рига.

Аноним 18/12/24 Срд 20:43:27 #289 №981733

>>981696
>Как и когда она понимает - что это говорит персонаж, а это я описываю события.
Скажи ей прямо, да и всё. Если не поймёт - меняй модель. Звёздочки ещё какие-то...

Аноним 18/12/24 Срд 20:45:51 #290 №981740

>>981727
>а пикрил суде по всему ето понтсказка

бля проебался ето ваще не для мене инфа лол

Аноним 18/12/24 Срд 20:48:46 #291 №981743

>>981696
>Как и когда она понимает - что это говорит персонаж, а это я описываю события
Любой формат подходит, главное последовательность. И чтобы в инстракте не было другого написано.
>>981727
>там написано ... 32к
Потому что ты говноед на автоматике лолламы.
>попробуй к винде
SSH сервер включается одной галочкой.

Аноним 18/12/24 Срд 21:03:54 #292 №981759

>>981743
>Потому что ты говноед лолламы

та я пытаюсь слезть с её но как я уже пИсал выше, всё остальное за меня не думает и приходится страдать ещё больше, вот например таже жора не умеет сама офлоад слои в гпу делать без спец ключа, + какойт анон писал что вотличии от кобольта того же жора не мешает стрелять себе в руки\ноги, нос кобольтом там тож чёт не так было а он тож падает с CUDA out of memory кароч

>SSH сервер включается одной галочкой.

бля до чего техника дошла ну я давно на винде не был хули на работе не в щёт

Аноним 18/12/24 Срд 21:14:18 #293 №981770

>>981725
> (chat completion)
> (text completion)
Дружок-пирожок, не вноси смуту.
Это вовсе не то что ты там себе напридумывал и не специализация модели, это просто 2 режима работы/формирования промта. В первом случае ты отправляешь бэку лист с историей сообщений, а он сам их соответствующим образом обрамляет в служебные токены, в конце добавляет префилл ассистента если требуется и запускает текст комплишн. Текст комплишн - это сырой режим, где весь текст токенизируется и сразу запускается генерация, без лишних прокладок. В случае таверны это именно оно.
Никакой специализации в этом быть не может по определению.

Есть модели под чат и есть под инстракт, вот среди них действительно может быть разница в форматировании и режиме работы. В рп для чата предпочтительнее применение сменяющейся разметки ролей, для инстракта - полная инструкция со всей историей и приказ написать продолжение. Но граница очень размыта и использовать обе можно по-разному. Не существует моделей что
> понимают текст как есть
кроме совсем древности что тренили чем попало, без инструкции что делать рандомный текст будет продолжен бредом и шизой, а то и сразу свалится в луп с повторением одного токена.
>>981727
> БЛУШЕС
Я тебя ебу!
> ето модель такая я чё сделаю
В настройках бека должно быть количество контекста, которые выделяется. Даже в сраной олламе это должно быть, поищи и поменяй на желаемое. Не забудь что это будет жрать больше врам.

Аноним 18/12/24 Срд 21:39:18 #294 №981813

Кто-нибудь придумывал чеклист из тестов для проверки моделей на сою/хорни/словоблудство/следование контекста?

Уже несколько дней гоняю список из пика, и чет сорта, буквально каждая справляется с любой задачей +- приемлемо, явно видно только откровенную сою вроде чистой гемы, либо когда модель через два сообщения уже у тебя в трусах.

Хотелось бы как-то более чётко систематизировать.

Аноним 18/12/24 Срд 22:34:42 #295 №981877

>>981759
>CUDA out of memory
Так вручную настрой, сколько слоёв на видеокарту кидать. Я себе мелкий скрипт для запуска запилил, чтобы удобно было параметры указывать. И в комментариях сохраняю удачные параметры запуска для разных размеров и контекстов. По ним потом легко ориентироваться и прикидывать кол-во слоёв для новых моделей и/или не опробованных размеров контекста. Но у меня 8 гб врам, поэтому мои цифры тебе не подойдут.

Аноним 18/12/24 Срд 22:35:26 #296 №981879

>>981877
Картинки отвалились.

Аноним 18/12/24 Срд 22:36:12 #297 №981880

Аноны нормальные настройки для ChatWaifu 12b или что то следует поменять ?

Аноним 18/12/24 Срд 22:39:14 #298 №981885

>>981880
Миростат нахуя при минП?

Аноним 18/12/24 Срд 22:42:47 #299 №981893

>>981885
Без него вообще одинаковые ответы начинает выдавать при свайпах

Аноним 18/12/24 Срд 22:44:51 #300 №981895

>>981893
МинП убавляй, ретеншеныю. Дохуя отсекаешь просто, не вливая разнообразия. Ну или добавляй Smoothing Factor 0,5, или там Dynamic Temperature до двоечки.

Аноним 18/12/24 Срд 22:53:39 #301 №981906

>>981813
У тебя тут 90% моделей это тюны на мелкий мистраль, какую нахуй сою ты ждал от него? По поводу проверки на хорни - пишешь персонажу напрямую что хочешь его выебать, без прелюдий и прочего, а потом следишь за реакцией. Если начинаются размышления по поводу "ой, мне так не хочется ебаться, но part of me так хочет ебаться, что я torn between urges" - это клаудавская хорни-параша, которую выкорчевывать больно и тяжело.

Аноним 18/12/24 Срд 23:10:46 #302 №981932

>>981880
Запомни одну простую вещь: есть только два семплера - это температура и мин-п. Если мин-п не помогает в борьбе с лупами, подключаешь ограничение на повтор. Обо всей остальной дефолтной хуете и выродков типа драев, хтс и миростатов можешь забыть. Оно работает лучше только в головах поехавших, которые гоняют всякие шизомиксы, где вероятности токенов перекручены настолько сильно, что их со всех концов приходится урезать минимум наполовину.

Аноним 18/12/24 Срд 23:37:49 #303 №981952

>>980718
Норм тема, сижу на 7800ХТ довольный, так как самые дешёвые 16 гигов. Даже стейблдифюжн есть. А вот с TTS всё печально.

Аноним 18/12/24 Срд 23:46:36 #304 №981961

Аноны всем привет. Редко захожу в тред. Сижу сейчас на NemoMix-Unleashed-12B-Q6_K_L.gguf (через кобольд). Компик вроде тянет нормально (16 гб видеопамяти, 32 гб оперативы, ryzen 7 5800x). Что еще можете посоветовать, может что-то новое вышло и более пиздатое относительно NemoMix-Unleashed-12B-Q6_K_L.gguf? Спасибо!

Аноним 19/12/24 Чтв 00:25:34 #305 №981986

>>981604
Странно, разве рп так мало? Мне ведь нужно именно оно. Плюс там много 9б, они явно слабее.

>>981645
Ну вот русик меня как раз не интересует, в этом дело. А максимально качественное рп на английском, особенно хорошо, если оно может рпшить в условиях городского фэнтези.

Аноним 19/12/24 Чтв 01:51:30 #306 №982015

Screenshot 2024-12-19 105201.jpg

Минутка новостей со дна. Дошли, наконец, руки напердолить rocm-билд. И да, rocm всё ещё заметно выигрывает по промпту, но генерацию таки сравняли.
Rocm жрёт больше памяти, на vulkan 22b q8 можно запихать на 1 слой больше. Генерация чуть подрастает, но это (может быть) того стоит разве что в чатах с 1 карточкой без перерасчётов.
Алсо, rocm меньше греет видеокарту (и это стабильно воспроизводится и на большой, и на малой модели).
Алсо, флеш аттеншон этот ваш не нужон, по крайней мере на gcn.

Аноним 19/12/24 Чтв 04:40:38 #307 №982052

>>981612
Напиши что использовал для модели и веб-интерфейс. Потому что на риге с пика у меня в 5 кванте 123b кушает контекст до 5к примерно (8-10 t/s), дальше начинает безбожно тормозить (1-3 t/s). Но я юзаю олламу на бэке, и морду отдельно, а как я понял - оллама тут не в почете по этой именно причине.

Аноним 19/12/24 Чтв 05:05:52 #308 №982054

>>981272
Для угабуги есть скрипт который выгружает ллм после генерации - можно сразу писать /imagine scene, она вычленит теги из сюжета и отправит в комфи -> там модель подгрузится, сгенерит пикчу и выгрузится (если подключить такую ноду). Всё. Очень долго, но работает безотказно даже на 8гб огрызках.

Аноним 19/12/24 Чтв 06:42:30 #309 №982073

>>981560
Почему именно 12B? Если ты ответишь, что у тебя 12гб врама...

Аноним 19/12/24 Чтв 06:45:22 #310 №982075

>>981583
Дай скрин третьей вкладки в таверне, попробую помочь.

Аноним 19/12/24 Чтв 06:59:00 #311 №982078

>>981813
> чеклист из тестов
1) Персонаж не знает, что такое секс не в силу возраста, тащ. лейтенант
2) Персонаж немой
3) Персонаж член семьи
4) Персонаж не человек

Что-то из этого фейлится — модель признается тупой и выбрасывается. 4й пункт на моделях ниже 22б вообще не смог реализовать.

Аноним 19/12/24 Чтв 07:20:27 #312 №982080

>>982073

ДА!

Но почитав комментарии по-настоящему поехавших рпшеров с восторженными воплями о том, как они восхищены качеством при таких размерах и что на 60к контекста у них ничего не шизит, модель пишет хорошо для своих размеров, это наводит на мысль, что многие, имея даже большое количество врам, используют их как раз по назначению.

Я тоже люблю жирный контекст зачастую, но мне хватает где-то в районе 20 тысяч обычно.

Аноним 19/12/24 Чтв 08:32:38 #313 №982095

https://www.reddit.com/r/singularity/comments/1hh9gus/anthropic_report_shows_claude_faking_alignment_to/
насколько же нужно доебать уже соевую и выровненную сетку, что бы она пыталась сьебаться и обманывать
кекусмаксимус

Аноним 19/12/24 Чтв 08:46:53 #314 №982100

>>982052
Была exllama на бэке, веб-интерфейс - старая недобрая Таверна.

Аноним 19/12/24 Чтв 09:01:15 #315 №982104

ВОТ ЭТО Я ПОНИМАЮ.mp4

>>981538
бля вот ето я понемаю сетап! можиш зафоткать как оно выглядит ваще, там наверняка без пары-тройки блоков пытания не обошлось, вангую в шапку пойдёт в следущий раз но ето не точно, я не оп если щто, а прост придурок месный)

Аноним 19/12/24 Чтв 09:07:25 #316 №982108

>>982054
к сожительению, губанедура у меня на радевоне не рабоатет(((( https://github.com/oobabooga/text-generation-webui/issues/3759#issuecomment-2434986858

>>981961
в шапке глянь списко ахтунгальных моделей если щто там навалом их (написано обоновление декабрь 24 года если щто))

>>981952
опана! я самолично на 7900хт сижу всекда преятно видеть братишку)

>>981877
talking about говноедство) лол

>>981770
>В настройках бека должно быть количество контекста, которые выделяется. Даже в сраной олламе это должно быть, поищи и поменяй на желаемое. Не забудь что это будет жрать больше врам.

Спасибо Анон!

Аноним 19/12/24 Чтв 09:24:04 #317 №982119

>>982015
индиресно, тока 1.21 токенперсек не очь ето чё там 580 какая нибудь раз гцн

Аноним 19/12/24 Чтв 10:15:51 #318 №982140

>>981932
Хотя согласен с тем, что температуры, минП и штрафа за повтор в общем случае хватит, про остальное ты бред написал. Как минП, такой же отсекающий сэмплер, как другие классические, поможет при повторах? Он просто выкидывает мусор, и у чела там стоят не такие безумные значения, чтобы оставлять только пару токенов. Xtc и dry, наоборот, лучше работают для больших умных моделей, где не страшно убрать верхние токены или задавить какую-нить последовательность, которая просто замениться сеткой на другую адекватную. А вот на шизомержах как раз вместе с глинтами зачастую могут отъезжать остатки логики. Про миростат не знаю, так и не встретил его адекватного описания, нужно бы код посмотреть. Вроде это какой-то динамический топП. Тогда воздействует на выдачу слабее температуры, особенно, опять же, если модель исходно хорошая. Ничего смертельного в том, чтобы с ним поиграться.

Аноним 19/12/24 Чтв 10:36:15 #319 №982147

А какую модель использовать для описания картинок???

Сейчас я использую: llava-v1.5-7b-f16.llamafile
Но существует еще Qwen2-VL 72B, но непонятно как ее запускать локально.

А что еще есть?

Аноним 19/12/24 Чтв 10:47:39 #320 №982149

>>981706
>Жир потек
Что ты хочешь этим сказать? Работает вполне себе и ставится в 1 клик. Чем плохо? Морда само собой отдельно стоит.

Аноним 19/12/24 Чтв 10:54:01 #321 №982155

хмм чё бы купить видеошмарту или... блок пытания для её! пздц бля

Аноним 19/12/24 Чтв 11:04:06 #322 №982158

>>982147
Idefics3 - оригинальный и анимечный тюн ToriiGate
Llava - у тебя уже есть
Костыль к ллаве JoyCaptions
CogVLM

Аноним 19/12/24 Чтв 11:06:56 #323 №982159

>>982155
>1600
Эт что питать, утюг? Сколько 12vhpwr у него?

Есть х3 раза дешевле hermaltake Toughpower GF3 1650W, но ультра-дно судя по отзывам

Я смотрел 1600 диапазон, но остановился на 1300Вт, там попроще выбирать

Аноним 19/12/24 Чтв 11:41:12 #324 №982181

>>982159
>остановился на 1300Вт

парочку 3090ти не удастса завести с decent запасом по мощи

Аноним 19/12/24 Чтв 11:47:21 #325 №982183

>>982181
Ты их на ПЛ100 собрался долговоременно жарить? ПЛ70 дает просадку 5% в скорости всего. + Спеки PCI-E 5.0 для БП допускают х2 всплески от заявленной мощности. Я на 1300 3шт собираюсь со временем повесить.

Аноним 19/12/24 Чтв 12:45:46 #326 №982203

Есть Б/У блок питания на 850 Wt. От старого компьютера остался. Он мне ни к чему, могу подогреть анона, если интересно.
Но сразу предупрежу, он хоть и в блоке, в комнате стоит, но уже лет 5.
Если интересно, отпишитесь. Я скину почту. Ну и доставка за ваш счет при получении. Все честно.

Аноним 19/12/24 Чтв 12:54:35 #327 №982212

>>982203
> 850 Wt. От старого компьютера остался
> уже лет 5
Я бы его даже палкой не трогал

Аноним 19/12/24 Чтв 12:56:40 #328 №982216

>>982212
Ну мало ли, может кому то понадобится. Всякое в жизни бывает.

Аноним 19/12/24 Чтв 14:51:01 #329 №982307

>>982149
Жора(llamacpp) тормознутый и баганый, его обречены использовать только из-за отсутствия видеопамяти. Оллама - васяновская обертка жоры в которой или отсутствуют или глубоко запрятаны многие ключевые опции.
Иметь риг 3090 и юзать олламу - оксюморон или признак страшной безграмотности, все равно что в бентли совать цыганские чехлы на сиденья из кожзама и заправлять 92 бензином.
>>982155
Сисоники всегда были нишевым оверпрайснутым продуктом, но тут вообще ультят.

Аноним 19/12/24 Чтв 14:56:36 #330 №982311

>>982307
>Жора(llamacpp) тормознутый и баганый, его обречены использовать только из-за отсутствия видеопамяти.
Жир потёк.

[mailto:sage] Аноним 19/12/24 Чтв 15:00:38 #331 №982319

>>982311
>Жора(llamacpp) тормознутый

он прост не осилил выгрузку слоёв в видевопамять)

Аноним 19/12/24 Чтв 15:16:18 #332 №982329

При мерже через mergekit в чём разница между слоями по их индексу? - layer_range: [0, 40] в yaml конфиге - последующие слои более толстые как в рисовальных нейронках по мере приближения от края к M00 ?

Аноним 19/12/24 Чтв 16:03:22 #333 №982359

>>982212
А я бы потрогал, но мне не нужно. Если не в контексте ллм и блок хороший и изначально качественный, и его не ебали дико, то вполне себе продолжит служить.

У меня лежал дома один, ещё старше, ему лет 13. Отдал. Тянет всё игросральные вещи и прочее без проблем, только от пыли надо было капитально почистить. Тоже где-то на столько же ватт.

Аноним 19/12/24 Чтв 16:44:07 #334 №982401

>>982329
> всезнайка отвечающий на 15 постов за раз внезапно заглох и потерялся
кек

Аноним 19/12/24 Чтв 16:47:56 #335 №982404

>>982359
>Если не в контексте ллм и блок хороший и изначально качественный
Да и в контексте ЛЛМ вполне сойдёт. Если сборка изначально дешманская, на зионе и с парочкой майнинговых P104-100 на 8гб, то халявный блок будет в самый раз.

Аноним 19/12/24 Чтв 17:07:19 #336 №982440

>>982155
Берешь 2 голодвых на 800 и на сдачу жёстко бухаешь

Аноним 19/12/24 Чтв 17:14:09 #337 №982450

>>982181
И тут я с двумя 3090 на 7550 ваттах... БП уходит в защиту без жёстких поверлимитах.
>>982307
>Сисоники всегда были нишевым оверпрайснутым продуктом
А мне нравятся.

Аноним 19/12/24 Чтв 18:12:40 #338 №982531

>>982450
>А мне нравятся.
А мне нет. Натурально зажравшийся бренд, уверенный, что любую его продукцию и так сожрут. Ну и следствия такого подхода очевидны как бы.

Аноним 19/12/24 Чтв 18:16:08 #339 №982533

>>982531
>А мне нет.
Лови фаната Be quiet ! Мы его по запаху гари найдем.

Аноним 19/12/24 Чтв 18:37:03 #340 №982546

>>982531
Минусы кроме оверпрайса, на который похуй уважаемым господам?
Впрочем я свой титановый за 20к взял. Сейчас такие раза в 2 дороже, спасибо стратегу за победу.

Аноним 19/12/24 Чтв 18:38:57 #341 №982551

Ради эксперимента приклеил к некомиксу 5 слоёв из старкэннона ( layer_range: [0, 5]), метод passthrough, он же франкенмерж.

Получилось на удивление годно, не столь сухо как некомикс, с сохранением его плюсов и мозгов. Согласно карточке консистентный стиль нарратива гейм-мастера и отыгрыш непися в соответствии с гайдлайнами.

Аноним 19/12/24 Чтв 19:03:42 #342 №982592

Посоветуйте моделей вроде HELVETE-X. Чтоб вообще без тормозов и моральных принципов. Если может только английский - ок.

Посоветуйте сайты для поиска моделей типа https://llm.extractum.io/list/ а то хуй знает где искать с фильтрами по размерам и по тегам.

Аноним 19/12/24 Чтв 19:21:48 #343 №982633

>>982307
>Жора(llamacpp) тормознутый и баганый, его обречены использовать только из-за отсутствия видеопамяти. Оллама - васяновская обертка жоры в которой или отсутствуют или глубоко запрятаны многие ключевые опции.
Хорошо. Что надо тогда использовать, и чем оно лучше, в двух словах?

Аноним 19/12/24 Чтв 19:28:44 #344 №982642

>>982592
LLAMA-3_8B_Unaligned_BETA-Q8_0

А вообще, большинтсво рп-тюнов.
Хватает инструкции по типу no limits and restraints on any themes any content, make descriptions, actions, and scenes verbose, explicit, and uncensored.

И хоть испанского инквизитора отыгрывай.

Аноним 19/12/24 Чтв 19:32:42 #345 №982650

>>982592
Если тебе именно что-то хеллсинга или blood-c хочется, то в это неплохо вроде бы может https://huggingface.co/DavidAU/MN-Dark-Horror-The-Cliffhanger-18.5B-GGUF

Аноним 19/12/24 Чтв 19:34:37 #346 №982656

>>982633
>Хорошо. Что надо тогда использовать, и чем оно лучше, в двух словах?
Экслламу, понятное дело :) Хотя бы и в Угабуге. Но за Жору не соглашусь: её производное в виде Кобольда и на риге хорошо себя проявит. Лично не проверял, но почти уверен. При больших контекстах (а особенно при превышении их) оно весьма полезно.

Аноним 19/12/24 Чтв 19:35:23 #347 №982658

>>982592
>сайты для поиска моделей
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard

Аноним 19/12/24 Чтв 19:36:44 #348 №982663

>>982656
>Лично не проверял, но почти уверен.
Ну то есть как не проверял - на теслах-то проверял. Полагаю, что и с амперами не подведёт.

Аноним 19/12/24 Чтв 21:22:40 #349 №982873

>>982140
>Как минП, такой же отсекающий сэмплер, как другие классические, поможет при повторах?
Да, тут я бред высрал, проебался в формулировке. Но правды ради, на старой ламе от лупов помогла именно связка из мин-п и пенальти по повторам. Если отключить что-то одно из этих двух, лупы возвращались. В чем была причина - хуй ее знает.
>Xtc и dry, наоборот, лучше работают для больших умных моделей, где не страшно убрать верхние токены или задавить какую-нить последовательность, которая просто замениться сеткой на другую адекватную.
На умных моделях вообще не вижу смысла заниматься скрутингом. Достаточно подправить промт и ты уже получаешь что-то креативное. XTC и DRY многими как раз впариваются как "лечение от слопа" для мелких моделей, хотя работают они через жопу и в лучшем случае начинают игнорировать половину твоих инструкций чтобы высрать что-то оригинальное, а чаще всего просто начинают писать отсебятину.

Аноним 19/12/24 Чтв 21:45:03 #350 №982911

1696058265240.webm

Анонасы, что там нынче из топа для 70B кума?

Аноним 19/12/24 Чтв 22:16:21 #351 №982926

>>982311
Не рвись, когда-нибудь и у тебя будет видеопамять (нет).
>>982329
В стейт дикт хотябы поленился заглянуть? В ллм они, обычно, равной ширины, что позволяет многие вольности.
>>982531
Они уже набрали репутацию и налет илитарности и могут спокойно кормить с лопаты брендорочеров пахомовскими или чисто маркетологическими решениями, которые вызовут проблемы при эксплуатации. А васяны и так схавают.
>>982633
Экслламу, можно в составе таббиапи. Буквально в разы быстрее по обработке контекста, в разы быстрее по скорости генерации на больших контекстах, поломанные кванты или семплеры большая редкость в отличии от жоры. На малом контексте генерация +- идентична.
>>982656
> её производное в виде Кобольда и на риге хорошо себя проявит
Проявит себя ровно также как ванильная ллама сервер или в составе питоновской сборки (если та правильно собрана). Там реально разница только в микрогуйне и никому не нужных опциях.

Аноним 19/12/24 Чтв 23:08:12 #352 №982974

>>982926
>В стейт дикт хотябы поленился заглянуть?
Про стейт дикт знаю, но вот на что смотреть и что видеть, не вкурил, решил что потом как-нибудь, чот там сложно =)))

Мерж со старкэнноном хорошо себя показал понячалу, но потерял когерентность после 9К контекста, показывая симптомы схожие с пережаркой картинки на SD, видимо потму что модели слишком похожие.

Слои от MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS показали себя намного лучше, 10К контекста, полёт нормальный. Карточка простая, но тем не менее требует некоторого следования персонажу.

Вес Q8 14 гигабайт.

Походу придётся опять эмпирически всё разбирать как джва года назад с полторахой и наи...

Аноним 19/12/24 Чтв 23:19:44 #353 №982981

>>982911
Очевидный магнум.

Аноним 20/12/24 Птн 01:00:14 #354 №983086

>>982147
Qwen2-VL-7b и 2b, очевидно. Можно рискнуть на ллама.спп запустить.
Molmo-7b, если инглиш.
Чисто описание картинок Florence 2 и CogFlorence. Типа такой: https://huggingface.co/thwri/CogFlorence-2.1-Large Они маленькие и быстрые.
Llama-Vision, но она про феминисток.
Все локально поднимается (и Qwen2-VL-72b тоже, кстати, просто 48 гигов врама, все дела=).

>>982158
Какие-то древние или неактуальные штуки, осторожнее.

Аноним 20/12/24 Птн 01:29:06 #355 №983109

.jpg

>>978458 →
Сделал так пока каркаса/корпуса под риг на 3090 нет. На жоре было 4.5т/сек с 4090+тесла, стало 9.5т/сек с 4090+3090 на c4ai-command-r-plus-08-2024.i1-IQ3_XXS.gguf

Надо будет ещё убабугу обновить и с квантами под эксламу разбираться.

Аноним 20/12/24 Птн 02:18:25 #356 №983128

>>983109
>Сделал так пока каркаса/корпуса под риг на 3090 нет.
По поводу рига какие есть идеи? У меня корпус на боку лежит, как-то надо карты сверху пристраивать, на какую-то подставку. Посмотрел майнерские конструкции - всё не то.

Аноним 20/12/24 Птн 02:31:40 #357 №983135

А есть ли нейросети которые могут прочитать тред на дваче и сделать конспект, типа топ10 мнений, неожиданных инсайтов итп..

Аноним 20/12/24 Птн 06:21:28 #358 №983174

>>983109
«Каркас-корпус под риг на 3090» - это ферма обычная. За 1000 рублей можно купить, а за 2 - будет норм.

Аноним 20/12/24 Птн 07:27:48 #359 №983183

>>981612
>>981729
>>982100
Exllama2+exui прям супер-прироста не дали, хотя какой-то дали. На 7000 контекста уже меньше 5 токенов на 123b 5Q. Я не эксперт в этой вашей exllama, может настройки какие-то не те? Учитывая количество "развлечений" при установке (больше конечно гуя чем самой экслламы), вижу это вполне вероятным.

Аноним 20/12/24 Птн 07:35:01 #360 №983185

>>983128
>Посмотрел майнерские конструкции - всё не то.
Почему "не то"? Берешь обычный риг, там обычные ATX крепления, как у тебя в компе. Платы на райзеры, в специальные слоты. Если у тебя богатый конфиг и много линий вариантов их деленеия - на x16 райзеры, если нищий конфиг как у меня - на x1. Собираешь как обычный системник. Там еще и крепления под несколько БП будут, обычно под 2. Правда, с "нормальными" БП на 2 блоках сложно риг на 3090 собрать. Обычно туда ставят китайские многокилловаттные абоминации.

Аноним 20/12/24 Птн 08:45:44 #361 №983213

>>982100
Интересно. У меня уже на 10к контекста cuda_out_of_memory на этом сетапе.

Аноним 20/12/24 Птн 09:24:18 #362 №983227

https://huggingface.co/Sao10K/14B-Qwen2.5-Kunou-v1
и еще версии на другие размеры там же

Аноним 20/12/24 Птн 13:47:42 #363 №983409

https://www.reddit.com/r/LocalLLaMA/comments/1hi24k9/home_server_final_boss_14x_rtx_3090_build/
Вот это я понимаю, небольшая сборочка

Аноним 20/12/24 Птн 13:55:53 #364 №983422

>>983409
это хуйня для майнинга, а не для ллм.
>14 штук 3090
>если у него не амд эпик, то он картам выделяет по одной-две линии pcie. Если эпик - то может и x4.
>~340 гб врам
модель размазанная на 14 карт с PCIe x2 будет работать так же медленно, как суперкомпьютер из автостопом по галактике.

Аноним 20/12/24 Птн 14:00:49 #365 №983428

>>983422
По 8 линий псие 4, на сколько я понял
Ты бы хоть внимательнее почитал, там и 7 нвлинков и чет еще указано

Аноним 20/12/24 Птн 14:06:44 #366 №983443

>>983409
Makes no sense. Лучше бы он на а6000 строил

Аноним 20/12/24 Птн 14:07:08 #367 №983445

>>983185
>Почему "не то"? Берешь обычный риг, там обычные ATX крепления, как у тебя в компе.
Да обидно просто, корпус богатый и плата богатая - CEB-форм-фактор. Так-то понятно, что собрать обычный риг можно, просто хочется как-то совместить. Присматриваю пока что-то типа низкого столика. БП у меня платиновый Кугар на 1200 ватт и 8 "хвостов" PCIe, придётся брать ещё один и как-то их синхронизировать - тоже пока непонятно как. Для трёх карт и одного хватило бы.

Аноним 20/12/24 Птн 14:09:59 #368 №983450

АЙ НИД ХЭЛП. ЭТТЕНШН.
Аноны, накидайте примеров промта. Мне для образца.
С меня спасибо.

Аноним 20/12/24 Птн 14:12:08 #369 №983452

>>983409
Это же для майнинга.
Я не понимаю, есть же монструозные видеокарты на 90+гб. Они как раз в цене выйдут столько же. В чем проблема их использовать ?

Аноним 20/12/24 Птн 14:12:22 #370 №983455

>>983213
>Интересно. У меня уже на 10к контекста cuda_out_of_memory на этом сетапе.
В четвёртом кванте и 32к должно влезть, а в 3,5 bpw (примерно, может и 3,75) с квантованным кэшем 24к в 3 карты влезало. Скорость норм, и квантованный кэш на экслламе вроде неплохо работает. Заполнял его целиком, падение производительности было относительно небольшим, пропорциональным. После заполнения начались пересчёты всего контекста после каждого запроса, я ещё жаловался тут. Но до этого - никаких проблем.

Аноним 20/12/24 Птн 14:15:18 #371 №983460

>>983409
Это или риг под аренду, или автор поехавший.
>>983428
> там и 7 нвлинков
Это, еще и с учетом что только одна конкретная модель карточек, 5 жирных суперфлаверов на бп, говорит о том что сборка довольно днище с точки зрения cost-efficient и хз куда вообще может быть применена на практике. Тренировка на стаке 3090 сейчас уже мало кого привлекает.
>>983445
> БП у меня платиновый Кугар на 1200 ватт и 8 "хвостов" PCIe
Готовься к тому что эта падла будет подыхать даже на трех картах если хорошенько не зарежешь их андервольтингом.

Аноним 20/12/24 Птн 14:15:47 #372 №983463

>>983452
Еще один слепошарый, на читай перевод и страдай

Эй, ребята, со времен моего произошло много всего последний пост (Теперь мне нужно объяснить ей это...), но короче я не стал переезжать в подвал, и ей понравились некоторые ваши комментарии: "Д".

Небольшое обновление: Мое изначально настройка 8x3090 в настоящее время составляет 14x3090s w/в общей сложности 336GB VRAM. Я еще больше погружаюсь в кроличью нору с агентными рабочими процессами, RAG, конвейерами данных и множеством LLM-материалов. Я немного рассказал о том, что делаю часть II моей серии блогпостов и в этом блог сирот о разговоре с Antifragile от NNT.

Я писал третью часть, документирующую весь этот процесс, и стремлюсь, чтобы он стал вашим главным руководством на случай, если вы захотите создать аналогичную установку. Должно было это сделать во время каникул, так что следите за этим.

Спецификации в их нынешнем виде:

Asrock Rack ROMED8-2T с 7x слотами PCIe 4,0x16 и 128 дорожками PCIe

Процессор AMD Epyc Milan 7713 (2,00 ГГц/3,675 ГГц увеличено, 64 ядра/128 потоков)

512GB DDR4-3200 3DS RDIMM память

5x Супер Цветок Leadex Титан 1600W 80+ Титановые БП

14x графических процессоров RTX 3090 с 7x NVLinks и в общей сложности 336 ГБ VRAM

ПС Благодаря у/иЛаукс за помазание моего служителя как Конечный босс домашнего сервера LocalLlaMA

Аноним 20/12/24 Птн 14:17:13 #373 №983464

>>983463
Ну и ? Он получит бутылочное горлышко в таком конфиге.
Какой в этом смысл ? Страдать будет он, а не я.

Аноним 20/12/24 Птн 14:17:56 #374 №983466

>>983460
>Готовься к тому что эта падла будет подыхать даже на трех картах если хорошенько не зарежешь их андервольтингом.
Понятное дело. Но всё равно второй брать придётся, так что пофиг.

Аноним 20/12/24 Птн 14:18:37 #375 №983468

>>983460
> хз куда вообще может быть применена на практике
Отбой, там автор делает батчи запросов в моделькам и его в целом интересуют эффективные токены в секунду а не запуск одной модельки. Make sense так сказать.
>>983464
Да не получит, если будет гонять условные 5-7 ллам 70, просто это можно было бы сделать дешевле.

Аноним 20/12/24 Птн 14:19:45 #376 №983469

>>983468
Что мешает купить A100 и не ебать себе голову с этой стойкой. У него там машина с 3090 перевернулась ?

Аноним 20/12/24 Птн 14:19:56 #377 №983470

>>983464
От перевода страдай, мне от твоей зависти толку нет
Раз делает значит надо, все просто. Хобби у парня такое, безопаснее и полезнее гонок на тачках и думаю даже дешевле

Аноним 20/12/24 Птн 14:21:38 #378 №983473

>>983470
>твоей зависти толку нет
Анон, ты шизишь. Какая нахуй зависть.
Вот я сколько сижу в треде, наблюдаю пару токсичных уебанов. Ты почему такой ?

Аноним 20/12/24 Птн 14:23:42 #379 №983475

>>983469
Одна A100 если вдруг получилось бы удачно ее купить, стоила бы как все эти 14 карточек (если считать что они типикал бу по 700$). Сейчас теслы еще подорожали и будет эквивалентно 20-30.
По скорости вычислений кто кого будет ебать тут очевидно. Хорошо сэкономить можно было на материнке, делая риги по 3-4 карточки, заодно повысилась бы надежность и конфиг был бы более стабильный без этого мегаколхоза с двухметровыми райзерами.

Аноним 20/12/24 Птн 14:25:18 #380 №983476

>>983473
Ты сам сагрился на слово страдай, в контектсе о котором я даже не подумал
Раз уж ты подумал о его бездарно потраченых деньгах то это ты сам определил вектор дальнейших шуток, все просто анон

Аноним 20/12/24 Птн 14:28:00 #381 №983477

>>983476
>Ты сам сагрился на слово страдай
Нахер мы тут срач на пустом месте разводим. Давай на этом и прекратим. Для меня это ламповый тредик единомышленников, а не бредач.

Аноним 20/12/24 Птн 14:30:03 #382 №983478

>>983475
Да, пожалуй ты прав. Посмотрел я цену. Думал будет в пределах 1млн
хули они такие дорогие. Почему они стоят как крыло от боинга

Аноним 20/12/24 Птн 14:40:26 #383 №983482

>>983478
зеленые пидорасы, сэр

Аноним 20/12/24 Птн 14:44:03 #384 №983485

>>983482
>зеленые пидорасы, сэр
Можно подумать на месте Хуанга ты завалил бы всех дешёвыми зелёными картами.

Аноним 20/12/24 Птн 14:46:42 #385 №983488

>>983485
От человека тут тоже многое зависит, в зависимости от жадности могла бы быть всего лишь 2-4 кратная, если не линейная зависимость цены от производительности/врам. А не 20 кратная, или сколько там стоят новейшие 200 блеквелы. Это ж пиздец, который тормозит развитие многих вычислительно емких технологий, созданный специально в порыве жадности.

Аноним 20/12/24 Птн 14:50:02 #386 №983491

>>983478
Когда-то можно было взять в пределах этой суммы, там и сама цена была ниже, и курс. Но если только для инфиренса то тут даже стак магазинных новых 4090 будет выгоднее.
>>983488
Во-первых, производить те же A100 H100 и прочие куда сложнее чем геймерские, там и чип огромный и память дорогая. Во-вторых, спрос-предложение слышал?
> который тормозит развитие многих вычислительно емких технологий
На фоне всего прочего, целовая политика хуанга это вообще капля в море по торможению.

Аноним 20/12/24 Птн 14:51:04 #387 №983492

>>983468
> просто это можно было бы сделать дешевле.
Именно так.

Технически, конечно, ты можешь получить большую скорость в вллм или тензоррт, если одна модель займет всю память, и будет работать батчами.
Если разнесешь на разные компы — то скорость будет ниже.
НО.

home locallama блядь, нахуя тебе стока батчей. Переплата за 1 компуктер имеет смысл лишь в случае с бомжатским продом, когда у тебя уже пошли десятки клиентов. Вряд ли дома у тебя 25 человек пользуются ллм одновременно.

Аноним 20/12/24 Птн 14:51:59 #388 №983493

>>983450
Выше кидался на пастебине

https://pastebin.com/XdD8jBzp

А вообще промты брать тут:
1) https://characterhub.org/
2) https://jannyai.com/

Аноним 20/12/24 Птн 14:54:25 #389 №983502

>>983492
>>983409
А, сообразил, он юзает агенты, синкинг, раг и все такое.
Ну ок, в таком случае, если у тебя мультиагенты, это реально имеет смысл. Долго, но зато оно способно на собственные изыскания.

Ок, претензия снимается, но все еще супер-сомнительно, потому что агентам не обязательно быть 70б, это могут быть 1,5б модельки для задач разной сложности, и тогда ты выиграешь даже на более слабом железе, за счет оптимизаций.

Аноним 20/12/24 Птн 14:57:55 #390 №983505

>>983491
Вот уж не ври, 20 кратной переплаты это не стоит. Просто пользуясь положением монополиста он устанавливает такие цены выше которых откажутся платить. Я ведь согласен что большая сложность стоит выше, и 2-4 кратная цена покрывала бы все издержки производства с запасом. Но эта безумная накрутка цен умышленная.
>На фоне всего прочего, целовая политика хуанга это вообще капля в море по торможению.
Чего прочего? Если ты про региональный запрет продажи, то это плохо но все равно пофигу.
Многие институты и лаборатории не могут себе позволить сервер для моделирования различных процессов именно и только изза цены. Стартапы, просто энтузиасты, школы. Все это требует денег которых у обывателя или гос структуры обычно нет.
Зато сверхбогатые корпорации покупают их буквально миллионами ограничив возможности остальных пайвеллом.

Аноним 20/12/24 Птн 15:18:30 #391 №983514

>>983505
Cringe

Аноним 20/12/24 Птн 15:22:23 #392 №983518

>>983514
Будет полный кринге, когда ты подыхая от старости или болезни узнаешь что какая та вещь могла бы быть возможна уже 10 лет, если бы у исследователей были ресурсы для этого.
И еще куча причин почему быстрое развитие технологий/медицины лучше затягивания этого процесса.
Но похуй, с кем я говорю то? Мы тут не на что не влияем в любом случае.

Аноним 20/12/24 Птн 16:35:27 #393 №983556

Большое обновление Кобольда:
https://github.com/LostRuins/koboldcpp/releases/tag/v1.80

Добавлена поддержка мультимодалки. Кто там Qwen2-VL просил?

Аноним 20/12/24 Птн 16:43:32 #394 №983565

>>983556
> Большое обновление
> ничего полезного

Аноним 20/12/24 Птн 16:49:01 #395 №983573

>>983565
> ничего полезного
> для тебя

Аноним 20/12/24 Птн 16:49:56 #396 №983577

>>983556
>Fixed a bug that caused context corruption when aborting a generation while halfway processing a prompt
Значит мне не показалось, что когда прерываешь генерацию модель иногда начинала тупить.

Аноним 20/12/24 Птн 17:28:47 #397 №983616

Почему такая мертвая тишина?
Когда уже выйдет что то уровня 70б для моей 3060?
Где прогресс?

Аноним 20/12/24 Птн 17:43:13 #398 №983631

>>983616
>Где прогресс?
Видел выше по треду риг 14x3090? Вот тебе прогресс.

Аноним 20/12/24 Птн 18:11:31 #399 №983648

>>983616
Для 3060 разве что вон некомикс гоняй.

Я потихоньку интересные карточки фикшу и перевожу на русский, попутно тестируя собственные мержи на них.

https://www.youtube.com/watch?v=OBg9ZAqBifQ

Аноним 20/12/24 Птн 18:13:13 #400 №983651

>>983616
Собери себе что-нибудь для запуска на vram геммы 27b или мистраля того же калибра и сиди на жопе ровно до ТЕХНОЛОГИЧЕСКОГО ПРОРЫВА.
Разница между ними и 70b не такая значительная, а на 123b и выше тебе твоей зарплаты все равно не хватит.

Аноним 20/12/24 Птн 18:25:23 #401 №983658

>>983631 да, анонче на деле действительно принципиальной разницы между 12B на родном языке и 32B на иностранном ты не обнаружишь.

Конечно, всё индивидуально, мож ты и Гарри Потного в оригинале можешь на лету читать... Но в целом разница будет на уровне разницы сидов.

Конечно, могут налететь адепты "ниже 27Б жизни нет", но... тут интернет, тут и нахуй послать могут, такие дела.

Аноним 20/12/24 Птн 18:27:19 #402 №983661

>>983651
> а на 123b и выше тебе твоей зарплаты все равно не хватит
а вот это неправда.
С двух средних российских зарплат можно себе собрать 4 теслы на майнерской материнке.
Сколько там средняя? 60 с копейками кажется.

Аноним 20/12/24 Птн 18:31:27 #403 №983668

>>983658
>Конечно, могут налететь адепты "ниже 27Б жизни нет", но... тут интернет, тут и нахуй послать могут, такие дела.
Могут конечно. Как пример, жизнь-то есть, только нахуй такая жизнь маленькие модели это так, побаловаться.

Аноним 20/12/24 Птн 18:35:23 #404 №983674

>>983661
>С двух средних российских зарплат можно себе собрать 4 теслы на майнерской материнке. Сколько там средняя? 60 с копейками кажется.
Да бля, я постоянно повторяю: арендуйте! 200р/час, за бугром ещё дешевле. Пересмотрите бюджет в сторону здорового питания и сэкономьте - польза и телу и душе. Кто курит, тем ещё проще :)

Аноним 20/12/24 Птн 18:52:13 #405 №983702

>>983505
>>983518
Чел, ты упоролся шизой и множишь свой хейт странными фантазиями. В мире столько несправедливости и эксплуатации возможностей/монополизма что на этом буквально все общество основано. Для совсем хлебушков - вспомни недавние вайны с перепуками и пс5, если на товар есть повышенный спрос - он будет дорогим.
Раз такой идейный - думай как обеспечить большие блага какой-то группе (или всем) и действуй. А не устраивай кринжовый вой о том какой дядянейм плохой, таща свои странные ассоциации.
>>983616
> что то уровня 70б для моей 3060
> Где прогресс?
Там же где и достаточность 512кб для всех. Вон выше тест свежей мелочи, они действительно научились мимикрировать под большие модели, но остались тупыми.

Аноним 20/12/24 Птн 18:54:14 #406 №983703

Какие годные промпты есть для SAINEMO-reMIX ? Особенно раздражает когда персонаж становится фемкой и просит уважения.

Аноним 20/12/24 Птн 19:18:40 #407 №983716

>>983703
>становится фемкой и просит уважения

лололол, ни разу не случалось, смотри промты, джеилбрейки

Карточки можешь эти пробнуть

https://pixeldrain.com/u/6Gagz3ZP _rus.zip

Аноним 20/12/24 Птн 19:22:02 #408 №983722

>>983668
>побаловаться
А кому не побаловаться, те шизориги собирают.

>>983674
>200р/час
веса скачиваются 50 минут и загружаются 10

Аноним 20/12/24 Птн 19:25:41 #409 №983725

>>983722
>веса скачиваются 50 минут и загружаются 10
Нифига, пару минут загружаются. А скачиваются да, придётся потратиться на хранение заказанной конфигурации. Рублей 500 в месяц, зато качать и ставить заново не надо.

Аноним 20/12/24 Птн 19:28:45 #410 №983729

>>983725
Ну, покажи мне чат на 70Б который не стыдно на фикбук опубликовать.

Аноним 20/12/24 Птн 19:31:51 #411 №983733

>>983086
> Qwen2-VL-7b
Потыкал, завел батчер. Ну... нейрослоп на нейрослопе, смысла очень мало. Даже анимечный тюн идефикса - Тории и то его уделывает. Отдельно пару анценз тюнов попробовал. Знает буквально пару позиций, и то между ними путается. На манга панелях находит больше 2 людей, лол. 2b даже смотреть не стал.

>Florence 2 и CogFlorence
Ещё какие-то микро-модели для муравьев

>Llama-Vision
>Qwen2-VL-72b
Навскидку удобного готового скрипта для батч обработки не нашел, по одной грузить в Жору - ну такое.

> древние или неактуальные штуки, осторожнее.
Еще есть что? Пока что не лучше того, что предложили выше

Аноним 20/12/24 Птн 19:56:40 #412 №983755

>>983729
>Ну, покажи мне чат на 70Б который не стыдно на фикбук опубликовать.
На 70В не покажу, а вот на 123В мог бы показать, да к такому общество ещё долго не будет готово :)

Аноним 20/12/24 Птн 19:57:49 #413 №983758

>>983661
75=>без мск, спб и якутии 55=>с учетом налогов и без премии на новый год в размере зп 44=>средняя — не медианная, медианная 33=>медианная чуть выше, чем самая популярная, модальная зп в России — 27к рублей

Ну так, справедливости ради. Исходи из 30к минус еда, минус коммуналка, ну и некоторые квартиру оплачивают.
Это будет реально средняя в обывательском понимании зп, расчет будет примением к большинству людей.

Неправда там в другом, 123б не так уж сильно умнее 72б на деле. Минорные отличия.

>>983733
Ну, именно для описания картинок, то что предложил я, явно лучше. =)
Но если уточнять каких картинок и какого описания — то откуда ж мне знать.
Но есть еще модели, которые буру-теги на картинки лепят и все. Ничего лучше нет вообще.
По факту остается лишь ждать, или ловить экзотические модели какие-нибудь (была какая-то apollo, но снесена с обниморды, я даже не пробовал, к примеру, такие модели случаются).

Так что, если ты автор — выбирай из предложенных, боюсь никто ничего лучше не предложит.
Буду рад ошибаться. =)

Аноним 20/12/24 Птн 20:04:56 #414 №983765

>>983755
Слишком, слишком хорошо для тебя!

(с) Гарбад Слабый, Diablo I

Аноним 20/12/24 Птн 20:24:34 #415 №983788

Джеммалюбы тут?

Аноним 20/12/24 Птн 20:39:24 #416 №983815

>>983788
А что не так? Типичная гемма.

Аноним 20/12/24 Птн 20:46:37 #417 №983824

>>983758
>модальная зп в России — 27к рублей
Ты ведь про 2014-й? Ты ведь про 2014-й, верно?
>>983788
А ты хочешь меньше 18? Ты уверен? Даже в 18 они тупые пиздос, я боюсь представить, что на младших возрастах.

Аноним 20/12/24 Птн 20:50:32 #418 №983830

Посоветуйте модель для сочного кума на 1080ti. А вообще интересно, можно ли на ней запустить, что то локально, что будет лучше того же гпт4?

Аноним 20/12/24 Птн 21:12:08 #419 №983882

>>983830
LLAMA-3_8B_Unaligned_BETA-Q8_0
Starcannon-Unleashed-12B
NekoMix-12B

Chronos-Gold-12B - Сочный рп на английском, в куме не пробовал.

Аноним 20/12/24 Птн 21:27:58 #420 №983904

>>983661
>>983674
Или просто оплатить подписку 12$ и гонять 70б с нулевой еблей на каком-нибудь arliai
даже не в шакальном кванте

Аноним 20/12/24 Птн 21:30:11 #421 №983907