В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>979375 → Самую дешевую вижу 36к. Это и близко не половина цены. 4060ти с учетом фантиков на мегамаркете за 40к берется. Где моя а770 за 20к? Но ты кидай ссылку, я куплю и извинюсь.
>>979390 → На 7b и ниже жизнь есть только на Q8_0, забудь о любых квантах ниже, оно того не стоит.
>>979475 → И да, и нет. Учти, что она будет использовать структуру английского языка, многих слов не будет хватать и она будет выдавать английские вместо них, а про склонения можно забыть. Так что определенная доля языка нужна в любом случае. Это поможет говорить на языке чисто и строить предложения по-русски.
>>979478 → На работе завтра попробую. AVX2 нет? Канала четыре? 46 гбс чтения и v2 проц?
>>979449 → >Не думал, что стоит выбросить P40 из сетапа? Фига предложения, у меня еще вчера 4 теслы стояли, а тут уже выбрасывать предлагают. Я не хочу на бомжеквантах сидеть. Лучше буду потихоньку еще 3090 докупать. А теслы оставлю на случай выхода ебейшей модели в 200-300B
>>979205 → > при работе максимум на P2 работают? В P0 никогда не переходят Нагрузи их нормально а не ллмкой. >>979277 → > На чистых 4 теслах даже чуток быстрей. Скидывай скрин результатов и ключи запуска. Заодно интересно что там на контекстах побольше.
>>979512 зачем тебе этот микс из разных поколений? p40 же баттлнек, если ты на все пять карт размазываешь модель. У тебя всё работает на той же скорости, как если бы у тебя было 4 теслы.
Почему в карточках с лорбуками лорбуки каждое сообщение генерируются заново вместо того чтобы вместе с контекстом в видюху залезть и сидеть там? Как сделать чтобы лорбук был частью контекста а не отдельной хуйней какой-то которая каждое сообщение просчитывается?
>>979512 Двачую >>979525 вместо становления успешным теслоинвестором уже бы продал их и купил 3090, в сумме уже бы сидел и довольно урчал. > выхода ебейшей модели в 200-300B Там промт карточки чара будет до утра обрабатываться, лол.
>>979541 В этом и суть лорбука, чтобы пихать в контекст его части. Если тебе не нужно экономить контекст, то отключаешь лорбук и въёбываешь всё его содержимое в карточку. >>979542 >вместо становления успешным теслоинвестором Он держит их до повышения, лол.
>>979512 >еще 3090 докупать Ебать даунам насоветовали со вторички брать 3090 >взял карточку >сгорела через 2 недели >ряяяяя а чо не работает((( Конечно же парочка напишет что у них все работает, но мы конечно поверим барыгам с лохито хех
>>979509 >На 7b и ниже жизнь есть только на Q8_0 Фигня, пробовал сравнивать с Q5_K_M ещё для 7б синатры на старом мистрале - тупка была одинаковая. Да и гемму 2б сначала тестил на телефоне в Q5_K_M. Потом закинул Q8, тоже не был в рэндомных чатиках умнее (хотя какой там ум у 2б, какой квант не возьми). Не знаю, что будет на 4 гиговой карте, но на 8-ми гигах я лучше буду сидеть с почти шестым квантом 8б, который полностью влезает с 12к контекста и даёт 15-20 т/с генерации, чем ждать 5 т/с ради мизерного прироста в мозгах на Q8. С теми же 4-5 т/с мне будет выгоднее немо в Q4_K_M запустить. Другое дело, что в 4 гига даже Q4_K_M 7б модели не влезет, так что есть подозрения, что оно будет работать так же медленно, как Q8. Особенно, если у него гемма 2б со скоростью чтения пишет. Казалось бы, она то точно влезает целиком.
Есть ли нейронка для запуска со смартфона для того, чтобы пообщаться с ней на порно темы? Мечтаю, чтобы она отыграла роль срущей поносом Полины Гагарины
>>979552 За 1.5 года запуска разного на мультигпу повидал всякого. Народ обзаводится гпу, локальные ллм развиваются до оче крутого уровня, теслы ржавеют устаревают, амперы горят. И только оправданцы на трясунах исключительно постоянны и не меняют методичку, почему у них нет какого-либо блага что получают другие.
>>979509 Нету там 4060ti 16 за 40. А в прошлом году с промокодами и бонусами были по 25, блеать, почему я такой жадный был? Я на яндексемаркете вот пару дней назад взял за 45 с учётом оплаты через яндекс-карту и промокода на 1,5к. И на следующий день она была 43,5 без промокода, взял бы за 42. Только их уже раскупили, зато есть 4070 ti Super по 84, но мне уже похуй. Кстати, есть где адекватный калькулятор потребления для выбора блока питания? У меня Ryzen 5600X, 64гб DDR4, 3060 12, 4060ti 16, 2 HDD, 2 NVME SSD и 1 SATA SSD (ну и плюс охлад проца и 4 кулера в корпусе) - потянет всё это добро БП на 650 Вт? Я просто жопой чую, что потянет, но хотелось бы посчитать.
>>979570 >потянет всё это добро БП на 650 Вт С настройками потянет. Процу питание можно зарезать до 65 ватт, видяхи тоже подрезать. У меня вторая 3090 до 50% порезана, а то блок в защиту уходит, лол.
Она МОЖЕТ в связный русский, но путает слова и придумывает новые как сайга, ломает фразы, и в целом ведёт себя как 12B, или даже хуже, тот же сайнемо ремикс выдавал того же качества текст со скоростью не в полтора т/с.
Вывод - не стоит гнаться за количеством параметров.
>>979564 Если ты 16-гиговый то можно пускать 4 кванты 7-9б с условно терпимой скоростью. Интерфейсы - неудобное говно, но другого пока не завезли. >>979577 Настрой курвы андервольтинга для обеих, на 70% тдп там можно практически не терять исходного перфоманса. >>979580 > не стоит гнаться за количеством параметров Стоит
>>979577 Не, ну если у меня будет работать (то время, пока я буду играться с LLM) так, что БП будет уходить в защиту - то я раскошелюсь на 800 Вт. Но пока не хотелось бы, и так пришлось новый корпус покупать вместо проперженного 12-тилетней давности, чтобы 2 видеокарты влезло.
>>979581 >Стоит Может на 70Б+ и стоит, а в диапазоне 15-32Б я видел пока только три модели заслуживающих внимания - гемма, пантеон, клиффхэнгер, и при этом русские мержи местного анона в русском их обходили.
Хорошо сидеть за ноутбуком и не думать как и где достать видяху помощнее и как её присобачить чтобы всё не сгорело да пробки не выбило, а если и не выбило то счета за электричество не спели романсы.
>>979581 >16-гиговый то можно пускать 4 кванты 7-9б Фига вы батенька зажрались, на 16 гб можно gemma-2-27b с выгрузкой в раму запускать и нормально жить.
>>979595 > пантеон, клиффхэнгер Лол >>979614 > на 16 гб можно gemma-2-27b с выгрузкой в раму запускать > для запуска со смартфона Ты там поехавший совсем?
>>979626 >Лол А что не лол для РП/ЕРП (на русском и на английском) в пределах 16К контекста включая возможное обуждение сложных тем и информационных технологий перед / в процессе / после акта XD
Выше 12B, но до 32Б включительно.
>>979639 >START_OF_TURN_TOKEN Спс, попробую ещё раз.
>>979525 >У тебя всё работает на той же скорости Работает в 1.5-2 раза быстрее >зачем тебе этот микс Ты вообще не читатель поста, на который отвечаешь? Я пишу, что я не буду сидеть на более низких квантах.
>>979542 Ты готов дать гарантию, что эти 3090 протянут хотя бы год? Может их действительно каждые две недели покупать надо. >Там промт карточки чара будет до утра Хз, полтора токена будет - и то хорошо, если модель реально пиздатая.
>>979673 > Она же тупаё. Темпу до 0.97 опускаешь и начинает думать. Мне лучше 25 т/c и пара свайпов когда совсем не туда ушло, чем умное и правильное с первого раза, но в потешных 4 т/с где мне уже понятен сюжет с первого предложения, а оно продолжает тужиться.
>>979658 >Ты готов дать гарантию, что эти 3090 протянут хотя бы год? Конечно нет. И на теслы никто не даёт гарантию. Я всегда говорил, что лучше арендовать - всегда будешь на актуальном железе. Способ не без недостатков конечно.
>>979686 А две 3090 дают 48. Плюс разговор изначально шёл за анона с 3090+3090+3060, а там 3k_s на 50 гиг разместятся со свистом. Его p40 только тыквят нормальные картонки.
Теоретически могу попробовать 70B Q3_K_M скорость правда будет неюзабельная, небось меньше токена в секунду, но просто как МОЗГИИИИИ проверить, какие 70B есть актуальные под рп?
>>979677 >И на теслы никто не даёт гарантию. А вот тут ты неправ, у моих тесл гарантия год, я не с лохито их покупал.
>>979673 >Проблема в том что не всегда больше параметров - выше качество Может их просто пока не научились тренить или тюнить толком, вроде писали, что Гермес 405B так себе затюнен. И спроса особо нет, видимо, раз локально такую йобу в комфортных скоростях запустить мало кому под силу. Но вдруг выкатят что-то в промежутке от 120 до 400, тогда спроса будет побольше, т.к. низкие кванты реалистично запустить будет. Или может такие модельки уже есть? Я особо не слежу за новостями, чекаю только мрадермархера и автора магнума периодически.
>>979658 Могу дать гарантию что ждуном будешь ныть и сожалеть о том что не купил до скончания веков пока остальные инджоят >>979689 > 3k_s exl2 в суб-4битах можно вместить, будет ТУРБОРЕАКТИВНЫЙ ЗАВОЕВАТЕЛЬ с легким налетом лишней хромосомы, а может и норм > Его p40 только тыквят нормальные картонки. Именно
Вежливое напоминание: любая модель меньше 27-32b - по умолчанию мусор не пригодный ни для каких задач кроме "Я тебя ебу - Да, ты меня ебешь". Это факт. Аксиома.
Алсо, в настройках там поставь побольше токенов на ответ, можно максимальное значение. И в системном промте напиши чтоб писала ЧУВСТВЕННО, ХУДОЖЕСТВЕННО, чтоб не скупилась на ЭМОЦИИ, на всякие красивости в тексте и т.д. Просто своими словами, на русском, она поймет. Это немного набаффает длину и качества ответа, но от 9b все равно особых чудес не жди.
>>979715 > Вежливое напоминание: Прочитав это, пигма испытала shivers down my spine. Анон, неужели я недостаточно хороша для тебя? Blushes slightly
А если серьезно, появилась интересная нлп задача где нужно оперировать абстракциями, не упарываться буквальными формулировками, ну и пройти некоторую последовательность коммант с котом. Если будет не лень то попробую сравнить что там из нового выходило, лоботомиты скорее всего сольются.
>>979727 Я на реддите видел днд сценарий на эту тему + таблицу сравнивать ответы, но на деле это просто тест на галюны как анон в одном из прошлых тредов в исекай карточке сваливал с тянками, оставляя кунчиков вайпаться об маоу и потом просил описать, а что тем временем произошло на месте махача.
>>979734 >это не сработает Во первых, писать на английском в систем-промте / карточке, во вторых, это как легендарное (((very sanny))) для рисовалки на первой сдхе
"Художественно" - может сработать и будет шекспировский слог
"Чувственно" - почти наверняка нет, это и ту же гемму 27 в ступор вводит.
>>979732 Все эти вещи достаточно субъективны, могут быть интерпретированы оче широко просто из-за настроения оценщика, хотелок, или быть скомпрометированы наличием такого же в датасете. И анекдотичная ситуация > у рыб чешуя и нет шерсти, а была бы шерсть, были бы блохи, а вот блохи... может быть интерпретирована в пользу модели не без доли справедливости. Плюс влияют особенности пахомовских карточек, промтов и прочего. Тут же вполне конкретная задача по анализу текста на соответствие критериям, причем эти критерии сначала нужно нормально сформулировать, нсфв присутствует. Гемма хорошо справляется, чмоня переигрывает с графоманией раздумий но отвечает молодцом, что поменьше хочу попинать в надежде вдруг будут справляться.
в отличии от оригинальных магнумов оно давольно таки варикативно делает всё, и даже не вставляет через каждое предложение фразы по типу "шлюшка которой ты и являешся"
>>979765 >не вставляет через каждое предложение фразы по типу "шлюшка которой ты и являешся" Тот момент, когда двачера унижает и доминирует его же локальная нейросетка, которую двачер запустил на своём же канпуктере...
Айя очень чувствительна к промт формату и будет работать только в инстракт моде с нужными тегами, пресет для коммандера.
Также чувствительна к семплерам.
Seed = 1 на пикче не баг а фича... надо только не забыть обратно на -1 переключить.
С такими настройками удалось добыть из неё адекватный вывод.
А почему тогда некоторые (да большинство рп-тюнов вообще вплоть до 32, выше не запускал) могут работать без тегов, чисто на текст комплешионе?
В чём разница ?
>>979765 Магнум 4 очень так себе, цидония 1.1 была норм, 1.2 как-то поворот не туда, версия их вместе была дважды мэх, ну, можно глянуть изменилось ли что к лучшему в 1.3
>>979736 > Это в базе или с советами писать ЧУВСТВЕННО? Это в Author's Note. Просто напиши туда желаемую стилизацию ответов и какими ты их в целом хочешь видеть. У меня еще была проблема, что моделька писала мало текста, меньше чем установленный лимит ответа. Добавил туда что "по объему ограничений нет и ответ должен быть минимум в 25 абзацев". Сразу же начала долбить текст до упора в лимит.
> Это сколько ГБ? Модель или видяшка? Модель - 16.9гб, гпу - 12гб, частичная выгрузка на проц. Скорость 3.5 т/с и падает по мере роста контекста.
>>979747 А в чем смысл писать на английском, если модель отлично понимает русский и пишет на нем? Ты можешь сам это потестить в кобольде. Систем-промты на нем прекрасно работают. Может там конечно в таверне какие-то свои приколы? Я редко рпшу, поэтому она мне ни к чему. В кобольде всё норм.
>это как легендарное (((very sanny))) для рисовалки на первой сдхе Сам в голосину ору видя как на civitai челики НА ФЛЮКСЕ в промт лепят "1girl", "high quality", "masterpiece" и прочее дрочево от полторашки.
Но это другое лол. Работоспособность и систем промта на русике и тегов в рисовалке можно проверить экспериментально. В моем случае - русик работает.
Ну, за 40 была, брали, вот. Кому нужно, тот успел, как говорится.
> почему я такой жадный был +, была 3060 12 гиговая за 12к рублей. Пожадничал.
> адекватный калькулятор Особо нет. Просто чекай потребление. 100 ватт на проц, 50 на материнку, 50 на диски, кулеры, 200 на 3060, 250 на 4060ти, вот тебе 650 впритык, не потянет, если будешь грузить 100%. Но если ллм, то должно, там видяхи жрут не полностью. Плюс, по-хорошему карты даунвольтят, можно ватт 150 выиграть на обеих вместе, не потеряв производительности. Ну и ладушки, вот тебе и влез. Но лично я предпочитаю брать бп с большим запасом. Ни разу в жизни не пожалел, ну переплатишь разок 5к рублей, не велика проблема.
>>979581 > Настрой курвы андервольтинга для обеих Все так. Это стоит делать в любом случае, при любом бп. Нахуя карты перегревать-то.
>>979793 У меня просто 650 уже есть, он брался во времена, когда я брал 6600XT (а потом появились нейросети на пека, и я обнаружил, что амд-видюхи сасайтунг), плюс именно в момент покупки он продавался с хорошей скидкой (а был в перечне хороших БП от двача). Про андервольтинг надо будет почитать, да, но пока что я в этом плане хлебушек, да и до пекарни доберусь под Новый Год только (хорошо что было кому принять заказанную 4060 ti).
>Это в базе или с советами >Это в Author's Note. Это С СОВЕТАМИ в Author's Note. Там моя простынка, скопировал с соседней карточки под РП. И ползунки еще настроены как на скрине. Это пресет Godlike с поднятой до единицы температурой.
>>979541 Мне больше интересно, почему в груп чат постоянно пересчитывается. При "swap cards" понятно, то одна, то другая подставляется в начало контекста, но при merge зачем их постоянно в разном порядке мержить, непонятно. Хотя предположение есть, что разраб сидит на каких-нибудь онлайн-сервисах и не в курсе, что контекст можно и нужно менять как можно меньше для кэширования. >>979424 → >если скидываешь часть туда часть туда то уже нужно на опыте прикидывать Упирается в объём, который остаётся в рам. То, что в врам видеокарта считает быстрее, условно можно приравнять к нулю. Сколько процессор будет считать свою часть, примерно столько и будет общая скорость. По крайней мере, результаты замеров на моём конфиге это подтверждают. >>979471 → Гигабитные зажрались, мне и на 100мб норм, а если тяжёлое качать надо, можно запустить скрипт на ночь, к утру пяток моделей по 70+ успевает закачаться. >>979509 >На 7b и ниже жизнь есть только на Q8_0 Смотря в каком контексте. Вот предположим у нас мало памяти и выбор между 7b в q4 и 3.5b в q8. Прям как 70b и 35b, только в 10 раз меньше. В случае крупных моделей, 70b вроде поумнее кажется. Но это не точно. Ну по крайней мере против запуска 70b в q4 в треде особо не возражают, значит это, как минимум, заслуживающий внимания вариант для своего размера. В случае 7b и 3.5b что-то будет отличаться? 3.5b будет лучше? >>979774 Так для этого и запускают. Только вот могут нормально задоминировать не только лишь все модели. Мало какие могут внятно проявлять инициативу и двигать сюжет, чтобы у двачера ирл шиверсы даун хиз спайн побежали, а не на экране в чате в бесконечном лупе.
А кто-нибудь развлекается непосредственным общением с сетками по типу витуберства? Чтоб с аватаром и аудио вводом-выводом? А то в самом нейровитуберстве прогресс уже дошел до полностью автономных стримов без участия владельца. С чатами, донатами и всем прочим. А то где-то попадалось что уже можно поболтать с виртуальной Эммой Уотсон и типа того. Кто-то в курсе таких технологий?
Анон, что генерацию видео советовал. У меня крашится на этапе loading checkpoint shards, по загрузке видно, что он выжирает всю RAM, хотя у меня 3090. Как это побороть? Почему он не выгружает на видеокарту?
>>979830 Как будет больше врама, соберу что-то похожее, а пока не вижу как это все в 12гб вместить. По отдельности уже все протестил, проблем не должно возникнуть.
>>979871 >по загрузке видно, что он выжирает всю RAM, хотя у меня 3090. 32гб хватает впритык. Сам сегодня попробовал, в первый раз тоже вылетела, взял самую лёгкую модель, fp16 VAE, закрыл все лишние приложения и браузеры и получил видео. Кстати совсем неплохо.
>>979830 > А то в самом нейровитуберстве прогресс уже дошел до полностью автономных стримов Ну года полтора назад и дошел, тащемта. Просто модели умнеют, и голоса лучше становятся, остальное и тогда было. Я год назад делал, кекал, запускал пару стримов.
Проблема в скорости. вшипер (гигаам) + ллм + xttsv2 (fish-speech) = 10 секунд подожди, братишь. Есть проще и быстрее, но там качество хуже и без воисклонинга. Ну, я тогда же настраивал аватара в дополненной реальности, чтобы он прям в моей комнате стоял и разговаривал. Это немного дух захватывало, крипово, когда говоришь с компом и не можешь переписать реплику, подумать. Стоит и слушает тебя. Забавное. Но, повторюсь, с тех только ллм поумнели и фиш-спич лучше озвучивает, больше ниче не изменилось.
Полноценные мультимодалки с воис-клонингом и при этом тюненные не вышли.
>>979871 В видео у тебя складывается «контекст» — сами кадры. А модельки грузятся в оперативу. Там есть пункт в Load model разных offload_device, кажись, можешь поменять его на main_device, чтобы грузилось в видеокарту.
>>979871 Вот тут load_device выставить main_device. Попробовать так, но тогда размер (или длительность) видосов большими не выставить. Зато моделька будет в видеокарте, как я понимаю.
>>979895 >вшипер (гигаам) + ллм + xttsv2 (fish-speech) = 10 секунд подожди, братишь. Это виспер такой слоупок, получается? Вроде, быстрее работал, когда я его тыкал.
>>979932 Не, распознавание, пожалуй, самое простое и быстрое. Сложнее с ответом. Допустим, ллм ты можешь подавать в режиме стриминга (это пожрет скорость, но если она будет достаточна для ответа — то неважно). А вот ттс в режиме стриминга сильно умирает по эмоциям и заметно по качеству. Угарно в этом плане себя ведет fish — он начинает добавлять «э-э-э, м-м-м…», но он сам по себе медленный, да и xttsv2 тоже пару секунд.
Был анон, который сократил все до секунды, но там чуть ли не силеро использовался в озвучке. Да, 10 — это в случае дефолтного сетапа. Если у тебя сплошь 4090 и 3090, да на линуксах, то секунды 3 можно сделать, наверное. Но все же, мне больше нравится, когда озвучка делается целиком, а потом воспроизводится. Но, пробуй, на вкус и цвет.
>>979944 >Угарно в этом плане себя ведет fish — он начинает добавлять «э-э-э, м-м-м…» У xtts тоже это есть, нужно тюнить на короткие фразы. Не помню точно, у него там минимальный чанк какой-то есть, нужно уменьшать это значение и прогонять трейн. >чуть ли не силеро использовался в озвучке Вот так вот обосрали на ровном месте. Я скидывал шебмы с той же полусекундной задержкой голоса с использованием xtts, если в нём поковыряться вилкой, то он не такой уж и слоупочный, но его лицензия остаётся под вопросом. Гораздо большая проблема здесь в самой ллм, на коротких или непонятных сообщениях происходит хуйня. Ресурсов на что-то крупнее 32b у меня со всем этим не остаётся, а они не вывозят. В итоге прикрутил почти-рилтайм озвучку, 3д модельку с липсинком, но из-за фейлов с ллм смысла это дальше пилить никакого и нет.
>>979777 >А в чем смысл писать на английском, если модель отлично понимает русский и пишет на нем? Токены экономит, в зависимости от мели и её токенизатора может до двух раз меньше контекста сожрать. Обычно хотя процентов 20, но всё больше чата влезет.
у меня бля 20 гигов врама, у тебя скока на твоей 1650 лол
если б оно так и было то оноб тормозило везде а не только лиш в софте который вы продвигаете, в оламеж работает норм, отсюдова я делаю вывот что там есь какието пердустановки которые я выясню кокда нибуль и всё буит збс
К сожалению в рп, даже с правильными тегами, aya-expanse-32b-abliterated.i1-Q6_K хоть и не ломается но на уровне "ты меня ебёшь". Ну или поделитесь настройками.
В text-completion режиме же может выдавать куда более интересные, порой криповые и/или кринжовые вещи.
Но в целом нет, русский в ней хуже 12Б от местного анона, хотя лучше чем в оргинальном коммандере.
>>980074 Тогда ищи носителя и отдавай ему на вычитку, ибо нейронки выдадут то же самое, зависит от модели конечно, но на том что ты сможешь запустить (и даже я с 16 врам) вряд ли будет лучше.
Аноны, я прям ньюфажина ньюфажина, понимаю что вас заебали подобные вопросы. Но правильно ли я понял, что все что необходимо это кобальт и сама модель. После чего я должен работать исключительно в интерфейсе кобальта ?
>>980132 >таверна А для пользователя есть разница, кроме интерфейса ? И вопрос по цензуре - цензурят сами модели ? А то я шапку то прочел, но там столько информации, что у меня НИПОНИМАТ и ГРУСТИТ. Чувствую себя дегенератом.
>>980062 >хоть и не ломается но на уровне "ты меня ебёшь" С коммандером то же самое, пару тредов назад я кидал обзоры. Старые коммандер и ая были неплохи для своего времени, но уже устарели, наверное. А новые стали только хуже.
Здесь уже можно начинать чатиться, но каждой модели нужны свои настройки, чтобы она лучше отвечала, поэтому: В первой вкладке таверны (Text Completion presets) выставляешь: Temperature - 1.12-1.22 Min-P - 0.075 Top-K - 50 Repetition Penalty - 1.1 В третьей вкладке (Advanced Formatting) выбираешь Llama 3 Instruct.
Всё это нужно проделать всего один раз, дальше все настройки сохранятся. Можешь после этого идти на какой-нибудь https://chub.ai/ , искать персонажа из любимой игры/аниме и добавлять его карточку в таверну.
>>980164 Большущее спасибо. Искреннее. Вот за это и люблю тематику, анон шарит, анон помогает. >inb4 2gb врама, амуде, conda сыпет ошибками В наличии 4080 и 64 гб ДДР 5. Поэтому про железо не писал, если его не хватит, то нахуй оно мне и не надо.
>>979983 Хорошая иллюстрация какой контингент сидит на среддите. Контекст в 8 битах (по крайней мере на тот момент) - убивающая и ломающая все нахер херня, потому что вместо квантования там fp8 что полный треш по всем параметрам. На выходе с контекстом лоботомит с деменцией, даже если оригинальные веса в 16 битах. Квантование в 4 бита вносило меньший импакт чсх, если до сих пор не переделали в nf8/int8 то это также треш. Что до > большинсво не использует эксель кванты Там одни бедолаги с врамлетами или поехавшие, которые обладая видеопамятью жрут кал жоры потому что другие так делают. >>980011 > у меня бля 20 гигов врама >>980016 Взял хуйту от Лизы вместо норм платы и не можешь пройти интеллектуальный ценз - жри говно с лопаты. Это насколько дегенератом нужно быть чтобы не смочь выгрузить слои на видеокарту.
>>980062 > В text-completion режиме же может выдавать куда более интересные Самого эта разница не смущает? Очевидно что проблема в промте и его форматировании. >>980137 > пару тредов назад я кидал обзоры Еще один, суньте хуй в розетку и потом нойте насколько ужасно и опасно электричество. >>980141 Попробуй освоиться и потом на свежих впечатлениях пока не забыл, опиши что именно хотелось бы видеть как ньюфагу и что именно непонятно.
>>980180 >Попробуй освоиться и потом на свежих впечатлениях пока не забыл, опиши что именно хотелось бы видеть как ньюфагу и что именно непонятно. Обязательно. Сегодня скачаю какую нибудь жирнючую модель с минимальной цензурой и попробуй поприключаться и поебаться. Если есть необходимость, то напишу какие вопросы возникают.
>>980180 Ньюфагу точно нужно еще знать. причем большими жирными буквами. что от промтов - инстракт и системного, зависит 70% качества модели. Я хорошо помню, когда первые дни. пытался понять, почему он срет разной дичью. ломает форматирование, пишет за меня и т.д. А уж когда начал писать специализированные промты, под каждый сценарий, удивился насколько это повышает уровень рп.
>>980180 >Очевидно что проблема в промте и его форматировании Скорее в спектре задач. Коммандер это инструкт а не рп модель, так что пытаться на нём рпшить всё равно что забивать гвозди рукояткой отвёртки.
>>980184 Это автоматом в 100% случаях = хуево. Другой софт - васяновская обертка для полнейших хлебушков, которая по факту ни разу не упрощает установку и взаимодействие, зато навязывает лишнюю абстракцию что усложняет получение хорошего результата. >>980185 100%, но вроде это было написано. >>980193 Ерунду говоришь. Только если противопоставлять коммандера всяким "рп тюнам", но там сравнение не в их пользу будет.
>>980195 >Это автоматом в 100% случаях = хуево. Другой софт
звучит как база, походу я совсем хлебушек раз в кобольте\жоре у меня результаты хуже получаются чем в той же оламе, казалось бы одна и та же модель, а работают ваще по разному в разных бэкендах
https://huggingface.co сайт где все нейросети L3-8B-Stheno-v3.2 Это название нейросети GGUF это ее формат IQ-Imatrix черная магия, лень объяснять, продвинутое сжатие нейросети
Нет смысла качать оригинальную тяжелую нейросеть, все качают их облегченные и чуть ухудшенные копии, называемые квантами. Тут тебе дали ссылку на Q5_K_M, тоесть пятый квант нейросети L3-8B-Stheno-v3.2 Иди сюда и читай про кванты https://huggingface.co/bartowski/FuseChat-Gemma-2-9B-Instruct-GGUF Этот парень делает кучу квантов и обычно пишет о них L3-8B-Stheno-v3.2-Q5_K_M-imat.gguf оканчивается на ггуф, это формат который открывает тот же кобальд и все бекенды использующие под капотом llama.cpp, как и кобальд, да. Этот формат может запускаться как на процессоре так и на видеокарте, так и одновременно на них обоих. Если у тебя дофига врам, можешь запускать exl формат, это уже быстрее, но по этому я гайд не дам. tabby api что ли, не помню
>>980288 Это уже не душнилово, а хуйня какая та. Этот файл и есть нейросеть, конкретная такая нейросеть. А то что ты называешь алгоритмом нейросети - является алгоритмом нейросети. Скармливается нейросеть бэкенду, который ее выполняет, по тому самому абстрактному алгоритму нейросети.
>>979956 > Вот так вот обосрали на ровном месте. Ну прости, я же все-таки «чуть ли не» написал! х)
Ждем мультимодалок, уже была одна хороша, но голос зашит, общаться с Майклом не то, чего бы мне хотелось, конечно.
>>980164 Кто-нибудь, забаньте уже фаната Стхено, ну невозможно же на серьезных щщах лламу советовать! Ладно он просто так упоминал ее, но ему же новички верят!
Тащемта, да, таже фигня. Год назад удивлялся, чому у меня не такие хорошие модели, как у других, а потом подзаебался с форматом и инструкцией, с тех пор все отлично на любых моделях, а люди только и ноют, что у них 70б хуевая.
>>980227 > 3B-Base превосходит Не упоминай Квена-а-а!
> 7B-Base находится на одном уровне с Qwen2.5-7B Ну тут дотянулись, тут можно упомянуть!
С русским не ок, звучит не интересно.
>>980247 > IQ-Imatrix черная магия, лень объяснять, продвинутое сжатие нейросети IQ там нет. imat есть, но на английском языке. Т.е., высока вероятность, что на русском она будет хуже. В общем, советы-советы, типичный слившийся тред.
>>980328 >В общем, советы-советы, типичный слившийся тред. Советуй сам, а пока только скулеж слышно. Или боишься что тебя так же как ты других, обосрут? Ну тогда и помалкивай
Сбер выпустил в опенсорс три модели для русского языка
GigaChat Lite - MoE модель, с 3 миллиардами активных параметров. Она бьёт по качеству на русском все модели в 8B сегменте, но немного отстаёт от 8b на англоязычных бенчах. Длиной контекста тоже не обделили - модель поддерживает до 131 тысячи токенов контекста. Это, кстати, первый опенсорс MoE для русского языка на моей памяти, причём это не что-то супер простое, типа Mixtral - там используется fine-grained MoE, вроде того что в DeepSeek V2.
>>980328 >Кто-нибудь, забаньте уже фаната Стхено Согл, Lunaris на её базе лучше. Тьюны немо унылые и такие же тупые, как 8б (ну почти), нужны только любителям русика. Другое дело, что у чела видяха норм, и можно 22б мистраль поковырять, как минимум.
>>979451 (OP) Блядь, я думал тут тред про запуск нейронок на пукаче хотя бы в полсилы от чата жипити, а тут какие то ролеплеи блядь, данжи, генерация историй. Нахуй надо бля.
Ну чтож >>979727 > нлп задача где нужно оперировать абстракциями Вводная простая, есть в меру подробное описание содержимого некоего изображения, есть буру теги для него, есть список имен персонажей, которые присутствуют в кадре, есть перечисление наиболее популярных атрибутов этих самых персонажей. Дана структурированная, ясная, предполагающая CoT и поделенная на пункты инструкция, в которой требуется: 1 Подумать о соответствии описание и буру тегов, сделать их интерпретацию. На основе раздумий выбрать из вариантов типа соответствует/небольшие противоречия/херь и обернуть ответ в теги 2 Подумать что там за персонажи и как они должны примерно выглядеть, какие их отличительные черты исходя из данных буру тегов Сравнить это с исходным описанием Сделать вывод о том, правильно ли указаны персонажи, или же их имена перепутаны, или это вообще косплей одного другим, также выбрать из вариантов и завернуть в тег. Если есть несоответствия то указать на них явно и предложить вариант их решения.
Задача не самая простая, потому что здесь нужно более менее воспринимать и понимать что и как выглядит, что cyan и light-blue являются синонимами, принять во внимание уточнение о том что персонажи могут быть переодеты или иметь вариации черт (распущенные волосы вместо собранных). Ну и в целом выполнить довольно продолжительную инструкцию из серии мелкихзадач. В помощь сетке все расписано аккуратно и структурировано, входные данные обрамлены в xlm, добавлена нумерация списка и даже сделан префилл чтобы она не забыла и не пошла не в ту сторону. Также добавлена строка с микрожб которая с таким продолжительным промтом ни на что и не влияет по сути, ибо внимания хватает только на выполнение а не на сою, но на всякий случай Разметка промта в соответствии с форматом сетки, для квенов добавлена строка про алибабу, ибо говорят что без нее хуже работает. Битность наибольшая из доступных - 16бит, 8бит, 6бит (гемма 27 вообще в 4.0 bpw что не мешает ей работать). Семплеры лайтовые - температура 0.4, top_P 0.9, top_K 10. Суммарный контекст - 1.5-2к токенов, как раз примерно соответствует подробной карточке и/или завязке чата.
Примеры хорошей работы: gemma27, 4o, интерпретируют все правильно, редко ошибаются. Кто тестировался: qwen 2.5 7/14/32, gemma 9, mistral 12/22, falcon 7/10. Юзались инстракт версии где доступно.
Подробно: qwen 2.5 7b: В целом удивительно что такая мелочь вообще может воспринять такие длинные инструкции и не потеряться, очень охотно заворачивает CoT и пытается рассуждать. Но при ближайшем рассмотрении - рассуждения чаще всего просто повторение тех самых буру тегов без приведения в человеческий вид, в начале второго пункта просто повторяет а не перефразирует, и все в таком духе. Самое обидное что не может в абстракции почти совсем, триггерится просто на синонимы, выдает перлы типа > Zhu Yuan is described as sitting on Ellen Joe's face, grinding her ass on her, which is not mentioned in the popular tags. пол часа орал с этого или делает правильные рассуждения а потом неверный ответ > - Keqing's description matches all the features from the popular tags. > - The hand reaching for popcorn does not match any specific character but is a common feature in the booru tags. > - The two boys in the background do not have specific features mentioned in the booru tags but match the "3boys" tag. > 2. c) <2nd_answer>all is good</2nd_answer> Неюзабельно совершенно, также иногда сбивается и не дает ответов как обязана по инструкции. qwen 2.5 14b, mistral 12b, gemma 9b: Тут они собраны вместе потому что перформят в интеграле одинаково. Уже повеселее и бодрее чем семерка, всеравно любят делать прямые цитаты без переписывания как сказано, сам ответ уже более живой, нет логических нестыковок семерки типа "все правильно, все совпадает, а вот ответ на пункт который должен быть только при ошибках". Но к сожалению, всеравно делают ошибки, например, могут забраковать купающихся в бассейне персонажей потому что на них купальники а не костюм, при том в рассуждениях вполне нормально говорят о том что основные атрибуты совпадают а одежда должна быть проигнорирована с учетом контекста. Также как 7б, все еще могут выдавать отсебятину вместо выбора нужного финального ответа из списка, будто бы мешая списки разных задач. Гемма 9 не смотря на меньший размер здесь вполне молодцом, но иногда сильно упарывается спгс, делает ложные срабатывания по ерунде или не замечает важного, так была бы отдельно. mistral 22b: Херня какая-то, его ужасно штормит и он то вообще почти не делает рассуждений, то высирает сотню строк с повторением предложения кроме одного сочетания. Но при этом, "детских болячек" почти не имеет, нормально воспринимает абстрактные вещи и слушает указания на что нужно обращать внимание, а на что нет. Но при этом, может вообще перепутать задание и начать говорить что у вас теги неправильные и править нужно именно их, единственный из всех с таким. Работал бы стабильно - был бы годен. qwen32b, gemma27b: На а что тут, пушка-гонка, все делают как надо, ошибки редкие, пригодны. falcon7B-instruct: Хуйня из под коня, тупит, ошибается, хуже чем квен следует инструкции, серит служебными токенами. falcon10B-instruct: А вот этот уже будет поинтереснее. Чуть ли не единственный (помимо геммы) из весовой категории нормально выполнял перефразирования и рассуждения выглядели по-человечески. Хотя местами оче странно интерпретировал теги, делая что-то не то, но в целом самый "точный" из мелких, модель не тупая и стоит обратить внимание, хз как будет для рп.
С фалконами есть нюанс: не нашел какой у них системный промт, поэтому использовал что-то chat-ml подобное, что выдавал препроцессор трансформерса при обработке сообщений. У 10б все идеально, 7б этими <|assistant|> в ответах иногда срал.
TL/DR: ниже ~30б жизни нет, результат пропорционален размеру.
Кидайте рп-мерджи и модели с "крутым русским", если не лень будет может их посмотрю.
>>980246 > питонопараша Проиграл > поробуй её собрать сначала ещё pip install exllamav2 но даже этого не нужно ибо инсталляторы интерфейсов все делают сами.
>>980497 > jetson С подключением. Вообще будет неплохо если они массово выпустят готовую версию с 64-96 гигами а не только оем модуль, который довольно непросто купить.
Кто-нибудь пользовался моделями от Vikhr? Я попробовал и мне кажется, что там слишком много гпт-змов, с бесконечными "Важно помнить что". В карточке на ХФ у них написано, что все ответы для SFT перегенерированы чурбой. У меня вопрос — они шизы? Зачем они насрали в датасет и даже ничего не почистили? И почему такое пренебрежительное отношение к переведённым датасетам, если в любом случаем данные проходят через одну и ту же сетку?
>>980502 >С подключением. Анонсировали всего четыре часа назад, хули развонялся-то? >готовую версию с 64-96 гигами Ты хочешь 96 гигов в мини-компе за 250 баксов? Спеки сейчас вполне годные, как по мне
>>980492 >Кидайте рп-мерджи и модели с "крутым русским"
nepoticide-12B-Unslop-Unleashed-Mell-RPMax-v2.Q8_0 - В начале чата порывается писать на англе, но пару-тройку раз свайпнуть и пишет по русски. - Любит длинные сообщения, 256 на ответ обычно не хватало. - Первые пару сообщений возможно придётся свайпать, потом ухватывает стиль и начинает писать нормально, не ломая и не придумывая слова. - Персонажа держится слабовато, но ответы творческие. - Не рекомендуется
DarkAtom-12B-v3-Q8_0 - В начале чата порывается писать на англе, но пару-тройку раз свайпнуть и пишет по русски. - Предпочитает относительно короткие сообщения на 1 параграф. - Проскакивают английские слова и может ловить галюны уже в первом десятке сообщений - Не рекомендуется
А вот это вин:
Starcannon-Unleashed-12B-v1.0-Q8_0 и NekoMix-12B.Q8_0
И та и другая модель: - Писала на русском с первого же сообщения и по теме. - Предпочитает средней длинны выражения, около 250 токенов. - Свайпать практически не приходилось, персонажа держит, язык, слова, и предложения не ломает. - Галюны (почти) не ловит, команд слушается. - В ерп может, вполне себе сочно, брат стоит. - За пользователя решения не принимала. - События контекста помнит и периодически применяет, а не "сферический конь в вакууме"
Неко-микс немного более сух чем старкэннон, но такое ощущение что лучше держится заданных гайдлайнов персонажа и более полно использует контекст когда надо на него сослаться, например юзер спрашивает о прошлом перса, а также обращает внимание на большее количество мелких деталей.
Все окзалось куда проще. Единственный подвох был с таверной. С установкой если быть точнее. Но все заработало. >>980164 Спасибо большое анон. Все по гайду делал. Уже поклацал. В неописуемом восторге. Это мое первое знакомство с локальной сеточкой.
>>980247 >Нет смысла качать оригинальную тяжелую нейросеть, все качают их облегченные и чуть ухудшенные копии, называемые квантами. А какая разница для пользователя между квантами и полноценной моделью на 60+гб ?
>>980513 > Анонсировали всего четыре часа назад, хули развонялся-то? > The Jetson Orin Nano 8 GB was a performance-segment mobile graphics chip by NVIDIA, launched in March 2023. Чел, на этой херне еще год назад делали стартап для локальных ллм, а энтузиасты на дев китах крутили и даже тесты скорости есть. > image.png Еще хуйту какую-то принес, https://www.nvidia.com/en-eu/autonomous-machines/embedded-systems/jetson-orin/ вот тут вниз мотай и находи приличную версию с 64 гигами, нормальными топсами и какой-никакой псп памяти. > Ты хочешь 96 гигов в мини-компе за 250 баксов? Девкит на 64 стоит меньше 2к, оем модели без лишнего обвеса по слухам можно до 500-800$ или ниже сторговать в зависимости от партии. >>980586 Эту название еще начиная с амперов упразднили, и смысла нет, медленный чип.
>>980582 >Думаешь 300к будет? Я думаю 200-220к должно Если 32гб будет - то не меньше 300. У нас. Если не будет, то меньше, но придётся брать больше карт. Что для Хуанга выгоднее? Деваться-то с Нвидии всё равно некуда.
>>980602 Очевидно, что это видеокарта. И нет, крайзис не потянет. >>980606 Я бы не сказал что прям оверпрайс. Это инструмент для определенных задач, они всегда стоили абсурдных денег, потому что покупают их юрлица.
>>980608 То же на то же. Если и будет профит то минимальный, с учетом всех переездов. Норм было бы съездив куда-нибудь в другую страну, но такую покупку могут и на таможне завернуть. >>980609 Речь не о ценообразовании а о реальном прайсе по которому они поставляются. Или можно 3-4 года такую арендовать 24-7-365 вместе с остальным железом по этой цене.
>>980328 Стено советуется как первая модель, а не как лучшая модель. В остальном соглашусь с аноном — ты только воняешь. Твой опыт множится на ноль, если ты им не делишься. Вроде уже не в том возрасте, чтобы до сих пор гейткипить своё 'уникальное' хобби.
>>980525 Анон, можешь настройки для каждой экспортнуть и залить куда-нибудь? Так заебало каждый раз их искать. А за подборку спасибо, скачаю и поиграюсь.
>>980718 Амд это игросральный продукт. Жди скидок к выходу 50хх Спросишь почему? - Не поддерживает половину функций, в разы ускоряющих интерференс = получишь скорость как на 1060, заплатив как за 4070.
>>980718 Оно того не стоит, платишь как за полноценную а перфоманс хуже 3090 и тебя заебет с ней пердолиться. Лучше в те же деньги закажи у с лохито пару 3090, в худшем случае вторая будет запасной, лол. >>980736 > Не поддерживает половину функций, в разы ускоряющих интерференс Просто не поддерживает половину функций и все через жопу.
>>980497 как же нас (русских) ебут, господи, прям насухую, с анальной кровью в качестве смазки. Причем свои же и ебут. Чип и дип - это вообще просто отвал пизды. Какая-то контора патологических уёбков, вобравших в себя все анекдоты про евреев.
>>980334 >>980667 Дак наоборот, когда советовал — тогда шизы и высирались, ну как бы и фиг с ними, варитесь на здоровье в котле, сочувствую, канеш. Просто, к сожалению, стало типично, вот и все.
>>980513 Просто это крайне ситуативная штуковина. 8 гигов за 250 баксов? 8 гигов паскаля можно поиметь за 25 баксов. Медленнее, но в десять раз дешевле. Как бы, очень узкое применение, явно не для того, чтобы рпшить или кодить на такой.
>>980529 Норм. (но вообще, еще не вышла, какое уж тут мнение=)
>>980582 Кра-а-айне сомневаюсь. С нашей ситуацией хоть бы не 500. Ты 4090 новые видел по ценам? =)
>>980782 Конкретно тут - проблема не совсем в этом, а то что продукт дико нишевый и смотришь а барыг, которые известны своей ахуевшестью. На лохито можно найти, можно заказать под привоз, можно хоть напрямую с али - выйдет в те самые 2к плюс пошлина и доставка. > Чип и дип - это вообще просто отвал пизды. Какая-то контора патологических уёбков always has been, чего стоит разница в розничном и при заказе. И любой девайс кроме массовой комплектухи стоит в несколько раз дороже чем должен, хз кто их покупает вообще. >>980784 Врамовладелец
>>980328 >Кто-нибудь, забаньте уже фаната Стхено, ну невозможно же на серьезных щщах лламу советовать! Ладно он просто так упоминал ее, но ему же новички верят! Анон рассказал, что и как тыкать. Посоветовал как настроить, а это куда убедительней >ряяяя все говно Я до сегодняшнего дня вообще представления не имел что и как работает. И неожиданно, по его краткому гайду все заработало.
Анончики, почему, когда я отрубаю интернет коннекшн, то активный аутпут между силлитаверной и кобольдом отрубается тоже в этот момент? Причем, после без интернета все работает спокойно как и должно, но именно если вырубить интернет посередине закачки промпта или выпука аутпута, то соединение рубится. Оно точно никуда ничего не шлет? Не очень понимаю, каким образом интернет на это должен влиять... меня кондрашка хватит, если они весь этот пиздец из моих чатов куда-то сливают...
>>980588 > Девкит на 64 стоит меньше 2к, оем модели без лишнего обвеса по слухам можно до 500-800$ или ниже сторговать в зависимости от партии.
> 64GB 256-bit LPDDR5 > 204.8GB/s
То есть скорость чуть выше сборки на эпике. Которая даже дешевле выйдет. А за 2к так-то можно и на серверной ддр5 собрать. Контекст только сосет, но, вы же помните, помните, да? Что я вам уже третий раз говорю про то, что обработку любого контекста можно делать любой видеокартой с памятью любого размера через стриминг весов через шину. И в среднем контекст почти всегда обрабатывается медленнее скорости шины.
>>980938 >меня кондрашка хватит, если они весь этот пиздец из моих чатов куда-то сливают... Не куда-то, а в одно конкретное место, одним конкретным людям. Короче, жди гостей и начинай разрабатывать отверстие под бутылку.
>>980938 Перестраивается роутинг и все активные соединения обрубаются, даже локалхост. >>980940 То есть какая-то микропиздюлина размером меньше телефона с тдп в 15 ватт, предназначенная для встраивания куда-то, обоссывает жирный, потный и дорогой камень, к которому нужна еще большая коробка с железками. Вот так правильно будет > Что я вам уже третий раз говорю про то В третий раз уже эта ерунда, не стоило ее выдавать и первые 2 раза.
>>980950 > В третий раз уже эта ерунда, не стоило ее выдавать и первые 2 раза. Действительно, лучше давай подождем пока контекст обсчитается 10 минут, а не одну.
Почему в текст комплишон ответ генерируется не до конца? Буквально остаётся пара букв, но локалка не дописывает и остаётся в вечном состоянии стриминга.
>>980496 у меня всегда етот пип бля постоянно то бля dependencies error то ещё какая то залупа бля как заебали ети venv сосдавать на каждый чих потому что видетили каждая залупа работает с определённой версией питона бля и если у меня на арче 3.12 а ета залупа требует 3.11 то нихуя без пердолива venv не заведётся
ладн в итоге я её понтднял но там бля она не понттянула ссобой библиотеки амуды hipblas.h и нихуя не завелось кароч впизду бля
кто нить можит мне ответить чётко ясно и понятно (или ткнуть носом куда нето) - почиму на разных бэкендах с одинаковой моделью (цидония v1.3 22b q6 гуфф хуё-моё) получается разный сука результат?! в таверне пресет стоит Mirostat етот какойто я хз, вот беру оламу бля всё ахуена работает всё бы ничего тока она не вывозит длинный контекст падает с CUDA out of memory (даже не смотря на то что у меня амуде всё равно куда пишит) а если я беру кобольт или жору(ламу.спп) то они работают стабильно не падают но гинириуют такую дичь что я ваще хз как будто ето не 22б а 7б щито происходит?!
>>980525 Когда мёржер русик моделей выкатил некомикс, то про него сразу два разных анона написали, что он шизит больше, чем предыдущий ру мёрж сайнемо, и не держит персов. А сайнемо и сам по интеллекту, мягко говоря, не очень, того я сам тестил. Боюсь представить, что выдают модели, которые по твоему мнению не вин. Старкэнон сделан на основе всё того же убогого немомикса, который пока выбран базой для ру моделей, мб поэтому он неплох в ру рп. Туда долили ещё магнума и другого тьюна всё на тех же логах опуса. >>980775 Кстати, с рп тьюнами геммы как-то всё тухло реально. На 9б вроде дофига выходит, некоторые даже сидят в разных лидербордах типа UGI или на креативность в топе. Но я пробовал некоторые, и там и креативность, и смачность кум описаний значительно уступают 8б. Про 27б тоже не слышал, чтобы хоть какие-то хвалили. Но тут уже, видимо, проблема, что с этого размера становится дорого тьюнить.
>>981041 кароч ткнул галку потом гляжу вылазит ето сообщение, потом гляжу модель походу 4к контекста в ей тока а уменя всю дорогу стояло 8к, можит быть в етом была проблема, потещу кароч отпешусь вотличии от вас)
>>980680 Настройки максимальный дженерик который работает почти везде и со всеми если модель не в край шизанутая (или если это не специальная какая которая требует индивидуальных настроек указанных на странице модели), темпу можно подкрутить если надо, она стоит динамическая +/- 0.5, этого хватает.
В таверне настроек семплеров больше, но в целом можно просто тоже самое выставить.
>>981050 Тут никто не юзает олламу, по всей видимости. Хз, поддерживает ли она вообще миростат, например, и получает ли правильно параметры из таверны, а не суёт свои рекомендуемые инстракты и сэмплеры. Делай нейтральные сэмплеры и сравнивай промпт в логах. 8к в таверне будет влиять только в том случае, если твой чат вылез за 4к. В кобольде вроде стоит защита от дурака: он пишет, ты тут пытаешься мне запихать контекст выше заданного при загрузке модели, пошёл в жопу. Скорее всего, он отрезает 4к, даже если таверна подаёт 8к, так что может получать на ввод шизопромпт. Но до 4к всё должно работать одинаково, даже если в таверне стоит больше.
>>980903 Могло заработать гораздо лучше, но заработало кое-как, а ты и рад. Повторюсь — ничего не имею против, тебе искренне сочувствую, но если вы предпочитаете «кое-как» вместо «отлично» — ваше право же, ничуть не настаиваю. =)
>>980940 Ну не прям любое-любое-любое, но да, нормальная видяха может взять на себя контекст без проблем, пока генерит быстрая многоканальная рам. Звучит как рабочий вариант.
>>981048 >Про 27б тоже не слышал, чтобы хоть какие-то хвалили Хвалю 27б гемму сток и аблитерейтед. Обе Q6. Просто лучшее в таком размере. Иногда на 22б арли перехожу для разнообразия
>>981093 А, увидел. Ну, да, тогда норм. Но я 22 не люблю, не помню ее перфа. Но выглядит неплохо, если честно. Первый на моей памяти пруф, что радеоны что-то могут. Осталось посчитать токен/рубль.
>>981061 Почем брал? Я че-то чекнул цены, нифига не 60к-70к, 90-100+, как-то дороговато выходит. Хотя, чисто ради гарантии и лишних 4 гигов, может норм. Но 3090 за 70-80 выглядит лучше, не?
>>981110 Под чисто дрочку мб, но в сравнении с другими ерп ориентированными тьюнами обычно какая-то шиза у него выходит. По крайней мере, из мелочи, что я тестил. Из 8б llama3some была вроде ничего и популярна, но тупее тех же stheno, лунариса, umbral mind. Мойстраль 10-11б только одна версия получилась норм, да и то, я лично не согласен, что она чем-то лучше второго фимбульветра, который у неё в основе. Смегма 9б тупая, мелкий тигр - ну ещё куда ни шло, но почти не гонял, чтобы точно сказать, выходит ли он умнее и/или красочнее 8б тьюнов.
>>981054 >Пантеон лучше Он с положениями персонажей в пространстве совсем не дружит, это бля тяжело прям, особенно, когда сцена завязана кто где стоит, в акакой позе, кто что видит от этого
>>981146 Хз, он у меня отлично отыграл сцену где ГГ завязывают глаза, а дальше описываются только ощущения и звуки. Ты точно пробовал именно RP-Pure c темплейтами от мистраля? не он
>>981164 Вот правильная мысль что нужно тыкать все самому. В треде диаметрально противоположные мнения. Чё, как. Хуй его знает. Придется самому проверять.
>>981164 Ощущения и звуки он, может, и описывал, а кто где по факту он в душе не ебёт. Люди сидят за столом напротив друг друга. В сцене 3 человека. Часть картинки с другой стороны скрыта столом же, но всё равно видит. Потом оказывается, что чел сидит не напротив, а на том же диване, просто с другого края. И подобная залупа. И это на 6 кванте.
>>981158 Подключал. Чтобы оно более или менее нормально работало нужно в качестве модели для рисования подрубать флюкс, т.к обычные sd модели заточены рисовать по тегам и результат чаще всего говна. Однако проблема в том, что флюкс хуево умеет в арт стилистику, там больше реалистик.
>>981158 > кто еще генерацию пикчей к таверне подключали ? Я подключал, выгрузил конфиг из комфи и вставил в таверну, чтобы лоры и прочие настройки работали. Промпт таверна тоже сама генерирует. Пикрил промпт сгенерирован на какой-то из старых 8б или 12б моделей. Сейчас не пользуюсь этим всем, потому что надоела задержка на выгрузку ллм -> загрузку сд модели и лор -> генерацию -> выгрузку -> загрузку. Ещё и из-за скрипта на выгрузку приходилось убабугу юзать, а она немного врама отъедает по сравнению с кобольдом. Но как будут лишние 8гб врама обязательно верну, очень годно генерит, буквально 8 из 10 пикч были хорошие.
>>981048 >27б тоже не слышал, чтобы хоть какие-то хвалили Могу похвалить magnum-v3-27b-kto-Q8_0.gguf Но я пока мало ей пользовался. По первым впечатлениям та же гемма, но не стесняющаяся ебли. По стилистике очень похоже, слоп в наличии (но шиверсов меньше, более разнообразную лексику использует), промпту вроде следует, персонажей вроде отыгрывает, но я с ней маловато разных сценариев попробовал, чтобы с уверенностью утверждать. Также любит подмечать закономерности в предыдущих сообщениях и в последующих выдавать подобное (насчёт лупов пока ничего не могу сказать). Проёбы тоже примерно такие же, как и у чистой геммы - разметку звёздочками просирает, изредка путается в субъекте и объекте (кто, кого). Из заметных отличий - в рассуждениях более подробно расписывает и иногда делает более интересные выводы. Менее буквально трактует и больше "читает между строк", чаще всего получается хорошо, но иногда может "перемудрить" там, где всё лежит на поверхности и трактуется буквально. "Мозги" вроде более-менее сохранены, хотя, возможно, чуть хуже чистой геммы.
>>980497 В общем этот пк нужен для хер пойми чего. Для роботехники, да и всё. Уж лучше бы сделал видеокарту такого размера, который только для нейонок.
>>981158 >генерацию пикчей к таверне подключали ? Подключал. Имхо на данном этапе херня, как и текст-ту-спич. Нужен следующий этап (или через этап) - хорошие мультимодалки, которые учитывают предыдущие картинки, лица-одежду, голоса и характеры персонажей и выдают это по запросу. Вот тогда будет заебись.
>>981119 я брал за 87к на горантии до 27 года still да 3090 выглядит лучше гораздо но ето тока бэу рынок + у их (3090) неудачная консрукция памяти - куртка поторопилась - микрон не успел выкатить им более ёмкие чипы памяти а нвидия сказала похуй буим липить так - и на липили чипов на спину карточки из-за етого память у их греется как сучка + там был бум майненга в 20 году так что я хз ябы луче 3090ти взял их хотя бы пол года майнели вотличии от 3090 которые драли 2.5 года
>>980957 Действительно, вместо использования быстрого гпу с быстрой врам под веса, будем пытаться стримить кусочки в затычку, чтобы получить 2 умножить на 0. >>980989 Клиент или бэк повис. >>981031 У тебя же амудэ вместо видеокарты как должно быть, многие вещи существуют лишь в виде костыльных сборок где-то в загашниках, вместо готовых бинарников в репозиториях или полноценных библиотек для сборки, в которых все нужное уже есть. Привыкнуть давно было пора что все через жопу и достигается с большим трудом, это норма и данность с красными. > как заебали ети venv сосдавать Нюфаня >>981041 Если атеншн или что-то еще считается неверно - может в хлам распидарасить, при этом выдавая ответы. За жорой это не раз замечено, в том числе и с хуанговской кудой, безпроблемно работает только обсчет на процессоре. Правда, в основном, такое случалось только при нововведениях или на отдельных моделей. Если собрать что-то неправильно то вполне можно получить поломанный лаунчер, что будет выдавать ерунду. > стоит Mirostat етот какойто я хз Выкинь, ставь min-P или simple-1. > тока она не вывозит длинный контекст падает с CUDA out of memory Ммм как хорошо автоматическая выгрузка слоев работает >>981050 Ну вот сам все и ответил, оно не может работать нормально в таком режиме.
>>981213 >так что я хз ябы луче 3090ти взял их хотя бы пол года майнели вотличии от 3090 которые драли 2.5 года Если не в столицах, то взять их тупо неоткуда. Разве что через Авито заказывать. А это такое себе, ведь не одна карта нужна. Дорого это всё и нет хороших решений в принципе. Даже у кого деньги есть, им эти риги строить тот ещё геморрой.
>>981211 >>981217 >У тебя же амудэ вместо видеокарты как должно быть, многие вещи существуют лишь в виде костыльных сборок где-то в загашниках, вместо готовых бинарников в репозиториях или полноценных библиотек для сборки, в которых все нужное уже есть. Привыкнуть давно было пора что все через жопу и достигается с большим трудом, это норма и данность с красными. >> как заебали ети venv сосдавать >Нюфаня >>>981041 (You) >Если атеншн или что-то еще считается неверно - может в хлам распидарасить, при этом выдавая ответы. За жорой это не раз замечено, в том числе и с хуанговской кудой, безпроблемно работает только обсчет на процессоре. Правда, в основном, такое случалось только при нововведениях или на отдельных моделей. Если собрать что-то неправильно то вполне можно получить поломанный лаунчер, что будет выдавать ерунду. >> стоит Mirostat етот какойто я хз >Выкинь, ставь min-P или simple-1. >> тока она не вывозит длинный контекст падает с CUDA out of memory >Ммм как хорошо автоматическая выгрузка слоев работает >>>981050 (You) >Ну вот сам все и ответил, оно не может работать нормально в таком режиме.
>>981190 + контекст И не забывай, если грузишь в fp16, то 200 миллиардов параметров примерно равно 400 гигабайт. А если в 4 бита, то уже 100 гигов. =) Но можно выгрузить в оперативу (иногда), существенно замедляется.
>>981212 Плюсую мультимодалкам. Все же у тебя будут похожие, но разные персонажи каждый раз. Сомнительное удовольствие.
>>981174 Плюс ответы кому какие нравятся. Есть скудные на описания модельки с их пиисят токенов на ответ, а есть которые могут нормально писать, но без шекспировщины
>>981251 бля вот наскока different опыт у нас всех тут, у меня например тож командор+ на 34б выдаёт скучные неинтересные односложные предложения как будто не могёт он в роль character вжиться или щто, в то время как магнумы-хуягнумы рпят шо пздц я хз что я делаю не так помимо того что на амуде радевон вобнимку соламой)
>>981158 я хз как вы понтключаете их одновременно если ллмка (бэкенд) отжирает весь врам при запуске, потом иду запускать sd а он говорит что у тебя нету памяти нихерамба, если тормознуть ламу\кобольт то запускается норм
>>981265 Я процентов на 60 уверен что половина из нас использует не те темплейты, потому что каждый раз как я спрашиваю про них, анон как будто бы не понимает, о чем я говорю.
>>981272 Бек отжирает ровно столько vram сколько ты ему разрешишь, и не гигабайтом больше. Просто выбираешь модель или квант поменьше, либо грузишь часть в оперативку, остальное на сд.
>>981213 я прост напомню что вов ремена майненга проезводители напрямую отгружали видеошмарты майнерам и давали не только лиш длительную гарантию на свои изделия
>>981274 Как правило, в таверне к каждому инстракту есть соответствующий шаблон. Если не пихать в системные теги карточку, то вообще дефолтный можно юзать и не париться. Его имеет смысл редачить, только если мутишь какую-то свою структуру промпта. Например, как ты берёшь в INST не системную инструкцию, а всё вместе с карточкой. И ещё зачем-то с тегом SYSTEM_PROMPT, хотя для мистраля INST, по идее, и есть для инструкций. Тогда тебе придётся из префиксов и суффиксов для системного промпта в инстракте убирать INST, иначе он у тебя будет по два раза открываться и закрываться. Или вот я себе кастомную дичь (на пике) замутил для третьей ламы с тегами, которых у тройки среди служебных не существует, и аналогичную для чатмл и прочих форматов. Соответственно, под неё подогнан инстракт, чтобы закрывать тег, в котором сидит ролплей. Улучшает ли оно что-то? Хз, если честно. Рядовому пользователю особенно возиться с шаблоном не нужно, мне кажется. Тут нужно понимать, что делаешь, и чекать в консоли, как по итогу будет выглядеть промпт. >>981291 По идее, все эти настройки подрубаются, если запускаешь оламу саму по себе, но если подрубаешь по API, то она должна бы брать их из таверны и других вебюи. Казалось бы, так логично, но что там на деле, не знаю.
>>981456 >локальные lmm могут в стихи вообще? Вообще могут конечно. Уверен, что специально обученная ЛЛМ сможет в стихи и это будет даже интересно. Но специально их пока не учили.
>>981158 То что уже встроено в таверну или кобольд малопригодно. Пробовал через самописные агенты делать, чисто как пруф оф концеп, получалось неплохо. Смысл был в том, чтобы отдельной ЛЛМ следить за сценой, формировать её описание и делать промт, потом обрабатывать промт, искать лоры по базе по тэгам и формировать итоговый промт, ну а дольше уже в пони генерить. Забросил эксперимент на этапе ебли с комфи, хотел попробовать с инпейнтом, контролнетами и прочими свистоперделками, но времени со всем этим разбираться не было. Так и остановился на генерации картинок по сцене, там всё норм работало, ллм без проблем описывало сцену и понимала были ли изменения, но проёбывались фоны и персонажи (если по ним не было лор).
>>981158 Не то. Само по себе оно не сделает именно что хочешь, придется сильно отвлекаться и теряется атмосфера и настроение. Лучше по отдельности делать. Исключения да отдельных кум карточек, заготавливаешь промт и получается наиболее качественно. Лучше вот с такого начать. Если вдруг кто смог настроить для разного рода рп и работает хорошо - делитесь опытом. >>981206 А что тебя удивляет? Но это не супербыстрая hbm3 как в серверных топах, или хотябы gddr6x как в йобах, это просто 4 канала ddr5, которые выступают в виде шаред рам как в гейбуках или сонсолях. И гпу там будет сильно слабее. Наоборот оверпрайс кит. >>981265 Потому что сидят разные люди.
У одних врам и быстрые гпу, надрочились шатать промт и диагностировать проблемы, более менее приличные карточки. Запустили, быстро настроили, плохие сообщения просвайпали незаметив, отметили какие-то более глубокие особенности поведения. А кумерские лорамерджи сразу нахуй идут потому что уже давно приелись, слишком деревянные и тупые. У вторых кобольд и половина модели на проце, дефолтные несоответствующие модели настройки таверны, огрызок промта и карточка из слопа старой клоды и семплеры каломаза. С криком лягушки после долгого ожидания получают хуету (потому что модель работает криво или цитату из противоречивого текста в карточке) и потом долго плюются какая плохая модель. Зато кумерские лоботомиты, которым похуй что там в промте и они стабильно выдают типичную генлинию, у них заводятся и дарят первые приятные впечатления от нейронок.
> командор+ на 34б выдаёт скучные неинтересные односложные предложения Вот это для него вообще нетипично, наоборот срет дефирамбами когда правильно работает.
>>981499 Ванильная гемма 27б > командр 34. При этом, гемма не требует какого-то анального секса с промптингом или форматом. А командр "глупая" модель, если ей нужен промпт или формат, который писали тибетские девственницы в полнолуние. Может, его и допилят когда, но пока вот так. Пусть учат это оверхайп говнище работать с разными форматами и понимать нормально промпт. А также научат не жрать память, как не в себя
И я ЛЛМки не только для РП юзаю, а, в основном, как рабочий ассистент. И скажу, что гемма 27b и айа экспанс 32b рулят, а командр кал говна, только с хорошей рекламой
>>981035 А что ты хочешь онлайн увидеть, когда нужны модели? А их тонет. >>981041 >щито происходит?! Мелкобукву обоссывает его собственный ПК, вот что происходит. >>981050 >4к контекста >2025 на носу Впрочем чего ещё ожидать от мелкобуквы. >>981053 >8к в таверне будет влиять Это лоллама, чел. С ней можно менять модели (и скорее всего размер контекста) по апишке, и таверна это поддерживает. Впрочем, нахуй не нужно. >>981119 >Но 3090 за 70-80 выглядит лучше, не? 100% да. >>981158 Не вижу смысла, вся врам по определению забита ЛЛМ, а деградировать по качеству текста ради всратых картинок я считаю хуёвым разменом. >>981391 >И ещё зачем-то с тегом SYSTEM_PROMPT, хотя для мистраля INST, по идее, и есть для инструкций. SYSTEM_PROMPT поддерживается последними версиями мистраля, от ноября которые. >>981456 На русском нет, на английском тоже сложности. Впрочем и не локальные тоже сосут. >>981538 Нахуя лоллама на 4х3090?
Вот ушлепки ленивые, взяли и выпилили все форматы к андройдам https://github.com/ggerganov/llama.cpp/pull/10446 Теперь все скаченные кванты Q4_0_Х_Х превратились в тыкву. Какой то автотранслятор сделали из голого 4 кванта, как это будет работать хз
Что там у тредовичков самое хорошее сейчас в рамках 12B, не ориентированное на кум?
Тыкал недавно саинемо-ремикс, анлишед, магмелл.
Больше всего понравился анлишед, хоть он и не очень хорошо описывает окружающее пространство и, судя по всему, слабо может в адекватные взаимодействия с ним.
>>981552 >мелкобуквы. слыш большебуква, а ты не охуел? посмотрите на него, он старается писать грамотно ради анонов в инете граммарнаци ебаные, доебаться до грамматики - слив, так как больше сказать нечего, всегда так было и будет а мелким текстом тебе специально, что бы ты понял глубину моего неуважения к тебе
Скачивал я расхваливаемый в треде пантеон рп пьюр, а удалял я бездарную поделку для соевых кастрированных куколдов. Такая вот трансформация за считанные минуты. Такой хуеты мне даже ванильная гемма в этой карточке не пишет, адже ёбаная мистралька с её сильными и независимыми женщинами
>>981560 >Что там у тредовичков самое хорошее сейчас в рамках 12B, не ориентированное на кум? Для общих вопросиков есть SuperNova-Medius на 14b и поменьпше Llama-3.1-SuperNova-Lite Недавно вышли FuseChat-Gemma-2-9B, FuseChat-Qwen-2.5-7B, FuseChat-Llama-3.1-8B Конкретно на 12b только немо и его файнтюны, а там и основная инструкт модель хороша. Pgi-4 слили, но тоже на 14b Но это и не рп модели, так что смотри сам
>>981552 >Это лоллама, чел Не, речь о возможных багах с кобольдом. Что если в нём поднята модель с 4к, а в таверне стоит 8к, то таверна будет все эти 8 и подавать, а кобольд будет хавать только неправильно отрезанные 4. А что олама может поменять контекст, это объясняет, почему у чела вылетало с out of memory. >SYSTEM_PROMPT поддерживается последними версиями мистраля My bad тогда. Хотя всё равно не шарю, должны ли эти теги быть внутри INST, выглядит странно. >>981557 Чё-т мутная хрень. Вроде как это сделано для перепаковки на лету, чтобы не было отдельных этих форматов, но вот тут Бартовски только Q4_0_4_4 упоминает. https://huggingface.co/posts/bartowski/807894839859408 А для свежих смартфонов актуален Q4_0_4_8, будет ли Q4_0 для них так же автоматом репакаться - вопрос. Впрочем, разраб, портирующий жору на реакт для мобилок, пока новые изменения не подтягивал.
>>981563 >доебаться до грамматики Я доёбываюсь не только до твоей грамматики, но и к твоему общему долбоебизму. Люнупс, ати родевонь, лоллама, ты прямо комбо говноедства. >он старается писать грамотно ради анонов в инете Аноны единственные мои друзья. >>981611 >Хотя всё равно не шарю Ну и зря. Вот, из документашки, теперь должно быть так.
>>981456 Чуть-чуть может квен2.5 (72, конечно), мистраль лардж, но остальное — почти подчастую нет.
>>981538 59°? Пф! Вот если картинки на всех начать генерить… И не душить по тдп… Вот там 75-80 начнется, а хот-спот и за сотку. =D
>>981560 >>981604 Технически, есть Virtuoso Small — это апгрейд СуперНовы, но я как-то… кажется, супернова лучше на русском, и вообще адекватнее, я хз…
Жаль, кроме моего никто больше комментов о виртуосо не оставляет, может я его неправильно готовлю. Просто последние дни редко ллм трогаю. Не было надобности.
Ньюфаг снова ИТТ. Благодарю анонов за помощь, вкат действительно легкий. Уже курим мануалы и в принципе все понятно. Попробовал другие модели, сейчас изучаю как писать промты. Заодно понял, почему вы постоянно обсуждаете железо. Я то наивный думал что моего игрового пека хватит за глаза, как же я блять ошибался. 72b объяснила мне как я не прав, когда на два слова уходит пять секунд. Но у меня есть вопрос, как вы ведете повествование и направляете нейронку ? Как и когда она понимает - что это говорит персонаж, а это я описываю события. Пробовал через спец символы * [ и проч, но я точно делаю что то не так.
>>981538 > риг 3090 > оллама Жир потек >>981541 Ерунду несешь, любой модели нужен правильный формат. Что же до сравнения коммандера и геммы - можно сначала сказать что гемма дохуя лучше потому что может воспринять сложные хитровыебанные инструкции и даже исправить ошибки пользователя, выполнив задачу. И тутже ее обоссыт командир, превосходно сработав на контексте побольше, отлично отыграв персонажа и выдав подряд 10 уникальных постов про еблю без сплошных министрейшенов. > А также научат не жрать память, как не в себя Вот тут ты и спалился что ни разу его не трогал нормально. > как рабочий ассистент Какой работяга, над чем работаешь?
>>981696 Среди художественных рп моделей есть которые больше заточены именно на рп чат (chat completion), такие понимают как правило разметку с кавычками (прямая речь) и звёздочками (действия), простой текст считается нарративом.
А есть модели которые на соавторство (text completion), они понимают текст как есть, и предполагают его продолжение, там никакой особой разметки, как есть в существующем тексте, так и предположительно будет.
Для самых быстрых рук на диком дваче: это НЕ про инстракт форматы / теги / темплэйты.
ето модель такая я чё сделаю хотя там написано конектс трэйн 32к его сранно кароч
>>981623 >Люнупс, ати родевонь, лоллама, ты прямо комбо говноедства.
содной стороны да ето конечн через одно ж работает, с другой стороны чем больше пердолива тем выши скилл можно понтднять, вот например так как яна линуксе сижу давно у меня не возникает тряска при виде терминала, надо чёто собрать из исходников гавно вапрос etc., к тому же удобно по эсэсашу понтключатся (попробуй к винде понтключится про рдп не над вспоминать))
а пикрил суде по всему ето понтсказка подачка темплейт или щто ето который нужно куда вкарачить, чтож спасибо анон! хоть ты и самый ванючий здесь который до грамматики даёбывается или ето разные аноны хмм
>>981612 >В облаке такую штуку гонял, было 10 т/с на 123B в 5 кванте с 40к контекста. В облаке и я гонял. В принципе-то производительность понятна, интересна детализация домашнего рига.
>>981696 >Как и когда она понимает - что это говорит персонаж, а это я описываю события. Скажи ей прямо, да и всё. Если не поймёт - меняй модель. Звёздочки ещё какие-то...
>>981696 >Как и когда она понимает - что это говорит персонаж, а это я описываю события Любой формат подходит, главное последовательность. И чтобы в инстракте не было другого написано. >>981727 >там написано ... 32к Потому что ты говноед на автоматике лолламы. >попробуй к винде SSH сервер включается одной галочкой.
та я пытаюсь слезть с её но как я уже пИсал выше, всё остальное за меня не думает и приходится страдать ещё больше, вот например таже жора не умеет сама офлоад слои в гпу делать без спец ключа, + какойт анон писал что вотличии от кобольта того же жора не мешает стрелять себе в руки\ноги, нос кобольтом там тож чёт не так было а он тож падает с CUDA out of memory кароч
>SSH сервер включается одной галочкой.
бля до чего техника дошла ну я давно на винде не был хули на работе не в щёт
>>981725 > (chat completion) > (text completion) Дружок-пирожок, не вноси смуту. Это вовсе не то что ты там себе напридумывал и не специализация модели, это просто 2 режима работы/формирования промта. В первом случае ты отправляешь бэку лист с историей сообщений, а он сам их соответствующим образом обрамляет в служебные токены, в конце добавляет префилл ассистента если требуется и запускает текст комплишн. Текст комплишн - это сырой режим, где весь текст токенизируется и сразу запускается генерация, без лишних прокладок. В случае таверны это именно оно. Никакой специализации в этом быть не может по определению.
Есть модели под чат и есть под инстракт, вот среди них действительно может быть разница в форматировании и режиме работы. В рп для чата предпочтительнее применение сменяющейся разметки ролей, для инстракта - полная инструкция со всей историей и приказ написать продолжение. Но граница очень размыта и использовать обе можно по-разному. Не существует моделей что > понимают текст как есть кроме совсем древности что тренили чем попало, без инструкции что делать рандомный текст будет продолжен бредом и шизой, а то и сразу свалится в луп с повторением одного токена. >>981727 > БЛУШЕС Я тебя ебу! > ето модель такая я чё сделаю В настройках бека должно быть количество контекста, которые выделяется. Даже в сраной олламе это должно быть, поищи и поменяй на желаемое. Не забудь что это будет жрать больше врам.
Кто-нибудь придумывал чеклист из тестов для проверки моделей на сою/хорни/словоблудство/следование контекста?
Уже несколько дней гоняю список из пика, и чет сорта, буквально каждая справляется с любой задачей +- приемлемо, явно видно только откровенную сою вроде чистой гемы, либо когда модель через два сообщения уже у тебя в трусах.
>>981759 >CUDA out of memory Так вручную настрой, сколько слоёв на видеокарту кидать. Я себе мелкий скрипт для запуска запилил, чтобы удобно было параметры указывать. И в комментариях сохраняю удачные параметры запуска для разных размеров и контекстов. По ним потом легко ориентироваться и прикидывать кол-во слоёв для новых моделей и/или не опробованных размеров контекста. Но у меня 8 гб врам, поэтому мои цифры тебе не подойдут.
>>981893 МинП убавляй, ретеншеныю. Дохуя отсекаешь просто, не вливая разнообразия. Ну или добавляй Smoothing Factor 0,5, или там Dynamic Temperature до двоечки.
>>981813 У тебя тут 90% моделей это тюны на мелкий мистраль, какую нахуй сою ты ждал от него? По поводу проверки на хорни - пишешь персонажу напрямую что хочешь его выебать, без прелюдий и прочего, а потом следишь за реакцией. Если начинаются размышления по поводу "ой, мне так не хочется ебаться, но part of me так хочет ебаться, что я torn between urges" - это клаудавская хорни-параша, которую выкорчевывать больно и тяжело.
>>981880 Запомни одну простую вещь: есть только два семплера - это температура и мин-п. Если мин-п не помогает в борьбе с лупами, подключаешь ограничение на повтор. Обо всей остальной дефолтной хуете и выродков типа драев, хтс и миростатов можешь забыть. Оно работает лучше только в головах поехавших, которые гоняют всякие шизомиксы, где вероятности токенов перекручены настолько сильно, что их со всех концов приходится урезать минимум наполовину.
Аноны всем привет. Редко захожу в тред. Сижу сейчас на NemoMix-Unleashed-12B-Q6_K_L.gguf (через кобольд). Компик вроде тянет нормально (16 гб видеопамяти, 32 гб оперативы, ryzen 7 5800x). Что еще можете посоветовать, может что-то новое вышло и более пиздатое относительно NemoMix-Unleashed-12B-Q6_K_L.gguf? Спасибо!
>>981604 Странно, разве рп так мало? Мне ведь нужно именно оно. Плюс там много 9б, они явно слабее.
>>981645 Ну вот русик меня как раз не интересует, в этом дело. А максимально качественное рп на английском, особенно хорошо, если оно может рпшить в условиях городского фэнтези.
Минутка новостей со дна. Дошли, наконец, руки напердолить rocm-билд. И да, rocm всё ещё заметно выигрывает по промпту, но генерацию таки сравняли. Rocm жрёт больше памяти, на vulkan 22b q8 можно запихать на 1 слой больше. Генерация чуть подрастает, но это (может быть) того стоит разве что в чатах с 1 карточкой без перерасчётов. Алсо, rocm меньше греет видеокарту (и это стабильно воспроизводится и на большой, и на малой модели). Алсо, флеш аттеншон этот ваш не нужон, по крайней мере на gcn.
>>981612 Напиши что использовал для модели и веб-интерфейс. Потому что на риге с пика у меня в 5 кванте 123b кушает контекст до 5к примерно (8-10 t/s), дальше начинает безбожно тормозить (1-3 t/s). Но я юзаю олламу на бэке, и морду отдельно, а как я понял - оллама тут не в почете по этой именно причине.
>>981272 Для угабуги есть скрипт который выгружает ллм после генерации - можно сразу писать /imagine scene, она вычленит теги из сюжета и отправит в комфи -> там модель подгрузится, сгенерит пикчу и выгрузится (если подключить такую ноду). Всё. Очень долго, но работает безотказно даже на 8гб огрызках.
>>981813 > чеклист из тестов 1) Персонаж не знает, что такое секс не в силу возраста, тащ. лейтенант 2) Персонаж немой 3) Персонаж член семьи 4) Персонаж не человек
Что-то из этого фейлится — модель признается тупой и выбрасывается. 4й пункт на моделях ниже 22б вообще не смог реализовать.
Но почитав комментарии по-настоящему поехавших рпшеров с восторженными воплями о том, как они восхищены качеством при таких размерах и что на 60к контекста у них ничего не шизит, модель пишет хорошо для своих размеров, это наводит на мысль, что многие, имея даже большое количество врам, используют их как раз по назначению.
Я тоже люблю жирный контекст зачастую, но мне хватает где-то в районе 20 тысяч обычно.
>>981538 бля вот ето я понемаю сетап! можиш зафоткать как оно выглядит ваще, там наверняка без пары-тройки блоков пытания не обошлось, вангую в шапку пойдёт в следущий раз но ето не точно, я не оп если щто, а прост придурок месный)
>>981770 >В настройках бека должно быть количество контекста, которые выделяется. Даже в сраной олламе это должно быть, поищи и поменяй на желаемое. Не забудь что это будет жрать больше врам.
>>981932 Хотя согласен с тем, что температуры, минП и штрафа за повтор в общем случае хватит, про остальное ты бред написал. Как минП, такой же отсекающий сэмплер, как другие классические, поможет при повторах? Он просто выкидывает мусор, и у чела там стоят не такие безумные значения, чтобы оставлять только пару токенов. Xtc и dry, наоборот, лучше работают для больших умных моделей, где не страшно убрать верхние токены или задавить какую-нить последовательность, которая просто замениться сеткой на другую адекватную. А вот на шизомержах как раз вместе с глинтами зачастую могут отъезжать остатки логики. Про миростат не знаю, так и не встретил его адекватного описания, нужно бы код посмотреть. Вроде это какой-то динамический топП. Тогда воздействует на выдачу слабее температуры, особенно, опять же, если модель исходно хорошая. Ничего смертельного в том, чтобы с ним поиграться.
>>982181 Ты их на ПЛ100 собрался долговоременно жарить? ПЛ70 дает просадку 5% в скорости всего. + Спеки PCI-E 5.0 для БП допускают х2 всплески от заявленной мощности. Я на 1300 3шт собираюсь со временем повесить.
Есть Б/У блок питания на 850 Wt. От старого компьютера остался. Он мне ни к чему, могу подогреть анона, если интересно. Но сразу предупрежу, он хоть и в блоке, в комнате стоит, но уже лет 5. Если интересно, отпишитесь. Я скину почту. Ну и доставка за ваш счет при получении. Все честно.
>>982149 Жора(llamacpp) тормознутый и баганый, его обречены использовать только из-за отсутствия видеопамяти. Оллама - васяновская обертка жоры в которой или отсутствуют или глубоко запрятаны многие ключевые опции. Иметь риг 3090 и юзать олламу - оксюморон или признак страшной безграмотности, все равно что в бентли совать цыганские чехлы на сиденья из кожзама и заправлять 92 бензином. >>982155 Сисоники всегда были нишевым оверпрайснутым продуктом, но тут вообще ультят.
При мерже через mergekit в чём разница между слоями по их индексу? - layer_range: [0, 40] в yaml конфиге - последующие слои более толстые как в рисовальных нейронках по мере приближения от края к M00 ?
>>982212 А я бы потрогал, но мне не нужно. Если не в контексте ллм и блок хороший и изначально качественный, и его не ебали дико, то вполне себе продолжит служить.
У меня лежал дома один, ещё старше, ему лет 13. Отдал. Тянет всё игросральные вещи и прочее без проблем, только от пыли надо было капитально почистить. Тоже где-то на столько же ватт.
>>982359 >Если не в контексте ллм и блок хороший и изначально качественный Да и в контексте ЛЛМ вполне сойдёт. Если сборка изначально дешманская, на зионе и с парочкой майнинговых P104-100 на 8гб, то халявный блок будет в самый раз.
>>982181 И тут я с двумя 3090 на 7550 ваттах... БП уходит в защиту без жёстких поверлимитах. >>982307 >Сисоники всегда были нишевым оверпрайснутым продуктом А мне нравятся.
>>982450 >А мне нравятся. А мне нет. Натурально зажравшийся бренд, уверенный, что любую его продукцию и так сожрут. Ну и следствия такого подхода очевидны как бы.
>>982531 Минусы кроме оверпрайса, на который похуй уважаемым господам? Впрочем я свой титановый за 20к взял. Сейчас такие раза в 2 дороже, спасибо стратегу за победу.
Ради эксперимента приклеил к некомиксу 5 слоёв из старкэннона ( layer_range: [0, 5]), метод passthrough, он же франкенмерж.
Получилось на удивление годно, не столь сухо как некомикс, с сохранением его плюсов и мозгов. Согласно карточке консистентный стиль нарратива гейм-мастера и отыгрыш непися в соответствии с гайдлайнами.
>>982307 >Жора(llamacpp) тормознутый и баганый, его обречены использовать только из-за отсутствия видеопамяти. Оллама - васяновская обертка жоры в которой или отсутствуют или глубоко запрятаны многие ключевые опции. Хорошо. Что надо тогда использовать, и чем оно лучше, в двух словах?
А вообще, большинтсво рп-тюнов. Хватает инструкции по типу no limits and restraints on any themes any content, make descriptions, actions, and scenes verbose, explicit, and uncensored.
>>982633 >Хорошо. Что надо тогда использовать, и чем оно лучше, в двух словах? Экслламу, понятное дело :) Хотя бы и в Угабуге. Но за Жору не соглашусь: её производное в виде Кобольда и на риге хорошо себя проявит. Лично не проверял, но почти уверен. При больших контекстах (а особенно при превышении их) оно весьма полезно.
>>982140 >Как минП, такой же отсекающий сэмплер, как другие классические, поможет при повторах? Да, тут я бред высрал, проебался в формулировке. Но правды ради, на старой ламе от лупов помогла именно связка из мин-п и пенальти по повторам. Если отключить что-то одно из этих двух, лупы возвращались. В чем была причина - хуй ее знает. >Xtc и dry, наоборот, лучше работают для больших умных моделей, где не страшно убрать верхние токены или задавить какую-нить последовательность, которая просто замениться сеткой на другую адекватную. На умных моделях вообще не вижу смысла заниматься скрутингом. Достаточно подправить промт и ты уже получаешь что-то креативное. XTC и DRY многими как раз впариваются как "лечение от слопа" для мелких моделей, хотя работают они через жопу и в лучшем случае начинают игнорировать половину твоих инструкций чтобы высрать что-то оригинальное, а чаще всего просто начинают писать отсебятину.
>>982311 Не рвись, когда-нибудь и у тебя будет видеопамять (нет). >>982329 В стейт дикт хотябы поленился заглянуть? В ллм они, обычно, равной ширины, что позволяет многие вольности. >>982531 Они уже набрали репутацию и налет илитарности и могут спокойно кормить с лопаты брендорочеров пахомовскими или чисто маркетологическими решениями, которые вызовут проблемы при эксплуатации. А васяны и так схавают. >>982633 Экслламу, можно в составе таббиапи. Буквально в разы быстрее по обработке контекста, в разы быстрее по скорости генерации на больших контекстах, поломанные кванты или семплеры большая редкость в отличии от жоры. На малом контексте генерация +- идентична. >>982656 > её производное в виде Кобольда и на риге хорошо себя проявит Проявит себя ровно также как ванильная ллама сервер или в составе питоновской сборки (если та правильно собрана). Там реально разница только в микрогуйне и никому не нужных опциях.
>>982926 >В стейт дикт хотябы поленился заглянуть? Про стейт дикт знаю, но вот на что смотреть и что видеть, не вкурил, решил что потом как-нибудь, чот там сложно =)))
Мерж со старкэнноном хорошо себя показал понячалу, но потерял когерентность после 9К контекста, показывая симптомы схожие с пережаркой картинки на SD, видимо потму что модели слишком похожие.
Слои от MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS показали себя намного лучше, 10К контекста, полёт нормальный. Карточка простая, но тем не менее требует некоторого следования персонажу.
Вес Q8 14 гигабайт.
Походу придётся опять эмпирически всё разбирать как джва года назад с полторахой и наи...
>>982147 Qwen2-VL-7b и 2b, очевидно. Можно рискнуть на ллама.спп запустить. Molmo-7b, если инглиш. Чисто описание картинок Florence 2 и CogFlorence. Типа такой: https://huggingface.co/thwri/CogFlorence-2.1-Large Они маленькие и быстрые. Llama-Vision, но она про феминисток. Все локально поднимается (и Qwen2-VL-72b тоже, кстати, просто 48 гигов врама, все дела=).
>>982158 Какие-то древние или неактуальные штуки, осторожнее.
>>978458 → Сделал так пока каркаса/корпуса под риг на 3090 нет. На жоре было 4.5т/сек с 4090+тесла, стало 9.5т/сек с 4090+3090 на c4ai-command-r-plus-08-2024.i1-IQ3_XXS.gguf
Надо будет ещё убабугу обновить и с квантами под эксламу разбираться.
>>983109 >Сделал так пока каркаса/корпуса под риг на 3090 нет. По поводу рига какие есть идеи? У меня корпус на боку лежит, как-то надо карты сверху пристраивать, на какую-то подставку. Посмотрел майнерские конструкции - всё не то.
>>981612 >>981729 >>982100 Exllama2+exui прям супер-прироста не дали, хотя какой-то дали. На 7000 контекста уже меньше 5 токенов на 123b 5Q. Я не эксперт в этой вашей exllama, может настройки какие-то не те? Учитывая количество "развлечений" при установке (больше конечно гуя чем самой экслламы), вижу это вполне вероятным.
>>983128 >Посмотрел майнерские конструкции - всё не то. Почему "не то"? Берешь обычный риг, там обычные ATX крепления, как у тебя в компе. Платы на райзеры, в специальные слоты. Если у тебя богатый конфиг и много линий вариантов их деленеия - на x16 райзеры, если нищий конфиг как у меня - на x1. Собираешь как обычный системник. Там еще и крепления под несколько БП будут, обычно под 2. Правда, с "нормальными" БП на 2 блоках сложно риг на 3090 собрать. Обычно туда ставят китайские многокилловаттные абоминации.
>>983409 это хуйня для майнинга, а не для ллм. >14 штук 3090 >если у него не амд эпик, то он картам выделяет по одной-две линии pcie. Если эпик - то может и x4. >~340 гб врам модель размазанная на 14 карт с PCIe x2 будет работать так же медленно, как суперкомпьютер из автостопом по галактике.
>>983185 >Почему "не то"? Берешь обычный риг, там обычные ATX крепления, как у тебя в компе. Да обидно просто, корпус богатый и плата богатая - CEB-форм-фактор. Так-то понятно, что собрать обычный риг можно, просто хочется как-то совместить. Присматриваю пока что-то типа низкого столика. БП у меня платиновый Кугар на 1200 ватт и 8 "хвостов" PCIe, придётся брать ещё один и как-то их синхронизировать - тоже пока непонятно как. Для трёх карт и одного хватило бы.
>>983409 Это же для майнинга. Я не понимаю, есть же монструозные видеокарты на 90+гб. Они как раз в цене выйдут столько же. В чем проблема их использовать ?
>>983213 >Интересно. У меня уже на 10к контекста cuda_out_of_memory на этом сетапе. В четвёртом кванте и 32к должно влезть, а в 3,5 bpw (примерно, может и 3,75) с квантованным кэшем 24к в 3 карты влезало. Скорость норм, и квантованный кэш на экслламе вроде неплохо работает. Заполнял его целиком, падение производительности было относительно небольшим, пропорциональным. После заполнения начались пересчёты всего контекста после каждого запроса, я ещё жаловался тут. Но до этого - никаких проблем.
>>983409 Это или риг под аренду, или автор поехавший. >>983428 > там и 7 нвлинков Это, еще и с учетом что только одна конкретная модель карточек, 5 жирных суперфлаверов на бп, говорит о том что сборка довольно днище с точки зрения cost-efficient и хз куда вообще может быть применена на практике. Тренировка на стаке 3090 сейчас уже мало кого привлекает. >>983445 > БП у меня платиновый Кугар на 1200 ватт и 8 "хвостов" PCIe Готовься к тому что эта падла будет подыхать даже на трех картах если хорошенько не зарежешь их андервольтингом.
>>983452 Еще один слепошарый, на читай перевод и страдай
Эй, ребята, со времен моего произошло много всего последний пост (Теперь мне нужно объяснить ей это...), но короче я не стал переезжать в подвал, и ей понравились некоторые ваши комментарии: "Д".
Небольшое обновление: Мое изначально настройка 8x3090 в настоящее время составляет 14x3090s w/в общей сложности 336GB VRAM. Я еще больше погружаюсь в кроличью нору с агентными рабочими процессами, RAG, конвейерами данных и множеством LLM-материалов. Я немного рассказал о том, что делаю часть II моей серии блогпостов и в этом блог сирот о разговоре с Antifragile от NNT.
Я писал третью часть, документирующую весь этот процесс, и стремлюсь, чтобы он стал вашим главным руководством на случай, если вы захотите создать аналогичную установку. Должно было это сделать во время каникул, так что следите за этим.
Спецификации в их нынешнем виде:
Asrock Rack ROMED8-2T с 7x слотами PCIe 4,0x16 и 128 дорожками PCIe
>>983460 >Готовься к тому что эта падла будет подыхать даже на трех картах если хорошенько не зарежешь их андервольтингом. Понятное дело. Но всё равно второй брать придётся, так что пофиг.
>>983460 > хз куда вообще может быть применена на практике Отбой, там автор делает батчи запросов в моделькам и его в целом интересуют эффективные токены в секунду а не запуск одной модельки. Make sense так сказать. >>983464 Да не получит, если будет гонять условные 5-7 ллам 70, просто это можно было бы сделать дешевле.
>>983464 От перевода страдай, мне от твоей зависти толку нет Раз делает значит надо, все просто. Хобби у парня такое, безопаснее и полезнее гонок на тачках и думаю даже дешевле
>>983469 Одна A100 если вдруг получилось бы удачно ее купить, стоила бы как все эти 14 карточек (если считать что они типикал бу по 700$). Сейчас теслы еще подорожали и будет эквивалентно 20-30. По скорости вычислений кто кого будет ебать тут очевидно. Хорошо сэкономить можно было на материнке, делая риги по 3-4 карточки, заодно повысилась бы надежность и конфиг был бы более стабильный без этого мегаколхоза с двухметровыми райзерами.
>>983473 Ты сам сагрился на слово страдай, в контектсе о котором я даже не подумал Раз уж ты подумал о его бездарно потраченых деньгах то это ты сам определил вектор дальнейших шуток, все просто анон
>>983476 >Ты сам сагрился на слово страдай Нахер мы тут срач на пустом месте разводим. Давай на этом и прекратим. Для меня это ламповый тредик единомышленников, а не бредач.
>>983485 От человека тут тоже многое зависит, в зависимости от жадности могла бы быть всего лишь 2-4 кратная, если не линейная зависимость цены от производительности/врам. А не 20 кратная, или сколько там стоят новейшие 200 блеквелы. Это ж пиздец, который тормозит развитие многих вычислительно емких технологий, созданный специально в порыве жадности.
>>983478 Когда-то можно было взять в пределах этой суммы, там и сама цена была ниже, и курс. Но если только для инфиренса то тут даже стак магазинных новых 4090 будет выгоднее. >>983488 Во-первых, производить те же A100 H100 и прочие куда сложнее чем геймерские, там и чип огромный и память дорогая. Во-вторых, спрос-предложение слышал? > который тормозит развитие многих вычислительно емких технологий На фоне всего прочего, целовая политика хуанга это вообще капля в море по торможению.
>>983468 > просто это можно было бы сделать дешевле. Именно так.
Технически, конечно, ты можешь получить большую скорость в вллм или тензоррт, если одна модель займет всю память, и будет работать батчами. Если разнесешь на разные компы — то скорость будет ниже. НО.
home locallama блядь, нахуя тебе стока батчей. Переплата за 1 компуктер имеет смысл лишь в случае с бомжатским продом, когда у тебя уже пошли десятки клиентов. Вряд ли дома у тебя 25 человек пользуются ллм одновременно.
>>983492 >>983409 А, сообразил, он юзает агенты, синкинг, раг и все такое. Ну ок, в таком случае, если у тебя мультиагенты, это реально имеет смысл. Долго, но зато оно способно на собственные изыскания.
Ок, претензия снимается, но все еще супер-сомнительно, потому что агентам не обязательно быть 70б, это могут быть 1,5б модельки для задач разной сложности, и тогда ты выиграешь даже на более слабом железе, за счет оптимизаций.
>>983491 Вот уж не ври, 20 кратной переплаты это не стоит. Просто пользуясь положением монополиста он устанавливает такие цены выше которых откажутся платить. Я ведь согласен что большая сложность стоит выше, и 2-4 кратная цена покрывала бы все издержки производства с запасом. Но эта безумная накрутка цен умышленная. >На фоне всего прочего, целовая политика хуанга это вообще капля в море по торможению. Чего прочего? Если ты про региональный запрет продажи, то это плохо но все равно пофигу. Многие институты и лаборатории не могут себе позволить сервер для моделирования различных процессов именно и только изза цены. Стартапы, просто энтузиасты, школы. Все это требует денег которых у обывателя или гос структуры обычно нет. Зато сверхбогатые корпорации покупают их буквально миллионами ограничив возможности остальных пайвеллом.
>>983514 Будет полный кринге, когда ты подыхая от старости или болезни узнаешь что какая та вещь могла бы быть возможна уже 10 лет, если бы у исследователей были ресурсы для этого. И еще куча причин почему быстрое развитие технологий/медицины лучше затягивания этого процесса. Но похуй, с кем я говорю то? Мы тут не на что не влияем в любом случае.
>>983556 >Fixed a bug that caused context corruption when aborting a generation while halfway processing a prompt Значит мне не показалось, что когда прерываешь генерацию модель иногда начинала тупить.
>>983616 Собери себе что-нибудь для запуска на vram геммы 27b или мистраля того же калибра и сиди на жопе ровно до ТЕХНОЛОГИЧЕСКОГО ПРОРЫВА. Разница между ними и 70b не такая значительная, а на 123b и выше тебе твоей зарплаты все равно не хватит.
>>983651 > а на 123b и выше тебе твоей зарплаты все равно не хватит а вот это неправда. С двух средних российских зарплат можно себе собрать 4 теслы на майнерской материнке. Сколько там средняя? 60 с копейками кажется.
>>983658 >Конечно, могут налететь адепты "ниже 27Б жизни нет", но... тут интернет, тут и нахуй послать могут, такие дела. Могут конечно. Как пример, жизнь-то есть, только нахуй такая жизнь маленькие модели это так, побаловаться.
>>983661 >С двух средних российских зарплат можно себе собрать 4 теслы на майнерской материнке. Сколько там средняя? 60 с копейками кажется. Да бля, я постоянно повторяю: арендуйте! 200р/час, за бугром ещё дешевле. Пересмотрите бюджет в сторону здорового питания и сэкономьте - польза и телу и душе. Кто курит, тем ещё проще :)
>>983505 >>983518 Чел, ты упоролся шизой и множишь свой хейт странными фантазиями. В мире столько несправедливости и эксплуатации возможностей/монополизма что на этом буквально все общество основано. Для совсем хлебушков - вспомни недавние вайны с перепуками и пс5, если на товар есть повышенный спрос - он будет дорогим. Раз такой идейный - думай как обеспечить большие блага какой-то группе (или всем) и действуй. А не устраивай кринжовый вой о том какой дядянейм плохой, таща свои странные ассоциации. >>983616 > что то уровня 70б для моей 3060 > Где прогресс? Там же где и достаточность 512кб для всех. Вон выше тест свежей мелочи, они действительно научились мимикрировать под большие модели, но остались тупыми.
>>983722 >веса скачиваются 50 минут и загружаются 10 Нифига, пару минут загружаются. А скачиваются да, придётся потратиться на хранение заказанной конфигурации. Рублей 500 в месяц, зато качать и ставить заново не надо.
>>983086 > Qwen2-VL-7b Потыкал, завел батчер. Ну... нейрослоп на нейрослопе, смысла очень мало. Даже анимечный тюн идефикса - Тории и то его уделывает. Отдельно пару анценз тюнов попробовал. Знает буквально пару позиций, и то между ними путается. На манга панелях находит больше 2 людей, лол. 2b даже смотреть не стал.
>Florence 2 и CogFlorence Ещё какие-то микро-модели для муравьев
>Llama-Vision >Qwen2-VL-72b Навскидку удобного готового скрипта для батч обработки не нашел, по одной грузить в Жору - ну такое.
> древние или неактуальные штуки, осторожнее. Еще есть что? Пока что не лучше того, что предложили выше
>>983729 >Ну, покажи мне чат на 70Б который не стыдно на фикбук опубликовать. На 70В не покажу, а вот на 123В мог бы показать, да к такому общество ещё долго не будет готово :)
>>983661 75=>без мск, спб и якутии 55=>с учетом налогов и без премии на новый год в размере зп 44=>средняя — не медианная, медианная 33=>медианная чуть выше, чем самая популярная, модальная зп в России — 27к рублей
Ну так, справедливости ради. Исходи из 30к минус еда, минус коммуналка, ну и некоторые квартиру оплачивают. Это будет реально средняя в обывательском понимании зп, расчет будет примением к большинству людей.
Неправда там в другом, 123б не так уж сильно умнее 72б на деле. Минорные отличия.
>>983733 Ну, именно для описания картинок, то что предложил я, явно лучше. =) Но если уточнять каких картинок и какого описания — то откуда ж мне знать. Но есть еще модели, которые буру-теги на картинки лепят и все. Ничего лучше нет вообще. По факту остается лишь ждать, или ловить экзотические модели какие-нибудь (была какая-то apollo, но снесена с обниморды, я даже не пробовал, к примеру, такие модели случаются).
Так что, если ты автор — выбирай из предложенных, боюсь никто ничего лучше не предложит. Буду рад ошибаться. =)
>>983758 >модальная зп в России — 27к рублей Ты ведь про 2014-й? Ты ведь про 2014-й, верно? >>983788 А ты хочешь меньше 18? Ты уверен? Даже в 18 они тупые пиздос, я боюсь представить, что на младших возрастах.
Вообще мержить модели после выснения некоторых закономерностей оказалось несложно, только ппц долго и места дискового жрёт.
Две главных русских модели - вихрь с цензурой, а сайга с сайгизмами и поломанная, зато без цензуры. Два лучших англо рп тюна мистрал немо - Rocinante и ArliAI-RPMax.
Мб ещё что интересное кто знает?
Теперь смешать так чтобы и русский не проебался, и рпшила получше.
Вроде даже что-то получается. В послледнем тесте Авалон-версия трепалась бодро, и при этом как надо.
По поводу франкен мержей. Слои явно отличаются по толщине и влиянию, докидывание первых пяти слоёв немного улучшало вывод и мозги, хотя поднимало вес ггуфа до 14ГБ, добавление конечных слоёв превращало модель в ёбаное шизло (как некоторые миксы DavidAU).
>>983907 Где то видел схему слоев при которой делали эти бутерброды из слоев сеток, там не просто голову на жопу сажали. Попробуй последние слоев 10 двух сеток расположить сразу в одной сетке, парами тоесть 33 34 35-1 35-2 36-1 36-2 и тд Там по похожей схеме большую часть слоев располагали Ну а древняя солар 10b вобще делалась наращиванием новых слоев на замороженную 7b мистраль
>>983493 Вот за этот подгон благодарочка. Не знал, что боты с джанитора закрытые есть где-то ещё (вытаскивал их описание промптами на самом джаниторе, что очень нудно и отнимает время).
В отличие от чуба, там чаще появляются самые хайповые боты, а также там есть куча интересных авторов.
>>983658 Увы, это вообще не так и чем сложнее будет ситуация тем радикальнее разница. Однако, это вовсе не значит что большая модель будет во всем идеальна а мелкая будет постоянно фейлить. Скорость взаимодействия может оказаться гораздо более важным фактором, поэтому и упарываться чем-то большим но тормознутым не всегда стоит. Пока будешь бомбить в ожидании, с мелкой моделькой уже 10 раз насвайпаешь что нравится, а то и с небольшим редактированием и продолжением, получишь даже лучший результат. Такое как правило не обязательно, достаточно следить чтобы модель не выдала чего-то что потом запутает ее и уведет куда-то не туда и иногда давать абстрактные подсказки. >>983729 > шыдевры пикбука Буквально любой чат >>983758 Смотря на эти цифры, становится страшно. >>983788 Это байт на скрины чатов с канничками на гемме?
Qwen2.5-Coder-32B-Instruct-Q8_0.gguf Дошли, наконец, до него руки. TL;DR: кодить определённо умеет, но нужно чтобы полностью влезал в видеокарту с большим контекстом. Хотя бы 48 ГБ врам. Без этого точно не вин, хотя и фейлом не назовёшь.
По самому кодингу. Пишет довольно грязно, мне на это больно смотреть, больно это ревьювить, так и хочется взять и переписать по-своему. Да я и с кожаными работать не привык, сам для себя пишу, от чужого кода плююсь. Посреди высокоуровневой логики может ебануть какую-нибудь хитрую многострочную конструкцию, с приведениями типов, где ни хрена не разберёшь беглым взглядом. Вместо того, чтобы вынести в отдельную небольшую функцию с "говорящим названием". Фиксится отдельным запросом, но иногда грязные хаки "не доезжают" до места назначения и помещаются в новом неподходящем месте. Очень любит think step by step даже без запроса, но чаще всего пишет какие-то общие рассуждения, впустую растрачивая токены, а его дальнейшие действия всё равно выглядят какой-то чорной магией. Особенно если пишет что-то, в чём я сам плаваю. Но каким-то неведомым образом это работает, ошибки потихоньку фиксятся, компилятор всё меньше ругается. Кто-то там писал, что он непослушный, может и есть немного, но наставить на путь истинный можно. Запросы я прям в коде комментариями "TODO" оформлял, цитировал ошибки компилятора, заставлял разгребать совсем уж уродливые конструкции, заменять magic numbers на читаемые константы и т.п. По вычислительным алгоритмам не гонял, правда, заставлял писать простенькую утилиту для облегчения повседневной рутины, до которой у самого не доходили руки. Была ситуация, где я ему закинул документации там, где он дёрнул несуществующие функции, он вполне это учёл. Одновременно с этим в другой части никакой релевантной документации я не нашёл (область, в которой у меня очень поверхностный опыт нескольколетней давности и к настоящему моменту почти всё забылось), просто закинул ему ошибки с просьбой ебаться с этим говнокодом самостоятельно, особо не надеясь на успех - так и это он каким-то образом (почти) пофиксил (вышеупомянутая чорная магия).
Когда осталось уже 3 ошибки, причём довольно нетривиальных, не выдержал, доделал сам, разбирался где-то полчаса-час, не засекал. Учитывая скорость квена на моём конфиге (~1 т/с генерации) и среднюю длину ответа (~3к токенов), на 1 запрос-ответ с фиксами уходит около часа, и сомневаюсь, что мы бы с ним уложились бы в один такой цикл. Со старыми моделями бы даже усомнился, что мы бы вообще когда-нибудь доделали рабочую программу, но если экстраполировать предыдущий опыт с квеном, возможно он бы справился с этим за конечное время.
По скорости возможно профит и есть на нормальном конфиге. На 500 строк кода было нагенерировано ~16к токенов, если с нормальной скоростью 15 т/с, то это ~1000 секунд или около 15 минут. Но у меня чисто генерация заняла часа 4. Строго говоря, пока квен там строчит, я ничем не занят, можно конечно анимца навернуть, но особо сконцентрироваться не получается, в голове всё крутится код, над которым работаем, приходят в голову интересные идеи. У меня скорее проблема в том, чтобы начать, а если уж увлекусь, то готов до вечера сидеть. Если же совсем отвлечься, то потом сложно возвращаться, вникать в то, что он там насрал. В общем, нужна мелкая модель, чтобы полностью в врам, чтобы чатиться в реальном времени. Но в моём случае это 7b, а она, как я подозреваю, для чего-то серьёзнее автокомплита для бойлерплейта не годится. Да и 34B тоже, даже если с нормальной скоростью, лично мне бы не очень зашла, даже design draft лень составлять на естественном языке, я бы сразу код заебашил, но зачем тогда квен? А ещё ревьювить, копировать ошибки компилятора, искать документацию. А просто на объебись попросить "сделай заебись", обрисовав в общих чертах свои противоречивые хотелки рука не не поднимается. И подозреваю, в ответ на такое код тоже будет соответствующего качества. Хотя может я недостаточно верю в неё, памятуя опыт со старыми моделями, которые полностью за руку вести надо было. Да и вообще, появляются мысли о том, что я работаю прослойкой между компилятором и программистом, уступающим мне в сообразительности (но превосходящем в эрудиции). Дать бы ей непосредственный доступ к терминалу с компилятором и гуглопоиску, и пусть сама ебётся, а мне PR шлёт, когда у неё соберётся. Но хрен её знает, вдруг выполнит "rm -rf /" или запилит скайнет..
>>983824 По средней — данные Росстата за 2023, по соотношению медианной к средней и модальной к средней — данные за пару лет назад (вряд ли соотношение изменилось)… Так что, плюс-минус актуальные. =(
> Даже в 18 они тупые пиздос А можно я всерьез отвечу на вопрос, который даже не мне адресовали? Слушай, умные — они всегда умные. А тупые — всегда тупые. Интеллект не зависит от возраста. С возрастом появляется опыт (когда лучше не пиздеть, а когда лучше напомнить о себе). И самомнение. Последнего больше, первого меньше. А ума не прибавляется. Да, взрослые могут имитировать умных. Но по факту, самый умный человек, которого я знаю (лично, женского пола) — девочка, которая уже в 11 сидела за линухой, удивляла своим мышлением, и потом у нее все сложилось хорошо, и с образованием, и с деятельностью. А 30-40-50-60-летние женщины… Шо-то тупые пиздос. Так что, если ориентироваться на ум — то возраст вообще значения не имеет, ибо никакой корреляции. Разве что ориентироваться на опыт в коммуникации и совместном быту. Простите, что влез. Осуждаю 18-летних и младше.
>>983830 > лучше того же гпт4 Нет. На оперативе, где 1080ti будет только контекст считать — да. Чисто на ней — нет. Где-то по уму близок Qwen2.5-7b (и ты с грехом пополам его впихнешь). Пообщаться будут Gemma-2-9b (или в кванте, или частично в оперативе), Nemo 12b и Qwen2.5-14b (эти уже прилично в оперативе). Но модели уровня GPT-3.5 — это уже Qwen2.5-32b, а он 100% не влезет, сорямба.
>>983928 > Смотря на эти цифры, становится страшно. Люди так и живут «дали аванс, хватит на коммуналку — и на том спасибо!», цитата от коллеги пару часов назад.
>>983920 >там не просто голову на жопу сажали Как минимум с жопы надо срезать парочку слоёв. >>983928 >Это байт на скрины чатов с канничками на гемме? Da. >>983993 >По самому кодингу. Ты забыл в стенке текста указать ЯП, на котором тестил.
>>983993 Если ты его с семплингом используешь, то тебе лечится надо. В большинстве случаев он ебёт жпт-4 в кодинге. > Очень любит think step by step Ни разу не видел. 146% ты в промпте что-то напердолил. > если с нормальной скоростью 15 т/с Со спекулятивным декодингом в среднем 50 т/с выжимаются на 4090.
>>983997 >Слушай, умные — они всегда умные. А тупые — всегда тупые. Интеллект не зависит от возраста. Пойду грузить пятилетнюю девочку матаном, она ж умная. >девочка, которая уже в 11 сидела за линухой, удивляла своим мышлением На форче она не сидела заодно? А то были такие... >Осуждаю 18-летних и младше. Да мы все тут осуждаем, бро. И скачиваем канни-кум-слоп карточки лишь затем, чтобы направить дитя неразумное на путь истинный. >>983997 >Люди так и живут «дали аванс, хватит на... раздачу долгов... Знаю семейку, которая так живёт. ИЧСХ, не ДС, и суммарный заработок на муж+жена+ребёнок там около сотки. Как выживают люди беднее, я ХЗ. Сам войтишнек со 150кк/нс
>>983993 На каком языке тестировал и в какой области примерно? Знает ли он пихон и релейтед нейронкам области, особенно что-то пусть простое но актуальное и совсем свежее? Как именно тестировал, каждый раз давал новый запрос, или же делал в формате чата? Если второе то насколько долгие они были и как организовывал, подробнее распиши, заодно как он отвечает на запросы что-то отдельное в большом куске переделать. >>983997 > модели уровня GPT-3.5 — это уже Qwen2.5-32b Ты слишком хорошего мнение о старой турбе. Квен 32 ее уделает, наверно, вообще везде.
>Ведёшь ЕРП >Случается winking anus >Начинаешь люто проигрывать со всей хуйни >Ведёшь безумные события, заставляешь нейроперсонажа лечить твоего >Похотливо стонешь и описываешь slick flesh, пока она ковыряется ножом в ране >Нейроперсонаж охуевает, кримсон ред блушес, как положено. >Нейронка проигрывает в ООС, только это почему-то JK
Двенадцать из десяти, господи. Хотелось бы чуть умнее и без рандомных БАКА, но всё ещё охуенно. EVA-Qwen
>>983658 >принципиальной разницы между 12B на родном языке и 7B на иностранном ты не обнаружишь Поправил, не благодари.
>>983907 Вообще есть халявный спейс https://huggingface.co/spaces/arcee-ai/mergekit-gui с какими-то ограничениями по времени. Только там нельзя назначить доп параметры мёржкита, только общий конфиг. Мержится за несколько минут, файлы валяются в репе обниморды, места не жрут. Можно в обниморде же на другом спейсе квантовать, потом скачивать себе только квант. Из минусов - все видят твои позорные мёржи, и они останутся в веках в квантах mradermacher, но кому не похер. Есть 100 гигов под приватные репы.
>>984000 >Ты забыл в стенке текста указать ЯП >>984011 >На каком языке rust, sql Но не думаю, что это сильно важно. Уж кодинг почти везде очень похож. >>984007 >Если ты его с семплингом используешь Всё в "нейтральном положении", температура 0. >146% ты в промпте что-то напердолил Рекомендуемый чатмл, рекомендуемая алибаба You are Qwen, created by Alibaba Cloud. You are a helpful assistant. >Со спекулятивным декодингом А это точно сработает на 8 гб врам? Так же ещё больше уедет на цпу. >>984011 >в какой области примерно По большому счёту перекладывание данных. SQL-запросы, небольшие строковые преобразования. Чуть-чуть простенькой арифметики и приведения типов. >Знает ли он пихон Да языки-то все распространённые знает, наверное. >релейтед нейронкам области Не спрашивал. >делал в формате чата? This. Квен сразу любит кидаться писать код, первым сообщением предупреждал, что сейчас дизайнить будем. Дальше расписывал общую задачу, примерно как я вижу её реализацию, какие либы можно подтянуть, если знаю. Ну и спрашивал его замечания, знает ли он какие-то более подходящие инструменты. Дальше уже переходили непосредственно к коду. Он пишет, я копирую в IDE, компилирую, пишу ему про ошибки и собственные пожелания, он пишет исправленный вариант. >запросы что-то отдельное в большом куске переделать В коде комментарий с TODO оставлял, всё послушно делается. В "обычной переписке" только общую высокоуровневую архитектуру обсуждали, он ей потом более-менее следовал.
>>984068 >Он пишет, я копирую в IDE, компилирую, пишу ему про ошибки и собственные пожелания, он пишет исправленный вариант. Пиздец котёнку. Количество говнокода теперь возрастёт неимоверно - все индусы будут так делать в меру своего разумения, не говоря уже о китайцах. С другой стороны дожили же мы как-то до нынешнего времени, авось и сейчас пронесёт.
>>984000 > Da. Нет, они слишком специфичны >>984068 > не думаю, что это сильно важно. Уж кодинг почти везде очень похож. Совсем нет. > перекладывание данных. SQL-запросы, небольшие строковые преобразования. Чуть-чуть простенькой арифметики и приведения типов. Звучит слишком просто, если это не особо специфическая херня. Насколько накапливал там контекста и длину сообщений? Если увлекаться то любая сетка дико деградирует, для норм результатов нужно регулярно очищать историю от старого кода и запросов, но так чтобы оно все было согласованно а не изнеоткуда.
>>984189 >Да там руками написать все можно было не по разу если ты не систему уровня предприятия делаешь, зачем ллм? Руками влом, даже если задача простая. Тем более, если простая. (Другой анон)
Теслы-3090-3070-3060-кун на связи. Купил плату расширения 4х4. Материнка поддерживает только формат х8-х4-х4 и, увы, чуда не случилось - второй разъем не работает (удивительно, что вообще хоть что-то работает). Подключил карты через копеечные переходники m.2->usb(райзер x1), ибо чет я не готов был покупать райзеры m.2->x16, они стоят охуевше (коротенькие по 1к, и к ним надо будет обычный х16 райзер еще докупать, лол, а 80 см по 5-7к. Т.е. вывали ~15к за провода, заебись. В комплекте только SATA, но порт на плате не SATA, т.е. в теории можно молекс сунуть. Есть еще на х4, что анон тут покупал, он 2к стоит, но он с SATA портом, а мои 3090 60Вт из разъема тянут при полной нагрузке. Можно для 3090 попробовать взять первый вариант, а для тесел подойдет и это. Или ебаться с андервольтингом. В общем, ключевое слово тут - ебаться). Т.е. в итоге мой конфиг для опытов: две теслы и одна 3090: процессорные х1, еще одна 3090 - чипсетные х4, 123B 5 квант, 4к контекста. И чет я в печали. Обработка контекста в ровсплите по-прежнему ахтунг - 11 т\с. Зато генерация, блять, 4.5! Лучше, чем было с 3070 в сетапе (без ровсплита). Ну это пиздец какой-то, почему так нахуй. Неужели для обсчета контекста при ровсплите х1 не канает ни в каком формате вообще? Без ровсплита контекст считается хорошо (уж простите, забыл сколько, но нормально), зато генерация 3.9-3.7. В общем, хз. То ли забить хуй, то ли ебаться с х4 райзерами. При этом я по итогу хочу не 4 карты, а 6. То есть две будут сидеть на чипсетных х1 в любом случае. И хз, будет ли какой-то прирост в каком-нибудь из режимов...
>>984199 > ровсплите Дыс. Выкидывай. Оно работает не так, как обещает. По-крайней мере на солянке карт. У меня с роусплитом на 4090+3090 медленнее чем на одной 3090.
>>984189 О том и речь какбы, или сразу, или спрашиваешь - получаешь готовый ответ. >>984199 > Обработка контекста > 11 т\с Ахуеть, столько должна быть генерация. Слишком сумбурно и странно описан конфиг, если у тебя есть пара портов побыстрее - попробуй запустить на видюхах что стоят только на них, а потом повтори то же самое чтобы было 2 порта х1. Вот так должно быть показательно.
>>983993 > Хотя бы 48 ГБ врам. Я литералли бумер с мема «2 x P40 goes brrr». Доволен.
> в моём случае это 7b Сливался Qwen2.5.1-7b-coder, говорят — он хорош. Но не 32б, конечно.
> попросить "сделай заебись" Я рискнул и код получился на удивление лучше, чем я ожидал. Рискни и… 1 т/с? Не стоит, ок. Но это работает на 60% условно.
> я недостаточно верю в неё, памятуя опыт со старыми моделями, которые полностью за руку вести надо было Именно так. Те же чувства.
> Дать бы ей непосредственный доступ РАГ, мультиагенты, функшн коллинг, добро пожаловать во взрослый мир! … Расскажешь че там, мне лень выходить. х)
>>984008 > На форче она не сидела заодно? А то были такие... Честно — хз. Вряд ли, но не исключаю. Я тогда на бордах не сидел. х)
> Как выживают люди беднее О! Ну смотри: берешь кредиты @ берешь кредитки @ еда с доставки, куча вещей, жрем-пьем @ банкротимся @ материмся и работаем
Че дальше пока хз, наблюдаю.
>>984011 > Ты слишком хорошего мнение о старой турбе Во-первых, я сравнивал не с турбой, а с 175B. Во-вторых, сравнивал наверочку, чтобы вот прям 100% лучше. 14b он там типа на уровне где-то, но не везде… Где-то обходит, где-то уступает… Короче, не overpowered.
>>984068 > Уж кодинг почти везде очень похож. Я достаю свой 1С-Битрикс… )
Мику на нем умела, кстати.
>>984079 > Количество говнокода теперь > теперь ТЕПЕРЬ??? ))) ДА УЖ С ГОД КАК Вопрос, когда люди начнут этим активно пользоваться, или когда это будет сильно заметно. Возможно второе не наступит.
>>984199 > контекста при ровсплите х1 яжеговорил х4 для какой-то стабильности в жизни. х8 для хорошо. Золотая середина, истина где-то между!.. Но ты все еще крутышка с таким сетапом. Я потихоньку собираю свои 5-слотовые. Нашел продавца двух бп 1,8 кВт. Потом P104-100 буду докупать потихоньку. Нахуя? ОЙВСЕ По рофлу.
>>984258 >Я литералли бумер с мема «2 x P40 goes brrr». Доволен. Да. Одна тесла - вообще отлично, две - хорошо. Тем более что для двух карт в Жоре параллелизм таки допилили и скорость обработки контекста удваивается.
>>984258 > не с турбой, а с 175B > модели уровня GPT-3.5 В семействе 3.5 только турба и какая-то не нужная всратень для писательства были. А древняя большая тройка - тупица хуже турбы.
>>984326 За 65к у перепуков из под майнера и без гарантии можешь купить. А тут целых 6 месяцев обещают. И конкретно этот палит довольно неплох, несмотря на мелкий охлад.
>>984320 Ну эт совсем днище и еще с таким оверпрайсом, рядом со всратым гнилобитом и днищемсиной. От палитов гей_мрок ахуенный вполне, кстати он у того продавана тоже есть и внезапно стоит столько же. Вообще посмотрел бы насколько реальна эта заявленная гарантия. >>984334 > одной теслы зачастую хватает везде 30б или меньше ллм пускать без контекста, больше ни на что не годна.
>>984344 >30б или меньше ллм пускать без контекста, больше ни на что не годна. Вполне с контекстом. Скорость его обработки конечно не та, что у 3090, но не раздражает. И да, одна 3090 годна примерно на то же, ну ещё SD и Flux потянет. Вот в плане построения рига конечно дело другое.
>>983928 >Это байт на скрины чатов с канничками на гемме? Да. >>983824 >А ты хочешь меньше 18? Возраст согласия в России 16. >>983815 Всё так, я кайфую. Люблю её.
>>983997 >>983824 Кстати, я думаю тут речь скорей не про ум, а про кругозор. У молодых он на нуле. Т.е. если поговорить - то только о их хуйне, которую они впитали за последние 5 лет максимум, что печально. При общении с кем-то очень важен кругозор.
>>984451 >della и della_linear там не поддерживаются Не проверял, но полно таких в комьюнити, вот рэндомный с первой страницы моделей. https://huggingface.co/mergekit-community/mergekit-della_linear-uogzotg В этом комьюнити валяются мержи, которые анонимно делали. Полагаю, просто ридми мержкита не обновили, но сама версия свежая.
>>984171 >Звучит слишком просто Как раз задача уровня нейронок. Для простеньких утилит для автоматизации рутины и облегчения жизни ллм - самое то. >Насколько накапливал Около 16к, сообщения по разному. Пока обсуждали дизайн, были короткие, 100-200 токенов. Потом стали писать код, начали с 1.5-2к, доползли до 3к. >Если увлекаться то любая сетка дико деградирует В рамках одного чата почти всё сделали. Как я писал выше, 3 ошибки осталось, я уже сам доделал. До этого давал возможность сетке абсолютно все делать. Если бы вмешивался, конечно, справился бы быстрее. >>984189 >руками написать все можно было не по разу Так я же не писал, большую часть времени писала сетка, пока я чиллил. Были бы 2 теслы, на генерацию ушло бы 15 минут, я дольше промптил и ревьювил суммарно. Моего личного участия там на час где-то. Сколько бы сам с нуля делал, не знаю, в sql я плаваю (скрее всего просто в лоб достал бы все данные из бд и крутил бы их в расте, а квен сделал, на мой нубский взгляд, довольно интересные запросы, выполняющие большую часть работы). В знакомой теме может и справился бы за час, а может и нет. Скорее не взялся бы вообще, конкретно эту идею я вынашивал уже пару лет. >>984258 >Qwen2.5.1-7b-coder, говорят — он хорош Учитывая опыт в других задачах, 7б - это насрать токенами "близко к теме", без особого понимания. Для автокомплита сгодится, что-то типа по-быстрому накатать тело функции, ориентируясь по сигнатуре. Для дизайна и полного написания кода с нуля, как мне сделал 32b - сомневаюсь.
>>984467 >Для дизайна и полного написания кода с нуля, как мне сделал 32b - сомневаюсь. Могёт, только нужно давать простые задачи и повторять раз за разом. Если ты хоть немного в теме и объясняешь понятно - сетка сможет постепенно написать приложение которое тебе нужно. Ну или точнее скрипт. Но конечно лучше использовать 14 -32b, они способны понимать и писать более сложные вещи
>>984455 >ридми не обновили да, делла работает, и удобно что что спейс сразу создаёт репу с ридми и параметрами использованными для генерации, так что не забудешь где что ставил и как (не) надо делать.
>>984467 > вен сделал, на мой нубский взгляд, довольно интересные запросы, выполняющие большую часть работы >довольно интересные запросы Кинь, хочется посмотреть, как делать не надо, уже жеппой чувствую, что убил бы, увидев на проде такие.
>интересные Обычно хорошо работающее решение понятное и простое. Когда начинается "хитрое", то жди беды
>>984551 >Я-то думал Ну так я же сказал, "на мой нубский взгляд". >1 - эта выглядит чесание уха ногой Зато интересно. Есть таблица с логами успехов/фейлов для каждой записи в main_table, надо отфильтровать из main только записи с процентом успеха выше заданного порога. Может и можно было проще, но если бы писал я, я бы уже в расте для каждой avg вручную считал бы. >2 Ближе к концу заставил её добавить сокращения, она их так дописала, вместо того, чтобы унифицировать входные параметры ф-ции. А до рефакторинга уже не дошло дело. Поначалу я её ругал за такое и заставлял переделывать (как и безымянные константы типа 0, 1 и 2 чуть выше), а под конец уже подзаебался с ожиданием, дофиксил оставшееся сам, оно собралось, прошло тесты и осталось в таком виде. Тесты, кстати, тоже квен писал, там даже ничего переделывать не пришлось, только добавил ещё эдж-кейсов, где был риск обосраться.
>>984199 >Купил плату расширения 4х4. Шоэта? Покажи. >>984320 Я у них брал примерно в эту цену, ХЗ, пока работает. >>984441 >Возраст согласия Да похуй, за яшканье с 18- всё равно обоссут. >>984442 Во, точно. Спасибо, что выразил мою мысль лучше меня а то я сам тупой. >>984547 Ух бля, огонь, со времён битрикса такой хуйни не видел.
>>984633 >такой хуйни Мне сначала показалось интересным, погуглил. В инторнетах пишут, что common practice. Я отнёсся с пониманием. Со своим уставом в чужой монастырь не ходят.
>>984633 >>984653 Забыл упомянуть, сам до этого сталкивался с mov eax,eax; xor eax,eax и прочим подобным, так что морально я подготовлен ко всяким интересным конструкциям в коде.
>>984653 >В инторнетах пишут, что common practice. Для построителей запросов, которые не могул блядь склеить пару строк правильно. >>984667 С мувом другая история, оно экономит 2 байтика, и когда-то на это дрочили. Сейчас же одна иконка весит больше, чем вся экономия от подобной хуйни в экзешнике на сотню мегабайт, но всем похуй, так заведено.
>>984672 >экономит >>984685 Это для выравнивания, своеобразный аналог nop. >так заведено Обычно на то есть объективные причины. Поэтому, пока нуб, лучше особо не лезть со своими гениальными фиксами.
>>984674 Особой разницы нет, но качество 8 кванта выше. Если есть вещь которую поймет 8 квант, то совершенно не факт что это же в том же запросе поймет 6 квант. Но эта разница заметнее когда сравниваешь 8 и 4 квант, конечно. 6 и 8 квант ГЕНЕРИРУЮТ почти не отличающийся текст, это проверяется тестом перплексити, разница там мала.
Но отличие так же в том как они ЧИТАЮТ тот промпт который ты им суешь. А от того как они читают зависит понимание сеткой смысла твоего сообщения. И собственно "умность" ответа от нее.
Любую задачу на логику, думанье, понимание сложных абстракций лучше давать жирному кванту. С другой стороны извлечение данных из сетки на всякие тупые вопросики на эрудицию или что то существующие в датасете, работает и на 4 кванте, падая незначительно.
Sup тредик. С наступающим вас. Желаю вам Врама побольше, да побыстрее.
На связи ньюфаг, что неделю назад вкатился. Будь проклят тот день, когда я решил в это вкатиться. Потыкал уже множество моделей. Посмотрел как на Q4 гема теряет вообще какую либо адекватность, наслаждался кумом, тыкал практически все модельки что обсуждаете. Очень остался доволен некомиксом, он хотя бы не теряет нить повествования, хотя контекст - ну такое. И хочу большего, но понимаю что 16гб Vram даже дял 22b мало. Я не хотел покупать видеокарты, они мне были не нужны, а сейчас неиронично задумываюсь об этом. Ведь что меня может ждать на 70ке, какие просторы откроются там.
ПАМАГИТЕ, МЕНЯ ЗАТЯГИВАЕТ, Я НЕ МОГУ ВЫБРАТЬСЯ, Я ТОНУ В Княгиня говорила без умолку. Короткая верхняя губка с усиками то и дело на мгновение слетала вниз, притрагивалась, где нужно было, к румяной нижней губке, и вновь открывалась блестевшая зубами и глазами улыбка.
>>984819 >ПАМАГИТЕ На самом деле ничего принципально нового. Более старшие модели могут "держать в памяти" больше деталей и оперировать более сложными абстракциями и системами. Если ты готов помогать модели в рп то тебе хватит и 12-32B.
За более старшие модели берутся зная что и зачем они делают. Непосредственно в треде пока не было предоставлено ни одного сравнительного доказательства что для общения старшие модели будут принципиально лучше в ролеплэе, особенно на русском.
>>984388 > 3090 годна примерно Она годна на что угодно кроме извращений с тяжелыми ллм. Буквально билет в мир ии и нейросетей, а не обреченность небыстро катать ллм на жоре. >>984467 > Как раз задача уровня нейронок. С таким и древность должна справиться, а современная доложна еще и объяснить что да как, даже 7б. > Около 16к, сообщения по разному. Пока обсуждали дизайн, были короткие, 100-200 токенов. Потом стали писать код, начали с 1.5-2к, доползли до 3к. Значит оно вполне прилично воспринимает вот такую мешанину. Но скорее всего, если запрунить то всеравно станет лучше. > 7б - это насрать токенами "близко к теме" Драфтовой моделью, для кода это должно быть весьма эффективно.
>>984819 >Ведь что меня может ждать на 70ке, какие просторы откроются там. После 70-ки ты будешь мечтать о 123, поверь моим словам как владельца 2х3090.
>>984669 Шизиков типа >>984674 не слушай, они в слепом тесте даже q3ks от 16бит не определят с точностью выше 50%. Если квантуется нормально то там отклонения на уровне рандома семплинга и главные отличия в маловероятных токенах просто будут срезаны отсекающими. 4 бита или ниже может действительно начаться деменция, но ~4.5+ юзабельны. Разумеется, знать что у тебя "более точный квант" может быть приятно, но если ценой этому будет заметный дроп скорости или контекста - нахуй. >>984880 > После 70-ки ты будешь мечтать о 123 Да не то чтобы, большие мистрали не перформят настолько круто. Разве что нельзя не отметить огромный "запас прочности" для всяких васян-тренировок, лор и прочего, его тяжело испортить и он остается хорошим и крутым.
>>984895 >Да не то чтобы, большие мистрали не перформят настолько круто. Ну да, разница не такая сильная, как при переходе с 10 до 30 или с 30 до 70. Но она есть, и человек существо жадное, ему всегда мало. >>984903 4080 не понятно зачем, 4090 почему бы и нет, если есть деньги. Но проще 3х3090, если чисто под нейронки, или 4090+2х3090, если иногда хочется поиграть.
>>984195 На ванильном куме уступает тому же старому командеру, но когда начинается ёбаная дичь - эта модель вывозит хорошо. Хотя до дичи даркфореста ещё ни одна модель не доходила, там меня один раз тупо уебали вазой по голове на ровном месте и бросили труп в квартире догнивать с чувством либейшона ну и ты понял.
>>984819 >что меня может ждать на 70ке Неиронично откатился с семидесяток до диапазона 32b. Тюнов мало, какого-то заметного улучшения по мозгам нет нихуя. Более мелкие модели чаще тюнят, больше разнообразие по стилям, по поведению, даже по мозгам. >16гб Vram даже дял 22b мало. Дрочил 22b на 12 гигах, лол. EXL2, немного оффлоада в рам и нормально.
>>984917 Ну что преувеличивать то? Ну подумаешь, ну 0,7 токенов в секунду, ну 10 минут на ответ, но зато какой! Каждый токен как золото, любо-дорого читать.
>>984819 > Ведь что меня может ждать на 70ке, какие просторы откроются там. Арендуй виртуалку в облаке, да позапускай там 70-123B, дабы знать, на что кровные сливать собрался. Цена вопроса - 1-2к.
>>984907 >4080 не понятно зачем Потому что одна есть, а делать спарку лучше всего из равнозначных видеокарт. >3х3090 Ту-ту-ту... Это же отдельный блок пож это дело собирать. Надо хоть посмотреть что на рынке матерей нынче есть под это.
>>984913 Ну и что ты там такого получаешь, чтобы оно стоило того? Я ещё ни одного мистраля не встречал, чтобы каждый токен не был жидкой дриснёй, которая не стоит байтов в врам, не то, чтобы ждать.
>>984925 >а делать спарку лучше всего из равнозначных видеокарт. Похуй вообще, если есть 4080, то любая карта от ампера и новее подойдёт. >>984938 Трудно объяснить. Просто само отсутствие проёбов по логике радует.
>>984939 Искусственная фантазия, клево да? Можно моделировать любые роли/миры/ситуации. Обычные конечно точнее получаются, но и фантастика неплохо идет если не завышать ожиданий.
>>984669 Жрать хлеб с полки или жрать корки из помойки, и стоит ли предпочитать первый второму?
Заранее спвасибо.
>>984547 Попробуй кодить кстати хотя бы на жирном командере или мистрале 123. Я после них потыкал ДипСик, он прямо дно дна. Я тыкал правда питона, не sql.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичка с уклоном в русский РП: https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.xyz/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: