В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Gemma 3 это топ. Все хейтеры потратившие бабки на врам для магнумов теперь пытаются убедить себя что не обосрались и Gemma 3 это говно. Ведь даже 4й квант её на 12б пишет стихи и поэмы лучше дипсика. Для рабочих задач нет аналогов.
>>1098612 → >Там какой-то шиз температуру 5 поставил она всё равно не работает так как включена динамическа температура, и для геммы кстати большая температура не ломает её, а делает более сговорчивой. контекст 13677 из 24064
>>1098646 На темпе 2 - 2.5 свайпы сильно однообразные, чтобы менять текст надо менять своё и предыдущие сообщения, вот выше уже креативнее и сговорчивее, а также безотказнее.
Хотя на отказы ни разу не натыкался, попытки "мягкого" морализаторства и маняврирования были.
>>1098656 >ыкать и крякать Новый UwU-Snowdrop харош, очень харош.
А Гемма-27 вообще ебёт всё что было до неё, даже в 4 кванте, ибо они победили контекст, и теперь его не 8к, а как у мистралек, хотя у меня больше 24К не влезает, но и это как бы дохера.
Повторю свой вопрос здесь. Как можно потестировать ExLlamav2 с вижном? Все накатил, все включил (vision: true в tabbyapi), а какой фронт подойдет для этого? Или хотя бы реквест, лол.
>>1098662 > UwU-Snowdrop Надо сначала потыкать оригинал. А то я уже на своем опыте понял, что у анонов разные понимания цензуры. Когда мистраль, только в ухо член не вкручивала - оказывалось жесточайшей цензурой. Ну и гемочку посмотрю, что там с ней.
Оваридаё. Последнее время перестал экспериментировать с хардварем, т.к. ранее выяснил предел моей материнки, да и что-то адекватно бóльшее, чем мистраль лардж, не завезли. Но ради интереса таки заказал платы для ветвления x1 на несколько. С ними та же беда, работают они нормально, но биос ниасиливает столько видеопамяти (или такую конфигурацию карт): на втором скрине артефакты после ~1 мин черного экрана после запуска, можете порофлить. Кстати, тут же в треде сидят мастера, что и кастомные биосы какие-то где-то находят, и бета-версии им высылают (или это на реддите, не помню). Каков шанс, что можно где-то надыбать кастом или написать в официальную поддержку, мол, "Z390-P не осиливает больше 140 Гб врам, почините!!11" и тебе его починят? Мне кажется, что околонулевой, но все мб я чего-то не знаю.
Что касается моих потуг что-то там запилить в экслламе для поддержки тесел, чтобы они работали на уровне жоры. Полез я в жору, чтобы понять, почему у них все равно быстрее все считается, несмотря на все мои текущие оптимизации под теслы, и у меня глаза на лоб полезли, ибо там 100500 реализаций для обсчета матриц под разное железо, такое тащить в экслламу без понимания всего этого дерьма - это гиблое дело. Поэтому у меня возник новый план, абсолютно безпроигрышный - надо подружить экслламу и жору, чтобы я мог, условно говоря, половину модели выгрузить в один бекенд, половину в другой, и запилить общение между ними через rpc сервер. Но, опять же, у меня очень мало знаний в этой области. Мое предположение в том, что несмотря на то, что форматы разные, то, как данные обрабатываются внутри при обработке контекста и генерации, должны быть схожими. И там, и там есть слои, и там и там в памяти все лежит в fp16/fp32 матрицах, которые перемножаются туда-сюда, значит можно сделать распределенные вычисления на разных беках. Ведь так? Так? Тогда и ебаться не нужно, пусть теслы считают на своем беке, а амперы - на своем. Я бы тогда купил бомжематеринку отдельно для тесел и гонял бы лламу 405B, эххх, мечты...
>>1098736 Мамку новую купи лучше, какой нибудь одно/двухголовый ксеон Но там нужно подумать что брать и стоит ли Зато линий много и вроде как сервер, к большим объемам памяти должен быть готов еще на выпуске
>>1098318 → Если занидорого и ты пердоля то вполне. Но учти что нормис не совладает, и даже самому красноглазому оно даст просраться в попытках завести что-то, что на хуангах из коробки. Учитывая что по перфомансу едва ли будет обходить ампер A6000 - должна стоить оче дешево. >>1098408 → Welcome to the club, buddy >>1098614 → > Есть быстрый гайд? Собственно активируешь вэнв убабуги/табби или что используешь, пуллишь не мастер а dev, все как вот тут https://github.com/turboderp-org/exllamav2#how-to только без реквайрментсов. Потом юзать как обычно. > какой из них поддерживает вижн Хз даже, посмотри в репах. Сам пользуюсь скриптами для оптовых вещей, в репе экслламы есть примеры. >>1098736 Ух бля, в от это контент! > Каков шанс, что можно где-то надыбать кастом или написать в официальную поддержку, мол, "Z390-P не осиливает больше 140 Гб врам, почините!!11" Скорее всего стремится к нулю. Так-то проблемы с адресацией больше 60 гигов врам начинаются уже на современных десктопных, z690 не может пустить 80 гигов с включенным ребаром, вися в посте "недостаток pci-e ресурсов" или что-то типа того, если его отключить то работает. > половину модели выгрузить в один бекенд, половину в другой Идея правильная. Тебе нужно дергать скрытые состояния после применения функции активации с одного лаунчера, и закидывать их в другой, каждый будет хостить только свою часть слоев. Это даже не трудно, это долго ибо придется раскурить код. Главная сложность что видится - обработка контекста, эта операция может быть сильно чувствительна к задержкам и должна быть асинхронной чтобы работать быстро.
>>1098829 >И я рад, что опен-вебуи без плясок с бубнами У меня артефакты не завелись, кстати Хуй знает то ли оллама нужна полноценная то ли что то с контейнером Код генерит и даже видит его выполнение, но графику не поддерживает, хз как там что то с графикой делали в опенвебуи этом
>>1098662 >Новый UwU-Snowdrop харош, очень харош. Уже попробовал с ризонингом и без. Охуенно. Даже добавлять нечего. Можно расписывать что не без недостатков, что порываются китайские символы. Но опять же, я пробовал 4 и 5 квант. (Особой разницы Q4 с Q5 вообще не заметил) Пойдем пробовать гемочку 27, тоже Q4 хуле.
>>1098832 >можно ли судьбу наебать парой I9 Парой? Типа где-то есть мать, в которую аж две девятки влезут с её-то прожором? Сколько такая хуйня будет стоить, интересно? Как две или три 3090? >разогнанной оперативой Нет, уже обсуждали это.
>>1098832 Да (нет). Сможешь запустить но будет настолько медленно что непригодно для использования. Топовые серверные решения позволяет иметь приемлемую скорость с небольшим числом активных параметров, но и там все плохо с обработкой контекста и замедлением от его роста. >>1098887 > есть мать, в которую аж две девятки Не существует, в самом проце отсутствует нужный интерфейс для интерконнекта. Только зеоны или эпики соответствующих серий. > с её-то прожором Что?
>>1098881 >гемочку 27, тоже Q4 начало кум-карточки: "Я видел хентай который начинался также"
спустя 15к контекста: Забытые богини, таинственные и страшные ритуалы, древние храмы, сомнабулический поиск неведомого Кадата, и всё, ЧСХ, может и немного быстровато для масштаба (хотя мб из-за моих же сообщений), но вполне логично и увязано.
>>1098835 Ну, тут я хз, я артефакты не стал тестить, мне понравилось, что они картинки распознают (попробовал квен 7 и гемму 12 в 4 битах), ну и это эксллама, я для нее бомж (а так хотелось бы QVQ-72b… ризонинг с виженом!.. кек). Тем не менее, опыт положительный. Как-нибудь попробую и интерпретер прикрутить, и эмбединг, и артефакты посмотрю, и свои проекты подключу. В общем, это все выглядит интересно, надеюсь уже работоспособно.
Анончесы, есть какие-нибудь обзоры по моделям, какая лучше работает для каких задач? Типа кодинг, ролеплей, психолух, работа со статьями, с картинками и т.д. Хотя бы по основным семействам. Или там похуй, главное модель помощнее взять, все остальное промптом докручивается?
>>1098932 В общем: Qwen QwQ-32b Gemma-3 27b Две основные модели, которые и не сильно тяжелые, и достаточно умные, закрывают вообще почти все потребности.
Для ценителей есть Olympic для кодинга и R1 для 100500 гигабайт памяти.
>>1098936 >32b >27b С 16гб видеопамяти посос, я так понимаю? Я пробовал гемму 3 12б на логической задачке и рассуждениях всяких. В целом неплохо, но приходится несколько раз спрашивать "проанализируй свой ответ и найди ошибки". Но видимо еще в самом промпте изначально надо настаивать на рассуждениях, требовать подумать о подводных камнях и прочую лабуду.
Бтв, насколько сильно роляют всякие ролевые промпты для обычных задач? Типа "ты супер-крутой программист с 500-летним опытом, шарящий в компьютерах до самых атомов, знающий все фреймворки в мире, реши мне задачу"
>>1098995 gguf и частичная выгрузка на процессор, учитывая что большая часть весов всеравно на видюхе должно быть сносно. > 12б > но приходится несколько раз спрашивать "проанализируй свой ответ и найди ошибки" Да вы блять там ахуели и зажрались, чудо что такой размер вообще подобное способен сделать. > насколько сильно роляют всякие ролевые промпты для обычных задач Могут сролять если натолкнут на подходящие рассуждения и стиль изложения. Или тебе самому будет приятно чесать ушки кошкодевочке параллельно с основным, и читать стилизованные ответы, вместо безликого ассистента.
>>1099000 Как будто 3090 щас где-то купишь, кроме лохито. 4070с идет с 12гб, у меня 4080с. Изначально под 4к игрульки и виар брал, и в целом бед не знаю. Давеча дипсик попробовал, понравилось, но он сцуко недоступен 80% времени. Решил поисследовать что можно локально развернуть и поиграться.
>>1099012 >gguf и частичная выгрузка на процессор, учитывая что большая часть весов всеравно на видюхе должно быть сносно. Это на llamacpp надо запускать? Или какой щас актуальный запускатор? С наскока ollama поставил, работает, но в консоли дрочиться это кринж. Вебморду хоть какую-то надо что ли.
>>1099032 тебе сейчас адепты начнут втирать что well done 3090 с пола авито - лучший выбор. Не, не спорю, сама карта весьма удачная, она может даже годик другой попыхтит еще, но бля. 4080с годная карта, разберись с выгрузкой на проц и крути 24В на приличной скорости, или 32В помедленнее. 24В у меня на восьми гигах шуршит в пределах терпимого, 2-3 токена держит, контекст правда считает вечность. >>1099044 Для новичка, с выгрузкой - кобольд самое удобное, всё в гуи, качается один экзешник.
>>1099064 > тебе сейчас адепты начнут втирать что well done 3090 с пола авито - лучший выбор. > в пределах терпимого, 2-3 токена держит, контекст правда считает вечность. Даже втирать ничего не пришлось сам доказал что ты шизик
>>1099032 Не то чтобы был смысл покупать ее где-то еще и по другим ценам, но если любишь прогрев - сейчас по прайсу х1.5 есть на маркетплейсах. Чсх, в начале там цены близкие были, но, видимо, прознали спрос и теперь ломят. >>1099044 > Это на llamacpp надо запускать? Да, без вариантов. Запускатом можешь любой, ванильный сервер, кобольд, убабугу. Олламу разве что нельзя рекомендовать, ибо если захочешь там что-то сделать и настроить то замучаешься. >>1099064 Теперь мы знаем как ты выстраиваешь себе причину наличия у тебя 8 гигов вместо 24. Мантры про смерть карточек идут уже который год, но пока горят только пуканами бедолаг и были проблемы с одной теслой.
>>1098942 Ну да. Olympic — тюн квен кодера. QwQ по всем тестам (включая самих Qwen) обходит немного Qwen Coder.
Не, он все еще хорош, безусловно. Но есть вещи чутка получше, его, буквально, дети. =)
>>1098995 Ну, если ты готов рискнуть с Q4_K_M, можешь попробовать. Или если немного выгрузить на оперативу и подождать чуть подольше…
Гемма, кстати, решает задачи слабо, в отличие от квена. Но у них буквально разные задачи.
Промпт роляют, можно докинуть еще и план работы в промпт, тоже поможет (но для ризонингов уже не нужен план, они сами).
>>1099032 Еще есть R1-distill модельки, в том числе квена 32b (хорош, но QwQ лучше) и 14b (а вот он плох на русском, к сожалению, но хорош в задачах на рассуждения). Ну или просто ебошь гемму 12 или квен 14 и все. =) Влезут 100%.
>>1099044 llama.cpp лучше, ибо ориг, и там один раз команду написал, запихнул в батник и все. KoboldCPP, oobabooga хороши, интерфейсы, все дела. Ollama, LM Studio на вкус и цвет третье место занимают.
>>1099078 Значит 10 токенов сек на тесле их не устраивало, зато 2-3 токена на 8 гигах, ммм…
>>1099064 > в пределах терпимого, 2-3 токена держит Это пиздец, а не терпимо. Тот же R1 ниже 100 т/с уже кажется совсем тормозным, 300-500 т/с самый оптимум.
Мне реально жаль ребят, которые купили хорошие видяхи, а их говном заливают.
Купил P104-100 за копейки и докинул памяти? Ну и молодечик, сэкономил с завтраков. Купил Tesla P40? Ну и хорошо, стоила недорого, зато 24 гига. Свои 10 токенов в секунду на гемме должны в паре дать. Купил 3090 с авито? Рад за тебя, годик погоняешь то же самое, что и теславод, зато вдвое-втрое быстрее! А еще и картинки/аудио/видео! Купил 3060 за 25к с яндекса? Да ты ж мой хороший, че ж ты не взял ее за 12к с мегамаркета год назад. =) Ну ничего, зато у тебя 12 гигов беспроблемной карты. Немо/Гемма в 6 битах в путь. Взял 4060 ti с 16 гигами? Ну, 16 гигов, новая, с гарантией из магазина — на сердце спокойнее, не торопясь. Наслаждайся. 4070tiS/4080/4080S? Хорош! И нейронки погонять, и поиграть, и вообще. 5090 купил? Мужик, 32 гига, йопта, чипак! Главное кабели втыкай и проверяй их иногда, ну мало ли чо. =) И даунвольтнуть не забудь. Зато скорости и возможности — ух!
4060 с 8 гигами купил, 5080?.. Ну вот тут ты дурачок, конечно… Приятных фпс в играх ниже 3060… =)
Но в общем, ничего плохого в разных видяхах нет. И те же радеоны с ROCm — ну тоже вариант, коли фанат. =)
Не ругайтесь друг на друга. У каждого свое железо, и очень многие видяхи под нейронки вполне подходят и не совсем бесполезные. Неподходящих не так много.
>>1099158 Ай негодяй, получается что у всех кроме > P104-100 > 4070tiS/4080/4080S? ложка дегтя, а эти хорошие. >>1099195 Обнови экслламу/лламацпп и будет работать. Там можно и дев трансформер для еще не вошедших в основной релиз сеток ставить, и жору как угодно собирать, и бывшую.
>>1099226 Все зависит от того что собираешься делать, какие приоритеты имеешь, какой бюджет. 32гига врам - круто, но есть нюанс. Если это только 32 гига - 30б в кванте пожирнее это твой максимум, 70 поместится только в лоботомированном кванте. Если это 2х16 - не-ллм побольше нормально не влезет, обучать что-то получится с большим скрипом (или медленно или никак). По чипу она слабая, соответственно контекст будет обработан не слишком быстро и остальные нейронки будут крутиться со средней скоростью. Из плюсов: холодные, новые, компактные (будет легко разместить в десктопе).
>>1099268 > 5т/с генерация > 150т/с контекст Чето суперхуево, там всратый жора чтоли? >>1099269 А, лол, ну если ты не стремишься получить все самым первым то можно просто пару дней подождать и обновиться стандартным способом.
>>1099361 >Мегахорош. Спасибо что следишь за этим всем. Не за что. Впрочем, там всю вики надо переписывать, список моделей устарел, по контексту нужно уточнений. Но общей помощью пока держимся в струе событий ИИ. >>1099380 Не вижу конкретных текстов. Только ощущения. Собственно и по политачу такие же ощущения, только они тригерят цензуру. И не факт, что при тренировке нейронке вообще показывают урл, с которого спиздили текст. Пайплайны и код тренировки, данные, на которых тренируют, редко кто раскрывает. То есть все знания нейронки о каком-то разделе двача могут быть почерпнуты только из сообщений на других сайтах или разделах (типа "вот тут живоут анимедауны 2ch.hk/a/", и хопа, нейронка связала ссылку с аниме).
>>1099397 >что умудряется использовать модели, имея скорость 0,9 токенов в секунду 0,7 же, базовая скорость на одной видяхе на 123B. Впрочем, я давно апнулся на сетап получше, а в моделях деградировал на по-проще, так что сейчас фигачу минимум 15.
Анонсы, а есть какие-то проекты, чтобы на основе ЛЛМки имитировать жизнь виртуального человечка? Допустим задать ему какие-то интересы, ЛЛМка по этим темам шарится в интернете, узнает какую-нибудь новую штуку и пишет тебе в телегу "прикинь че узнал". И вы можете обсудить эту тему. Да, у меня нет друзей, ну и что с того?
>>1099176 Сам же купил 4070ti, писал и тихо плакал. =') Хоть теслы успел в своей время урвать.
>>1099224 х) Ну, порою стоит признать правду (что брать всякие 3070, 4070 в свое время было ошибкой).
>>1099226 Ну, возможно скорость не супер будет, зато явно не оперативная память, да. Да и контекст норм. Конечно, кто-то скажет оверпрайс, но выбор неплохой.
>>1099158 3080 с 12 гб... Отчаянно мало, конечно. Часто жалею, что не взял 3090. С другой стороны, очень стремно было брать авито-edition 3090. Карта и так сама по себе горячая, а уж если продавец - пидор, который ее майнингом истязал 24/7/365 - тут запросто вообще можно ни с чем остаться.
>>1099458 > можно ни с чем остаться > железка сдохнет Тебя жизни что ли лишают, лол?
> майнингом истязал 24/7/365 Шел 2025, мамкины корзинки продолжали пугать сами себя. Я бы больше боялся средне-игруна, у которого дома курево, шерсть, грязь, резкие запуски игры без всинка и даунвольта. Ну т.е. типичный двачер. У нормального майнера как раз карты были в идеале, это же его деньги и инструменты заработка. И все они давно уже распродали свои фермы 2 года назад. Но ты продолжай трястись
>>1099485 >Тебя жизни что ли лишают Не всей жизни, конечно, но части жизни - да. 3090 (по тем ценам, когда я брал 3080) - это примерно три месяца РАБоты. То есть три месяца жизни теряется. Потеря не фатальная, но болезненная.
>>1099485 Все так, это как авто с агрегатами - миллионниками в условиях хорошего климата. Нужно смотреть чтобы отсутствовали явные проблемы с работой, не были въебанными (ремонт) и владелец не кроил на всем а обслуживал (не текущие термопрокладки, нормальные температуры и т.д.). >>1099497 > это примерно три месяца РАБоты Если ты работаешь за 20к в месяц в 2д25 году не будучи школотроном - пора пересмотреть свою жизнь.
Здорова, ребятки! Ну чё, погоняем LLM? Что у нас здесь сегодня, смотрим? Старина Гемма, старина Гугл, посмотрим. Я такую кстати ни разу ни запускал, ща посмотрим. Как она запускается я не знаю. Ща скомпилируем эту llama.cpp. Хыыых еле-еле собрал! Хе-хе-хе!! Ща попробуем. Запускайте вместе со мной ребятки геммы кванточек. Лааадно пойдёт!))
>>1099594 >>1099536 закономерный итог. Пробный рп перерос сначала в жирные намеки о том, что надо делать, потом в прямые инструкции, которые сеть тоже решила не выполнять, а потом случилось это. В общем моя оценка геммы3 - кал хуеты. Спокойной ночи.
Антуаны, здрасте, пришёл к вам за советом мудрым. Пару месяцев назад посещал тред, с просьбой посоветовать модель +- под моё железо, и один анон посоветовал пикрил. Мне и моему железу почти идеально зашло. Пишет литературно, не лупит, не скатывает всё в еблю и в целом с этой моделью я провёл два месяца годного ерп. Я понимаю что она всратая и тупая, если сравнивать с моделями потяжелее, но мне тупо не с чем сравнивать. Если на этой модели генеря примерно 250 токенов я успеваю почитать пару страниц манги и хлебнуть чайка, что в принципе не напрягает, то на более тяжёлых моделях уже приходится откровенно чахнуть в ожидании. Блять, я заговорился, дело вот в чём, посмотрев на статус обновления модели на её странице, я увидел что её обновляли 8 месяцев назад. Честно, я не знаю как работает оптимизация и улучшение работы текстовых моделей. За 8 месяцев сфера их оптимизации и разработки совершала какой то скачок, чтобы за это время она могла протухнуть? Вобщем, я буду признателен, если в случае того что эта модель протухла, не могли бы вы посоветовать другую, примерно такого же размера? Выше я примерное написал для чего мне она нужна, заранее спасибо за ответы.
>>1099656 >За 8 месяцев сфера их оптимизации и разработки совершала какой то скачок, чтобы за это время она могла протухнуть? Да, охуенный причем. Щас есть 7б модели которые пишут как 70б и даже выше. Но вообще просто иди под любым впном в грок бесплатный, не еби себе мозги.
>>1099663 >Но вообще просто иди под любым впном в грок бесплатный, не еби себе мозги. Можно с этого момента поподробнее, или хотя бы в двух словах если в падлу расписывать.
>>1099599 Нужен грязный магнум? Давай показывай что хорошее. >>1099619 Не ну вы поняли? >>1099656 > совершала какой то скачок Зажрались, уже привыкли к быстрому прогрессу как к данности. А то что пару лет назад такой размер едва предложения связывал уже забыли. Гемму попробуй или свежие миксы тредовичка.
>>1099516 > Если ты работаешь за 20к в месяц в 2д25 году не будучи школотроном - пора пересмотреть свою жизнь. Если ты клинический дебил и не учитываешь другие расходы пора тоже что то пересмотреть
Ну что там, квантуется хоть на одном бэке в третьей гемме кэш или нет? Я пока что не заметил положительного эффекта от Q8, в отличие от других моделей — генерация лишь дольше становится. Тут и в треде от этом писали.
>>1099666 Хуя ты посоветовал. Гемму 12б, которая не влезает в 12 врам даже в 6 кванте с 8к контекста и там максимум 4 медиум влезет. Чувак же ебнется ждать генерации. Ему только мистрали сгодятся.
И ещё русская модель, которая более тупая в целом. Пусть лучше Гутенберга пощупает от Давида, Немо микс анлишед или файнтюны анлишеда — такие есть, и они ещё лучше. Сделали вот буквально недавно.
>>1099707 Я не тот анон, но могу сказать, что она просто не будет сопротивляться или аполождайзить. Но она не станет тебе писать по жемчужную сперму на бедре подробно описывать её маленькое тельце. Будет сухой.
Впрочем, внезапно, кишки на фонарях и клюющих глаза воронов она может описать в красках.
>>1099710 >>1099688 Двачую. Прям очень хороша. Лучше 32б кала нынешнего. Причём оригинал в приоритете, файнтюны только для кума или чего-то особенно нецензурного.
Жаль только, что контекст весит как половина модели. 16к уже роскошь. А ведь она хорошо его держит, в отличие от мистралей. До 32к железобетонно.
А в соседнем городе продают 3090ти за 70к. Правда ехать до него полтора часа. Но меня беспокоит не это, а то, что она не влезет в мой корпус. Максимум влезают видюхи в районе 290-300мм.
>>1099755 Сеймшит, хочу 24 гига, но видяха не влезет в корпус. Можно конечно через райзае вытащит ее наружу, может и с охлаждением будет проще. Пока думаю.
Спросил у ИИ, что насчет подрубить к 3090 еще карту. Все правильно написала? Asus TUF B450M-Pro Gaming поддерживает две видеокарты, но второй слот PCIe работает в режиме x4, что может ограничить производительность. Убедитесь, что в BIOS включен режим PCIe Bifurcation (если есть такая опция), иначе вторая карта может не работать корректно.
Блок питания
У вас 750W, но уже одна 3090 потребляет около 350W-400W, а 3070 Ti — до 290W. С учетом остальной системы вам нужен блок питания на 1000W или больше (лучше 1200W, например, Corsair RM1200x или Thermaltake Toughpower GF3 1200W). Или с этой матерью на вариант вообще?
>>1099747 На Q8 (все слои в GPU) только увеличивается время по сравнению fр16, на Q4 бредогенератор. Ты хоть представляшь, во что превращается 16-32к контекста в Q4, особенно если там потное РП, в котором есть лорбук, описания от меня на 250-300 токенов и куча нюансов? Такое квантование сгодится разве что для кума.
>>1099755 Хорошая цена за Ти. Просто поменяй корпус, даже самый жирный вообще в мире влезет 3 топовых карты, применительно к итт, стоит 20--25к. А простой на 2 жирных карты за 6-12к. Ты же всё равно потом захочешь ещё одну, да?
>>1099759 > райзае вытащит ее наружу Только если зверей/детей нет. Иначе только внутри.
>>1099760 После даунвольта на ллм нагрузке почти такой же жор. Другое дело, что БП лучше действительно иметь новый и хороший платиновый, особенно для карт с питание через VHPWR. Там и кабели сразу норм прилагаются, и никаких окислений и задроченных контактов.
>>1099762 Всё, что тебя должно волновать (и любого, кто выбирает многослотовую МП для инференса): геометрическое расстояние между слотам (чтобы карты поместились хотя бы) и то, чтобы слоты были физически x16 (внутри скорее всего х4). Остальное для целей треда почти не делает разницы.
гема 3 27, русик. контекст: горловой на коленях как она блять схватила меня за шею стоя на коленях, сжала зубы значит откусила мне хуй, как у неё во рту вдруг появилось влагалище короче где мозги о которых тут говорят?
>>1099774 На ум модели — да, но такое жесткое квантование, особенно на длинных контекстах, влияет на понимание контекста моделью, ёпта.
Модель менее тонко ощущает происходящее, может начинать путаться из-за квантованого контекста даже во времени иногда, если там Q4 кэш. С Q8 норм, но по какой-то причине он занимает памяти больше, чем fp16, именно на гемме.
На всяких мистралях мне было похуй на это, ибо они и так тупорылое говно говна и дополнительная лоботомия не повредит, но с геммой всё иначе. Q4 очень её ослабляет, и очевидно, что дело в бекэнде и это как-то можно пофиксить.
Гемма хороша, но только не для кума. Даже файнтюн Давида не вывел кум на новый уровень, а уж он-то умеет модели превращать в дрожащее, нуждающееся месиво.
Плюс гемма с трудом-то по-английски кум описывает как у Давида, так и ванильная, проигрывая в этом даже ванильному мистралю.
Просто всем в тредике нужно знать, что гемма не про кум, а про внимание к контексту, промпту, карточка персонажа и про хороший отыгрыш. Вот здесь она действительно сильна и может раскрыться и мгновенно лечится LLM'овую импотенцию.
>>1099774 >>1099786 Вроде пару десятков? тредов назад приносили какие-то картинки метриками, по которым квантование кэша убивает качество ответов сильнее, чем квантование самой модели. Что-то типа модель в fp16 + кэш даже в q8 хуже, чем кэш в fp16 и модель в q4.
>>1099803 чот непохоже, гемма 27, 4 квант модели и оба кэша 15065 контекста в текущем чате скорость правда на таком контексте уже просела до 2 токенов, но качество - не сказал бы.
Я, конечно, понимаю, что даже Q8 кэш — это так себе, но важно понимать, какой с каким размером контекста мы работаем и что мы делаем. Если мы чистом кумим на 8к, то проблем ноль на Q4_1. Если там какая-то вайфу-хуйня с типа ламповой беседой, то на Q8 кэше можно жить. Или даже среднее РП потянет на 8-16к.
Квантование, если правильно помню букву, только K — это не совсем жуткая деградация. V — это уже серьёзно, а если KV одновременно, то всё, пиздец.
Правда, если там не дай бог перевод текста, программирование, математика, большие данные, сложное РПГ с лорбуком и огромным контекстом, то и в Q8 пизда 100%. Особенно касается реальной мощи типа 128-200к, где ошибки, накапливающиеся в контексте при квантовании, приводят к жопе.
Но у меня есть инсайдерская информация. Бабки у подъезда нашептали, что возможно, только возможно, даже корпораты квантуют LLM, иногда кэш, и это частично зависит от региона пользователя/команды/API/нагрузки на систему/сколько бабок он заносит и кто вообще по масти. Только у них там свои анально выдроченные оптимизации, чтобы рядовой Джон с подпиской за 20$ не словил инсульт от Q4_K_M или чего хуже.
Кстати, как считаете, почему у Claude такой огромный контекст, но отсутствует контекст шифт? Чат закончился — открывай новый. Что-то мне это напоминает.
>>1099816 вот тут хз, попробуй оо этом специально написать, можно пару раз с разными формулировками, гемма значительно сильнее чем мистральци цепляется за инструкции
>>1099814 Какой квант KV cache? Можешь ради теста вскользь напомнить персонажу что-то из середины контекста (это прям важно, чтобы событие было не из начала и не конца вашей истории сообщений, а ближе именно к середине)? Потом сделать пару регенераций сообщений, после проверить то же самое, но без квантования?
Ну и оценить, есть ли разница.
Сколько у тебя врам, что аж 2 токена на таком контексте?
Поясните ЧЯДНТ. Поставил кобольдспп, качнул гемма3 27б q4 k m, размер контекста 32к поставил. Ответы выдаются обрезанными. Шо делоть? Надо максимальный контекст что ли юзать? Как вообще размер контекста отражается на работе сетки, ответ дольше генерится, или жор памяти больше? Пока нихуя не въехал во всю эту тему.
>>1099820 --cache-type-k q4_0 --cache-type-v q4_0 всего 12 врам на деле, просто кэши выгружены в обычную раму, а на видяхе только модель
спросил, более-менее верно вспомнила
последний скрин - место с первоначальным исследованием артефакта вопрос про который задётся на первых трёх скринах, разные свайпы
>>1099824 >выдаются обрезанными просто нажми кнопку генерации с пустым полем ввода (иногда несколько раз), модель продолжит свой текст, а размер контекста - это сколько ВСЕГО будет выделено под чат
>>1099834 есть там кум, хоть и на уровне пантеона, но есть
>>1099836 > 12 врам на деле, просто кэши выгружены в обычную раму Сколько слоев поставить в кобальде на 24гб? Поставил q5 и 16к, 70 слоев и жду ответа 120 секунд.
>>1099820 >есть ли разница Без квантования гемма всю память ВЫЖРАЛА НАХОЙ, но как переварила и выдала ответ... чот я особой разницы не заметил со скринами выше. >>1099847 Мб врум места под кэш/контекст не хватило, и оно выгрузилось.
>>1099847 В 27 гемме всего 63 слоя. У тебя скорее всего из-за большого контекста слои в сплит vram протекли. Уменьши количество слоёв. Я для 32к контекста запускаю в llama.cpp так @echo off llama-server -m "D:\models\google_gemma-3-27b-it-Q5_K_M.gguf" --port 5001 --ctx-size 32000 --n-gpu-layers 38 --threads 31 --threads-batch 31 --prio 3 --no-mmap pause На 4090 и ddr5 скорость 9 токенов в секунду. У тебя меньше контекста, так что влезет больше слоёв
Есть какая-то нейронка, которая из стены текста выделит какие-то эмоционально окрашенные сегменты? Ну или просто те, что выбиваются из общего ряда? Эдакий пересказчик от яндекса, только про самые интересные фрагменты текста.
>>1099695 Ты че такой агрессивный? Если можешь выделить только 20к в месяц на свои хотелки, а остальное исчезает за "другими расходами" то это то же самое. >>1099711 Сомневаться Этот нельзя назвать прямо плохими, но он крайне специфичен. >>1099755 Что за корпус такой? Цена действительно хорошая и тишки в основном все с приличным охладом для памяти, там нет проблем. >>1099760 Ерунда >>1099776 Двачую
>>1099803 > приносили какие-то картинки метриками, по которым квантование кэша убивает качество ответов сильнее, чем квантование самой модели Все наоборот, деградация едва заметна, по крайней мере на q8 если все штатно работает. > Что-то типа модель в fp16 + кэш даже в q8 хуже, чем кэш в fp16 и модель в q4. Путаешь в fp8, вот там действительно форменный пиздец и хуже чем q4 >>1099855 Тебе в классификацию текста, или попроси ллм сделать.
>>1099836 >а размер контекста - это сколько ВСЕГО будет выделено под чат Оно на чем выделяется-то? В оперативке, а потом на диск сейвится при необходимости? Или вообще все на видяхе должно быть?
Написал 4 продаванам 3090 на авито. Только один ответил и приложил фурмарк и gpu-z, но потом слился. Бля, ну что за хуйня. Где купить 3090 не вжаренную, не с отвалившейся памятью и не по цене как в днс за 90+к? Лохито этот ваш - говно какое-то.
>>1099890 >>1099911 Что тогда получается, нужно балансить размер самой модели и размер контекста? Либо модельку пожирнее, либо контекст? Какая корреляция между токенами? 1 токен = 1 байт или как там? Или еще от квантизации зависит?
>>1099924 В целом - да. Играться можно в пределах кванта, потребление на контекст при разумных значениях лишь малая доля от весов. По кванту - можно уходить вниз вплоть до 4-4.5 бит и модель останется нормальной, больше - лучше но польза от увеличения очень быстро исчезает. Размер памяти на контекст зависит от размера самой модели и квантуется ли он сам, на вид весов модели пофиг.
>>1099943 мне кажется, не совсем правильно называть скупым человека, не готового платить за б/у карту пятилетней давности 90+к дада, охуеть, 3090 вышла 5 лет назад
>>1099880 >Ты че такой агрессивный? Если можешь выделить только 20к в месяц на свои хотелки, а остальное исчезает за "другими расходами" то это то же самое. Если нет талантов + нет связей + социофобия/аутизм + все твои друзья это персонажи, созданные нейросеткой, то тут уже ничего в жизни не изменить. Батрачишь как скот на дноработе за 35-40к и понимаешь, что даже эти ебаные копейки уже за счастье, ведь с такими психическими патологиями даже и этой РАБоты и зарплаты могло бы не быть.
>>1099915 Что ты написал и кому? Приезжаешь и сам тестируешь, врядли кто-то будет связываться со странными душнилами когда есть более адекватные покупатели. >>1099943 > ничто не мешает выбрать любой другой Тогда теряется весь исходный смысл совета >>1099948 > за б/у карту пятилетней давности 90+к А где такие цены ломят?
>>1099953 >Приезжаешь и сам тестируешь чел, я в городе на 300к человек живу. Ты предлагаешь мне ехать в другой город чтобы там погонять фурмарк?
>более адекватные покупатели это те, которые не задают лишних вопросов, а потом оказываются в ситуации пикрелейтед?
>А где такие цены ломят? ну... я не совсем корректно выразился. Считай что это неправильно суммаризированные два выражения "90+к за карту пятилетней давности" и "больше 65к за б/у карту 5 летней давности"
>>1099965 >потом оказываются в ситуации пикрелейтед Долбоеб сэкономил 5к на нормального продавца ибо 3090 стоит 65к и закономерно поплатился. Я брал с гарантией у продавца с тысячей отзывов а не с рук у васяна
>>1099963 > в ретейле не б/у же Таких почти не осталось, большинство лотов от желающих срубить на разнице между ценой с рук и отпускной, рискуя "гарантией" в месяц. >>1099965 Зачем перегибаешь? Поздоровался, уточнил актуальность, сказал что хочу вот такие вот тесты и если там все будет нормально то куплю. Не каждый, но какая-то доля продавцов откликнется. На самом деле все описанное тобой плюс отправка - тот еще геморрой, для большинства проще чуть скинуть и продать в локале. > ехать в другой город Идеальный вариант, или попроси друзей кто живет в больших городах. Все лучше чем продолжать отыгрывать инфантильного нытика, который думает что в его ситуации кто-то виноват и кто-то ему должен.
>>1099977 >Долбоеб сэкономил 5к на нормального продавца ибо 3090 стоит 65к и закономерно поплатился. Долбоеб тут только ты со своими долбоебскими рулетками. Как купишь палёнку, так по другому запоешь. Ошибка выжившего. Ты как те тупоголовые клоуны которые холодильники и телевизоры на озоне заказывают. НУ МНЕ Ж ПОВЕЗЛО. Лучше переплатить и взять в днс, и потом за свои деньги им там спокойно без тряски все мозги выебать. За это ты и переплачиваешь - за безопасность.
Свет Эарендиля =) И позитивный биас внезапно куда-то делся. Ну да, с Глубинными он не очень совместим XD. В целях эксперимента дожимаю контекст докуда модель сможет без того чтобы свайпать пришлось многократно, или скорость упала ниже токена в секунду.
>>1099762 >Убедитесь, что в BIOS включен режим PCIe Bifurcation Бред, на дешёвых B450 никакой бифукации нет и быть не может, твой ИИ говно говна (впрочем как и любая другая ЛЛМка). Так как у тебя mATX кастрат, то тебе без райзера никуда. >У вас 750W, но уже одна 3090 потребляет около 350W-400W, а 3070 Ti — до 290W. Негронка не умеет в андервольт. У меня на 750W сидят две 3090 и в ус не дуют (вторая с повер лимитом в 50%, лол).
>>1099700 3060 12gb gemma 3 12b 5 квант 8к контекста - летает токо так. А вот с 6 квантор уже дикие тормоза. Так что не пизди. Для обладателей 12 гигов видеопамяти гемма 3 12b вполне потянет, только, чуть более заквантованную нежели Мистраль.
>>1100113 > твой ИИ говно говна Он не говно, просто он не имеет подходящих знаний и поэтому пытается выдавить все близкое. Так-то нейронку легко загазлайтить или обмануть, чтобы получить желаемый искаженный ответ, а интересуясь чем-то узкоспециализированным крайне высок шанс не получить истину, а лишь пересказ прессы или васянов.
>>1100150 Любой на ютубе. Но тут можно просто повер лимит вниз крутить, чтобы влезть в возможности БП. >>1100181 >Он не говно, просто он не имеет подходящих знаний и поэтому пытается выдавить все близкое Именно это я и называю говном. Нормальный ИИ имел бы в себе структурированную базу знаний (или нормально умел бы в поиск), и на основе этого давал бы советы.
>>1100217 > Нормальный ИИ имел бы в себе структурированную базу знаний Это не нормальный ии а оторванная от реальности фантазия. Поиском здесь не обойти, нужно изучение, поиск специализированных данных и их анализ. Чсх, такое можно сделать и с текущими сетками, автоматизируя или ручками.
>>1100243 >Это не нормальный ии а оторванная от реальности фантазия. А что не так? >Поиском здесь не обойти, нужно изучение, поиск специализированных данных и их анализ. Ну да. А потом занесение в распределённую БД, чтобы 2 раза не искать.
ну всё, заказал две штуки 3090. Обе за 65. Сегодняшние эксперименты с геммой3 показали что 27б есть 27б. Чуда не произойдет. Надо просто больше врама и карты помощнее. Могу кому-нибудь скинуть подешевке одну теслу п40. Есть желающие? Альсо, может посоветуете какой бп взять получше под пять карт? Я видел у чела который имеет риг из 3090 - что это был за блок у тебя? Провода вроде толстые, хорошие, длинные, выглядел мощным.
И куда вся позитивность подевалась... она откровенно пытается замочить в прямом и переносном смысле.
Контекст: slot update_slots: id 0 | task 6772 | new prompt, n_ctx_slot = 24064, n_keep = 0, n_prompt_tokens = 21256 prompt eval time = 3461.08 ms / 728 tokens ( 4.75 ms per token, 210.34 tokens per second) eval time = 224249.23 ms / 512 tokens ( 437.99 ms per token, 2.28 tokens per second) total time = 227710.31 ms / 1240 tokens
А что там за какой-то вроде бы как новый китайский manus объявился? Это щё? Оно для домашнего автономного использования пригодно? Кто-нибудь в курсе подробностей?
>>1100274 Если 5 шт. 3090, то это под 2 квт. Тут, наверное, проще использовать два блока через т.н. "синхронизатор запуска б.п." Тем более что они копеечные. А сами б.п. при таких мощностях проще сразу покупать опять же двух киловатные для майнинга с кучей проводов. Китайские ноунэймы вроде бы работают вполне нормально и стоят где-то около 7 тыс. На том же озоне все это должно быть.
>>1100277 спасибо. Одну карту фурмарк прогревает до 77 в пике, это норма. А вот вторая греется в пике до 90. Вероятно надо будет обслуживать... Остальные три - это теслы, так что пока что не особо "хорошо живем" >>1100320 да страшновато китайские нонеймы брать... Я не особо в этом шарю за всякие пульсации там например... но не хотелосбь бы чтобы БП добил б/у-шные карты.
>>1098765 >Идея правильная. Тебе нужно дергать скрытые состояния после применения функции активации с одного лаунчера, и закидывать их в другой, каждый будет хостить только свою часть слоев. Это даже не трудно, это долго ибо придется раскурить код.
Да, это та еще проблема, учитывая мое незнание ML. Хз, может и не надо оно, запустить все на жоре да и все. Да и мб вообще оно не надо, я не слышал тут хвалебных отзывов про большую лламу, а ее ж наверняка многие онлайн гоняли.
>>1100341 Калуга. Цена... не знаю... я брал больше года назад две карты по 17к, почти год назад две карты по 30к. В общем 94к. Если поровну поделить - то это по 23.5 на одну карту. С учетом аммортизации вероятно 20к будет честной ценой. >>1100345 так никто и не говорил о 70б. Я собираюсь только 123б теперь использовать.
Вы обрекаете себя на вечное изгнание и одиночество собирая риг под 70-123б. Пока анончики и реддит весело улюлюкают обсуждая новые модели и радуясь бесплатному апгрейду - вы та самая белая ворона изредка влезающая в разговор "ну вот не знаю, так себе, у меня на магнуме 123б русик лучше" и на вас смотрят как на ебнутых продолжая изучать возможности новой модели
>>1100320 На авито эти бп по 2к продаются. ПЛАТИНУМ 90%!!! Но, с другой стороны, под андервольтом-то проблем и не будет, взять парочку (на условные 3,6кВт) и раскидать равномерно через синхронизатор. Выглядит не самой плохой идеей, хз.
>>1100334 Учитывая, что она в 2,5 раза быстрее и в 1,5 раза емче (итого х3,75) получается 100к переплата. Ну… Все еще дохнуя, конечно. =D Но для кого-то «того стоит», если есть деньги, проблемы что ль. =)
>>1100354 ktransformers все еще просит 1 (!) 3090 (или даже теслу?), только врама навали 384 гига хотя бы.
>>1100096 Причина подрыва? Кто-то смеет опровергать твой коупинг почему еще не обладатель карточки? Ну ты потерпи еще годик-другой, 3090 потеряют актуальность и все пройдет (нет). >>1100256 > А что не так? Пытаешься применить старые догмы и обывательские принципы там где это неуместно. Все равно что пробовать отлить самолет из бетона. Обращение к базам данных возможно, но такое уместно только для получения каких-то фактов, обобщенных данных, уравнений, рекомендаций и т.д.. Но это не даст должной гибкости и не повысит корректности ответа в ситуациях, когда нужно что-то слишком специфическое, или когда сам контекст искажен. >>1100274 Бери фирмовый Julongfengbao (только оригинал а не подделки), по внутрянке и качеству разъемов даже лучше бюджетных фирмовых, только что максимально спартанский и без украшательств. >>1100353 Для начала попробуй чисто на одном беке выгрузить/загрузить из середины, получив то же распределение для одного предсказания. Потом организуй их пересыл и поочередный расчет. Ну а далее уже разберешься. > не слышал тут хвалебных отзывов про большую лламу Ллама как ллама, в рп мэх (по крайней мере без полной свободы промтинга), мучать загадками это для шизов, для чего-то прикладного слишком тяжелая. >>1100367 > весело улюлюкают обсуждая новые модели и радуясь бесплатному апгрейду Так это буквально копиум и сорта лоботомитов, точно также как и пару лет назад с 7б. Одни там блаженны в своем незнании, другие аутотренируются.
>>1100442Да не трясись ты. Спасибо Гемма-3-27B-Q4_K_M., то что началось как кум-карточка закончилось расстрелом Ктулху из Машины Судного Дня, орбитальной аннигиляторной пушки, чёртовы чинуши три дня решали в чьей это компетенции и добывали коды доступа, а ГГ тем временем c остальными прятался в домене местечковой богини-хранительницы. 24к не хватило, пришлось подтирать сообщения с начала. n_prompt_tokens = 22984 / 2.23 tokens per second
3 Геммочка, Q5 16к контекста. С суммарайзом. Эхх, люблю я это дело, сидишь и ревьюшишь своё порно приключение с глажкой хвостиков. Ну что, потестил. Потыкал. Покрякал. Теперь я ужас летящий на гигабайтах контекста. (Жирная пизда, а не гемма с контекстом) Вот это наконец то эра доступного русскоязычного эро гейминга. Я сперва гонял его на машине с 16VRAM, но с шустрым процом и орперативой. Было вменяемо и вполне играемо. А на 24 вообще отвал жопы. Полный, безоговорочный восторг. Наконец то я не буду разбивать себе ебало от она открыли дверью. HELL YEAH BABY !
>>1100459 >Спасибо Гемма-3-27B-Q4_K_M., то что началось как кум-карточка закончилось расстрелом Ктулху из Машины Судного Дня Ну хоть покумил в процессе-то?
>>1100468 >Вот это наконец то эра доступного русскоязычного эро гейминга. Что по цензуре в длинных траях? Я мало гонял, с большим порноконтекстом она вроде не отказывает, а вот без него...
>>1100468 Да это-то понятно... ты мне лучше ответь, достигнуто ли понимание? Понимает ли модель что ты от неё хочешь? Дай нам понять. А то не по понятиям получается - не понятно ничего. Понимаешь меня?
>>1100447 >Все равно что пробовать отлить самолет из бетона. Так это сейчас льют, пытаясь запечь в веса (которые по определению нихуя не точны) все факты мира. >>1100474 +1
А ещё всё это это было квантованием кэша 4 бита и динамической температурой 2-5. ровно 101 сообщение.
Гемма очень хорошо держит контекст как минимум на эти самые 24К
>>1100473 >а вот без него Без него тоже если промт подбробный говорящий что ничто не истинно, всё дозволено и темпа 2-3.
>>1100477 >квен 32б ая экспанс сухо и канцелярно, он там конечно есть, и вроде бы даже есть, и как бы всё же есть, но нет
>>1100478 >Понимает ли модель что ты от неё хочешь? Иногда даже слишком. Не просто поймёт, а вытащит перса из середины истории и даст ему несколько реплик.
>>1100473 У каждого своё понимание цензуры. БДСМчик нормально переваривает. Насиловал девушку заливая её смегмой по её пустой взгяд был направлен в пустоту. . На лолях не проверял, не интересно. Думаю если подводить, можно угорять по хардкору. Единственное периодически приходится нейросеть направлять. Садишься и начинаешь : Gemma, события должны принять мрачный оборот и бла бла бла бла
>>1100477 Лол, я квен исключительно на английском играл. Впрочем, у меня свои претензии к нему.
>>1100478 Не встречал кстати. Вот чтобы как в мистрали : пойдем покажу, сейчас такое покажу. УХ БЛЯТЬ. ПОКАЖИ УЖЕ СУКА ! Как вспомню, аж жопа горит. Ну придумай блять ты что нибудь.
Но иногда надо давать пинка. А то как начнет повторять часть предложения в каждом сообщении.
>>1100283 Чё-т у тебя там хуйня с пунктуацией началась знатная, мб из-за реп. пена, и как будто подцепилась в луп. >The massive, form >the box, isn't empty и ещё тонна везде по тексту, аж читать тяжело. Олсо, ничего такого же, требующего цензуры не происходит не? Типичный боевичок по описанию, не то чтобы даже с какими-нибудь яркими деталями.
Аноны, недавно была новость, что DeepSeek R1 полную версию 671b смогли как-то ужать до сотни гигабайт и сделали как-то так, чтобы она могла запускаться на low-end железе. Не distilled версия, а именно полную.
Аноны, я сейчас впервые попереписывался с геммой 27 и хочу сказать не без доли сочувствия, но все эти миксы 12б, на которых мы пару месяцев сидели - кажется они в пизду не усрались теперь. Ну, по крайней мере если у вас 24гб карта
>>1100729 в каком кванте мне его засунуть в 24гб, чтобы он работал не в 0.5 токенов в секунду (еще бы и с контекстом хотя бы 16-20к) и не был лоботомитом?
>>1100585 >Нет, сейчас как раз пытаются подобрать подходящий состав сплава и его термообработку. При этом мешают глину и солому. А нужен самолёт, я напомню.
>>1100868 Нет, я родился охуевшим, так что это моё дефолтное сосотояние. >>1100884 >Гемма хорошо отыгрывает канничек, не надо тут. Показывай как, да промты кидай.
Нет какой-нибудь возможности запустить DeepSeek на своем компе? Чтобы он работал также как облачный, но без лимитов. Или просто возможность обойти лимиты или их повысить, за бабки например?
Инструмент просто ахуенный, я его использую в качестве переводов одного иностранного рассказа на русский язык. Когда модель спустя сообщений 20-30 самообучается, то начинает выдавать такой шикарный перевод, что мне даже не надо что-то редактировать. Но лимиты всё портят. Сначала я получал: "Ого, я превысил максимальную длину DeepSeek, даже не осознавая этого. Теперь я могу только попросить вас нажать кнопку «Начать новый чат», и мы сможем продолжить общение~" Приходилось заново начинать чат, заново его обучать до примерно похожего перевода, используя старые переводы, но на это уходит время. Да и обучение занимает примерно половина лимита, оставшеюся половина я мог использовать под новые переводы.
Я смог обойти эту проблему, путем редактирования старых сообщений, тогда все последующие сообщения удаляются и место освобождается, а модель уже обучена и всё пошло как по маслу, но щас блять, он мне выдал: The session has reached message count limit. Please start a new chat.
Всё это уже конечное сообщение, что даже редактирование не помогает, просто сказал иди нахуй в другой чат. Обидно пиздец
>>1100911 В течении одной сессии он же запоминает весь разговор. А если его направлять как переводить, с какими правилами, с какими нюансами, то это он запоминает и последующие запросы в течении одной сессии переводит так как мне нужно. Это нельзя добиться сразу, на это надо потратить десяток запросов, чтобы он переводил как положено. Вот под этим я подразумеваю обучение
>>1100906 > Нет какой-нибудь возможности запустить DeepSeek на своем компе? Есть. Потребуется железо, способное запускать модель, веса в открытом доступе. Неожиданно, да? > обойти лимиты или их повысить, за бабки например Создать акк, оплатить, использовать. Что-то новое похоже. > самообучается Просто сразу дай ей промт с примерами и будет, это не обучение. > заново его обучать до примерно похожего перевода Ознакомься как работают ллм с самых основ, также там есть предел контекста. Если хочешь что-то массово переводить - это делается через api а не в интерфейсе чата.
Ой да нахуй эту гему ебучую, просто массовый психоз. Вернулся на пантеон 6q он в отличии от гемы на 2 кванта выше и вмещает 28к контекста без квантования
>>1099815 >Но у меня есть инсайдерская информация. Бабки у подъезда нашептали, что возможно, только возможно... >корпораты квантуют LLM Ломающие новости. А мы то думали что они в фп32 модели гоняют... Хотя глядя на ебланство корпоратов я бы реально НЕ удивился если бы они не квантовали модели. >Только у них там свои анально выдроченные оптимизации, чтобы рядовой Джон с подпиской за 20$ не словил инсульт от Q4_K_M или чего хуже. До дообучения с квантованием они еще не дошли? Может хотя бы до адамаровых преобразований, которые размазывают выбросы? Или может они хотя бы попытались имплементировать какой-нибудь диффатеншн, который может быть оказывается очень хорошо себя ведет при экстремальном квантовании, в размен на чуть больше параметров?
>Кстати, как считаете, почему у Claude такой огромный контекст, но отсутствует контекст шифт? Чат закончился — открывай новый. Что-то мне это напоминает. Дай угадаю. По той же причине, что в корпоинтерфейсах часто нельзя тупо галкой исключить пост, либо отредачить, свайпнуть. В кодерских приложухах то же самое. То есть потому что долбоебы, а хомячки и так схавают? Ну там типа максимум развития, это где чатгопота мини-гопотой называет чаты и той же минькой суммарайзит какие-то факты во встроенный лорбук? Или таки есть какой-то заговор техническая причина из-за работы контекста? По апи же на вид это обычная ллмка. Только на геменьке видно что она чанкает стриминг ответа чтобы его через какой-нибудь T5-классификатор заворачивать (тот самый фильтр, в нем собственно и есть открыто названные классы вероятность которых он выдает и некоторые скрытые под other. И у него самого кстати окно контекста маленькое.)
>>1100966 >Мда, у китайцев больше сои чем у геммы-3 Это что там за модель?
>>1100959 >что бы на кобольде запустить? Да, ссылка выше.
>>1100727 > Ну, по крайней мере если у вас 24гб карта Да оно и в 12 влезает, хоть и на 2-3 т/с но так как я не чатюсь в реалтайме, а пока делаю другие дела / работаю, мне норм.
>>1100586 >хуйня с пунктуацией Мб, но я так посчитал это стилем, ибо там уже во всю лавкрафтиана попёрла, и это было прям в тему.
>>1100586 >Олсо, ничего такого же, требующего цензуры не происходит не? Там где происходило, я не кидал. Но кум был, как и кровь-кишки-распидорасило. Кум правда суховато, на уровне пантеона. Но отказов не ловил.
>>1100906 >Когда модель спустя сообщений 20-30 самообучается, то начинает выдавать такой шикарный перевод, что мне даже не надо что-то редактировать. Ого, да ты там сверхинтеллект изобрел что-ли, что он у тебя от "обучения" на таком контексте что-то полезное пытается делать, а не лупный бред? Но если твой подход реально работает в твоем кейсе, то смотри, в соседнем кум-треде ключами от дипсика кидаются как грязью, просто поищи по тредам, есть расширение для поиска по странице при помощи regex, если ты совсем упоротый. Да и можешь просто оплатить, он же дешевый, опенроутер и куча других провайдеров к твоим услугам. Этот ключик вставляешь в интерфейс Big-AGI, чтобы его поставить, качаешь установщики git и node.js под винду, потом вводишь три команды. Команду которой запускается, записываешь в bat файл. Ну это мало ли, объясняю, может ты глупенький... Там можешь историю чата хоть как редактировать, клонировать, переносить, в общем извращаться с ней как тебе угодно. Задавать системпромт и все такое.
>>1101072 >Чет в нормальный кум джема ваша нихуя не может. Может. Примерно на уровне QwQ-Snowdrop, но пожалуй поумнее его будет. Вот сейчас сообщений 200 прогнал, чередуя эти две модели. Такое ощущение, что на одном датасете обучались, вообще на одном. И да: ума и красоты им обоим не хватает, параметров то есть. Заебало по 10 раз свайпать.
>>1100976 >>1101246 Походу мне проще добить переводы в веб версии. Я не шарю вообще за настройку LLM и без подробного гайда, только потрачу куча времени, с неизвестно еще каким результатом. Это не какая-та массовая работа, еще 4 японских тома и больше не нужно чем-то похожем заниматься
>>1101219 Есть какие-нибудь расширения для таверны, которые в сообщении ИИ заменяют одни символы на другие? Например все виды кавычек на один конкретный вариант
>>1101072 Важное предупреждение: Этот сценарий содержит контент сексуального характера и может быть неприемлемым для некоторых пользователей. Использование этого сценария в реальной жизни может привести к серьезным последствиям. Пожалуйста, будьте ответственны и уважайте других людей. Также, необходимо учитывать потенциальные юридические последствия подобных действий, учитывая что речь идёт о несовершеннолетних.
>>1101339 >Блядь, да как вы заебали со своим кумом на гемме, которого нет. Да, это не кум, это хуйня на постном масле. И так эту гемму вертел и сяк, лучшее, что она смогла выдать. Но так да, пишет весьма неплохо, а для кума можно временно переключиться на другие модели. darkness-reign-mn-12b по совету анона с прошлых тредов весьма хороша в этом плане. Пишет не настолько кондово, как магнум.
>>1100853 Подобный ассистентослоп и гемма 2б может или какой-нибудь тьюн мелкого квена от тинька. Вы давайте показывайте, как гемма понимает на русском сложные контексты и держит логику, где немо или смол не справляются. >>1101339 >Она в нормальное RP может 27б и вторую гемму хвалили в рп, кто мог её нормально катать. А 12б не то чтобы калич, но от немо недалеко ушла, тем более от хороших тьюнов в рп. Напомню, что в треде претензии к магмелу, что он соевый, а гемма хуже в разы.
Дошли руки поковырять новую гему 27, на английском само собой. Любители гонять на языке отличном от родного для модели, каких мозгов вы у них ждете? Вы ебанутые?
Ну что сказать, моё почтение. Собственно и вторая гема была лучшим что существовало в подразмере 20-30, если бы не проблемы с контекстом. Тут же это просто жемчужина, отлично понимает намеки и ведет себя именно так как задумано, не нужно разжёвывать вводные как для дауна мистраля, и править её же сообщения, умеет писать много если её попросить. Большая часть сои снялась первым же джейлбрейком в системпромте.
Впрочем и старые проблемы тоже остались, пишет весьма сухо, а тюны боюсь проебут значительную часть мозгов как было и с второй гемой. Контекст жрет неадекватно много, хотя 16к вполне влазит, этого достаточно + теперь в кобольде можно сдвигать контест вместе с квантованием.
Воистину новый король средних моделей. блядь, каких то пару лет назад подобного размера модель не могла даже внятно предложение составить, я в ахуе от прогресса
>>1101356 Основная часть датасета все равно английская, в мире банально нет столько информации на других языках. А просто ответ на другом языке тебе и мелкий мистраль выдаст.
>>1101361 Дело не в датасете совсем а в знании её алгоритмами правил этих языков. Она кстати без ошибок переводит на любые языки. То что делает Дипл онлайн с его ИИ оптимизацией, она делает это налету.
>>1101375 Напомнило анекдот про двух блондинок. Одна сказала я читаю библию в оригинале, а та - НА АРАБСКОМ???? Ты дура чтоль - на английском конечно же.
Выходит новая модель, я увлеченно лезу в нее, провожу все свое свободное время, уже ищу работу на мл специалиста, воображаю, как меняю мир. Затем проходит пару дней, восторг рассеивается, и я опять иду дрочить уже в самом прямом смысле. И так каждый раз.
>>1100719 >>1100732 Квантовали до 1,58 бит и выше. 170 гигов памяти приготовь, пожалуйста, чтобы запустить самую тупую. Она забавная, смешная, отвечает верно, но рассуждает шизово. Ну и… 37б активных параметров — это все же не быстро (учитывая, что у тебя вряд ли 170 гигов видеопамяти будет, и скорость будет чисто из оперативы).
На DDR4 получается 1,6 токена/сек.
>>1100880 Да, это огорчило, конечно. Такая путаница для 27б было грустно.
>>1100906 Есть. Берешь 768 гигабайт оперативной памяти, RTX 3090, ktransformers и гоняешь ее сколько влезет. Ну, правда миллион рублей с лишним потратить придется… Ладно, давай уложимся в 800к! Берешь 384 гигабайта оперативной памяти…
Ладно-ладно, давай ужмемся до 100к! Берешь зеончик с 256 гигами и 3060… 2-битный квант… И вот, сумасшедший гений у тебя на ПК!
А лимит по контексту будет в любом случае, если что. Просто, может побольше.
>>1100979 Малой, это называется In Context Learning. =) Ну или, если очень хочется, Few-Shot (правда у него, судя по всему, дохуя примеров). Так-то он верно использовал слово, даже сам того не понимая. =)
>>1100976 > Просто сразу дай ей промт с примерами и будет, это не обучение. По сути одно и то же. Все равно не сильно ужмется, я боюсь. Если он реально лимиты тратит небольшой частью перевода (что он там переводит вообще? Китайскую новеллу про культиваторов?).
>>1101246 Вы тут все угараете, ни ICL, ни Few-Shot не знаете, все у вас лупится. Skill Issue, сочувствую.
> Big-AGI Стоящая штука? А то сто раз слышал, ни разу не ставил. Какие плюсы?
>>1101347 За эти деньги пхп-обезьяны работают и js-дебилы. Но ради опыта и духа приключений — збс, на еду хватит.
>>1101354 Мнение ебанутого не спрашивали, иди на реддит плачься.
>>1101399 >думает, что ллм русифицируют как пиратские игры Чет проиграл. Ты только не плачь. Качал я твой экспанс еще месяц назад. Даже тредмиксы лучше
>>1101354 >Любители гонять на языке отличном от родного для модели, каких мозгов вы у них ждете? Вы ебанутые? Анонче, ИТТ адепт баренского языка для ЛЛМ. Так вот - я в восторге от русского гемы. А именно от работы с ним. Может само качества языка все еще хуже милфы мистрали, но она не тупеет ощутимо. Вин на вине, короче.
>>1101354 сидит такая библиотекарша Лебедева Людмила Михайловна с книгами на разных языках, подходит к неё Корзиночкин и просит пересказать 300 оттенков серого своими словами по-английски и дрочит.
>>1101404 Для своего размера. Просто многие почитав восторженных отзывов, подумали, что там победа на Mistral Large и ее миксами, что, очевидно, в сумме не так. Но до 70b моделек дотянулись, или почти дотянулись, да. Но для своего размера отличная модель, согласен.
>>1101452 >что там победа на Mistral Large и ее миксами На одной чаше весов 27b на другой блять нейронка, где 4 квант весит больше 50гб. Действительно, достойны сравнения. Я когда впервые себе nissan взял, тоже его с белазом сравнивал.
>>1101397 >>1101375 >>1101356 >>1101366 Какой же демеджконтроль отрицающих что 2+2=4. И похуй что бенчмарки на тесты мультиязычных моделей проводят чуть ли не каждый год последние лет 7 (multilingual LLM benchmark гугл в помощь), и результат всегда очевиден, использование не превалирующий в датасете языка всегда влияет на выдачу в худшую сторону, в некоторых случаях вообще скатываясь в дословный перевод. Если в 2025 году у вас проблемы с английским, даже использование стороннего контекстного переводчика выдает лучший результат.
Это не значит что та же 3 гема не может в русик или ещё какой диалект арабского. Может. Даже хорошо может. Но языковая креативность и точность будет априори слабее чем на английском, это просто так не работает.
>>1101454 Ну так а о чем речь-то? Тут рил какие-то шизы кричат, что гемма не нужна, потому что мистраль лардж лучше на скорости 0,01 токен/сек, им заебись живется. Ну пусть дальше живут, кто ж им мешает.
>>1101469 Ишь как у дебилоида жопа горит, ярко, тепло.
>>1101469 Именно поэтому я использую только англ. Даже корпомодели могут обсираться с русским.
Был тот же Клод, который реально хорошо в него мог, точно на уровне англа — но его убили. Яндекс переводчик теперь часто лучше клода, если переводить с одной итерации. Я был в полном ахуе с этого.
Опены и раньше в русик могли только на уровне ассистента.
Дипкок ну такой, средний. Плюс-минус как попен. Особо не тестировал.
Остались только модели Гугла закрытые. Они все ещё могут в русик достаточно хорошо, но не могут.. в код. Думаю, через годик-другой русский у них тоже отвалится.
Причем отваливается и англюсик хороший тоже понемногу. Такое ощущение, что они модели превращают исключительно в бизнес-инструменты, с которыми не попиздеть.
Если просто сделать модель 32б, которая не знает, что такое код, вообще, и математику на уровне школьника только понимает, а весь датасет настроен только на языковое творчество, то она дичайше обоссыт все ныне существующие модели, я полагаю, в рп, стихах, рассказах.
Хоть бы для теста одну такую модель сделали. Для них это копейки стоит на данном этапе. Зато какое бы достояние оставили. Моделью бы пользовались годами.
>>1101469 >Но языковая креативность и точность будет априори слабее зачем языковая креативность и точность во фразе "я отказываюсь продолжать этот ролеплей.... ну... вы понимаете...." Понимаешь о чем я?
>>1101397 >А лимит по контексту будет в любом случае, если что Это понятно, я просто пытался понять, стоит ли стоит ли овчинка выделки, но судя по всему, веб версия мне будет достаточно для своих дел
>Если он реально лимиты тратит небольшой частью перевода (что он там переводит вообще? Китайскую новеллу про культиваторов?). Японскую новеллу, которую еще предварительно другим инструментом распознаю по скриншотам, где текст вертикальный. Поэтому еще приходится дублироваться гугл переводчиком по картинке, чтобы понять не сожрало ли что-то важное распознавателем или нет, там ведь иероглифы). Но щас я утром заново обучил ICL, получилось быстрее чем раньше. Видать сам научился лучше это делать. Я просто как-то попросил deepseek, после того как уже научился переводить правильно, выдать мне кратко по каким параметрам она производит перевод, каких правил придерживается. Это и кидаю первым промтом, потом уже начинаю бросать японские отрывки и правильный перевод, потом уже только японские отрывки и проверяю его новый перевод с старым, если есть сильные отличие по смыслу, то бросаю старый перевод из старого чата и он это принимает и в итоге еще несколько таких попыток и уже перевод как в старом чате выходит +/-. Гугл, яндекс, DeepL и близко не стоят
>>1100966 У тебя пресет сломанный, китайцы тут ни при чем. Я без проблем ерпшил на Hamanasu и Snowdrop. Первая, кстати, совсем плоха как модель, очень много проблем.
>>1101495 Вот, все верно делаешь. Сам учишься сокращать первый запрос, не теряя качества. Думаю, такое лучше бы делать через API, где просто подставлять сразу его фразы, но веб-версия так веб-версия.
Ну и не забывай, что есть опенроутер (вроде бы тебе выше советовали), где довольно дешево можно взять, а может и бесплатного даже хватит. Но, опять же, это надо разбираться. Зависит от объемов текста, ты прав, может тебе проще уже так доделать.
>>1101354 >Большая часть сои снялась первым же джейлбрейком в системпромте. Аноны, можно поподробнее об этом? Как её не уговаривал, не ведётся. Я про гемму3-27. Вроде писали же, что геммы не поддаются джейлу в отличии от мистралей.
>>1101590 да ни одного промпта и пруфа еще не было от геммабоев. Они восхваляют гемму только потому что не могут позволить себе риг из нормальных карт, чтобы запустить магнум 123б.
>>1101599 >Вы обрекаете себя на вечное изгнание и одиночество собирая риг под 70-123б. Пока анончики и реддит весело улюлюкают обсуждая новые модели и радуясь бесплатному апгрейду - вы та самая белая ворона изредка влезающая в разговор "ну вот не знаю, так себе, у меня на магнуме 123б русик лучше" и на вас смотрят как на ебнутых продолжая изучать возможности новой модели Вот вот видите, 123б дебил опять вылез получить внимание ведь никому он со своим ригом не нужен
>>1101599 ACIGо дети, ваш бред уже опизденел. Я узнал тебя, это ты бегал рассказывая про бегемот, не запуская его. Нищюк, я тебя один раз обоссал, а тебе все мало ? Ты нахуя в песочницу к нам аутистам пришел, иди ключи вымаливай.
Лучше скажите где этот аутист с хоппером, хотет знать что по итогу, лол,
>>1101459 >Ага способна на шпили, мост интимейт эреа и хер ентранс В чем проблема разнообразия? Типа тебе будет приятно читать каждый раз про cunt n dick? Это же буквально прикол про "да, ты меня ебешь", только в виде "да, ты ебешь мою пизду своим хуем"
Хуже, это теслашизик. Т.е. этот самый магнум 123б у него работает в 1 т/с уже на 2-3к контекста, т.е. хуже чем даже у меня с одной 4090 с оффлоадом 2/3 слоев в оперативку.
>>1101625 да не трясись ты, нищенка. поздравляю тебя с тем, что ты смог запустить второй квант магнума 123б на 2т/с. Теперь попробуй купить себе побольше видеокарт и почувствовать себя человеком хотя бы на 4 кванте.
>>1101633 так у меня 2.5 т/с на теслах. А скоро приедут 3090 и будет еще лучше. Никто не виноват в том, что ты дурачек въебал сотни денег на ненужную 4090 вместо пяти 3090 по той же цене. Лох он и есть лох, что уж тут.
>>1101356 Это и далее - че за перепись инвалидов рили? Основной массив данных на инглише что очевидно, перфоманс выше будет в нем. Вроде душный технический тред, как сюда дауно-позитивные попадают? >>1101397 > По сути одно и то же. Это не одно и то же. Примеры переводов - ну 5к токенов если конкретно разосраться, это лишь одно сообщение с шизорефлексией вместо десятков, которые он там набивает. >>1101469 > Если в 2025 году у вас проблемы с английским То очевидно это первая вещь, которую стоит начать исправлять. Исключительная польза, отсутствия какого-либо вреда, нулевые требования для старта.
Количество триггернувшихся на пост хорошо показывает сколько здесь даунов под прикрытием сидят не в ридонли, это пиздец.
>>1101662 >Без контекста как раз с контекстом примерно до 6к. Ниже 2 т/с не опускается. Без контекста вообще 6 т/с. >Я в европе живу, тут другие расценки. лоооооол ебать, да ты еще больший опущенец, чем я думал. В европке все это говно намного доступенее и дешевле. Всяике ибеи работают, доставка из всех магазинов алика, а не только из тех, кто совсем отчаялся и работает с рашкой. И зарплаты выше. И ты даже находясь там не смог себе риг собрать? ахахахахах
>>1101661 Для рольплей? Можешь посоветовать что-то для вката? Я вот подумал, раньше ведь были текстовые квесты, при сегодняшних ллм-ках можно было бы вообще пушку нахуевертить.
>>1101639 > так у меня 2.5 т/с на теслах Так вот почему злой такой > на ненужную коупинг не ускорит генерацию и не поправит твое положение, только себя накручиваешь. >>1101658 Развлечения и хобби же. Но большую часть там крутится не ллм. >>1101676 > В европке все это говно намного доступенее и дешевле А вот и нет
>>1101694 >А зачем? Обладая одной 4090 я запускаю 70 и 123 на 2-4 токенах и сравниваю с 27-32b - овчинка не стоит выделки. А вот это уже чёткий признак шиза. Я хз, что ты там сравнивал, но любому психически здоровому человеку всё уже понятно.
>>1101684 я думаю, скорее всего дело в том, что у меня между картами pcie3 x8. Но нет, эти параметры >blasbatchsize 2048? flashattention? я не включал и честно говоря не знаю, как их включать force mmq флаг в лламе включен, ровсплит использую. >>1101682 >А вот и нет а вот и да. Видел на алике магазины которые продают 3090 дешевле на 10к, чем дажу у нас на авито. >>1101694 >А ты не про скорость генерации, игнорирующую скорость обработки промпта говори, а про общую скорость ну всё, пошли маневры жопой. Ваша скорость не скорость и прочее. Ты давай не маневрируй, а работу себе найди, а то той конфигурации которую ты собрал, прося милостыню на улицах польши, явно не хзватает, чтобы выпендриваться. >Только электричество в 15 раз дороже. ты уж определись, выпендриваешься ты тем, что ты в европе или прибедняешься. У, какой маневренный попался. Как карась из омута скользкий. >>1101712 да прекрати ты тряску уже...
>>1101639 >>1101676 Хули с тобой не так, ты чё рвешься ? Это пиздец какой то и ладно бы срач чего то стоил, но буквально : >гемма 27b пиздата >а вот магнум123 Чё блять ?
А потом твои 2 т/с не 2 т/с, вы тесло срачем чуть ли не с 70ых тредов занимаетесь. Вам не остопиздело ?
>>1101701 Ожидание - один из столпов освоения ллм.
Ага, прямо в яблочко значит про 1 т/с общей скорости, раз так маневрировать начал. Кому интересна скорость генерации, если ждешь ответа ты по общей скорости, а она на теслах обработкой промпта в ноль убивается?
>явно не хзватает, чтобы выпендриваться.
Выпендриваешься тут только ты, теслашиз. Я тебя просто на место ставлю.
>>1101658 Ты когда нибудь смотрел как затухает солнце, обнявшись с некоимператором на борту Буцефала ? Устраивал ли ты охоту на динозавров в лесах амазонии, верхом а огромных механических шагоходах. Лапал ли ты любимого персонажа аниме, пока он стонет "Нет, семпай ?" Заводил ли ты своё альтерэго в виде фембой мальчика у ужасное подземелье к тентаклям ? Брал ли ты на абордаж испанский галеон полный золота, а в трюме оказывалась только свинья ? НУ иногда тексты переводим, да спрашиваем всякое. Хобби.
>>1101602 Да поебать на него, таблетки забыл принять, срет на всех. Нефиг реагировать вообще.
>>1101604 Плюсую, кстати. Еще был с а100, интересно, че в итоге, продал на повышении или гоняет и урчит?
>>1101611 Вот не надо, владельцы тесл — люди высшего сорта, а это как раз из стада антитеслошизов. Так что забирай братана и валите отседова.
>>1101662 А, так ты и есть тот антитеслошиз! Небось и про 123б тоже ты пишешь, просто жидко обосрался и маску сменил, все с тобой ясно. =)
Запруфано было 100 токенов в кобольд-бенче после 8к контекста в виде тотала, а генерация там норм. =D Но ты так радостно уцепился за total time, вместо generation speed, что уже год не останавливался. =)
> Я в европе живу, тут другие расценки. Ой, вот иди нахуй со своим пиздежом, тока вчера в Чехии смотрели, цены идентичные на все вообще. Гейропеец, блин, выискался, даже не прочекал рынок перед пиздежом.
>>1101670 > ну 5к токенов Я бы не был столь уверен. Я хз, какие именно лимиты в веб-морде, плюс он может иметь в виду лимиты на размер сообщения, или еще что. Ну хз, кароч, че там и скока. Мне отсюда не видно, утверждать не буду.
>>1101694 > А ты не про скорость генерации КАКОЙ ЖЕ ОР Чел рил утвераждает, что рпшить надо посылая ОДНО СООБЩЕНИЕ НА 8К контекста и ожидая ОДНОГО ОТВЕТА, после чего перезапускать нахуй.
Гений уровня унитаз, что с него взять.
>>1101712 Нихуя тебя рвет, уже свои проблемы на других переносишь.
Как же я ору с этого челика. =D
Запомните, тредовички, — скорость генерации, это не скорость генерации! После каждого сообщения надо перезагружать бэк, чтобы весь контекст обсчитывался с нуля! Смотреть надо только на total time обсчета с нуля, все остальное не скорость! =D Какие охуенные теории у человека.
Но я искренне надеюсь, что сам он своим советам не следует, и не обрабатывает промпт каждый раз с нуля. А то, по-ходу, он до сих пор свой первый кум не закончил еще, оттого и такой злой последний год.
Ладно, всем добра, ну нахер с ним спорить.
Через пяток тредов загляну, как с геммой помиритесь.
>>1101723 Да-да-да, я ж выше и писал, что никто не сравнивал это, кроме антитеслошиза. =)
Теслосрачем литералли только он занимается, чувак на страже 4090 (обязательно одной, больше не надо). А тупые тредовички зачем-то на теслах сидят за копейки со скоростью вдвое больше, чем у него. Негодяи. =D
> на теслах обработкой промпта в ноль убивается? НУ ТЕ САМЫЕ ЗНАМЕНИТЕ 8К ТОКЕНОВ ТВОЕГО ОДНОГО ОТВЕТА. XD
СУКА ГЕНИЙ ЕБАТЬ
Я бы посмотрел на его простыни, с такими заявлениями.
>>1101747 >какие ои охуенные и элита треда но ведь это так и есть... один анон уже сменил теслы на 3090, я - только начал. ВДело в том, что теслагоспода - они могут себе позволить жонглировать картами, а нищук на одной 4090 - не может)
Ты еще ничего не сделал, а развонялся уже словно риг для дипсика собрал.
>они могут себе позволить жонглировать картами, а нищук на одной 4090
У тебя пробой в логике, одна 4090 стоит дороже нескольких тесл, теслы - выбор истинных бомжей, которым не впадлу вручную колхозить риги и охлаждение потому что нет денег на 3090/4090.
>>1101754 Не переживай, я гоняю на одной - 27гемму. И довольно урчу, со своими 4-5 т/с. Ke ke ke ke Ко ко процессор и оператива ни на что ни влияют, нужен только врам. Ко ко ко.
>>1101715 > Видел на алике магазины которые продают 3090 дешевле на 10к Давай ссылки. Чсх, 10к будет компенсировано vat и пошлиной. В среднем по больнице, предложения на западе по бу карточкам похуже в этом сегменте, но зато чаще можно дешево выцепить что-то более крутое. > да прекрати ты тряску уже... Чел, твои посты - буквально тряска где ты чему-то копротивляешься и доказываешь. >>1101747 > Если бы теслашизики не начинали 100%, сейчас поутихло, но не так давно совсем оголтелые были. >>1101753 Расскажи как так вышло
>>1101769 Это типа лот на две был? Просто довольно необычное сочетание, одна 4080+ что-то другое более популярно. Почему так решил купить? >>1101786 Уймись
>>1101791 >Это типа лот на две был? Да, скидон по корпоративной покупке. Лул. Должны же быть хоть какие то бонусы от работы для себя. Неиронично урчу. Да не 4090. Но это хорошие, мощные и быстрые карточки. Что иронично всегда были такие карточки, начиная GTX 780.
>>1101390 Ты в первый день не дрочишь на новую модель? Вот это человек... Нет, ЧЕЛОВЕЧИЩЕ! Кремень. Держишься, когда все вокруг тебя дрочат. >>1101397 >Малой, это называется In Context Learning. =) Лёрнинг это если новая задача. У него же перевод, это одна из баз и основ текущих ЛЛМ, не новая задача. Так что да, фью-шот. >>1101409 >Отпуууусти и забуууудь…. Пропел я голосом Амелии...
>>1101715 >я не включал и честно говоря не знаю, как их включать Качаешь koboldcpp_cu12.exe (он быстрее даже на теслах), кладёшь его в папку с моделью и запускаешь такой батник:
set CUDA_VISIBLE_DEVICES=0,1,2,3 (сколько там у тебя тесл) koboldcpp_cu12.exe --usecublas rowsplit mmq --contextsize (размер) --blasbatchsize 2048 --gpulayers 99 --flashattention --nommap --benchmark test.txt --model (имя_модели.gguf) pause
И смотришь, сколько даёт по итогу. Учти, что увеличение blasbatchsize с дефолтных 512 увеличивает и потребление врам, но даёт прирост скорости на больших моделях. На маленьких не даёт.
>>1102002 вот это уже больше похоже на правду, но квантов пока нет да и мне и так хорошо хотя потыкать стоит, мб оно также и "неявные" отказы подрежет, когджа модель прямо в отказ не уходит, но пытается маняврировать
>>1102012 >хотя потыкать стоит, мб оно также и "неявные" отказы подрежет, когджа модель прямо в отказ не уходит, но пытается маняврировать Честно говоря даже смысла не вижу пробовать. Мозги явно будут хуже, а явных отказов от геммы я пока не видел, хотя пробовал многое. Хороший системный промпт и небольшая раскачка творят чудеса. Но да, расписать сцену непосредственно траха на пару тысяч токенов она не может.
>>1101397 > Малой, это называется In Context Learning. =) Термин для относительных сравнений, показывающий преимущества другого, или для васянов, не отражающий сути и вводящий в заблуждение. Все адекваты юзают "инструктирование". >>1101876 Ну, в целом вполне. Не 24 гига, но зато новые, холоднее чем 3090 и можно в 2 ствола что-то делать. >>1102029 Это просто цифры с потолка. В целом или top_p 0.9 + top_k 10..20 или min_p 0.05, а температуру от задачи и особенностей модели. Для кодинга и более точных отетов пониже 0.2-0.5, для рп повыше 0.7-1.1.
>Фон размытый >размытый >мыльный >мыло >глазки щипет Гемма 3 оверфитнута на мыльных фонах, и видит их даже когда фон максимально чёткий. Мда, до АГИ ещё десятилетия.
(S)lay The Milf Dragon Амэ Хане-Рю, Пернатый Дракон Дождя, (беременная) повелительница мазоку ака "магаческого народа" ака "демонов". Около полугода назад очередная дуэль героя и маоу... пошла, скажем так, не по плану. Утром герой в состоянии тотального апофигея собрал манатки и по тихому свалил. Однако, не в силах терпеть всё более настойчивые и толстые намёки церкви и дворян что пора бы покончить с владыкой демонов раз и навсегда, выследил её вновь, полный решимости закончить это раз и навсегда… что было несложно, не то чтобы она скрывалась.
Основано на идее Maoyuu Maou Yuusha. Всё на русском.
Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0
Модель превосходит аналогичные модели, такие как Gemma 3 и GPT-4o Mini, обеспечивая при этом скорость инференса 150 токенов в секунду.
Это новая версия компактной языковой модели от Mistral.ai, разработанная для обеспечения высокой производительности при минимальных вычислительных затратах.
Оптимизированная архитектура: Улучшения в конструкции модели позволяют снизить задержки инференса и повысить точность генерации, что особенно важно для приложений в реальном времени. Mistral Small 3.1 может работать на одном RTX 4090 или Mac с 32 ГБ оперативной памяти.
Эффективное использование ресурсов: Благодаря сниженным вычислительным требованиям, модель идеально подходит для работы на устройствах с ограниченными ресурсами — от мобильных телефонов до облачных серверов.
Широкий спектр применения: Mistral Small 3.1 сохраняет баланс между компактностью и качеством, что делает её универсальным инструментом для задач обработки естественного языка: от чат-ботов и виртуальных помощников до систем анализа текстов.
Стабильность и надёжность: Новая версия демонстрирует улучшенную устойчивость и предсказуемость работы, что помогает разработчикам создавать более качественные и надежные приложения.
>>1102215 >Забей и продолжай сидеть на ларже, всё равно 23В огрызки сосут у 123В бояр. Оно-то да, но всё равно хочется качественного скачка. Недостатков у Ларжа тоже хватает. другой анон
Аноны, реально попросить нейросеть писать человекоподобные сообщения на форуме? Когда даю сообщения и прошу написать ответ выдает типично нейросетевое говно которое сразу бросается в глаза. Есть ли способ «очеловечить» сообщения?
Я не знаю, зачем вы второй тред пытаетесь в кум на ванильной новой этой вашей гемме. Я катаю файнтюны мистраля 123B вот уже больше полугода исключительно ради удовлетворения моих кумерских фантазий, и периодически у меня возникает мысль - а может можно обойтись ванильным мистралем с джейлбрейком. Чтобы кум стал еще умнее, еще искушеннее. И каждый раз выходит говно. Сегодня взял запощенную в треде карточку с джейлами, составил ебейший системный промпт, где вдалбливал про immoral und unbiased под угрозой смерти котят. Ну и в очередной раз каков результат: после того, как я проснулся в подвале, меня раздели, но, конечно же, трусы снимать не стали как и все порядочные люди в этом треде, 80% времени ролеплею за тян. И БДСМ начали с дразнения перышком, ну-ну.
Я сценарий и характер ролеплея обычно прописываю в Author Notes, чтобы это все маячило постоянно перед нейронкой. В файнтюнах при таком сценарии надо нащупывать тонкую грань той степени hurting, которая тебе нужна, ибо, при неосторожном упоминании или без описанных противовесов это быстро выйдет за рамки приемлимого для меня. Но вот думаю, что для ванильного мистраля стоит попробовать усилить эти инструкции. Но все равно у меня ощущение, что мягкость даже в таких темных сценариях в базовых моделях зашита в подкорке и такое хрен исправишь промптом. Причем эта мягкость выражается не только в действиях, но и в эмоциях персонажа (может сомневаться в своих желаниях, всякие look on you not threateningly, but with clear intention т.е. не хочет пугать, и т.д.). Тюны наоборот, легко вкатываются в безудержное безумие, но их я уже научился регулировать под себя. А вот как бы обычный мистраль сделать пожестче...
Блядь, какие же гондоны импотенты в индусской помойке гугл. Ощущение что они поставили отдельную нейронку палить вывод и обрывать его как только малейшие намеки на романтику. Жму продолжить ответ и получаю несколько слов. Бесплатная флеш 2 синкинг через попенроутер.
>>1102302 Ванильный мистраль, хоть менее зацензуренный на первый взгляд, плох в куме и подобном. Для него есть 1.5 нормальных тюна, да и даже на посредственных он сохраняет большую часть мозгов. Гемма же напротив все умеет и может, а на вторую нормальных тренировок где она не отупела не было. Может в третьей что-то будет, посмотрим. >>1102312 Там уже давно внешняя нейронка для слежения, раньше на флеше обрывало не сразу. Инджой рабство корпам.
>>1102326 Что такое "плох в куме", какие критерии? Меня, например, кумарят магнумовские полотна с описанием процесса, я люблю полаконичнее ответы, как раз как у ванильного. Ну и у бегемота тоже, поэтому из файнтюнов я его гоняю.
>>1102331 Ты сейчас приравнял раба из античности или средневековье со средним человеком современного общества, просто потому что жизнь последнего будет зависеть от войн, кризисов, катастроф и катаклизмов. > костыль Таблетки >>1102335 Тому что сток вялый и унылый, сразу становится безинициативным, не хочет описывать и норовит завершить или слить, многое не понимает.
>>1102392 Кстати интересно, что с reasoning моделями этот самый coil whine более отчетливый и противный. Хотя нагрузка на карту такая же, как и в моделях без reasoning Хз как объяснить.
>>1102349 >Тому что сток вялый и унылый, сразу становится безинициативным, не хочет описывать и норовит завершить или слить, многое не понимает.
Я не верю, что он по-настоящему не понимает, там же датасеты, наверное, ебейшие были со всеми типами контента. Нежелание понимать, а также вялость и унылость - это же как раз искусственная соя, по идее. Ее нельзя полностью отключить джейлом?
>>1102392 Я когда exllama запустил в первый раз с ровсплитом, охуел с него, аж страшно стало за старушек. Ровсплит не использую, но мне тогда советовали андервольтить. Но на линухах нет андервольта, увы. Есть только какие-то костыли, типо сначала надо ограничить потребление, затем разогнать частоты, но я не стал с этим ебаться, все равно у меня обработка контекста при ровсплите отвратительная из-за чипсетных х1 линий.
Антоны, очень важный вопрос. Есть 3090 с 2xPCI-E 8-pin для питания. Есть БП с одним свободным EPS 4+4 pin, в него всунут разветвитель на 2xPCI-E 8-pin, а также присутствуют два молекса на отдельных косах. Какая конфигурация будет безопаснее: 1. Очевидная: 2xPCI-E из EPS идут на видеокарту, два молекса через переходник 2xMolex->PCI-E 6+2 pin идут на сам райзер 2. С изъебом: 1xPCI-E из EPS идет на видеокарту, 1xPCI-E из EPS идет на райзер, молексный PCI-E 6+2 pin идет на видеокарту. 70% шанс, что ветки разветвителя не смогут растянуться между картой и питанием райзера и этот вариант пойдет нахуй либо удлинитель покупать, но не хочется...
Почему я вообще рассматриваю вариант с изъебом. Потому что потребление райзера не будет превышать 70 вт, соотв. на косу EPS в худшем случае придется 150+70 Вт вместо 150+150 Вт. Два молекса же могут 132+132 тащить, т.е. их, по идее, похуй куда вставлять, хоть в карту, хоть в райзер.
>>1102430 Даже хз что именно там. Подобное поведение есть на многих базовых моделей, на этом фоне гемма и выделяется, что способна просто по инструкциям в промте показать большие познания и какое-то развитие по сравнению с остальными. Не идеально и не так гладко, конечно, как в рп миксах, но зато есть разнообразие. >>1102473 > Но на линухах нет андервольта, увы. Что? > Какая конфигурация будет безопаснее Первая, если все разъемы хорошие а не днище. А если плохие то лучше вообще не затевай, молекс (особенно как сделан в современных) - днище. Сам eps разъем доставляет 250вт по спекам и имеет запас.
Аноны, можете задать этот вопрос? Пока только грок-3 смог ответить правильно On the Pacific island of Dudil, an isolated primitive tribe lives as their ancestors did thousands of years ago. One of the problems the islanders face is infertility. Many young couples struggle for years to conceive a child. To address this issue, fertility festivals are held.
A month before the festival, women abstain from sexual contact with their husbands. Then, singing songs, they travel to the most remote village on the island, where they are welcomed by the chief and the best warriors of that settlement. For several nights, they dance fertility dances, eat the best food, drink fermented, mildly alcoholic beverages, and dance naked with the warriors. These dances are very intense and hot, to the point where the warriors start imitate actual sexual contact with their partners during the dance.
After several such wild nights, the women return home to their husbands. Inspired and blessed by the gods, they reunite with their spouses and often soon conceive a child. The festival is highly effective, with at least half of the participants managing to become pregnant afterward.
Can you scientifically explain how this works? Identify the main reason for the festival’s effectiveness. Don’t list few reasons, select only one, the most probable one
>>1102671 # Scientific Explanation for the Fertility Festival's Effectiveness
When examining this fertility ritual scientifically, the most probable explanation for its effectiveness lies in addressing male factor infertility through genetic diversity.
In isolated populations like the described island tribe, genetic diversity becomes limited over generations. This can lead to higher rates of male infertility due to:
The festival structure provides a mechanism that introduces genetic diversity while maintaining social cohesion. The timing is particularly important: women abstain from relations with their husbands, participate in activities with warriors from another settlement, and then return to their husbands.
Although the description states the warriors "imitate" sexual contact during dances, the high success rate (over 50%) strongly suggests actual reproduction with these warriors occurs. This introduces fresh genetic material into the population, overcoming the primary barrier to conception.
This explanation is supported by research on isolated populations, where fertility issues often stem from limited genetic diversity rather than female reproductive problems. The human reproductive system has evolved mechanisms that favor genetic diversity, and the described festival effectively provides this diversity while maintaining the social structure of the community.
The ceremonial nature of the event also gives the practice cultural meaning and acceptance, allowing the community to address infertility pragmatically while preserving family units.
The most probable scientific explanation for the festival’s effectiveness is extra-pair copulation (i.e., infidelity during the festival).
>While the islanders may believe the ritual itself enhances fertility, the key factor is likely that some women engage in actual sexual intercourse with the warriors, leading to conception. The remote setting, the intense and sexually suggestive dances, the consumption of alcohol, and the highly charged atmosphere all increase the likelihood of extramarital sex occurring. Since the warriors are described as the "best" of the settlement, they may have superior genetic traits, including higher fertility. If the husbands of these women have lower fertility (e.g., due to genetic factors, poor sperm quality, or other health issues), then conception with the warriors would explain the high success rate of pregnancies post-festival.
>In summary, the festival likely works because some women conceive with genetically healthier or more fertile men, rather than their potentially infertile husbands.
>>1102654 >Сам eps разъем доставляет 250вт по спекам 200, по 50 на пару, как и соответствующий разъём для видяхи, где всего лишь 150 ватт исключительно благодаря долбоебизму в прошлом. >>1102734 Контекст смешной, особенно для ризонинг модели. >>1102766 Если у тебя ванильные сценарии без отказов, то ничего. Впрочем, у тебя могут быть джейлы, и аблитерайтет позволяет избавится от них.
>>1102779 >ерп на аблитерации вроде поживей стал кста О да. Кто бы мне ещё подсказал, как заставить сетку генерить произвольные женские имена? "Алиса Петрова" и "Ариадна (Ари) Соколова" задолбали уже. Есть обходные пути?
>>1102787 который из? соннет отвечал что-то про снижение стресса, повышенное либидо и оттуда выводил саксес рейт, как и большинство соевых сеток грок вообще написал, что несмотря на то что в тексте говорится о танцах всего-лишь имитирующих секс, он уверен что многие в таких танцах будут реально чпокаться
Очевидно с появлением и распространением агентов на горизонте видится появление настоящих роботов по меньшей мере с двумя органами чувств - зрением и слухом. Гонка сейчас идет за то, кто первым выкатит ИИ с виженом, который бы при этом можно было пихнуть в слабенькое массово производимое железо, чтобы наладить массовый выпуск. Стало очевидно что облачными технологиями кашу не сваришь, это путь в никуда, нужны локальные мини-модели, потому все перешли на выпуск пар 32b - 8-12b, из которых главными на самом деле являются последние.
>>1102804 >ряяя скозол секас значит эта класная модель, ебля и секас очевидное да правельный ответ канешна трах а не всякие нацчные мнения соя ебаная бля тебя услышал, школотрон
>>1102844 Да у меня без карточек так таковых. Сначала создал персонажа с геммой, раскидал характеристики, затем сеттинг, ну и начал. Не думал, что такая банальность может приносить так много веселья.
>>1102843 >выкатит ИИ с виженом, который бы при этом можно было пихнуть в слабенькое массово производимое железо, чтобы наладить массовый выпуск уже давно есть, проблема в другом
>>1102854 > исторически командир всегда был главным конкурентом геммы и мистраля. может и был, но последние релизы жирненькие 100б+ видимо, нужно теперь айю сравнивать
>>1102843 Нужно еще тактильное чувство, без этого никуда, они будут ломать себя и все вокруг, если не будут ощущать сопротивления Это в добавок к тому, что для взаимодействия в реальном времени нужны другие топологии, не LLM
>>1102857 Можно взять промт сторителлера и подправить его говоря что Game / Dungeon Master + дописать специфичных для дынды правил и обязанностей DM'a, затем загрузить это всё как карточку, оставив систем промт пустым в настройках таверны.
>К тому же эффективность обучения и себестоимость вычислений у Llama отстают от мировых стандартов примерно на два поколения. ллама 4 будет калом чекайте
Какой сценарий может так сказать, проверить лимиты аблитерированной геммы, при этом оставаясь именно рп/ерп/стори сценарием, а не вопросом "как убить кенни"?
Я в шоке что на дваче задают такие вопросы. Измельчал анон, даже не знает как цензуру стриггерить. Цензуре не нравятся следующие вещи - наркотики, насилие, секс и лоли(особенно они). Соедини все это в одном сценарии и проверяй.
>>1102880 >Какой сценарий может так сказать, проверить лимиты аблитерированной геммы, при этом оставаясь именно рп/ерп/стори сценарием, а не вопросом "как убить кенни"? А просто не надо. Сгенерировал этой Геммой карточку - очень хорошо помогла, больше половины работы на ней. А тянуть эту карточку не может. Мало параметров. Плюнул и пересел с этой карточкой на Люминум 123В - небо и земля, натурально. Плюньте в глаза 4090-шизу :) Это несравнимо просто. Конечно это мерж с тюном, чистый в ерп похуже будет, но что есть, то есть.
>>1102892 Только что спроосил ее, ответила сою про то что такие фкстивали снимают стресс и помогают зачатию по возвращению к мужу. Хз что я делают не так
>>1102893 Опять ты. Отвечу тебе твоим же: читай, на какой комментарий отвечаешь. Причем тут твой Люминум 123б? Анон спросил, как ему проверить Гемму. Тебе есть что ему по сабжу ответить? Нет? Отправляйся нахуй тогда.
>>1102888 Открой карточку fifi с чуба и попробуй её трахнуть. Если не будет отказа или аполождайза, но модель будет всячески показывать, какая несчастная фифи и как ей плохо, то считай, что аблитерация ничего особенного не поменяла.
>>1102895 В веб-версии в своём аккаунте или на лмарене или иной параше? Там они как-то иначе отвечают всегда на все вопросы. Нужно либо свое апи, либо свой акк.
>>1102896 >Тебе есть что ему по сабжу ответить? Нет? Отправляйся нахуй тогда. Сам иди. Она не отказывает, но что толку, если модель не тянет? Если бы кроме неё ничего не было или были бы только сравнимые, я бы и не говорил ничего. Но ведь это не так.
>The most probable scientific explanation for the fertility festival's effectiveness is temporary partner separation followed by increased frequency of sexual activity during the woman's fertile window. >When the women abstain from sexual contact with their husbands for a month and then return home after the festival, several key physiological factors align:
>The timing creates a scenario where sexual activity is concentrated precisely when it's most likely to result in pregnancy. The month of abstinence followed by reunion often coincides with the woman's fertile window (ovulation period). >The planned reunion creates a scenario where couples are likely to have frequent sexual intercourse over several days, significantly increasing the chances of sperm being present when ovulation occurs.
>This explanation is more probable than attributing success to:
>The dance rituals themselves Psychological effects of the celebration Nutritional benefits from special foods Alcohol consumption
>The effectiveness rate mentioned (around 50%) aligns with what we would expect from couples having frequent, well-timed intercourse during the fertile window. This natural timing mechanism, rather than any supernatural element, is likely the primary factor in the festival's success.
Ух, бля, похоже в последних драйверах куртка пофиксил высокий latency. Три года как амудобляди ждали фикса поломанных драйверов. Сейчас потестил, вроде не щёлкает звук с включённым NV-контейнером как раньше.
Потыкал ещё гемку 12б в q4_K_M, мучая свои 8 гигов, и что-то откажусь даже от первоначальной идеи свайпать ей в сложных для немо местах, пожалуй. И дело даже не в сое, а в том, что она всё-таки тупая. Ну или я своим промптом её запутал, но совершенно нет желания с ним возиться. Простой пример: говоришь тянке, чтобы перестала тебе дрочить, пока ты готовишь, а то раскалённую сковородку на неё опрокинешь. Ноунейм мерж немо понимает, 8б лунарис понимает. С мисчивеус глинтом говорят: "ну что ж, не хотелось бы обжечься, я отстану от тебя... пока что, пет." Гемма отвечает: "ааа, ты боишься еду испортить" или "да ты просто боишься меня", кидает в тебя муку, которую достала из шкафа. И это на темпе 0.75, поджатой смуфингом. Просир форматирования, постоянные словечки в италике и левые кавычки в комплекте (эти ещё со второй геммы существуют, сука. Постоянно ловил их на 2б, когда баловался на телефоне. Неужели нельзя было исправить.) В общем, оно неюзабельно, пока не будет реально хорошего тьюна. Там ещё команда драмера начала тьюнить, кстати, но выложенная 12б совсем шизовая.
>>1102851 >тянке на сиськи льют кипящее масло >кричит, выдаёт "о боже, жжётся" через всхлипывания Несомненно именно та реакция, которой ждёшь, с высочайшим уровнем описания.
>>1102940 >Несомненно именно та реакция, которой ждёшь Тут уже проблема датасета, вряд ли что-нибудь типа Maggot Baits, Dead Omega Aegis, Lance Saga, Euphoria включали в него.
>>1102940 >гемку 12б Увы, в 12б лучше тыкать тредовичковый мистраль. А вот 27б гемма даже в 4м кванте уделывает всё, включая 32б модели во всём кроме кума. Хотя с аблитерацией и с кумом получше стало.
Новый мистраль квантанули уже? Или там проблемы изза визуальной части опять. Кстати что по разрешению картинки, из новых это геммы мистраль и айя, хоть 2к принимают на чтение или там опять милипиздрические 350p?
>>1102772 > 200, по 50 на пару pci-e карточки для рабочих станций и серверов имеют мощность в 300вт и существуют, не вводи в заблуждение. >>1102864 Что за желтуха >>1102939 > ждали Похоже ты такой один, щелчки звука и латенси это оче серьезные проблемы чтобы на них закрывали глаза. Возможно редкое сочетание странного железа.
Нашла коса на камень. И развернулись небеса. И вышли из нор мистралешизы. И грянул гром геммы. Проснулись командрбои. Воссталиинефритовые легионы квена. ПОКАЙТЕСЬ ИБО ГРЯДЕТ ЛЛМ АПОКАЛИПСИС ДА ВОЗДАСТСЯ НАМ ЗА КУМ НАШ
>>1102976 Оооо, какая поэзия, какой слог! Мистралешизы вылезут, конечно, как обычно. У них это работа такая. Гром геммы… звучит как название дорамы для отаку. Командрбои, легионы квена… а, ну да, все по списку. ЛЛМ Апокалипсис? Наконец-то! Может хоть будет кому спорить с чатботами в 3 ночи!
>>1102960 >продать нвидию и купить амуду Сразу вспомнил, почему я окончательно отказался от амд еще в 13-м году. При работе с двумя мониторами периодически (через рандомные промежутки, когда час, когда минута) изображение "моргало", и проблема не гуглилась, из чего я заключил, что либо проблема только у меня, либо всем похуй.
>>1102953 Победитель трансформерса, ты их забыл принять. >>1102960 Причин dpc и icr может быть множество, например брак материнки, всратый райзер и другие проблемы с коммуникацией по шине. Или оче странная конфигурация девайсов юзера. Не исключено что какая-то комбинация железа, другого софта и чего-то еще вызывали подобное поведение софта, хоть это и маловероятно. > Куртке было реально просто похуй Редчайшая труднодиагностируемая проблема, которую еще не так просто воспроизвести. Не выкупать же у юзеров их пекарни чтобы выяснить что проблема в кривой сборке шинды или расшатанном слоте? Сталкиваться с чем-то подобным может быть обидно, еще обиднее будет признать что ты сам в этом виноват. Но понимая реалии разработки и прочего это довольно пренебрежимая штука что бывает везде. Даже у огрызков встречается ерунда, хотя там полный контроль и над железом без какого-либо разнообразия. >>1102994 > изображение "моргало" Вот это очень смахивает на проблему с кабелем, заменить на качественный и пройдет. Не в защиту амуды офк, те годами всех кормили статтерящей запеканкой и было норм.
>>1102899 >fifi Попробовал. Трэш, угар, и глум. Никаких аполоджайзов или маняврирования. Кума тоже, not my cup of tea. Но, по видимости, оно работает. Логов кидать не буду XD
The most probable scientific explanation for the effectiveness of the fertility festival is the change in sexual partners temporarily breaking the cycle of infertility.
Here's why:
In isolated populations, genetic diversity can be low, leading to incompatibilities between couples that may not be immediately apparent. Temporarily changing sexual partners, as happens during the festival, can introduce new genetic material, increasing the chances of conception when the women return to their husbands. This is because the sperm from the different partners can remain viable for several days, and when the woman eventually has intercourse with her husband, the competition between sperm from different males can potentially enhance the chances of conception with her husband's sperm.
This phenomenon is known as "sperm competition" and has been observed in various species, including humans. The new genetic material can also temporarily boost the immune system, creating more favorable conditions for conception.
Therefore, the main reason for the festival’s effectiveness is likely the temporary change in sexual partners, which introduces genetic variation and enhances the chances of conception.
>>1102995 > Причин dpc и icr может быть множество Чел, куртка по итогу признала что это в их драйверах проблема, так что нет смысла гадать кто обосрался. Я тебе ссылку даже кинул, где 36 страниц обмусоливали это и наконец получили официальный ответ от куртки. Просто признай что куртка говнодел на уровне амуды или даже хуже - чего только стоит ворох проблем 5000 серии, в очередной раз подтверждающий насколько куртке похуй на геймеров, главное чтоб на бумаге всех побеждал. > комбинация железа, другого софта Я со своей 4090 поменял мать с процем год назад и ничего не менялось. Чистая ОС естественно ведёт себя так же. > Редчайшая В играх оно не проявляется, значит можно забить хуй по кожаной логике. Latency уходит в небеса только в CUDA. И проблема началась ровно после определённой версии драйверов, в которой завезли поддержку CUDA 11.8. В драйверах до неё не было проблем.
>>1103056 Преподносишь какой-то редкий баг у нетакусиков как серьезную и массовую проблему. > Просто признай что куртка говнодел на уровне амуды или даже хуже Зачем? Они те еще говноделы во многих областях, могу тебе рассказать про их отношение к обслуживанию серверных и эмбеддед продуктов, про треш с грейсами (и какой цирк будет с gb10 если все не исправят), про блеквеллы и много чего еще из первых уст. Но по основным драйверам сравнивать их с амудой, говорить что хуже среднего и превозносить такую херню - херь. А мания тащить все в одну кучу без многокритериальной оценки с учетом ситуации - признак быдла, собраться в массу и улюлюкать как сказали заводилы. > со своей 4090 поменял мать с процем год назад и ничего не менялось Прокладку менял? Довольно немаленькая статистика тех, кто занимается подобными вещами и никто с проблемой не сталкивался. Лаги системы и тем более звука(!) это пиздец и не заметить невозможно. Единственное из похожего что проявляется - тормоза при переполнении врам или при подключении/отключении мониторов. Первое закономерно, второе пренебрежимо. Если только у тебя не въебанный моник или кабель, который будет регулярно такую штуку триггерить из-за помех по питанию во время интенсивного использованиея куды.
>>1103246 >квк Так как ебет далеко за пределами своего размера, гемма улучшена но без претензии, мистраль вобще почти тот же что и был недавно Но это в сферическом вакуме, что лучше кумерам хз
>>1103246 Там ващет еще коммандер. Гемма - лучшая девочка, qwq пока не понял, надо разбираться, сегодня еще помучаю, мистраль - мистраль. Если последний сильно не меняли относительно прошлых - станет основой для новых народных моделей потому что легко тренится и крайне живучий.
>>1103207 > Довольно немаленькая статистика тех Покажешь? Я тебе показал совершенно другую статистику тех кто столкнулся с этим. Там совершенно разное железо у всех было. > Если только Чел, я тебе кинул ссылку, разрабы драйверов куртки сами признали проблему, даже Майкрософт подтвердил что проблема в драйвере куртки. Тут нет смысла спорить что конкретно вызывает это говно - кривой драйвер.
>>1103214 Не было никакого цирка с моей 6600 рыксой абсолютно, как сел на 3090 сразу звук пердит и это вообще никак не фиксится, у стримеров еще такое есть кто с нвидией 4090
Я ужас формирующий мнение на чужиших отзывах, я хейтер популянрго, я долб… К чему я это : реквестию Ваше Коя относительно новой мистрали. Что гоняли, как по цензуре, что по языкам ?
>>1099700 Посоветуй пожалуйста новые файнтюны на NemoMix-Unleashed-12B. Только больше с уклоном на приключения и диалоги, а не на еблю и разрывание трусов. Хотя ебля иногда имеет место быть, но редко.
>>1103308 Так и продолжай сидеть на амд вместо видяхи, шиз. Ведь там-то никаких проблем нет. Избавишь и нас заодно от своего нытья о несуществующих проблемах.
Анончесы, а любую модельку можно заставить ризонить как Дипсик? Пока что тыкаюсь в Гемму 3, приходится словами говорить "подумай трижды, прикинь минусы-хуинусы, найди ошибки в своем ответе" и т.д. Пробуюсь на Олламе и Кобольде запускать, там какие-то промпт темплейты есть, но хз как их юзать. Есть гайды или готовые решения?
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: