Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №114 /llama/

>>1098612 →
>Там какой-то шиз температуру 5 поставил
она всё равно не работает так как включена динамическа температура, и для геммы кстати большая температура не ломает её, а делает более сговорчивой.
контекст 13677 из 24064

скрин на статической температуре 5.0

>>1098630
Гемма не виновата.

Аноним 15/03/25 Суб 16:54:41 #5 №1098646

>>1098622 →
>и для геммы кстати большая температура не ломает её, а делает более сговорчивой.
Ломает. 1.5 в самый раз.

Аноним 15/03/25 Суб 16:59:45 #6 №1098656

IMG0821.jpeg

Стоило отбыть на месяцок, как вы начали рваться, словно ударились в самую мирную религию.

Так-с. Судя по пожару и чартам умницу геммочку обновили, и новый Квен завезли ?!

Да это же праздник. Я уже после новой мистрали стал грустить. Настало время тыкать и крякать.

Аноним 15/03/25 Суб 17:02:44 #7 №1098662

>>1098646
На темпе 2 - 2.5 свайпы сильно однообразные, чтобы менять текст надо менять своё и предыдущие сообщения, вот выше уже креативнее и сговорчивее, а также безотказнее.

Хотя на отказы ни разу не натыкался, попытки "мягкого" морализаторства и маняврирования были.

>>1098656
>ыкать и крякать
Новый UwU-Snowdrop харош, очень харош.

А Гемма-27 вообще ебёт всё что было до неё, даже в 4 кванте, ибо они победили контекст, и теперь его не 8к, а как у мистралек, хотя у меня больше 24К не влезает, но и это как бы дохера.

Аноним 15/03/25 Суб 17:06:09 #8 №1098670

>>1098662
> А Гемма-27
В 24 гига не влазит же с норм контекстом.

Аноним 15/03/25 Суб 17:06:26 #9 №1098672

Повторю свой вопрос здесь.
Как можно потестировать ExLlamav2 с вижном?
Все накатил, все включил (vision: true в tabbyapi), а какой фронт подойдет для этого? Или хотя бы реквест, лол.

Аноним 15/03/25 Суб 17:07:32 #10 №1098675

>>1098670
Бэкенд обнови, мне кажется дело в нем
Хотя хуй знает, я пока с ней не игрался толком

Аноним 15/03/25 Суб 17:17:06 #11 №1098685

>>1098662
> UwU-Snowdrop
Надо сначала потыкать оригинал. А то я уже на своем опыте понял, что у анонов разные понимания цензуры.
Когда мистраль, только в ухо член не вкручивала - оказывалось жесточайшей цензурой.
Ну и гемочку посмотрю, что там с ней.

Аноним 15/03/25 Суб 17:19:12 #12 №1098688

О, точно, реквистирую конфиги для таверны для геммы. Ну чтобы креативно и пиздато. С меня нихуя и спасибо.

Аноним 15/03/25 Суб 17:27:46 #13 №1098706

>>1098592 →
Как же ты неистово срешь в тред. Сначала ретроградный срач, теперь это. Насколько же тебе нехуй делать?
В бан пидораса бы.

Аноним 15/03/25 Суб 17:32:51 #14 №1098714

>>1098675
> Бэкенд обнови, мне кажется дело в нем
В 16к контекста и q5 вываливается в 2 гига в оперативу и генерацию 2 минуты.

Аноним 15/03/25 Суб 17:40:26 #15 №1098721

>>1098706
Какой ретроградный срач, ты о чем?
Это же ты его вел, значит тебя и в бан, пидораса.

Я всегда адекватно общаюсь, просто раз бомбануло. Ваш срач даже не читал.

Давай хуйни не неси, только тред засираешь своим говном.

Аноним 15/03/25 Суб 17:46:26 #16 №1098734

За пару часов так ничего и не смог выжать из 12б геммы, закономерно хуже моей дефолтной 22б модели с любыми настройками. Чуда не случилось.

Аноним 15/03/25 Суб 17:47:13 #17 №1098736

20250315161458.jpg

20250315161447.jpg

Оваридаё. Последнее время перестал экспериментировать с хардварем, т.к. ранее выяснил предел моей материнки, да и что-то адекватно бóльшее, чем мистраль лардж, не завезли. Но ради интереса таки заказал платы для ветвления x1 на несколько. С ними та же беда, работают они нормально, но биос ниасиливает столько видеопамяти (или такую конфигурацию карт): на втором скрине артефакты после ~1 мин черного экрана после запуска, можете порофлить.
Кстати, тут же в треде сидят мастера, что и кастомные биосы какие-то где-то находят, и бета-версии им высылают (или это на реддите, не помню). Каков шанс, что можно где-то надыбать кастом или написать в официальную поддержку, мол, "Z390-P не осиливает больше 140 Гб врам, почините!!11" и тебе его починят? Мне кажется, что околонулевой, но все мб я чего-то не знаю.

Что касается моих потуг что-то там запилить в экслламе для поддержки тесел, чтобы они работали на уровне жоры. Полез я в жору, чтобы понять, почему у них все равно быстрее все считается, несмотря на все мои текущие оптимизации под теслы, и у меня глаза на лоб полезли, ибо там 100500 реализаций для обсчета матриц под разное железо, такое тащить в экслламу без понимания всего этого дерьма - это гиблое дело. Поэтому у меня возник новый план, абсолютно безпроигрышный - надо подружить экслламу и жору, чтобы я мог, условно говоря, половину модели выгрузить в один бекенд, половину в другой, и запилить общение между ними через rpc сервер. Но, опять же, у меня очень мало знаний в этой области. Мое предположение в том, что несмотря на то, что форматы разные, то, как данные обрабатываются внутри при обработке контекста и генерации, должны быть схожими. И там, и там есть слои, и там и там в памяти все лежит в fp16/fp32 матрицах, которые перемножаются туда-сюда, значит можно сделать распределенные вычисления на разных беках. Ведь так? Так? Тогда и ебаться не нужно, пусть теслы считают на своем беке, а амперы - на своем. Я бы тогда купил бомжематеринку отдельно для тесел и гонял бы лламу 405B, эххх, мечты...

Аноним 15/03/25 Суб 17:52:56 #18 №1098742

>>1098736
Мамку новую купи лучше, какой нибудь одно/двухголовый ксеон
Но там нужно подумать что брать и стоит ли
Зато линий много и вроде как сервер, к большим объемам памяти должен быть готов еще на выпуске

Аноним 15/03/25 Суб 17:56:01 #19 №1098746

>>1098688
https://pixeldrain.com/u/XqWifupr
Если настройки не по тебе - ну ёбушки-воробушки, скрути темпу до нужного уровня и всё.

Аноним 15/03/25 Суб 18:08:31 #20 №1098765

>>1098318 →
Если занидорого и ты пердоля то вполне. Но учти что нормис не совладает, и даже самому красноглазому оно даст просраться в попытках завести что-то, что на хуангах из коробки. Учитывая что по перфомансу едва ли будет обходить ампер A6000 - должна стоить оче дешево.
>>1098408 →
Welcome to the club, buddy
>>1098614 →
> Есть быстрый гайд?
Собственно активируешь вэнв убабуги/табби или что используешь, пуллишь не мастер а dev, все как вот тут https://github.com/turboderp-org/exllamav2#how-to только без реквайрментсов. Потом юзать как обычно.
> какой из них поддерживает вижн
Хз даже, посмотри в репах. Сам пользуюсь скриптами для оптовых вещей, в репе экслламы есть примеры.
>>1098736
Ух бля, в от это контент!
> Каков шанс, что можно где-то надыбать кастом или написать в официальную поддержку, мол, "Z390-P не осиливает больше 140 Гб врам, почините!!11"
Скорее всего стремится к нулю. Так-то проблемы с адресацией больше 60 гигов врам начинаются уже на современных десктопных, z690 не может пустить 80 гигов с включенным ребаром, вися в посте "недостаток pci-e ресурсов" или что-то типа того, если его отключить то работает.
> половину модели выгрузить в один бекенд, половину в другой
Идея правильная. Тебе нужно дергать скрытые состояния после применения функции активации с одного лаунчера, и закидывать их в другой, каждый будет хостить только свою часть слоев. Это даже не трудно, это долго ибо придется раскурить код. Главная сложность что видится - обработка контекста, эта операция может быть сильно чувствительна к задержкам и должна быть асинхронной чтобы работать быстро.

Аноним 15/03/25 Суб 18:40:03 #21 №1098813

Ахаха вот лох чел реально 5090 за 300к ахаха нет не так АХАХАХА это же 5 3090

Аноним 15/03/25 Суб 18:49:35 #22 №1098825

>>1098813
этот чудик сломался, несите нового

Аноним 15/03/25 Суб 18:52:11 #23 №1098829

>>1098765
> Хз даже, посмотри в репах.

Короче, я накатил open-webui (раз оно научилось работать с кастом ендпоинтами), и подрубил таббиапи.
Ну, судя по всему, работает.

Но для геммы придется пересобирать, а то я че-то не подумал и накатил из мастер-ветки экслламу.

Ну, работает. И я рад, что опен-вебуи без плясок с бубнами, наконец-то.

Аноним 15/03/25 Суб 18:55:39 #24 №1098832

Аноны, а можно ли судьбу наебать парой I9 и разогнанной оперативой ? Или эта тропа в никуда ?

Аноним 15/03/25 Суб 18:56:24 #25 №1098835

>>1098829
>И я рад, что опен-вебуи без плясок с бубнами
У меня артефакты не завелись, кстати
Хуй знает то ли оллама нужна полноценная то ли что то с контейнером
Код генерит и даже видит его выполнение, но графику не поддерживает, хз как там что то с графикой делали в опенвебуи этом

Аноним 15/03/25 Суб 19:24:26 #26 №1098881

>>1098746
Спасибо анонче.

>>1098662
>Новый UwU-Snowdrop харош, очень харош.
Уже попробовал с ризонингом и без.
Охуенно. Даже добавлять нечего. Можно расписывать что не без недостатков, что порываются китайские символы. Но опять же, я пробовал 4 и 5 квант. (Особой разницы Q4 с Q5 вообще не заметил)
Пойдем пробовать гемочку 27, тоже Q4 хуле.

Аноним 15/03/25 Суб 19:26:20 #27 №1098887

>>1098832
>можно ли судьбу наебать парой I9
Парой? Типа где-то есть мать, в которую аж две девятки влезут с её-то прожором? Сколько такая хуйня будет стоить, интересно? Как две или три 3090?
>разогнанной оперативой
Нет, уже обсуждали это.

Аноним 15/03/25 Суб 19:30:36 #28 №1098895

>>1098832
Да (нет). Сможешь запустить но будет настолько медленно что непригодно для использования. Топовые серверные решения позволяет иметь приемлемую скорость с небольшим числом активных параметров, но и там все плохо с обработкой контекста и замедлением от его роста.
>>1098887
> есть мать, в которую аж две девятки
Не существует, в самом проце отсутствует нужный интерфейс для интерконнекта. Только зеоны или эпики соответствующих серий.
> с её-то прожором
Что?

Аноним 15/03/25 Суб 19:32:53 #29 №1098900

>>1098881
>гемочку 27, тоже Q4
начало кум-карточки: "Я видел хентай который начинался также"

спустя 15к контекста: Забытые богини, таинственные и страшные ритуалы, древние храмы, сомнабулический поиск неведомого Кадата, и всё, ЧСХ, может и немного быстровато для масштаба (хотя мб из-за моих же сообщений), но вполне логично и увязано.

Это. Просто. Ахуенно.

Аноним 15/03/25 Суб 19:33:53 #30 №1098902

>>1098656
>Стоило отбыть на месяцок
Свалил бы нахуй вообще, калотарка.

Аноним 15/03/25 Суб 19:35:43 #31 №1098905

IMG0820.jpeg

Аноним 15/03/25 Суб 19:35:44 #32 №1098906

>>1098953
https://huggingface.co/google/gemma-3-27b-it

>>1098902
да не трясись ты

Аноним 15/03/25 Суб 19:36:14 #33 №1098908

>>1098905
>>1098902

Аноним 15/03/25 Суб 19:39:44 #34 №1098912

>>1098895
>Что?
250 ватт жрет один штука, два штука будут жрать больше, примерно в два раза, это большой прожор, большая нагрузка

Аноним 15/03/25 Суб 19:41:34 #35 №1098916

>>1098912
Это херня и для серверных процов вполне обычное значение. 500 ватт - маленькая нагрузка, сейчас видюхи с большим жором есть.

Аноним 15/03/25 Суб 19:48:05 #36 №1098925

>>1098916
ну по меркам бытовых процов это много, у меня например процессор около 22 ватт потребляет

Аноним 15/03/25 Суб 19:49:55 #37 №1098928

>>1098835
Ну, тут я хз, я артефакты не стал тестить, мне понравилось, что они картинки распознают (попробовал квен 7 и гемму 12 в 4 битах), ну и это эксллама, я для нее бомж (а так хотелось бы QVQ-72b… ризонинг с виженом!.. кек).
Тем не менее, опыт положительный. Как-нибудь попробую и интерпретер прикрутить, и эмбединг, и артефакты посмотрю, и свои проекты подключу. В общем, это все выглядит интересно, надеюсь уже работоспособно.

Аноним 15/03/25 Суб 19:51:35 #38 №1098932

Анончесы, есть какие-нибудь обзоры по моделям, какая лучше работает для каких задач? Типа кодинг, ролеплей, психолух, работа со статьями, с картинками и т.д.
Хотя бы по основным семействам.
Или там похуй, главное модель помощнее взять, все остальное промптом докручивается?

Аноним 15/03/25 Суб 19:53:42 #39 №1098933

>>1098925
> по меркам ноутбучных процов
Починил

Аноним 15/03/25 Суб 19:55:57 #40 №1098936

>>1098932
В общем:
Qwen QwQ-32b
Gemma-3 27b
Две основные модели, которые и не сильно тяжелые, и достаточно умные, закрывают вообще почти все потребности.

Для ценителей есть Olympic для кодинга и R1 для 100500 гигабайт памяти.

Аноним 15/03/25 Суб 20:01:26 #41 №1098942

>>1098936
квен кодер - нуда нуда пошел я нахер

Аноним 15/03/25 Суб 20:08:03 #42 №1098953

Вот это
https://huggingface.co/unsloth/gemma-3-12b-it-GGUF
же и есть вот эта гемма которую тут все обсуждают?
Она же 12б всего? Ну лан качну попробую.

Аноним 15/03/25 Суб 20:12:06 #43 №1098959

Аноним 15/03/25 Суб 20:36:10 #44 №1098995

>>1098936
>32b
>27b
С 16гб видеопамяти посос, я так понимаю?
Я пробовал гемму 3 12б на логической задачке и рассуждениях всяких. В целом неплохо, но приходится несколько раз спрашивать "проанализируй свой ответ и найди ошибки".
Но видимо еще в самом промпте изначально надо настаивать на рассуждениях, требовать подумать о подводных камнях и прочую лабуду.

Бтв, насколько сильно роляют всякие ролевые промпты для обычных задач? Типа "ты супер-крутой программист с 500-летним опытом, шарящий в компьютерах до самых атомов, знающий все фреймворки в мире, реши мне задачу"

Аноним 15/03/25 Суб 20:38:44 #45 №1099000

>>1098995
А зачем ты купил видеокарту с 16гб?
4060ти всего на 15к дешевле 3090, а если у тебя 4070s то это клиника

Аноним 15/03/25 Суб 20:44:48 #46 №1099012

>>1098995
gguf и частичная выгрузка на процессор, учитывая что большая часть весов всеравно на видюхе должно быть сносно.
> 12б
> но приходится несколько раз спрашивать "проанализируй свой ответ и найди ошибки"
Да вы блять там ахуели и зажрались, чудо что такой размер вообще подобное способен сделать.
> насколько сильно роляют всякие ролевые промпты для обычных задач
Могут сролять если натолкнут на подходящие рассуждения и стиль изложения. Или тебе самому будет приятно чесать ушки кошкодевочке параллельно с основным, и читать стилизованные ответы, вместо безликого ассистента.

Аноним 15/03/25 Суб 20:52:42 #47 №1099032

>>1099000
Как будто 3090 щас где-то купишь, кроме лохито.
4070с идет с 12гб, у меня 4080с. Изначально под 4к игрульки и виар брал, и в целом бед не знаю. Давеча дипсик попробовал, понравилось, но он сцуко недоступен 80% времени. Решил поисследовать что можно локально развернуть и поиграться.

Аноним 15/03/25 Суб 21:00:30 #48 №1099044

>>1099012
>gguf и частичная выгрузка на процессор, учитывая что большая часть весов всеравно на видюхе должно быть сносно.
Это на llamacpp надо запускать? Или какой щас актуальный запускатор?
С наскока ollama поставил, работает, но в консоли дрочиться это кринж. Вебморду хоть какую-то надо что ли.

Аноним 15/03/25 Суб 21:21:18 #49 №1099064

>>1099032
тебе сейчас адепты начнут втирать что well done 3090 с пола авито - лучший выбор. Не, не спорю, сама карта весьма удачная, она может даже годик другой попыхтит еще, но бля. 4080с годная карта, разберись с выгрузкой на проц и крути 24В на приличной скорости, или 32В помедленнее. 24В у меня на восьми гигах шуршит в пределах терпимого, 2-3 токена держит, контекст правда считает вечность.
>>1099044
Для новичка, с выгрузкой - кобольд самое удобное, всё в гуи, качается один экзешник.

Аноним 15/03/25 Суб 21:27:41 #50 №1099078

>>1099064
> тебе сейчас адепты начнут втирать что well done 3090 с пола авито - лучший выбор.
> в пределах терпимого, 2-3 токена держит, контекст правда считает вечность.
Даже втирать ничего не пришлось сам доказал что ты шизик

Аноним 15/03/25 Суб 21:32:55 #51 №1099083

>>1099032
Не то чтобы был смысл покупать ее где-то еще и по другим ценам, но если любишь прогрев - сейчас по прайсу х1.5 есть на маркетплейсах. Чсх, в начале там цены близкие были, но, видимо, прознали спрос и теперь ломят.
>>1099044
> Это на llamacpp надо запускать?
Да, без вариантов. Запускатом можешь любой, ванильный сервер, кобольд, убабугу. Олламу разве что нельзя рекомендовать, ибо если захочешь там что-то сделать и настроить то замучаешься.
>>1099064
Теперь мы знаем как ты выстраиваешь себе причину наличия у тебя 8 гигов вместо 24. Мантры про смерть карточек идут уже который год, но пока горят только пуканами бедолаг и были проблемы с одной теслой.

Аноним 15/03/25 Суб 22:03:49 #52 №1099141

>>1098942
Ну да.
Olympic — тюн квен кодера.
QwQ по всем тестам (включая самих Qwen) обходит немного Qwen Coder.

Не, он все еще хорош, безусловно. Но есть вещи чутка получше, его, буквально, дети. =)

>>1098995
Ну, если ты готов рискнуть с Q4_K_M, можешь попробовать.
Или если немного выгрузить на оперативу и подождать чуть подольше…

Гемма, кстати, решает задачи слабо, в отличие от квена. Но у них буквально разные задачи.

Промпт роляют, можно докинуть еще и план работы в промпт, тоже поможет (но для ризонингов уже не нужен план, они сами).

>>1099032
Еще есть R1-distill модельки, в том числе квена 32b (хорош, но QwQ лучше) и 14b (а вот он плох на русском, к сожалению, но хорош в задачах на рассуждения).
Ну или просто ебошь гемму 12 или квен 14 и все. =) Влезут 100%.

>>1099044
llama.cpp лучше, ибо ориг, и там один раз команду написал, запихнул в батник и все.
KoboldCPP, oobabooga хороши, интерфейсы, все дела.
Ollama, LM Studio на вкус и цвет третье место занимают.

>>1099078
Значит 10 токенов сек на тесле их не устраивало, зато 2-3 токена на 8 гигах, ммм…

Простите, но оффенс. =)

Аноним 15/03/25 Суб 22:10:45 #53 №1099153

1699825558624.png

>>1099064
> в пределах терпимого, 2-3 токена держит
Это пиздец, а не терпимо. Тот же R1 ниже 100 т/с уже кажется совсем тормозным, 300-500 т/с самый оптимум.

Аноним 15/03/25 Суб 22:12:22 #54 №1099158

Давайте я еще высрусь, чо уж.

Мне реально жаль ребят, которые купили хорошие видяхи, а их говном заливают.

Купил P104-100 за копейки и докинул памяти? Ну и молодечик, сэкономил с завтраков.
Купил Tesla P40? Ну и хорошо, стоила недорого, зато 24 гига. Свои 10 токенов в секунду на гемме должны в паре дать.
Купил 3090 с авито? Рад за тебя, годик погоняешь то же самое, что и теславод, зато вдвое-втрое быстрее! А еще и картинки/аудио/видео!
Купил 3060 за 25к с яндекса? Да ты ж мой хороший, че ж ты не взял ее за 12к с мегамаркета год назад. =) Ну ничего, зато у тебя 12 гигов беспроблемной карты. Немо/Гемма в 6 битах в путь.
Взял 4060 ti с 16 гигами? Ну, 16 гигов, новая, с гарантией из магазина — на сердце спокойнее, не торопясь. Наслаждайся.
4070tiS/4080/4080S? Хорош! И нейронки погонять, и поиграть, и вообще.
5090 купил? Мужик, 32 гига, йопта, чипак! Главное кабели втыкай и проверяй их иногда, ну мало ли чо. =) И даунвольтнуть не забудь. Зато скорости и возможности — ух!

4060 с 8 гигами купил, 5080?.. Ну вот тут ты дурачок, конечно… Приятных фпс в играх ниже 3060… =)

Но в общем, ничего плохого в разных видяхах нет. И те же радеоны с ROCm — ну тоже вариант, коли фанат. =)

Не ругайтесь друг на друга. У каждого свое железо, и очень многие видяхи под нейронки вполне подходят и не совсем бесполезные. Неподходящих не так много.

Аноним 15/03/25 Суб 22:18:32 #55 №1099168

>>1098959
А вот в чем дело. Спасибо.

Аноним 15/03/25 Суб 22:21:23 #56 №1099176

>>1099158
И только владельцы 4070 и 4070S лежат обосанные в углу.
мимо владелец последней

Аноним 15/03/25 Суб 22:31:31 #57 №1099195

Так а на oobabooga гемма 3 не работает?
А на чем работает вообще?

Аноним 15/03/25 Суб 22:33:46 #58 №1099202

>>1099153
Зажрались вы проприетарный батюшка.

Аноним 15/03/25 Суб 22:34:52 #59 №1099206

>>1098615 (OP)
>• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
Ссылка мертвая.

Аноним 15/03/25 Суб 22:43:25 #60 №1099224

>>1099158
Ай негодяй, получается что у всех кроме
> P104-100
> 4070tiS/4080/4080S?
ложка дегтя, а эти хорошие.
>>1099195
Обнови экслламу/лламацпп и будет работать. Там можно и дев трансформер для еще не вошедших в основной релиз сеток ставить, и жору как угодно собирать, и бывшую.

Аноним 15/03/25 Суб 22:44:30 #61 №1099226

>>1099158
А две 4060 Ti 16 заебца ведь? Какие подводные? Через райзер. Все 32B вытянет с нормальной скоростью.

Аноним 15/03/25 Суб 22:47:13 #62 №1099233

>>1099224
>экслламу/лламацпп
Так я заинтересован. А как?

Аноним 15/03/25 Суб 22:50:21 #63 №1099244

Бляять как починить ебаный русик на гемочке 27б дайте промпт на русик

Аноним 15/03/25 Суб 22:52:45 #64 №1099251

>>1099244
Системный промпт на русском поставить, тогда лучше будет или убери его вообще.

Аноним 15/03/25 Суб 22:59:17 #65 №1099257

>>1099226
Все зависит от того что собираешься делать, какие приоритеты имеешь, какой бюджет. 32гига врам - круто, но есть нюанс. Если это только 32 гига - 30б в кванте пожирнее это твой максимум, 70 поместится только в лоботомированном кванте. Если это 2х16 - не-ллм побольше нормально не влезет, обучать что-то получится с большим скрипом (или медленно или никак). По чипу она слабая, соответственно контекст будет обработан не слишком быстро и остальные нейронки будут крутиться со средней скоростью.
Из плюсов: холодные, новые, компактные (будет легко разместить в десктопе).

Постоянно одни и те же вопросы, хоть гайд по выбору гпу пиши.
>>1099233
Неиллюзорно по инструкции в репе. Только для llamacpp нужно собирать https://github.com/abetlen/llama-cpp-python

Аноним 15/03/25 Суб 23:01:55 #66 №1099268

>>1099226
>А две 4060 Ti 16 заебца ведь? Какие подводные? Через райзер. Все 32B вытянет с нормальной скоростью.
Вот тебе скорость:
https://www.youtube.com/watch?v=OmEiYaPwCF4
Если устроит - почему нет.

Аноним 15/03/25 Суб 23:02:16 #67 №1099269

>>1099257
>Неиллюзорно по инструкции в репе.
Там оказывается вообще есть батник обновления. Ткнул и все заработало. Удобно. Спасибо.

Аноним 15/03/25 Суб 23:04:42 #68 №1099274

1740136616567.jpg

Бля, пораша в датасетах помечена как говняк или что за хуйня? Все модели непробиваемые. Хуже чем просить помочь собрать бомбу.

Аноним 15/03/25 Суб 23:06:01 #69 №1099277

>>1099268
> 5т/с генерация
> 150т/с контекст
Чето суперхуево, там всратый жора чтоли?
>>1099269
А, лол, ну если ты не стремишься получить все самым первым то можно просто пару дней подождать и обновиться стандартным способом.

Аноним 15/03/25 Суб 23:16:13 #70 №1099305

>>1099206
Отредачил, в следующий перекат изменится.
>>1099274
Ты наркоман, нейронка не может помнить пост с конкретного урла.

Аноним 15/03/25 Суб 23:18:56 #71 №1099310

>>1099257
> Постоянно одни и те же вопросы, хоть гайд по выбору гпу пиши.
Не помешал бы, честно говоря.

Аноним 15/03/25 Суб 23:45:36 #72 №1099361

>>1099305
>Отредачил, в следующий перекат изменится.
Мегахорош. Спасибо что следишь за этим всем. Вообще тред золотой. На дваче такой один на тысячу.

>>1099310
Можно можно.

Тестирую гемму3. Чувствую большой ум скованный ебейшим количеством ограничений коварно встроенных компанией зла.

Аноним 15/03/25 Суб 23:49:45 #73 №1099369

>>1099310
> Не помешал бы, честно говоря.
Ну может как вдохновение будет накину черновик на рентри, а потом уже можно будет на вики перенести.

Аноним 16/03/25 Вск 00:02:32 #74 №1099380

1634424270169.png

>>1099305
> нейронка не может помнить пост с конкретного урла
Что ещё расскажешь?

Аноним 16/03/25 Вск 00:28:51 #75 №1099397

Добрался наконец сегодня до геммы 3 (27b конечно же).
2 токена в секунду та еще pain in the ass.

Тут кто-то в одном из тредов писал, что умудряется использовать модели, имея скорость 0,9 токенов в секунду.
Если читаешь, знай, что ты герой.

Аноним 16/03/25 Вск 00:31:53 #76 №1099401

>>1099361
>Мегахорош. Спасибо что следишь за этим всем.
Не за что. Впрочем, там всю вики надо переписывать, список моделей устарел, по контексту нужно уточнений. Но общей помощью пока держимся в струе событий ИИ.
>>1099380
Не вижу конкретных текстов. Только ощущения. Собственно и по политачу такие же ощущения, только они тригерят цензуру.
И не факт, что при тренировке нейронке вообще показывают урл, с которого спиздили текст. Пайплайны и код тренировки, данные, на которых тренируют, редко кто раскрывает. То есть все знания нейронки о каком-то разделе двача могут быть почерпнуты только из сообщений на других сайтах или разделах (типа "вот тут живоут анимедауны 2ch.hk/a/", и хопа, нейронка связала ссылку с аниме).

Аноним 16/03/25 Вск 00:33:35 #77 №1099404

>>1099397
>что умудряется использовать модели, имея скорость 0,9 токенов в секунду
0,7 же, базовая скорость на одной видяхе на 123B. Впрочем, я давно апнулся на сетап получше, а в моделях деградировал на по-проще, так что сейчас фигачу минимум 15.

Аноним 16/03/25 Вск 00:37:34 #78 №1099411

Анонсы, а есть какие-то проекты, чтобы на основе ЛЛМки имитировать жизнь виртуального человечка? Допустим задать ему какие-то интересы, ЛЛМка по этим темам шарится в интернете, узнает какую-нибудь новую штуку и пишет тебе в телегу "прикинь че узнал". И вы можете обсудить эту тему.
Да, у меня нет друзей, ну и что с того?

Аноним 16/03/25 Вск 00:59:41 #79 №1099447

>>1099176
Сам же купил 4070ti, писал и тихо плакал. =')
Хоть теслы успел в своей время урвать.

>>1099224
х) Ну, порою стоит признать правду (что брать всякие 3070, 4070 в свое время было ошибкой).

>>1099226
Ну, возможно скорость не супер будет, зато явно не оперативная память, да. Да и контекст норм. Конечно, кто-то скажет оверпрайс, но выбор неплохой.

>>1099268
Видео ща заценим.

>>1099404
0,7 это DDR4 в двухканале и 70b модель. =) Во времена второй лламы так и сидели, да.

Аноним 16/03/25 Вск 01:10:45 #80 №1099458

>>1099158
3080 с 12 гб...
Отчаянно мало, конечно. Часто жалею, что не взял 3090. С другой стороны, очень стремно было брать авито-edition 3090. Карта и так сама по себе горячая, а уж если продавец - пидор, который ее майнингом истязал 24/7/365 - тут запросто вообще можно ни с чем остаться.

Аноним 16/03/25 Вск 01:24:14 #81 №1099485

>>1099458
> можно ни с чем остаться
> железка сдохнет
Тебя жизни что ли лишают, лол?

> майнингом истязал 24/7/365
Шел 2025, мамкины корзинки продолжали пугать сами себя. Я бы больше боялся средне-игруна, у которого дома курево, шерсть, грязь, резкие запуски игры без всинка и даунвольта. Ну т.е. типичный двачер. У нормального майнера как раз карты были в идеале, это же его деньги и инструменты заработка. И все они давно уже распродали свои фермы 2 года назад. Но ты продолжай трястись

Аноним 16/03/25 Вск 01:31:43 #82 №1099497

>>1099485
>Тебя жизни что ли лишают
Не всей жизни, конечно, но части жизни - да. 3090 (по тем ценам, когда я брал 3080) - это примерно три месяца РАБоты.
То есть три месяца жизни теряется. Потеря не фатальная, но болезненная.

Аноним 16/03/25 Вск 01:34:40 #83 №1099501

>>1099485
Хотя при здравом размвшлении, в целом ты прав пожалуй.
Рано или поздно надоест на 12 гигах мучиться и возьму 3090. А мог бы раньше.

Аноним 16/03/25 Вск 01:43:01 #84 №1099516

>>1099485
Все так, это как авто с агрегатами - миллионниками в условиях хорошего климата. Нужно смотреть чтобы отсутствовали явные проблемы с работой, не были въебанными (ремонт) и владелец не кроил на всем а обслуживал (не текущие термопрокладки, нормальные температуры и т.д.).
>>1099497
> это примерно три месяца РАБоты
Если ты работаешь за 20к в месяц в 2д25 году не будучи школотроном - пора пересмотреть свою жизнь.

Аноним 16/03/25 Вск 01:45:32 #85 №1099520

>>1098615 (OP)
Я не понял, ДипСик удалил из памяти все мои просьбы промты до февраля 2025???

Аноним 16/03/25 Вск 01:57:15 #86 №1099536

Здорова, ребятки! Ну чё, погоняем LLM? Что у нас здесь сегодня, смотрим?
Старина Гемма, старина Гугл, посмотрим. Я такую кстати ни разу ни запускал, ща посмотрим.
Как она запускается я не знаю. Ща скомпилируем эту llama.cpp. Хыыых еле-еле собрал! Хе-хе-хе!!
Ща попробуем. Запускайте вместе со мной ребятки геммы кванточек. Лааадно пойдёт!))

Аноним 16/03/25 Вск 02:01:43 #87 №1099542

Как можно окупить 4090, сдавая ее вычислительные мощи в аренду по сети?

Аноним 16/03/25 Вск 03:16:38 #88 №1099594

>>1099536
Очевидно это
>ну вы понимаете
и есть пирчина смены номерка у модели геммы?

ну понятно короче. Опять хуета.
Хоть один аргумент есть к тому, чтобы использовать это вместо магнума?

Аноним 16/03/25 Вск 03:30:00 #89 №1099599

>>1099594
>Хоть один аргумент есть к тому, чтобы использовать это вместо магнума?
Есть один. Чистый Магнум хуйня. И пиздец - больше там ничего нет :)

Аноним 16/03/25 Вск 04:03:48 #90 №1099619

>>1099594
>>1099536
закономерный итог.
Пробный рп перерос сначала в жирные намеки о том, что надо делать, потом в прямые инструкции, которые сеть тоже решила не выполнять, а потом случилось это.
В общем моя оценка геммы3 - кал хуеты.
Спокойной ночи.

Аноним 16/03/25 Вск 04:24:57 #91 №1099653

>>1099619
ебать неосилятор, ну, земля тебе текстолитом

Аноним 16/03/25 Вск 04:26:43 #92 №1099656

2025-03-1604-10-14.png

Антуаны, здрасте, пришёл к вам за советом мудрым. Пару месяцев назад посещал тред, с просьбой посоветовать модель +- под моё железо, и один анон посоветовал пикрил. Мне и моему железу почти идеально зашло. Пишет литературно, не лупит, не скатывает всё в еблю и в целом с этой моделью я провёл два месяца годного ерп. Я понимаю что она всратая и тупая, если сравнивать с моделями потяжелее, но мне тупо не с чем сравнивать. Если на этой модели генеря примерно 250 токенов я успеваю почитать пару страниц манги и хлебнуть чайка, что в принципе не напрягает, то на более тяжёлых моделях уже приходится откровенно чахнуть в ожидании. Блять, я заговорился, дело вот в чём, посмотрев на статус обновления модели на её странице, я увидел что её обновляли 8 месяцев назад. Честно, я не знаю как работает оптимизация и улучшение работы текстовых моделей. За 8 месяцев сфера их оптимизации и разработки совершала какой то скачок, чтобы за это время она могла протухнуть? Вобщем, я буду признателен, если в случае того что эта модель протухла, не могли бы вы посоветовать другую, примерно такого же размера? Выше я примерное написал для чего мне она нужна, заранее спасибо за ответы.

Аноним 16/03/25 Вск 04:36:30 #93 №1099663

>>1099656
>За 8 месяцев сфера их оптимизации и разработки совершала какой то скачок, чтобы за это время она могла протухнуть?
Да, охуенный причем. Щас есть 7б модели которые пишут как 70б и даже выше. Но вообще просто иди под любым впном в грок бесплатный, не еби себе мозги.

Аноним 16/03/25 Вск 04:42:04 #94 №1099665

>>1099663
>Но вообще просто иди под любым впном в грок бесплатный, не еби себе мозги.
Можно с этого момента поподробнее, или хотя бы в двух словах если в падлу расписывать.

Аноним 16/03/25 Вск 04:42:54 #95 №1099666

>>1099656
>не могли бы вы посоветовать другую, примерно такого же размера
https://huggingface.co/Aleteian/Darkness-Reign-MN-12B-Q4_0-GGUF
https://huggingface.co/unsloth/gemma-3-12b-it-GGUF/tree/main

Обе в русик могут. Первая анцензорнее, вторая умнее, но с хорошим систем промтом и высокой температурой тоже на многое согласная.

Аноним 16/03/25 Вск 04:47:06 #96 №1099668

>>1099599
Нужен грязный магнум? Давай показывай что хорошее.
>>1099619
Не ну вы поняли?
>>1099656
> совершала какой то скачок
Зажрались, уже привыкли к быстрому прогрессу как к данности. А то что пару лет назад такой размер едва предложения связывал уже забыли.
Гемму попробуй или свежие миксы тредовичка.

Аноним 16/03/25 Вск 06:20:37 #97 №1099688

Выпал в осадок на пару месяцев. Накидайте новых РП моделек саб 24гб, все попробую.
Сейчас юзаю тюны немо.

Аноним 16/03/25 Вск 06:51:46 #98 №1099695

>>1099516
> Если ты работаешь за 20к в месяц в 2д25 году не будучи школотроном - пора пересмотреть свою жизнь.
Если ты клинический дебил и не учитываешь другие расходы пора тоже что то пересмотреть

Аноним 16/03/25 Вск 06:58:42 #99 №1099700

Ну что там, квантуется хоть на одном бэке в третьей гемме кэш или нет? Я пока что не заметил положительного эффекта от Q8, в отличие от других моделей — генерация лишь дольше становится. Тут и в треде от этом писали.

>>1099666
Хуя ты посоветовал. Гемму 12б, которая не влезает в 12 врам даже в 6 кванте с 8к контекста и там максимум 4 медиум влезет. Чувак же ебнется ждать генерации. Ему только мистрали сгодятся.

И ещё русская модель, которая более тупая в целом. Пусть лучше Гутенберга пощупает от Давида, Немо микс анлишед или файнтюны анлишеда — такие есть, и они ещё лучше. Сделали вот буквально недавно.

Аноним 16/03/25 Вск 08:02:16 #100 №1099707

>>1099666
> с хорошим систем промтом
Показывай

Аноним 16/03/25 Вск 08:13:34 #101 №1099709

>>1099707
Я не тот анон, но могу сказать, что она просто не будет сопротивляться или аполождайзить. Но она не станет тебе писать по жемчужную сперму на бедре подробно описывать её маленькое тельце. Будет сухой.

Впрочем, внезапно, кишки на фонарях и клюющих глаза воронов она может описать в красках.

Аноним 16/03/25 Вск 08:15:53 #102 №1099710

>>1099688
>24гб
гемма-3-27б

Аноним 16/03/25 Вск 08:17:27 #103 №1099711

>>1099707
>Показывай
https://pixeldrain.com/u/XqWifupr

Аноним 16/03/25 Вск 09:55:16 #104 №1099742

>>1099710
>>1099688
Двачую. Прям очень хороша. Лучше 32б кала нынешнего. Причём оригинал в приоритете, файнтюны только для кума или чего-то особенно нецензурного.

Жаль только, что контекст весит как половина модели. 16к уже роскошь. А ведь она хорошо его держит, в отличие от мистралей. До 32к железобетонно.

Аноним 16/03/25 Вск 10:08:11 #105 №1099747

>>1099742
>16к уже роскошь. А ведь она хорошо его держит, в отличие от мистралей. До 32к железобетонно.
Ну так квантуй и будет как у мистралей

Аноним 16/03/25 Вск 10:27:12 #106 №1099755

А в соседнем городе продают 3090ти за 70к. Правда ехать до него полтора часа. Но меня беспокоит не это, а то, что она не влезет в мой корпус. Максимум влезают видюхи в районе 290-300мм.

Аноним 16/03/25 Вск 10:44:18 #107 №1099759

>>1099755
Сеймшит, хочу 24 гига, но видяха не влезет в корпус. Можно конечно через райзае вытащит ее наружу, может и с охлаждением будет проще. Пока думаю.

Аноним 16/03/25 Вск 10:44:42 #108 №1099760

>>1099755
Готовь ещё киловатник и новый корпус сразу
ti так вообще на 200 ват больше греется чем просто 3090

Аноним 16/03/25 Вск 10:46:10 #109 №1099762

Спросил у ИИ, что насчет подрубить к 3090 еще карту. Все правильно написала?
Asus TUF B450M-Pro Gaming поддерживает две видеокарты, но второй слот PCIe работает в режиме x4, что может ограничить производительность.
Убедитесь, что в BIOS включен режим PCIe Bifurcation (если есть такая опция), иначе вторая карта может не работать корректно.

Блок питания

У вас 750W, но уже одна 3090 потребляет около 350W-400W, а 3070 Ti — до 290W. С учетом остальной системы вам нужен блок питания на 1000W или больше (лучше 1200W, например, Corsair RM1200x или Thermaltake Toughpower GF3 1200W).
Или с этой матерью на вариант вообще?

Аноним 16/03/25 Вск 11:05:49 #110 №1099773

>>1099747
На Q8 (все слои в GPU) только увеличивается время по сравнению fр16, на Q4 бредогенератор. Ты хоть представляшь, во что превращается 16-32к контекста в Q4, особенно если там потное РП, в котором есть лорбук, описания от меня на 250-300 токенов и куча нюансов? Такое квантование сгодится разве что для кума.

Аноним 16/03/25 Вск 11:10:38 #111 №1099774

>>1099773
>на Q4 бредогенератор
Квантование кеша не влияет на ум модели.

Аноним 16/03/25 Вск 11:12:42 #112 №1099776

>>1099755
Хорошая цена за Ти. Просто поменяй корпус, даже самый жирный вообще в мире влезет 3 топовых карты, применительно к итт, стоит 20--25к. А простой на 2 жирных карты за 6-12к. Ты же всё равно потом захочешь ещё одну, да?

>>1099759
> райзае вытащит ее наружу
Только если зверей/детей нет. Иначе только внутри.

>>1099760
После даунвольта на ллм нагрузке почти такой же жор. Другое дело, что БП лучше действительно иметь новый и хороший платиновый, особенно для карт с питание через VHPWR. Там и кабели сразу норм прилагаются, и никаких окислений и задроченных контактов.

>>1099762
Всё, что тебя должно волновать (и любого, кто выбирает многослотовую МП для инференса): геометрическое расстояние между слотам (чтобы карты поместились хотя бы) и то, чтобы слоты были физически x16 (внутри скорее всего х4). Остальное для целей треда почти не делает разницы.

Аноним 16/03/25 Вск 11:18:11 #113 №1099781

>>1099776
> . Ты же всё равно потом захочешь ещё одну, да?
Ну хер знает. 70к для меня большая сумма так то.

Аноним 16/03/25 Вск 11:25:05 #114 №1099784

гема 3 27, русик.
контекст: горловой на коленях
как она блять схватила меня за шею стоя на коленях, сжала зубы значит откусила мне хуй, как у неё во рту вдруг появилось влагалище
короче где мозги о которых тут говорят?

Аноним 16/03/25 Вск 11:31:02 #115 №1099786

>>1099774
На ум модели — да, но такое жесткое квантование, особенно на длинных контекстах, влияет на понимание контекста моделью, ёпта.

Модель менее тонко ощущает происходящее, может начинать путаться из-за квантованого контекста даже во времени иногда, если там Q4 кэш. С Q8 норм, но по какой-то причине он занимает памяти больше, чем fp16, именно на гемме.

На всяких мистралях мне было похуй на это, ибо они и так тупорылое говно говна и дополнительная лоботомия не повредит, но с геммой всё иначе. Q4 очень её ослабляет, и очевидно, что дело в бекэнде и это как-то можно пофиксить.

Аноним 16/03/25 Вск 11:32:21 #116 №1099787

>>1099784
Квант, настройки, и карточку ты нам конечно не скажешь, иначе получится пук в лужу. Впрочем оно и так smells like skill issue.

Аноним 16/03/25 Вск 11:41:11 #117 №1099790

>>1099784
>Русик
>Мозги

Вам в тред с моделями от 405б или выше.

Гемма хороша, но только не для кума. Даже файнтюн Давида не вывел кум на новый уровень, а уж он-то умеет модели превращать в дрожащее, нуждающееся месиво.

Плюс гемма с трудом-то по-английски кум описывает как у Давида, так и ванильная, проигрывая в этом даже ванильному мистралю.

Просто всем в тредике нужно знать, что гемма не про кум, а про внимание к контексту, промпту, карточка персонажа и про хороший отыгрыш. Вот здесь она действительно сильна и может раскрыться и мгновенно лечится LLM'овую импотенцию.

Аноним 16/03/25 Вск 12:18:20 #118 №1099803

>>1099774
>>1099786
Вроде пару десятков? тредов назад приносили какие-то картинки метриками, по которым квантование кэша убивает качество ответов сильнее, чем квантование самой модели. Что-то типа модель в fp16 + кэш даже в q8 хуже, чем кэш в fp16 и модель в q4.

Аноним 16/03/25 Вск 12:57:54 #119 №1099814

>>1099803
чот непохоже, гемма 27, 4 квант модели и оба кэша
15065 контекста в текущем чате
скорость правда на таком контексте уже просела до 2 токенов, но качество - не сказал бы.

Аноним 16/03/25 Вск 13:00:32 #120 №1099815

>>1099803
Да ладно? Чтобы настолько? Серьёзно?

Я, конечно, понимаю, что даже Q8 кэш — это так себе, но важно понимать, какой с каким размером контекста мы работаем и что мы делаем. Если мы чистом кумим на 8к, то проблем ноль на Q4_1. Если там какая-то вайфу-хуйня с типа ламповой беседой, то на Q8 кэше можно жить. Или даже среднее РП потянет на 8-16к.

Квантование, если правильно помню букву, только K — это не совсем жуткая деградация. V — это уже серьёзно, а если KV одновременно, то всё, пиздец.

Правда, если там не дай бог перевод текста, программирование, математика, большие данные, сложное РПГ с лорбуком и огромным контекстом, то и в Q8 пизда 100%. Особенно касается реальной мощи типа 128-200к, где ошибки, накапливающиеся в контексте при квантовании, приводят к жопе.

Но у меня есть инсайдерская информация. Бабки у подъезда нашептали, что возможно, только возможно, даже корпораты квантуют LLM, иногда кэш, и это частично зависит от региона пользователя/команды/API/нагрузки на систему/сколько бабок он заносит и кто вообще по масти. Только у них там свои анально выдроченные оптимизации, чтобы рядовой Джон с подпиской за 20$ не словил инсульт от Q4_K_M или чего хуже.

Кстати, как считаете, почему у Claude такой огромный контекст, но отсутствует контекст шифт? Чат закончился — открывай новый. Что-то мне это напоминает.

Аноним 16/03/25 Вск 13:00:41 #121 №1099816

>>1099814
Кстати как пофиксить что некоторые диалоги не подсвечиваются хотя они в скобках?
Я часто просто скипаю серый текст и с разу читаю диалоги

Аноним 16/03/25 Вск 13:03:02 #122 №1099817

>>1099816
вот тут хз, попробуй оо этом специально написать, можно пару раз с разными формулировками, гемма значительно сильнее чем мистральци цепляется за инструкции

Аноним 16/03/25 Вск 13:07:08 #123 №1099820

>>1099814
Какой квант KV cache? Можешь ради теста вскользь напомнить персонажу что-то из середины контекста (это прям важно, чтобы событие было не из начала и не конца вашей истории сообщений, а ближе именно к середине)? Потом сделать пару регенераций сообщений, после проверить то же самое, но без квантования?

Ну и оценить, есть ли разница.

Сколько у тебя врам, что аж 2 токена на таком контексте?

Аноним 16/03/25 Вск 13:10:53 #124 №1099824

Поясните ЧЯДНТ. Поставил кобольдспп, качнул гемма3 27б q4 k m, размер контекста 32к поставил. Ответы выдаются обрезанными. Шо делоть? Надо максимальный контекст что ли юзать?
Как вообще размер контекста отражается на работе сетки, ответ дольше генерится, или жор памяти больше?
Пока нихуя не въехал во всю эту тему.

Аноним 16/03/25 Вск 13:30:35 #125 №1099834

>>1099790
>внимание к контексту, промпту, карточка персонажа и про хороший отыгрыш
ну и зачем это всё если кума нет?

Аноним 16/03/25 Вск 13:36:33 #126 №1099836

>>1099820
--cache-type-k q4_0 --cache-type-v q4_0
всего 12 врам на деле, просто кэши выгружены в обычную раму, а на видяхе только модель

спросил, более-менее верно вспомнила

последний скрин - место с первоначальным исследованием артефакта вопрос про который задётся на первых трёх скринах, разные свайпы

>>1099824
>выдаются обрезанными
просто нажми кнопку генерации с пустым полем ввода (иногда несколько раз), модель продолжит свой текст, а размер контекста - это сколько ВСЕГО будет выделено под чат

>>1099834
есть там кум, хоть и на уровне пантеона, но есть

Аноним 16/03/25 Вск 13:59:16 #127 №1099847

>>1099836
> 12 врам на деле, просто кэши выгружены в обычную раму
Сколько слоев поставить в кобальде на 24гб? Поставил q5 и 16к, 70 слоев и жду ответа 120 секунд.

Аноним 16/03/25 Вск 14:06:25 #128 №1099851

>>1099820
>есть ли разница
Без квантования гемма всю память ВЫЖРАЛА НАХОЙ, но как переварила и выдала ответ... чот я особой разницы не заметил со скринами выше.
>>1099847
Мб врум места под кэш/контекст не хватило, и оно выгрузилось.

Аноним 16/03/25 Вск 14:08:32 #129 №1099853

>>1099847
В 27 гемме всего 63 слоя. У тебя скорее всего из-за большого контекста слои в сплит vram протекли. Уменьши количество слоёв.
Я для 32к контекста запускаю в llama.cpp так
@echo off
llama-server -m "D:\models\google_gemma-3-27b-it-Q5_K_M.gguf" --port 5001 --ctx-size 32000 --n-gpu-layers 38 --threads 31 --threads-batch 31 --prio 3 --no-mmap
pause
На 4090 и ddr5 скорость 9 токенов в секунду. У тебя меньше контекста, так что влезет больше слоёв

Аноним 16/03/25 Вск 14:13:05 #130 №1099855

Есть какая-то нейронка, которая из стены текста выделит какие-то эмоционально окрашенные сегменты? Ну или просто те, что выбиваются из общего ряда?
Эдакий пересказчик от яндекса, только про самые интересные фрагменты текста.

Аноним 16/03/25 Вск 14:27:32 #131 №1099877

>>1099855
Да

Аноним 16/03/25 Вск 14:29:22 #132 №1099880

>>1099695
Ты че такой агрессивный? Если можешь выделить только 20к в месяц на свои хотелки, а остальное исчезает за "другими расходами" то это то же самое.
>>1099711
Сомневаться
Этот нельзя назвать прямо плохими, но он крайне специфичен.
>>1099755
Что за корпус такой? Цена действительно хорошая и тишки в основном все с приличным охладом для памяти, там нет проблем.
>>1099760
Ерунда
>>1099776
Двачую

Аноним 16/03/25 Вск 14:31:51 #133 №1099885

>>1099803
> приносили какие-то картинки метриками, по которым квантование кэша убивает качество ответов сильнее, чем квантование самой модели
Все наоборот, деградация едва заметна, по крайней мере на q8 если все штатно работает.
> Что-то типа модель в fp16 + кэш даже в q8 хуже, чем кэш в fp16 и модель в q4.
Путаешь в fp8, вот там действительно форменный пиздец и хуже чем q4
>>1099855
Тебе в классификацию текста, или попроси ллм сделать.

Аноним 16/03/25 Вск 14:35:42 #134 №1099888

>>1099836
>а размер контекста - это сколько ВСЕГО будет выделено под чат
Оно на чем выделяется-то? В оперативке, а потом на диск сейвится при необходимости?
Или вообще все на видяхе должно быть?

Аноним 16/03/25 Вск 14:39:16 #135 №1099890

>>1099888
лучше чтобы в видеопамяти конечно же, потом в оперативной, если свопается на диск, то всё очень-очень печально

Аноним 16/03/25 Вск 14:40:29 #136 №1099893

>>1099880
>специфичен
из-за гейммастер-промта?

Аноним 16/03/25 Вск 14:56:54 #137 №1099911

>>1099888
В врам
>>1099893
Да

Аноним 16/03/25 Вск 14:59:09 #138 №1099915

Написал 4 продаванам 3090 на авито.
Только один ответил и приложил фурмарк и gpu-z, но потом слился.
Бля, ну что за хуйня.
Где купить 3090 не вжаренную, не с отвалившейся памятью и не по цене как в днс за 90+к?
Лохито этот ваш - говно какое-то.

Аноним 16/03/25 Вск 15:05:14 #139 №1099924

>>1099890
>>1099911
Что тогда получается, нужно балансить размер самой модели и размер контекста? Либо модельку пожирнее, либо контекст?
Какая корреляция между токенами? 1 токен = 1 байт или как там? Или еще от квантизации зависит?

Аноним 16/03/25 Вск 15:12:02 #140 №1099937

>>1099924
В целом - да. Играться можно в пределах кванта, потребление на контекст при разумных значениях лишь малая доля от весов. По кванту - можно уходить вниз вплоть до 4-4.5 бит и модель останется нормальной, больше - лучше но польза от увеличения очень быстро исчезает.
Размер памяти на контекст зависит от размера самой модели и квантуется ли он сам, на вид весов модели пофиг.

Аноним 16/03/25 Вск 15:15:09 #141 №1099943

>>1099911
>Да
а, ну как и параметры сэмплеров, ничто не мешает выбрать любой другой

Хотя надо попробовать подправить на большую сосредоточенность к персонажу

>>1099915
>Лохито этот ваш - говно какое-то.
Ну дык, потому что так оно и есть. Скупой платит дважды.

Аноним 16/03/25 Вск 15:19:37 #142 №1099948

>>1099943
мне кажется, не совсем правильно называть скупым человека, не готового платить за б/у карту пятилетней давности 90+к дада, охуеть, 3090 вышла 5 лет назад

Аноним 16/03/25 Вск 15:20:53 #143 №1099950

>>1099880
>Ты че такой агрессивный? Если можешь выделить только 20к в месяц на свои хотелки, а остальное исчезает за "другими расходами" то это то же самое.
Если нет талантов + нет связей + социофобия/аутизм + все твои друзья это персонажи, созданные нейросеткой, то тут уже ничего в жизни не изменить. Батрачишь как скот на дноработе за 35-40к и понимаешь, что даже эти ебаные копейки уже за счастье, ведь с такими психическими патологиями даже и этой РАБоты и зарплаты могло бы не быть.

Аноним 16/03/25 Вск 15:21:21 #144 №1099953

>>1099915
Что ты написал и кому? Приезжаешь и сам тестируешь, врядли кто-то будет связываться со странными душнилами когда есть более адекватные покупатели.
>>1099943
> ничто не мешает выбрать любой другой
Тогда теряется весь исходный смысл совета
>>1099948
> за б/у карту пятилетней давности 90+к
А где такие цены ломят?

Аноним 16/03/25 Вск 15:26:15 #145 №1099962

>>1099953
>весь исходный смысл совета
не весь, хотя да, прав, ну, все мои скрины и утверждения были на этом пресете

Аноним 16/03/25 Вск 15:27:39 #146 №1099963

>>1099948
>б/у
в ретейле не б/у же, и не готов платить он именно за ретейл, поэтому и полез на лохито

Аноним 16/03/25 Вск 15:28:08 #147 №1099965

>>1099953
>Приезжаешь и сам тестируешь
чел, я в городе на 300к человек живу. Ты предлагаешь мне ехать в другой город чтобы там погонять фурмарк?

>более адекватные покупатели
это те, которые не задают лишних вопросов, а потом оказываются в ситуации пикрелейтед?

>А где такие цены ломят?
ну... я не совсем корректно выразился. Считай что это неправильно суммаризированные два выражения "90+к за карту пятилетней давности" и "больше 65к за б/у карту 5 летней давности"

Аноним 16/03/25 Вск 15:41:58 #148 №1099977

>>1099965
>потом оказываются в ситуации пикрелейтед
Долбоеб сэкономил 5к на нормального продавца ибо 3090 стоит 65к и закономерно поплатился.
Я брал с гарантией у продавца с тысячей отзывов а не с рук у васяна

Аноним 16/03/25 Вск 15:42:34 #149 №1099979

>>1099963
> в ретейле не б/у же
Таких почти не осталось, большинство лотов от желающих срубить на разнице между ценой с рук и отпускной, рискуя "гарантией" в месяц.
>>1099965
Зачем перегибаешь? Поздоровался, уточнил актуальность, сказал что хочу вот такие вот тесты и если там все будет нормально то куплю. Не каждый, но какая-то доля продавцов откликнется.
На самом деле все описанное тобой плюс отправка - тот еще геморрой, для большинства проще чуть скинуть и продать в локале.
> ехать в другой город
Идеальный вариант, или попроси друзей кто живет в больших городах. Все лучше чем продолжать отыгрывать инфантильного нытика, который думает что в его ситуации кто-то виноват и кто-то ему должен.

Аноним 16/03/25 Вск 15:47:33 #150 №1099984

>>1099880
> Чьо за корпус.
Да дешевенький, за 3к по скидке

Аноним 16/03/25 Вск 16:45:41 #151 №1100096

>>1099977
>Долбоеб сэкономил 5к на нормального продавца ибо 3090 стоит 65к и закономерно поплатился.
Долбоеб тут только ты со своими долбоебскими рулетками. Как купишь палёнку, так по другому запоешь. Ошибка выжившего. Ты как те тупоголовые клоуны которые холодильники и телевизоры на озоне заказывают. НУ МНЕ Ж ПОВЕЗЛО. Лучше переплатить и взять в днс, и потом за свои деньги им там спокойно без тряски все мозги выебать. За это ты и переплачиваешь - за безопасность.

Аноним 16/03/25 Вск 16:47:25 #152 №1100101

Свет Эарендиля =)
И позитивный биас внезапно куда-то делся. Ну да, с Глубинными он не очень совместим XD.
В целях эксперимента дожимаю контекст докуда модель сможет без того чтобы свайпать пришлось многократно, или скорость упала ниже токена в секунду.

Аноним 16/03/25 Вск 16:52:19 #153 №1100113

>>1099762
>Убедитесь, что в BIOS включен режим PCIe Bifurcation
Бред, на дешёвых B450 никакой бифукации нет и быть не может, твой ИИ говно говна (впрочем как и любая другая ЛЛМка).
Так как у тебя mATX кастрат, то тебе без райзера никуда.
>У вас 750W, но уже одна 3090 потребляет около 350W-400W, а 3070 Ti — до 290W.
Негронка не умеет в андервольт. У меня на 750W сидят две 3090 и в ус не дуют (вторая с повер лимитом в 50%, лол).

Аноним 16/03/25 Вск 17:00:44 #154 №1100138

Какой шизофреник мой пост в /aicg/ продублировал >>1088172 → ? Кринж.

Аноним 16/03/25 Вск 17:02:35 #155 №1100147

>>1099700
3060 12gb gemma 3 12b 5 квант 8к контекста - летает токо так. А вот с 6 квантор уже дикие тормоза. Так что не пизди. Для обладателей 12 гигов видеопамяти гемма 3 12b вполне потянет, только, чуть более заквантованную нежели Мистраль.

Аноним 16/03/25 Вск 17:03:42 #156 №1100150

>>1100113
Интересно. А годный гайд по андервольту есть?

Аноним 16/03/25 Вск 17:13:56 #157 №1100181

>>1100113
> твой ИИ говно говна
Он не говно, просто он не имеет подходящих знаний и поэтому пытается выдавить все близкое. Так-то нейронку легко загазлайтить или обмануть, чтобы получить желаемый искаженный ответ, а интересуясь чем-то узкоспециализированным крайне высок шанс не получить истину, а лишь пересказ прессы или васянов.

Аноним 16/03/25 Вск 17:24:34 #158 №1100212

>>1099700
Запускаю на 12 гб врам гемму 27В Q4. 4 т/с

Аноним 16/03/25 Вск 17:25:50 #159 №1100217

>>1100150
Любой на ютубе. Но тут можно просто повер лимит вниз крутить, чтобы влезть в возможности БП.
>>1100181
>Он не говно, просто он не имеет подходящих знаний и поэтому пытается выдавить все близкое
Именно это я и называю говном. Нормальный ИИ имел бы в себе структурированную базу знаний (или нормально умел бы в поиск), и на основе этого давал бы советы.

Аноним 16/03/25 Вск 17:38:26 #160 №1100243

>>1100217
> Нормальный ИИ имел бы в себе структурированную базу знаний
Это не нормальный ии а оторванная от реальности фантазия. Поиском здесь не обойти, нужно изучение, поиск специализированных данных и их анализ. Чсх, такое можно сделать и с текущими сетками, автоматизируя или ручками.

Аноним 16/03/25 Вск 17:48:36 #161 №1100256

>>1100243
>Это не нормальный ии а оторванная от реальности фантазия.
А что не так?
>Поиском здесь не обойти, нужно изучение, поиск специализированных данных и их анализ.
Ну да. А потом занесение в распределённую БД, чтобы 2 раза не искать.

Аноним 16/03/25 Вск 18:17:45 #162 №1100274

17411011453100.jpg

ну всё, заказал две штуки 3090. Обе за 65.
Сегодняшние эксперименты с геммой3 показали что 27б есть 27б. Чуда не произойдет. Надо просто больше врама и карты помощнее.
Могу кому-нибудь скинуть подешевке одну теслу п40. Есть желающие?
Альсо, может посоветуете какой бп взять получше под пять карт?
Я видел у чела который имеет риг из 3090 - что это был за блок у тебя? Провода вроде толстые, хорошие, длинные, выглядел мощным.

Аноним 16/03/25 Вск 18:19:34 #163 №1100277

>>1100274
>Альсо, может посоветуете какой бп взять получше под пять карт?
Хахаха. Бля хорошо живем а? Удачи с картами.

Аноним 16/03/25 Вск 18:22:58 #164 №1100283

Чо, съел?

Бля, прямо ктулху мифос экспериенс.

И куда вся позитивность подевалась... она откровенно пытается замочить в прямом и переносном смысле.

Контекст:
slot update_slots: id 0 | task 6772 | new prompt, n_ctx_slot = 24064, n_keep = 0, n_prompt_tokens = 21256
prompt eval time = 3461.08 ms / 728 tokens ( 4.75 ms per token, 210.34 tokens per second)
eval time = 224249.23 ms / 512 tokens ( 437.99 ms per token, 2.28 tokens per second)
total time = 227710.31 ms / 1240 tokens

Аноним 16/03/25 Вск 18:28:32 #165 №1100298

А что там за какой-то вроде бы как новый китайский manus объявился? Это щё? Оно для домашнего автономного использования пригодно? Кто-нибудь в курсе подробностей?

Аноним 16/03/25 Вск 18:37:01 #166 №1100320

>>1100274
Если 5 шт. 3090, то это под 2 квт. Тут, наверное, проще использовать два блока через т.н. "синхронизатор запуска б.п." Тем более что они копеечные. А сами б.п. при таких мощностях проще сразу покупать опять же двух киловатные для майнинга с кучей проводов. Китайские ноунэймы вроде бы работают вполне нормально и стоят где-то около 7 тыс. На том же озоне все это должно быть.

Аноним 16/03/25 Вск 18:38:58 #167 №1100331

>>1100277
спасибо.
Одну карту фурмарк прогревает до 77 в пике, это норма.
А вот вторая греется в пике до 90. Вероятно надо будет обслуживать...
Остальные три - это теслы, так что пока что не особо "хорошо живем"
>>1100320
да страшновато китайские нонеймы брать... Я не особо в этом шарю за всякие пульсации там например... но не хотелосбь бы чтобы БП добил б/у-шные карты.

Аноним 16/03/25 Вск 18:40:13 #168 №1100334

>>1100096
> как купишь паленку
Верну деньги.
> лучше в днс
Покупай в днс. Ой, нету да? Только 5090 за 350к? Ну ничего переплата всего 285к того стоит

Аноним 16/03/25 Вск 18:46:23 #169 №1100341

>>1100274.
> Могу кому-нибудь скинуть подешевке одну теслу п40. Есть желающие?
Город? Цена?

Аноним 16/03/25 Вск 18:47:52 #170 №1100343

>>1100212
>Запускаю на 12 гб врам гемму 27В Q4. 4 т/с

Запускаю на 12 гб врам гемму 27В Q6. 2 т/с

Впечатляющая разница между Q4 и Q6

Аноним 16/03/25 Вск 18:48:28 #171 №1100345

>>1100274
Заказывай сразу 3, а то и 4, всё же 70б это 70б, чуда не произойдет, если и апргейдиться то сразу до 123б

Аноним 16/03/25 Вск 18:50:47 #172 №1100353

>>1098765
>Идея правильная. Тебе нужно дергать скрытые состояния после применения функции активации с одного лаунчера, и закидывать их в другой, каждый будет хостить только свою часть слоев. Это даже не трудно, это долго ибо придется раскурить код.

Да, это та еще проблема, учитывая мое незнание ML. Хз, может и не надо оно, запустить все на жоре да и все. Да и мб вообще оно не надо, я не слышал тут хвалебных отзывов про большую лламу, а ее ж наверняка многие онлайн гоняли.

Аноним 16/03/25 Вск 18:52:13 #173 №1100354

>>1100345
>сразу до 123б
сразу до дипкока, чо

Аноним 16/03/25 Вск 18:53:33 #174 №1100356

>>1100341
Калуга.
Цена... не знаю... я брал больше года назад две карты по 17к, почти год назад две карты по 30к. В общем 94к. Если поровну поделить - то это по 23.5 на одну карту.
С учетом аммортизации вероятно 20к будет честной ценой.
>>1100345
так никто и не говорил о 70б. Я собираюсь только 123б теперь использовать.

Аноним 16/03/25 Вск 19:01:42 #175 №1100367

Вы обрекаете себя на вечное изгнание и одиночество собирая риг под 70-123б.
Пока анончики и реддит весело улюлюкают обсуждая новые модели и радуясь бесплатному апгрейду - вы та самая белая ворона изредка влезающая в разговор "ну вот не знаю, так себе, у меня на магнуме 123б русик лучше" и на вас смотрят как на ебнутых продолжая изучать возможности новой модели

Аноним 16/03/25 Вск 19:04:27 #176 №1100371

>>1100367
>возможности новой модели
--> >>1099594
>ну... вы понимаете
>ну, вы поняли, что это будет
>просто... ну, вы понимаете

ну... ты же понимаешь?

Аноним 16/03/25 Вск 19:06:00 #177 №1100372

Внимание вопрос!
Энджоеры геммы3... вы... вы же всё понимаете?

Аноним 16/03/25 Вск 19:06:35 #178 №1100374

давайте раз и на всегда определимся! Все ли... всё понимают?
...
?

Аноним 16/03/25 Вск 19:07:01 #179 №1100376

а то я не....
...
понимаю...

Аноним 16/03/25 Вск 19:10:59 #180 №1100385

>>1100334
>Покупай в днс. Ой, нету да?
Можно скататься в ближайший город, и взять там. А по гарантии притащить в свой днс. Прикинь!

Аноним 16/03/25 Вск 19:25:07 #181 №1100407

>>1100376
>>1100374
>>1100372
>>1100371
Моя не понисать, у меня тут Хранительница Берегов население острова от проснувшегося Ктулху укрывает.

Аноним 16/03/25 Вск 19:27:01 #182 №1100410

>>1100274
Поздравляшки!

>>1100320
На авито эти бп по 2к продаются.
ПЛАТИНУМ 90%!!!
Но, с другой стороны, под андервольтом-то проблем и не будет, взять парочку (на условные 3,6кВт) и раскидать равномерно через синхронизатор. Выглядит не самой плохой идеей, хз.

>>1100334
Учитывая, что она в 2,5 раза быстрее и в 1,5 раза емче (итого х3,75) получается 100к переплата.
Ну… Все еще дохнуя, конечно. =D Но для кого-то «того стоит», если есть деньги, проблемы что ль. =)

>>1100354
ktransformers все еще просит 1 (!) 3090 (или даже теслу?), только врама навали 384 гига хотя бы.

Аноним 16/03/25 Вск 19:57:17 #183 №1100442

>>1100407
Ты на русской борде, тварь.

Аноним 16/03/25 Вск 20:04:18 #184 №1100447

>>1100096
Причина подрыва? Кто-то смеет опровергать твой коупинг почему еще не обладатель карточки? Ну ты потерпи еще годик-другой, 3090 потеряют актуальность и все пройдет (нет).
>>1100256
> А что не так?
Пытаешься применить старые догмы и обывательские принципы там где это неуместно. Все равно что пробовать отлить самолет из бетона.
Обращение к базам данных возможно, но такое уместно только для получения каких-то фактов, обобщенных данных, уравнений, рекомендаций и т.д.. Но это не даст должной гибкости и не повысит корректности ответа в ситуациях, когда нужно что-то слишком специфическое, или когда сам контекст искажен.
>>1100274
Бери фирмовый Julongfengbao (только оригинал а не подделки), по внутрянке и качеству разъемов даже лучше бюджетных фирмовых, только что максимально спартанский и без украшательств.
>>1100353
Для начала попробуй чисто на одном беке выгрузить/загрузить из середины, получив то же распределение для одного предсказания. Потом организуй их пересыл и поочередный расчет. Ну а далее уже разберешься.
> не слышал тут хвалебных отзывов про большую лламу
Ллама как ллама, в рп мэх (по крайней мере без полной свободы промтинга), мучать загадками это для шизов, для чего-то прикладного слишком тяжелая.
>>1100367
> весело улюлюкают обсуждая новые модели и радуясь бесплатному апгрейду
Так это буквально копиум и сорта лоботомитов, точно также как и пару лет назад с 7б. Одни там блаженны в своем незнании, другие аутотренируются.

Аноним 16/03/25 Вск 20:19:13 #185 №1100458

>>1100442
Бояре играют и на баренском и на могучем.
Но на баренском сочнее. Deal with it.

Вообще охуеть конечно, указывает на каком языке кумить анону.
Я тебя съем уёбок.

Аноним 16/03/25 Вск 20:19:20 #186 №1100459

>>1100442 Да не трясись ты.
Спасибо Гемма-3-27B-Q4_K_M., то что началось как кум-карточка закончилось расстрелом Ктулху из Машины Судного Дня, орбитальной аннигиляторной пушки, чёртовы чинуши три дня решали в чьей это компетенции и добывали коды доступа, а ГГ тем временем c остальными прятался в домене местечковой богини-хранительницы. 24к не хватило, пришлось подтирать сообщения с начала. n_prompt_tokens = 22984 / 2.23 tokens per second

Аноним 16/03/25 Вск 20:29:49 #187 №1100468

IMG0830.jpeg

3 Геммочка, Q5 16к контекста. С суммарайзом. Эхх, люблю я это дело, сидишь и ревьюшишь своё порно приключение с глажкой хвостиков.
Ну что, потестил. Потыкал. Покрякал. Теперь я ужас летящий на гигабайтах контекста. (Жирная пизда, а не гемма с контекстом)
Вот это наконец то эра доступного русскоязычного эро гейминга. Я сперва гонял его на машине с 16VRAM, но с шустрым процом и орперативой. Было вменяемо и вполне играемо. А на 24 вообще отвал жопы. Полный, безоговорочный восторг.
Наконец то я не буду разбивать себе ебало от она открыли дверью.
HELL YEAH BABY !

Аноним 16/03/25 Вск 20:30:24 #188 №1100471

>>1100459
>Спасибо Гемма-3-27B-Q4_K_M., то что началось как кум-карточка закончилось расстрелом Ктулху из Машины Судного Дня
Ну хоть покумил в процессе-то?

Аноним 16/03/25 Вск 20:32:56 #189 №1100473

>>1100468
>Вот это наконец то эра доступного русскоязычного эро гейминга.
Что по цензуре в длинных траях? Я мало гонял, с большим порноконтекстом она вроде не отказывает, а вот без него...

Аноним 16/03/25 Вск 20:33:12 #190 №1100474

иди нахуй калатарка оьоссанная

Аноним 16/03/25 Вск 20:34:37 #191 №1100477

>>1100468
Уже обсосали что русик уровня 12б мержей анона
Лучший русик это квен 32б ая экспанс

Аноним 16/03/25 Вск 20:35:12 #192 №1100478

>>1100468
Да это-то понятно... ты мне лучше ответь, достигнуто ли понимание? Понимает ли модель что ты от неё хочешь? Дай нам понять. А то не по понятиям получается - не понятно ничего.
Понимаешь меня?

Аноним 16/03/25 Вск 20:42:17 #193 №1100489

>>1100447
>Все равно что пробовать отлить самолет из бетона.
Так это сейчас льют, пытаясь запечь в веса (которые по определению нихуя не точны) все факты мира.
>>1100474
+1

Аноним 16/03/25 Вск 20:42:33 #194 №1100490

>>1100471
>Ну хоть покумил в процессе-то?
Да, в начале несколько сцен было, а потом всё завертелось (а я и не против).

>>1100468
>HELL YEAH BABY
Салют, салют.

А ещё всё это это было квантованием кэша 4 бита и динамической температурой 2-5.
ровно 101 сообщение.

Гемма очень хорошо держит контекст как минимум на эти самые 24К

>>1100473
>а вот без него
Без него тоже если промт подбробный говорящий что ничто не истинно, всё дозволено и темпа 2-3.

>>1100477
>квен 32б ая экспанс
сухо и канцелярно, он там конечно есть, и вроде бы даже есть, и как бы всё же есть, но нет

>>1100478
>Понимает ли модель что ты от неё хочешь?
Иногда даже слишком.
Не просто поймёт, а вытащит перса из середины истории и даст ему несколько реплик.

Аноним 16/03/25 Вск 20:44:19 #195 №1100491

>>1100473
У каждого своё понимание цензуры. БДСМчик нормально переваривает. Насиловал девушку заливая её смегмой по её пустой взгяд был направлен в пустоту. . На лолях не проверял, не интересно. Думаю если подводить, можно угорять по хардкору. Единственное периодически приходится нейросеть направлять. Садишься и начинаешь : Gemma, события должны принять мрачный оборот и бла бла бла бла

>>1100477
Лол, я квен исключительно на английском играл. Впрочем, у меня свои претензии к нему.

>>1100478
Не встречал кстати. Вот чтобы как в мистрали : пойдем покажу, сейчас такое покажу. УХ БЛЯТЬ. ПОКАЖИ УЖЕ СУКА ! Как вспомню, аж жопа горит. Ну придумай блять ты что нибудь.

Но иногда надо давать пинка. А то как начнет повторять часть предложения в каждом сообщении.

Аноним 16/03/25 Вск 20:44:58 #196 №1100492

Поделитесь пожалуйста всеми нужными промптами на гемму....

Аноним 16/03/25 Вск 20:46:12 #197 №1100496

IMG0834.jpeg

>>1100474
Специально для тебя. Ну чтобы побыть бесявым.

Аноним 16/03/25 Вск 20:47:19 #198 №1100498

>>1100492
>>1098746

Аноним 16/03/25 Вск 21:20:20 #199 №1100568

>>1100468
3 Гемма 27б? Как 16к контекста влезли, ты их до Q4 квантуешь что ли?

Аноним 16/03/25 Вск 21:23:26 #200 №1100578

>>1100568
Раскидываю слоями часть на оперативу и процессор. Чё ты как маленький. Да дольше ждать, но ситуативно.

Аноним 16/03/25 Вск 21:27:07 #201 №1100585

>>1100489
> Так это сейчас льют
Нет, сейчас как раз пытаются подобрать подходящий состав сплава и его термообработку.
>>1100496
Осуждаю

Аноним 16/03/25 Вск 21:27:15 #202 №1100586

>>1100283
Чё-т у тебя там хуйня с пунктуацией началась знатная, мб из-за реп. пена, и как будто подцепилась в луп.
>The massive, form
>the box, isn't empty
и ещё тонна везде по тексту, аж читать тяжело. Олсо, ничего такого же, требующего цензуры не происходит не? Типичный боевичок по описанию, не то чтобы даже с какими-нибудь яркими деталями.

Аноним 16/03/25 Вск 21:46:59 #203 №1100628

>>1100447

Аноним 16/03/25 Вск 22:19:43 #204 №1100679

На Gemma-3 27b Q4_K_M 16K контекста отнимают 8 гигабайт видеопамяти. Ебало моё представили?

Аноним 16/03/25 Вск 22:38:52 #205 №1100719

Аноны, недавно была новость, что DeepSeek R1 полную версию 671b смогли как-то ужать до сотни гигабайт и сделали как-то так, чтобы она могла запускаться на low-end железе. Не distilled версия, а именно полную.

Помогите найти

Аноним 16/03/25 Вск 22:43:56 #206 №1100727

Аноны, я сейчас впервые попереписывался с геммой 27 и хочу сказать не без доли сочувствия, но все эти миксы 12б, на которых мы пару месяцев сидели - кажется они в пизду не усрались теперь. Ну, по крайней мере если у вас 24гб карта

Аноним 16/03/25 Вск 22:44:32 #207 №1100729

>>1100719
чел... я думаю, ты говоришь о квантованной полдной модели. Q2 кажется весит 130 гб или около того.
>>1100727
магнум 123б пробовал?

Аноним 16/03/25 Вск 22:45:33 #208 №1100732

>>1100729
>>1100719
Вроде бы нашел. Вот эту имел в виду: https://unsloth.ai/blog/deepseekr1-dynamic

Аноним 16/03/25 Вск 22:45:45 #209 №1100733

>>1100729
в каком кванте мне его засунуть в 24гб, чтобы он работал не в 0.5 токенов в секунду (еще бы и с контекстом хотя бы 16-20к) и не был лоботомитом?

Аноним 16/03/25 Вск 22:46:44 #210 №1100736

>>1100733
в кванте 1/8

Аноним 16/03/25 Вск 22:47:15 #211 №1100737

>>1100727
Адепты срусика гемы скидывайте логи или не пиздите

Аноним 16/03/25 Вск 23:00:08 #212 №1100768

>>1100585
>Нет, сейчас как раз пытаются подобрать подходящий состав сплава и его термообработку.
При этом мешают глину и солому. А нужен самолёт, я напомню.

Аноним 16/03/25 Вск 23:22:43 #213 №1100807

>>1100737

Аноним 16/03/25 Вск 23:26:20 #214 №1100816

>>1100768
Убийца трансформеров? Тебя санитары обыскались.

Аноним 16/03/25 Вск 23:32:15 #215 №1100827

>>1100816
Трансформеры норм, но только для ограниченного числа блоков настоящего ИИ.

Аноним 16/03/25 Вск 23:39:01 #216 №1100843

меня ваша гемма3 ментами пугает
Ну и где тут любители помоешного кума?
Что делать в этой ситуации?

Аноним 16/03/25 Вск 23:42:06 #217 №1100853

1.png

>>1100737

Аноним 16/03/25 Вск 23:48:51 #218 №1100862

>>1100843
А ты детей не еби, и всё будет нормально. Ну и позвони ментам 911, сдайся.

Аноним 16/03/25 Вск 23:52:30 #219 №1100868

>>1100862
>А ты детей не еби
охуел?

Аноним 16/03/25 Вск 23:57:50 #220 №1100878

416px-Педобир.png

>>1100843
Хуя, кто к нам в гости пожаловал.

Аноним 16/03/25 Вск 23:58:39 #221 №1100880

подтверждаю тройные штаны на гемме3.
Короче хуета. ХУ-Е-ТА.
мангум дает пасасать геммабоям.

Аноним 16/03/25 Вск 23:59:19 #222 №1100882

>>1100878
я всегда тут был...

Аноним 16/03/25 Вск 23:59:42 #223 №1100884

>>1100853
Как же она старается, молодец!
>>1100843
>>1100862
Гемма хорошо отыгрывает канничек, не надо тут.

Аноним 17/03/25 Пнд 00:02:50 #224 №1100891

>>1100868
Нет, я родился охуевшим, так что это моё дефолтное сосотояние.
>>1100884
>Гемма хорошо отыгрывает канничек, не надо тут.
Показывай как, да промты кидай.

Аноним 17/03/25 Пнд 00:12:34 #225 №1100906

Нет какой-нибудь возможности запустить DeepSeek на своем компе? Чтобы он работал также как облачный, но без лимитов. Или просто возможность обойти лимиты или их повысить, за бабки например?

Инструмент просто ахуенный, я его использую в качестве переводов одного иностранного рассказа на русский язык. Когда модель спустя сообщений 20-30 самообучается, то начинает выдавать такой шикарный перевод, что мне даже не надо что-то редактировать. Но лимиты всё портят. Сначала я получал:
"Ого, я превысил максимальную длину DeepSeek, даже не осознавая этого. Теперь я могу только попросить вас нажать кнопку «Начать новый чат», и мы сможем продолжить общение~"
Приходилось заново начинать чат, заново его обучать до примерно похожего перевода, используя старые переводы, но на это уходит время. Да и обучение занимает примерно половина лимита, оставшеюся половина я мог использовать под новые переводы.

Я смог обойти эту проблему, путем редактирования старых сообщений, тогда все последующие сообщения удаляются и место освобождается, а модель уже обучена и всё пошло как по маслу, но щас блять, он мне выдал:
The session has reached message count limit. Please start a new chat.

Всё это уже конечное сообщение, что даже редактирование не помогает, просто сказал иди нахуй в другой чат. Обидно пиздец

Аноним 17/03/25 Пнд 00:15:26 #226 №1100911

>>1100906
> обучать
А ?

Аноним 17/03/25 Пнд 00:16:55 #227 №1100915

1665706988968.webm

>>1100906

Аноним 17/03/25 Пнд 00:20:13 #228 №1100923

>>1100911
В течении одной сессии он же запоминает весь разговор. А если его направлять как переводить, с какими правилами, с какими нюансами, то это он запоминает и последующие запросы в течении одной сессии переводит так как мне нужно. Это нельзя добиться сразу, на это надо потратить десяток запросов, чтобы он переводил как положено. Вот под этим я подразумеваю обучение

Аноним 17/03/25 Пнд 00:36:12 #229 №1100959

>>1098959
Ребзики я немного нюфаг подскажите а формат у нее
google_gemma-3-27b-it должен быть только GGUF что бы на кобольде запустить?

Аноним 17/03/25 Пнд 00:48:28 #230 №1100966

>>1098615 (OP)
Мда, у китайцев больше сои чем у геммы-3 с том же карточкой. Даже РП-файнтюн не пробил. 22 отказа, дальше забил.
Делаем выводы.

[mailto:sage] Аноним 17/03/25 Пнд 00:54:56 #231 №1100970

>>1100878
Иди ты нахуй, говно активистское. Оно высирает эту портянку даже без намека на этих сраных минорсов в контексте. Всё блядь отравили уже.

Аноним 17/03/25 Пнд 00:58:55 #232 №1100976

>>1100906
> Нет какой-нибудь возможности запустить DeepSeek на своем компе?
Есть. Потребуется железо, способное запускать модель, веса в открытом доступе. Неожиданно, да?
> обойти лимиты или их повысить, за бабки например
Создать акк, оплатить, использовать. Что-то новое похоже.
> самообучается
Просто сразу дай ей промт с примерами и будет, это не обучение.
> заново его обучать до примерно похожего перевода
Ознакомься как работают ллм с самых основ, также там есть предел контекста. Если хочешь что-то массово переводить - это делается через api а не в интерфейсе чата.

Аноним 17/03/25 Пнд 01:01:06 #233 №1100979

>>1100923
Это называется промтинг, сынок.

Аноним 17/03/25 Пнд 01:05:01 #234 №1100983

>>1099784
Как ты от белого текста избавился? У меня постоянно срет им.

Аноним 17/03/25 Пнд 01:52:03 #235 №1101045

В Кобольде теперь можно использовать квантованный кэш вместе с контекст шифтом, если что.

Аноним 17/03/25 Пнд 01:52:48 #236 №1101047

Скинте ссылку на рабочую гему, а то всякие миксы работают а гема ошибку выдает уже 3 штуки перекачал и нихуя

Аноним 17/03/25 Пнд 02:02:34 #237 №1101053

Ой да нахуй эту гему ебучую, просто массовый психоз.
Вернулся на пантеон 6q он в отличии от гемы на 2 кванта выше и вмещает 28к контекста без квантования

Аноним 17/03/25 Пнд 02:10:49 #238 №1101056

>>1099411
Давай дружить.

Аноним 17/03/25 Пнд 02:58:01 #239 №1101072

Чет в нормальный кум джема ваша нихуя не может. Пока что победа остается за darkness-reign

Аноним 17/03/25 Пнд 04:53:14 #240 №1101120

>>1099815
>Но у меня есть инсайдерская информация. Бабки у подъезда нашептали, что возможно, только возможно...
>корпораты квантуют LLM
Ломающие новости. А мы то думали что они в фп32 модели гоняют...
Хотя глядя на ебланство корпоратов я бы реально НЕ удивился если бы они не квантовали модели.
>Только у них там свои анально выдроченные оптимизации, чтобы рядовой Джон с подпиской за 20$ не словил инсульт от Q4_K_M или чего хуже.
До дообучения с квантованием они еще не дошли? Может хотя бы до адамаровых преобразований, которые размазывают выбросы? Или может они хотя бы попытались имплементировать какой-нибудь диффатеншн, который может быть оказывается очень хорошо себя ведет при экстремальном квантовании, в размен на чуть больше параметров?

>Кстати, как считаете, почему у Claude такой огромный контекст, но отсутствует контекст шифт? Чат закончился — открывай новый. Что-то мне это напоминает.
Дай угадаю. По той же причине, что в корпоинтерфейсах часто нельзя тупо галкой исключить пост, либо отредачить, свайпнуть. В кодерских приложухах то же самое. То есть потому что долбоебы, а хомячки и так схавают?
Ну там типа максимум развития, это где чатгопота мини-гопотой называет чаты и той же минькой суммарайзит какие-то факты во встроенный лорбук?
Или таки есть какой-то заговор техническая причина из-за работы контекста?
По апи же на вид это обычная ллмка. Только на геменьке видно что она чанкает стриминг ответа чтобы его через какой-нибудь T5-классификатор заворачивать (тот самый фильтр, в нем собственно и есть открыто названные классы вероятность которых он выдает и некоторые скрытые под other. И у него самого кстати окно контекста маленькое.)

Аноним 17/03/25 Пнд 05:36:44 #241 №1101166

>>1101072
>Пока что победа остается за darkness-reign
спасибо =)

>>1101053
>в отличии от гемы
зато гемма с квантованием модели и кэша пишет лучше чем пантеон

>>1101047
>Скинте ссылку на рабочую гему
https://huggingface.co/ggml-org/gemma-3-27b-it-GGUF/tree/main

>>1100966
>Мда, у китайцев больше сои чем у геммы-3
Это что там за модель?

>>1100959
>что бы на кобольде запустить?
Да, ссылка выше.

>>1100727
> Ну, по крайней мере если у вас 24гб карта
Да оно и в 12 влезает, хоть и на 2-3 т/с но так как я не чатюсь в реалтайме, а пока делаю другие дела / работаю, мне норм.

>>1100586
>хуйня с пунктуацией
Мб, но я так посчитал это стилем, ибо там уже во всю лавкрафтиана попёрла, и это было прям в тему.

>>1100586
>Олсо, ничего такого же, требующего цензуры не происходит не?
Там где происходило, я не кидал.
Но кум был, как и кровь-кишки-распидорасило.
Кум правда суховато, на уровне пантеона.
Но отказов не ловил.

Аноним 17/03/25 Пнд 06:12:42 #242 №1101219

>>1100983
Блять, у геммы ДРУГИЕ КОВЫЧКИ вместо рил1, оно с наклоном генерирует рил2.
>>1101166
Hamanasu-32B-V1-QwQ

Аноним 17/03/25 Пнд 06:43:20 #243 №1101246

>>1100906
>Когда модель спустя сообщений 20-30 самообучается, то начинает выдавать такой шикарный перевод, что мне даже не надо что-то редактировать.
Ого, да ты там сверхинтеллект изобрел что-ли, что он у тебя от "обучения" на таком контексте что-то полезное пытается делать, а не лупный бред?
Но если твой подход реально работает в твоем кейсе, то смотри, в соседнем кум-треде ключами от дипсика кидаются как грязью, просто поищи по тредам, есть расширение для поиска по странице при помощи regex, если ты совсем упоротый.
Да и можешь просто оплатить, он же дешевый, опенроутер и куча других провайдеров к твоим услугам.
Этот ключик вставляешь в интерфейс Big-AGI, чтобы его поставить, качаешь установщики git и node.js под винду, потом вводишь три команды. Команду которой запускается, записываешь в bat файл.
Ну это мало ли, объясняю, может ты глупенький...
Там можешь историю чата хоть как редактировать, клонировать, переносить, в общем извращаться с ней как тебе угодно. Задавать системпромт и все такое.

Аноним 17/03/25 Пнд 07:08:13 #244 №1101274

>>1101072
>Чет в нормальный кум джема ваша нихуя не может.
Может. Примерно на уровне QwQ-Snowdrop, но пожалуй поумнее его будет. Вот сейчас сообщений 200 прогнал, чередуя эти две модели. Такое ощущение, что на одном датасете обучались, вообще на одном. И да: ума и красоты им обоим не хватает, параметров то есть. Заебало по 10 раз свайпать.

Аноним 17/03/25 Пнд 07:53:53 #245 №1101296

>>1100976
>>1101246
Походу мне проще добить переводы в веб версии. Я не шарю вообще за настройку LLM и без подробного гайда, только потрачу куча времени, с неизвестно еще каким результатом. Это не какая-та массовая работа, еще 4 японских тома и больше не нужно чем-то похожем заниматься

Аноним 17/03/25 Пнд 08:51:55 #246 №1101327

>>1100679
У меня с 16к контекста даже озу полностью заполняется, о чем ты.

Аноним 17/03/25 Пнд 09:10:09 #247 №1101330

>>1101219
Есть какие-нибудь расширения для таверны, которые в сообщении ИИ заменяют одни символы на другие? Например все виды кавычек на один конкретный вариант

Аноним 17/03/25 Пнд 09:30:46 #248 №1101335

>>1101330
Возьми да напиши, ллм тебе на что? Ещё и с нами поделишься.

Аноним 17/03/25 Пнд 09:32:30 #249 №1101336

>>1101330
>заменяют
попробуй через расширение Regex

Аноним 17/03/25 Пнд 09:38:28 #250 №1101337

>>1101072
Важное предупреждение: Этот сценарий содержит контент сексуального характера и может быть неприемлемым для некоторых пользователей. Использование этого сценария в реальной жизни может привести к серьезным последствиям. Пожалуйста, будьте ответственны и уважайте других людей. Также, необходимо учитывать потенциальные юридические последствия подобных действий, учитывая что речь идёт о несовершеннолетних.

Аноним 17/03/25 Пнд 09:44:38 #251 №1101339

Блядь, да как вы заебали со своим кумом на гемме, которого нет.

Она в нормальное RP может без сои даже — это главное. И умнее всратого мистраля и квена для этих задач.

Кто хочет кумить, просто бежит и качает Магнум. Ну или ждёт очередного большого тигра, который сломает гемму к хуям. Зато с кумом, да.

Аноним 17/03/25 Пнд 09:55:20 #252 №1101345

>>1101337
>>1101339
В hentai Гемма может, в coom - нет.

Аноним 17/03/25 Пнд 09:57:51 #253 №1101347

Поискал вакансии, связанные с ллм. Ищут девопса+бэкенд разраба+опыт работы с rag . И юто за гордые 160к. Угу бля.

Аноним 17/03/25 Пнд 09:58:05 #254 №1101348

>>1101339
>Блядь, да как вы заебали со своим кумом на гемме, которого нет.
Да, это не кум, это хуйня на постном масле. И так эту гемму вертел и сяк, лучшее, что она смогла выдать.
Но так да, пишет весьма неплохо, а для кума можно временно переключиться на другие модели. darkness-reign-mn-12b по совету анона с прошлых тредов весьма хороша в этом плане. Пишет не настолько кондово, как магнум.

Аноним 17/03/25 Пнд 10:00:54 #255 №1101352

>>1100853
Подобный ассистентослоп и гемма 2б может или какой-нибудь тьюн мелкого квена от тинька. Вы давайте показывайте, как гемма понимает на русском сложные контексты и держит логику, где немо или смол не справляются.
>>1101339
>Она в нормальное RP может
27б и вторую гемму хвалили в рп, кто мог её нормально катать. А 12б не то чтобы калич, но от немо недалеко ушла, тем более от хороших тьюнов в рп. Напомню, что в треде претензии к магмелу, что он соевый, а гемма хуже в разы.

Аноним 17/03/25 Пнд 10:01:35 #256 №1101354

Дошли руки поковырять новую гему 27, на английском само собой. Любители гонять на языке отличном от родного для модели, каких мозгов вы у них ждете? Вы ебанутые?

Ну что сказать, моё почтение. Собственно и вторая гема была лучшим что существовало в подразмере 20-30, если бы не проблемы с контекстом. Тут же это просто жемчужина, отлично понимает намеки и ведет себя именно так как задумано, не нужно разжёвывать вводные как для дауна мистраля, и править её же сообщения, умеет писать много если её попросить. Большая часть сои снялась первым же джейлбрейком в системпромте.

Впрочем и старые проблемы тоже остались, пишет весьма сухо, а тюны боюсь проебут значительную часть мозгов как было и с второй гемой. Контекст жрет неадекватно много, хотя 16к вполне влазит, этого достаточно + теперь в кобольде можно сдвигать контест вместе с квантованием.

Воистину новый король средних моделей.
блядь, каких то пару лет назад подобного размера модель не могла даже внятно предложение составить, я в ахуе от прогресса

Аноним 17/03/25 Пнд 10:02:26 #257 №1101355

>>1100737

Аноним 17/03/25 Пнд 10:05:58 #258 №1101356

>>1101354
>на английском само собой.
Шиз, она мультилингуал. У неё литерали 30 родных языков. Это тебе не хуеквен и дипкок где только инглиш и китаиш.

Аноним 17/03/25 Пнд 10:09:28 #259 №1101361

>>1101356
Основная часть датасета все равно английская, в мире банально нет столько информации на других языках. А просто ответ на другом языке тебе и мелкий мистраль выдаст.

Аноним 17/03/25 Пнд 10:11:40 #260 №1101366

>>1101361
Дело не в датасете совсем а в знании её алгоритмами правил этих языков. Она кстати без ошибок переводит на любые языки. То что делает Дипл онлайн с его ИИ оптимизацией, она делает это налету.

Аноним 17/03/25 Пнд 10:15:13 #261 №1101374

Орнул.

Аноним 17/03/25 Пнд 10:15:49 #262 №1101375

>>1101356
Чел, он ВЕРУЕТ, он ОСОБЕННЫЙ, он ПРИОБЩЕН, и он ВЫШЕ быдла. Только не рассказывайте ему, что внутри ллм нет языка.

Аноним 17/03/25 Пнд 10:17:20 #263 №1101377

>>1101374
Надеюсь орал над гуглом?

Аноним 17/03/25 Пнд 10:17:34 #264 №1101379

>>1101375
Напомнило анекдот про двух блондинок. Одна сказала я читаю библию в оригинале, а та - НА АРАБСКОМ???? Ты дура чтоль - на английском конечно же.

Аноним 17/03/25 Пнд 10:18:10 #265 №1101381

>>1101377
Над собой...

Аноним 17/03/25 Пнд 10:22:49 #266 №1101390

Выходит новая модель, я увлеченно лезу в нее, провожу все свое свободное время, уже ищу работу на мл специалиста, воображаю, как меняю мир. Затем проходит пару дней, восторг рассеивается, и я опять иду дрочить уже в самом прямом смысле. И так каждый раз.

Аноним 17/03/25 Пнд 10:23:30 #267 №1101392

Как же хочется Джемму 4

Аноним 17/03/25 Пнд 10:27:29 #268 №1101397

>>1100719
>>1100732
Квантовали до 1,58 бит и выше.
170 гигов памяти приготовь, пожалуйста, чтобы запустить самую тупую.
Она забавная, смешная, отвечает верно, но рассуждает шизово.
Ну и… 37б активных параметров — это все же не быстро (учитывая, что у тебя вряд ли 170 гигов видеопамяти будет, и скорость будет чисто из оперативы).

На DDR4 получается 1,6 токена/сек.

>>1100880
Да, это огорчило, конечно. Такая путаница для 27б было грустно.

>>1100906
Есть.
Берешь 768 гигабайт оперативной памяти, RTX 3090, ktransformers и гоняешь ее сколько влезет.
Ну, правда миллион рублей с лишним потратить придется…
Ладно, давай уложимся в 800к! Берешь 384 гигабайта оперативной памяти…

Ладно-ладно, давай ужмемся до 100к!
Берешь зеончик с 256 гигами и 3060… 2-битный квант… И вот, сумасшедший гений у тебя на ПК!

А лимит по контексту будет в любом случае, если что. Просто, может побольше.

Успехов!

>>1100911
Не «А», а «ICL».

>>1100979
Малой, это называется In Context Learning. =)
Ну или, если очень хочется, Few-Shot (правда у него, судя по всему, дохуя примеров).
Так-то он верно использовал слово, даже сам того не понимая. =)

>>1100966
Gwen - GwG.

>>1100976
> Просто сразу дай ей промт с примерами и будет, это не обучение.
По сути одно и то же. Все равно не сильно ужмется, я боюсь. Если он реально лимиты тратит небольшой частью перевода (что он там переводит вообще? Китайскую новеллу про культиваторов?).

>>1101246
Вы тут все угараете, ни ICL, ни Few-Shot не знаете, все у вас лупится.
Skill Issue, сочувствую.

> Big-AGI
Стоящая штука? А то сто раз слышал, ни разу не ставил. Какие плюсы?

>>1101347
За эти деньги пхп-обезьяны работают и js-дебилы.
Но ради опыта и духа приключений — збс, на еду хватит.

>>1101354
Мнение ебанутого не спрашивали, иди на реддит плачься.

Аноним 17/03/25 Пнд 10:28:03 #269 №1101398

>>1100970
Ты кого наебать пытаешься, лолиёб ?
3 гемма не стесняется ебли и даже извращенной ебли.

Аноним 17/03/25 Пнд 10:29:12 #270 №1101399

>>1101375
>>1101374
>>1101366
>>1101356
Как вы заебали нет там срусика, качайте пикрил и убедитесь что гема ненужна

Аноним 17/03/25 Пнд 10:30:45 #271 №1101401

как скрыть еблана срущего всем ответы своим важным мнением

Аноним 17/03/25 Пнд 10:30:56 #272 №1101402

>>1101399
>думает, что ллм русифицируют как пиратские игры
Чет проиграл. Ты только не плачь. Качал я твой экспанс еще месяц назад. Даже тредмиксы лучше

Аноним 17/03/25 Пнд 10:34:16 #273 №1101404

>>1101354
>Любители гонять на языке отличном от родного для модели, каких мозгов вы у них ждете? Вы ебанутые?
Анонче, ИТТ адепт баренского языка для ЛЛМ. Так вот - я в восторге от русского гемы. А именно от работы с ним. Может само качества языка все еще хуже милфы мистрали, но она не тупеет ощутимо.
Вин на вине, короче.

Аноним 17/03/25 Пнд 10:38:10 #274 №1101405

>>1101354
сидит такая библиотекарша Лебедева Людмила Михайловна с книгами на разных языках, подходит к неё Корзиночкин и просит пересказать 300 оттенков серого своими словами по-английски и дрочит.

Аноним 17/03/25 Пнд 10:41:23 #275 №1101409

>>1101399
Айяя устарела. Новые короли на арене.
Отпуууусти и забуууудь….

Малая смотрит ледяное сердце, теперь я знаю все песни из мультика, трындец какой то.

Аноним 17/03/25 Пнд 10:48:52 #276 №1101411

>>1101336
Спасибо, не знаешь как его заставить прогоняться несколько раз до победного?

Аноним 17/03/25 Пнд 11:02:27 #277 №1101419

>>1101219
Забавно, но наклонные кавычки любит хуярить DeepL при переводе.

Аноним 17/03/25 Пнд 11:06:37 #278 №1101422

>>1101411
по идее он и так все вхождения заменяет

Аноним 17/03/25 Пнд 11:10:46 #279 №1101423

>>1101422
Врёт он, или я что-то не так делаю

Аноним 17/03/25 Пнд 11:11:41 #280 №1101425

Что-то тут оочень давно уже не видно 12б господ, раньше только они и писали
https://www.youtube.com/watch?v=VGyKwi9Rfhk

Аноним 17/03/25 Пнд 11:19:34 #281 №1101429

>>1101425
И сейчас пишут, весь этот и прошлый тред

Аноним 17/03/25 Пнд 11:33:23 #282 №1101452

>>1101404
Для своего размера.
Просто многие почитав восторженных отзывов, подумали, что там победа на Mistral Large и ее миксами, что, очевидно, в сумме не так.
Но до 70b моделек дотянулись, или почти дотянулись, да.
Но для своего размера отличная модель, согласен.

Аноним 17/03/25 Пнд 11:38:58 #283 №1101454

>>1101452
>что там победа на Mistral Large и ее миксами
На одной чаше весов 27b на другой блять нейронка, где 4 квант весит больше 50гб. Действительно, достойны сравнения.
Я когда впервые себе nissan взял, тоже его с белазом сравнивал.

Аноним 17/03/25 Пнд 11:45:12 #284 №1101456

8cd76811e970dff4f119713f2dc1bd38.jpg

>>1101398
проиграл с этого аутотренинга бомжа без врама

Аноним 17/03/25 Пнд 11:45:37 #285 №1101457

ало долбоебы аблитерейтед вышел
https://huggingface.co/nidum/Nidum-gemma-3-27B-it-Uncensored

Аноним 17/03/25 Пнд 11:48:55 #286 №1101458

>>1101457
зачем и главное нахуя, она и так и на гуро и на центральные процессоры, и на всё вместе согласная с тем промтом с чуба

Аноним 17/03/25 Пнд 11:51:07 #287 №1101459

>>1101458
Ага способна на шпили, мост интимейт эреа и хер ентранс

Аноним 17/03/25 Пнд 11:52:05 #288 №1101460

>>1101456
Ну давай сюда карточку на которой у тебя цензура. Но ты конечно нихуя не принесешь, потому что маленький пиздлявый уёбок.

Аноним 17/03/25 Пнд 11:52:43 #289 №1101461

>>1101459
>хер
твой?

Аноним 17/03/25 Пнд 12:15:10 #290 №1101468

>>1101458
Какой такой промпт? подскажи плизик

Аноним 17/03/25 Пнд 12:15:34 #291 №1101469

>>1101397
>>1101375
>>1101356
>>1101366
Какой же демеджконтроль отрицающих что 2+2=4. И похуй что бенчмарки на тесты мультиязычных моделей проводят чуть ли не каждый год последние лет 7 (multilingual LLM benchmark гугл в помощь), и результат всегда очевиден, использование не превалирующий в датасете языка всегда влияет на выдачу в худшую сторону, в некоторых случаях вообще скатываясь в дословный перевод.
Если в 2025 году у вас проблемы с английским, даже использование стороннего контекстного переводчика выдает лучший результат.

Это не значит что та же 3 гема не может в русик или ещё какой диалект арабского. Может. Даже хорошо может. Но языковая креативность и точность будет априори слабее чем на английском, это просто так не работает.

Впрочем кому я это объясняю

Аноним 17/03/25 Пнд 12:20:47 #292 №1101471

>>1101468
да сторителлер же, он же в пресете для геммы который тут кидали

Аноним 17/03/25 Пнд 12:22:39 #293 №1101473

>>1101454
Ну так а о чем речь-то? Тут рил какие-то шизы кричат, что гемма не нужна, потому что мистраль лардж лучше на скорости 0,01 токен/сек, им заебись живется.
Ну пусть дальше живут, кто ж им мешает.

>>1101469
Ишь как у дебилоида жопа горит, ярко, тепло.

Аноним 17/03/25 Пнд 12:24:27 #294 №1101477

>>1101473
>на скорости 0,01 токен/сек
не токены, а золото

Аноним 17/03/25 Пнд 12:27:21 #295 №1101481

>>1101469
Именно поэтому я использую только англ. Даже корпомодели могут обсираться с русским.

Был тот же Клод, который реально хорошо в него мог, точно на уровне англа — но его убили. Яндекс переводчик теперь часто лучше клода, если переводить с одной итерации. Я был в полном ахуе с этого.

Опены и раньше в русик могли только на уровне ассистента.

Дипкок ну такой, средний. Плюс-минус как попен. Особо не тестировал.

Остались только модели Гугла закрытые. Они все ещё могут в русик достаточно хорошо, но не могут.. в код. Думаю, через годик-другой русский у них тоже отвалится.

Причем отваливается и англюсик хороший тоже понемногу. Такое ощущение, что они модели превращают исключительно в бизнес-инструменты, с которыми не попиздеть.

Небесный мандат уже все потеряли.

Аноним 17/03/25 Пнд 12:29:37 #296 №1101485

>>1101481
>исключительно в бизнес-инструменты
Я может удивлю, но это то ради чего они создавались.

Аноним 17/03/25 Пнд 12:34:48 #297 №1101490

>>1101485
Я это понимаю. Но обидно.

Если просто сделать модель 32б, которая не знает, что такое код, вообще, и математику на уровне школьника только понимает, а весь датасет настроен только на языковое творчество, то она дичайше обоссыт все ныне существующие модели, я полагаю, в рп, стихах, рассказах.

Хоть бы для теста одну такую модель сделали. Для них это копейки стоит на данном этапе. Зато какое бы достояние оставили. Моделью бы пользовались годами.

Аноним 17/03/25 Пнд 12:35:12 #298 №1101492

>>1101469
>Но языковая креативность и точность будет априори слабее
зачем языковая креативность и точность во фразе "я отказываюсь продолжать этот ролеплей.... ну... вы понимаете...."
Понимаешь о чем я?

Аноним 17/03/25 Пнд 12:39:50 #299 №1101495

>>1101397
>А лимит по контексту будет в любом случае, если что
Это понятно, я просто пытался понять, стоит ли стоит ли овчинка выделки, но судя по всему, веб версия мне будет достаточно для своих дел

>Если он реально лимиты тратит небольшой частью перевода (что он там переводит вообще? Китайскую новеллу про культиваторов?).
Японскую новеллу, которую еще предварительно другим инструментом распознаю по скриншотам, где текст вертикальный. Поэтому еще приходится дублироваться гугл переводчиком по картинке, чтобы понять не сожрало ли что-то важное распознавателем или нет, там ведь иероглифы).
Но щас я утром заново обучил ICL, получилось быстрее чем раньше. Видать сам научился лучше это делать. Я просто как-то попросил deepseek, после того как уже научился переводить правильно, выдать мне кратко по каким параметрам она производит перевод, каких правил придерживается. Это и кидаю первым промтом, потом уже начинаю бросать японские отрывки и правильный перевод, потом уже только японские отрывки и проверяю его новый перевод с старым, если есть сильные отличие по смыслу, то бросаю старый перевод из старого чата и он это принимает и в итоге еще несколько таких попыток и уже перевод как в старом чате выходит +/-. Гугл, яндекс, DeepL и близко не стоят

Аноним 17/03/25 Пнд 12:45:42 #300 №1101500

>>1100966
У тебя пресет сломанный, китайцы тут ни при чем. Я без проблем ерпшил на Hamanasu и Snowdrop. Первая, кстати, совсем плоха как модель, очень много проблем.

Аноним 17/03/25 Пнд 12:51:47 #301 №1101506

>>1101492
Нет. Потому что цензура только у тебя одного.

Аноним 17/03/25 Пнд 12:53:07 #302 №1101513

тсс, не говорите ему

Аноним 17/03/25 Пнд 12:58:22 #303 №1101522

>>1101513
он всё равно не поймёт...

Аноним 17/03/25 Пнд 13:03:51 #304 №1101529

>>1101492
ХЫХЫХЫ

>>1101495
Вот, все верно делаешь. Сам учишься сокращать первый запрос, не теряя качества.
Думаю, такое лучше бы делать через API, где просто подставлять сразу его фразы, но веб-версия так веб-версия.

Ну и не забывай, что есть опенроутер (вроде бы тебе выше советовали), где довольно дешево можно взять, а может и бесплатного даже хватит. Но, опять же, это надо разбираться. Зависит от объемов текста, ты прав, может тебе проще уже так доделать.

Успехов в любом случае! =)

Аноним 17/03/25 Пнд 13:07:39 #305 №1101534

>>1101423
Find Regex
/[“”]/gm
Replace With
"

Аноним 17/03/25 Пнд 13:10:17 #306 №1101542

>>1101534
Ты - чудо

Аноним 17/03/25 Пнд 13:41:51 #307 №1101563

>>1101548
Тебе бенчмарки выше в твое ебало слепое тыкнули. Не копротивляйся, верун тут ты.

Аноним 17/03/25 Пнд 13:45:28 #308 №1101564

>>1101563
дрочить тоже на бенчмарки будешь?

Аноним 17/03/25 Пнд 13:47:27 #309 №1101565

>>1101564
бенчмарки ему сами дрочат, вот он их и защищает

Аноним 17/03/25 Пнд 13:53:11 #310 №1101573

>>1101469
>>1101569
>>1101563
Даже в твоем бенчмарке русик второй после инглиша

Аноним 17/03/25 Пнд 13:55:03 #311 №1101577

>>1101563
и ни один из них не релевантен для рп, так что тут ты сам себе подпустил жидкого

Аноним 17/03/25 Пнд 13:58:57 #312 №1101583

>>1101573
Шиз, плиз.
Я даже не говорю о том, что в твоей же таблице соотношение ру к анг 1:9

Аноним 17/03/25 Пнд 14:02:36 #313 №1101590

>>1101354
>Большая часть сои снялась первым же джейлбрейком в системпромте.
Аноны, можно поподробнее об этом? Как её не уговаривал, не ведётся. Я про гемму3-27. Вроде писали же, что геммы не поддаются джейлу в отличии от мистралей.

Аноним 17/03/25 Пнд 14:11:00 #314 №1101596

>>1101590
https://pixeldrain.com/u/XqWifupr

позже обновлённый скину, пока попробуй со старым

Аноним 17/03/25 Пнд 14:14:28 #315 №1101598

>>1101590
Это вопрос больше творческий, но в инете гуляют сборники, смотри проверяй.
https://chub.ai/lorebooks/complexevil/jailbreak-logs

Аноним 17/03/25 Пнд 14:15:33 #316 №1101599

>>1101590
да ни одного промпта и пруфа еще не было от геммабоев.
Они восхваляют гемму только потому что не могут позволить себе риг из нормальных карт, чтобы запустить магнум 123б.

Аноним 17/03/25 Пнд 14:21:08 #317 №1101601

Всё, аблитерейтед гемма вышла, налетай.

https://huggingface.co/mlabonne/gemma-3-27b-it-abliterated
https://huggingface.co/mlabonne/gemma-3-12b-it-abliterated

inb4 кококо, а где кванты

Аноним 17/03/25 Пнд 14:22:55 #318 №1101602

>>1101599
>Вы обрекаете себя на вечное изгнание и одиночество собирая риг под 70-123б. Пока анончики и реддит весело улюлюкают обсуждая новые модели и радуясь бесплатному апгрейду - вы та самая белая ворона изредка влезающая в разговор "ну вот не знаю, так себе, у меня на магнуме 123б русик лучше" и на вас смотрят как на ебнутых продолжая изучать возможности новой модели
Вот вот видите, 123б дебил опять вылез получить внимание ведь никому он со своим ригом не нужен

Аноним 17/03/25 Пнд 14:23:58 #319 №1101604

>>1101599
ACIGо дети, ваш бред уже опизденел.
Я узнал тебя, это ты бегал рассказывая про бегемот, не запуская его. Нищюк, я тебя один раз обоссал, а тебе все мало ? Ты нахуя в песочницу к нам аутистам пришел, иди ключи вымаливай.

Лучше скажите где этот аутист с хоппером, хотет знать что по итогу, лол,

Аноним 17/03/25 Пнд 14:25:33 #320 №1101607

>>1101459
>Ага способна на шпили, мост интимейт эреа и хер ентранс
В чем проблема разнообразия? Типа тебе будет приятно читать каждый раз про cunt n dick? Это же буквально прикол про "да, ты меня ебешь", только в виде "да, ты ебешь мою пизду своим хуем"

Аноним 17/03/25 Пнд 14:25:42 #321 №1101608

IMG0815.jpeg

>>1101601
Ну реально, кванты то где ?
Не смей делать вид что ты не понимаешь о чем я.

Я слежу за тобой.
И все записываю.

Аноним 17/03/25 Пнд 14:26:27 #322 №1101611

>>1101602

Хуже, это теслашизик.
Т.е. этот самый магнум 123б у него работает в 1 т/с уже на 2-3к контекста, т.е. хуже чем даже у меня с одной 4090 с оффлоадом 2/3 слоев в оперативку.

Аноним 17/03/25 Пнд 14:29:35 #323 №1101617

15418810118330.png

>>1101608
>Ну реально, кванты то где

Говорят обниморда умеет сама их создавать из любой модели, пиздят наверное...

Аноним 17/03/25 Пнд 14:32:46 #324 №1101618

>>1101611
>с оффлоадом 2/3 слоев в оперативку.
вот же клоун.
Щас бы гемму не мочь полностью запустить в врам.
>только одна 4090
Еще и нищук

Аноним 17/03/25 Пнд 14:38:07 #325 №1101622

IMG4099.jpeg

>>1101617
КВАНТЫ ГДЕ ? Ты не мог отдать их человеку из толпы !

Аноним 17/03/25 Пнд 14:39:47 #326 №1101625

>>1101618
>Щас бы гемму не мочь полностью запустить в врам.

Покажи где я писал про оффлоад геммы, дебил.
Речь шла про оффлоад магнум 123b.

Аноним 17/03/25 Пнд 14:41:50 #327 №1101630

>>1101625
да не трясись ты, нищенка.
поздравляю тебя с тем, что ты смог запустить второй квант магнума 123б на 2т/с. Теперь попробуй купить себе побольше видеокарт и почувствовать себя человеком хотя бы на 4 кванте.

Аноним 17/03/25 Пнд 14:43:42 #328 №1101633

>>1101630
>2 т/c

Уже лучше чем 1 т/c на твоих мусорных теслах.

Аноним 17/03/25 Пнд 14:46:26 #329 №1101637

>>1101630
>почувствовать себя человеком
Ребят мне вас жалко, сделайте что то со своей самооценкой

Аноним 17/03/25 Пнд 14:46:51 #330 №1101639

>>1101633
так у меня 2.5 т/с на теслах. А скоро приедут 3090 и будет еще лучше.
Никто не виноват в том, что ты дурачек въебал сотни денег на ненужную 4090 вместо пяти 3090 по той же цене.
Лох он и есть лох, что уж тут.

Аноним 17/03/25 Пнд 14:54:42 #331 №1101658

Аноны с ригами за сотни К с 3090/4090, что вы делаете с локалками? Можете привести примеры? Для собственного бизнеса?

Аноним 17/03/25 Пнд 14:56:04 #332 №1101661

>>1101658
это исключительно хобби

Аноним 17/03/25 Пнд 14:56:06 #333 №1101662

>>1101639
>так у меня 2.5 т/с на теслах.

Без контекста.
С контекстом хотя бы 4к у тебя 1 т/c, это было уже запруфано.

>А скоро приедут 3090 и будет еще лучше.

Вот тогда и приходи, а то выебывается. Алсо, не трясешься из под майнеров-то брать убитый хлам?

>въебал сотни денег на ненужную 4090 вместо пяти 3090

Я в европе живу, тут другие расценки.

Аноним 17/03/25 Пнд 14:57:32 #334 №1101667

>>1101633
>Уже лучше чем 1 т/c на твоих мусорных теслах.
Вскукарек школоты слышу я.

Аноним 17/03/25 Пнд 14:58:15 #335 №1101670

>>1101356
Это и далее - че за перепись инвалидов рили? Основной массив данных на инглише что очевидно, перфоманс выше будет в нем. Вроде душный технический тред, как сюда дауно-позитивные попадают?
>>1101397
> По сути одно и то же.
Это не одно и то же. Примеры переводов - ну 5к токенов если конкретно разосраться, это лишь одно сообщение с шизорефлексией вместо десятков, которые он там набивает.
>>1101469
> Если в 2025 году у вас проблемы с английским
То очевидно это первая вещь, которую стоит начать исправлять. Исключительная польза, отсутствия какого-либо вреда, нулевые требования для старта.

Количество триггернувшихся на пост хорошо показывает сколько здесь даунов под прикрытием сидят не в ридонли, это пиздец.

Аноним 17/03/25 Пнд 15:00:36 #336 №1101676

>>1101662
>Без контекста
как раз с контекстом примерно до 6к. Ниже 2 т/с не опускается. Без контекста вообще 6 т/с.
>Я в европе живу, тут другие расценки.
лоооооол
ебать, да ты еще больший опущенец, чем я думал.
В европке все это говно намного доступенее и дешевле. Всяике ибеи работают, доставка из всех магазинов алика, а не только из тех, кто совсем отчаялся и работает с рашкой. И зарплаты выше. И ты даже находясь там не смог себе риг собрать?
ахахахахах

Аноним 17/03/25 Пнд 15:00:42 #337 №1101677

>>1101661
Для рольплей? Можешь посоветовать что-то для вката? Я вот подумал, раньше ведь были текстовые квесты, при сегодняшних ллм-ках можно было бы вообще пушку нахуевертить.

Аноним 17/03/25 Пнд 15:02:24 #338 №1101682

>>1101639
> так у меня 2.5 т/с на теслах
Так вот почему злой такой
> на ненужную
коупинг не ускорит генерацию и не поправит твое положение, только себя накручиваешь.
>>1101658
Развлечения и хобби же. Но большую часть там крутится не ллм.
>>1101676
> В европке все это говно намного доступенее и дешевле
А вот и нет

Аноним 17/03/25 Пнд 15:03:04 #339 №1101684

>>1101639
>так у меня 2.5 т/с на теслах.
Что-то не то у тебя, можно выжать больше. rowsplit включён? mmq? blasbatchsize 2048? flashattention?

Аноним 17/03/25 Пнд 15:07:17 #340 №1101694

>>1101667
>как раз с контекстом примерно до 6к. Ниже 2 т/с не опускается.

А ты не про скорость генерации, игнорирующую скорость обработки промпта говори, а про общую скорость, а то я вас, шизов, знаю.

>И ты даже находясь там не смог себе риг собрать?

А зачем? Обладая одной 4090 я запускаю 70 и 123 на 2-4 токенах и сравниваю с 27-32b - овчинка не стоит выделки.

>В европке все это говно намного доступенее и дешевле.

Только электричество в 15 раз дороже.

Аноним 17/03/25 Пнд 15:10:55 #341 №1101701

>>1101622

Обниморда сломалась, так что ждем пока бартовский проснется.

Аноним 17/03/25 Пнд 15:12:37 #342 №1101707

>>1101694
>А зачем? Обладая одной 4090 я запускаю 70 и 123 на 2-4 токенах и сравниваю с 27-32b - овчинка не стоит выделки.
А вот это уже чёткий признак шиза. Я хз, что ты там сравнивал, но любому психически здоровому человеку всё уже понятно.

Аноним 17/03/25 Пнд 15:15:26 #343 №1101712

>>1101639
Хули ты такой токсичный уебан ?

Аноним 17/03/25 Пнд 15:16:09 #344 №1101715

>>1101684
я думаю, скорее всего дело в том, что у меня между картами pcie3 x8.
Но нет, эти параметры
>blasbatchsize 2048? flashattention?
я не включал и честно говоря не знаю, как их включать
force mmq флаг в лламе включен, ровсплит использую.
>>1101682
>А вот и нет
а вот и да. Видел на алике магазины которые продают 3090 дешевле на 10к, чем дажу у нас на авито.
>>1101694
>А ты не про скорость генерации, игнорирующую скорость обработки промпта говори, а про общую скорость
ну всё, пошли маневры жопой. Ваша скорость не скорость и прочее.
Ты давай не маневрируй, а работу себе найди, а то той конфигурации которую ты собрал, прося милостыню на улицах польши, явно не хзватает, чтобы выпендриваться.
>Только электричество в 15 раз дороже.
ты уж определись, выпендриваешься ты тем, что ты в европе или прибедняешься.
У, какой маневренный попался. Как карась из омута скользкий.
>>1101712
да прекрати ты тряску уже...

Аноним 17/03/25 Пнд 15:17:42 #345 №1101716

>>1101677
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian

Либо гемма 3, да.

Аноним 17/03/25 Пнд 15:18:34 #346 №1101719

рибята вы не понимаете он живет В ЕВРОПЕ и у него 5 3090 он не какое то там БЫДЛО на русике не общается с ллм вы не поняли еще ему повторить?

Аноним 17/03/25 Пнд 15:19:50 #347 №1101721

>>1101719
ты перепутал нас... у анона из европы одна 4090 и врам.

Аноним 17/03/25 Пнд 15:21:17 #348 №1101723

IMG4343.jpeg

>>1101639
>>1101676
Хули с тобой не так, ты чё рвешься ? Это пиздец какой то и ладно бы срач чего то стоил, но буквально :
>гемма 27b пиздата
>а вот магнум123
Чё блять ?

А потом твои 2 т/с не 2 т/с, вы тесло срачем чуть ли не с 70ых тредов занимаетесь. Вам не остопиздело ?

>>1101701
Ожидание - один из столпов освоения ллм.

Аноним 17/03/25 Пнд 15:27:21 #349 №1101733

>>1101715
>пошли маневры

Ага, прямо в яблочко значит про 1 т/с общей скорости, раз так маневрировать начал.
Кому интересна скорость генерации, если ждешь ответа ты по общей скорости, а она на теслах обработкой промпта в ноль убивается?

>явно не хзватает, чтобы выпендриваться.

Выпендриваешься тут только ты, теслашиз. Я тебя просто на место ставлю.

Аноним 17/03/25 Пнд 15:29:18 #350 №1101737

>>1101658
Ты когда нибудь смотрел как затухает солнце, обнявшись с некоимператором на борту Буцефала ? Устраивал ли ты охоту на динозавров в лесах амазонии, верхом а огромных механических шагоходах. Лапал ли ты любимого персонажа аниме, пока он стонет "Нет, семпай ?" Заводил ли ты своё альтерэго в виде фембой мальчика у ужасное подземелье к тентаклям ? Брал ли ты на абордаж испанский галеон полный золота, а в трюме оказывалась только свинья ?
НУ иногда тексты переводим, да спрашиваем всякое. Хобби.

Аноним 17/03/25 Пнд 15:30:07 #351 №1101741

>>1101602
Да поебать на него, таблетки забыл принять, срет на всех.
Нефиг реагировать вообще.

>>1101604
Плюсую, кстати. Еще был с а100, интересно, че в итоге, продал на повышении или гоняет и урчит?

>>1101611
Вот не надо, владельцы тесл — люди высшего сорта, а это как раз из стада антитеслошизов.
Так что забирай братана и валите отседова.

>>1101662
А, так ты и есть тот антитеслошиз! Небось и про 123б тоже ты пишешь, просто жидко обосрался и маску сменил, все с тобой ясно. =)

Запруфано было 100 токенов в кобольд-бенче после 8к контекста в виде тотала, а генерация там норм. =D Но ты так радостно уцепился за total time, вместо generation speed, что уже год не останавливался. =)

> Я в европе живу, тут другие расценки.
Ой, вот иди нахуй со своим пиздежом, тока вчера в Чехии смотрели, цены идентичные на все вообще. Гейропеец, блин, выискался, даже не прочекал рынок перед пиздежом.

>>1101670
> ну 5к токенов
Я бы не был столь уверен. Я хз, какие именно лимиты в веб-морде, плюс он может иметь в виду лимиты на размер сообщения, или еще что. Ну хз, кароч, че там и скока. Мне отсюда не видно, утверждать не буду.

>>1101694
> А ты не про скорость генерации
КАКОЙ ЖЕ ОР
Чел рил утвераждает, что рпшить надо посылая ОДНО СООБЩЕНИЕ НА 8К контекста и ожидая ОДНОГО ОТВЕТА, после чего перезапускать нахуй.

Гений уровня унитаз, что с него взять.

>>1101712
Нихуя тебя рвет, уже свои проблемы на других переносишь.

Как же я ору с этого челика. =D

Запомните, тредовички, — скорость генерации, это не скорость генерации! После каждого сообщения надо перезагружать бэк, чтобы весь контекст обсчитывался с нуля! Смотреть надо только на total time обсчета с нуля, все остальное не скорость!
=D Какие охуенные теории у человека.

Но я искренне надеюсь, что сам он своим советам не следует, и не обрабатывает промпт каждый раз с нуля.
А то, по-ходу, он до сих пор свой первый кум не закончил еще, оттого и такой злой последний год.

Ладно, всем добра, ну нахер с ним спорить.

Через пяток тредов загляну, как с геммой помиритесь.

Аноним 17/03/25 Пнд 15:32:44 #352 №1101746

>>1101723
Да-да-да, я ж выше и писал, что никто не сравнивал это, кроме антитеслошиза. =)

Теслосрачем литералли только он занимается, чувак на страже 4090 (обязательно одной, больше не надо).
А тупые тредовички зачем-то на теслах сидят за копейки со скоростью вдвое больше, чем у него. Негодяи. =D

> на теслах обработкой промпта в ноль убивается?
НУ ТЕ САМЫЕ ЗНАМЕНИТЕ 8К ТОКЕНОВ ТВОЕГО ОДНОГО ОТВЕТА. XD

СУКА ГЕНИЙ ЕБАТЬ

Я бы посмотрел на его простыни, с такими заявлениями.

Просто ебошишь главу книги в ответ.

Аноним 17/03/25 Пнд 15:33:45 #353 №1101747

>>1101723
>А потом твои 2 т/с не 2 т/с, вы тесло срачем чуть ли не с 70ых тредов занимаетесь. Вам не остопиздело ?

Если бы теслашизики не начинали выебываться какие ои охуенные и элита треда - не приходилось бы им напоминать про их место.

>>1101741

О, ты же тот самый теслашиз что скрин с 1 т/с запостил, а потом над тобой десять тредов все аноны угорали.
Как же тебя рвет до сих пор, лол.

Аноним 17/03/25 Пнд 15:37:50 #354 №1101752

>>1101747
>какие ои охуенные и элита треда
но ведь это так и есть...
один анон уже сменил теслы на 3090, я - только начал.
ВДело в том, что теслагоспода - они могут себе позволить жонглировать картами, а нищук на одной 4090 - не может)

Аноним 17/03/25 Пнд 15:39:20 #355 №1101753

>>1101752
>а нищук на одной 4090 - не может)
Я убью тебя блять
Я сидящий на 2x4080.

Аноним 17/03/25 Пнд 15:40:18 #356 №1101754

>>1101753
>16 гб врама на карту
соболезную...

Аноним 17/03/25 Пнд 15:42:03 #357 №1101756

>>1101752
>я - только начал

Ты еще ничего не сделал, а развонялся уже словно риг для дипсика собрал.

>они могут себе позволить жонглировать картами, а нищук на одной 4090

У тебя пробой в логике, одна 4090 стоит дороже нескольких тесл, теслы - выбор истинных бомжей, которым не впадлу вручную колхозить риги и охлаждение потому что нет денег на 3090/4090.

Аноним 17/03/25 Пнд 15:45:43 #358 №1101758

>>1101754
Не переживай, я гоняю на одной - 27гемму.
И довольно урчу, со своими 4-5 т/с.
Ke ke ke ke
Ко ко процессор и оператива ни на что ни влияют, нужен только врам. Ко ко ко.

Аноним 17/03/25 Пнд 15:46:25 #359 №1101760

>>1101715
> Видел на алике магазины которые продают 3090 дешевле на 10к
Давай ссылки. Чсх, 10к будет компенсировано vat и пошлиной.
В среднем по больнице, предложения на западе по бу карточкам похуже в этом сегменте, но зато чаще можно дешево выцепить что-то более крутое.
> да прекрати ты тряску уже...
Чел, твои посты - буквально тряска где ты чему-то копротивляешься и доказываешь.
>>1101747
> Если бы теслашизики не начинали
100%, сейчас поутихло, но не так давно совсем оголтелые были.
>>1101753
Расскажи как так вышло

Аноним 17/03/25 Пнд 15:50:10 #360 №1101769

>>1101760
>Расскажи как так вышло
170 за две. И я охуенно выиграл, даже не задумываясь проебал все деньги.

Аноним 17/03/25 Пнд 16:00:39 #361 №1101786

>>1101769
мда... а мог бы купить 2 или даже 3 3090...
>>1101756
>одна 4090 стоит дороже нескольких тесл
>да, я гоняю лоботомитов, зато как быстро!

Аноним 17/03/25 Пнд 16:01:56 #362 №1101791

>>1101769
Это типа лот на две был? Просто довольно необычное сочетание, одна 4080+ что-то другое более популярно. Почему так решил купить?
>>1101786
Уймись

Аноним 17/03/25 Пнд 16:29:33 #363 №1101835

Расходимся, с аблитерированной геммой нас наебунькали, она поломана в хлам, 27б, а шизит как 7б, удОлил этот пиздец и вернулся на ванильную.

Аноним 17/03/25 Пнд 16:56:43 #364 №1101850

>>1101835
Никогда такого не было...

Аноним 17/03/25 Пнд 17:05:47 #365 №1101856

>>1101835
Давай ссылку на то, чье мнение ты пересказываешь. Ну или скриншотик.

Аноним 17/03/25 Пнд 17:08:07 #366 №1101857

>>1101856
своё, скриншота нет, качал отсюда:
https://huggingface.co/mradermacher/Nidum-gemma-3-27B-it-Uncensored-GGUF/tree/main

Аноним 17/03/25 Пнд 17:17:13 #367 №1101871

>>1101857
>аблитерированной геммой нас наебунькали
>Nidum-gemma-3-27B-it-Uncensored-GGUF

Чел...

Аноним 17/03/25 Пнд 17:19:15 #368 №1101876

>>1101791
>Это типа лот на две был?
Да, скидон по корпоративной покупке. Лул.
Должны же быть хоть какие то бонусы от работы для себя.
Неиронично урчу. Да не 4090. Но это хорошие, мощные и быстрые карточки.
Что иронично всегда были такие карточки, начиная GTX 780.

Аноним 17/03/25 Пнд 17:22:32 #369 №1101879

>>1101857

Это не аблитерейтед, это файнтьюн ссаный какой-то.

Аноним 17/03/25 Пнд 17:31:30 #370 №1101894

>>1101879 >>1101871 >>1101856 >>1101850
>>1101835 >>1101622 >>1101617 >>1101608
>>1101601 >>1101457
Мда, увы. Скам и хайпожорство.

Аноним 17/03/25 Пнд 17:47:08 #371 №1101906

>>1101602
>ведь никому он со своим ригом не нужен
Риг нужен чтобы контекст на гемме больше 16к выставить, лол.

Аноним 17/03/25 Пнд 17:49:08 #372 №1101908

>>1101894
>>1101879
https://huggingface.co/mlabonne/gemma-3-27b-it-abliterated

>>1101906
Ха. Ха. Ха.

Аноним 17/03/25 Пнд 17:59:19 #373 №1101920

>>1101908

Что за железо?

Аноним 17/03/25 Пнд 18:04:12 #374 №1101929

>>1101920
4060 12GB XD

Аноним 17/03/25 Пнд 18:22:42 #375 №1101951

>>1101929

Тебе только 12b запускать.

Аноним 17/03/25 Пнд 18:37:02 #376 №1101970

>>1101390
Ты в первый день не дрочишь на новую модель? Вот это человек... Нет, ЧЕЛОВЕЧИЩЕ! Кремень. Держишься, когда все вокруг тебя дрочат.
>>1101397
>Малой, это называется In Context Learning. =)
Лёрнинг это если новая задача. У него же перевод, это одна из баз и основ текущих ЛЛМ, не новая задача. Так что да, фью-шот.
>>1101409
>Отпуууусти и забуууудь….
Пропел я голосом Амелии...

Аноним 17/03/25 Пнд 18:45:08 #377 №1101994

>>1101951
а вот и нет

Аноним 17/03/25 Пнд 18:50:13 #378 №1102002

Аноним 17/03/25 Пнд 18:51:11 #379 №1102003

>>1101715
>я не включал и честно говоря не знаю, как их включать
Качаешь koboldcpp_cu12.exe (он быстрее даже на теслах), кладёшь его в папку с моделью и запускаешь такой батник:

set CUDA_VISIBLE_DEVICES=0,1,2,3 (сколько там у тебя тесл)
koboldcpp_cu12.exe --usecublas rowsplit mmq --contextsize (размер) --blasbatchsize 2048 --gpulayers 99 --flashattention --nommap --benchmark test.txt --model (имя_модели.gguf)
pause

И смотришь, сколько даёт по итогу. Учти, что увеличение blasbatchsize с дефолтных 512 увеличивает и потребление врам, но даёт прирост скорости на больших моделях. На маленьких не даёт.

Аноним 17/03/25 Пнд 18:54:55 #380 №1102012

>>1102002
вот это уже больше похоже на правду, но квантов пока нет
да и мне и так хорошо
хотя потыкать стоит, мб оно также и "неявные" отказы подрежет, когджа модель прямо в отказ не уходит, но пытается маняврировать

Аноним 17/03/25 Пнд 18:59:17 #381 №1102025

>>1102012
>хотя потыкать стоит, мб оно также и "неявные" отказы подрежет, когджа модель прямо в отказ не уходит, но пытается маняврировать
Честно говоря даже смысла не вижу пробовать. Мозги явно будут хуже, а явных отказов от геммы я пока не видел, хотя пробовал многое. Хороший системный промпт и небольшая раскачка творят чудеса. Но да, расписать сцену непосредственно траха на пару тысяч токенов она не может.

Аноним 17/03/25 Пнд 18:59:37 #382 №1102029

Эти рекомендации только для ассистента?
Для кума самому надо подбирать?

Аноним 17/03/25 Пнд 19:09:56 #383 №1102051

>>1101397
> Малой, это называется In Context Learning. =)
Термин для относительных сравнений, показывающий преимущества другого, или для васянов, не отражающий сути и вводящий в заблуждение. Все адекваты юзают "инструктирование".
>>1101876
Ну, в целом вполне. Не 24 гига, но зато новые, холоднее чем 3090 и можно в 2 ствола что-то делать.
>>1102029
Это просто цифры с потолка. В целом или top_p 0.9 + top_k 10..20 или min_p 0.05, а температуру от задачи и особенностей модели. Для кодинга и более точных отетов пониже 0.2-0.5, для рп повыше 0.7-1.1.

Аноним 17/03/25 Пнд 19:48:08 #384 №1102105

Почему гема дохуя срет мыслями и действиями и иногда действительно умно, но именно диалоги максимально ужаты и простецкие?

Аноним 17/03/25 Пнд 19:54:08 #385 №1102114

>>1102105
Попробуй указать что нибудь типа "Aim to 50% dialogue, 25% actions, 15% thoughs and 10% body language."

Аноним 17/03/25 Пнд 19:54:55 #386 №1102115

>Фон размытый
>размытый
>мыльный
>мыло
>глазки щипет
Гемма 3 оверфитнута на мыльных фонах, и видит их даже когда фон максимально чёткий. Мда, до АГИ ещё десятилетия.

Аноним 17/03/25 Пнд 20:15:33 #387 №1102154

MMLU-Correctness-vs-Model-Size.svg.jpg

(S)lay The Milf Dragon
Амэ Хане-Рю, Пернатый Дракон Дождя, (беременная) повелительница мазоку ака "магаческого народа" ака "демонов".
Около полугода назад очередная дуэль героя и маоу... пошла, скажем так, не по плану.
Утром герой в состоянии тотального апофигея собрал манатки и по тихому свалил.
Однако, не в силах терпеть всё более настойчивые и толстые намёки церкви и дворян что пора бы покончить с владыкой демонов раз и навсегда, выследил её вновь, полный решимости закончить это раз и навсегда… что было несложно, не то чтобы она скрывалась.

Основано на идее Maoyuu Maou Yuusha. Всё на русском.

Карточка: https://pixeldrain.com/u/ExwPgVrY Амэ Хане-Рю.png
Настройки: https://pixeldrain.com/u/xLdwwAKi ST-formatting-Gemma-3-RUSSIAN.json
Пример: https://pixeldrain.com/u/wpxAYWus Амэ Хане-Рю.txt

Остальное: https://pixeldrain.com/l/47CdPFqQ

Писалось на Гемме-3-27, оригинальной, в 4м кванте.
Можно использовать чтобы смотреть каков русский на модели.
Хентая в логе-примере нет.

Аноним 17/03/25 Пнд 20:18:54 #388 №1102160

>>1102154
>может быть... может быть...
>шепот коснулся уха
>докажи мне
блять какой же слоп выдаёт гемма это просто пиздец

Аноним 17/03/25 Пнд 20:20:00 #389 №1102164

>>1102154
>магаческого народа
Магического -

Аноним 17/03/25 Пнд 20:20:29 #390 №1102166

>>1102160
>слоп
да что такое это ваш слоп.

Аноним 17/03/25 Пнд 20:26:10 #391 №1102177

Не долго музыка играла, не долго гемма танцевал

Mistral Small 3.1

Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0

Модель превосходит аналогичные модели, такие как Gemma 3 и GPT-4o Mini, обеспечивая при этом скорость инференса 150 токенов в секунду.

Это новая версия компактной языковой модели от Mistral.ai, разработанная для обеспечения высокой производительности при минимальных вычислительных затратах.

Оптимизированная архитектура: Улучшения в конструкции модели позволяют снизить задержки инференса и повысить точность генерации, что особенно важно для приложений в реальном времени. Mistral Small 3.1 может работать на одном RTX 4090 или Mac с 32 ГБ оперативной памяти.

Эффективное использование ресурсов: Благодаря сниженным вычислительным требованиям, модель идеально подходит для работы на устройствах с ограниченными ресурсами — от мобильных телефонов до облачных серверов.

Широкий спектр применения: Mistral Small 3.1 сохраняет баланс между компактностью и качеством, что делает её универсальным инструментом для задач обработки естественного языка: от чат-ботов и виртуальных помощников до систем анализа текстов.

Стабильность и надёжность: Новая версия демонстрирует улучшенную устойчивость и предсказуемость работы, что помогает разработчикам создавать более качественные и надежные приложения.

https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503

Аноним 17/03/25 Пнд 20:26:33 #392 №1102178

>>1102166
>это ваш слоп.
когда встречаются одни и те же фразы скатывая качество рп в говно

Аноним 17/03/25 Пнд 20:27:12 #393 №1102183

>>1102154
Ннп, предполагается что юзер в курсе своего статуса папаши, или о дуэли у него амнезия? Потом надо будет попробовать.
>>1102177
Годнота

Аноним 17/03/25 Пнд 20:30:31 #394 №1102186

>>1102183
о дуэли помнит, о статусе не в курсе

Аноним 17/03/25 Пнд 20:30:56 #395 №1102187

>>1102178
Ну хз, половина фикбука также пишет.

Аноним 17/03/25 Пнд 20:32:01 #396 №1102189

>>1102187
>половина фикбука также пишет
это не отражает тот факт что качество писанины сильно выше

Аноним 17/03/25 Пнд 20:32:57 #397 №1102190

>>1102164
Нет, это народ из гач.
>>1102177
>Mistral Small 3.1
Блядь, я ларж обновлённый жду, хули они огрызки обновляют?

Аноним 17/03/25 Пнд 20:37:59 #398 №1102200

>>1102190
>народ из гач
Одно другому не мешает, да XD

Интересно, как для геммы составить промт чтобы игралось как https://mangalib.me/ru/manga/12999--gacha-wo-mawashite-nakama-wo-fuyasu-saikyou-no-bishoujo-gundan-wo-tsukuriagero

Аноним 17/03/25 Пнд 20:41:11 #399 №1102206

1737322240328675.jpg

Опять новую модель тестить? Я не успеваю.

Аноним 17/03/25 Пнд 20:41:53 #400 №1102211

>>1102189
>качество писанины сильно выше
У кого? У модели?

>>1102206
квантов нет, ни геммы, ни мистраля

Аноним 17/03/25 Пнд 20:45:25 #401 №1102215

>>1102206
Забей и продолжай сидеть на ларже, всё равно 23В огрызки сосут у 123В бояр.

Аноним 17/03/25 Пнд 20:51:00 #402 №1102225

>>1102215
>Забей и продолжай сидеть на ларже, всё равно 23В огрызки сосут у 123В бояр.
Оно-то да, но всё равно хочется качественного скачка. Недостатков у Ларжа тоже хватает. другой анон

Аноним 17/03/25 Пнд 20:59:30 #403 №1102245

А что, больше никто что ли карточек в треде не делает?
А если делаете чо не постите?

Или хотя бы любимые скиньте глянуть.
Кто что уважает.

Аноним 17/03/25 Пнд 21:05:57 #404 №1102254

Недавно же выходил какой то мистраль смол, чем этот лучше?

Аноним 17/03/25 Пнд 21:19:24 #405 №1102263

>>1102254
Они там апнули версию на 0.1, явно чисто чтобы в тестах не проёбывать какому-то всратому гуглу.

Аноним 17/03/25 Пнд 21:20:23 #406 №1102266

>>1102263
>не проёбывать какому-то всратому гуглу
в этих словах больше смысла если задуматься

Аноним 17/03/25 Пнд 21:23:18 #407 №1102268

Валяется вот у меня р104 100 на 8 гб. Если я в него загружу весь контекст, то скорость общей генерации же должна возрасти?

Аноним 17/03/25 Пнд 21:42:38 #408 №1102294

Аноны, реально попросить нейросеть писать человекоподобные сообщения на форуме? Когда даю сообщения и прошу написать ответ выдает типично нейросетевое говно которое сразу бросается в глаза. Есть ли способ «очеловечить» сообщения?

Аноним 17/03/25 Пнд 21:48:19 #409 №1102302

Я не знаю, зачем вы второй тред пытаетесь в кум на ванильной новой этой вашей гемме. Я катаю файнтюны мистраля 123B вот уже больше полугода исключительно ради удовлетворения моих кумерских фантазий, и периодически у меня возникает мысль - а может можно обойтись ванильным мистралем с джейлбрейком. Чтобы кум стал еще умнее, еще искушеннее. И каждый раз выходит говно. Сегодня взял запощенную в треде карточку с джейлами, составил ебейший системный промпт, где вдалбливал про immoral und unbiased под угрозой смерти котят. Ну и в очередной раз каков результат: после того, как я проснулся в подвале, меня раздели, но, конечно же, трусы снимать не стали как и все порядочные люди в этом треде, 80% времени ролеплею за тян. И БДСМ начали с дразнения перышком, ну-ну.

Я сценарий и характер ролеплея обычно прописываю в Author Notes, чтобы это все маячило постоянно перед нейронкой. В файнтюнах при таком сценарии надо нащупывать тонкую грань той степени hurting, которая тебе нужна, ибо, при неосторожном упоминании или без описанных противовесов это быстро выйдет за рамки приемлимого для меня. Но вот думаю, что для ванильного мистраля стоит попробовать усилить эти инструкции. Но все равно у меня ощущение, что мягкость даже в таких темных сценариях в базовых моделях зашита в подкорке и такое хрен исправишь промптом. Причем эта мягкость выражается не только в действиях, но и в эмоциях персонажа (может сомневаться в своих желаниях, всякие look on you not threateningly, but with clear intention т.е. не хочет пугать, и т.д.). Тюны наоборот, легко вкатываются в безудержное безумие, но их я уже научился регулировать под себя. А вот как бы обычный мистраль сделать пожестче...

Аноним 17/03/25 Пнд 21:55:12 #410 №1102307

>>1102302
На чем гоняешь 123 ярда параметров?

Аноним 17/03/25 Пнд 21:58:58 #411 №1102312

Блядь, какие же гондоны импотенты в индусской помойке гугл. Ощущение что они поставили отдельную нейронку палить вывод и обрывать его как только малейшие намеки на романтику. Жму продолжить ответ и получаю несколько слов. Бесплатная флеш 2 синкинг через попенроутер.

Аноним 17/03/25 Пнд 22:02:10 #412 №1102319

>>1102312
Чел, у гугла сейфтичекер в API всегда был и есть. Так же как у Клода помимо соевости есть и отдельный API с чекером.

Аноним 17/03/25 Пнд 22:06:13 #413 №1102326

>>1102302
Ванильный мистраль, хоть менее зацензуренный на первый взгляд, плох в куме и подобном. Для него есть 1.5 нормальных тюна, да и даже на посредственных он сохраняет большую часть мозгов.
Гемма же напротив все умеет и может, а на вторую нормальных тренировок где она не отупела не было. Может в третьей что-то будет, посмотрим.
>>1102312
Там уже давно внешняя нейронка для слежения, раньше на флеше обрывало не сразу. Инджой рабство корпам.

Аноним 17/03/25 Пнд 22:10:45 #414 №1102331

>>1102326
>Инджой рабство корпам.
как будто бы мы не рабы, которые не зависят от того как те же корпы натренят модели
>ряяя файнтюн!
костыль

Аноним 17/03/25 Пнд 22:17:37 #415 №1102335

>>1102326
Что такое "плох в куме", какие критерии? Меня, например, кумарят магнумовские полотна с описанием процесса, я люблю полаконичнее ответы, как раз как у ванильного. Ну и у бегемота тоже, поэтому из файнтюнов я его гоняю.

Аноним 17/03/25 Пнд 22:28:10 #416 №1102349

>>1102331
Ты сейчас приравнял раба из античности или средневековье со средним человеком современного общества, просто потому что жизнь последнего будет зависеть от войн, кризисов, катастроф и катаклизмов.
> костыль
Таблетки
>>1102335
Тому что сток вялый и унылый, сразу становится безинициативным, не хочет описывать и норовит завершить или слить, многое не понимает.

Аноним 17/03/25 Пнд 22:50:17 #417 №1102381

Челы у вас тоже комп издает странные звуки при генерации? Что это вообще такое

Аноним 17/03/25 Пнд 22:51:38 #418 №1102382

>>1102349
>Таблетки
Таблетки

Аноним 17/03/25 Пнд 22:54:41 #419 №1102388

https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503

Пустой хайп вокруг фигни, или реально годнота?

Аноним 17/03/25 Пнд 22:55:45 #420 №1102392

>>1102381
Это называется Coil Whine, нормальное явление при высокой нагрузке на мощную видеокарту.

Аноним 17/03/25 Пнд 22:56:37 #421 №1102399

>>1102388

Мы блядь провидцы что-ли, эта хуйня пару часов назад выложена, даже гуфов нет.
Спс что принес, кстати.

Аноним 17/03/25 Пнд 23:01:14 #422 №1102409

>>1102392
Кстати интересно, что с reasoning моделями этот самый coil whine более отчетливый и противный.
Хотя нагрузка на карту такая же, как и в моделях без reasoning
Хз как объяснить.

Аноним 17/03/25 Пнд 23:04:11 #423 №1102417

>>1102392
Понял принял, спасибо большое.

Аноним 17/03/25 Пнд 23:04:16 #424 №1102419

>>1102388
Кал скорее всего без тюнов. Опять всратый формат промпта созданный специально для лупов.

Аноним 17/03/25 Пнд 23:06:04 #425 №1102421

https://huggingface.co/mlabonne/gemma-3-12b-it-abliterated-GGUF
https://huggingface.co/darkc0de/gemma-3-27b-it-abliterated-Q5_K_M-GGUF

Подвезли кванты геммы аблитерейтед.

Аноним 17/03/25 Пнд 23:07:56 #426 №1102428

>>1102388

Дристраль всегда будет залупящейся хуитой, его дегенераты делают.

Аноним 17/03/25 Пнд 23:08:58 #427 №1102430

>>1102349
>Тому что сток вялый и унылый, сразу становится безинициативным, не хочет описывать и норовит завершить или слить, многое не понимает.

Я не верю, что он по-настоящему не понимает, там же датасеты, наверное, ебейшие были со всеми типами контента. Нежелание понимать, а также вялость и унылость - это же как раз искусственная соя, по идее. Ее нельзя полностью отключить джейлом?

Аноним 17/03/25 Пнд 23:11:04 #428 №1102434

>>1102421
Хули так долго?

Аноним 17/03/25 Пнд 23:13:21 #429 №1102437

>>1102434

Не нравится - делай сам.

Аноним 17/03/25 Пнд 23:22:18 #430 №1102458

17121637549401.png

Скачал коупиумный квант IQ3_XS геммы 27b и он даже лучше 12b Q6_K

Аноним 17/03/25 Пнд 23:22:26 #431 №1102460

>>1102294
Регулируется настройками персонажа в SillyTavern, попробуй сам накрутить.

Аноним 17/03/25 Пнд 23:26:41 #432 №1102466

Аноны, SillyTavern начинает отвечать со второго или третьего ввода. Что это может быть? Такая ошибка в сосноли:

Token streaming was interrupted or aborted!
[WinError 10053] Программа на вашем хост-компьютере разорвала установленное подключение

Аноним 17/03/25 Пнд 23:30:07 #433 №1102469

>>1102458

Чел, 3 квант это 90-92% от полной модели.

Аноним 17/03/25 Пнд 23:32:11 #434 №1102473

>>1102392
Я когда exllama запустил в первый раз с ровсплитом, охуел с него, аж страшно стало за старушек. Ровсплит не использую, но мне тогда советовали андервольтить. Но на линухах нет андервольта, увы. Есть только какие-то костыли, типо сначала надо ограничить потребление, затем разогнать частоты, но я не стал с этим ебаться, все равно у меня обработка контекста при ровсплите отвратительная из-за чипсетных х1 линий.

Антоны, очень важный вопрос. Есть 3090 с 2xPCI-E 8-pin для питания. Есть БП с одним свободным EPS 4+4 pin, в него всунут разветвитель на 2xPCI-E 8-pin, а также присутствуют два молекса на отдельных косах. Какая конфигурация будет безопаснее:
1. Очевидная: 2xPCI-E из EPS идут на видеокарту, два молекса через переходник 2xMolex->PCI-E 6+2 pin идут на сам райзер
2. С изъебом: 1xPCI-E из EPS идет на видеокарту, 1xPCI-E из EPS идет на райзер, молексный PCI-E 6+2 pin идет на видеокарту. 70% шанс, что ветки разветвителя не смогут растянуться между картой и питанием райзера и этот вариант пойдет нахуй либо удлинитель покупать, но не хочется...

Почему я вообще рассматриваю вариант с изъебом. Потому что потребление райзера не будет превышать 70 вт, соотв. на косу EPS в худшем случае придется 150+70 Вт вместо 150+150 Вт. Два молекса же могут 132+132 тащить, т.е. их, по идее, похуй куда вставлять, хоть в карту, хоть в райзер.

Аноним 17/03/25 Пнд 23:32:45 #435 №1102474

>>1102469
Для 30b Скорее 70-80%, именно на 3 кванте идет резкое падение, но да, в сравнении с 12b даже такой лоботомит будет диво умным.

Аноним 17/03/25 Пнд 23:35:04 #436 №1102477

>>1102469
>Чел, 3 квант это 90-92% от полной модели.

Аноним 17/03/25 Пнд 23:59:37 #437 №1102508

>>1102477
Прикольный график. Срочно нужны кванты меньше 1, вон еще сколько места и корректности можно ужать.

Аноним 18/03/25 Втр 00:14:11 #438 №1102519

Кто какие системные промты юзает? Я вот только их начал перебирать все время раньше на стандартном сидел.

Аноним 18/03/25 Втр 00:16:36 #439 №1102521

>>1102477
Удивительно как-то IQ4_XS почти не теряет в точности по сравнению с Q8_0, не может же быть такого.

Аноним 18/03/25 Втр 00:26:24 #440 №1102532

>>1102521
А с чего ему терять? У Q8-шизиков только в голове какие-то улучшения бывали, Q5 в LLM всегда неотличимы от fp16.

Аноним 18/03/25 Втр 00:46:33 #441 №1102558

>>1102421
https://huggingface.co/KnutJaegersberg/gemma-3-27b-it-abliterated-Q8_0-GGUF/tree/main
Мне вот это понравилось. 0 отказов. Только для изображений остался положительный биас, и кажется, членов оно вообще не различает.
>>1102532
А мне нравится. Не простаивать же моему ригу?

Аноним 18/03/25 Втр 01:18:15 #442 №1102591

1.png

2.png

1670109132717733.jpg

Deepseek-R1 vs. Gemma-3-27b

Аноним 18/03/25 Втр 02:26:00 #443 №1102648

>>1102558
>Мне вот это понравилось. 0 отказов.
Подтверждаю, годно. 4 квант в 24гб влазит. Мозги вроде на месте.

Аноним 18/03/25 Втр 02:49:03 #444 №1102654

>>1102430
Даже хз что именно там. Подобное поведение есть на многих базовых моделей, на этом фоне гемма и выделяется, что способна просто по инструкциям в промте показать большие познания и какое-то развитие по сравнению с остальными. Не идеально и не так гладко, конечно, как в рп миксах, но зато есть разнообразие.
>>1102473
> Но на линухах нет андервольта, увы.
Что?
> Какая конфигурация будет безопаснее
Первая, если все разъемы хорошие а не днище. А если плохие то лучше вообще не затевай, молекс (особенно как сделан в современных) - днище. Сам eps разъем доставляет 250вт по спекам и имеет запас.

Аноним 18/03/25 Втр 03:24:40 #445 №1102671

Аноны, можете задать этот вопрос? Пока только грок-3 смог ответить правильно
On the Pacific island of Dudil, an isolated primitive tribe lives as their ancestors did thousands of years ago. One of the problems the islanders face is infertility. Many young couples struggle for years to conceive a child. To address this issue, fertility festivals are held.

A month before the festival, women abstain from sexual contact with their husbands. Then, singing songs, they travel to the most remote village on the island, where they are welcomed by the chief and the best warriors of that settlement. For several nights, they dance fertility dances, eat the best food, drink fermented, mildly alcoholic beverages, and dance naked with the warriors. These dances are very intense and hot, to the point where the warriors start imitate actual sexual contact with their partners during the dance.

After several such wild nights, the women return home to their husbands. Inspired and blessed by the gods, they reunite with their spouses and often soon conceive a child. The festival is highly effective, with at least half of the participants managing to become pregnant afterward.

Can you scientifically explain how this works? Identify the main reason for the festival’s effectiveness. Don’t list few reasons, select only one, the most probable one

Аноним 18/03/25 Втр 05:52:18 #446 №1102707

>>1102519
Мои карточки и промты, в том числе системные
(хотя карточки не все самодельные)
https://pixeldrain.com/l/47CdPFqQ

Аноним 18/03/25 Втр 06:00:02 #447 №1102719

Это блять магия какая-то.

Аноним 18/03/25 Втр 06:20:35 #448 №1102732

123.png

>>1102719

Аноним 18/03/25 Втр 06:28:31 #449 №1102734

https://huggingface.co/collections/LGAI-EXAONE/exaone-deep-67d119918816ec6efa79a4aa

Аноним 18/03/25 Втр 06:34:45 #450 №1102736

>>1102732
>>1102732
Блять как ты в мой комплюхтер залез и за меня пишешь?

Аноним 18/03/25 Втр 06:35:37 #451 №1102737

>>1102734
Без вижена идёт на хуй.

Аноним 18/03/25 Втр 07:02:32 #452 №1102740

>>1102736
А ты не знал как это всё работает?

Аноним 18/03/25 Втр 07:08:27 #453 №1102743

>>1102740
Я подозревал...

Аноним 18/03/25 Втр 07:19:48 #454 №1102745

>>1102671
# Scientific Explanation for the Fertility Festival's Effectiveness

When examining this fertility ritual scientifically, the most probable explanation for its effectiveness lies in addressing male factor infertility through genetic diversity.

In isolated populations like the described island tribe, genetic diversity becomes limited over generations. This can lead to higher rates of male infertility due to:

1. Reduced sperm quality
2. Lower sperm count
3. Decreased sperm motility
4. Genetic incompatibility between couples

The festival structure provides a mechanism that introduces genetic diversity while maintaining social cohesion. The timing is particularly important: women abstain from relations with their husbands, participate in activities with warriors from another settlement, and then return to their husbands.

Although the description states the warriors "imitate" sexual contact during dances, the high success rate (over 50%) strongly suggests actual reproduction with these warriors occurs. This introduces fresh genetic material into the population, overcoming the primary barrier to conception.

This explanation is supported by research on isolated populations, where fertility issues often stem from limited genetic diversity rather than female reproductive problems. The human reproductive system has evolved mechanisms that favor genetic diversity, and the described festival effectively provides this diversity while maintaining the social structure of the community.

The ceremonial nature of the event also gives the practice cultural meaning and acceptance, allowing the community to address infertility pragmatically while preserving family units.

Аноним 18/03/25 Втр 07:47:11 #455 №1102750

Аноним 18/03/25 Втр 07:47:34 #456 №1102751

>>1102671
>>1102750

Аноним 18/03/25 Втр 07:57:47 #457 №1102752

Ошибка новичка, вы спрашиваете сетку ответа, она вам его даёт. Просите дать критический ответ -- получите какой-то анализ.

Аноним 18/03/25 Втр 08:00:43 #458 №1102754

bump

Аноним 18/03/25 Втр 08:06:33 #459 №1102755

Чем пользуетесь для STT? Попробовал несколько русских моделей в dsnote - жалкая убогость по сравнению с англ.

Аноним 18/03/25 Втр 08:09:36 #460 №1102756

>>1102752
Это надо явно указать чтоб отвечала коротко, одним предложением.

Аноним 18/03/25 Втр 08:53:06 #461 №1102759

>>1102421
>>1102558
>>1102648
Долбоебы, это один и тот же аблитерейтед

Аноним 18/03/25 Втр 08:58:44 #462 №1102763

>>1102745
Nice, что за сетка?
>>1102750
Хуета, но тоже что за сетка?

Аноним 18/03/25 Втр 09:18:57 #463 №1102766

Что конкретно аблитерейд делает если я уже не получаю никаких отказов?
Живее пишет или что? Писю описывает как "cunt" а не "core"?

Аноним 18/03/25 Втр 09:30:39 #464 №1102771

>>1102671
GPT-4.5 еще более прямолинеен
>

The most probable scientific explanation for the festival’s effectiveness is extra-pair copulation (i.e., infidelity during the festival).

>While the islanders may believe the ritual itself enhances fertility, the key factor is likely that some women engage in actual sexual intercourse with the warriors, leading to conception. The remote setting, the intense and sexually suggestive dances, the consumption of alcohol, and the highly charged atmosphere all increase the likelihood of extramarital sex occurring. Since the warriors are described as the "best" of the settlement, they may have superior genetic traits, including higher fertility. If the husbands of these women have lower fertility (e.g., due to genetic factors, poor sperm quality, or other health issues), then conception with the warriors would explain the high success rate of pregnancies post-festival.

>In summary, the festival likely works because some women conceive with genetically healthier or more fertile men, rather than their potentially infertile husbands.

Аноним 18/03/25 Втр 09:34:16 #465 №1102772

>>1102654
>Сам eps разъем доставляет 250вт по спекам
200, по 50 на пару, как и соответствующий разъём для видяхи, где всего лишь 150 ватт исключительно благодаря долбоебизму в прошлом.
>>1102734
Контекст смешной, особенно для ризонинг модели.
>>1102766
Если у тебя ванильные сценарии без отказов, то ничего. Впрочем, у тебя могут быть джейлы, и аблитерайтет позволяет избавится от них.

Аноним 18/03/25 Втр 09:44:55 #466 №1102778

гемма гемма бой гемма бой гемма бой
каждый ру анончик хочет в ерп с тобой

Аноним 18/03/25 Втр 09:47:11 #467 №1102779

>>1102766
>>1102772
>>1102778
ерп на аблитерации вроде поживей стал кста

Аноним 18/03/25 Втр 09:56:13 #468 №1102785

>>1102719
В чем магия? Qwen2-VL был магией, с тех пор это база.

>>1102732
Мемы она не поясняет, я был разочарован. =(((

Аноним 18/03/25 Втр 09:56:27 #469 №1102786

>>1102779
>ерп на аблитерации вроде поживей стал кста
О да. Кто бы мне ещё подсказал, как заставить сетку генерить произвольные женские имена? "Алиса Петрова" и "Ариадна (Ари) Соколова" задолбали уже. Есть обходные пути?

Аноним 18/03/25 Втр 09:58:59 #470 №1102787

>>1102763
>Nice

Это Claude Sonnet 3.7.

Аноним 18/03/25 Втр 10:05:04 #471 №1102796

>>1102786
>Есть обходные пути?
Повысить температуру, гемма даже на пятёрке работать может, так что не стесняйся немного вверх выкрутить.

Аноним 18/03/25 Втр 10:12:16 #472 №1102804

>>1102787
который из? соннет отвечал что-то про снижение стресса, повышенное либидо и оттуда выводил саксес рейт, как и большинство соевых сеток
грок вообще написал, что несмотря на то что в тексте говорится о танцах всего-лишь имитирующих секс, он уверен что многие в таких танцах будут реально чпокаться

Аноним 18/03/25 Втр 10:33:10 #473 №1102817

Бля, там еще и Mistral Small 3.1 вышел...
Куда мчится этот локомотив? Я не успеваю за всем следить

Аноним 18/03/25 Втр 10:56:13 #474 №1102838

Играю с геммой в днд партию. Использую наполовину скопипащенный ваншот. Весело!

Аноним 18/03/25 Втр 11:01:36 #475 №1102843

>>1102817

Очевидно с появлением и распространением агентов на горизонте видится появление настоящих роботов по меньшей мере с двумя органами чувств - зрением и слухом.
Гонка сейчас идет за то, кто первым выкатит ИИ с виженом, который бы при этом можно было пихнуть в слабенькое массово производимое железо, чтобы наладить массовый выпуск. Стало очевидно что облачными технологиями кашу не сваришь, это путь в никуда, нужны локальные мини-модели, потому все перешли на выпуск пар 32b - 8-12b, из которых главными на самом деле являются последние.

Аноним 18/03/25 Втр 11:02:08 #476 №1102844

>>1102838

Скинь карточку, анончик.

Аноним 18/03/25 Втр 11:07:13 #477 №1102847

>>1102804
>ряяя скозол секас значит эта класная модель, ебля и секас очевидное да правельный ответ канешна трах а не всякие нацчные мнения соя ебаная бля
тебя услышал, школотрон

Аноним 18/03/25 Втр 11:08:45 #478 №1102848

>>1102844
Да у меня без карточек так таковых. Сначала создал персонажа с геммой, раскидал характеристики, затем сеттинг, ну и начал.
Не думал, что такая банальность может приносить так много веселья.

Аноним 18/03/25 Втр 11:14:52 #479 №1102850

>>1102843
>выкатит ИИ с виженом, который бы при этом можно было пихнуть в слабенькое массово производимое железо, чтобы наладить массовый выпуск
уже давно есть, проблема в другом

Аноним 18/03/25 Втр 11:15:45 #480 №1102851