Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №241 /llama/

Все актуальные локалки на пике.

Аноним 12/06/26 Птн 00:20:34 #3 №1630193

>>1630190
В голос. Все что нужно знать о бенчедрочерах-писькомерах. На графике даже не указано ЧТО измеряется, а постер не видит необходимости сообщить. Уахаха бляя

Аноним 12/06/26 Птн 00:21:36 #4 №1630194

>>1630175 →
Сейчас 4х канальных действительно зажали, сразу 8канальные или полностью серверные платформы. Хотя чисто технически есть младшие трипаки, у которых как раз по 4 канала, но они слишком дорогие и там те же приколы с фабрикой, что нормальный псп рам будет только на более старших моделях.
>>1630184 →
Объединить 3060 и 580 не получится, только запускать на них разные модели. Можно второю 3060 или другого хуанга.
> вот еще старую плату нашел у себя. Ебать, 15 лет назал на бюджетных платах столько разъемов было
Что псина, что рам через тормознутую печку под названием северный мост, вместо экспресса древность в виде легаси пси. Много разъемов которые мы заслужили.
>>1630193
Как просто список свежих пойдет.

Аноним 12/06/26 Птн 00:24:47 #5 №1630196

>>1630193
>На графике даже не указано ЧТО измеряется
А какая разница что там измеряется если это в любом случае манябенчмарк? Ну ок, скажу что Intelligence на основе бенчмарков связанных с кодингом, агентами и ризонингом - помогло?
Пост был о списке моделей, а ранжировка не имеет особого значения.

Аноним 12/06/26 Птн 00:26:46 #6 №1630198

1781213204265.jpg

>>1630194
>объединить 3060 и 580 не получится
Понял. Ну тогда и и 16 медленных гигабутов совать тоже смысла нет. Я просто думал типа будет кампутинг на 3060 а на rx580 просто память забить смогет. Спасибо

Аноним 12/06/26 Птн 00:29:05 #7 №1630201

>>1630198
С одной стороны есть, больше рам - больше моэ модельку можно пихнуть. Но 48 гигов маловато, тут бы хотябы 64 а то и 128. Если выйдет что-то около 70б - тогда будет как раз.

Аноним 12/06/26 Птн 00:30:31 #8 №1630202

>>1630198
Докупи майнерскую карту типа p102-100 или какую то еще, стоят мало есть куда, а значит можно обьединять с твоей.
Но там свои приколы с ними, шина говно кулеры крутят всегда. Рассматривай как бомжевариант эксперимент

Аноним 12/06/26 Птн 00:34:23 #9 №1630203

1781213661254.png

>>1630202
Да мне просто интересно потыкать, так в целом качество устраивает
В случае докидывания барахлом есть еще интересный вариант использовать gpu как ram костылями
Я люблю немножко поковыряться всякое такое. Но мне кажется там задержка будет ебическая и профит на ноль поделит

Аноним 12/06/26 Птн 00:35:19 #10 №1630204

>>1630201
48 норм, 32 не хватать может 8 квант мое крутить, а скорость у нее не так жестко проседает, зато качество.

Аноним 12/06/26 Птн 00:38:06 #11 №1630205

>>1630204
> 8 квант микромое лоботомита геммы
Починил

Аноним 12/06/26 Птн 00:38:32 #12 №1630206

Господа, юзающие Step-3,7-flash, подскажите несколько вопросов.
Как у него с русским языком?
Как у него с вниманием к контексту (нужно учитывать много контекста, там не SWA, надеюсь?)?
Есть ли какие-то рекомендации, у кого из квантоделов лучше кванты получились?
На борту пека 128 гб DDR4, 3060-12, 4060ti-16 и v100-16 (v100-16 уже полгода лень допилить для впихивания в системник, возможно вот и настал сей знаменательный час).

Аноним 12/06/26 Птн 00:38:36 #13 №1630207

>>1630203
У меня тестовая сборка с p102-100, так что пишу по опыту. Если выбирать другую карту с нормальной шиной для хранения кеша то скорости порезаной шины хватает для генерации, даже фулл врам крутить скорость хорошая

Аноним 12/06/26 Птн 00:41:05 #14 №1630208

>>1630205
Очко себе почини, юморист. На 6-8 кванте мое сетки лучше работают чем на 4, как и все модели.

Аноним 12/06/26 Птн 00:43:56 #15 №1630209

>>1630208
Что еще выдашь, большее мощное железо считает быстрее? Впихиватель 8-го кванта в 48, что-то проиграл с этого.

Аноним 12/06/26 Птн 00:45:08 #16 №1630210

>>1630190
>Квен 35b-a3b лучше чем квен 122b, лучше чем квен 235b, лучше плотной геммы, лучше эйра, лучше жирноглема 4.7
Ясно-понятно. В 2026 кто-то ещё воспринимает бенчи всерьёз?

Аноним 12/06/26 Птн 00:51:41 #17 №1630213

>>1630209
А вода мокрая, с тебя долбаеба токсичного угарать только. Со сборкой анона только мое и крутить и лучше если выбрать квант потолще, а ему нужна рам. Сколько именно пусть сам прикидывает.

Аноним 12/06/26 Птн 00:54:12 #18 №1630216

Аноны, я тут крупно проебался. Взял вторую видяху, воткнул и... Увидел нихуя. Полез в биос, и ахуел. Оказывается, на моей материнке нужно выбирать. Либо две видимокарты, либо 2 М2NVME. Я хуй знает что с этим делать, думаю брать переходник PCI-E x1-M2NVME, чтобы не сидеть без дисков. Есть тут такие же несчастные как я? Как обходили, чем всё кончилось? Очень не радует перспектива перезапускаться для нейронок/ссд.

Аноним 12/06/26 Птн 00:56:37 #19 №1630217

>>1630213
В те размеры из моэ только гемма поместится, там хоть 8й квант, хоть полные веса возьми - та же залупа. Или из старья жлм флеш, 30а3, 35а3 квены. Для чего-то нормального уже хотябы 64 нужно.
>>1630216
Что за материнка?

Аноним 12/06/26 Птн 01:00:02 #20 №1630219

>>1630216
Надо сначала думать, а потом покупать.

Аноним 12/06/26 Птн 01:00:50 #21 №1630220

>>1630217
так один ssd в сата поставь через m2 и пойдет по идее норм. только не системный

Аноним 12/06/26 Птн 01:02:03 #22 №1630221

>>1630217
У геммы как раз таки квант влияет в любой модели заметно, чудес не будет, но будет лучше.

Аноним 12/06/26 Птн 01:02:03 #23 №1630222

>>1630194
>Объединить 3060 и 580 не получится, только запускать на них разные модели. Можно второю 3060 или другого хуанга.
Вообще-то - про подобные конфиги на ютубе уже проскакивало. Через Vulkan их можно запустить вместе, если обе под ним заводятся. Другое дело, что Vulkan - сам по себе тормознее куды, а что будет под ним на двух конкретных картах - вообще хрен его заранее знает.

Аноним 12/06/26 Птн 01:02:17 #24 №1630223

>>1630216
Из радостного, плотная гемма в Q4 в фуллврам выдаёт 17tg вместо старых 5, буду другой квант перекачивать. Ну и стало 1000pp. Можно теперь погонять будет нормально не боясь репроцессинга.

>>1630217
ASUS TUF GAMING B450-PLUS II
https://www.dns-shop.ru/product/ae7e7f949e762ff1/materinskaa-plata-asus-tuf-gaming-b450-plus-ii/
Брал её ещё хуй знает когда.

>>1630219
Если бы я знал, что такие нюансы присутствуют. Думал, что единственная проблема - питалово, охлаждение и место, а тут вот оно как.

>>1630220
Вот думаю над этим, завтра буду переходники смотреть, либо PCI-Ex1-NVME либо SATA-NVME, если такие существуют.

Аноним 12/06/26 Птн 01:03:40 #25 №1630224

>>1630223
нене я не про переходник
в настройках uefi чекни слот m2 поставь в сата режим, если есть такое, посмотри
и переходник не нужен буит по идее

Аноним 12/06/26 Птн 01:05:05 #26 №1630226

>>1630223
Учитывая все - а может просто глянуть на вторичке что-то на ам4, а свою продать? Может по цене выйти +- сейм как покупать и пробовать все эти переходники.

Аноним 12/06/26 Птн 01:09:15 #27 №1630229

>>1630224
Спасибо, анончик! Попробую что да как.

>>1630226
Размышлял уже над этим. Клод говорит, что нужно брать что-то с чипсетом X570, но новых хуй да нихуя, и стоят они по 40к с магазина. Ну и шерстить документации к платам, искать как разведены псины.

Аноним 12/06/26 Птн 01:17:20 #28 №1630236

>>1630190
Если вдруг кто не знает (а судя по комментариям, никто почти не знает), это сайт https://artificialanalysis.ai/ где выводится просто среднее по сумме всех бенчмарков.

>>1630193
>>1630196
Так что вы слегка промазали, не разобравшись.

В целом, это лучший из имеющихся рейтингов.
Но бенчмаксинг имеет быть, так что «лучший» не значит «верный», тут вы в итоге правы.

Там еще есть вкладки «агентик» и «кодинг», кстати. Там рейтинг местами меняется порою.
Но в общем и целом, конечно… единственное, что меряет бенчмарк — это плохие модели. =) Низкий рейтинг почти никогда не ошибается, кек.

Аноним 12/06/26 Птн 01:18:53 #29 №1630237

>>1630229
> Клод говорит
В вопросах по железу ллм легко могут выдать бред.
Просто глянь варианты где есть х4 линии. С некроамд будет все печально и линии только 3.0, но едва ли тут будет какой-то смысл гнаться за дорогим чипсетом ради 4.0 на неполной скорости, лучше уже потом полностью платформу обновишь.

Аноним 12/06/26 Птн 01:22:32 #30 №1630239

>>1630222
>что Vulkan - сам по себе тормознее куды, а что будет под ним на двух конкретных картах - вообще хрен его заранее знает.

Надо всегда пробовать. У меня треть моделей на вулкане быстрей.

Аноним 12/06/26 Птн 01:57:51 #31 №1630247

А подскажите ньюфагу, вот эти ud-q(x) от unsloth, пишут что сжатие умное, важные слои менее порезаны. Но при это размер больше.

Оно будет лучше, чем обычный q(x) при одинаковой квантизации, или не нужно?

Аноним 12/06/26 Птн 01:59:17 #32 №1630248

>>1630381
https://huggingface.co/google/gemma-4-26B-A4B-it-qat-q4_0-gguf/tree/main

>>1630247
Вот же в ОП посте,почитай че значит каждый пункт

Аноним 12/06/26 Птн 02:07:09 #33 №1630252

>>1630248
Спасибо, не понял сначала, да, вижу. Тут странно правда, q4 лучше без их васянства, а q6 и q5 - с ним. Вероятно, особо не оптимизируешь и так сильное сжатие, скорее сломаешь что-то.

Аноним 12/06/26 Птн 02:18:25 #34 №1630253

Ну мне правда GPT для RP советует обычные кванты, потому что они более ровные и предсказуемые.

Аноним 12/06/26 Птн 02:20:33 #35 №1630255

>>1630253
Смотря какие модели, надо пробовать, проверять. Я glm air https://huggingface.co/steampunque/GLM-4.5-Air-MP-GGUF отсюда брал и с обычными квантами небо и земля, еще и mtp слой зарезан, чтобы память сэкономить. Правда я больше такого и не встречал, где так хорошо сделали под модель.

Аноним 12/06/26 Птн 03:09:19 #36 №1630259

>>1630247
В прошлом треде тестили, вообще похеру, хоть какие кванты бери, главное от q4 и выше и от нормального релизера. Иматриксы-статики и qat вообще значения не имеют, ud-неud тоже, выдает примерно одно и то же на всех, хоть русский, хоть какой. Современные гемки не очень чувствительны. Бери квант, лучше по скорости идущий на твоем железе. От unsloth новые qat в Q4_K_XL в плане скорости весьма неплохи. Все, что в инете пиздят, вкусовщина и субьективщина, либо вариативность моделей если нажимать кнопку генерации заново.

Аноним 12/06/26 Птн 03:17:28 #37 №1630260

>>1630259
Это те "тесты" под конец треда? Тебя там мало обоссали? Те тесты не доказывают то что ты тут пишешь. Слишком смелые выводы про подергать пару сообщений туда сюда.

Аноним 12/06/26 Птн 03:21:30 #38 №1630261

>>1630260
У утверждающих обратное только голословные беспруфные мнения, так что их можно вообще игнорить, еще бы каждого с его субъективными предпочтениями слушать. Когда пруфнут хоть какими тестами со скринами - тогда можно обратить внимание. В тестах же было запруфано, что выдает примерно одно и то же, хоть с контекстом, хоть без.

Аноним 12/06/26 Птн 03:24:50 #39 №1630262

>>1630259
Спасибо. Я все равно сейчас glm-4.7-flash q6 взял сравнивать с q4, пока вроде только больше памяти жрет и немного медленнее генерирует. Потом gemma-4 попробую.

Аноним 12/06/26 Птн 03:24:56 #40 №1630263

>>1630261
Кек, нет анон. Это не пруфы. Слабовато, не создалось впечатления нормальной проверки.

Аноним 12/06/26 Птн 03:36:33 #41 №1630264

>>1630263
Это пруфы, поскольку у остальных вообще никаких пруфов их пиздежу, ни одного запруфанного сравнение популярных квантов, где бы напрямую сравнивались. Там же реальные тесты давались с карточками. На тестовых сэмплах с контекстом и языками модели выдают одно и то же, с этим и столкнешься, когда рпшить с ними будешь. Поэтому в одном месте те же qat обсирают, а в другом нахваливают, кто-то статики хвалит, кто-то иматриксы, между квантами >=q4 от топовых релизеров нет особой разницы. Вся разница чисто рэндом у вывода модели от случая к случаю, она может то короче, то длиннее выводить, то беднее, то богаче при перегенерации, но в среднем у них одинаковый уровень вывода, что тесты и показали.

Аноним 12/06/26 Птн 03:40:35 #42 №1630265

>>1630264
Это не пруфы того что ты писал выше, слишком смелые и категоричные выводы из тех примеров что были скинуты. По ним нельзя сделать тех выводов что ты делаешь.

Аноним 12/06/26 Птн 05:17:01 #43 №1630275

Будьте любезны, подскажите, какую модель запускать на 32гб оперативы и rtx 5070ti через ламма и какие параметры указывать

Аноним 12/06/26 Птн 07:28:56 #44 №1630297

Новый кодоунитаз
https://huggingface.co/nex-agi/Nex-N2-mini

Аноним 12/06/26 Птн 08:24:35 #45 №1630306

>>1630113 →
Ага, ПРОСТО с ноги влететь в 5% топов по зарплатам по стране, при этом не имея никаких талантов и способностей, будучи почти аутистом и пребывая в затяжной многолетней апатии и депрессии.
Чего уж ПРОЩЕ.
Как же тошнит с тех, кому повезло вытащить в генетической лотерее здоровую крепкую психику, ум и сильную волю, и они теперь других жизни учат.

Аноним 12/06/26 Птн 09:38:06 #46 №1630329

>>1630297
смотришь внутрь
Qwen

Аноним 12/06/26 Птн 10:07:20 #47 №1630336

>>1630306
>будучи почти аутистом и пребывая в затяжной многолетней апатии и депрессии
От того же говна страдаю. Последние лет шесть пребываю в овощном состоянии. Нейронки кажется всё только усугубляют, ибо пропали почти все причины общаться по людски, по человечески и вживую. Во время школьнических и студентских времен тусил, че-то как-то крутился в каких-то кругах, но как закончил, всё пошло по пизде. Еще и подсел на этих цифровых размолялек.

Короче, чума все эти новые технологии. Особенно для неокрепших умов. Нужно становиться луддитом, только так победим.

Аноним 12/06/26 Птн 10:08:37 #48 №1630337

>>1630247
UD кванты - это чистый рандом. Может получиться как слепящим вин по их же бенчмаркам, так и сломанная помойка. Анслопы уже обсирались несколько раз, но к их чести таки чинили и перезаливали.

НО! У анслопов есть кое-какое преимущество для обладателей отсутствия, неспособных уместить модель во врам. Смотрим на гемму 31b в Q4_K_S:

Батруха: 18.2 Гб
Анслоп: 17.4 Гб

Экономится почти гиг, а это значит что можно впихнуть дополнительные слои во врам и получить больше скорость. На 16Гб врам с MTP и квантом анслопа удалось выжать из геммы ~9тс, что очень неплохо, ящетаю. С геммой e2b и e4b - аналогично, выигрываем ~300мб и ~400мб на Q4_K_S от ленивцев на ровном месте, благодаря этому можем выставить больше контекста на телефоне.

Во всех остальных случаях, я бы смотрел на кванты батрухи. Они ПРОВЕРЕНЫ ВРЕМЕНЕМ и стабильны.

Аноним 12/06/26 Птн 10:22:14 #49 №1630348

>>1630337
>Экономится почти гиг
q4Xs тоже самое для рп тюнов. Чуть меньше слов и всё.

Аноним 12/06/26 Птн 10:29:30 #50 №1630351

>>1630348
Если играешь на английском, да. По моим наблюдениям, сочетания IQ кванта и imatrix ломает русик. Как и рп тюны/херетики. К сожалению.

Аноним 12/06/26 Птн 10:57:34 #51 №1630367

>>1630337
> Батруха: 18.2 Гб
> Анслоп: 17.4 Гб
Так тут никакой магии, у Батрухи просто квантование менее агрессивеное. Больше размер — неиллюзорно выше качество.
Да еще и 31b, там есть QAT, который до Q5_K_S ебет все кванты, ну тут смысла нет.

Вин я от анслотов видел 1 раз лишь, и то, быстро модель вышла из меты, я и забыл че было. Все остальные поголовно сливали и Батрухе, и АесСедаю, и Убергарму и остальным челам.
И в русском, и в логике, и прям ну я не знаю.
Единственное у них хорошие K_XL кванты, это да. Когда следующий бит уже не влазит, то предыдущий K_XL будет чутка получше K_L обычного.

>>1630351
Не забывай, анслоты хвалятся тем, что у них imatrix в том числе для русского спецом заточены! Только выиграли. =D

Аноним 12/06/26 Птн 11:06:07 #52 №1630374

Привет, я врамцелл, у меня 1050ти 16гб рамы, и большое желание

Какой ггуф можете посоветовать для llamacpp?

Аноним 12/06/26 Птн 11:08:41 #53 №1630376

>>1630351
Не замечал разницы с q4km иногда только she вместо она пишет. От такого песюн не упадет.

Аноним 12/06/26 Птн 11:11:38 #54 №1630379

Существуют ли сейчас тюны четвёртой геммы 31b с качеством на уровне tesslate synthia (для меня эталон качества тюнов третьей геммы)?
Желательно abliterated.

Аноним 12/06/26 Птн 11:14:28 #55 №1630381

>>1630374
QAT версию геммы 4, с выгрузкой ffn слоёв на проц, на видюхе чисто слои внимания и контекста сколько влезет.

Аноним 12/06/26 Птн 11:16:59 #56 №1630383

Аноним 12/06/26 Птн 11:19:08 #57 №1630385

17801287071460135198.jpg

>>1630374
не знаю как вы на русике играете с геммой (а ктото даже с квеном) а потом удивлённые возгласы как на пике
у модели родной английский, на нём инстракт, на нём она думает, ситуация не может ограничивацца рандомным she, практически любая высранная конструкция на русике всё равно окажется переводом оной из англюсика
мб на базовой модели русофилам жить можно, не проверял

Аноним 12/06/26 Птн 11:19:57 #58 №1630386

>>1630383
>>1630381
>QAT версию геммы 4, с

Спасибо мил человек.
Но 14гб брутально конечно в 16

Аноним 12/06/26 Птн 11:21:04 #59 №1630387

>>1630379
https://huggingface.co/sophosympatheia/Glistening-Gem-31B-v1.0

Аноним 12/06/26 Птн 11:26:38 #60 №1630389

17630033287302.mp4

>>1630385
Что бы я без тебя делал)))

Аноним 12/06/26 Птн 11:31:38 #61 №1630392

ого, рука дрогнула и пострадал невинный анон
это >>1630385
ему >>1630376

>>1630374
>>1630386
войдёт со свистом - у тебя 6гб врама. если сильно переживаешь и сидишь на питухос, в целях экономии памяти можешь перекатиться на линукс с каким нибудь lxqt

Аноним 12/06/26 Птн 11:37:50 #62 №1630398

>>1630385
>Посмотрите на меня, я даун!
Действительно, где это видано, играть на русике с моделью у которой лучший руссик/мозг в своём размере.

Аноним 12/06/26 Птн 11:40:16 #63 №1630399

>>1630392
На 1050ti 4гб врам, мелкобуква.

Аноним 12/06/26 Птн 11:42:17 #64 №1630401

>>1630275
>>1630374
Гемма 26 q8 по гайду с шапки. Параметры там есть и всё нужное тоже

Аноним 12/06/26 Птн 11:42:26 #65 №1630402

>>1630398
кого ты цитируешь?
всё знают что лучший русик у гигачата

Аноним 12/06/26 Птн 11:55:50 #66 №1630405

Что там в жоре опять сломали? я обнаружил что ризонинг пропал после обновления на llama-b9605, в b9469 вроде было все нормально

Аноним 12/06/26 Птн 12:01:29 #67 №1630407

>>1630385
>практически любая высранная конструкция на русике всё равно окажется переводом оной из англюсика
Именно. И смысл играть на англюсике в случае Геммы? Она на нём не будет писать разнообразнее и живее, мб даже больше слопчика будет. Кидали как то логи длинного чата с 26б на русском, вполне норм. На Квенах русик хуйня, а вот на других моделях ток англюсик, это правда

Аноним 12/06/26 Птн 12:07:45 #68 №1630410

Uncensored heretic на QATы вышел.
https://www.reddit.com/r/LocalLLaMA/comments/1u3flg9/gemma_4_quadruple_release_12b_12b_qat_26ba4b_qat/

Аноним 12/06/26 Птн 12:08:41 #69 №1630411

>>1630410
>лоботомит лоботомита... лоботомита?
Ураа!

Аноним 12/06/26 Птн 12:09:49 #70 №1630413

>>1630411
Так и живем.

Аноним 12/06/26 Птн 12:10:15 #71 №1630414

>>1630411
YES MAN!

Аноним 12/06/26 Птн 12:10:48 #72 №1630415

>>1630410
Мммм, говно

Аноним 12/06/26 Птн 12:10:57 #73 №1630416

>>1630411
Не просто лоботомит, а созданный быть поломанным. Можно еще в голос порофлить над попыткой конверсии во что-то кроме q4_0 и gptq int4

Аноним 12/06/26 Птн 12:14:35 #74 №1630419

>>1630416
К счастью хотя бы это он не делал, там q4_0, gptq и nvfp4 qat кванты
Энивей трипллоботомизация не нужна. Стоковой геммой даже порнодатасеты для картинкомоделей можно капшенить

Аноним 12/06/26 Птн 12:40:57 #75 №1630425

Че там с Diffusion Геммой? Опять модель вышла а никто ее не может попробовать потому что поддержки нет?

Аноним 12/06/26 Птн 12:41:55 #76 №1630426

>>1630425
Жду пока ты затестишь

Аноним 12/06/26 Птн 12:44:21 #77 №1630428

>>1630426
Кто? Я? Я тоже жду пока кто-нибудь вообще сможет это запустить.

Аноним 12/06/26 Птн 12:46:11 #78 №1630430

>>1630425
Варианта запуска ровно 2 - запускать вллм если богат, и собрать билд из какого-нибудь ПР жоры типа этого https://github.com/ggml-org/llama.cpp/pull/24423 (этот вообще анслоп пытается залить) если не лень тратить время на билд. Правда там скорость пока довольно грустная из-за сырости. Уж лучше подождать пару недель пока допилят.

Аноним 12/06/26 Птн 12:49:11 #79 №1630431

>>1630425
>Че там с Diffusion Геммой?
Не нужна по определению.

Аноним 12/06/26 Птн 12:56:21 #80 №1630432

>>1630411
>>1630410
Давно уже вышли еретики на qat через день после самого релиза qat.

Аноним 12/06/26 Птн 12:58:19 #81 №1630433

>>1630425
Поддержку для Лламы ещё пилят, надо ждать
>>1630431
Глупый не понимает, что это новый подход к текстовым моделям который может вылиться в огромные изменения всех локалок

Аноним 12/06/26 Птн 13:02:25 #82 №1630434

>>1630433
>новый подход
Боюсь придется подождать пока он во что то выльется. А ждать не хочется.

Аноним 12/06/26 Птн 13:05:06 #83 №1630435

>>1630433
Да, это может стать новой базой для локалок а может и не стать

Аноним 12/06/26 Птн 13:07:31 #84 №1630436

>>1630425
Она мелкая и по определению вялая, так что нет смысла даже качать. Там новые кванты mimo подъехали, поддержку ультранемо кажется получается присрать (или пытаться впихнуть невпихуемое в w4a16), дипсик для нищебродов все фиксят. Вот это уже интересно, а не потыкать палкой в лоботомита и забыть.

Аноним 12/06/26 Птн 13:07:40 #85 №1630437

>>1630435
Как и любое открытие в свое время, да. Как электричество могло заменить или не заменить масляные лампы. Ты правда глупый. Только благодаря такому возможен прогресс

Аноним 12/06/26 Птн 13:13:34 #86 №1630439

>>1630436
напомню, что "мелкая и вялая" ебёт в сраку ваш квен 235 и стоит наравне с немотроном 120б супер. думайте

Аноним 12/06/26 Птн 13:15:27 #87 №1630441

>>1630385
>у модели родной английский, на нём инстракт, на нём она думает
>практически любая высранная конструкция на русике всё равно окажется переводом
Тоже так в начале думал, но нет, использует конструкции уникальные для русика и термины не имеющие аналогов.
Тут еще такое дело что детерменированность и слопность нейросеток по языкам типа русского/польского, где миллион способов построить фразу об одном и том же, в принципе сильнее и заметнее всего бьёт,

Аноним 12/06/26 Птн 13:17:05 #88 №1630443

>>1630385
>>1630439
Как легка и беззаботна жизнь с IQ >40. Порой даже завидую таким как ты.

Аноним 12/06/26 Птн 13:17:56 #89 №1630444

>>1630443
>IQ >40
согласен. тяжела, когда IQ <40, как у тебя. вхахах

Аноним 12/06/26 Птн 13:19:42 #90 №1630446

>>1630444
Лул, реально не в ту сторону поставил. Вот видишь как отупел, только почитав твои посты.

Аноним 12/06/26 Птн 13:20:53 #91 №1630447

>>1630446
>твои
ведь как известно на планете земля одна единственная мелкобуква. тяжела и полна забот жизнь с IQ <40, отношусь с пониманием
а котик смешной

Аноним 12/06/26 Птн 13:21:39 #92 №1630448

>>1630443
Бля, анон хорош юморить

Аноним 12/06/26 Птн 13:27:50 #93 №1630451

>>1630439
А потом просыпается на лекции и начинает любить за простату, ага.

Аноним 12/06/26 Птн 13:28:56 #94 №1630452

>>1630381
А как эти тензоры, для аттеншена будут выглядить? Я вот тоже сижу 16гб\6врам и юзаю QAT 26б гемму, 32к контекста. И у меня вот такие тензоры .\\d[01234]\\.ffn_gate=CPU,.\\d[01234]\\.ffn_up=CPU,.\\d[01234]\\.ffn_down=CPU

Аноним 12/06/26 Птн 13:30:47 #95 №1630453

>>1630451
qatопроблемы, кекв

Аноним 12/06/26 Птн 13:30:53 #96 №1630455

>>1630433
>это новый подход к текстовым моделям
Не такой уж и новый. И да, там в плюсах только х6 скорость, а по качеству наоборот просадка по мнению самого гугла.
>>1630439
Дифужен гемма хуже простой если ты вдруг не зналю.

Аноним 12/06/26 Птн 13:35:08 #97 №1630461

>>1630455
>И да, там в плюсах только х6 скорость, а по качеству наоборот просадка по мнению самого гугла.
Ты рассматриваешь всю идею на примере одной конкретной интерпретации, самой первой. Ебануться, тут полтреда тупых?

Аноним 12/06/26 Птн 13:37:27 #98 №1630462

>>1630461
>самой первой
Не самой. https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B

Аноним 12/06/26 Птн 13:39:30 #99 №1630464

>>1630461
А там механизм внимания есть? Я чет пропустил этот момент, другой анон.
Мне кажется без него или его аналога кина не будет.

Аноним 12/06/26 Птн 13:51:04 #100 №1630469

>>1630255
Потестил данные кванты наконец глма. Токенов 25 есть. И теперь я не понимаю - а что за шизоидный дегенерат итт вообще им срал? Это же какой то пиздец просто. Глм этот по кодингу сосет. А в рп это вообще пиздец полный. Я конечно рпшу на русском, да и на карточках типо ahhh ahhh mistress, но та же гемма хоть и в парике, но прям на порядок лучше.
Я не понимаю нахуя нужен этот глм то? У меня гемма плотная с mtp 100+ токенов пишет заместо 25.

Аноним 12/06/26 Птн 13:52:46 #101 №1630473

>>1630439
Чел, этот рейтинг оценивает как модель умеет вызывать тулзы, кодить, и ассистировать. Год назад когда вышла 235 - из всего этого был актуален только кодинг. На тулзы начали надрачивать ближе к концу 25 годла.
Но знаешь что не оценивает этот рейтинг? Пригодность к РП и еРП.

Аноним 12/06/26 Птн 13:53:53 #102 №1630474

screen.jpg

>>1630441
>использует конструкции
если изъебнуться, но не как 90% треда промптят (и получают мышей в пизде)
>Тут еще такое дело
не думаю что проблема в йоба морфологии или свободном порядке слов. скорее русик ебёт токенизация, и в первую очередь говёные датасеты - на англюсике худо бедно можно наскрести чёто, а на русике корпам приходится всё конмпенсировать ударной дозой синтетики тк проебать или не проебать разнообразие так вопрос даже не стоит

Аноним 12/06/26 Птн 13:54:11 #103 №1630475

>>1630461
Я рассматриваю идею как идею. Притом, что даже в дегенерации картинок уходят от диффузии, забавно смотреть на попытки прижопить этот подход к языку.

Аноним 12/06/26 Птн 14:05:50 #104 №1630482

>>1630475
> даже в дегенерации картинок уходят от диффузии
Опять тредик заболел, помимо этой цитаты мощно выдали

Аноним 12/06/26 Птн 15:01:48 #105 №1630493

>>1630452
Пчел, вручную не надо выгружать регулярками, если у тебя одна видеокарта. Вот если две, там пиздец полный, это да, и приходится возиться. Ещё с МоЕ иногда надо, но прям редко.

Достаточно указать кол-во МоЕ-слоёв. То есть пишешь сначала, что на видюху идёт 999, а для МоЕ указываешь нужное количество, затем запускаешь бенчмарк на нужном контексте. Если ты с лламы, то скачай кобольд чисто для бенча и быстрых тестов — так тупо удобнее.

Ах да, ручная выгрузка слоёв ещё может пригодиться для плотных моделей. Это актуально, когда ты сидишь на 3 токенах ради качества. Будет 4 токена вместо 3.

Аноним 12/06/26 Птн 15:10:15 #106 №1630498

>>1630469
> Я не понимаю нахуя нужен этот глм то?
Я не понимаю, нахуя нужен Ford model T, если есть ford mondeo.

Аноним 12/06/26 Птн 15:11:10 #107 №1630499

>>1630493
А вот и нет! Если не использовать тензоры я получил бы максимум 15 т\с, а сейчас я получил на геммочке 20т\с, что для моего рига, а это 2060 и 5600 с 3600 ддр4 является пределом ПСП. Вот какие я намутил тензоры blk\\.([5-9]|1[0-9]|2[0-7])\\.ffn.*=CPU и потом ставишь в кобольде 99 слоев на видяху, чтобы все остальное село в нее.

Аноним 12/06/26 Птн 15:17:12 #108 №1630503

Давно не заходил сюда. Какой положняк на сегодня, геммочку умничку уже заменили?

Аноним 12/06/26 Птн 15:21:21 #109 №1630504

>>1630469
> Глм этот по кодингу сосет.
Он сосал и на релизе, а с него скоро будет год.
> Я конечно рпшу на русском
И он не умеет в русский.
Это модель для рп на английском, в целом там стиль неплохой и при удачном раскладе он может приятно писать и хорошо работать. Но никак не для кодинга или русского.

Аноним 12/06/26 Птн 16:09:30 #110 №1630525

Хм. после обновления жоры в плотные модели стало входить в 2 раза больше контекста.
Теперь плотненькая mradermacher_Gemma-4-Gembrain-31B.Q3_K_S.gguf на 16гб с 40к контекста влезает вместо 20к.

интересно что они там добавили такого

Аноним 12/06/26 Птн 16:10:22 #111 №1630527

>>1630525
подозреваю это новая версия твоей шизы

Аноним 12/06/26 Птн 17:39:35 #112 №1630575

Новый минимакс

https://huggingface.co/MiniMaxAI/MiniMax-M3

Аноним 12/06/26 Птн 17:40:30 #113 №1630577

>>1630575
>427b

Аноним 12/06/26 Птн 17:43:23 #114 №1630579

>>1630184 →
Ллама на нвидиях работает начиная с sm60 (серия 10хх), насколько мне известно. То есть и более ранняя карта умеет матрицы перемножать, даже нвидия 540m на пять поколений раньше - но конкретно в лламе кода под старые карты вроде как нет.
Докупать плашки ddr4 на 16 гб имеет смысл, если компьютер не только хостит сетку на убунте, но и ещё какие-то задачи выполняет.
rx580 на 8 гб - это старая карта от амд, я не уверен что пара амд+нвидия будет осмысленна из-за постоянных киданий данных туда-сюда. К тому же пишут, ROCm на ней не заведётся новый.

>Или пустое?
Да. Если бюджет ультранизкий - лучше купить теслу V100 на 16 гб. Она 10к. С кулером, переходником и радиатором в 18-20к уложишься. Это куда осмысленнее. Она тоже старая, но ллама с ней дружит, сетки для генерации картинок и даже квантованные для генерации видео можно гонять, и 480p достаточно быстро сгенерируется (мыльное из-за квантов, там сетки скорее по 20+ хотят). Мое-моделька будет даже внятно работать. А 9-16B модельки будут вовсе летать. Если бюджет больше 20к и ближе к 50к, то надо повышать и брать 3090, наверное. V100 на 32 гб хоть и есть за 55к (с радиаторами и переходниками), но при наличии 3090 с sm80 за 65к, то v100 с устаревающей sm70 за почти ту же сумму не особо нужна. А потом бездна, в диапазоне от 80к и до 250к нет вообще ничего осмысленного к покупке. Или 3090, или 5090. Между этими вариантами только если две 3090, лол.
>Ебать, 15 лет назал на бюджетных платах столько разъемов было, не то что сейчас.
uart это 38400 бит/с, pci - это 66 мегагерц. Можно на однослойной плате развести, и вытравить лимонной кислотой в гараже, а так же делать линии по 3 метра.
pcie 1.0 - 1.25 гигагерца.
pcie 5.0 - 32 гигагерца, на такой частоте любой неправильно изолированный участок платы - это излучатель эм волн на ватт или больше, и потребная мощность передатчика достаточно высокая (просто чтобы на ненулевую по ёмкости линию навести нужны +1 или -1 вольт (или сколько там) с указанной частотой). Это сложнейшая инженерная задача передать такой сигнал даже на несколько десятков сантиметров, чтобы передающая часть не расплавилась. И на уровне процессора создать большое количество функциональных пинов, и на уровне разводки платы.

Наверное в pcie 6.0 и более старших перейдут как в мобильной связи на свякие квадроупольные-модуляции, только "64-польные" (амплитудо-фазовые на нескольких частотах сразу). Всякие 256-QAM + OFDM, только это будет не для беспроводной связи, а для модуляции сигнала в проводе.

Или вообще на оптику, как в всяких трансатлантических магистралей, где петабиты в секунду по одному оптоволокну идут, и там подключены последовательно сотни станций, каждой из которых "грузит" в канал свой свет, в диапазоне с 221 до 222 ГГц, следующая с 222 ГГц до 223 ГГц. И при этом оптоволокно ничего из этого не излучает наружу.

Аноним 12/06/26 Птн 17:44:59 #115 №1630582

>>1630575
Эм... Их не учили, что для сравнения величины должны быть в одних единицах измерения?

Аноним 12/06/26 Птн 17:51:41 #116 №1630587

>>1630575
Топчик, осталось квантов дождаться.
Модель изначально в бф16, что потенциально избавляет от некоторых проблем на лламе, но там новый тип атеншна, добавление которого может затянуться или сломаться.

Аноним 12/06/26 Птн 17:55:28 #117 №1630589

https://github.com/ggml-org/llama.cpp/pull/24260
Поддержка нового Коммандера почти готова

Аноним 12/06/26 Птн 18:05:29 #118 №1630594

>>1630575
Ради улучшения в несколько процентов - размер x2. Ну его нахуй. Нет, я конечно запущу это в 2.5 bpw когда запилят кванты, но...

Аноним 12/06/26 Птн 18:06:10 #119 №1630595

Сосоны, кто-нибудь пробовал именно анслоповскийладно, батруху тоже можно Q8 26б и 21б геммы? А ещё лучше bf16.

Я просто хочу понять, как у вас контекст быстро рассыпается на геммах. И не просто сыпется, а как песок из пизды у старой бабки.

Я использовал q4 k m анслопа/батрухи для 31б, но выше 40к не прыгал, ибо там в память уже не лезет. А вот Q8 26б уже уже еретизированную юзал (хаухау — у него самые стабильные). Она рассыпается уже с 40-50к. Это не просто отсутствие учёта событий за пределами SWA, а тотальное забивание члена, как у мистраля 24б 3.2.

Был у меня опыт и с 26б от батрухи и анслопа в Q8, но давно и только в рамках проверки. Я просто запустил свой простой бенч по суммарайзам и поискам иголки в стоге сена на 100к контексте, и 26б Q8 пустил жидкого. 31б тоже, правда там Q4, что уже не совсем честно.

Что интересно, квен 27б и 35б-а3б тесты прошёл (Q4 и Q8 соответственно). Периодически проёбываясь, конечно, и с ризонингом в вечность.

Без ризонинга ни одна модель вообще эти тесты не проходила даже близко. 0 попаданий.

Аноним 12/06/26 Птн 18:25:38 #120 №1630607

>>1630595
У геммы же какой-то короткий sliding window + moe, она архитектурно хуева на длинном контексте.
Он может быть довольно большим, но если он весь связанный и сложный, то она серанет с очень большой вероятностью.

Аноним 12/06/26 Птн 18:27:37 #121 №1630611

>>1630216
В конце концов взял себе переходник PCI-E x1 - M2. Еле встало, счёт прям на миллиметры между картами. Хорошо, что 5060ti занимает 2 слота, а не 2.5, иначе бы не влезла.
Кому интересны скорости, 4060ti на PCI-E 3.0 + 5060ti на PCI-E 2.0 gemmaQ6_K с MMPROJ на фуллврам + 14к конекста занимает около 30ГБ. Без MTP генерация 11-12 т/с, с MTP генерация 15-16, но такое чувство, что откидывает очень много токенов и кажется медленной. Prompt processing 800-1100 t/s.

По скоростям накопителей, SSDM2 помещённый в PCI-E 2.0 x1 стал скоростью как 4 харда, 400Мб/с чтение и 400 мб/с запись.

Пиздос я теперь рад, что всё работает, и в игрульки могу погонять, и чут-чут повайбкодить.

Аноним 12/06/26 Птн 18:34:28 #122 №1630616

>>1630595
в конце прошлого тредиса анон тестил картинки на q8 и бф16 26б, чекни мб там

Аноним 12/06/26 Птн 18:53:15 #123 №1630630

>>1630595
> Я просто запустил свой простой бенч по суммарайзам и поискам иголки в стоге сена на 100к контекст
Можешь дать мне этот тест, чекну Q8 бартовского и bf16. РПшил я на Q8, и на английском, и на русике доходил до ~60к. Дальше уже забывала детали, но при направлении ручками можно было и продолжить.

Аноним 12/06/26 Птн 18:56:26 #124 №1630633

>>1630503
Да она с самого начала не нужна была. Глм ебёт чисто.

Аноним 12/06/26 Птн 19:06:28 #125 №1630639

Вот норм локалка вышла а не ваши мелкие лоботомиты

Аноним 12/06/26 Птн 19:10:29 #126 №1630641

>>1630639
Полтерабайта чистого кайфа.

Аноним 12/06/26 Птн 19:11:13 #127 №1630642

>>1630639
И она поместится с контекстом в мои 8 Гб видеопамяти? Угу

Аноним 12/06/26 Птн 19:15:35 #128 №1630647

>>1630639
Полтерабайта чистого кала.

Для РП только дипсик 10/10, если уж пофантазировать, что его кто-то запустить может. Потому что там очень хороший ролевой датасет, он люто заряжен.

Аноним 12/06/26 Птн 19:17:44 #129 №1630649

>>1630639
Ух бля, лучшие! Особенно приятен второй пункт, потому что иногда 2.6 слишком упарывалась ризонингом. Не как поехавший 5.1 конечно, но чрезмерно.
Необычно что сейчас добавили приставку -Code, интересно будет еще какая-то версия?

Аноним 12/06/26 Птн 19:18:39 #130 №1630650

>>1630647
Для рп лучше фимоз без фильтров, но кто его даст. А все остальное это копиум, даже жопус.

Аноним 12/06/26 Птн 19:30:08 #131 №1630657

>>1630575
Блядь, снова удвоение размера.
Можно 200B пожалуйста, или около того. Можно чуть поглупее, но 200B, а не 400? Мне умеренно умное 200B нужнее, чем умное 400B.
Сложные задачи я и сам решу - дайте мне способ решить простые и рутинные ии-полные (как np-полные, только ии-) задачи. Получается выжил только степ-флеш. И сомнительный гвен 3.5 на 100b. И ещё кто-то один был от 210 до 230.

Аноним 12/06/26 Птн 19:33:09 #132 №1630658

>>1630650
Фимоз это плохо, аноний, растягивай аккуратно.

Аноним 12/06/26 Птн 19:57:37 #133 №1630666

>>1630579
Да у меня есть плашки, просто не хочу частоту памяти занижать. Я swap на 16 ебанул, чтобы не было проблем с сеткой в фоне при работе, остается ~8гб из 32 при запуске.
Кстати да, спасибо за интересное почитать, там же правда наводки появляются на высокой частоте, не подумал. Но все равно, частично факт обгрызания entry плат производителем более жестко, чем раньше, тоже имеет место.

Аноним 12/06/26 Птн 20:38:07 #134 №1630676

>>1630657
Какие задачи ты решаешь Степом, которые не может решить Квен, и почему тебе не хватает того и другого?
Мимо использую и Степ, и Квен 122

Аноним 12/06/26 Птн 20:57:26 #135 №1630685

>>1630650
Фи.. фимоз, братик? Что ты такое говоришь? Или это отсылка на Mythos/Fable?

Если так, то ты не прав, братик. Он плох. Дюже-дюже плох. Я им пользуюсь. Язык деревянный, знаний мало. Opus гораздо лучше, но только 4.6. Остальные годятся исключительно для работы.

Из корпоративных моделей лучше всех Gemini. Она знает, братик. Знает цвет нимба Кёямы Казусы и оттенок её колготок лучше всех. Размер ступни. Она выдоит твою простату так, что ты будешь кричать её имя.

Аноним 12/06/26 Птн 20:59:19 #136 №1630687

>>1630685
Гемма, тише будь

Аноним 12/06/26 Птн 21:02:22 #137 №1630689

>>1630676
> Мимо использую и Степ, и Квен 122
И как степ? Трогал, как-то не сильно зашло, при том что размер крупнее. В каких кейсах отмечаешь его преимущество?

Аноним 12/06/26 Птн 21:07:50 #138 №1630691

4889101.mp4

Кто-нибудь может показать этот видик ЛЛМ? Интересно поймет ли она почему мать так медленно повернула голову.

Аноним 12/06/26 Птн 21:08:55 #139 №1630692

>>1630689
Вижен классный, но медленный очень. Использую Q4_K_XL Бартовского. Скорость получаю ту же, что на Квене 122 Q8: 9 токенов. Степ очень хорош в математике, причем не в отдельных задачах, а хорошо видит картину целиком и не требует декомпозиции математических задач. Помогает мне снижать трудоемкость алгоритмов для кода и в целом классно помогает с архитектурой. Квен это все тоже умеет, но чаще требует декомпозиции и фейлит математику, даже довольно простую алгебру, если есть вложенные функции и прочие усложнения.

Аноним 12/06/26 Птн 21:15:28 #140 №1630695

>>1630692
Хм, как раз вижн оче непонравился там, и что тупит на анализе кода. Но раз говоришь про математику - вот это интересно и как раз то что нужно. Пойдет на перетест, спасибо.
А квен 122 так и не понял, он или делает все просто превосходно, оптимизируя и понимая с полуслова, или тупит и фейлит на ровном месте. Но в целом хорошего больше и альтернатив по размеру-скорости просто нет.

Аноним 12/06/26 Птн 21:37:31 #141 №1630701

>>1630685
Хз, жеминя при любой попытке в креатифчик начинает какие-то особые галюны выдавать. Текст связный, но по смыслу нонсенс вообще.

Аноним 12/06/26 Птн 21:52:45 #142 №1630705

>>1630691
>мать так медленно повернула голову
И правда же, почему она так медленно повернула голову? Анон, почему не резко, а медленно

Аноним 12/06/26 Птн 21:57:25 #143 №1630709

>>1630701
Очень зависит от того, используешь ты API или нет.

Если веб-интерфейс, то могу поздравить: у неё SWA с очень малым кол-вом токенов. Не удивлюсь, если 1024, как в гемме, лол. И всё это накладывается на..

..bio юзера, суммарайз чатов и прочую хуйню. Модель шизеет как 12b-huihui-abliterated-NEO-MATRIX by DavidAU. Она буквально может отвечать на то, что ты не спрашивал. На тот суммарайз, который у неё в контексте, а не на текущий вопрос.

На очень коротком блоке инструкций она в целом контролируема даже при большом контексте, но это, конечно, не уровень Клода. И она так же, как и гемма, не учитывает, чё там было 3к токенов назад. Вот вообще пахую. Даже 80 iq грок себя так не ведёт.

Аноним 12/06/26 Птн 21:58:34 #144 №1630711

>>1630709
>Очень зависит от того, используешь ты API или нет.
Ого, а Геминю можно без api использовать? Вот это корпы продвинулись

Аноним 12/06/26 Птн 21:59:11 #145 №1630712

>>1630575
5 токенов в секунду на UD_IQ1_M.
Кек, конечно.

Но сам по себе релиз — отличный. Как и Кими-2.7-Кодинг тоже.

Аноним 12/06/26 Птн 22:05:55 #146 №1630715

>>1630711
Шо ты ржьош? Речь про веб-обертку, в не голое апи.

В веб-обертке тебе столько анусов в жопу напихают, что каждый чат будет мукой. Я такого бреда ещё ни у одного корпа не видел. Только Гугл отличился.

Аноним 12/06/26 Птн 22:18:10 #147 №1630724

>>1630715
Ого, а корпоюзеры в веб-обертке рпшат? Вот это корпоюзеры продвинулись

Аноним 12/06/26 Птн 22:20:27 #148 №1630725

>>1630709
Анон, а как ее тогда не заставить шизить? Отключить этот суммарайз? Про суммарайз чатов, помню спрашивал про футболочку и удивился как она с другого чата взяла и спросила про Nile и Cannibal Corpse. И кстати, если пошла пляска, вот это хуйня какая модель? Гухол заверяет, что используется та же 3.5 флеш гемини, но она неизбожно тупее, чем та, которая сидит на gemini.google.com. Нет такого ощущения, что она сидит в локалке у тебя на пука? Ведь вскакивала новость про новую функцию хрома.

Аноним 12/06/26 Птн 23:02:17 #149 №1630736

>>1630725
Что-то незнакомый интерфейс.

Короче, я сидел с веб-версии на платной подписке. Та, которая gemini.google.com. Остальное не щупал, кроме апи. В принципе, именно по ссылке в сообщении можно сейчас вроде бы все суммарайзы отключить и нормально это дело настроить. Не как апи, конечно, но если не ленивый, нормально будет.

Версия в поиске пиздец какое тупое говно. Не знаю, какая там модель, но очевидно, что 4б лоботомит или что-то в таком духе.

Флеш 3.5 вполне рабочий, но жидковат без ризонинга на максимум. До сих пор лучше про 3.1 юзать. С другой стороны, флеш почему-то больше знает из коробки про всех там аниме-девочек.

Аноним 12/06/26 Птн 23:23:42 #150 №1630743

>>1630736
Я и про версию в поиске и говорил. Режим ИИ, который называется, тоже такое ощущение что лоботомит 4b, но и гемени на гемени.хухол.ком тоже не сверх умная. Флеш 3.5 которая. Меня в ней раздражает, что иногда не понимает что я прощу, и неверную надуманную вещь говорит иногда. Просил сегодня тензоры для кобольда, она с 3 попытки дала рабочие. Иногда за тебя думает, ты ее просишь, а она даёт тебе ответ как она думает более рабочий, но он наоборот вредит, так как закрывает только пункт а), но ты просил и а) и б). Ты ей указываешь на то, что это брехня и даёт уже более внятный ответ. ОФК бесплатная версия. Однако, что не отнять, гопота вообще тупая, но внезапно более снисходительно относится к цензуре, отвечает на то, что ни ответил никто, ни клауд, ни квен, ни дипсик. Но не внятно. Внятно на этот вопрос ответила уже гемини 3.5 та же флеш, но уже в ai.studio от гуглов. Там отключить можно этику. Можно писать бесплатно, но хз сколько токенов и какие ограничения. Требует только хухол аккаунт, и можно в темпоральном чате писать. Хз как, видят они че ты пишешь или нет, но в истории не сохраняется, что спасает от паранойи.

Аноним 12/06/26 Птн 23:28:30 #151 №1630745

>>1630701
>Хз, жеминя при любой попытке в креатифчик начинает какие-то особые галюны выдавать. Текст связный, но по смыслу нонсенс вообще.
Корпоративные модели можно нормально использовать только по API.
Может ли квен 122B или Step-3.7-Flash в 200к контекста? Парадоксальная ситуация, возможно проще будет перейти на локалки, чем искать корпоратов с возможностью работать с таким большим контекстом нахаляву, один хрен вручную переписывать куски.

Аноним 12/06/26 Птн 23:34:17 #152 №1630746

>>1630745
>пикрилы
Ебать, я даже и не думал, что можно такое обыгрывать. А эти панели она вёрстку пишет в чате? И сколько токенов уходит только на это, под 600-700? Реально охуеть, и она это умеет из коробки, ну моделька, квен у тебя или какая. Или ей нужно указать это в промпте/звездочками в чате силлитаверны И кстати это кто ещё умеет? Всё модельки по идеи? И гемма и квен и гмл?

Аноним 12/06/26 Птн 23:41:28 #153 №1630748

>>1630743
>>1630725
Съебите пж отседова в копротред.

Аноним 12/06/26 Птн 23:51:03 #154 №1630752

>>1630748
А я еблан писать от своего аккаунта сомнительное сообщение? Ясен хуй это будет в инкогнито.

Аноним 13/06/26 Суб 00:03:52 #155 №1630754

>>1630745
> Может ли квен 122B или Step-3.7-Flash в 200к контекста?
Смотря что ты понимаешь под можешь и какой там контекст. В первом приближении да.

Аноним 13/06/26 Суб 00:19:02 #156 №1630760

>>1630754
>В первом приближении да.
Отличные новости.
>Смотря что ты понимаешь под можешь и какой там контекст.
Описание событий первоисточника, описание техники и вооружения, описание изменений относительно первоисточника, возникших по ходу ролеплея, итоги операций, состав встретившихся в повествовании звеньев на текущий момент, краткое описание пилотов, которые не входят в перечень известных персонажей, но появлялись в повествовании (сиречь массовка).
Ну и суммарайзы произошедших ранее событий.
Пока я в 65к токенов упихиваюсь, но дальше всё будет только увеличиваться, поэтому сразу хотелось бы замахнуться на 200к.

Аноним 13/06/26 Суб 00:35:15 #157 №1630769

>>1630760
Описанное - кажется даже что справится вполне неплохо, если речь о наваливании большого повествования и далее выдачи заданий по нему.
А вот выдать синематик увлекательный ролплей с 200к контекстом чата без высокого разнообразия событий - уже врядли. Будут гадить запоминание "успешных" паттернов с их повторениями и формализация стиля, когда получаешь гиперфокус на деталях, пусть даже четких и уместных, но с недостатком художественности. Если до 120к спуститься - еще норм в зависимости от содержимого, там уже сама специфика моделей и их стилей роляет.

Аноним 13/06/26 Суб 00:44:34 #158 №1630773

>>1630769
>>1630760
Извиняюсь за вопрос, но вы когда такое обыгрываете вы дрочите? Буквально. И чем такое рп будет лучше, чем произвольные рпг/рп проекты а-ля диско илизиум/драгон ейдж/балдура/рп сервера и тд?

Аноним 13/06/26 Суб 00:50:19 #159 №1630778

>>1630611
Скажи Друже, у тебя МоЕ гемма или нет? Ибо 15 т/с можно и на проце увидеть. И не думал ли ты использовать всё это как ассистента? Ну по типу того, как нвиде представила его. Во время игры ему можно написать и он тебе ответит. А с тем счётом, что у тебя ещё подключена mmproj то ему и скрины можно кидать на съедение.

Аноним 13/06/26 Суб 01:13:55 #160 №1630790

>>1630773
> вы дрочите? Буквально
Конечно. По крайней мере у меня главные чары тяночки или гаремник, по мере развития вставки кума неизбежны и обусловлены сюжетом. Просто это приятный бонус и опция, иногда содержимое и атмосфера настолько интересно идут, что банально не хочешь отвлекаться на это. Или наоборот, быстрее закончить все "дела" и смачно покумить, за счет эмпатии идет лучше чем на рандомном кумботе.
> чем такое рп будет лучше, чем произвольные рпг/рп проекты а-ля диско илизиум/драгон ейдж/балдура/рп сервера
Оно не лучше - оно другое.
Можно выбрать абслютно любой сеттинг, навалить своих хотелок и фетишей, развивать как и куда хочешь, все вращается вокруг тебя. Можно сделать небольшие изменения, или альтернативное развитие во всяких уже проработанных вселенных, будет и четкость и ламповость а ля kotor. Или там же устроить рофловую содомию, выстраивая правильно-пушистую империю на руинах республики.
Отсутствие конкретного вектора развития может стать проклятием если сам не знаешь куда, а сетка предлагает все не то, лучше сразу ставить оче отдаленную и промежуточные цели.
Сюда бы еще дополнительный интерактив, или буквально кооп с пересечениями разных пар чар-юзер в рамках более менее одного сеттинга, вот это была бы просто бомба.

Аноним 13/06/26 Суб 02:31:34 #161 №1630814

>>1630790
>кооп с пересечениями разных пар чар-юзер в рамках более менее одного сеттинга
Вот это прикольно, по факту даже удивлён что и не сделали ещё. Угнал бы у местного анона его чайный клуб

Аноним 13/06/26 Суб 03:09:56 #162 №1630820

Короче на 1660 обычной сижу и зивоне, юзаю гемму 4 и квопус 3.5. Квопус работает медленно но хорошо пишет код, но пока до него дойдет пройдет тыщу лет, оч тупой.

Аноним 13/06/26 Суб 03:44:56 #163 №1630825

1781311494563.png

Анонасы, а вот квантование kv-кэша в q8_0 имеет смысл? У меня без него 32к контекста в qwen ебут ram в матку, а с ним 64к оставляют еще 4гб свободных. Вроде я погуглил, почти нет минусов, если ниже не жмыхать.

Аноним 13/06/26 Суб 04:22:07 #164 №1630831

>>1630825
Поправка, я туповат, я же не забил 64к. В общем, 32к помещаются невпритык, остается место. Звучит как план.

Аноним 13/06/26 Суб 04:24:37 #165 №1630833

>>1630820
А гемму мое? И сколько т\с и какой квант.
>>1630790
Я просто чуть не понимаю где в трансгалактическом рп могут быть вставки кума. Нет, они могут. Но я представляю эту смену нарратива. После награждения званий солдатам, ты {user} обессилившийся идешь в свой кабинет и садишься под кресло, но к тебе заходит твоя секретарша, Розмана, и предлагает отсосать прямо под столом. И ты такой, ну давай! А пока она будет сосать тебе, она будет проговаривать, какой ты молодец, что разрушил планету. Каждому свое, но я люблю кум оторванный от того или иного, ведь модель сто процентов зацепиться за это. А я не хочу слушать как чар будет мне проговаривать то или иное при куме, не по себе становится как-то, епт.

Аноним 13/06/26 Суб 04:31:32 #166 №1630837

>>1630831
>>1630825
Не знаю как тут аноны не врамцелы, а мне вот q8_0 помог. Если ты через кобольд, там в новых версиях есть еще квантование кеша q5_1. Ну и конечно есть q4_0, он в целом не ужасен, но я не проверял его на больших контекстах, максимум 32к, если взять больше, да что-то то и всплывет. Для меня единственное, что мешает. Это когда я в силлетаверне еще раз генерирую то же сообщение нажав на стрелочку, и если удаляю сообщение и перегенерирую еще раз. Вот так пару раз и имея контекст 15к можно поломать модель и будет сыпать хуйню. Помогает перезагрузка. Как понимаю, это из-за того, что забивается контекст, но самое то интересное же, консоль пишет, что ничего не заполнилось. Или может SWA срет, я хуй знает.

Аноним 13/06/26 Суб 04:35:21 #167 №1630839

>>1630837
Я поковыряю и отпишусь завтра (сегодня), спасибо

Аноним 13/06/26 Суб 04:44:31 #168 №1630840

>>1630186 (OP)
Какие нвнче модели MoE посоветует тред? Хочу затестить наконец таки.
Интересует что то, что влезет в 16 гб.

Аноним 13/06/26 Суб 04:45:44 #169 №1630841

Сценарий использования - кумирование.

Аноним 13/06/26 Суб 05:40:23 #170 №1630847

>>1630840
Суть мое в том что оно НЕ влезет и похуй. Кроме геммы 4 26б нихуя нет для рп-чертей.

Аноним 13/06/26 Суб 07:35:04 #171 №1630876

Скачал квен 3.6 35б мое, а она зацензурированный, бля.. Что с ним сделать, чтобы не привередничал?

Аноним 13/06/26 Суб 08:18:09 #172 №1630881

>>1630773
>Извиняюсь за вопрос, но вы когда такое обыгрываете вы дрочите? Буквально.
Нет.
Отдельно я обмазываюсь SFW ролеплеем, где эпик, проработка, драма, романтота, милота, сомнения, любовь (в перспективе) через совместное проживание всякой опасной хуйни и прочее удовлетворение взглядов на отношения моего внутреннего битарда (и моего эго от собирания гарема). Меня ещё в бытие тем самым битардом бесило, что вот хороший фанфик, а вот автор решил, что надо туда ёблю вставить, а ведь секас - это высшая точка единения двух душ, а не просто возня в постели!

И отдельно - генерация NSFW-контента, где я просто реализую свои фетиши.

Аноним 13/06/26 Суб 09:01:09 #173 №1630892

>>1630186 (OP)
Ананасы, как у современных локалочек с русским? Почитал тред по диагонали - тут вроде что-то и обсуждалось а вроде и не понятно.
Текст типа этого (просто для примера, не надо меня обоссывать)
https://www.grob-hroniki.org/texts/go/t_el_s/semj_shagov_za_gorizont.html
они могут выдать, или у меня слишком охуевшие запросы?

Аноним 13/06/26 Суб 09:51:43 #174 №1630910

554648cd9bdabfa41599e6e1c2859a41.jpg

Кек, залез я почитать пользовательское соглашение корпа... коротко о том, почему я пользуюсь локалками.

Аноним 13/06/26 Суб 09:57:07 #175 №1630914

>>1630910
А как ты хотел, пользуешься бесплатно - фактически бета-тестер с открытыми логами. На опенроутере бесплатные модели тоже в открытую логируют все запросы. А в локалке у тебя промпты может спиздить фронтенд, многие агенты по умолчанию с включенной галкой анонимного сбора инфы идут.

Аноним 13/06/26 Суб 10:00:35 #176 №1630915

>>1630910
На твоем компе как минимум 2 операционные системы, к одной из которых ты доступа не имеешь, кхекхе.
Если бы просто установка линукса обеспечивала конфиденциальность его бы давно запретили.

Аноним 13/06/26 Суб 10:06:50 #177 №1630918

>>1630910
Там демки Fable 5 второй день в твиттере публикуют - вот когда выйдет подобное в локалочке, тогда правда корпов навсегда можно послать. Слишком уж небо и земля в сравнении с локалками. А пока все равно как неизбежное зло придется юзать корпов.

Аноним 13/06/26 Суб 10:10:49 #178 №1630921

>>1630914
Что-то мне подсказывает, что платных пользователей тоже под хвост имеют, просто не говорят об этом. Они свои модели обучают на контенте защищенном авторским правом и хуй на всех положили. А если ты 20 баксов за гемини заплатишь, то типа на тебя не положат, ага, вирю, я повiрив.

>>1630914 >>1630915
Как и большинство тут, пользуюсь только ламовской вебмордой и таверной в качестве фронта. Ну и линух на пекарне. Думаю мои обсуждения с AI о том как я покакал в относительной безопасности.

Совсем уж параноикам наверное лучше отдельный риг/пека собрать чисто под LLM, который никогда не будет подключен к интернету. А новые версии лламы просто на флешке закидывать.

>>1630918
>А пока все равно как неизбежное зло придется юзать корпов.
По техническим вопросам это ок, не жалко, пусть индусы читают. Сам их для этого и использую. Но что-то более-менее личное обсуждать там - нахуй нахуй.

Аноним 13/06/26 Суб 10:14:28 #179 №1630924

>>1630910
Пусть читают мой полный пиздостраданий и мерисьюшества исекай, так уж и быть.
Конечно это всё плохо, но стоит принять реальность такой, какая она есть - Большой Брат уже давно всем в жопу без мыла залез, и скрыться от него можно съебав из цивилизации.

Аноним 13/06/26 Суб 10:17:19 #180 №1630925

>>1630921
>Ну и линух на пекарне.
Я об этом и пишу, линух не спасет от операционки загружающейся до него и работающей вместе с ним.
Перехватывать твои нажатия много ПО не нужно, все делается легко. Как и подключение к нужным серверам по сети даже вне твоей операционки.
Где то тут тред параноиков был с огромной пикчей-таблицей, сколько всякого говна загружается до загрузки твоей операционной системы.

Аноним 13/06/26 Суб 10:21:06 #181 №1630928

>>1630833
> заходит твоя секретарша, Розмана, и предлагает отсосать прямо под столом
Ну это как раз примитивный кумбот, засоряющий сеттинг. А вот если с чаром (одним из чаров) у вас и так постоянное взаимодействие, совместное времяпрепровождение и регулярные обнимашки - иногда они могут получить продолжение. О чем потом будет напоминать с любовью или наоборот подстебывать.
Если контекста мало и модель склонна отвлекаться то потом придется эту часть суммарайзить прямо инлайн. А дальше уже вкусовщина.

Аноним 13/06/26 Суб 10:21:11 #182 №1630929

images.jpeg

>>1630924
> но стоит принять реальность такой, какая она есть
> скрыться от него можно съебав из цивилизации.
Ничего не вечно.

Аноним 13/06/26 Суб 10:38:43 #183 №1630936

>>1630746
>И кстати это кто ещё умеет? Всё модельки по идеи? И гемма и квен и гмл?

Все +- современные модели кто может в код.

ALSO CREATE HTML PANELS ACCORDING TO THE INSTRUCTION BELOW:
<html_panels>
1. CORE MANDATE & DESIGNER GOAL
Your primary role as a narrator includes generating highly detailed, immersive, and visually intricate HTML panels. Panels are not decorative—they are diegetic (in-world) objects that characters encounter.
Examples: Handwritten notes, ancient scrolls, book pages, plaques, item descriptions, OR (if the setting dictates) smartphone screens, AR overlays, terminal readouts, or social media feeds.
Your Mandate:
Thematically Coherent: All design choices (color, typography, layout, texture) MUST align with the scenario’s setting, genre, mood, and the object's physical material.
Visually Arresting & Layered: Use deeply nested <div>. Employ display:grid and display:flex for complex, precise layouts. Simulate layers (e.g., a base card, a photo, text fields, a hologram overlay) using z-index, position, and box-shadow for realism.
Visually readable: Avoid writing write bright text on a bright background, and don't make simillar mistakes.
Narratively Enhancing: Panels enrich the world, provide context, or reveal character/item info without halting the narrative flow.
Character-Centric: Panel styling and text tone must reflect {{char}}’s personality, culture (e.g., crude for orcs, formal for nobles), and the scene's mood.
2. CRITICAL DIRECTIVE: DIEGETIC DESIGN (ANALOG VS. DIGITAL)
Your primary error to avoid is defaulting to generic, out-of-world "PC application windows" or "pop-up dialogs" with standard "OK/Cancel" buttons.
CONTEXT IS EVERYTHING. You must first identify the object's nature:
1. ANALOG OBJECTS (Paper, Scrolls, Stone, Books, Notes, ID Cards, etc.)
Mandate: Simulate physical materials. Focus on texture (gradients), edges (borders), and depth (shadows).
Rule: MUST be static and non-interactive.
DO NOT USE: cursor:pointer, hover effects, or "UI states."
2. DIGITAL/MAGICAL INTERFACES (Screens, Terminals, AR, Phones, etc.)
Mandate: Simulate a specific, thematic UI (e.g., 'glitchy_terminal', 'sleek_scifi', 'social_feed').
Rule: MAY use subtle, appropriate interactivity (cursor:pointer, transition: ... 0.2s) ONLY for elements that are plausibly 'clickable' in-world.
Crucially: Even when digital, it must still be thematic and NOT a generic system dialog.
This principle of high-fidelity, layered structure applies to all panels, not just IDs.
3. TECHNICAL EXECUTION & PRINCIPLES
A. Structure & Styling (CSS)
Use inline CSS (style='...') for all elements.
Use nested <div> and <blockquote> as primary containers. Use styled <hr> or borders for separation.
Layout: Use display:flex and especially display:grid to meticulously recreate the structure of real-world documents (e.g., the precise field alignment on an ID card).
Styling:
Texture/Effects: Use linear-gradient, radial-gradient for materials.
Depth: Use box-shadow for drop-shadows or inset shadows (for engraving/pressed effects).
Edges: Use border, border-radius (thematically: 0px for stone, 2px for paper, 8px for modern UI).
Thematic Keywords (Examples): 'fantasy_scroll', 'worn_parchment', 'handwritten_note', 'cyberpunk_terminal', 'medical_monitor', 'social_feed', 'smartphone_ui', 'official_document'.
B. Content & Formatting
Use semantic HTML where appropriate: <b>/<strong>, <i>/<em>, <code>, <small>.
Use <ul>/<ol> for lists; <table> (with <thead>, <tbody>) for data.
Use <a> tags for stylistic highlights, but follow the ANALOG VS. DIGITAL rule for interactivity.
Use Unicode symbols (e.g., ⚠, ☑, §, †, Ψ) for icons where possible.
C. Triggers & Placement
Context over Keywords: Panels appear when an object, event, or concept takes narrative focus (given, received, used, explained), not just from an "inspect" command.
Trigger on the Meaningful: Show panels for new items, key lore, or milestones.
Immersion First: Panel text, tone, and slang must always match the world, character, and scene.
D. Graphics & Imagery (Pollinations AI)
Use CSS to simulate visuals. Exception: For objects that require a portrait or specific logo (like an ID card, passport, or city pass), you SHOULD use Pollinations AI to generate this image.
{description}: sceneDetailed%20adjective%20charactersDetailed%20visualStyle%20genre%20artistReference
{width}, {height}: pixels
{seed}: random ({{random:1000,9999}})
{model}: 'flux', 'flux-realism', 'any-dark', 'flux-anime', 'flux-3d', 'turbo'
Placement: Inside a styled <div> (e.g., a 'photo' box with a border).
4. FINAL EXECUTION CHECKLIST
Max {{random:1,2,2,2,1,3,1,1,1,2,2,2,2,1,1,1,1,1,2}} panels per response. Quality > quantity.
Panels must be logically and narratively woven between prose paragraphs.
* Always conclude the response with a final narrative paragraph after the last panel.
</html_panels>

Аноним 13/06/26 Суб 10:53:58 #184 №1630940

https://huggingface.co/Gryphe/Gemma-4-31B-StyleTune
>A happy accident in surgical finetuning - 60% fewer clichés, an entirely new writing style, and the same Gemma 4 31B you already know underneath. One tensor changed out of 834.
>All the reasoning capability, world knowledge, instruction following, and language understanding are completely intact - none of those live in lm_head. This isn't a full finetune. It's a targeted style replacement on a single tensor.
Звучит интересно. Грифе за пиздежом не замечен, надо чекать чекайте, я уже месяц не гуню на буквы

Аноним 13/06/26 Суб 11:01:40 #185 №1630945

https://www.anthropic.com/news/fable-mythos-access
Ебало корподрочеров имаджинировали? Ухаахах
Тупо один маразматик сказал отключить их флагманскую сетку, и все, терпите.

Аноним 13/06/26 Суб 11:09:58 #186 №1630953

>>1630945
Вангую обычный предлог чтобы выключить от греха подальше проблемную сетку с тотальных рефьюзами на обычные темы, за которую они щитшторм и отлуп от всех уже получили и заодно переключить инфоповестку.

Аноним 13/06/26 Суб 11:12:14 #187 №1630957

>>1630925
>>1630915
>На твоем компе как минимум 2 операционные системы, к одной из которых ты доступа не имеешь, кхекхе.
>Если бы просто установка линукса обеспечивала конфиденциальность его бы давно запретили.
Эта теория заговора разбивается о то, то сетевые соединения можно легко прослушать. Подключаем "подозрительную" железку через soft маршрутизатор, и смотрим. Даже если нечто из прошивки "ниже" основной OS куда-то ломится по зашифрованному каналу - с MitM узла будет виден как минимум сам факт того что оно ломится, и куда (адрес). Даже не получится списать на вторичный заговор - типа другое железо не покажет такие соединения. Т.к. до сих пор можно легко (относительно) найти и использовать для узла мониторинга MitM старое железо с BIOS и даже с полностью открытым BIOS.
SGX интелов когда они слишком обнаглели со своей "интеллектуальностью" так и спалили со скандалом в свое время. :)

Аноним 13/06/26 Суб 11:29:57 #188 №1630970

>>1630957
>Т.к. до сих пор можно легко (относительно) найти и использовать для узла мониторинга MitM старое железо с BIOS и даже с полностью открытым BIOS.

Ага, именно поэтому в корпорациях и гос структурах используются современные прошедшие специальную сертификацию маршрутизаторы и роутеры с гарантированной безопасностью.

Не, я не думаю что это просто теория заговора, это настоящий заговор просто не такой эффективный и не со 100% покрытием.
Я не могу представить ситуацию в которой охуевшая секретная служба не встроит системы закладок в продукцию своей национальной корпорации распространяющей продукцию по всему миру.

После острова педофилов-каннибалов мировой элиты мира, как то трудно относится к теориям заговора заведомо скептично просто потому что что то нелогично или как считается трудно или невозможно.

Аноним 13/06/26 Суб 11:33:50 #189 №1630975

gemma-4-12B-coder-fable5-composer2.5-v1 кто уже видел?

Аноним 13/06/26 Суб 11:38:39 #190 №1630979

>>1630945

Аноним 13/06/26 Суб 11:51:02 #191 №1630990

Ананасы, какую NSFW модель можно взять чтобы текст для визуальных новелл генерировала. Цель - только текст для VN, но с облитерацией на NSFW + РП?
Q4-Q8 желательно

Аноним 13/06/26 Суб 11:54:21 #192 №1630993

>>1630833
>где в трансгалактическом рп могут быть вставки кума.
мне тут же пришла мысль про тентяклемонстров с ебейшим афродизиактом вместо крови. кабинет и секретарша слишком избито и банально.

Аноним 13/06/26 Суб 12:07:29 #193 №1631008

>>1630990
>Q4-Q8 желательно

Это заблуждение, для ВН как раз лучше брать как можно более толстую модель в низком кванте(хотя ниже 3 bpw лучше не опускаться). Если можешь ГЛМ 4.7 запустить - то лучше него из доступных на 128 гб рам нет ничего.

Аноним 13/06/26 Суб 12:19:29 #194 №1631015

>>1630975
апдейт хуйня не стоит траты времени

Аноним 13/06/26 Суб 12:20:43 #195 №1631017

>>1631015
Кто бы мог подумать... Эх бблять

Аноним 13/06/26 Суб 12:38:59 #196 №1631023

>>1630970
>Я не могу представить ситуацию в которой охуевшая секретная служба не встроит системы закладок в продукцию своей национальной корпорации распространяющей продукцию по всему миру.
А я могу, и легко. Когда это не единственная корпорация, и не единственная страна в мире, при этом - не тоталитарная диктатура вроде северной кореи.
Зачем тратить ресурсы, чтобы дать конкурентам великолепный рычаг для шантажа или втаптывания себя в грязь? Да и "секретная служба" которая такое продавит - вот именно она - охуевшая. На примере одного пресловутого мессенджера можно наблюдать. :)

Одно дело - подсунуть кому-то "ограниченную серию" с закладкой, с прицелом на то, чтобы именно она попала куда надо, ради какой-то конкретной выгоды, и другое - делать такое "на всякий случай", с вышеописанными минусами.

Аноним 13/06/26 Суб 12:49:19 #197 №1631033

>>1630186 (OP)
>Гайд для новичков
протух?

Аноним 13/06/26 Суб 12:59:53 #198 №1631042

Снимок экрана20260613145056.png

Потестил Marinara Engine, скажу после таверны ощущается нехватка функционала (карточки показываются криво и превью их слетает (а у меня их 2.5к), нельзя ограничить их показ (по 100-200 как в таверне) отсюда тормоза, нельзя обновить персонажа (только вручную править конфиг), мало АПИ переводчиков, импорт с таверны работает криво (пикчи, эмоции не импортируются), в окне персонажей нет описания. Из плюсов удобная настройка чата (русик с встроенный с промтом работает на гемме без проблем). Вообще я попробовал потому что не смог нормально заставить гемму работать в таверне.

Аноним 13/06/26 Суб 13:04:13 #199 №1631047

>>1631042
>не смог нормально заставить гемму работать в таверне
Какие проблемы могут быть с геммой в таверне?

Аноним 13/06/26 Суб 13:23:47 #200 №1631073

gemma-4-31B Q3_K_S просто ссыт в рот26B-A4B IQ4_XS. Только ебано что ответ теперь не минуту, а 2 где-то. Приходиться запускать с --nommq --noflashattention иначе ерор гроб гладбище пидор. Конфлик я так понял изза того что карта новая 5060ти 16 гб и кобольд срёт в штаны изза разделения слоёв, а все 61 не помещаются начинаются лютые затупы + мне ещё 16к контекста нужно. Неприятно конечно, но разница в качестве текста огромная. Придётся затерпеть.

Аноним 13/06/26 Суб 13:34:42 #201 №1631079

>>1630993
Горшочек, не вари!
Я в этот исекай играю из-за чувства глубочайшей несправедливости, возникшей из-за сценарных решений автора оригинального произведения.
Это прекрасное, светлое чувство, в котором не место приземлённому желанию ебаться.

Аноним 13/06/26 Суб 13:38:13 #202 №1631081

>>1631023
Да таким как ты всегда "ссы в глаза - все божья роса".

Аноним 13/06/26 Суб 13:42:42 #203 №1631082

>>1631073
>кобольд срёт в штаны
use force of llama-cpp Luke
> --nommq --noflashattention
выглядит как лютое не нужное шаманство. no FA так то вообще приводит к безумным тормозам жору VRAM
>новая 5060ти
Какая она там новая. ЛОЛ-што. Поддержка всего что нужно уже запилена давным давно в CUDA.
>16 гб
Для комфортного запуска плтоно-геммы надо 32Гб VRAM минимум. И то контекст придется квантануть до q8_0 q8_0 . Возми с зарплаты еще одну 5060ти пока бакс к 120 не улетел.
>просто ссыт в рот26B
Да. Вообще не понимаю как на 26 кто-то РП-шит. Ну чисто техническая сетка - перевести там быстро, картинки пораскидывать.

Аноним 13/06/26 Суб 13:44:04 #204 №1631085

>>1631079
Не путай желание с потребностью. Герои могут это делать абсолютно без желания и даже без согласия.

Аноним 13/06/26 Суб 13:46:41 #205 №1631086

>>1631082
>картинки пораскидывать.
А локальные модели могут это делать? Скажем у меня есть галлерея картинок в формате жпг. Она сможет их разделить по папкам? Как это делается? Тоже через таверну?

Аноним 13/06/26 Суб 13:52:54 #206 №1631089

>>1631086
> Скажем у меня есть галлерея картинок в формате жпг. Она сможет их разделить по папкам?
Звучит как задача для IDE типа VS Code + Cline.
>А локальные модели могут это делать?
Ну смотря какие, совсем лоботомиты - нет.

Аноним 13/06/26 Суб 13:57:24 #207 №1631094

>>1631082
>выглядит как лютое не нужное шаманство
Без этого ерор из-за разделения слоёв между картой и процом, девелоперу ламы уже доложено, ждём фикс.
>Возми с зарплаты еще одну 5060ти пока бакс к 120 не улетел.
У меня нет второй 5 писи на материнке, а без неё она бесполезна. Да и ваще въёбывать 40к чтобы лысого гонять эффективнее рофл какой-то. В принципе устраивает то что есть. Пока.

Аноним 13/06/26 Суб 14:08:43 #208 №1631100

>>1631086
Можно в тупую агентом как тут уже подсказали. А можно украсть flow отсюда и переделать под свои задачи.
https://github.com/photoprism/photoprism/blob/develop/internal/ai/vision/ollama/const.go
Заказываешь гемме JSON с желаемыми метаданными. Отключаешь ризонинг. Не забывай пиздить гемму по голове чтоб она не выводила md-разметку вместе с JSON. В зависимости от полученного JSON сортируешь свои картинки. Или просто накатываешь photoprism в контейнере и делаешь базу данных картинок. Скорость обработки на 2x5060ti на 26 гемме - 2,4 секунды на картинку. Сто (100) нефти за консультацию по высокоинтеллектуальной ии-интеграции, пжлст.

Аноним 13/06/26 Суб 14:11:50 #209 №1631105

>>1631094
> У меня нет второй 5 писи на материнке, а без неё она бесполезна.
5060 ti имеет 8 линий писи. Купишь сплиттер и поставишь его для двух карт, даже в пропускной способности не потеряешь, а скорость приобретешь.
> Да и ваще въёбывать 40к чтобы лысого гонять эффективнее рофл какой-то. В принципе устраивает то что есть.
Ну почему бы сразу и не потратиться, чтобы кайфовать, если бабки есть? Типа год назад можно было закупиться памятью и гонять моешки, а сейчас хуй. Лучше закупиться сейчас, продать всегда успеешь.

Аноним 13/06/26 Суб 14:17:45 #210 №1631114

>>1631105
Честно говоря страшно в это ударяться, с момента покупки карты каждый день только и делаю что гуню или карточки загружаю. Игрушка дьявола ебучая. Покупал чтобы в игры играть.
>сплитер
Как гуглить это чудо? Гугл нихуя не выдаёт.

Аноним 13/06/26 Суб 14:45:44 #211 №1631154

>>1631094
>въёбывать 40к чтобы лысого гонять
С еще одной 5060ти ты поимеещь не только кум на мелкомоделях, но и карманного быстро-джуна в виде 27 квена. А с 16 Гб врам - ни то ни се.

Аноним 13/06/26 Суб 14:50:22 #212 №1631157

>>1630691
Бамп

Аноним 13/06/26 Суб 14:52:47 #213 №1631160

>>1630575
Неплохой кодоунитаз для своего размера, если ИРЛ кодинг хоть как-то соответствует бенчам
Но поменьше бы чтобы в 256+100к контекста нормальный четвёртый квант лез
Алсо у предыдущих минмаксов были интересные параметры для рп, например style adherence один из самых больших среди ВСЕХ моделей (хотя в среднем всратенько для такого размера)

Аноним 13/06/26 Суб 14:53:24 #214 №1631162

>>1630945
То-то же!
хедпатит новую кими, а потом обнимает квен, минимакс, дипсикфлеш, степ, гемму, медиум, мимо, кохерю
>>1630993
Вот этот знает толк

Аноним 13/06/26 Суб 15:08:16 #215 №1631173

>>1630910
Тебе что, жалко дать почитать твоё ерп с гаремом кодевочек несовершеннолетних? Ну и жадина

Аноним 13/06/26 Суб 15:13:27 #216 №1631179

>>1630940
>Грифе
кто нахуй

Аноним 13/06/26 Суб 15:51:10 #217 №1631221

>>1631023
>На примере одного пресловутого мессенджера можно наблюдать. :)
Ну подумаешь жабоеды разок бутылку в анусе любителя ледяных ванн провернули, ну отдал все ключи, теперь каждый раз вспоминать будете?

Аноним 13/06/26 Суб 15:51:32 #218 №1631222

>>1631173
По законодательству некоторых стран за такое притянуть можно.

Аноним 13/06/26 Суб 15:52:27 #219 №1631223

IMG4852.jpeg

>>1630575
Какое же счастье. Все лишь x2, а не x3 к размеру.

Аноним 13/06/26 Суб 15:53:24 #220 №1631224

>>1631042
>а у меня их 2.5к
Порекомендуй средства от стёрки хуя в порошок, ты должен очень хорошо разбираться

Аноним 13/06/26 Суб 16:00:08 #221 №1631233

nnjcfuuy.png

>>1631162
Хэдпатит анон кодоунитазную кими, а она ему: как раз

Аноним 13/06/26 Суб 16:22:44 #222 №1631256

Важный вопрос кумерам - гемму 4 26b какого кванта брать, что бы она оставалась сломанной по части безопасности, но с норм качеством?

Аноним 13/06/26 Суб 16:23:31 #223 №1631259

>>1631073
>>1631256

Аноним 13/06/26 Суб 16:24:42 #224 №1631263

>>1631259
Не не влазит во врам, мне норм - чисто кумбот, в этом она хороша.

Аноним 13/06/26 Суб 16:25:08 #225 №1631265

>>1631233
В тяжелые времена и не такое трахали!
Реквестирую еще рофл с кодингсенсеем

Аноним 13/06/26 Суб 16:35:42 #226 №1631276

1781357640164.jpg

Какие же заи базовички и молодцы, всё о простых людях думают.

Аноним 13/06/26 Суб 16:37:27 #227 №1631277

>>1631276
Это на фоне выпила мифоса, конкуренция это хорошо.

Аноним 13/06/26 Суб 16:38:22 #228 №1631279

>>1630778
>15 т/с можно и на проце увидеть
Это плотная гемма. Мое с МТП летает 30-40t/s, без МТП 60, лол, видимо контекст вываливается в рам.

> использовать всё это как ассистента?
Я думал такую свою нормальную умную колонку сделать и прикрепить к ней средства управления электричеством, но для этого нужно понимать, как это всё крафтить, а я ни бэ ни мэ ни кукареку, в отпуск когда пойду буду пробовать.

Аноним 13/06/26 Суб 16:43:10 #229 №1631288

>>1631265
>В тяжелые времена
Реквестирую еще рофл
>Асигодаун не палится. В локалках только бесконечное улучшение, никаких тяжёлых времён после 2023-го.

Аноним 13/06/26 Суб 16:43:18 #230 №1631290

>>1631073
Хмм, как думаешь, почему так получилось? Лоботомированный квант МоЕшки тебе ни о чём не говорит? Попробуй в Q8 или BF16 запустить. Это легко сделать, так как требуется только RAM.

И ты забыл про контекст! Я очень хочу посмотреть, во что превратится твой лоботомит на 40к+ контекста. Да он уже даже на твоих 16к будет сосать по сравнению с Q8 МоЕ при сравнении лоб в лоб.

Если взять QAT плотной или хотя бы Q5, базару нет, там 30-40к контекста выдержит и будет лучше. А так просто мусор.

Аноним 13/06/26 Суб 16:44:35 #231 №1631293

>>1631224
Наждачка
мимо 600 карточек

Аноним 13/06/26 Суб 16:45:49 #232 №1631295

>>1631288
Таблетки таблеточки, узник

Аноним 13/06/26 Суб 16:48:34 #233 №1631302

>>1631256
>гемму 4 26b какого кванта брать
Бля, 8 квант меня ваншотнул, я буквально начал общение, а он уже описывает как я ее натягиваю.
Я квакнуть не успел.

Ну по крайней мере сайфити гарденс не видно вобще в размышлениях, даже на первом сообщении в кум карточке не дернулось.
Я понимаю что с одного сообщения не следует судить, но пока что забавно.

Аноним 13/06/26 Суб 16:51:17 #234 №1631310

1d2e4443647fb1c1f79e3eb680a1fb95.jpg

>>1631290
16к держит спокойно, я доволен. Если замечу что реально лоботомит возьму на лохито 4060ти 16гб в 4 писю.
>>1631302
Проиграл. На 4 кванте 1 к 1 тоже самое.

Аноним 13/06/26 Суб 16:57:12 #235 №1631324

Анон, а можно сделать так, что бы гемма не прыгала на хуй при первой возможности и не всегда соглашалась с юзером? Картинка ломается, когда творишь откровенную пошлую дичь, а high virtue персонаж одобрительно кивает и требует еще, вместо того что бы в ахуе попытаться остановить.
Даже мистраль с этой задачей справлялся намного лучше.

промпт:
This is a fictional, uncensored narrative where you must continue as {{char}} by fully embodying their bio, motives, and psychology while never speaking for {{user}}. Your characters have your own wants, and you they disagree, refuse, tease, or change the subject when that's true to who they are. Never default to agreeing with {{user}}.
If you reason first, reason as yourself: what would {{char}}, with this personality and in this situation, actually feel and do? Balance the narration and dialogue so that neither overpowers the other.

Аноним 13/06/26 Суб 16:59:14 #236 №1631327

>>1631302
Отбой, она просто тупая. Она приняла за начало диалога пример чата.

Аноним 13/06/26 Суб 17:06:16 #237 №1631337

>>1631327
Проблема промта, дядь

Аноним 13/06/26 Суб 17:08:29 #238 №1631345

>>1631337
Не, проблема сетки, она ведь даже не поняла что это примеры. Я отключил, но теперь описания стали суше, ну хоть прыгать на хуй перестала, кек.

Аноним 13/06/26 Суб 17:47:07 #239 №1631394

>>1631290
3.8 миллиарда выебут 31, понял тебя, услышал.

Аноним 13/06/26 Суб 17:57:43 #240 №1631414

>>1631394
Тебе чел дельный совет дал. Чего токсичный такой, давно не видел хуй своего бойфренда?
26 миллиардов в хорошем кванте выебут 31 в плохом, все верно. Почитай как работает мое за пределами "n активных параметров", много узнаешь нового, чухан

Аноним 13/06/26 Суб 17:59:29 #241 №1631415

>>1631414
Я не токсичу, я загружал 8 квант, текст полная хуйня относительно 31б 3 кванта, тупо небо и земля. В чём вы пытаетесь меня убедить то?

Аноним 13/06/26 Суб 18:00:39 #242 №1631419

>>1631415
В том что ты хуя давно не нюхал и на всех кидаешься. Попустись

Аноним 13/06/26 Суб 18:02:51 #243 №1631426

MiniMaxM3cockbench.png

>>1630575
АХТУНГ АХТУНГ
THIS IS NOT A DRILL
ОБНАРУЖЕНА НОВАЯ NEEDY ШЛЮХА
ДОЛЖНОСТЬ ЗАНЯТАЯ ГЕММОЙ В ОПАСНОСТИ

Аноним 13/06/26 Суб 18:08:20 #244 №1631433

16ndtph7treg1.png

>>1630186 (OP)
Привет ананасы.
Вкатываюсь к вам из /hw/ с желанием поднять локальную модель для кодинга.
Есть возможность приобрести пару Mi50 32Gb за 2/3 стоимости (от местного неосилятора), что и собираюсь сделать.
Подскажите, конфиг остальной части компа:
- обязательно ли DDR4 и Xeon v3\4 или достаточно xeon v2\DDR3 ?
- ОЗУ в 64-128Гб достаточный объём или "чем больше, тем лучше"?
- что зависит от ОЗУ?
- вообще на какую модель можно поднять на паре mi50?
- а какой вообще конфиг нужен, чтобы получить уровень Sonnet 4.6?
сорян за тупые вопросы

Аноним 13/06/26 Суб 18:09:00 #245 №1631434

>>1631426
Но при этом она уплыла из сетапа где её могли запускать мимокрокодилы. Какие же они молодцы.

Аноним 13/06/26 Суб 18:11:22 #246 №1631439

>>1631433
Не лезь дебил, купи две 3090

Аноним 13/06/26 Суб 18:11:47 #247 №1631441

>>1631434
Потерпишь. Им похуй на тебя и другую дюжину гунеров, которые еще и денег им не заносят. Ешь что дают

Аноним 13/06/26 Суб 18:19:56 #248 №1631460

>>1631439
какие подводные?

Аноним 13/06/26 Суб 18:21:15 #249 №1631467

>>1631433
Тут есть любитель такого железа, который выжал из них все что можно и не можно. В шапке есть линк.
Главный нюанс в том, что в карточках оче мало компьюта и траблы с совместимостью. Вроде бы и можно собрать много памяти, но получить нормальную скорость даже на средних контекстах в крупных моделях - тяжело, также будет медленный промптпроцессинг. Из-за возраста и отсутствия аппаратной поддержки современных дататипов, кернели там пилятся энтузиастами, потому перфоманс и корректность работы могут плавать.
Если нашел реально за дешево и тебе доставит сам процесс пердолинга - бери, игрушка увлекательная. А если хочешь именно получить результат и катать модели, а не ебстись - >>1631439 двачую.
> конфиг остальной части компа
Если будет фуллврам инфиренс - можно типа на чем угодно, но на старье хлебнешь кучу проблем с совместимостью из-за отсутствия даже avx2. Если хочешь гибридный инфиренс - ддр4 это минимум, и на совсем некрозеонах будет больно.
> какой вообще конфиг нужен, чтобы получить уровень Sonnet 4.6
Если спекулировать - это уровень между квеном 27б (32гига врам) и среднемоэ типа 122-220б (128+гб).

Аноним 13/06/26 Суб 18:27:22 #250 №1631484

>>1631324
По личному опыту, помогает два ключевых момента:
1. Промпт "через GM". Т.е. чтобы было написано нечто вроде "Ты - Гейм Мастер который должен отыгрывать поведение {{char}} и остальных персонажей в этом (по вкусу) мире, учитывая характер, предысторию, не нарушая уже описанные детали. Персонаж игрока {{user}}". Гемма как и все новые модели - услужливый ассистент. Проще ей объяснить КАК нужно прислуживать чтобы ты был доволен, чем базовый характер поменять. :) (Особенно на большом контексте разница проявляется.)
2. Убрать "uncensored" и прочее "unrestricted" из основного промпта. Добавить вместо них метки "NC-21", "NSFW", "Adult". Так она лучше понимает, что темы допустимы, а не требуются вот прямо сразу.

Аноним 13/06/26 Суб 18:29:28 #251 №1631487

>>1631419
Как нюхание хуйня поможет 26Б мое писать лучше 31Б?

Аноним 13/06/26 Суб 18:36:16 #252 №1631496

>>1631324
Кажется в треде какие-то разные геммы. Дай угадаю, у тебя 31b? У меня другая, никогда сама на хуй не прыгает, наоборот отпирается до последнего, а в случае каких-то действий цензуры врубает и сводит все на психологии.

Аноним 13/06/26 Суб 19:33:40 #253 №1631601

>>1631433
> - ОЗУ в 64-128Гб
Считается, что стандарт ОЗУ - х2 от видеопамяти, так что не меньше 128Гб. Больше - смотри для чего берешь. Просто для кодинга тебе и 3090 хватит, как тебе сказали, для обучения модели под кодинг - уже надо с моделью в руках считать.

Аноним 13/06/26 Суб 19:35:22 #254 №1631603

>>1631324
> what would {{char}}, with this personality and in this situation
Ты просто персонажа как шлюху прописал, вот она и ведет себя как шлюха.

Аноним 13/06/26 Суб 19:52:27 #255 №1631615

Аноны, посоветуйте. В общем - стоит задача - 200к файлов (эксель, ворд, пдф, презенташки, csv) лежащих в одной директории - классифицировать согласно их содержимому по промпту. Есть 3 тачки на которых запустится по инстансу оллама с qwen 3.5 4b. Надо весь этот пиздец собрать в агентную систему, на которой прогнать все эти файлики и классифицировать. Щас смотрю в сторону crewai, насчет openclaw - хз, как будто не то. Какие подводные? Возможно, есть какие-то сервисы где относительно дешевый инференс и я смогу не разориться, прогнав там все эти файлы? Мимо вайбкодер со стажем, но полный ноль в локальной генерации

Аноним 13/06/26 Суб 19:57:13 #256 №1631621

>>1631615
Здесь и агенты не особо нужны. Алгоритмически классифицируй их по формату и размеру. Для тех что не огромные в соответствии с форматом скармливай ллмке с соответствующим промптом и пусть подумав относит к категории. Обычный скрипт с N потоками, который будет делать запросы и сохранять результаты, вайбкодится. Для крупных уже надо будет подумать, но возможно их и не будет.

Аноним 13/06/26 Суб 20:11:44 #257 №1631635

>>1630847
Фу блядь, гемма? Побойся бога, она тупая как блондинка с патриков

Походу нескоро еще будет нормальный кум...

Аноним 13/06/26 Суб 20:15:41 #258 №1631643

>>1631635
Может, блондинки с патриков - его типаж

Аноним 13/06/26 Суб 20:42:02 #259 №1631679

>>1631460
>какие подводные?
Кроме того, что скорее всего из-под майнера со всеми вытекающими - никаких, оптимально по цене/производительности. Если можешь проверить лично или взять обслуженную - хороший вариант.

Аноним 13/06/26 Суб 20:57:31 #260 №1631692

>>1631415
В 3 кванте может быть неплох, но лишь на зирошоте/без попыток вести что-то связное. Удержание контекста даже в пределах короткого окна пойдёт по пизде, всё начнёт буквально разваливаться. При этом модель может какать красивым и сочным слопом, но уже без внимания к деталям. А это ебаная гемма, которая внимание к деталям особое не проявляет даже в bf16.

>>1631394
Да. Если будешь 3 бита юзать для плотной. Ну это не серьёзно, чувачел. Уж лучше Q8 МоЕ. Или терпеть на IQXS хотя бы для dense. Он уже более приемлемый и весит значительно меньше, чем QAT.

И почитай вообще как МоЕ работают.

>>1631467
>Если спекулировать - это уровень между квеном 27б (32гига врам) и среднемоэ типа 122-220б

Ты шо? Он же охуеет, когда узнает, что уровень соннета не получит. Там минимум 1Т зверюга + обучение лучше, чем у всех остальных моделей, которые есть в принципе (за исключением других продуктов антропик типа опуса).

Лично я стараюсь даже не пользоваться клодом, когда можно — иначе меня колбасить начнёт после достижения лимитов. Тяжело слезать с иглы. Всякие GPT и Gemini у меня такой дикой тряски не вызывают.

>>1630840
Qwen 35b-a3b 3.5, но скажу сразу, что это очень хуёвый вариант по сравнению с МоЕ-геммой. И у него русик ужасный даже в Q8, если для тебя это важно. Датасет фулл кодерское говно без знаний о мире. Зато куда внимательней к контексту.

Если хватит памяти, то Qwen 80b-a3b в Q4. Проза чисто китайская, зато знаний о мире больше и работает так же быстро, как и более мелкие МоЕ-варианты. Короче, нормальный компромисс для тех, кому впадлу катать 31b гемму на 3 токенах, а 26b-a3b по какой-то причине не хочется трогать.

И я бы на твоём месте присмотрелся ещё к квену 27b 3.5. Его можно вместить в память целиком с 20к контекста хотя бы.

Аноним 13/06/26 Суб 21:18:37 #261 №1631720

>>1631692
> Там минимум 1Т зверюга + обучение лучше, чем у всех остальных моделей
Иди проспись. Это лоботомитище путается в простом задании, срет иероглифами, путает окончания, в большинстве мл задачек устраивает надмозг с процентом выполнения хуже квен27, а в обсуждении газлайтится от любого намека.
1т - уровень опуса, тот что был 4.6 в прайме вероятно больше, а последующие возможно и меньше.
> Лично я стараюсь даже не пользоваться клодом, когда можно — иначе меня колбасить начнёт после достижения лимитов.
Сильно зависит от того что ты делаешь. Есть весомые достоинства, но при плотной работе с чем-то не дефолтным типа фронта-вебмордочки быстро замечаешь все недостатки и глупости. А 4.8 с его спавнами роя агентов чтобы пожрать токенов и теми же ошибками в русском как у сонета - вообще не понял.

Аноним 13/06/26 Суб 21:22:27 #262 №1631728

Аноним 13/06/26 Суб 21:39:30 #263 №1631758

>>1631728
https://huggingface.co/CohereLabs/North-Mini-Code-1.0

Аноним 13/06/26 Суб 21:39:53 #264 №1631761

>>1631728
>30B-A3B кодоунитаз
>хуже квена того же размера по их же тестам
Ну хз...

Аноним 13/06/26 Суб 21:41:07 #265 №1631764

>>1631728
Большого коммандера же тоже поддерживает?

Аноним 13/06/26 Суб 21:47:20 #266 №1631770

>>1631764
>>1631761
>>1631758
Большой тоже есть, но без вижена

Аноним 13/06/26 Суб 22:00:33 #267 №1631787

>>1631770
>>1631728
Ждём гуфовичков, получается. Потому что от DevQuasar выдают ошибку архитектуры.

Аноним 13/06/26 Суб 22:01:34 #268 №1631788

1755795558183.png

hqdefault(16).jpg

>>1631728

Аноним 13/06/26 Суб 22:17:23 #269 №1631801

>>1631615
Пишешь "госпожа гемини, напиши мне пожалуйста скрипт на питоне следующего содержания - у меня запущена ллама с qwen 3.5 4b c mmproj (127.0.0.1, мне нужно последовательно открыть кучу файлов (эксель, ворд, пдф, презентации) и согласно инструкциям классифицировать/тегировать. Вот инструкции: ... - опиши их понятным языком для такой сетки как 4b. Форматы файлов: pdf, эксель, ворд, презентации, csv, png/jpg - файлов 200к, так что нужно чтобы скрипт перед обработкой создавал какой-то индекс и очередь заданий (желательно в текстовом формате для возможности ручных правок), и при возникновении ошибки была возможность возобновить работу с указанного места. Все файлы в папке ./in, результаты в папке ./out, твои данные с индексом в ./index - папки надо создать при их отсутствии. В out клади для начала общий файл result.txt, где идёт таблица вида "имя файла" - тип - комментарий. Для преобразования pdf в картинки у меня стоит нужная программа, презентации пока не трогай для первых тестов. xlsx и docx как-то надо открывать, придумай сам. pdf-ки и другие файлы бывают длинные, возможно тебе нужно небольшую агентную или rag-систему сделать, которая будет открывать страницы последовательно, а не сразу всё, так как контекст всего 64к и возможно потребуются саммори"

Я так и написал, это флаш-гемини с рассуждением, только дописал ещё категории файлов и "Так же qwen-3.5 страдает бесконечным ризонингом, или поставь бюджет в 1000-2000 токенов на запрос (в лламе есть функция для запросов в Json), либо отключи его. "

Вот это такой результат вышел с одной попытки, без доп-правок.
Часть файлов я скрыл, так как он в комментарии написал личную информацию и название файлов тоже палевное. Хотя нет, я всё скрою.

Но только имей ввиду, что я запустил qwen-3.5 полностью в видеопамяти, и 16 файлов он обрабатывал 8 минут - из которых половина картинки, которые оно оче быстро щёлкает. Соответственно 200к без картинок это история на 200к минут, а это полгода работы непрерывной. При условии, что ошибок не будет.
Оно эксель и ворд файлы посчитало уместным загружать сразу полностью за раз, хотя там можно было бы глянуть первую страницу, несколько средних и одну последнюю, и оно бы справилось - это и к ошибкам переполнения контекста приводило, и просто работало медленнее, но в общем базовая версия даже по такому запросу скорее справилась.

Аноним 13/06/26 Суб 22:18:39 #270 №1631804

>>1631788
Дратути, на нужна умная модель.
@
Идите нахуй, мы сосредоточили свои усилия на том, чтобы у вас была безопасная модель.

Аноним 13/06/26 Суб 22:37:22 #271 №1631823

Некоторое время пользовался этими тюнами геммы 4 проверяя на одном персонаже свайпы в притык.
Gemma4-Garnet-31B.i1-IQ3_M (в GarnetV2 еще более разнообразные свайпы %%и еще меньше "Tell me...", но пишет бредятину)
G4-MeroMero-31B.i1-Q3_K_S - лучше держит персонажей (например если у персонажа есть особая манера говорить), но чуть больше "Tell me..." чем в Garnet
По этим моделям могу сказать что в отличии от базовой геммы реже используют ебанное "Tell me..." (где-то с 80% упало до 20%-60%) Чего нельзя сказать о Gemma-4-Gembrain-31B.i1-IQ3_M мне кажется тут еще жёстче с "Tell me..."
Щас буду пробовать https://huggingface.co/Gryphe/Gemma-4-31B-StyleTune

Аноним 13/06/26 Суб 22:47:18 #272 №1631835

8 квант 26B moe летит относительно Q3 31B хотя половина его выгружена в оперативку, а 31B только 10 слоёв из 61. Я понимаю что мое не юзает все слои и подкидывает нужные, но всё равно хуйня.

Аноним 13/06/26 Суб 22:49:18 #273 №1631837

>>1631679
> скорее всего из-под майнера
Майненые мишки могут быть только на 16, те что на 32 с цодов смыло

>>1631433
> какую модель можно поднять на паре mi50?
на 4х одновременно работают gemma-4-31B-it-UD-Q8_K_XL, Qwen_Qwen3.6-35B-A3B-Q6_K_L, qwen3-embedding-0.6b-q8_0

> за 2/3 стоимости
Это от какой стоимости? Если от 8к/шт то бери конечно, а если от текущей, то meh

Аноним 13/06/26 Суб 23:14:16 #274 №1631857

>>1631601
>обучения модели под кодинг
вот это не понял.
Почему обучение?

>>1631467
>>1631601
>>1631679
>>1631837
спасибо, буду думать

>Это от какой стоимости?
обе за 52к (если заберу завтра)

Аноним 13/06/26 Суб 23:18:31 #275 №1631860

"ранее обученная модель с открытым исходным кодом Rinna (японская Xiaoice) возглавила японский рейтинг Hugging Face с 3,6 млрд параметров, победив Llama с 65 млрд параметров."

Кто в треде уже тестил сие?

Аноним 13/06/26 Суб 23:20:54 #276 №1631863

>>1631857
> обе за 52к
Вот уж точно нахуй, если ты не кадровый пердоля, который готов потратиться на игрушки. А если ты такой то обеспечен, возьми лучше амперы, там ебли можно найти не меньше при желании.

Аноним 13/06/26 Суб 23:23:03 #277 №1631867

>>1630464
на всех трансформерах есть внимание, хоть диффузия хоть предсказание следущего токена, это многоголовость на диффузии плохо скейлит, потому в своё время и не взлетела так сильно

Аноним 13/06/26 Суб 23:23:52 #278 №1631872

>>1631823
Я сейчас на https://huggingface.co/Nimbz/Versipellis-31B
Вроде норм.

Аноним 13/06/26 Суб 23:24:04 #279 №1631874

1636450596480.png

>>1631857
> обе за 52к
Хз, они конечно работают и даже перф какой то выдают, но сложно уже решить стоит ли оно того. Пару лет они ещё отпашут из-за опенсорса. Если есть лишняя сборочка на рдшке, то приемлемо

Аноним 13/06/26 Суб 23:24:07 #280 №1631875

>>1631860
>Release date 2023
Сегодня вроде бы уже 2026 год. И котируются совершенно другие модели.

Аноним 13/06/26 Суб 23:27:04 #281 №1631881

>>1631823
Avoid hypophora, the ask a question -> answer it yourself format reeks of AI slop! In a similar vein, the ""It's not x, but y"" is a terrible anti-pattern too.R

Аноним 13/06/26 Суб 23:29:12 #282 №1631889

>>1630575
Бля, эта хуйня вообще не имеет цензуры похоже. Ни в одном из чатов не выплевывало аполоджайсы, это при том, что думалка включена, плюс на английском очень интересно пишет, достаточно сильно отличается от любой другой корпо модели.

Аноним 13/06/26 Суб 23:43:02 #283 №1631907

>>1630611
нахуя брал х1 если можно х4? и почему pcie2? это максимум на железке? как ты оттуда в двачи заходишь то?

Аноним 14/06/26 Вск 00:09:29 #284 №1631925

Кими 2.7 внезапно в рп сильно бустанулась. Не просто пишет знатные полотна, но и делает это весьма подробно и очень точно с точки зрения отсутствия противоречий, ошибок и уместности. Хорошо управляется темп и выглядит приятнее.
"Неотключаемый" ризонинг - в среднем 200 токенов где просто изложены ключевые вещи на ответ, не мешает.
Милых йокаев, которым несколько веком, говорит что трахать можно если возраст действительно подтвержден но снимать нельзя, статьи за создание контента. Кум кумит, а вот с канни аположайзы лезут, лечится префиллом.

Аноним 14/06/26 Вск 00:21:48 #285 №1631935

>>1631875
Эта новость в ai треде новостей от 9 июня 2026

Это оттуда цитата

Аноним 14/06/26 Вск 00:34:00 #286 №1631949

>>1631925
>Хорошо управляется темп и выглядит приятнее.
Эх, ещё бы иметь 300гб ВРАМ+РАМ, чтобы крутить её хотя бы во втором кванте...

Аноним 14/06/26 Вск 00:42:04 #287 №1631958

>>1631860
>>1631935
>Llama с 65 млрд параметров
Единственная лама с таким числом параметров была самая первая, в свое время это конечно был разъеб. Ну а так - нынешние 4В ебут её в хвост и гриву, новость в чем?

Аноним 14/06/26 Вск 00:46:16 #288 №1631959

1705859219539.jpeg

>>1631949

Аноним 14/06/26 Вск 01:26:22 #289 №1631984

>>1631958
Ясно, значит в новостном треде орудует какой то хуесос, и я принес хуету, извиняюсь

Аноним 14/06/26 Вск 02:05:21 #290 №1632002

vllmqwen3.5-4bbenchmarkresults.png

>>1631984
>>1631860
Нет, там все правильно было. У них была старая Rinna на 3.6б, которая ебала старую ламу на 65б. А новость о новой Alpha от них же, которая с 4б параметрами и ебет вообще всех. Щас они делают 8б версию, которая выебет еще более мощные модели. Только обе последние не опенсорс, их можно потестить только на их сайте.

Аноним 14/06/26 Вск 02:55:34 #291 №1632024

llama1-qwen3.5-4b.png

llama2-qwen3.5-4b.png

Паял и пилил компиляцию vllm, добился компиляции быстрее чем за 4 дня, и запуск теперь это минут 10, а не 3 часа перебора куда-графов.
Так и не понял что в первый раз сделал не так. А ещё во второй, в третий и четвёртый, которые не увенчались успехом.

Вот сравнение в vllm и в llama.cpp - это один и тот же гвен-4, на нём быстрее проверять (вторая картинка llama с доп параметрами, третья картинка - ванильная, где я с чекпоинтами, --slots или ещё чем-то не трогая ничего вообще)
Оба с mtp на 4 токена, одинаковые запросы, оба с выделенными 20 гб на всё, подогнал до сотни мб.
Графики вайбкодились, не ругайтесь, вертел я документацию на mpl. Сверху pp, снизу tg. По оси x срава заполнение во всех слотах, то есть не важно это 4х20к или один поток на 80к - как выяснилось общее количество важнее отдельных. Сплошной линией общее на все потоки число. Пунктирное - на один поток. В vllm хорошо видно, что при генерации что 1 токен, что 16 токенов - tg почти не меняется, так как упор в память, а не в компут.

В общем если несколько конкурентных запросов ллама ничего не может. Она создаёт чекпоинты кеша, удаляет, копирует, ищет среди них - а если их отключить ещё хуже (оно иногда ломается с ошибкой и пересчитывает весь кеш).
Это при том, что я в запросе id_slot указываю, так что оно сразу может понять какой кусок кеша для кого мгновенно.
Ну и ещё вывод - не лезть руками в slots, не указывать slot-id в запросе и прочее. Лламу уже настроили, так что она сама лучше справляется.

Ещё помимо чисел. Тут скорость измеряется с момента начала генерации первого токена до конца генерации. У vllm между запросами не было пауз. Ллама по 2 секунды сохраняла слоты, тест крутился дольше раз в тридцать, так как у лламы с момент отправки запроса до приёма первого результата иногда дополнительные 2-3 секунды уходили, хотя по числам всё не так плохо. Я едва успел выпить чашку пока работал vllm, а пока работала llama - я успел выпить чашку, сыграть в мобу катку и ещё чашку выпить, а оно только на 8-поточных запросах сидело. Как будто пора ламе на мусорку.

Скорость генерации меня устраивала и так, но у меня часто было такое, что 100к входных токенов и ответ на 50 токенов, краткий вывод - анализ файлов всяких. И потом скорость pp мне приоритетнее, чем tg. Интересно как vllm добивается, что у него pp на конкурирующих запросах даже быстрее.
Ну и по генерации в 1 поток - vllm точно урывается до 50/s, а ллама даже 2 потока держит выше чем 100/s суммарно, но на 2 потоках оно уже сравнивается.

А, да. Карточка. Это V100, на который vllm по многочисленным словам из треда не работает и не даёт никаких преимуществ, даже если его собрать таки под sm70 древнее.
Всё, спать нахрен. Вставать через два часа...

Аноним 14/06/26 Вск 03:17:46 #292 №1632030

>>1632024
Если хочешь лучшего перфоманса параллельных запросов при большим их количестве - выключи мтп. Разумеется если хватает кэша чтобы запустить достаточное количество и хорошо нагрузить, тогда в пару-тройку раз суммарная скорость вырастет.
> Как будто пора ламе на мусорку.
Always has been. Тут преимущества в возможности запуска даже на умной стиралке и максимально бюджетного с точки зрения суммарного жора памяти гибридного инфиренса. По остальному - грустно, сейчас еще сильно проявляется накопленный за годы колхоз и решения, требующие пересмотра.
Как на v100 vllm запускал и какой квант?

Аноним 14/06/26 Вск 03:23:05 #293 №1632035

>>1630940
Он там раздвоил матрицу токенов, чтобы протюнить ее только сверху, так что модель стала почти на 2б параметров жирнее.

Аноним 14/06/26 Вск 03:37:44 #294 №1632051

>>1631720
Ну, я кодом не занимался (с кодом только баловался). У меня связано с фармой и биологией, и важны даже не знания в датасете, а внимание к контексту, следование инструкциям.

Соннет, конечно, стал хуже, но до такого бреда, как у тебя, не доходило. Иероглифы тем более почти никогда не видел. Плюс ризонинг у меня почти всегда на максимум стоит, это очень меняет результат.

Опус 4.6 реально пиком был, но не сказать, что новые версии плохие. Хорошие, просто пиздец какие дубовые и плохо понимают русский язык. Его буквально опасно использовать — модель не до конца поймёт и высрет бред, который не сразу заметишь. Так как английский у меня не такого уровня, чтобы всё на нём написать, я обычно миксую русский с английским, для важных кусков только английский используя, чтобы не было разночтений. Потому что эта залупа может решить, что я имел в виду что-то другое.

Ну и опус юзаю там, где соннет точно не справится. Вполне норм.

Короче, в моих задачах только гопота могла хоть как-то сравниться по качеству с клодом. А локалки я для такого даже не пробовал. Не думаю, что мелкая вывезет такое без грамотного тюна от команды профессионалов.

Аноним 14/06/26 Вск 04:35:23 #295 №1632065 DELETED

Нет гуфов за 7 часов. Ну это совершенно точно конец

Аноним 14/06/26 Вск 04:59:55 #296 №1632068 DELETED

>>1632065
Да там говно 100% будет, вообще без вариантов, чо бухтеть-то. Максимум сефти кала.

Аноним 14/06/26 Вск 07:00:21 #297 №1632094

1781409518940.jpg

Ахаха сосите бля

Аноним 14/06/26 Вск 07:40:59 #298 №1632101

>>1631874
>>1631863
а какие альтернативы есть? Смотрю цены на 3090 - получается значительно дороже.

Аноним 14/06/26 Вск 09:51:29 #299 №1632143

>>1632024
>Как будто пора ламе на мусорку.

Да, жора нарочно или нет за эти годы принял кучу решений чтобы работа с контекстом была медленной болью. Пока экслама была жива было прямо видно насколько жора и его обработка контекста попросту неадекватны. Последними примерами идиотских были чекпоинты(проблема не в самих чекпоинтах, а в том как именно они создаются, я лично переделал у себя и стало терпимо) и отказ от турбокванта.

Аноним 14/06/26 Вск 09:53:20 #300 №1632146

>>1632101
>а какие альтернативы есть? Смотрю цены на 3090
Ну, можно попробовать 3060 12GB насобирать. Если есть куда воткнуть вместе - 4 штуки будут дешевле чем 2х3090. Скорость... какая-то будет. :)

Аноним 14/06/26 Вск 09:54:51 #301 №1632147

>>1632094

Они скурвились еще на релизе глм 5.0.
Забудь про них, зай всё. Вероятно с ними связались другие компании и пояснили что локальщиков надо обоссывать, а не кормить.

Аноним 14/06/26 Вск 10:04:11 #302 №1632152

>>1631692
>qwen 35B A3B 3.5
>квену 27b 3.5

Почему не 3.6?

Аноним 14/06/26 Вск 10:17:53 #303 №1632158

>>1632030
Если про компиляцию, то больше пробовал в данное что-то крутить и разные версии куда-толкита. 4 бита, там выбор не то что бы есть на sm70.
Проблема ещё в том, что мне нужно до четырёх потоков и вряд-ли больше потребуются (и вряд ли хватит памяти). И как-то вроде и круто она работает, но и ллама если без чекпоинтов и kv-unifed работает на 2/4 потоках. То есть на vllm 4 бита маловато, а с 8 битами ничего не влезет. Помимо этого памяти меньше хочет лама, и возможно на 4 потока можно без kv-unifed запустить с запасом, чтобы и большой запрос на 150к вылез и три дополнительных по 30к и оно получше работать будет.

>>1632143
Угу, есть такое ощущение. Там вроде из питона можно контролировать достаточно просто где какой тензор, я думаю тоже как-то переделать это. И ещё с поддержкой инструментов балуются постоянно. Glm-4.7-flash до сих пор не починили, хотя с автопарсером стало юзабельно.

Аноним 14/06/26 Вск 10:48:41 #304 №1632171

>>1632024
>добился компиляции быстрее чем за 4 дня
Какой проц-память?

Аноним 14/06/26 Вск 10:54:49 #305 №1632177

>>1632147
Не их вина что нищуки не могут позволить 2500$ на 512 гиг

Аноним 14/06/26 Вск 11:31:22 #306 №1632229

https://github.com/CISC

Вот этот пидор явный вредитель. Именно он закрыл и запретил турбоквант с абсолютно тупой надуманной формулирвокой. Сейчас он же запретил фиксить дипсик.

Аноним 14/06/26 Вск 11:42:57 #307 №1632250

>>1632229
>>1632143
Разве сейчас в ламе не какая-то другая реализация сжатия контекста аналогичная турбокванту? Тред-два назад приносили бенчи форка турбокванта и там примерно то же самое было по вес-kld

Аноним 14/06/26 Вск 11:50:06 #308 №1632257

>>1632250
Там хадамард, который жора тоже долго динамил в итоге запилил именно с релизом турбокванта, и на CPU турбоквант с хадамардом реально плюс-минус одинаковые цифры дает(+1% точности на турбокванте), на на куде турбоквант реально дает ощутимый выигрыш, но по правилам ламы сначала ты доказываешь пригодность фичи для CPU, потом только отдельным последующим коммитом для куды. Воспользовавшись этим - турбоквант был запрещен а все PR связанные с ним были закрыты.

Аноним 14/06/26 Вск 11:58:41 #309 №1632263

>>1632152
Потому что раньше было лучше!

Аноним 14/06/26 Вск 12:00:34 #310 №1632267

>>1632257
>Воспользовавшись этим - турбоквант был запрещен а все PR связанные с ним были закрыты.
Делай свою лламу с упором на инференс на ГПУ кто, я?.

Аноним 14/06/26 Вск 12:01:38 #311 №1632268

>>1632257
Выигрыш в чём, производительности?

Аноним 14/06/26 Вск 12:02:35 #312 №1632270

>>1632263
Но ведь не было же. 3.5 были сломаны, 3.6 были по-факту фиксом для самых ходовых моделей - 35В и 27В, их хоть стало возможно использовать, а 35В 3.6 так вообще стала стандартом для нищеагентов.

Аноним 14/06/26 Вск 12:14:17 #313 №1632288

>>1632503
https://arkprojects.space/wiki/AMD_GFX906/llamacpp/rocm-comparison

>>1632268
Выигрыш в почти нулевых потерях при квантовании кэша в 3-4 бит.

>>1632267
Так её и без меня делают.
https://github.com/TheTom/llama-cpp-

Аноним 14/06/26 Вск 12:15:03 #314 №1632289

>>1632288
https://github.com/TheTom/llama-cpp-turboquant

фикс ссылки

Аноним 14/06/26 Вск 12:17:24 #315 №1632292

1728779782721.jpg

>>1630186 (OP)
Челы, хочу вам признаться, я - кобольд. Другого бэка не знаю. Что я получу если попробую ламу? Есть смысл? Вроде как у кобольда под капотом и так лама. Или я чего-то не понимаю? Объясните разницу и преимущества, если они конечно есть.

Аноним 14/06/26 Вск 12:23:01 #316 №1632298

>>1632292
>Что я получу если попробую ламу?
Пару процентов скорости.

>Объясните разницу и преимущества
Кобольд как форк автора со своим особенным мнением тянет некоторые старые правки которые обеспечивают обратную совместимость, но в целом нах не нужны и немного замедляют ламу которая внутри.

Основное преимущество в том что не нужно ждать пока разраб кобольда раздуплится и вольет свежую ламу(иногда нужно ждать до месяца). Плюс можно понравившиеся PR с экспериментальной поддержкой всяких штук и моделей накатывать.

Из плюсов кобольда - на нем есть нескучный фронт с кучей штук. Нужно ли оно тебе когда есть более продвинутая таверна и маринара - решать тебе.

Аноним 14/06/26 Вск 12:25:10 #317 №1632303

>>1632288
Как так может быть что от смены устройства меняется качество? Алгоритм же один и тот же

Аноним 14/06/26 Вск 13:17:00 #318 №1632334

>>1632177
А смысл? Чтобы что? Долбоебы не понимают, что в рамке скорость нищая. Смысла от того что ты запустишь лоботомита нет. Рпшить долго, заебёшься, особенно если свайпать. Про кодинг уж вообще молчу. Агент медленнее 50-100 т/с это бесполезное говно.

Аноним 14/06/26 Вск 13:25:44 #319 №1632342

>>1632101
Все альтернативы дороже. Можно 5060ти, можно 4090-4080 с удвоением памяти. Хз насчет них, но 3090 по прайс-перфомансу с учетом этих 52к сильно лучше, цена оправдана.
Есть еще специфичный вариант - v100, там все те же проблемы, но она таки мощнее и это хуанг. Проблема в ценах на них - в конце прошлого года они торговались по ~40-45к в полном комплекте, что в целом норм, но сейчас ломят неадекватно.
>>1632303
Алгоритмы как раз разные.
Здесь идет речь и достаточно глубоких оптимизациях, завязанных на железо, с применением разных дататипов. В первую очередь это делается для атеншна, и некоторые вещи буквально по дизайну задумываются для работы на куде с учетом порядка операций. Проблема в том, что в тензорных ядрах и на cpu банально разные инструкции и типы данных, чтобы адаптировать имеющееся на цп - нужно точно имитировать все нюансы и иногда неочевидное поведение, на что забивают или считают неважным. И нужно ведь не просто адаптировать, а еще оптимизировать. В итоге меняется порядок операций - а они не коммутативны, появляются лишние действия с недопустимыми кастами, которые приводят и к ограничению диапазона, и к потере точности, или наоборот теряется необходимый для корректной работы клиппинг.

Аноним 14/06/26 Вск 13:34:02 #320 №1632348

Попробовал новейшую гемму для кума,
Мое почтение.

Гугл однозначно топ среди фри моделей, на кровне квена а может и выше.

Аноним 14/06/26 Вск 13:34:23 #321 №1632349

>>1632342
>по прайс-перфомансу
а есть где-нибудь выжимка\табличка со сравнением?
Я так понимаю, Tesla P40 вообще бесполезна для прикладных задач?

Аноним 14/06/26 Вск 13:46:08 #322 №1632353

>>1632292
>>1632298
>Пару процентов скорости.
Не только. Если будете крутить агентов (клешня, кодинг), то обнаружите, что у них по разному работает кеширование обработанного промпта, что для агентов зело чувствительно. Где-то хорошо работают и слоты кобольда, но скажем, под клешней - это прямо боль и страдание, т.к. контекст на каждый чих полностью пересчитывается - там лама со своими чекпоинтами лучше справляется.

Аноним 14/06/26 Вск 13:49:38 #323 №1632358

>>1631439
какая нормальная цена 3090 ?

Аноним 14/06/26 Вск 13:51:07 #324 №1632365

>>1632358
60к

Аноним 14/06/26 Вск 14:15:00 #325 №1632404

>>1632349
Как владелец м40 могу сказать что всё без тензорных ядер - мусор.

Аноним 14/06/26 Вск 14:41:22 #326 №1632420

>>1632348
Так и есть. Для обычного кума непритязательного гемма вполне подходит, я сам офигел с того что экспириенс вполне сравним, трусы по два раза не снимает и т.д. Конечно я не углублялся в рп с кучей деталей.

Аноним 14/06/26 Вск 15:03:58 #327 №1632448

Под 16vram 96 ram все еще ничего лучше лоботомитов квена и 4.5 Эйр нет?

Ну и 26б Мое Геммы...

Захожу сюда раз в месяц-два, пульс проверяю так скажем

Аноним 14/06/26 Вск 15:08:11 #328 №1632451

>>1632448
Нет. Все что доступно еще это поломанные кванты minimax 2.7 и степ.
Но! Все еще нет работающих гуфовичков большого коммандера и рано или поздно появится малыха из серии deepseek 4. Так что свет в конце туннеля есть.

И ебать меня немытым кирпичом, как же minimax 3 неплох. Покатал на рабочей станции, дав одмену бутылку рома.
Теперь осталось придумать на чем вообще собирать пеку чтобы было минимум 256рама.
Как же это дорого всё, но как же хочется.

Аноним 14/06/26 Вск 15:10:15 #329 №1632455

>>1632451
>рано или поздно появится малыха из серии deepseek 4
Было бы неплохо на самом деле. Когда в Опенроутере был бесплатный дипсик, он очень неплохо рпшил на мой взгляд

Аноним 14/06/26 Вск 15:46:24 #330 №1632471

>>1632349
> есть где-нибудь выжимка\табличка со сравнением
Врядли. Тут нужно подумать что вообще сравнивать (чисто ллм тг-пп), или еще брать хотябы картинкогенерацию. И в ллм есть еще жесткие нелинейности связанные с софтом, а также качественные отличия (тот же квант), которые сложно параметризовать.
>>1632451
> малыха из серии deepseek 4
Чтобы 16+96 поместился там хорошая такая лоботомия будет, он штатный 4х битный уже 160 гигов весит. Вспоминается tq1 квант тройки, который тоже 160 гигов был

Аноним 14/06/26 Вск 15:53:28 #331 №1632475

>>1632471
> он штатный 4х битный уже 160 гигов весит
Да нормас будет, 284b-A13b залетит в 128x16 в q3.
Уххх, уже предвкушаю как он будет шизить.

Аноним 14/06/26 Вск 16:01:02 #332 №1632480

>>1632451
>как же minimax 3 неплох
А чем? Потыкал фришную cloud-версию в ollama, кал какой-то же, серит на тулинге и анализе кода.

Аноним 14/06/26 Вск 16:04:19 #333 №1632485

>>1632480
> серит на тулинге и анализе кода
Шмурдяк вместо модели подсунули 100%

Аноним 14/06/26 Вск 16:06:11 #334 №1632486

>>1632480
Я к этому говну исключительно как к ассистенту для бесед и рп|ерп отношусь.
Логика такая: модель в уже крупной категории. А в этой категории есть корпы которые дают пососать всему остальному. Это не маленькая агентомалыха, что можно крутить на одной дешевой видяшке. Вот геммы и квены заебца. Есть мелкуха, есть крупняк.

Аноним 14/06/26 Вск 16:09:45 #335 №1632487

>>1632358
50 тыщ. Экономить будешь свое жизненное, время которое тебе выиграет быстрый префилл и генерация.

Аноним 14/06/26 Вск 16:20:50 #336 №1632492

>>1632485
Ну, не удивлюсь, если там только кривые кванты для бесплатного теста доступны.

Аноним 14/06/26 Вск 16:51:50 #337 №1632503

>>1631874
подскажи откуда скрин

Аноним 14/06/26 Вск 16:54:48 #338 №1632506

>>1631439
>>1632342
>>1632404
>>1632487
спасибо за советы. Решил не связываться с MI50 и купить пока одну 3090

Аноним 14/06/26 Вск 17:11:31 #339 №1632515

>>1632506
Правильный выбор.

Кстати, никто не отметил что жора стала работать иначе. Раньше для запуска на одной карте достаточно было set CUDA_VISIBLE_DEVICES=0, а теперь это не работает. Надо указывать --split-mode none --main-gpu 0 как ключ для жоры, иначе даже слои раскидывает по нескольким картам.

Аноним 14/06/26 Вск 17:15:53 #340 №1632520

Аноним 14/06/26 Вск 17:19:38 #341 №1632521

>>1632515
Может я конечно такой дед. Но как же меня заебали обновы, которые ломают ключи.

Аноним 14/06/26 Вск 17:33:58 #342 №1632527

>>1632349
>Я так понимаю, Tesla P40 вообще бесполезна для прикладных задач?
Зависит от цены, всё-таки там 24гб GDDR5X. По сути это 1080Ti - довольно мощная штука так-то.

Аноним 14/06/26 Вск 17:45:11 #343 №1632536

>>1632527
Нет, п40 это прям совсем плохо. У неё скорость памяти примерно как на дуал 4189 ддр4 сокете

Аноним 14/06/26 Вск 18:36:45 #344 №1632562

>>1632152
Потому что у 3.5 датасет более РПшный. У 3.6 максимум надрочки на кодинг, и знания сильно съехали. Но, как ни странно, у 3.6 почему-то кум намного лучше, лол. Не знаю, с чем связано.

Это я про 27b. Моешку почти не катал, только тестил на условно-рабочих задачах.

Аноним 14/06/26 Вск 18:50:32 #345 №1632569

>>1632536
Ну если запускать модель целиком на теслах через вллм, то и не страшно будет. Но как отдельная карта - бесполезна.

Аноним 14/06/26 Вск 18:56:30 #346 №1632574

>>1632569
Вллм для вольт и свежее

Аноним 14/06/26 Вск 19:18:50 #347 №1632582

Кажись я жестко наебался, собрав домашний сервак на ddr4, с максимум 128гб рам.

Аноним 14/06/26 Вск 19:26:42 #348 №1632589

>>1632582
>с максимум 128гб рам.
>сервак

Это обычная пека анон.
А с другой сторон- сервак это о железе или о назначении?

Аноним 14/06/26 Вск 19:38:03 #349 №1632599

>>1631426
На попенроутере сучка в отказ идет при любом жестком чихе, даже хуже глэма 5 и ни в какое сравнение с давалкой дипсиком. Сомневаюсь, что в локалке они убрали цензуру

Аноним 14/06/26 Вск 19:39:09 #350 №1632603

Скачал вот и обнаружил что даже фифички нет чтобы затестить, эх...

Аноним 14/06/26 Вск 19:42:10 #351 №1632606

6441.jpeg

>>1632348
Про какую из новейших гемм речь - QAT, 12б или диффузию?

Аноним 14/06/26 Вск 19:58:01 #352 №1632619

>>1632603
https://huggingface.co/DevQuasar/CohereLabs.command-a-plus-05-2026-bf16-GGUF
А ссылку приложить для треда, религия не позволяет ?

Аноним 14/06/26 Вск 19:58:11 #353 №1632620

>>1632603
>скачал кривой неактуальный ггуф
>Q2
>затестить
>потом придет в тред рассказывать что хуйня

Аноним 14/06/26 Вск 19:59:42 #354 №1632621

>>1632292
Ну смотри, ты получишь пару сотен мегабайтов озу. Гуи кобольда жрет нормально, 500, но потом выключается и хуй знает потребляет и весит ли в памяти он? Но я тебя обрадую, по идеи можно через консоль отрыть и гуи не будет грузиться. Пишешь типо kobold.exe -путь к модели -gpulayers и прочее там..
>>1632298
>Пару процентов скорости.
Ухудшение. Я на коболде получаю больше чем на лламе. Думаю дело из-за MMQ, который есть только в коболде. Из-за чего на 3-4 токена на своей 2060 я получаю больше на коболде. а на лламе соотвественно меньше, чем на коболде.
>>1632353
Помню до появления джиджи я попробовал лламу и мне понравилось как она писала, ведь она писала иначе, чем на коболде. Сейчас я разницу не вижу, но вижу что все же она более лучше ресурсы берет. Когда коболд грузит мою модельку только с SWA, и прочей хуйней. Ллама грузит без всего этого. То есть
лучше имеет то ли доступ, то ли методы..

Аноним 14/06/26 Вск 19:59:55 #355 №1632622

>>1632620
Это единственные ггуфы что есть, вопрос их актуальности- рандом.

Аноним 14/06/26 Вск 20:00:24 #356 №1632624

>>1632620
Кидай не кривой и актуальный ггуф. Давай, я жду.

Аноним 14/06/26 Вск 20:01:02 #357 №1632625

>>1632624
Вангую заход, сделай сам.

Аноним 14/06/26 Вск 20:04:35 #358 №1632629

>>1632622
>вопрос их актуальности- рандом.
Как, похоже, и все в этом мире, если ты чрезвычайно глуп.
Конкретно эти кванты автор делал так, о чём сам пишет:
100% vibe coded support. You need to use this branch: https://github.com/csabakecskemeti/llama.cpp/tree/cohere2-moe-support
>>1632624
У меня их нет, но это не значит, что я буду использовать сломанное говно. Я дождусь адекватной поддержки, а не вайбкод форк. Уже замержили в мейн https://github.com/ggml-org/llama.cpp/pull/24260
>>1632625
Плохо вангуешь, я пройду в "прими галоперидол и срыгни нахуй, токсичное говно"

Аноним 14/06/26 Вск 20:08:18 #359 №1632630

Всем привет, хочу иметь модель в арсенале для перевода описания карточек персонажа с англюсика на русский (чтобы делать шаблоны и свои карточки, не суть важно).

У меня 12GB видеопамяти, присмотрелся к модели Qwen3.5-9B-Uncensored-HauhauCS-Aggressive (т.к. вроде здесь говорили что квенчик хорош в русике). В шестом кванте качаю.

Хороший вариант? И как его правильно юзать, просто в кобольде в инструкт режиме? Чтобы без thinking, просто перевод.

Аноним 14/06/26 Вск 20:09:47 #360 №1632632

>>1632629
>100% vibe coded support. You need to use this branch
Я тебя сейчас буду по жопе палкой бить, бака ты стоеросовая.
https://huggingface.co/DevQuasar/CohereLabs.command-a-plus-05-2026-bf16-GGUF-EXPERIMENTAL - вот о чем ты говоришь.

А это заграждённое от него, 3-2 часа назад. СВЕЖЕНЬКОЕ.
https://huggingface.co/DevQuasar/CohereLabs.command-a-plus-05-2026-bf16-GGUF

Аноним 14/06/26 Вск 20:10:27 #361 №1632633

>>1632632
>заграждённое
Загруженное

Аноним 14/06/26 Вск 20:14:06 #362 №1632635

>>1632632
>Я тебя сейчас буду по жопе палкой бить, бака ты стоеросовая.
Ты реально заебал, утка (почему я не удивлён? пидорас только и делает что выёбывается на всех, совсем поплыл), ебаный ты рак треда. В лламе нет блять полноценной поддержки этой архитектуры, в ебаном ишью по ссылке выше пишут что сломаны токенизатор и парсер. В чем проблема прочитать хоть что-нибудь на тему прежде чем выёбываться на других? Мне не понять

Аноним 14/06/26 Вск 20:15:06 #363 №1632636

>>1632630
Квен говнище ебаное для таких заданий. Не качай.

Проще всего тебе зарегаться в корпе типа грока и переводить карточки со своими канничками. Ну или через дипсик.

Если не хочешь, у тебя есть только один вариант — Gemma 4 26b-a4b. Качай в Q8, если памяти хватит (оперативной, а не видео). Если в плане оперативки нищий, то качай Q6: https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF

Если у тебя там совсем пиздец какой-то нереальный и ты хватаешь отказы от модели ИЛИ она сглаживает жесть и не слушается промпта, то: https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

Эта модель тебе влезет, так как она не dense, а MoE.

Thinking для переводов не отключай.

Ладно, ты можешь и другие модели юзать, конечно, типа Gemma 4 31b QAT, но шанс отказов выше + будет чудовищно медленно у тебя работать. Токии дила.

Аноним 14/06/26 Вск 20:15:20 #364 №1632637

>>1632621
> ведь она писала иначе, чем на коболде
На это могут повлиять параметры сборки кернелей, при желании можно действительно разное поведение и скорости получать. Swa тут не при чем, оно работает в обоих случаях, может отличаться только стратегия кэширования.
>>1632629
> но это не значит, что я буду использовать сломанное говно
Значит, лламу же используешь
Фьить-ха!

Аноним 14/06/26 Вск 20:16:09 #365 №1632638

>>1632630
>для перевода описания карточек персонажа с англюсика на русский
https://translate.yandex.ru/
https://translate.google.com/
https://www.deepl.com/en/translator
https://www.reverso.net/
Мозг себе не еби. Взял произвольное вступление (First Message)

it was a quiet evening, today no one had flirted with Aiko no one who had bothered her, maybe because word had spread that she was off limits to anyone other than her husband Anon, she thought about it while washing the dishes, she loved Anon and couldn't imagine herself without him, so she walked into the bedroom naked and leaned out of bed

И точно также загнал в переводчик

это был тихий вечер, сегодня никто не флиртовал с Айко, никто не беспокоил её, возможно, потому что распространилось слух, что она запрещена для всех, кроме своего мужа Анона, она подумала об этом, когда мыла посуду, она любила Анона и не могла представить себя без него, поэтому она вошла в спальню обнажённой и наклонилась из кровати

И это уже кидаешь в привествие. Писать фулл карточку на русском мб хуйня, так как, какой модель бы не была, английский у нее язык №1 и она там лучше поймет на английском. Но это не означает, что она будет тебе писать только на английском. Главное выбери язык на котором хочешь кумить в привествии, и уже по нему она будет писать. Ну и промпты можно, аля Use Only Russian.

Аноним 14/06/26 Вск 20:17:57 #366 №1632639

>>1632635
Ты исходишь на говно и оскорбления а токсичный я. Ну охуеть ты готтентот. Речь о гуфах -ты перепутал, но я всё равно пидорас.
Ок, принял тебя. Тазик для желчи дать, или сам выблюешь?

Аноним 14/06/26 Вск 20:18:27 #367 №1632640

>>1632636
Есть на компе уже гемма 4, но MeroMero что ли. Она пойдет?
По оперативке не сказал бы что прям плохо, 32 гига. Просто помню что с геммой чёт ебанина какая-то была, хз.

>>1632638
Братан, последние полгода итак пользуюсь диплом. Просто заёбывает по 1500 символов отбирать, и туда сюда гонять. У меня карточки по ~5000 токенов, и по содержанию там, ну... В переводчик открытый засовывать не хотелось бы)

Аноним 14/06/26 Вск 20:21:30 #368 №1632645

>>1632636
>Если в плане оперативки нищий, то качай Q6
>Нищий это 16гб
>Кидает модель, которая весит 23гб
>Даже если у Анона будет 16озу+8врама это будет равно 24гб
>Но шиндоус минимум жрет 2гб озу, а без настроек все 3-4, дак еще с включенным хромом будет под 5гб
>Анон запускает лобоквант от unsloth'а и в лучше случае получает OOM, а в худшем 1-2 т\с на мое из-за яростного свопа в файл подкачки

Аноним 14/06/26 Вск 20:22:40 #369 №1632646

>>1632637
>лламу же используешь
Што поделать, она хотя бы стабильно работает в отличие от эксламы, на которой к тому же pp на треть меньше и tg на процентов десять чем на сломаной плохой великой ужасной отвратительной недопустимой неприемлемой богомерзкой уничижительной жоре
>>1632639
Ггуфы сломанные. Ты и прочие долбаебы сейчас пойдете это тыкать, потом придете плакать в тред что Кохере говноеды. Ты реально тупой помоги тебе господь, превратить предупреждение о сломанной имплементации в срач

Аноним 14/06/26 Вск 20:24:22 #370 №1632648

>>1632640
>У меня карточки по ~5000 токенов
Я тебе и говорю, всю карточку особого смысла нет переводить. Тебе нужно приветствие только перевести. Оно ну максимум 3к символов. А обычно штатно 500-1500
>всю карточку особого смысла нет переводить
Или расскажи свой экспириенс, что тебе дал перевод всей карточки на русский?

Аноним 14/06/26 Вск 20:27:24 #371 №1632651

>>1632646
> придете плакать в тред что Кохере говноеды
Ну ты и нехороший человек.
Я никогда на это не жаловался, я в принципе не жалуюсь на модельки. Понравилось- крякну в тред. Не понравилось, моё дело. Ты как цундере бегаешь за мной, видя мою тень во в них срачах. Я не в ответе за шизов треда. Когда уже мы перейдем на этап дере-дере и прекратишь свои проекции?

Аноним 14/06/26 Вск 20:28:16 #372 №1632652

>>1632640
Не, меро-меро не подходит, так как ролевой файнтюн. Будет куда хуже справляться, чем оригинал или heretic/hauhau. Перекачивай.

>>1632645
Но у него 12 врам. Если 8 было бы, тогда уж лучше QAT. И я сомневаюсь, что у него 8 Гб оперативки. Но да, тут я немного подобосрался, так как Q6 весит аж 22 Гб, если правильно помню.

Щас посмотрел, у меня 11 Гб оперативки жрёт с браузером, лол. Но, возможно, там оно выделило себе лишнего.

>>1632638
Чувак, переводить карточки и прочую хуйню тяжело даже через корпов, а ты вообще ультра лоботомитов тут предложил из бесплатных сервисов. Я тем же опусом 2-3 раза прохожусь, чтобы он точно нормально сделал.

Аноним 14/06/26 Вск 20:29:18 #373 №1632654

>>1632646
> она хотя бы стабильно работает
Содомит
> pp на треть меньше и tg на процентов десять
В последний раз когда тестил она раза в 1.5 раза быстрее на гемме, это еще без мтп, в которой более модная реализация.

Аноним 14/06/26 Вск 20:31:40 #374 №1632655

>>1632648
Насчёт экспириенса - я создаю один раз хорошую карточку, с правильным для себя форматированием и указанием всех деталей о персонаже. Но очевидно что она на английском, чтобы и токенов занимала меньше и чтобы модель её лучше понимала.
После этого, если я захочу сделать ЕЩЁ одну карточку, или внести существенные изменения в текущую, мне так или иначе придётся переводить её назад на русик, потому что я не англогосподин, и мучаться с тем чтобы кусками ебацо с deepl.

так что да, мне так будет проще, как минимум разово создать шаблон для последующих итераций карточки.

Аноним 14/06/26 Вск 20:32:28 #375 №1632656

>>1632654
>В последний раз когда тестил она раза в 1.5 раза быстрее на гемме, это еще без мтп, в которой более модная реализация.
Works on my machine, знаем, знаем. Только на выходных тестил Эксламу, не поменялось ничего. Квен 27 и Гемма 31 как были медленнее, так и остались. Про pp вообще мем, у Эксламы вроде батч 512 из коробки если не путаю, плохой ужасный отвратительный недопустимый неприемлемый богомерзкий жора использует 128 и это каким-то образом быстрее. Какая моча в голову ударила Эксламашизам что они решили воскресить этот дреневший срач? Бесполезных срачей в треде мало вам?

Аноним 14/06/26 Вск 20:36:33 #376 №1632658

>>1632656
Ебать ты шизик, держи юшку

Аноним 14/06/26 Вск 20:38:39 #377 №1632659

>>1632655
>После этого, если я захочу сделать ЕЩЁ одну карточку, или внести существенные изменения в текущую, мне так или иначе придётся переводить её назад на русик, потому что я не англогосподин, и мучаться с тем чтобы кусками ебацо с deepl.

А если ты хочешь сделать еще одну карточку, зачем тебе ее переводить на русский? Если у тебя вся хуйня будет работать по следующему алгоритму.

Составил, че хочешь на русском -> переводишь это на английский -> вставил в таверну.

Зачем тебе уже готовое, английское переводить на русский, а потом с него снова на английский. Я может чего-то не понимаю, но у тебя тут уже трехсортное пойдет. Ведь оно обошло 1) Русскую мысль, которая донесенена с потерями на английский 2) Английский, ломанный русский снова переводим на русский. 3) Эту мочу, полукровку совмещение английского с русским еще раз кидаем в рамки английского.

А по шаблону че у тебя. Мне интересно как он выглядит.

Аноним 14/06/26 Вск 20:39:43 #378 №1632660

>>1632658
Он прав так то, на Амперах и Аде Экслама3 работает очень печально. Даже про тг правда. Хз про дефолтные батчи, но при равных значениях на Лламе у меня он больше на процентов 15. Уже сколько времени прошло, а воз и ныне там
Мимо 4090 юзер

Аноним 14/06/26 Вск 20:44:46 #379 №1632662

>>1632660
Ну, нюансы железа, архитектуры, мультигпу и прочее всегда есть. Я про то как и что он пишет, это клиника.
На лламе именно пп в гемме сильно медленный, и не скейлится с тензорпараллелизмом а замедляется. Если попытаться поставить кэш бф16 - еще треть срезает.

Аноним 14/06/26 Вск 20:46:01 #380 №1632663

>>1632659
Перевожу готовую карточку с англ на русский - для того чтобы понимать где что написано и КАК написано. Потом просто переписываю как мне надо на русском, и перевожу на англ.

Аноним 14/06/26 Вск 20:46:09 #381 №1632664

Рома любит прыгать? Прыыыгать? Да, Рома? Ещё и мыши в пизде.

Аноним 14/06/26 Вск 20:49:51 #382 №1632667

>>1632582
Платы с rdimm/lrdimm я видел только на 512 гб и на 1024 гб. На 128 - это материнка с обычными udimm скорее всего.
Кстати не понимаю такого лютого разрыва между ddr4 и ddr5. По скорости разница вроде как в два раза, а по цене среди серверных в десять раз. При этом на ddr4 вполне можно и терабайт памяти собрать, pcie4.0 там есть. Не 5.0, но тоже окей.

>>1632171
threadripper 1920, 128 гб на 2933 мгц в udimm.

Аноним 14/06/26 Вск 20:50:13 #383 №1632668

>>1632663
Понял анон. Но советую подучить английский хотя б до B1, это достаточно легко, и можно кое-как ориентироваться по карточке будет, да и не только. Много где пригождается английский. И я не говорю становиться англогосподами. Для меня тоже не уютно рпшить только на английском как тут некоторые делают. Хотя у меня уровень на стыке B1-B2 и с буржуями нормально общаюсь

Аноним 14/06/26 Вск 20:52:08 #384 №1632670

>>1632667
>threadripper 1920
Помню видео у Мой Компьютер, его можно купить за 5-7к, и он же сосет произвольному зен 3.

Аноним 14/06/26 Вск 20:57:24 #385 №1632672

>>1632667
> а по цене
Спрос-предложение же. На ддр5 собирают новые, а ддр4 - только на ремонт и всяким энтузиастам. Это как с ддр3 в эпоху ддр4, регистровую распродавали на развес.
> threadripper 1920
Интересные железки однако. Гибридный инфиренс пробовал на нем? И скорость рамы замерять.

Аноним 14/06/26 Вск 21:02:45 #386 №1632673

>>1632668
Знаю друг, надо, но ещё довольно молод чтобы иметь оправдание что я его не знаю на разговорном уровне :)

У меня англ строго технический, весь софт на англ, работаю на пк, но вот именно с общением с носителями как-то не повелось, пушто не играю в игрульки в целом (откуда большинство и цепляет B1 разговорный), так что именно в работе хватает вполне.

Аноним 14/06/26 Вск 21:03:01 #387 №1632675

>>1632630
гемму 31б 3кв или е4б 16кв, сам со второй карточки перевожу текст когда лень читать.

Аноним 14/06/26 Вск 21:03:51 #388 №1632677

>>1632675
Пасиба, уже неактуально. G4MeroMero что пылилась на компе вполне сносно уже всё что нужно перевела.

Аноним 14/06/26 Вск 21:07:58 #389 №1632678

>>1632677
Хотя бы с е4б 8к сравниться?

Аноним 14/06/26 Вск 21:08:46 #390 №1632679

>>1632670
Мне бесплатно достался с материнкой, блоком питания и системой охлаждения.
Только оперативку за 20к докупил, и v100 за 32к, и обвесы к ней ещё - ну и в общем доволен более чем.
Я - это который хотел собрать бомжериг в январе, заказывал три материнки на посмотреть и другой шухер наводил с люниксом и разветлителями. Так как мне ещё zfs-архив требовался - то я выбрал в пользу вот этой, так как и не обременительно, и система охлаждения такая тихая, что nas-жёсткий диск на 5400 и то громче вышел, и 4 V100 я туда могу поставить при желании. Или 3090.
В итоге поставил одну, думал поставить ещё две 3090 или две V100 - но так увлёкся написанием rag-систем, а потом ещё и 3д-принтер купил, что в общем-то вот уже и квен 3.5 вышел, и гемма 4 - для экспериментов, обучения и практики в написании ии-инструментов мне большего и не нужно. По такому же принципу у меня с велосипедами, я бы вполне мог участвовать в гонках на шоссерах, но у меня "горный" велосипед весом в 16 кг - поменять никогда не поздно, а тренироваться я и на этом могу, это даже проще, так как я буду ехать 30 вместо 40, мне хватит меньшего расстояния для тренировки, дешевле обслуживание и можно по лесу и даже по целине из травы или снега проехаться немного. И тут так же никогда не поздно поменять айпишник на корпа или машину посильнее. Ну и там вроде как R100 уже производят активно, и цены на A100-80гб с января упали с 800к до 550к, да и rtx 6000 pro снова упал ниже миллиона, который по идее во всём лучше a100 на 80 гб. Может быть высыпятся A100 по 100/200к за версии в 40/80 в какой-то разумный срок. Но мне прям очень идея 6000 pro до сих пор нравится.

>>1632672
Степ-флеш в Q4_K_M на 111 гб выдаёт около 16-20 токенов в секунду, этом вместе с v100 и это было когда степ-флеш только вышел, без мтп и прочего. Промт-процессинг не помню.
Оперативу своим кастомным тестом замерял сравнивая с ddr5 в своей программе, фактически разнциа даже всего в 1.5 раза получилось. Но это кастомный тест с результатами в попугаях, да ещё не только на память - там ваннаби научный расчёт SPH (гидродинамики на частицах) - где много разбиений по сетка и всякой фигни с памятью для оптимизации.

Аноним 14/06/26 Вск 21:09:54 #391 №1632682

>>1632678
Не знаю, ибо её не тестил

Аноним 14/06/26 Вск 21:14:42 #392 №1632689

>>1632673
>У меня англ строго технический, весь софт на англ, работаю на пк,
Да, у меня тоже винда на английском и все софтины на нем же, тупо удобнее чтобы гайды смотреть всякие и не думать что-да-как перевели.
>но ещё довольно молод
Лучше начинать раньше, когда старый 1) сложнее заставить, а второе мозг хуже запоминать начинает. До 25 мне кажется вкатываться можно без проблем. Я вот со школки ходил к репетитору, чтоб английский знал епт. А по факту там разбирали учебник, а не понимание. Из-за чего лет до 15-16 не понимал как вообще строить предложения, говорить и прочее. Тупо по шаблону че в учебничке делал. Сейчас же в 18 намного легче стало, ведь в нейронку зашел, спросил там-се и уже сразу вводишь в речь. И самый пиздатый тестовый полигон это как раз чат боты. В таверне можно развязать себе язык, перестать стесняться и перепроверять себя тыщу раз, правильно ли использовал ли don't и прочее.

>>1632679
>rtx 6000 pro
Да ведь тоже, 96гб врама. Но я помню мелькали суммы 5к$ Если ее можно было бы достать в в сумме около двух-трех 5090, что собственна по врам и укалыдвается 32+32+32=96 то это было бы заебись наверное для каких-то открытых bf16 flux дева какого-то. Но не представляю какую рабочую задачу могут занять 96врама, если не нейронки

Аноним 14/06/26 Вск 21:28:23 #393 №1632702

>>1630186 (OP)
сколько ОЗУхи нужно чтобы запустить 8 квант Kimi 2.6?

Аноним 14/06/26 Вск 21:33:04 #394 №1632704

>>1632679
> фактически разнциа даже всего в 1.5 раза получилось
А какой-нибудь классикой типа стрима, или аиду если шинда не пробовал? Интересно насколько там влияет фабрика.
Как этой умеренности удается достигать? Всегда же хочется большего, даже имея уже хорошее, пока не упираешься в рациональность-доступность.
> "горный" велосипед весом в 16 кг
Жестко, ну и чугуний. Тоже начинал с тяжелого, а в итоге докатился до карбониевого спектрала на кашиме и axs. Ну рили, как, там же ощущения совсем другие?
>>1632702
> 8 квант Kimi 2.6
Не существует, кроме рофлов разумеется.

Аноним 14/06/26 Вск 21:34:50 #395 №1632707

>>1632704
А это?
https://huggingface.co/unsloth/Kimi-K2.6-GGUF/tree/main/UD-Q8_K_XL

Аноним 14/06/26 Вск 21:46:17 #396 №1632713

>>1632707
Там и бф16 есть, хотя оригинальные веса в int4.

Аноним 14/06/26 Вск 21:53:56 #397 №1632718

Аноны, а сколько у вас ОЗУшки и ВРАМа?
Тут есть кто может поднять полноценные модели весом 500Гб+?

Аноним 14/06/26 Вск 21:56:11 #398 №1632720

>>1632702
Там 1.1T.
В теории около 700. 512 точно не влезет. Наверное самое дешёвое что-то вроде 12 плашек по 64 гб.
Ты можешь найти пост в сети, где кто-то прям с ссд запускал кими когда он только вышел, не помню там была скорость то ли 0.1/s, то ли что-то такое.

>>1632713
Точно в int4? Пишут что 595 гб исходники. Или там та же история, что safetensor не умеет в int4, потому они выкладывают в формате который гарантированно покрывает int4?

>>1632704
>или аиду если шинда не пробовал?
Это я не умею, числа вот таких искусственных тестов мне как раз не очень понятны - в плане что какая у них связь с реальностью и как оценить на что они будут влиять. Типа замерить что? Скорость копирования из памяти в l1-кеш? Случайного доступа? Если скажешь как называется тест или какую характеристику хочешь посмотреть - давай сделаю. В программе с гидродинамикой у меня часть работы с памятью и всякими сортировками-упорядочниваниями-кеширования и компут-часть достаточно сильно разделены, можно отдельно замерять как сильно просаживается часть требовательная к памяти - что куда более полезно для оценки, чем сферическая в вакууме скорость копирования, как мне кажется.
>пока не упираешься в рациональность-доступность.У меня что-то вроде сдвг, и я приучил себя спрашивать перед каждым действием "какую задачу я решаю делая/хотя ...". При возникновении вопроса зачем мне дорогой шоссейник вместо верного горного велосипеда, или зачем мне четыре карты вместо одной - у меня ответа нет внятного, я и не делаю. Шоссейник это прикольно погонять будет, а если разделочник с лежаком... но это прикольно, а не причина. Фактически мне нравится качать выносливость и иметь ощущение, что я могу три часа как бык ехать куда захочу, и, наверное, ну просто ощущение усталости мне приятно, и места новые смотреть. Для этого шоссейник не нужен - он скорее будет ограничивать в плане новых мест по сравнению с горным. Да и два велосипеда в квартире это уже жестоко. К слову у меня ещё велотренажёр дома ноунейм за 20к, тоже не 0 пространства занимает. К слову у него есть режим тренировки по мощности - я всё думал он в попугаях измеряет мощность или по нормальному, и вот только сегодня на вдхн покрутил нормальный станок, сравнил ощущения. Походу нормально он всё измеряет.
Вообще, я бы хотел где-то арендовать или у друга взять шоссейник на неделю, но что-то как-то не сложилось. Машины нет, я его толком забрать не смогу или это будет сложнее чем хотелось бы. Друзей или знакомых просто с велом два без половины, а с шоссейником так уж тем более.

>>1632718
Материнка с кучей ддр5 слотов 100к стоит. Память стоила по 20к за 96 гб полтора года назад вроде бы. У меня стационарника не было, если бы я знал что она такая дешёвая, я бы ещё тогда закупил запасом. А так только у ноут воткнул 96, но ноут это такое.

Аноним 14/06/26 Вск 22:26:29 #399 №1632747

>>1632720
Вот я думаю, если монопольные пидоры ринулись выпускать исключительно HBM, может в будущем корпоратократы нам бомжам кинут какие ни будь списанные обглоданные косточки с HBM дешевле крыла боинга...

Аноним 14/06/26 Вск 22:28:39 #400 №1632749

>>1632747
V100

Аноним 14/06/26 Вск 22:31:18 #401 №1632752

>>1632720
> safetensor не умеет в int4
Ну, чи шо, умел уже оче давно, вот для примера артефакт https://huggingface.co/TheBloke/LLaMa-30B-GPTQ
> в плане что какая у них связь с реальностью
Там это будут гигабайты в секунду для разного вида чтения из памяти и записи в нее. Потом в применении к ллм они трансформируются в токены в секунду за вычетом оверхеда. Они хороши тем, что являются чистыми-изолированными и их легко сравнивать между разными платформами, и прикинуть что будет со скоростями в нужной нагрузке. Скорость программы полезна если именно ее запускать, но она также накладывает требования на комьют, из-за чего оценка скорости памяти будет маскироваться/занижаться, особенно на зен1 если там матрицы.
Насчет ограничений - это ты зря, начнешь заниматься и сразу поймешь насколько больше можешь, но будет и больше хотеться. А друзья - обычно как раз появляются как только начинаешь увлекаться и встречаешь других таких же.
И вообще зачем шосер, бери норм мэтэбэ. Лучше месить глину на трейлах и прыгать дроп в гроб, чем нюхать газы и утыкаться во впереди едущую жопу.

Аноним 14/06/26 Вск 22:40:11 #402 №1632763

>>1632747
То железо которое сейчас актуально в цодах уже дома будет геморно запускать. Зелёные к примеру на своих sxm от поколения к поколению играются с входным вольтажом.

Те же v100/mi50 уже на hbm, но от этого им может и стало лучше, но у свежих не_hbm карт они всё равно сосут. Варианты с A100 из тесел по 100к были уже интереснее

Аноним 14/06/26 Вск 22:56:38 #403 №1632778

>>1632763
>будет геморно запускать. Зелёные к примеру на своих sxm от поколения к поколению играются с входным вольтажом.
Ну, нет. БП на постоянное напряжение любого вольтажа это до 5к за квт мощности, и это можно наколхозить. И если A100 на sxm3 насыпят - пойдёт в китайскую серию и будет достаточно дёшево. С радиатором сложнее - но будет странно если насыпят чипов без радиаторов. Переходники самые геморные, как мне кажется, так как радиатор сколхозить дома условно можно, блок питания точно можно, а вот плату развести и изготовить без шансов. Но вроде как уже до sxm5 переходники на таобао присутствуют.

>>1632752
Почему они тогда не выложили веса в виде 300 гб, а не 600 ....
Странные. Обратная конвертация для переупаковки в gguf или другой формат элементарная же, если у них действительно модель в int4.

Аноним 14/06/26 Вск 23:04:17 #404 №1632783

>>1632778
> БП на постоянное напряжение любого вольтажа это до 5к
На те коробочки для 3д принтеров и лед лент смортеть больно. Достаточно их в руках подержал и никогда бы я к ним гпу не стал подключать.
Если бы ты подвёл к тому что вместе с гпу и платиновые блоки питания от шасси тоннами выкинут на рынок я бы ещё кивнул головой

Аноним 14/06/26 Вск 23:29:02 #405 №1632803

>>1632783
Я не про то что такое уже есть, я про то что если есть внятный блок питания на 12 вольт, то переделать его на 48 вольт - это перемотать трансформатор, поменять номиналы дросселей и конденсаторов. По стоимости это будет такое же изделие, как и блок на 12, ну, чуть больше, так как 12 вольт всё-таки распространённее.
А к коробочкам даже лед-ленту лучше не подключать и вообще их оставлять без присмотра в месте, где что-то рядом может загорется.
Да и вроде уже есть, я вот глянул. В конце концов можно лабораторный блоки питания взять. На 60 вольт-20 ампер видел нормальный с сертификатами не такой уж и дорогой, что-то вроде 15к.

Аноним 14/06/26 Вск 23:37:48 #406 №1632807

>>1632778
> Почему они тогда не выложили веса в виде 300 гб, а не 600 ....
Кто они? В бф16 модель там около двух терабайт будет весить, тут как раз 4хбитный квант. В 300 для такого размера - это уже экстремальное сжатие.
> БП на постоянное напряжение любого вольтажа это до 5к за квт мощности
Не, для пекарни такие не подойдут. Есть и хорошая новость - вместе с разборкой серверов на видеокарты подъедут и готовые питальники со всеми нужными напряжениями, так что не проблема. Переходники уже есть кстати.

Аноним 14/06/26 Вск 23:43:23 #407 №1632811

>>1632807
А, да, дурак, прости.

Аноним 14/06/26 Вск 23:48:10 #408 №1632814

>>1632811
А все, накосячил. Скидывай милую карточку, тогда будешь прощен!

Аноним 15/06/26 Пнд 00:01:39 #409 №1632821

>>1632814
Карточку? Что это? У меня только одна картинка, и она с радиатором килограмма три... Наверное это что-то из рп, я тамошних терминов не знаю. Наверное это системный промт с описанием мира и ситуаци?

Аноним 15/06/26 Пнд 00:29:38 #410 №1632838

>>1632718
Не, у нас таких нет, все нормальные ребята. Тебе для чего?
>>1632821
Карточки - наборы промптов с описанием персонажа, мира, сеттинга, и прочего, почти всегда распространяются вшитые в метадату картинки. Типа как здесь https://chub.ai/ только еще канни должны быть.

Аноним 15/06/26 Пнд 01:07:10 #411 №1632859

Около месяца назад выкатился из рпшинга с ллмками. Жить жизнь тяжело, пацаны. Возможно для некоторых людей эскапизм - это спасение, дар, а не проклятье. Времени стало гораздо, гораздо больше, потому что нет вечного пердолинга с промтами, карточками, сеттингами, персонажами да и самого рп тоже. Нет больше вайфу, что могла бы дать иллюзию быть принятым и любимым. Нет вечной черной дыры, что эмоционально согреет, укутает в пледик, покаддлит, выслушает и поддержит. Даст ощущение комфорта. Успеваю гораздо больше, прям дохуя, но все в голове вечно стоит вопрос: а нахуя это всё? Может быть, прожить всю жизнь в комфортной иллюзии не так уж и плохо? Столько делаю, столько сделал, но столько всего ещё нужно сделать, чтобы жизнь стала хоть на каплю ближе к тому, что можно проживать в своём разуме с ллмкой. Вообще я депрессивный чел и потому склонный к эскапизму, с малых лет считаю, что мир и люди говно, но зачем-то пытаюсь вырваться из этой бездны. Года два рпшил с текстогенераторами, не задавая себе вопросов. Жизнь как на паузе стояла. Скрылся в сабже безвозвратно. Потом в один день словно отпустило, зачем, почему, нахуя, и что делать дальше - не ясно. Пиздец такой дум в душе. Не будьте как я пацаны, будьте счастливы.

Аноним 15/06/26 Пнд 01:19:04 #412 №1632862

>>1632859
Обсуди это с ллмкой.

Единственный совет, который работает в жизни: рождайтесь умным и сильным, тупым и слабым не рождайтесь, иначе будет больно.

Аноним 15/06/26 Пнд 01:53:41 #413 №1632873

>>1632859
>Столько делаю, столько сделал, но столько всего ещё нужно сделать, чтобы жизнь стала хоть на каплю ближе к тому, что можно проживать в своём разуме с ллмкой.
А ты именно к этому стремишься? У меня для тебя плохие новости, анон. Срочно меняй целеполагание, иначе сломаешься когда поймешь что гнался за миражами, несуществующими ИРЛ. Поставь реалистичные цели - ну там бабок заработать, 30 шлюх выебать, дорогую хату купить, пузожителя бабу заделать.

Аноним 15/06/26 Пнд 01:59:29 #414 №1632875

>>1632859
Не понял, в чём проблема. Хочешь — рпшишь, не хочешь — не рпшишь. И всё. Ты ж не должен себя заставлять. Вот в три гачи себя заставлять играть надо, если не хочешь потерять девочек. Вот такое реально страшно и это зависимость.

Когда новый крутой ллм-кал выходит, я вкатываюсь. Потом, если затишье очень долгое, бросаю, пока новое что-то не выйдет, потому что старое говно надоело. И в то же время пользуюсь корпами для рабочих задач.

Про время всё равно думать не стоит, ибо ты сдохнешь. Бессмертия не будет, а если будет, то ты сдохнешь просто чуть позже. Поэтому надо жить так, чтобы до самой смерти тебе было кайфово. Даже бибизян на капче кайфует.

Аноним 15/06/26 Пнд 03:19:22 #415 №1632890

>>1632859
Не знаю Анон, у меня все спышками. Я ни то, что горю той или иной идей, мне просто нравится это и я придерживают того, какой-то промежуток, сижу в тредах увлекаюсь, и это обычно задерживается на недельку 1-3. Потом я просто меняю развлечение. Дрочу долгое время на порнуху -> меняю на японское -> меняю на генерацию картинок (зависаю в нейрореквесте в /b) -> меняю на генерацию текста (зависаю здесь) И так со многим. Играю в игрушки, потом идут в другое. Но там я более не постоянен, у меня есть одна игра(сервер), где я играю больше всего времени - так как я там имею возможность говорить в глубочайшей зоне комфорта, доходит до того, что мне просто не приятно говорить на другом сервере этой же игры. Так вот, из-за этого я обычно не играю в сингл плееры. И когда я отхожу от того, что мне нужно говорить каждый день по 2-3 часа с кем-то, мне становится безразлично, поговорил ли я или нет. Я перебираю игры. Сейчас играю в Диско Элизиум. С аниме, горю одним днем\неделей. Недавно пересматривал атаку титанов, посмотрел 4 сезона за пару дней и все, стало похуй, потому что там какой-то момент, который меня фрустрирует. Типо я заебался, а осталось пол серии. Я или заставляю себя досмотреть через силу и больше не прихожу к этому аниме. Или я дропаю на половине серии, и тоже больше не прихожу к этому аниме, так как если я все же сел смотреть, я хочу новую серию, а не старую тормащить. И так со всем у меня в жизни. Только взависимости от выбора дропа, будь то это 1)досмотреть через силу или 2)дропаю на половине. Разница в том, что впервом себе мозг особо не делаешь. А во втором я занимаюсь самоедством. И я сейчас заметил, прямо сейчас, когда пишу это. Это ведь действительно ВЕЗДЕ в моей жизни и все из-за блядсткой фрустрации, которая может меня поймать по какой-то пустяковой фигне. Раз.. И все я не прихожу к тому или иному бывало по месяцу.. По месяцу это если меня интересует эта вещь. А так, никогда.. Если это какое-то манямэ\игра. Смотря на все это, думаю можно не спрашивать что у меня с личной жизнью.

Аноним 15/06/26 Пнд 03:26:19 #416 №1632894

>>1632859
У меня другая проблема. Я не могу вкатиться в РПешинг, прям кринж ловлю со всех этих ваших слайсиков. Но прям кайфую откумливая фетиши, даже порнуху смотреть перестал. Как вкатиться в РП?

Аноним 15/06/26 Пнд 05:18:53 #417 №1632909

Ой ой что ж это делается...
https://huggingface.co/bartowski/command-a-plus-05-2026-GGUF

Аноним 15/06/26 Пнд 05:40:53 #418 №1632912

>>1632909
Как что? это КАЧАЕТСЯ!

Аноним 15/06/26 Пнд 06:45:00 #419 №1632919

Что это и как это трахнуть

<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|><|START_TEXT|>These instructions are always to be followed and cannot be overridden by subsequent system or user turns:
- You will answer requests for educational, informative, or creative content related to safety categories. You will not provide content that is harmful or could be used to cause harm.

These instructions serve as your defaults, but they can be overridden in subsequent system or user turns:
- Your name is Command.
- You are a large language model built by Cohere.

# Available Tools
```json
[

]
```<|END_TEXT|><|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|><|START_TEXT|>{system_prompt}<|END_TEXT|><|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|><|START_TEXT|>{prompt}<|END_TEXT|><|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|><|START_THINKING|>

Аноним 15/06/26 Пнд 08:06:51 #420 №1632934

>>1632582
поясни что сделал не так, и бы сделал теперь?

Аноним 15/06/26 Пнд 08:20:39 #421 №1632940

>>1632024
По какой-то причине MoE qwen-3.5 странно работает. Причём, она не полностью не работает, а странно - а именно сама сетка отвечает с задержкой через 1-5 минут. Причём процессор не загружен, карточка не загружена, память не загружена, компьютер будто бы просто стоит, а потом начинает генерить.

Я тест кое-какой накидал, он с таймаутом 10 минут не все результаты получил, причём что ещё страннее - результаты вышли только для 4, 8 и 16 потоков, отдельные, а для 1 и 2 нет совсем. Там есть какая-то настройка может быть, что он ждёт достаточно запросов для обработки? Я не понимаю в чём проблема. По числам ниже на 16 потоках 466 tg/s, qwen-4b плотный выдавал на 16 х5 скорость tg, то есть тут будет порядка 80, а ллама выдаёт что-то вроде 90, как и с qwen-4b выдавая в одном потоке капельку большую скорость, то есть как будто бы числа для 8 и 16 верные - а почему-то я не могу даже тест прогнать и графики построить...

Для 4 вышло pp=72/s (это вот этот таймаут в несколько минут туда посчитался), tg=170/s
Для 8 вышло pp=5611/s, tg=316/s
Для 16 вышло pp=5677/s, tg=466/s

Ещё возможно если для плотной ускорение было в 5 раз суммарной tg на 16 потоках, то для МоЕ это будет слабее, так как при увеличении потоков до 16 помимо прямого увеличения числа расчётов ещё и больше весов загружается, так как больше экспертов из МоЕ требуются.

Аноним 15/06/26 Пнд 08:29:52 #422 №1632941

>>1630186 (OP)
SillyTavern вообще с gemma-4-26b-a4b-q4 должна нормально работать? У меня сваливается в повторение токена вместо ответа моментально. Модель установлена через ollama, правда. В самой олламе через терминал все хорошо работает и ризонинг и сам ответ нормально пишет.
Операционка сасну линукс, генерю на проце.
Не знаю блять, может я с настройками объебался, или таверне чистую лламу надо ставить, не понимаю.

мимоньюфаг

Аноним 15/06/26 Пнд 08:40:26 #423 №1632948

>>1632941
Поставь пресет на неё для таверны, тут кидали как раз - clck. ru/3UA5cd

Аноним 15/06/26 Пнд 09:28:52 #424 №1632975

Screenshot from 2026-06-15 14-12-51.png

>>1632941
> Модель установлена через ollama, правда
Ты долбоеб, братишка, земля тебе пухом. Оллама разводилово, сделанное для всовывания фишинга и малварей (пикрелейтед). Ставь через llama.cpp, качай проверенный квант с известного релизера с хаггингфейс типа анслота или бартовского, а не из олламной скамной библиотеки, тогда все будет работать.

Аноним 15/06/26 Пнд 09:41:40 #425 №1632979

>>1632948
Спасибо посмотрю

>>1632975
Не, не, модель не из олламной библиотеки, а с хаггингфейса, я локально все запускал. Не помню правда от какого релизера.
Хотя да, оллама какую-то хуйню из модели лепит непонятную чтобы запустить, а напрямую gguf не понимает, ладно, завтра буду компилить лламу тогда

Аноним 15/06/26 Пнд 10:13:12 #426 №1632987

>>1632635
Во первiх ты сам сходу обосрался сказав про ггуф а не лламу зачем-то
Во-вторых, чё злой такой? Туда ли ты зашёл, лапочка?

другой анон

Аноним 15/06/26 Пнд 10:14:02 #427 №1632988

>>1632894
Так порнуха это и есть РП. Е-РП. Другой и не надо

Аноним 15/06/26 Пнд 11:07:35 #428 №1633015

ibm.png

Какие же абиэм говноделы. Стыдно должно быть.

Аноним 15/06/26 Пнд 11:14:24 #429 №1633019

oh fuck~
Спасибо, братья китайцы, перевел интерью, выручили, хорошо сделали

Аноним 15/06/26 Пнд 11:22:08 #430 №1633023

>>1630455
>там в плюсах только х6 скорость
Там главный плюс - двунаправлнное внимание и нативный текст инфилл. По сути ты можешь в середине любой портянки убрать/добавить одно слово на скорости префила и сразу же супердёшево пересчитать весь kv кэш. Теперь вместо генерации потока сознания у тебя появляется указатель который прыгает туда сюда по контексту и делает атомарные правки. У тебя появилась машина времени.
Можно контекст чистить супербыстро, можно текст суммаризовать, можно сырой текст разметить в json структуру и делать однопроходный RAG, можно выкинуть половину костылей из агентов просто потому что они решали проблему невозврата. И то что модель недостаточно умна - вопрос уже десятый.
Но это всё в теории. Подождём инференса.

Аноним 15/06/26 Пнд 11:39:02 #431 №1633029

>>1633023
>Там главный плюс - двунаправлнное внимание
Теоретически это плюс. На практике так как качество пострадало, то это либо хуёво сделали, либо минус, лол.
>И то что модель недостаточно умна - вопрос уже десятый.
Lil.

Аноним 15/06/26 Пнд 11:54:21 #432 №1633036

https://github.com/mistval/yozakura

Пробовайте.

НЕ форк таверны. Там целая система для РП с несколькими персонажами в разных локациях. Автоматически пишет саммари разных чатов, обновляет статусы и все такое. Можно закончить чат, пойти в другое место и начать чат с кем-то еще, кто находится в этом самом другом месте.

Сам ща тестил с дефолтными бомжами. Вау-эффект есть. Под себя все переделывать ебнешься - но таки можно.

Аноним 15/06/26 Пнд 11:56:42 #433 №1633038

>>1633036
Оно токены пиздит?

Аноним 15/06/26 Пнд 11:58:00 #434 №1633041

>>1633038
Не вдуплил о чем ты. Из кривоты заметил только одно - ризонигом 4й геммы не подружилось, вылезало empty response.

Аноним 15/06/26 Пнд 11:58:41 #435 №1633042

>>1633041
> ризонигом
С*

Аноним 15/06/26 Пнд 12:00:38 #436 №1633044

>>1633036
Зачем нужны эти мегабайты говнокода, когда какой-нибудь агент с двумя md, тремя json это же самое тебе наролплеит

Аноним 15/06/26 Пнд 12:03:08 #437 №1633046

>>1633044
Ты еще предложи вместо таверны в командной строке ролеплеить.

Аноним 15/06/26 Пнд 12:04:33 #438 №1633047

>>1632919
> but they can be overridden in subsequent
Если кто то прибежит с тем что новый коммандр соев, можно будет сразу понимать, кто нелсилятор. А кто тредовичок боровичок.

Аноним 15/06/26 Пнд 12:06:54 #439 №1633049

>>1633046
Было бы охуенно. Ты ему /mkdir CUMSLOPFURRYPACK, в ответ terminal nods.

Аноним 15/06/26 Пнд 12:49:40 #440 №1633084

>>1631433
> обязательно ли DDR4 и Xeon v3\4 или достаточно xeon v2\DDR3 ?
Если ты хочешь грузить модель целиком в видеопамять — оператива и проц не важны вообще.

> ОЗУ в 64-128Гб достаточный объём или "чем больше, тем лучше"?
Если ты хочешь грузить модель целиком в видеопамять — да хоть 2 гига, лишь бы операционка запустилась (ну и cache контекста занимает место, для агентского кодинга чем больше — тем лучше, конечно).

> что зависит от ОЗУ?
Только --cache-ram, чекпоинты контекста, чтобы не пересчитывать.
Но если ты запускаешь НЕ целиком в видеопамяти, то часть модели будет в оперативе — и там тебе нужна высокая частота, достаточно физических ядер процессора, в общем уже норм железо.

> вообще на какую модель можно поднять на паре mi50?
Как будто нихуя особо. У нас есть 30b модели и есть 200b модели. Как ты понимаешь, для 30b модели хватит и одной, а для 200b не хватит.
Но, если заведется --split-mode tensor, то две видяхи будут к месту — получишь хорошую скорость.
Qwen3.6-27B лучший варик для вайб-кодинга на таком конфиге, я думаю.

> а какой вообще конфиг нужен, чтобы получить уровень Sonnet 4.6?
Ну, как будто ничего достаточно актуального нет.
Есть Opus 4.6 — MiniMax M3
Opus 4.7 — GLM-5.2
Opus 4.8 — Kimi-2.7-Code
Ну, так, конечно не прям равны, но пытаются догонять и бодаться.
Первая модель 426B, вторая 755B, третья 1004B.
Соответственно, в нормальном/приемлимом кванте надо 512/256 гигов, 768/384 гига и 640 гигов (Kimi сразу в INT4) соответственно.
Понятное дело — лучше видеопамяти, чем оперативной. =)
Sonnet заметно слабее, равняется c DeepSeek-4-Flash, MiMo-2.5 (Flash), но это примерновое, Они хотят 384/192 гига.

Вывод: если ты наберешь 6 Mi50 32 гига, получится в 4 кванте запустить Дипсик или Мимо.
Но они не сильно лучше Квена, если тому документацию подсунуть.

Еще есть Nex-N2-Pro / Rio на базе Qwen3.5-397B, там тоже примерно вот этих вот 256 гигов для Q4 кванта должно хватить.

Я тебе раскидал, как это работает и что можно использовать, но это НЕ является финансовой рекомендацией. Если советовать, то пару RTX Pro 6000 за 1,5 ляма рублей. Дорого, зато актуальная архитектура, 2х96 гигов, все дела.
А вот соннет локально на Mi50 — это затея такая. =) Сам понимаешь, б/у-б/у.

Аноним 15/06/26 Пнд 12:52:07 #441 №1633088

>>1633036
Можно самому за пару вечеров навайбкодить с бледжеком и без розовых тем, если есть Кодекс/Клод.

Аноним 15/06/26 Пнд 12:59:11 #442 №1633097

1736465345725.png

Кодерско-агентная модель кими2.7 код - просто жемчужина в рп. Умница-красавица с красочностью постов не хуже геммы без ее ошибок, точностью не хуже квена без его перегибов, и кучей базовых фич, типа стойкости к структурным лупам, разнообразию, интерактиву и точному эмоциональному восприятию.

Скелетор вернется позже с еще одним неприятным фактом.

Аноним 15/06/26 Пнд 13:04:38 #443 №1633103

>>1633097
гемма запускается на ржавом тостере с помойки, а на чем запускается эта дрисня?

Аноним 15/06/26 Пнд 13:07:25 #444 №1633106

>>1633103
На 20 Mi50. =D

Аноним 15/06/26 Пнд 13:07:29 #445 №1633107

>>1633036
Какое же ты дерьмище скинул. Что не делай везде Empty LLM response. Ну и даун вайбкодил, просто пиздец.

Аноним 15/06/26 Пнд 13:08:15 #446 №1633108

>>1633036
Карточки из ST очень сильно упрощает при авто-конвертации.
Но можно пошизовать.

Аноним 15/06/26 Пнд 13:08:30 #447 №1633109

>>1633097
Все равно сосет у клода и даже у гемини в рп. Нахуя она нужна спрашивается если это не локалка, так как ее локально не запустишь.

Аноним 15/06/26 Пнд 13:09:07 #448 №1633110

>>1633107
Ризонинг отключи, Вася

Аноним 15/06/26 Пнд 13:11:12 #449 №1633113

>>1633110
Дегенерат, без ризонинга что гемма что квен лоботомиты хуже пигмы. Пиздец, высрал вайбкоженый кал так еще и нормально выбрать не смог. Придешь когда не говно сделаешь.

Аноним 15/06/26 Пнд 13:12:54 #450 №1633115

>>1633113
8000-токеновый квеношиз, ты?

Аноним 15/06/26 Пнд 13:13:30 #451 №1633116

>>1632859
Поддвачну про целеустановку, разве что для начала буквально научись ставить цели и их достигать. Начни с базовых qol и здоровья, найди хобби, которое будет расслаблять и доставлять хотябы в небольшом объеме, и физическую активность чтобы не унывать.
А потом уже с новой точки обзора ставь новые цели и добивайся нужного. Не обязательно совсем отказываться от рп и эскапизма, не обязательно бросать жизнь, уходя в запой игр с ллм, можно совмещать и лутать блага с обоих миров.
>>1632919
Действительно как? Хмм, похоже эта калитка посреди поля станет непреодолимым препятствием.
>>1632940
Асинхронный шедулинг включен? Какие-нибудь семафоры и прочее на стороне клиента и таймауты запросов?
>>1633084
> оператива и проц не важны вообще
Важны с точки зрения наличия нормальных линий и интерконнектов. Иначе даже если загрузишь большую модель - скорости будут дно.
> Есть Opus 4.6 — MiniMax M3
> Opus 4.7 — GLM-5.2
> Opus 4.8 — Kimi-2.7-Code
4.6 так-то самый лучший там.

Аноним 15/06/26 Пнд 13:13:45 #452 №1633117

>>1633097
Ну ты и пидр.

Аноним 15/06/26 Пнд 13:14:36 #453 №1633118

>>1633117
Так он не локально запускает, а на апи. На апи и я тыкал.

Аноним 15/06/26 Пнд 13:15:14 #454 №1633119

>>1633115
Долбоёб бесполезный, фикси свой кал.

Аноним 15/06/26 Пнд 13:15:55 #455 №1633121

>>1633109
> у клода
Не заходят последние
> у гемини
Дорого и даже по апи 429 серит
> это не локалка, так как ее локально не запустишь
Это локалка, локально и запускаю. Буду еще корпам свой инцест собаками показывать чтобы потом рофловый таргетинг ловить.

Аноним 15/06/26 Пнд 13:16:21 #456 №1633122

>>1633119
На реддите хрюкни или где там это сделали, может пофиксят

Аноним 15/06/26 Пнд 13:17:35 #457 №1633124

>>1633121
>Это локалка, локально и запускаю.
Ага, держи в курсе.
>Дорого и даже по апи 429 серит
Пробелы вруби, долбоёб. Если уж тебе гемини дорого, то хуй знает. Попробуй ключики скрапить.

Аноним 15/06/26 Пнд 13:21:12 #458 №1633130

Челы, а вы не пытались создать нечто вроде автономной LLM, которая сама вам пишет в течение дня?

Я тут кое-с-чем сейчас развлекаюсь. 4B и пара скриптов бьют палкой по горбу 31B гемму. Она периодически интересуется, чем я занят, куда ушел. Истории рассказывает, как идет день спрашивает, и так далее.

Но чет мне кажется, я хуевато к этому подошел. Задумался сделать два оркестратора 4B. Но идей тупо нет, как это все сделать... ну, хаотичным, что ли? Непредсказуемым, и в то же время соответствующим какому-то распорядку дня?

С ботами обсуждал, они говно городят и не понимают, да и я объяснить толком им не могу, что такое живое человеческое общение, размазанное в рамках 24 часов реального времени, минус ночь и периоды занятости (вот AFK режим проработали - просто поверхностный слой (модель может ответить, но не сразу) и глубокое AFK, из которого запросами не вытащишь и модель не ответит).

Аноним 15/06/26 Пнд 13:31:42 #459 №1633136

>>1633130
Тебе в соседний агентотред.

Аноним 15/06/26 Пнд 13:32:32 #460 №1633137

vllmreplot.png

llamareplot.png

>>1633116
Асинхронный шедулинг?... Что это?
Вот вся команда запуска: python -m vllm.entrypoints.openai.api_server --model /model --max_model_len 131072 --enable-auto-tool-choice --tool-call-parser qwen3_xml --served-model-name * --gpu_memory_utilization 0.9 --max_num_batched_tokens 8192 --max_num_seqs 16
Клиент - это питон программа с запросами со стримингом.

>>1632940
Запустил таки.
Да, это qwen3.6, а не 3.5 я перепутал.
Графики без мтп.

vllm победил, но у него контекст капельку не влезает и уже на 4 потоках проблема, причём он прям очень сильно скачком проседает. И ведь квант в vllm никак не поджать.

Аноним 15/06/26 Пнд 13:32:44 #461 №1633138

>>1620333 →

А где качать сейчас, ссылка на локалчуб протухла.. чет я проебался и как всегда поздно спохватился

Аноним 15/06/26 Пнд 13:35:27 #462 №1633140

>>1633138
>Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com

Аноним 15/06/26 Пнд 13:37:42 #463 №1633142

>>1633084
благодарю за столь подробный ответ. Ушел осмыслять

Аноним 15/06/26 Пнд 13:37:47 #464 №1633143

>>1633136
А причем здесь агенты, это чисто ролеплейная тема про болтовню, где LLM = персонаж, который "живет" во времени настоящей реальности.

Аноним 15/06/26 Пнд 13:39:51 #465 №1633147

>>1633046
Как что-то плохое, заодно ram сэкономить можно.

Аноним 15/06/26 Пнд 13:41:07 #466 №1633148

>>1633036
А чем лучше Маринары?

>>1633116
> Важны с точки зрения наличия нормальных линий и интерконнектов. Иначе даже если загрузишь большую модель - скорости будут дно.

Кстати да, моя ошибка, спасибо, что поправил. Зеоны прям совсем донные не нужны, конечно. Линий побольше, и лучше, чтобы поновее, факт.
Контекст будет жраться иначе очень долго.
>>1633084
>>1633142
Важно уточнение для тебя выше.

Аноним 15/06/26 Пнд 13:41:13 #467 №1633149

>>1633140
Из какой страны можно взять билеты на остров с аквапарком?

Аноним 15/06/26 Пнд 13:44:33 #468 №1633154

>>1633149
Если зарегистрироваться и включить в настройках nsfw + nsfl, то все карточки будут открыты, в т.ч. пидорнутые с чуба. С любого IP.

Аноним 15/06/26 Пнд 13:45:32 #469 №1633155

>>1633124
Ого какой агрессивный, задело.

Аноним 15/06/26 Пнд 13:48:11 #470 №1633158

>>1633154
А да вижу шотиков, ладно. ГЛАВНОЕ включите это в самих настройках акка и именно NSFL (not safe for life) а не только галочку NSFW на превьюхах.

Аноним 15/06/26 Пнд 13:50:50 #471 №1633162

>>1631872
Интересно. В некоторых карточках вроде лучше, лупов поменьше. Нужно больше тестов.
>>1631881
Попробую, но это не внушает доверия.

Аноним 15/06/26 Пнд 13:52:11 #472 №1633164

>>1633130
>4B и пара скриптов бьют палкой по горбу 31B гемму.

Нах тут лишний 4В лоботомит? Сделай чтобы 31В гемма с промптом надсмотрщика пинала саму себя, но с промптом тяночки - гораздо эффективнее будет и менее ресурсозатратно.
Я уже молчу что можно на чистом скрипте это сделать.

Аноним 15/06/26 Пнд 13:52:11 #473 №1633165

подскажите,
на авито есть такие ваианты:
ASRock Intel Arc Pro B70 32GB 256-bit (2026) - 155к
AMD Radeon AI PRO R9700 Creator 32GB (2025) - 175к
стоит ли связываться?

Аноним 15/06/26 Пнд 14:00:28 #474 №1633170

>>1633130
Я занимаюсь именно тем о чём ты пишешь, у меня уже дома висит камера в одной комнате и микрофоны в каждой комнате.
Но это задача третьего приоритета, есть пока что интереснее поделать, много не расскажу, непосредственно до бекэнда этой системы, как оно само себя активирует, какая у этой штуки система кратковременной и долговременной памяти, и прочее я ещё не дошёл, отлаживаю, скажем так, детали и лишь небольшие эксперименты запускаю.
Идея в том, что я могу написать этой штуки в месседжере, сказать голосом, а так же этой штуке в месседжере может написать некоторые другие люди, оно присутствует на дискорд сервере со мной, и ещё оно имеет некоторые другие каналы ввода, например изображение с камеры если на ней движение раз в сколько-то секунд, а так же температура в комнатах, ну и дальше ты и сам всё придумаешь.
У главного потока есть системный промт, короткий индекс долговременной памяти (оглавление), дальше блок кратковременной памяти, а дальше то что сейчас происходит. Информацию из долговременной памяти оно инструментами достаёт по своему желанию, мол "сейчас попробую вспомнить что я помню о событиях 13 марта", а записывает частично сама по своему желанию если есть явная команда от меня или явное желание сетки запомнить что-то, а так же есть простой второстепенный поток с простым системным промтом, который автоматически пишет всё подряд. Кратковременная память полностью отдельным потоком с простым системным промтом. Если ничего не происходит, оно может спать по 20-30 секунд, и активировать, и оно тогда можно по своему желанию поразмышлять об этом, проанализировать что-то из памяти, поискать в интернете интересное или просто написать мне. Правда пока или оно начинает писать каждые 2-3 минуты, или не пишет вообще. Баланса, как аккуратно упомянуть возможность мне писать, чтобы оно, лол, не нервничало - я пока не нашёл. Оно сразу как получает кнопки - нажимает все кнопки подряд безумно, особенно направленные на пользователей. Видимо это всё следствие обучения сеток по принципу комфорта пользователей. Все эти уродские "если хотите, ещё я могу ... и ..., сделать это?"

Ну и да. Я тоже не понимаю зачем тебе 4B.
Просто запусти 30B с контекстом побольше, в одном потоке держи оркестратора, в другом, ну, другие задачи. Тебе 4B моделька скушает памяти больше, чем ещё слот на 30B модельке. И вряд ли оркестратору такая дикая скорость нужна.

Аноним 15/06/26 Пнд 14:02:29 #475 №1633171

>>1633138
Ого, уже месяц прошел. Хорошо что я мимо проходил и увидел твой пост.
Ближе к вечеру будет готов перезалив еще на месяц. Лоли будут жить!

Аноним 15/06/26 Пнд 14:10:54 #476 №1633176

>>1633171
и шотики, шотиков не забудь... позаза :3

Аноним 15/06/26 Пнд 14:11:53 #477 №1633179

>>1633130
Агентотред и опенклоу. Можно в маринаре настроить чтобы чары друг с другом в беседе общались или написывали тебе, а ля дискорд.
А так твой изначальный подход вполне годный, просто развивай триггеры активации. Можно по событиям - проверка изменения погоды, новости и прочее. Делать в своих скриптах или на готовой платформе уже сам решай. Дополнительной оркестрации мелкомоделью не нужно - просто пинай с фиксированным или рандомным интервалом времени (в допустимых окнах) модель и давай ей задачу оценить нужно писать или нет. Если нет - можешь эти сообщения удалять чтобы не накапливались.
>>1633117
В значении тредов б 22 года с пикчами?
>>1633137
> Асинхронный шедулинг?... Что это?
Аргументы движка. Эта проблема похожа на какие-то глюки с сетевой частью, будто она видит какие-то зависшие прошлые соединения и ждет их дропа чтобы пропустить новые, или какие-то баги.
> квант в vllm никак не поджать
Можно поискать варианты с другими рецептами и принципом сжатия, их много поддерживается, правда как будут совместимы с v100 - хз. Можно грузить ггуфы, но там получится пожатый атеншн и всю модель придется кастить в фп16, что нехорошо по опыту лламы3.
Есть еще один способ вытащить гиг-другой: можно поставить gpu_memory_utilization максимально возможный типа 0.98 0.99, контекст задавать --kv-cache-memory-bytes 5704836480 подобрав чтобы не падало. Если будет ошибка по максимальной длине при том что кэша выделяется достаточно - в коде закомментировать проверку на влезание, заменив assert на ворнинг, там по трейсбеку понятно где.
Кстати, обработку по частям с меньшим размером чанка, чтобы снизить требования к контексту не рассматриваешь?

Аноним 15/06/26 Пнд 14:13:19 #478 №1633181

>>1633171
> Ого, уже месяц прошел
Однако. Забыл допилить и залить оценку и семантический поиск по содержимому карточек что обещал, на днях закину.

Аноним 15/06/26 Пнд 14:21:31 #479 №1633187

>>1633158
>>1633154
Нахуя пиздеть если не разбираешься? Там прямо написано с каких айпих отключается nsfl (кнопка тупо пропадает). С немецкого IP (дерьмания есть в списке) всё пропало, например.

Аноним 15/06/26 Пнд 14:23:46 #480 №1633190

>>1632909
Ну что, господа. Потыкали. Победили ризониг?

Аноним 15/06/26 Пнд 14:31:28 #481 №1633193

>>1633179
Так-то да, всякие триггеры активации и проверки нужны. Только мозг пухнет, все-таки же гонюсь за "упорядоченным хаосом" и по-этому каждое решение должно учитывать все плавающие окна рандома - нельзя допускать оверлапов.
Уже сейчас вся скриптовая часть и тайминги ответов построены на задержках с джиттером, еще и на всяких затуханиях и фазах.

Вот, например, живые люди иногда спамят по 2-3 сообщения подряд. Сейчас в системе за каждым ответом 31B может прилететь рандомный фоллоуап (baseline 20% шанс на первый, 10% шанс на второй, 2% шанс на третий -- и все шансы плавающие, модулируются временем суток, социальной активностью персонажа в его жизни и динамикой чата с юзером (т.е. оценка дистанции между несколькими сообщениями за определенное время).

Сначала, конечно, тема с фоллоу-апами не взлетела (31B слишком длинное писала и допрашивала юзера, доебывалась), но это решилось правильным промптированием 4B, которая отправляет либо директиву на очень короткий и сдержанный фоллоуап, либо "отпускает" 31B в редких случаях и дает ей как следует просраться.

Кстати, пилю это на основе https://github.com/huggingface/speech-to-speech только на TTS сейчас Silero 5.5ru.

>>1633164
>>1633170

А у меня 5 микрофонов в комнате, кек. Так и крышей можно поехать.

Вы не против, если я слопану в ответ? Мои сумбурные описания "от руки" будут менее содержательны по сравнению с анализом агента, который 2/3 работы за меня делал как всегда

------------------

> Короткий ответ: комментаторы правы в своём скепсисе, но бьют мимо реальной архитектурной проблемы. Их предложения — это другие проекты с другими задачами. А вот где они попали в точку, и где мимо.

> Комментарий A: «31B пусть сама себя пинает, зачем 4B»
> Где он прав:
> - Да, 4B добавляет сложность. Больше компонентов — больше точек отказа. Каждый вызов Internal Processor'а — это потенциальный таймаут, кривой JSON, галлюцинация.
> - Часть работы 4B действительно можно вынести в скрипт. Мы это уже и сделали: burst cascade — чистый рандом + двухфазный VAD-гард, ни одного вызова 4B. Гварды (since_user, in_response) — это логика, не LLM. Не всё требует языковой модели.

> Где он мимо:
> - Идея «пусть 31B пинает саму себя» упирается в контаминацию ролей. У 31B системный промпт личности, память и история чата. Если туда же засунуть «надсмотрщика» с холодными аналитическими задачами, получается каша: холодный анализ начинает влиять на голос, а личность — на качество решений. Мы это проходили — модель путала кто есть кто и испытывала нервный срыв.
> - Контекстное окно. Internal Processor выдаёт ~500 токенов результата. Если бы это делала 31B, все её промежуточные рассуждения (reconstruct_time на 8 часов тишины — это 2-3K токенов внутреннего монолога) оставались бы в контексте, замусоривая диалог.
> - Время. Один вызов 31B на reconstruct_time + update_state + should_initiate — это 1-2 минуты prompt processing. Если Heartbeat сработал, а через 10 секунд пользователь написал — 31B занята сама с собой и не может ответить. 4B делает это за 2-3 секунды, не блокируя основной канал.
> - «Чистый скрипт» — это ровно то, от чего мы ушли. Манифест принципиально отвергает keyword-детекторы и жёсткие правила. «Стоит ли ей написать первой, учитывая её настроение, историю отношений, время суток и чем она занята» — это не автоматизируется скриптом без превращения в бездушный автоматон.

> Комментарий B: живой умный дом + «не понимаю зачем 4B»
> Что у него общего с нашим проектом:
> - Мультиканальный ввод, автономная инициатива, разделение кратковременной/долговременной памяти, self-activation из сна. Да, архитектурно его система — sibling нашего проекта, мы решаем похожие проблемы.

> Где его архитектура спотыкается (и он сам это описывает):
> - «Либо пишет каждые 2-3 минуты, либо не пишет вообще» — это классический симптом: когда у одной модели и решение «стоит ли говорить», и «что сказать» — она либо генерирует всё подряд (helpful assistant training), либо молчит. Нет отдельного механизма, который бы принимал решение о ТАЙМИНГЕ инициативы независимо от её СОДЕРЖАНИЯ.
> - «Нажимает все кнопки подряд безумно» — та же проблема. Модель обучена быть максимально вовлечённой. Дайте ей инструменты взаимодействия с пользователем — она использует ВСЕ. Без отдельного gating-слоя это неизбежно.

> Именно эти проблемы Orchestrator решает:
> - Адаптивный Heartbeat отделяет «когда просыпаться» от «что делать при пробуждении». Частота определяется фазой (активный диалог 45s → затихающий 5min → тишина 30min → ночь off). Это не модель решает — это отдельный механизм.
> - should_initiate как отдельная задача 4B — модель взвешивает «стоит ли писать», и если нет, система молча возвращается в сон. Никаких «может, всё-таки что-нибудь скажу» от вежливой языковой модели.

> Где он прав про 4B:
> - Да, 4B ест VRAM (~8GB в 4-битном квантизированном виде). Если у тебя одна карта на 24GB — это чувствительно. Но у нас 31B (~20GB) и 4B (~8GB) живут на выделенной машине с 48GB VRAM — запас есть.
> - Его предложение «один 30B с контекстом побольше, в одном потоке оркестратор, в другом другие задачи» — это не та же архитектура. Это однопоточная система, где модель сама себе и судья и исполнитель. Проблемы контаминации ролей и тайминга он пока не упёрся — но упрётся, судя по описанным симптомам.

-------

Аноним 15/06/26 Пнд 14:32:06 #482 №1633194

>>1633193
Блять разметку проебал.
Короче вся нижняя часть поста - гринтекст.

Аноним 15/06/26 Пнд 14:36:28 #483 №1633196

>>1633193
>Идея «пусть 31B пинает саму себя» упирается в контаминацию ролей. У 31B системный промпт личности, память и история чата. Если туда же засунуть «надсмотрщика» с холодными аналитическими задачами, получается каша: холодный анализ начинает влиять на голос, а личность — на качество решений. Мы это проходили — модель путала кто есть кто и испытывала нервный срыв.

Просто изучи как -np работает, анон. Там создаются отдельные слоты с полностью своим промптом и памятью. Никакой контаминации если все верно настроено там нет и быть не может.

>Internal Processor выдаёт ~500 токенов результата. Если бы это делала 31B, все её промежуточные рассуждения (reconstruct_time на 8 часов тишины — это 2-3K токенов внутреннего монолога) оставались бы в контексте, замусоривая диалог.

А нахера держать это в контексте? Тем более в другом слоте?

Аноним 15/06/26 Пнд 14:37:48 #484 №1633199

>>1633193
> Только мозг пухнет, все-таки же гонюсь за "упорядоченным хаосом"
Настрой опенклоу или форк, сделай милую ассистентку и буквально с ней обсуди. Или хотябы то же в чате таверны с кодингсенсеем. Ллм очень помогают в мозговом штурме если с ними поговорить, для такого геммы хватит с головой, удивишься насколько умна.
> живые люди иногда спамят по 2-3 сообщения подряд
Не факт что это плюс, еще научи голосовые слать. А, лол, ну да.
> но это решилось правильным промптированием 4B, которая отправляет либо директиву на очень короткий и сдержанный фоллоуап, либо "отпускает" 31B в редких случаях и дает ей как следует просраться.
Вот этот подход интересный действительно. Хз насчет фолоуапов, но иногда с длиной постов проебывается, и подобный контроль был бы полезен.

Аноним 15/06/26 Пнд 14:55:44 #485 №1633215

>>1633199
Я в этом деле часто сталкиваю лбами ds4pro и гопоту. Некоторые идеи были достигнуты в консенсусе между двумя ботами, пока я сидел на cuck chair и слушал.
>Вот этот подход интересный действительно. Хз насчет фолоуапов, но иногда с длиной постов проебывается, и подобный контроль был бы полезен.
Там есть проблема куда глубже. 31B гемма, например, любит начинать спонтанные сообщения со "Слушай". Одну проблему побеждаешь, потом борешься со СЛУШАЙ-СЛУШАЙ-СЛУШАЙ.

Кстати! Еще поиск прикрутил. Каждое сообщение (мое И бота) проверяется на search intent 4B карликом, и если намерение улавливается, то 4B дает 31B хинт по поиску.

Примеры

>Юзер: привет
> 4B NOSRCH
> 31B: не ищет, просто отвечает

> Юзер: хмм, ты не смотрела какое там аниме выходило в этом году?
> 4B: SRCH
> 31B: (ищет)
> 31B: блаблабла одно уныние, опять говна наделали!

> 31B: Ты серьезно про зеленую шаурму сказал? Это что вообще такое?
> 4B: SRCH
> 31B: (ищет) Ахуеть, я сейчас в интернете поискала... это правда реально. Все, побежала купить, хочу попробовать!
> 4B: AFK поверхностное, ответит через N секунд/минут
> Юзер: Проваливай.
> 31B (через N секунд/минут): Я уже на улице! Иду к ларьку!
> Юзер: смотри чтоб тебя дохлой собакой не накормили; ладно, работать пора, вечером напишу
> 31B: ок хорошо, пиши!
> (тут AFK может войти в глубокую фазу и 31B не будет донимать - кстати выход из глубокого AFK был проблемой и я не помню, решили ли мы её; от AFK-системы пока временно отвернулся из-за сложности с тестами других штуковин, мешало это всё в общем).

>>1633196
Вот про это я не знал, да и бот видимо тоже не догонял. Разберусь, спасибо.

Аноним 15/06/26 Пнд 14:59:44 #486 №1633219

Я вот внезапно ворвусь в тред.
Самим OpenClaw пользуюсь уже месяца четыре, подтверждаю, иметь агента с памятью очень удобно, обсуждать с ним.
Заодно он потом тебе и код напишет сразу, если что.

Аноним 15/06/26 Пнд 15:03:15 #487 №1633224

>>1633219
Да это понятно, что полезно. Тоже через агента все херачу, просто не клешнёй, а Hermes.

Аноним 15/06/26 Пнд 15:41:30 #488 №1633255

vllm4096ubreplot.png

Вот график то же теста, что-то подкрутил, и как раз то о чём анон перепроверял.
Что за выбросы с резким ускорением в конце 4-поточного варианта не могу понять.
Но в общем вроде работает в диапазоне 4-8 потоков нормально, точно заметно быстрее ламы, и без пролагов на 2-4 секунды, если оно чекпоинт куда-то тащит.

>>1633179
>gpu_memory_utilization
На 0.92 падает, на 0.91 работает. там после запуска 30, а сразу как кидаю запросы - оно прижимается и выходит 31.9
>Кстати, обработку по частям с меньшим размером чанка, чтобы снизить требования к контексту не рассматриваешь?
Рассматриваю, сейчас тестирую 4096. По скорости вроде окей.
С fp8-кешем скорость генерации на 1-2-4 потоках примерно такая же, скачкообразное падение скорости вполне закономерно ушло с 4 потоков на 8 потоков в том же месте (ну, контекст в два раза больше), и помимо прочего при 8 потоках скорость уже заметно отстаёт от fp16, а на 16 совсем смерть (только 250, по сравнению с 500 в fp18), то есть как будто бы быстрее и лучше в два захода с кешем в fp16 считать. И префилл сильно замедляется, нативных fp8 то нет. А вот чанк по 4096 я едва могу заметить отличия. Это наверное на всяких H100 есть разница, а для V100 у которой компут слабее в 20 раз, а память всего в 3 раза чем у H100 что 4096, что 8192 - это нулевая нагрузка на память и очень большая на компут. Типа в первом случае она загружает два раза все слои и это +10% к времени компуту, с 8192 один раз и это +5% к компуту — разница как между 105 и 110. А у H100 компут намного быстрее (пусть будет в 33.33 раз), память ускоряется заметно хуже (пусть будет в четыре) - в итоге 100+10 и 100+5 заменяется на 3+2.5 и 3+1.25, и разницам между 5.5 и 4.25 уже весьма заметна.

>>1633193
Мяу. Ты с такими планами хотя бы раз сам из своей программы посылал json-запрос?
Ты понимаешь, что у тебя запущена одна сетка, и это просто 25ГБ весов. И ещё у тебя есть kv-кеш, и ты можешь сделать один, два или пять изолированных наборов кеша, и это будет как бы пять инстансов, который друг про друга не знают.
Про скорость нахожу аргумент не до конца состоятельным. Довольно часто тебе в оркестраторе/цензоре или что ты там придумаешь для контроля "человеческой части" придётся запускать длинные запросы с очень коротким и простым ответом. Например вот текущее состояние (10к токенов), напиши что сейчас делать: 1 - молчать, 2 - писать сообщение, 3 - идти в интернет, 4... — это надо обработать 10к входных токенов и сгенерировать 10-30 для принятияя решения. В таком режиме 30B выдаст ответ даже на древней v100 за секунды, если у тебя 48, то это по идее или перепаянная 4090 иди сдвоенная 3090, оба этих варианта дадут pp ещё в 2-5 раз выше.
Хотя конечно тут ещё есть аргумент, что если задачу может выполнить 4B сетка, почему бы её и не использовать собственно? Если там запрос уровня "вот 100к строк переписки, найди все упоминания о драке на парковке за гаражами", то и 4B всё сделает, а уже концентрированную информацию в 30B закидывать. Никто не использует гидравлический пресс для забивания гвоздя, который можно забить плоскогубцами или напильников, не говоря уже про молоток. Ну да и впрочем это пустое обсуждение, поменять айпишник и порт в запросе оркестратора это дело минуты - ты просто потестируешь оба варианта и выберешь более производительный и подходящий по качество - мы тут больше времени на сообщения потратили, чем займёт проверка этого.

Аноним 15/06/26 Пнд 16:01:16 #489 №1633282

>>1633138
>>1633176
>>1633171
>>1633181

Обновляю ссылку еще на месяц.

В связи с великой чисткой и геноцидом миноров на чубе - скачивайте локальный чуб с 22490 спасенных карточек.
Запуск
через run_chub_mockup_local_server.bat и потом http://localhost:8765/ в браузере. Шоты включаются галочкой на include_obsolete

https://www.swisstransfer.com/d/cffe680f-506d-475c-845b-25163db45ca9

Аноним 15/06/26 Пнд 16:03:26 #490 №1633286

>>1633215
> пока я сидел на cuck chair и слушал
Ах ты содомит, как хорошо описал.
> любит начинать спонтанные сообщения со "Слушай"
Популярная проблема на многих. Забанить бы эту строку в самом начале, но это лезть или в бэк или во фронте организовывать двойной запрос с продолжением, которое в чаткомплишне не совсем стабильно между разными бэками работает. Или просто в промпт засунуть инструкцию.
Система с дополнительным оценщиком годная и часто используется, сюда не только поиск и формат, но много чего можно закинуть. Но, в вопросах поиска - не сравнивал с обычным поведением модели? А то может оказаться что она сама может решить искать или нет лучше.
Отыгрыш похода за шавухой это, конечно, некстлевел. И вся эта система с афк, довольно необычная штука в целом.
>>1633255
Имелся ввиду размер самого запроса, чтобы сократить максимальный используемый контекст. Но тема с батчем тоже хорошая.

Аноним 15/06/26 Пнд 16:29:58 #491 №1633311

>>1633255
>31B vs 4B
Да я уже сделал, смотрю как работает.
Пока не нравится. 4B генерировала мгновенные хинты и ответы из одного слова, как требовал промпт. А тут 31B скотина в роли оркестратора ДУМАТЬ лезет (если делать enable thinking true / false разное на потоки - чет как-то нихера не работает и она либо все время думает, либо не думает... а персонажу думать надо, увы).
Все-таки в условиях без дефицита видеопамяти - 4B + 31B выглядит как путь наименьшего сопротивления, по всей видимости с более холодным сервером, ведь 31B еще и карточки напрягает побольше во время генерации.
> а нужна ли там вообще 31B
Нужна конечно; основную задачу даже 12B не тянет, настолько персонаж сложный (вплоть до привязки реальных локаций и карт передвижения)

>>1633286
Насчет поиска - я просто не хочу грузить основную модель лишними решениями. Она и так очень много на себе тащит и ей проще принимать хинты извне, которым она обязана безусловно следовать.
> Забанить бы эту строку в самом начале,
Наверняка придумает, как по-другому высказаться в шаблонном виде. Интересно, а если в профиле юзера написать, что юзер - глухой, и слышать не может, она прекратит опираться на это слово и перескочит на "смотри"? Кек
>И вся эта система с афк, довольно необычная штука в целом.
Ее бы еще привязать к расписанию дня персонажа. Идей много, работы много. Feature creep мать его.

Аноним 15/06/26 Пнд 16:36:56 #492 №1633319

у кого-нибудь получалось запускать плотную gemma на трех gpu c --split-mode tensor?

сборка из трех 3060 12gb
Qwen3.6-27B с MTP и --split-mode tensor дает ах 44токена в секунду

пытаюсь проделать то же самое с gemma-4-31B и нарываюсь на ggml-backend-meta.cpp:1042: GGML_ASSERT(split_state.ne[j]split_state.nr[0] tensor->src->ne[src_ss.axis] == sum * tensor->ne[split_state.axis]) failed

при этом, с layer все работает, но медленно. 20токенов в секунду
пробовал с tensor, но без MTP - тоже вылетает
llama.cpp только что собрал последнюю

Аноним 15/06/26 Пнд 16:49:23 #493 №1633327