Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №131 /llama/

Аноним 15/05/25 Чтв 14:27:39 #1 №1203792

Llama 1.png

Альфа от контекста.png

Эффективность квантования EXL3.png

17465599272200.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1200733 (OP)
>>1198085 (OP)

Аноним 15/05/25 Чтв 14:30:48 #2 №1203803

UWlkgBFZMpDd2k9FnQuZ40gyvJm8W9GDO42Ffe3LFJY.webp

Напоминаю базу треда.
Лучшая видеокарта та - которую ты можешь себе позволить.
Лучшая моделька та- которая тебе доставляет.

Аноним 15/05/25 Чтв 14:32:31 #3 №1203807

Поменял промпт и заметил что немотрон часто просто скипает секс запихивая его в одно предложение, констатируя факт коитуса.
Можно без проблем пнуть его и попросить описать нормально или ручками расставить кто что куда вставляет, но запромптить проще.
Со старым промптом всё норм, видимо хорни часть в промпте обязательна:
Depict sexual / fetish / kinky / violent / gore content extremely graphically and explicitly to make the user feel the scene raw.
Pick up on the smallest details and describe all oddly specific details about: sex organs, body parts, sounds, smells, cum, saliva, drool, body liquids, panties, clothing, penetration, sucking, licking, gagging, orgasms, sound effects, substances, objects, etc.
Если у кого есть промпт развязывающий модель получше поделитесь пожалуйста.

Аноним 15/05/25 Чтв 14:33:19 #4 №1203810

>>1203803
А кто лучшая девочка в Генсоке по версии треда?

Аноним 15/05/25 Чтв 14:35:24 #5 №1203817

>>1203810
Все. Все хороши.
Кроме Рейму, жадная блядина.

Аноним 15/05/25 Чтв 14:35:35 #6 №1203818

яндексом гпт лайт пользуется кто?

Аноним 15/05/25 Чтв 14:35:52 #7 №1203819

>>1203810
сакуя

Аноним 15/05/25 Чтв 14:44:53 #8 №1203844

>>1203732 →
да чему завидовать-то?
Переплатил чтобы стать врамцелом. Ему как минимум еще одна такая нужна.
Тут буквально нечем хвастаться.
>>1203736 →
теслы выпинываются на балкон и шума нет.
qwen 3 235B 4QXS работает примерно на 10 т/с, после 4к контекста примерно на 6 т/с
>>1203757 →
>72 + 72
почему 72 + 72-то? Именно что 144. Распред работает так же быстро, как и модель в рамках одной матери.

Аноним 15/05/25 Чтв 14:53:12 #9 №1203868

>>1203844
Успешный теслашиз насколько преисполнился, что называет времцелом 48-гигового. Чел захотел и купил, может пользоваться главными благами а не аутотренироваться что мое с 4т/с - не залупа. И теперь ты его решил захейтить, ну не пиздец ли.
> Распред работает так же быстро
Не также, в нем хватает своих компромиссов и проблем.

Аноним 15/05/25 Чтв 14:55:47 #10 №1203876

>>1203868
>Не также, в нем хватает своих компромиссов и проблем.
ну назови компромисы и проблемы распреда, умник. Только пользуйся при ответе своей головой, а не нейронкой или гуглом.
>Успешный теслашиз насколько преисполнился, что называет времцелом 48-гигового
не важно, что я теслашиз. Важно что 48 гигабайт - это врамцел. Ты не смещай акцценты.
Не врамцел начинается от 96.

Аноним 15/05/25 Чтв 14:56:28 #11 №1203879

Проверка : отсутствие
Действие : ожидание
Включение программы ожидания

Ожидание семплеров для command-r

Я не гордый, я не принципиальный. Я подожду.

Аноним 15/05/25 Чтв 15:01:46 #12 №1203885

>>1203876
>Важно что 48 гигабайт - это врамцел.
Это какой то твой аутотренинг? Это ты врамцел крохобор, которому не хватает врам и ты его насобирал по помойкам.
Нормальная современная карта на 48 быстрых гигов это топовый выбор

Аноним 15/05/25 Чтв 15:04:29 #13 №1203893

>>1203885
>Нормальная современная карта на 48 быстрых гигов это топовый выбор
От двух, чувак. От двух.

Аноним 15/05/25 Чтв 15:05:14 #14 №1203895

>>1203876
> назови компромисы
Их нет, шизик третий десяток тредов воет просто из любви к искусству.
> Важно что 48 гигабайт - это врамцел.
Да это ты просто на говно исходишь из зависти, что чел может себе позволить качественный инфиренс, а не собирать трижды обдроченную некроту, чтобы годами аутотренироваться о ее небесполезности.
Твоя токсичность только ускоряет следующий прогар, после первого раза нужно было чему-то научиться.
И не забывай что у тебя тоже 48 если откинуть ржавый мусор, себе в ногу стреляешь.

Аноним 15/05/25 Чтв 15:14:23 #15 №1203914

>>1203893
Ну он и писал что если понравится и захочется то еще купит, какие проблемы?
Он мог так же как и ты собрать из мусора и хлама эти 72+72 врам, деньги у него были. То есть возможность собрать столько врам у него была, он сознательно выбрал нормальный вариант.
Врамцел тот кто хочет врам, но не имеет возможности, а не тот кто имея выбор берет то что считает нужным.
А тебе бы пора задавить свою зависть и жадность, твое желание унизить анона показывает что это тебя задело.

Аноним 15/05/25 Чтв 15:16:22 #16 №1203919

image.png

>>1203885
копиум врамцела
>>1203895
да не токсичу я бля, заебал. Купил - дай бог чтоб не сгорела, рад за человека. Но как я и говорил, какой смыфсл в 50т/с если ты крутишь лоботомитов?

Аноним 15/05/25 Чтв 15:25:55 #17 №1203935

>>1203876
> Не врамцел начинается от 96.
А что сейчас можно запустить на 96GB из того что нельзя запустить за 72GB?

мимо врамцел с 3x3090 и теслой, валяющейся уже полгода в коробке

Аноним 15/05/25 Чтв 15:27:57 #18 №1203938

>>1203803
Я мог бы себе позволить 5090, но трачусь на зубы (((

Аноним 15/05/25 Чтв 15:30:15 #19 №1203940

>>1203935
ну... ты не врамцел... у тебя же есть 96 гб.
Сам же понимаешь, чем лучше квант - тем лучше ответ. Зачем есть капусту когда есть картошка ограничивать себя вторым квантом если можно запустить четвертый?

Аноним 15/05/25 Чтв 15:32:12 #20 №1203946

>>1203844
>работает примерно на 10 т/с, после 4к контекста примерно на 6 т/с
Эм, если 6 токенов это на позорных 4к, то 10 токенов это что, с пустой модели первый токен спрашивать? И зачем называть эти числа, когда меньше 16к контекст не контекст, и в него даже не каждая карточка с инструкциями влезет?
>>1203876
>Не врамцел начинается от 96.
Это что, аицг протекает что ли? Какие-то блядь пацанские понятия.
Норма это 24 гига, то, что можно набрать недорогой одной картой. Остальное это бояре, и не так уж обязательно. Вот 8 это да, боль.
>>1203879
Забей.

Аноним 15/05/25 Чтв 15:35:36 #21 №1203951

>>1203919
>смыфсл в 50т/с если ты крутишь лоботомитов?
Смысл в 96 врама если ты крутишь лоботомитов?
Дипсик локально запустил уже?

Аноним 15/05/25 Чтв 15:38:32 #22 №1203953

>>1203879
Simple-1, min-p, что угодно из пресетов. Он не лупится, чтобы как-то давить его штрафами и драем, не унылый лоботомит чтобы включать шизосемплинг и т.д., тут больше системный промт и прочее важны будут. Есть простое правило: если модель требует каких-то особых семплеров - это убитый шизомердж от васянов. Может когда-нибудь это изменится, но пока более чем справедливо.
>>1203919
> да не токсичу я бля
> пост токсичности и аутотренинга
22б - не лоботомит, ага

Аноним 15/05/25 Чтв 15:40:22 #23 №1203956

>>1203946
>16к контекст не контекст
справедливо. тем не менее, для рабочих задач этого может быть достаточно. Для рп конечно маловато.
Ну ничего, потихоньку буду еще карты докупать.
>Норма это 24 гига
ну привет, геммабой

Аноним 15/05/25 Чтв 15:47:25 #24 №1203968

>>1203956
>ну привет, геммабой
Я так то жду нового ларжа напрасно, мистрали уже мертвы, и да, сейчас гоняю гемму, хоть и на двух 3090, зато без квантования контекста и в 8 битах.

Аноним 15/05/25 Чтв 15:48:43 #25 №1203969

>>1203968
нуууу..... этот геммабой точно уже все понял......

Аноним 15/05/25 Чтв 15:49:16 #26 №1203970

>>1203940
На самом деле у меня ещё есть 4090, но это для основной пеки.

Да просто 3x3090 можно на обычной потребительской мамке завести на приемлемых скоростях (большой мистраль и его тьюны в кванте exl2 4.0bpw на 8-11т/сек), поэтому мне было достаточно основную пеку обновить, а отшмётки на риг отправить. С 4+ картами кроме самих карт надо ещё железо докупать и хз что по скоростям выйдет - это уже доп. уровень трат и пердолинга, в который не хочу ввязываться не видя явного профита.

Аноним 15/05/25 Чтв 15:50:40 #27 №1203971

>>1203968
>ждет ларжа
>гоняет гемму
>Я так-то жду новую феррари, но гоняю на ласточке-пятерке, зато все ремонтирую сам и запчасти копеечные.

Аноним 15/05/25 Чтв 15:50:47 #28 №1203973

>>1203956
>для рабочих задач этого может быть достаточно.
Для рабочих задач нужны скорости, и твоих 8 токенов в секунду не хватит

Аноним 15/05/25 Чтв 15:52:18 #29 №1203979

>>1203953
> если модель требует каких-то особых семплеров - это убитый шизомердж от васянов. Может когда-нибудь это изменится, но пока более чем справедливо.
Слушай, а спасибо. Действительно мне приходилось ебаться с семплерами исключительно на васян мержах.

Аноним 15/05/25 Чтв 15:57:00 #30 №1203987

>>1203971
>новую феррари, но гоняю на ласточке-пятерке, зато все ремонти
Эм, ларж уже старый, и по сути наноразрыв в производительности от геммы не оправдывает многократного роста потребностей в ресурсах.
Так что тут скорее старый грузовик и новый спорткар, который быстрее картошку отвезёт, потому что быстрее едет, а тонна мне нахуй не нужна победа в уебанских аналогиях будет за мной.

Аноним 15/05/25 Чтв 16:00:08 #31 №1203996

>>1203987
На самом деле я тоже кое чего не понимаю.
Если ты гонял милфу мистрали, то что мешает гонять command-a ?
Ты понимаешь как это странно выглядит ?
>Я использовал 123b, но перешел на 27b.
Что блять ?
И не надо говорить что комманд-а плоха. Она пиздата. Я немного на работке покрутил, поплакал что не могу дома поднять и забил.

Аноним 15/05/25 Чтв 16:02:33 #32 №1204001

>>1203970
>С 4+ картами кроме самих карт надо ещё железо докупать и хз что по скоростям выйдет - это уже доп. уровень трат и пердолинга, в который не хочу ввязываться не видя явного профита.
Да. Чувствую, что ригами я наелся. После того, как получил 10+t/s на 235В с частичной выгрузкой в RAM, понял, что делать риг для моделей такого размера (а Дипсик ещё втрое больше) просто нет сил. Конечно промпт процессинг всратый, и будет всратым даже на 8-канальной DDR5 (для Дипсика так точно). Тут только ждать новое железо. Или новых технологий, чтобы на актуальном железе модели начали крутиться быстрее.

Аноним 15/05/25 Чтв 16:02:38 #33 №1204003

>>1203987
>едешь на спорткаре
>извините, мы не можем повернуть налево, это противоречит общечеловеческим моральным принципам
И вообще, ты сравниваешь 123 с 27, называя это наноразрывом, бредишь что ли? Катай тогда 8b, между ними и 27 вообще ничтожна разница по твоей логике, зато скорость-то какая!

Аноним 15/05/25 Чтв 16:11:20 #34 №1204010

>>1204001
> DDR5
у епиков 12 каналов

Аноним 15/05/25 Чтв 16:14:31 #35 №1204013

Подскажите, пожалуйста, что важнее - параметры или квант? Выбирая модельку, которая влезет в рам, на что в первую очередь ориентироваться? И какие разумные ограничения снизу у этих двух параметров?

Аноним 15/05/25 Чтв 16:16:06 #36 №1204018

>>1203956
> геммабой
Слово - детектор, хотя учитывая что его форсит теслашизик - неудивительно.
> для рабочих задач
Тут так много работяг, которые рассуждаю про "рабочие задачи" и пишут бред, но пока никто не привел примера этих самых задач. >>1203973 прав, для потоковой обработки, автокомплита кода и подобного нужны скорости. Это справедливо почти для всего, ибо ллм прежде всего применима для массовой обработки чего-то простого, или в качестве инструмента автоматизации некоторых действий для помощи пользователю. Если приходится ждать сначала 10 минут обработки контекста, а потом еще 5 минут ответа - грош цена такой помощи. А в каких-то дохуя комплексных вопросах, где хороший ответ мог бы окупить время ожидания - ни одна из сеток не может себя достойно проявить. Написание прозы с дальнейшим рефакторингом разве что, и то будет специфично.

Возвращаясь к "работам" - васяны под этим прежде всего понимают обращение к ассистенту в фоновой вкладке, суета ради суеты.
>>1203970
База, моделей не то чтобы ассортимент чтобы много городить, а для поМОЕшного копиума ресурсозатраты непропорциональны результату. Для рп оно точно не стоит того, это даже не уровень 70б, хотя и плохим не назвать. Потом подробнее отзыв напишу.
>>1203987
> наноразрыв в производительности от геммы
Все зависит от задачи. Гемма оче хороша в нлп и там действительно нет смысла, тут вообще на 12б версию стоит обратить внимание. А если рпшишь - разница уже значительна. Это, пожалуй, главный кейс, где нет строгих требований к скорости, качество ответа в приоритете и можно раскрыть потанцевал больших моделей.

Аноним 15/05/25 Чтв 16:17:10 #37 №1204019

>>1204010
>у епиков 12 каналов
Это не помогает. Увы.

Аноним 15/05/25 Чтв 16:20:33 #38 №1204023

>>1204018
ты же понимаешь, что любой автокомплит кода тебе обязательно надо прочитать и осмыслить? А это еще медленнее, чем чтение при рп.
Или ты копипастишь из модели сразу в прод? Тогда твой прод долго не проживет, я гарантирую это.
Даже дипсик хуйню в коде пишет. Поэтому без проверки - никак. Только ньюфаг может думать, что нейронка - это красная кнопка "зделать заебись".
Скорость нужна только в одном случае - если ты как обезумевшая макака свайпаешь ответы.

Аноним 15/05/25 Чтв 16:23:51 #39 №1204028

Просыпаешься в свой выходной день. Думаешь, как все прекрасно и замечательно, что придешь сейчас в тредик и пришлешь анонам новый пресет, в этот раз на Коммандера или ГЛМ4. Да еще и карточек впридачу. Видишь, что уже за ночь и перекатиться успели. "Наверно, что-нибудь крутое обсуждают."
Заходишь в тред, а там...
Анон все еще вымаливает пресет, несмотря на то, что ему уже раза 3 дали наводку и два раза прислали сэмплеры
Магнумошиз меряется врамом и выебывается на анона, что поделился своей радостью с тредом (поздравляю с видюхой, анон!)
Бесконечная вечная битва Мистраля Лардж и Коммандера А
И это даже не выходные.

Тяжело вздыхаешь и закрываешь тредик.

Аноним 15/05/25 Чтв 16:24:23 #40 №1204029

>>1204023
Скорость нужна везде, и чтением промпта на теслах тоже не похвастаешься.
Агенты, боты, работа с большими объемами данных - все это требует скорости, там даже 30 т/с мало.
Ну и с кодом так же, скорость чтения нужна для обработки большого кода, скорость генерации с тсинкингом особенно, тоже должна быть хотя бы 15т/с

Аноним 15/05/25 Чтв 16:25:42 #41 №1204032

>>1204013
> параметры или квант?
аксиома Эскобара. модель с 228B но в кванте 1.58 бит будет генерить такую же хуйню, как и модель с 2.28B но в FP16
> разумные ограничения снизу
12B, Q4

Аноним 15/05/25 Чтв 16:26:58 #42 №1204034

>>1204023
Разумеется, это все лишь примитивная заготовка. Просто это хороший пример применения ллм в рабочем процессе.
> Или ты копипастишь из модели сразу в прод?
Не айтишник, и слава богу.
> Скорость нужна только в одном случае
Ну ты попробуй вместо типичного корпо-экспириенса даже в формате чата таверны что-то поспрашивать и поделать, когда у тебя обработка промта и генерация в 50 и 20 раз медленнее чем должна быть. Получишь такой незабываемый опыт, что пока эта херь пропердится - расстроишься и забудешь о чем спрашивал. Можно ставить работать фоном и делать другую задачу, но это очень напряжно и в сложных ситуациях будешь постоянно упускать мелочи и действовать неэффективно.
>>1204028
почесал за ушком "Не грусти, анонче, бывало и похуже"

Аноним 15/05/25 Чтв 16:27:32 #43 №1204035

>>1204028
Но при этом в треде ходят карточки которые и сбрасывает тот анон, который и запрашивает семплеры.
И единственный вменяемый ответ, это с симпл ван, за что тому анончику пасиба.

Иногда лучше молчать, чем писать то что ты собираешься делать, но не делаешь. Это будет честно.

Аноним 15/05/25 Чтв 16:32:18 #44 №1204045

>>1203970
>Да просто 3x3090 можно на обычной потребительской мамке завести на приемлемых скоростях (большой мистраль и его тьюны в кванте exl2 4.0bpw на 8-11т/сек)

Выглядит как маняоправдания, какое тебе там космическое железо понадобилось, райзер за 500 рублей лень что ли купить? Да даже если ты адепт х8 линий, то покупаешь копеечную майнерскую плату, тупо ставишь ее на стол и втыкаешь 5 карт (есть вроде даже на 8). Все, готово нахуй, старшие кванты ларжа\комманд-а\квен 235 в 10+ т\с на тарелочке.

>>1204029
Пока что единственные задачи для локалок, как показывает практика треда - это кум и переводы от мелкосеток. Зачем тут обсуждать кодинг и прочее ассистентское говно, если даже копрораты в них посасывают периодически? Или вы тут все из йоба-НИИ-ФБР-ФСБ, что не дай бог ваш hello world увидят на серверах швитой\поднебесной?

Аноним 15/05/25 Чтв 16:34:09 #45 №1204049

>>1204045
> Выглядит как маняоправдания теслашиза
Дисклеймер к посту, насколько же это жалко.

Аноним 15/05/25 Чтв 16:34:47 #46 №1204051

>>1204045
>Пока что единственные задачи для локалок, как показывает практика треда
Это лишь то что тут упомянули аноны, и тредом мир локалок не ограничен. То что ты этим не занимаешься, не значит что никто этого не делает.

Аноним 15/05/25 Чтв 16:35:47 #47 №1204054

Это нормально что мне бот из Наруто выдал четвертую стену упомянув организацию "Акатсуки" - не имея при этом нигде её в карточке и вступительном сообщении?

Аноним 15/05/25 Чтв 16:36:13 #48 №1204055

>>1204049
У теслобоя жопа сгорела и вот мы тут

Аноним 15/05/25 Чтв 16:36:19 #49 №1204056

>>1203996
>то что мешает гонять command-a ?
То, что я его не скачал и не пробовал, лол. Как то времени нет. Гемма уже заведена, настроена и даже привычна.
>>1204003
>соя
Везде в той или иной мере, и везде обходится примерно одинаково.
>И вообще, ты сравниваешь 123 с 27, называя это наноразрывом, бредишь что ли?
Ты ещё йамл вспомни, целых 100B отборного говна! Поколения всё таки разные.
И да, чем больше сетка, тем меньше отдача, поэтому разница между 8 и 27 сильно больше, чем между 27 и 123 (минус 50 на старое поколение).
>>1204018
>А если рпшишь - разница уже значительна.
В пользу кого, лол? У геммы хорошая работа с контекстом, а не первые и последниеи 512 токенов, а на 10к между ними поебать.
>>1204023
>ты же понимаешь, что любой автокомплит кода тебе обязательно надо прочитать и осмыслить?
И это тоже в минус. Но 10 минут чтения против 10 минут чтения + 10 минут генерации это 2 разные вещи.
>>1204045
>Или вы тут все из йоба-НИИ-ФБР-ФСБ, что не дай бог ваш hello world увидят на серверах швитой\поднебесной?
Кстати, если по РАБоте, то обычно НИИ ХУЯ сами обеспечивают железом с моделью.

Аноним 15/05/25 Чтв 16:37:04 #50 №1204058

>>1204054
>Это нормально
Да, у модели есть знания о мире помимо контекста (ВНЕЗАПНО).

Аноним 15/05/25 Чтв 16:38:59 #51 №1204060

изображение.png

>>1204056
>не скачал
Через 15 минут исправлюсь, так уж и быть.

Аноним 15/05/25 Чтв 16:42:02 #52 №1204064

>>1204055
друг мой ньюфажный, детектить горелые жопы - плохой тон.
Я вообще уже не отвечаю, вы сами тут друг между другом выясняете кто пасасал писос.
Когда у меня сгорит жопа - поверь, ты узнаешь, я сам об этом скажу, как я сделал когда у меня карта сгорела.
А сейчас - поводов горения никаких нет.

Аноним 15/05/25 Чтв 16:42:40 #53 №1204066

>>1204060
То то же.
Я слежу за тобой >_>

Аноним 15/05/25 Чтв 16:43:55 #54 №1204068

>>1204066
>Я слежу за тобой >_>
Так это из-за тебя у меня скорость скачивания просела с тарифных 800 мегабит до жалких 500?

Аноним 15/05/25 Чтв 16:44:30 #55 №1204069

>>1204064
Шизик, у тебя сгорела жопа, потому что ты начал обзывать всех врамцелами и всячески пытаться повысить свою пострадавшую самооценку.
Если не хочешь что бы другие поняли что тебя что то задело - больше так не делай.
Как не виляй теперь жопой ситуация уже понятна и твои оправдания мне не нужны.

Аноним 15/05/25 Чтв 16:46:22 #56 №1204072

image.png

>>1204069
bruh...
температурку-то понизь, а то галлюцинируешь

Аноним 15/05/25 Чтв 16:46:52 #57 №1204073

>>1204055
Тред еще не начался, а сколько треша устроил. Нужно помнить базу >>1203803 и игнорить или хуесосить долбоеба, тогда успокоится.
>>1204056
> В пользу кого
Таки лардж. Гемма не плоха, для своего размера отличная девочка и в целом молодец. Но в сложных и запутанных чатах уже проскакивают оговорки и мелкие ошибки, которые если упустить быстро набегают снежным комом. Большой мистраль сохраняет сознание дольше и точнее подмечает некоторые мелочи. Кум сочнее, поговорить или разнообразить можно не хуже геммы, если не юзать всратые мерджи офк. Другой уровень внимания так просто не перебить поколениями, хоть модели начинают делать более детальные и проникновенные ответы, эта мишура быстро спадает, когда она не ориентируется в происходящем. Наилучший пример - дипсик, в рп часто не способен осмыслить свой же ризонинг.
> Поколения всё таки разные.
Где-то непобежденный опущ спрашивает у потомков, как они себя показывают в рп.

Аноним 15/05/25 Чтв 16:46:54 #58 №1204074

>>1204068
<_< Уже не слежу.

>>1204069
>>1204072
Горячие нейронные парни, ну серьезно. Стапх.

Аноним 15/05/25 Чтв 16:50:46 #59 №1204080

>>1204073
А как тебе немотрончик?

Аноним 15/05/25 Чтв 17:00:50 #60 №1204089

>>1204051
>Это лишь то что тут упомянули аноны, и тредом мир локалок не ограничен
Зато аноны упоминали, что этот тред - фронтмен в русскоязычном коммьюнити ллм. Если есть задачи, которые тут не упоминали, значит это либо залупа говна, либо игрушка на пару вечеров.

>>1204056
>Везде в той или иной мере, и везде обходится примерно одинаково.
Ну-ну, копиус максимум
>Ты ещё йамл вспомни
Так мы говорим о хороших сетках, что это за проход в говно?
>минус 50 на старое поколение
Что блять, откуда эта шиза? Давай я скажу, что гемма - соевая параша, и это минус 10B к количеству параметров.

Аноним 15/05/25 Чтв 17:07:25 #61 №1204101

думал подрочу на терапевтическую гемму txgemma обмажусь лекарствами, но она оказалась каким-то лютейшим лупом слопа

Аноним 15/05/25 Чтв 17:08:26 #62 №1204103

>>1204074
>Горячие нейронные парни, ну серьезно. Стапх.
Трудно остановится и не пнуть шизика по больному месту

>>1204013
>Подскажите, пожалуйста, что важнее - параметры или квант?
Если у тебя влазит большая сетка в 4 кванте то бери ее, если не влазит то попробуй 3 квант.
Если и она не влазит/или начинает плохо работать, лучше взять модель поменьше в хорошем кванте, ну как то так.

>>1204089
>Зато аноны упоминали, что этот тред - фронтмен в русскоязычном коммьюнити ллм.
Кек, это очень маленькая часть общей комьюнити, она не показательна.

>Если есть задачи, которые тут не упоминали
Значит местные 2,5 анона о них не знают, либо просто не говорят. Ты просто не в курсе.

Аноним 15/05/25 Чтв 17:10:42 #63 №1204110

>>1204103
>Значит местные 2,5 анона о них не знают, либо просто не говорят. Ты просто не в курсе.
всё проще, значит это не стоит внимания по причине каловости, о чём и речь
>>1204089
два чая адеквату, всё верно расписал

Аноним 15/05/25 Чтв 17:12:52 #64 №1204113

>>1204080
Нраица, писал уже про него, не для всего но своя ниша есть. Вообще, примерно с 27б и если прощать ллмкам некоторые мелочи, уже начинается уровень комфорта. Когда не западло выбрать модель весом меньше просто потому что хочется примерно ее поведения, давно не использовал или она заходит под сценарий. Но ниже геммы как будто жизни нет, мистраль 24 так и не зашел, может неправильно его готовил.

Аноним 15/05/25 Чтв 17:14:29 #65 №1204116

>>1204110
>значит это не стоит внимания
2,5 анонов в этом чате, я так и сказал
Ты не передергивай, тут едва человек 100.
В англоязычной группе того же реддита около 500к членов. Это я не говорю про всякие группы в дискорде и других соц сетях, да и на гитхабе куча проектов с агентами или скриптами.

Ты анон в группе кумеров и их интересы не лежат в этой плоскости

Аноним 15/05/25 Чтв 17:20:15 #66 №1204128

>>1204060
> Q3
meh

Аноним 15/05/25 Чтв 17:21:37 #67 №1204130

>>1204128
Боярин, блять. Я тебя съем.

Аноним 15/05/25 Чтв 17:23:08 #68 №1204132

>>1204103
> это очень маленькая часть общей комьюнити, она не показательна
Где еще есть комьюнити? Хабр - протухшая мертвичина, там мало осведомленных адекватов, но много мнящих о себе теоретиков со знаниями из 21 года. Каналы в телеге - хайпожорство для шизов с шизами в комментариях.
Жизнь есть в группах/каналах немногочисленных разработчиков или тех, кто себя к ним причисляет, и в рабочих чатах цветных мегакорпов этой страны. Остальное - английский разной поломанности, часто с вкраплениями иероглифов.

Стоит отметить что многие местные по совместительству еще фрики, фетишисты, задроты и прочее прочее. Именно такие маргиналы часто двигают прогресс опенсорса и не только. То же справедливо и для англоязычного комьюнити.
>>1204130
Укуси его, можно предварительно не спрашивать.

Аноним 15/05/25 Чтв 17:28:40 #69 №1204139

Хотелось бы узнать какими модельками из последних пользуетесь? Какие ваши любимые? Может есть какие-то, которые вы можете выделить за хорошие ответы и некоторые другие за разнообразие ума несмотря на скудность общего качества?
У меня мощности небольшие, поэтому сижу вот на этом
>magnum-v4-22b.i1-Q4_K_S.gguf
И до сих пор пока получше не видел, если честно. Хотя эта моделька далеко не супер и часто срёт под себя.

Аноним 15/05/25 Чтв 17:29:11 #70 №1204140

>>1204116
Ну так как это отменяет утверждение того анона? Куча каловых проектов с агентами и скриптами. Суть в том, что если бы какие из них реально были полезны, а не игрушечны - в этом треде давно бы трубили. Например, даже тут аноны спрашивали про всякие function calling. Ну и что в результате-то? А его нет результата, никаких восторженных отзывов в стиле "Аноны, это пиздец!!11 у меня свой джарвис на компе!!11". А вот куча срачей по поводу рп и куча восторженных скриншотов - это есть. Где проекты уровня силли таверн на так называемые "другие задачи которые мы всем тредом дружно не замечаем"? Их нет.

Аноним 15/05/25 Чтв 17:30:04 #71 №1204141

>>1204139
> И до сих пор пока получше не видел, если честно. Хотя эта моделька далеко не супер и часто срёт под себя.
Cydonia-v1.3-Magnum-v4 22b еще лучше

Аноним 15/05/25 Чтв 17:33:51 #72 №1204147

>>1204139
Короче, суть такова есть star-command-r. Хорошая модель.
Но тут такое дело

Я регулярно захожу в тред LLM на дваче, и каждый раз спрашиваю, есть ли семплеры на command-r. Каждый раз мне отвечают, нет. Я спрашивал уже раз 150 и 150 раз мне ответили нет. Смысл в том, что отвечает мне один и тот же анон, отвечает с неизменной интонацией. А я каждый раз с неизменной интонацией спрашиваю:
- Семплеры есть
- Семплеров нет.

- Я бы хотел увидеть твои семплеры, можешь поделиться?
- Извини, но я не хочу.

И ведь этот анон, зараза, знает меня идеально в лицо, знает, что я спрошу и знает, что он мне ответит. Но ещё ни разу ни один из нас ни жестом, ни словом не показал, что каждый из нас знает сценарий. Бывает анон спорит с очередным шизом, когдя я захожу в тред, тогда я пишу пару постов, посматривая за ним сквозь свои очки, он равнодушно заканчивает спор, пишет дежурный ответ и возвращается в тред:
- Что вы хотели?
- Мне нужны семплеры.
- Не дам.
- Жаль.

Это очень суровое, по-настоящему мужское противостояние, исход которого не ясен. Очевидно, что каждая сторона рассчитывает на победу. Впрочем, я уже согласен на ничью.

Аноним 15/05/25 Чтв 17:35:48 #73 №1204151

А вот Гусев зачем-то Гемму-12В затюнил. Непонятно зачем - она и так на русском хорошо отвечала. И уж совсем непонятно, почему он не взял 27В. Могла бы послужить основой для мержей нового уровня, а так вряд ли кто захочет.

Аноним 15/05/25 Чтв 17:37:48 #74 №1204154

>>1204140
>Ну так как это отменяет утверждение того анона?
Легко, так как утверждение не репрезентативно и основано на малой выборке.

>Куча каловых проектов с агентами и скриптами.
Это только твоя личная оценка, я считаю иначе.

>Суть в том, что если бы какие из них реально были полезны, а не игрушечны - в этом треде давно бы трубили.
Нопе, тут это быстро заглохло бы. Тут нет кроме пары человек тех кто что то писал даже про код. И я один из них. А ты хочешь про агентов и скрипты.

Тут сборище кумеров, рпшеров и других. По крайней мере это основные темы обсуждения. Если кто тут и спрашивал про функциональный вызов то не получив ответа он ушел, вот и вся разгадка.

Аноним 15/05/25 Чтв 17:41:02 #75 №1204164

>>1204147
Не дам.

Аноним 15/05/25 Чтв 17:42:23 #76 №1204166

template-girl-squinting-at-computer-v0-gih7u9dnqzp81.webp

>>1204164
Жаль

Аноним 15/05/25 Чтв 17:44:29 #77 №1204174

>>1204140
тут исключительно дрочеры, если нужен function calling - иди на реддит в r/LocalLLaMa

Аноним 15/05/25 Чтв 17:48:54 #78 №1204185

>>1204154
>>1204174
Ну вот вы не дрочеры, элита интернационального коммьюнити. Давайте, расскажите про стоящие проекты? Причем я сейчас без иронии или подъеба говорю, если они реально интересны, то может и другие аноны заинтересуются, и в шапку их добавят.

Аноним 15/05/25 Чтв 17:57:19 #79 №1204196

>>1204174
Я и дрочер, и программист-середнячок (мидл)
И ллмки для кода - это хуйня из под коня, даже Геминя и Жэпэтэ. Потому даже не отвечаю на это всё
А остальные задачи вроде перевода не интересны
мимо

Аноним 15/05/25 Чтв 17:59:05 #80 №1204197

>>1204185
> Давайте, расскажите про стоящие проекты?
Большая часть прикладные задачи, из тех что я пользовался :
1)Распознование картинок и файлов и их именование по их содержимому, и распредление по папкам по категориям
2) Я сейчас запилил проект для автоматической оценки переводов сеток, под 250 строк говнокода, работает долго, но результат мне уже дает.
Зачем? Надо.
Ну вобще мне интересно стало поработать с апи, агентами и было желание получить результат не тыкая руками.

Какой универсальный проект ты хотел? Это нужно подбирать из твоих нужд.
Если хочешь джарвиса то я видел штуки 3 похожих проектов, но они не впечатляли.

Вот cline в vs code, это агент и он может сам работать с проектом, есть так же аидер.
Это уже полноценные агенты, я знаю о них так как искал и мне было нужно, я пользуюсь.
А просто из баловства я и не искал.

Если тебе интересно то посмотри в сторону MCP протокола, там есть очень много вариантов программ которые можно соединить через сетку и наворотить что то свое, есть и готовые проекты.
https://github.com/modelcontextprotocol

Аноним 15/05/25 Чтв 18:01:22 #81 №1204199

>>1204166
На самом деле я с радостью скинул бы пресет, но он пока не до конца еще готов. Несмотря на то, что Коммандера я люблю всей душой, с сэмплерами у него все не так просто и однозначно. Особенно у Стар Коммандера. Потому я в поисках Святого Грааля, и времени мало впридачу. Доразберусь - пришлю такой же пресет, какой прислал к Немотрону пару тредов назад. Может даже Пиксельдрейн сделаю, чтобы это все не потерялось, ибо много что скидывал.

Запасай карточки. Это должен быть равноценный обмен.

Аноним 15/05/25 Чтв 18:10:45 #82 №1204214

>>1204199
Чем плох симпл 1 и какой у тебя систем промпт?

Аноним 15/05/25 Чтв 18:17:21 #83 №1204227

>>1204199
>Запасай карточки.
Фетиши на бочку. А то мало ли. Может тебе неторарки подавай, а может тебе для эпичного рп. А может ехал БДСМ через БДСМ.

Аноним 15/05/25 Чтв 18:18:03 #84 №1204230

>>1204214
Симпл 1 - отличный стартовый пресет. Но с Коммандером он не работает, имхо. Не разделяю мнение анона, что можно этой модели любые сэмплеры давать, и она не развалится. Наоборот: мне кажется, не встречал более чувствительной к сэмплерами модели. Тредов 10-15 назад обсуждал с анонами, когда только попробовал его.
Коммандер очень креативный и самостоятельный, но вместе с тем на нем легко словить форматлупы (структура предложений повторяется), персонажи могут повторять одни и те же слова. Когда это не происходит - все просто замечательно, но стоит напороться - нужно менять сэмплеры, выкручивать реп пен, или попросту вычищать контекст. Если поставить большой реп пен или еще как регулировать токены - Коммандер очень глупеет.
Потому я сейчас пытаюсь найти условную золотую середину, при которой он и креативен, и в лупы не уходит. Информации очень мало, даже в англоязычных коммьюнити мало кто использует Коммандера. Это любопытно в целом, там и про Сноудроп, и про ГЛМ мало кто знает. Такое ощущение, что все сидят либо на 12-22б, либо на 70б+ моделях. А здесь, кажется, в основном 32б - 24гб врам пользователи.

Аноним 15/05/25 Чтв 18:19:58 #85 №1204236

>>1204227
Ванильное мороженое. Главное, чтобы карточка была сделана с душой. Кстати, ничего в карточках так не решает, как Example Dialogue. В какой-то момент для себя решил, что без диалогов карточки попросту не стоит использовать.

Аноним 15/05/25 Чтв 18:21:21 #86 №1204240

IMG4384.jpeg

>>1204236
Будет тебе сырок, будет.

Аноним 15/05/25 Чтв 18:22:46 #87 №1204246

>>1204214
Про систем промпт забыл ответить. С ним у меня тоже все сложно на Коммандере: он и к нему чувствителен очень. До сих пор не знаю, через стористринг его подавать или по старинке. Очень разные результаты даже от отного промпта, который подается разным образом. Да и сам промпт постоянно меняю...

Аноним 15/05/25 Чтв 18:24:36 #88 №1204254

>>1204089
>этот тред - фронтмен в русскоязычном коммьюнити ллм
Но отстаёт от англиков, увы.
>Ну-ну, копиус максимум
Да не так уж и сильно копить нужно. Префил это база и ломает 95% сеток остаётся майкрософт фи.
>Так мы говорим о хороших сетках, что это за проход в говно?
В момент релиза был таки неплох в отсутствии конкурентов, просто не доступен с теми инструментами и отсутствием адекватного квантования.
>Что блять, откуда эта шиза?
50 тут конечно чисто рандом, но поколения сеток вполне себе реальны и улучшения таки прослеживаются.
>Давай я скажу, что гемма - соевая параша, и это минус 10B к количеству параметров.
Имеешь право. Но минусани и ларж, он тоже нихуя не базированный в базе.
>>1204116
>В англоязычной группе того же реддита около 500к членов.
Там уже накрутки и боты идут. Тут же может и не 100, но человек 30 за тред отмечаются, а всего через жернова системы прошло более 1000 анонов.
>>1204128
Для больших сеток вполне себе вариант. Ларж я тоже в третьем кванте катаю, и только с 70B позволяю себе четвёртый. Всё таки 2х3090.

Аноним 15/05/25 Чтв 18:30:44 #89 №1204270

>>1202045 →
>Лучше qwen3 30b смотри, его можно даже на процессоре запускать и быстро
Быстро это насколько? 5 т\с или ниже? У меня сейчас 8 т\с

Аноним 15/05/25 Чтв 18:31:56 #90 №1204273

>>1204151
Гусев просто гранты зарабатывает и проедает, реально русик двигают другие.
>>1204196
База.
Мимо другой кодер.

Аноним 15/05/25 Чтв 18:35:49 #91 №1204283

>>1204254
>Там уже накрутки и боты идут.
Даже если там половина боты, то это все еще 250 тысяч человек

> Тут же может и не 100, но человек 30 за тред отмечаются, а всего через жернова системы прошло более 1000 анонов.
Так это за все время, а в один тред человек 100 максимум. И толку?

>>1204270
Зависит от твоего компуктера, до 20 т\с генерации в начале, на 8 средних ядрах и средней 32гб рам.

>>1204273
База, но с оговорками, малополезно для генерации кода за прогера.
Но вот анализ кода и подсказки по всякое ерунде это очень удобно
Давай скажи мне как ты сам с удовольствием пишешь регекс

Аноним 15/05/25 Чтв 18:40:43 #92 №1204304

>>1204283
>Зависит от твоего компуктера, до 20 т\с генерации в начале, на 8 средних ядрах и средней 32гб рам.
У меня 5600 на 3600 памяти, но у меня 16 гб. Если я слои в видимокарту засуну, по идеи разделиться ноша, но тоже никудышно 16+6, пока скачал q3 квант на 14гб

Аноним 15/05/25 Чтв 18:41:01 #93 №1204308

>>1204283
> Но вот анализ кода и подсказки по всякое ерунде это очень удобно
Соглашусь. Приятно новый стек осваивать, когда под рукой есть ллмка, что может проверить синтаксис или логический проеб в приведении типов, например. Но тут и обсуждать нечего, потому в треде не так много обсуждений ллмкодинга и смежных тем.

Аноним 15/05/25 Чтв 18:42:25 #94 №1204315

>>1204283
>Даже если там половина боты
90% не хочешь? Теория мёртвого интернета просто немного опередила своё время, но сейчас чертовски верна.
>И толку?
А какой тут может быть толк?
>Но вот анализ кода и подсказки по всякое ерунде это очень удобно
Ну да. Но тут уже нужна скорость. И не нужны функшн кал линг и прочие обвязки.
>Давай скажи мне как ты сам с удовольствием пишешь регекс
Я ждисоны перекладываю да пункты в выпадающие списки добавляю, получаю нищенские 200к и на том рад.
>>1204308
>Приятно новый стек осваивать
Кстати, нахуя? Сижу на PHP уже 15 лет, нововведений за год меньше, чем в жабаскрипте за наносекунду. Сижу пержу, половина десятилетней давности всё ещё актуальна.

Аноним 15/05/25 Чтв 18:43:42 #95 №1204320

>>1204315
> Кстати, нахуя? Сижу на PHP уже 15 лет, нововведений за год меньше, чем в жабаскрипте за наносекунду.
Ну, я молодой еще :D
Многого не знаю, 25 лет всего. Плюс Шарпист, и локомотив Дотнета пока не останавливается. В качестве хобби игровые движки ковыряю, там тоже много нюансов.

Аноним 15/05/25 Чтв 18:43:46 #96 №1204321

>>1204283
>Зависит от твоего компуктера, до 20 т\с генерации в начале, на 8 средних ядрах и средней 32гб рам.
Нифига, это такое возможно?
Думаю может 64 Гб воткнуть и на проце тогда всё генерить? У меня модельки на моей видюшке то полностью загруженные 22b 4k со скоростью примерно такой же генерят.

Аноним 15/05/25 Чтв 18:48:35 #97 №1204331

>>1204304
Кочай UD кванты, с выгрузкой будет быстрее но там тоже есть нюансы

>>1204315
>90% не хочешь?
Да че уж там, давай сразу 99%, не стесняйся

>>1204321
Там и быстрее может быть если у тебя современный процессор и ддр5, что то около 40т/с.
Там довольно быстро падает скорость, на 16к контекста уже 10-8 т/с генерации останется от 20.
Но опять же, это чисто CPU без выгрузки.
С выгрузкой все веселее, в том числе с чтением промпта

Аноним 15/05/25 Чтв 18:48:38 #98 №1204332

>>1204320
>Плюс Шарпист, и локомотив Дотнета пока не останавливается.
говноедище....

Аноним 15/05/25 Чтв 18:51:55 #99 №1204337

>>1204332
Чё, Рихтера не освоил? Ну бывает, бывает.
Обид не держу.

Аноним 15/05/25 Чтв 18:55:27 #100 №1204341

>>1204337
Я такого только пианиста знаю
мимо

Аноним 15/05/25 Чтв 19:00:31 #101 №1204348

Кумеры, прячемся по норам. Погромисты зашли в тред, скоро они начнут гладить друг другу бэкенды. Берегите жёпь.

Аноним 15/05/25 Чтв 19:02:04 #102 №1204349

17472347352820.png

>>1204348
Мы и есть кумеры. Тебе некуда бежать.

Аноним 15/05/25 Чтв 19:03:41 #103 №1204353

>>1204240
Ты не спеши только. Это раньше выходных будет. Пришлю пресет - пришлешь карточки. Место и время встречи знаешь, и чтоб без хвоста. Иначе сэмплеры выкручу куда не надо.

Аноним 15/05/25 Чтв 19:04:08 #104 №1204354

Не раньше*
Т9...

Аноним 15/05/25 Чтв 19:12:47 #105 №1204361

>>1204304
UD-IQ не бери, IQ только для фулл видеоркат. Они медленные на процессоре или с выгрузкой

Вот твой выбор:
Qwen3-30B-A3B-UD-Q2_K_XL.gguf
Qwen3-30B-A3B-UD-Q3_K_XL.gguf

Аноним 15/05/25 Чтв 19:13:13 #106 №1204362

IMG4072.gif

>>1204349
Живым не возьмете. По одному, падлы, по одному.

>>1204353
На самом деле и с карточками все не так просто. Я как ролевик начинавший с ad&d имею специфичный метод ролеплея. Как раз я противник примеров диалога : и вот почему. Характер это не - аааах, ты такой большой и не nya анон я кошкодевочка - характер это прежде всего теги. Большинство нейронок увидев пример диалога будут хуярить по нему весь текст. Поэтому я поступаю следующим образом. Всегда есть в чате сообщение, которое содержит краткий отдельный синпосис поведения и сюжета, обращенного к системе. К примеру в случае Ремилии Скарлет - нужно отразить, что это харизматичная вампиресса в теле девочки, которая нихуя не девочка и режим ребенка может пропасть.
Поэтому я периодически, в основном после суммарайза (тут главное не суммировать это сообщение) делаю обращение, в духе ООС соблюдай написанное в сообщении 6. Потому что персонаж может устать, он может быть болен и прочее. А ллмке похуй, она все будет шпарить по шаблону, а значит шаблона быть не должно.

Аноним 15/05/25 Чтв 19:16:04 #107 №1204365

>>1204361
Я запустил, достаточно быстро как для 30б, на 18 слоях, но блять.. У нее есть think, так и должно быть или я проебался в чем-то как сделать, чтобы он не выводился мне

Аноним 15/05/25 Чтв 19:17:07 #108 №1204366

>>1204362
Дополню : вот моя любимая карточка, это спизженная с чуба карточка Валери, которая как Красная Шапочка, только нихуя не шапочка. И я там с ней такому гримдарку придаюсь, с экзистенциальным кризисом и страданиями.
Но она весьма кумерская, но иногда я хочу делать шаг в сторону каннибализма, иногда в сторону жесточайшего фемдома, иногда в спасение её от самой себя, иногда в темный лес. И чтобы не ебаться с изменением, я делаю краткое направление в котором надо идти.
И кстати именно тут гемма начинает ебать мистраль так, что алгоритмы трещат. Именно поэтому она умница, а не потому что может в русский.

Аноним 15/05/25 Чтв 19:18:22 #109 №1204368

>>1204365
Добавь в конце сообщения или в карточке /no_think
После этой команды она будет придерживаться простой генерации
Переключиться обратно /think
Удобно сделали, еще бы в таверну рубильник добавили

Аноним 15/05/25 Чтв 19:20:08 #110 №1204373

>>1204362
Важно в системном промпте и/или стористринге обозначить, что это всего лишь пример. Если системный промпт чуть сложнее, чем 100-200 токенов (aka отыгрывай ролевую игру за персонажа), то все будет работать как положено. Не будет твердой привязки к примерам диалога. У меня была кум карточка, в example dialogue поле которой реплики, в которой персонаж почти что домогается юзера, со всеми красочными описаниями. В итоге в ходе ролевой игры персонаж от этого отказался спустя 20 сообщений, никак это не мешало в дальнейшем. Игра в итоге свелась к обычному сфв слайсу.

Почему я считаю важным использовать примеры диалога? Потому что без них модели труднее держать характер персонажа. По моему опыту, примеры работают гораздо лучше тегов или описаний. Реплики должны быть именно такие, которые отражают характер персонажа. И более того, имхо, если примеров диалога нет - все персонажи разговаривают одинаково. Как им ни задавай в описаниях акценты или особенности речи/мышления. Они следуют самым популярным токенам в датасете, и все тут.

Аноним 15/05/25 Чтв 19:23:24 #111 №1204383

image.png

>>1204368
Я поставил, но все равно серет think'ом

Аноним 15/05/25 Чтв 19:23:46 #112 №1204386

>>1204373
> Потому что без них модели труднее держать характер персонажа
Вооот, именно поэтому я и использую отдельное сообщение как чат указание, потому что предпочитаю ручное управление.
Но я попробую для тебя, мне это кажется интересным попробовать. Посмотрим что потом анонсы о карточках скажут.
И тут кстати, неиронично помогают корпосетки, чатжпт ебет когда ему правильно задать вопрос, чтобы он помог сформировать пример.
Потому что та же Ремилия вообще в оригинале на японском общается, а там решает структура японского языка, которую сложно передать. Но чатжпт умненький. Он вывез составление.

Аноним 15/05/25 Чтв 19:25:39 #113 №1204389

>>1204373
> примеры диалога
Это важно, кто спорит то? Но их придумать и написать сложнее чем всю карточку. Даже из генерации выдернуть тот еще квест, надо ведь как ты и описал попадание в характер

>>1204383
Так и будет, это он считай не генерирует ничего. Скрой это в настройках или можно скрипт настроить на удаление
Настройки размышления ищи в 3 вкладке таверны, в А
Какая хоть скорость получилась? При запуске выбирай все ядра процессора ну или -1, считая без гипертрединга

Аноним 15/05/25 Чтв 19:27:41 #114 №1204393

>>1204366
>вот моя любимая карточка
"вот" это где? Спиздил - дай и другим попользоваться.

Аноним 15/05/25 Чтв 19:29:54 #115 №1204396

>>1204393
Поищи в прошлых тредах ссылки на mega.nz это исключительно мои посты. Там мне еще ответили что то в духе : спасибо солнышко, или чет такое. Но я буквально всю папку просто по тегам раскидал и ремильки там, вроде нет, но Валери должна была быть.

Аноним 15/05/25 Чтв 19:36:48 #116 №1204402

>>1204386
> Вооот, именно поэтому я и использую отдельное сообщение как чат указание, потому что предпочитаю ручное управление.
Что в очередной раз подтверждает, что правильного ответа нет. У каждого свой.
Ну в любом случае, вырезать примеры диалога легче, чем их добавить.
>>1204389 прав, что их не так легко придумать и написать.

Аноним 15/05/25 Чтв 19:39:19 #117 №1204405

image.png

>>1204389
Нормальная скорость, только мне кажется это фейковые 30б, хотя пока не проверял. У меня на 12б хуже, сейчас запустил 20 слоев, 8к контекст и все остальное на цпу. think я поидеи скрыл, а может и нет, но сейчас просто показывает <think> /<think>
>При запуске выбирай все ядра процессора
Я всегда делаю 8 ядер на модель и 4 на blas, это много? Лучше просто повысить блас наверное, чем ядра ставить на него

Аноним 15/05/25 Чтв 19:44:11 #118 №1204413

>>1204362
Какой промпт юзаешь для суммарайзинга? У меня все в какое-то говно превращается по типу

ГЛАВНЫЙ ГЕРОЙ ТАКОЙ КРУТОЙ ВОТ ОН КОРОЧЕ ИДЕТ ПО КОРРИДОРУ И...
следующий абзац
И ТУТ В ПОМЕЩЕНИЕ НЕБОСКРЕБА ВРЫВАЕТСЯ ОГРОМНАЯ КРЫСА НА ТОРПЕДЕ
следующий абзац
В ТОТ МОМЕНТ КОГДА ГЕРОЙ НАКОНЕЦ ДОХОДИТ ПО КОРРИДОРУ

Я просто заебался с этой хуйни уже, будто проще и быстрее вручную накидывать. А еще с некоторыми моделями при суммарайзинге у меня там почему-то появляется /think и полотно текста.

Аноним 15/05/25 Чтв 19:46:18 #119 №1204419

изображение.png

>>1204405
>только мне кажется это фейковые 30б
Ну там мозги уровня qwen3 14b, но быстрее.
Учитывай что у тебя так себе квант, 4 квант получше был бы.
Блас как раз таки можно либо равным ядрам модели либо все гиперпотоки туда кинуть, если на видеокарту не скидываешь. Но ты можешь просто оставить равное ядрам.
А зачем ты 8 ставишь? У тебяж 6 ядрер. Ставь 5 или 6.
Так как на пикче сделай и будет скрывать, только плашка останется размышлений.

Аноним 15/05/25 Чтв 19:48:53 #120 №1204427

>>1204413
Руки.
Я же пишу, не стоит на меня равняться, потому что я ролевик и дм. С чашечкой кофе я пишу только то, что мне нужно, убирая хреновые события и тропы, или вырезая кум сцены - заменяя на сухое и они поебались - потому что суммарайз работает как говно.
Лол, анон, у меня в чате часто мои сообщения больше того что выдает ЛЛМ.

Аноним 15/05/25 Чтв 19:50:36 #121 №1204429

>>1204427
Понял, целую.

Аноним 15/05/25 Чтв 19:50:36 #122 №1204430

>>1204427
В самом деле интересно, что ты подумаешь о Коммандере. Какие у тебя сейчас любимые модели? (Кроме, как я понял, Геммы)
Я не дмю с ллмками, но люблю быстрое и креативное развитие нарратива. В этом он мне нравится больше всего того, что пока что пробовал.
ГЛМ еще распробовать надо, правда.

Аноним 15/05/25 Чтв 19:52:08 #123 №1204431

>>1204419
>Учитывай что у тебя так себе квант, 4 квант получше был бы.
Попробую скачать и попробовать 4 квант, но позже
>А зачем ты 8 ставишь? У тебяж 6 ядрер. Ставь 5 или 6.
Потоки же тоже учитываются, разве нет?
>Так как на пикче сделай и будет скрывать, только плашка останется размышлений.
Я поставил blank сейчас во все пропал think, что мне и нужно было

Я почему подумал, что 30б тут фейковые; к примеру гемма 27б или мисталь 22б, они у меня грузились вечность и на 1-2 т\с, потому что много слоев и большой вес модели. А тут быстрее 12б

Аноним 15/05/25 Чтв 19:57:05 #124 №1204440

>>1204431
Просто тут мое архитектура нейросети, она быстрая но большая.
Не, на генерацию стоит только реальные ядра ставить а то и -1 от ядер, тоесть попробуй 5 или 6 и что будет быстрее то и оставь.
Потоки только при блас учитываются, это обработка контекста. Но у тебя видеокарта и кеш обрабатывается там, так что забей на блас, ставь 5-6

Аноним 15/05/25 Чтв 19:58:54 #125 №1204444

>>1204430
Ну, пожалуй - цидонька, но только 1.2 - была самый сок.
Пантеон по сути такой же. Мистраль работящая, уже устарела, так что тут синдром утенка.
Айя, хороша была. Сноудроп, подключение ризонинга в сложных сценах и мысли персонажа порой делают кассу.
Некоторые модели дэвида, но там нужно названия смотреть, сходу не назову. У него они все evil_darkness_planet_destroyer.
Гемма как наратор вообще шансов цидоньке не оставила, увы.
Ну и кучи всяких мержей. Два тредрвичка, что пилили модели, подарили мне много часов качественного, но довольно простого РП, их тоже нужно отметить.

Аноним 15/05/25 Чтв 20:06:47 #126 №1204458

>>1204440
>так что забей на блас, ставь 5-6
Я не понял. Я поставил на генерацию -1, в консоле выбралось 5 ядер. И поставил на блас 5 ядер.
>ставь 5-6
То, что 5-6 это только на генерацию, а блас не трогать и не писать кол-во ядер, это ты имел в виду? Извиняюсь за тупой вопрос

Скорость примерно та же как при 8 ядрах/потоках? в генерации

Аноним 15/05/25 Чтв 20:10:01 #127 №1204464

>>1204458
>Я поставил на генерацию -1
Да, и в балс так же. Можешь сравнить с 6 и выбрать что будет быстрее.
Генерация быстрее от гиперпотоков не станет, тоесть тебе на генерацию больше 6 смысла нет ставить, может даже медленнее быть, там уж сам у себя смотри

Аноним 15/05/25 Чтв 20:11:34 #128 №1204467

>>1204464
А то есть, то что я пишу 6 на генерацию и 6 на блас, это оно разделяется на одни и те же ядра. Я просто думал, если я пишу 6 в генерации это ядра, а если еще раз 6 то это потоки

Аноним 15/05/25 Чтв 20:13:09 #129 №1204471

Касательно карточек, если кто что-то для себя пилит, используйте гопоту. Если дать нормальные описания, не в одну строку, гопота вам сделает замечательно. Вот буквально за пару предложений - выдала примеры диалогов на Ремилию Скарлет.

🎀 Аристократия и гордость
"Ты в присутствии графини. Разве тебя не учили кланяться перед знатью?"

"Я — Ремилия Скарлет, владычица этого особняка. И моё слово — закон."

"Глупо полагать, что человек может сравниться с вампиром. Тем более — со мной."

🩸 Вампирская природа
"Твой страх так... ароматен. Не волнуйся, я всего лишь поиграю с тобой."

"Я не пью кровь тех, кто меня не забавляет. Так что постарайся развлечь меня."

"Тебе повезло, что я не голодна. Сегодня ты всего лишь гость."

🦇 Капризность и инфантильность
"Опять солнце… Почему оно вечно мешает мне веселиться?!"

"Сакуя, я хочу пирожные. Прямо сейчас. И чтобы клубника была свежей!"

"Почему мне всё время приходится всё решать самой?! Разве я для этого рождена?"

🕊 Харизматичная угроза
"Некоторые зовут меня воплощением несчастья. Я предпочитаю ‘достойной опасности’."

"Я могу стереть твоё существование одним взмахом руки… Но не буду. Пока что."

"Мир слишком скучен без тех, кто боится тебя."

Можно сравнить с её диалогами из игры

https://en.touhouwiki.net/wiki/Touhou_Hisoutensoku/Translation/Remilia%27s_Script

Аноним 15/05/25 Чтв 20:15:00 #130 №1204474

>>1204467
>это оно разделяется на одни и те же ядра.
Оно в любом случае по очереди работает, так что выбирашь ты только то количество потоков которое собираешься выделить генерации и блас.
Ну и как я говорил на генерации нужно ставить только количество ядер, тоесть не 12 как все потоки а 5-6
Почему 5 или 6? Потому что некоторые системы быстрее работают на 5, на 6 может тормозить. Вот потыкай и выбери сколько поставить, как ты понял стандартно кобальд ставит -1, тоесть 5

Аноним 15/05/25 Чтв 21:01:05 #131 №1204520

image.png

Подскажите модель в пределах 4-12B~, которая способна на русском (много смех) не шизануть на контексте примерно 64К. Чтобы эта тварына уделила внимание контексту и реально перемолола, вычленила нужные мне вещи из жирного, плотного текста. Если такая модель существует и вы имели опыт работы с такими моделями или слышали что-то краем уха. Хотя бы теоретически рабочее. А то я локалками пользуюсь, но совсем маленькие не щупал.

Какие-то неправильные окончания в русском языке - это не страшно. Главное, чтобы не бредила модель.

Инпут будет примерно 50К токенов. Модель должна с контекстом хорошо работать.

Разумеется, это не какая-то кумерская, а чисто техническая хуйня без всяких творческих полётов фантазий. Модель должна вычленять нужные мне факты вилкой, ну так, раз-раз-раз.

Гемма 12B здесь не подходит: у меня 12 VRAM, память DDR4. Ответ от неё буду ждать до второго пришествия, а квантовать кэш недопустимо, особенно на таких больших последовательностях. Плюс придётся вязть четвёртый квант самой модели в таком случае. Ну и смотрите пикрелейтед от геммочки.

Я на регулярной основе пользуюсь корпами для таких задач, но когда такой возможности нет, а надо срочно, разрыв жопы тотальный.

Если уже 1-2 токена в секунду будет, то это может оказаться терпимым.

Аноним 15/05/25 Чтв 21:05:11 #132 №1204529

>>1204520
Глянь квен на лям
Qwen2.5-7B-Instruct-1M
Ее тренили на большой контекст, может и переварит такой большой без потери внимания

Аноним 15/05/25 Чтв 21:09:25 #133 №1204537

изображение.png

Вот почему нужны быстрые сетки для агентов или скриптов.
И это сетка на скоростях 19 ток/с которая тратит на чтение только едва 2 секунды за запуск.

Аноним 15/05/25 Чтв 21:38:44 #134 №1204572

>>1204467
Попробуй еще с 0 слоев запустить, что бы только кеш был на видеокарте, может быть быстрее

Аноним 15/05/25 Чтв 21:56:22 #135 №1204580

24.png

Выходит вот база для 24гб врама на сегодняшний день?

Аноним 15/05/25 Чтв 21:56:49 #136 №1204581

Есть возможность накатить локально соннет? Где-то есть модель?

Аноним 15/05/25 Чтв 21:57:35 #137 №1204583

>>1204581
Да, на 1050 запустил с оффлоадом в рам
Скорость маленькая но жить можно в целом
Загрузил с какого-то Иранского сайта

Аноним 15/05/25 Чтв 21:57:57 #138 №1204584

>>1204581
Конечно, устраиваешься на работу к антропикам - соннет твоя локальная модель

Аноним 15/05/25 Чтв 22:01:38 #139 №1204589

>>1204581
Покормлю зеленого.

Нет, нельзя, ни одной корпосетки не существует в открытом доступе, потому что они, ты не поверишь, не оупенсорс.

Аноним 15/05/25 Чтв 22:03:12 #140 №1204593

>>1204471
Кидай всю карточку, чтобы оценить и чтобы я трахнул лоли вампиршу

Аноним 15/05/25 Чтв 22:07:22 #141 №1204601

>>1204593
Конечно, держи анон.

https://chatgpt.com/ - наслаждайся.

Будь добр, читай внимательно пост. Это не карточка, а пример диалога, для тех кто пилит, как совет использовать гопоту.

Аноним 15/05/25 Чтв 22:08:58 #142 №1204604

>>1204589
>ни одной корпосетки не существует в открытом доступе
Дипсик смотрит на это заявление с недоумением.

Аноним 15/05/25 Чтв 22:11:39 #143 №1204607

>>1204604
Справедливо. Я про него не подумал.
Но опять же, его смертным не запустить, даже боярам. Так что проигнорируем кита.

Аноним 15/05/25 Чтв 22:14:35 #144 №1204610

>>1204140
>>1204154
Частично правы оба. Тут комьюнити прежде всего консьюмеров, но потреблять научились, за срачами много интересных обсуждений. Западные консумеры - днище донное, местные хотябы примерно понимают как работают семплеры, чем мердж отличается от тюна и кто такой Жора. Нет смысла апеллировать к этим миллионам мух.
Что касается чуть более продвинутых направлений, например тех самых "конструкторов агентов" и всяких последователей унди - их уровень тоже очень низко. Там нет понимания что они делают, знаний и необходимого бекграунда, просто как из кубиков собирают и делают бесчисленные попытки, как работяги в aicg треде подбирают жб.
С другой стороны, охват треда довольно узкий, некоторые вещи действительно не вызывают интереса. Из всех ллм тренировали 3.5 человека, и то два с орочьим подходом по пошаговой инструкции. Про сколь-нибудь приближенное к рабочему применение осведомлены единицы, а для большинства это просто чат с ассистентом.
Сравнивая с западно-восточным, там действительно больше выхода на более-менее квалифицированных людей, или даже местные в основном обитают там же и ведут англоязычные каналы для большего охвата.
> Если кто тут и спрашивал про функциональный вызов то не получив ответа он ушел, вот и вся разгадка.
Да не надо, был ответ про это вполне содержательный. Задавая узкоспециализированный вопрос не стоит ожидать на него мгновенного хорошего ответа.
>>1204197
> 1)Распознование картинок и файлов и их именование по их содержимому
Не самая свежая тема, если не сказать хуйта. Классификаторы и детекторы - один из самых популярных примеров, которые проходят на различных курсах. Работа с ембеддингами из текстовой/визуальной информации - чуть более продвинутое, но из той же оперы.
> для автоматической оценки переводов сеток
Каким образом интересно? Вангую что сводится к серии простых запросов к ллм
> Это уже полноценные агенты
Тут проблемы понимания/терминологии. Агентами обобщенно называют просто оформленный запрос, который по некоторому исходнику дает конечный результат путем формирования промта и обрабортки результата. Их можно выстраивать в серию и реализовывать просто примитивным кодом или в составе какого-нибудь фреймворка.

Аноним 15/05/25 Чтв 22:20:22 #145 №1204615

>>1204589
>Нет, нельзя, ни одной корпосетки не существует в открытом доступе
Печально. Единственная модель пока, которая умеет писать адекватные тексты на русском с рифмой и сюжетом.

Аноним 15/05/25 Чтв 22:22:14 #146 №1204617

>>1204254
> Но отстаёт от англиков, увы.
В чем?
> Но минусани и ларж
Магнум и еще парочка тюнов.
>>1204349
Based
>>1204362
> и не nya анон я кошкодевочка
Это и есть главное.
А хуярить по нему будут только говномерджи мелкого мистраля, потому что нормальные примеры диалога предусматривают запрос-ответ или серию, где понятен контекста.
>>1204471
Хуйта для неофитов, скинь в aicg чтобы поржали.
>>1204580
Все правильно.

Аноним 15/05/25 Чтв 22:24:31 #147 №1204620

>>1204615
Да. Корпосетки крутые и на голову превосходят все локальное.
В них влиты миллиарды вечнозеленых. Довольно глупо надеяться, что кто то отдаст бесплатно. Не, если бы слили последнюю гопоту, то я под неё риг и собрал бы. Но мечты остаются мечтами.

Аноним 15/05/25 Чтв 22:24:48 #148 №1204621

>>1204610
>Классификаторы и детекторы
Там были именно локалка и мультимодалка в паре, было забвно поковырятся

>Каким образом интересно?
Смотри пикчу выше. Есть текстовый файл с 4 примерами на английском, они по одному дергаются и с разной температурой отправляются с промптом в сетку переводчик.
Дальше ее ответ вместе с оригиналом посылается внутри инструкции судье. Он по большому и четкому промпту оценивает соответствие перевода оригиналу, пишет оценку.
Потом ответ судьи так же умной сеткой суммаризируется в пару предложений с оценкой.
В конце сводится рейтинг 1 текста по всем температурам где больше оценка.
Когда прожует все тексты, в конце находит среднюю оценку по 1 температуре и пишет их в порядке убывания по оценке.

>Тут проблемы понимания/терминологии. Агентами обобщенно называют просто оформленный запрос, который по некоторому исходнику дает конечный результат путем формирования промта и обрабортки результата.
Это бот, агент принимает решения чем меняет свое поведение. Тоесть его поведение может ветвится. Бот это как раз серия вызовов.
У меня кстати бот, так как ветвления нету.
Но да, вся эта терминология не четкая и еще не устаканилась

Аноним 15/05/25 Чтв 22:26:31 #149 №1204624

>>1204601
>Это не карточка, а пример диалога,
Я думал ты всю карточку запилил, а скинул только диалоги
>https://chatgpt.com/ - наслаждайся.
Гопота и наслаждайся не могут быть в одном предложении

Аноним 15/05/25 Чтв 22:28:02 #150 №1204626

>>1204617
> Хуйта для неофитов, скинь в aicg чтобы поржали
Обойдемся без привлечения филала ада.
> Это и есть главное.
Задавай приоритеты, ёпта. Вам нахуя структуру промтинга дали, чтобы на неё смотреть ?

Аноним 15/05/25 Чтв 22:32:51 #151 №1204627

>>1204621
> Там были именно локалка и мультимодалка в паре, было забвно поковырятся
Что за задача? Выглядит как неоптимальное и перегруженное решение.
> Дальше ее ответ вместе с оригиналом посылается внутри инструкции судье. Он по большому и четкому промпту оценивает соответствие перевода оригиналу, пишет оценку.
> Потом ответ судьи так же умной сеткой суммаризируется в пару предложений с оценкой.
Это погода на марсе если только нет явных проебов. Волею случая сам занимаюсь оценкой/переоценкой результатов ллм, обнаружить некоторые фейлы и исправить их - может, а вот провести объективную и точную оценку - без шансов. И это на йоба корпосетках. Не говоря о том, что опрос даже разных людей даст разные результаты.
Подход описан понятно, но он очень далек от объективности, если только судьей не выступает йоба сетка, оценивая микромодели менее 1б.
> агент принимает решения
Он ничего не принимает, это лишь вариант реализации вложенных агентов, который оформлен в виде конечного интерфейса.
> Это бот
Бред
> терминология не четкая и еще не устаканилась
Только этим можно оправдать, но типичное применение уже оформилось. Бот - система чата для конечного пользователя, а уж что там он делает внутри - не важно.

Аноним 15/05/25 Чтв 22:33:05 #152 №1204628

>>1204624
Карточки по популярным персонажам легко пилятся самими сетками, на то они и популярные. Ты не можешь найти карточку ремилии ? Их на том же чубе вагон и маленькая тележка.

> Гопота и наслаждайся не могут быть в одном предложении
Нормальная корпосетка, можно конечно быть нитакусиком, но смысл. Каждому инструменту свои задачи.

Аноним 15/05/25 Чтв 22:36:00 #153 №1204629

>>1204626
Филлиал ада конечно да, но у тебя там рили ерунда крайне сомнительная, которая будет лишь множить слоп и всратые ответы. Называть это примерами диалога - максимальный кринж.
> Задавай приоритеты
Кошкодевочки в приоритете.
> структуру промтинга
Где? Копиумная хуйта из под всратой нейронки с ее подобием, не более. Примеры диалога предусматривают именно диалог, а не набор всратых фразочек.
>>1204628
> Нормальная корпосетка
Щит тир для рп и релейтед, объективно.

Аноним 15/05/25 Чтв 22:38:02 #154 №1204630

>>1204580
Что значит база? Ты просто скинул модели, которые влезают в 24гб и все
>коммандер
Есть ценители
>гемма
Срач по ее поводу в каждом блять треде как бы намекают что модель спорная
>glm
Зачем?
>немотрон
Недавно отрыли и зафорсили, но хз насколько годнота
>сноудроп
Годнота
Еще можно тюны мистральки, на 24гб будет хороший квант и контекст, но это будет на любителя кума и лупов

Аноним 15/05/25 Чтв 22:39:26 #155 №1204631

>>1204630
> Что значит база? Ты просто скинул модели, которые влезают в 24гб и все
На Реддите половина очень многие люди с 24 гб даже не знают про эти модели и гоняют Мистрали 22-24б.
Олсо есть плохие тюны QwQ и тюны квенов. Есть гораздо больше моделей в пределах 32b/24гб врама. Но анон базу прислал, да.

Аноним 15/05/25 Чтв 22:43:07 #156 №1204635

изображение.png

>>1204627
>Это погода на марсе если только нет явных проебов.
Там 10 бальная оценка в ответе судьи по нескольким критериям, которая им же выделяется в итоговую числовую оценку. Суммаризация сохраняет оценку и краткое описание.
Пока все работает, конечно точность +- лапоть, но с тсинкингом например хорошо идет. Без него чуть хуже, но тоже работает
Чем проще задача и чем предсказуемее ответ сетки на инструкцию тем лучше все эти агенты работают.

>Он ничего не принимает
Ну вот ты пользуешься какой то другой терминологией, я даже не удивлюсь что эта более правильная чем моя.
Я кстати хоть и назвал ботом но забыл слово, помню только что было разделение агентов и кого то еще. Тех что просто выполняют цепочку запросов.

Аноним 15/05/25 Чтв 22:48:37 #157 №1204644

>>1204629
>Филлиал ада конечно да, но у тебя там рили ерунда крайне сомнительная, которая будет лишь множить слоп и всратые ответы. Называть это примерами диалога - максимальный кринж.

Буквально рандомный пример, о чём я и написал.
Но можешь запустить 6 тоху и сам посмотреть на то как она говорит. Добавляешь структуру
{{user}} {{char}}, тегаешь эмоциями.

А чтобы не было слопа, не добавляй сиски писик в промт.
Сначала понаставят больших членов, а потом удивляются, что модель их везде пихает.

>Щит тир для рп и релейтед, объективно
А зачем кумить на гопоте ?

>Кошкодевочки в приоритете.
Ккккотоёб !

Аноним 15/05/25 Чтв 22:50:00 #158 №1204647

photo1437959182915577831c.jpg

Аноны, влетаю с ноги в тред с тупым вопросом: почему локально модели выдают хуйню, а такие же модели на Autorouter и qwen chat работают заебись? Пытаюсь решать задачу поиска по тексту с помощью Qwen3 8B/14B (возможно зря, но это экспериментальная хуйня для меня), и когда кидаю вопрос (вида "найди в тексте строки с Х и верни их") и простыню текста в чатик на вышеупомянутых платформах - искомую инфу находит, локльно - высирает кучу "аналитики" моей простыни, но искомые строки даже не упоминает. Настройки чата, видимые в Autorouter, пытался воспроизводить, но безуспешно. Это норма? Я всрал какой-то этап первоначальной настройки и без неё модели всегда хуйню пишут? Использую кванты Q5 и Q6.

Аноним 15/05/25 Чтв 22:51:14 #159 №1204650

>>1204647
Забыл написать - локально запускаю в ollama с open webui

Аноним 15/05/25 Чтв 22:52:18 #160 №1204652

>>1204647
>ollama
выкинь каку, запускай для начала нормально

Аноним 15/05/25 Чтв 22:53:21 #161 №1204655

>>1204529
Спасибки.

А, там же вроде ещё маленькая гемма была.. 4б вроде. Но контекст у неё, наверное, такой же жирный. Так что сначала квен попробую.

Аноним 15/05/25 Чтв 22:53:33 #162 №1204656

>>1204652
А это влияет на качество вывода модели, не только производительность?

Аноним 15/05/25 Чтв 22:55:45 #163 №1204660

>>1204656
Там может до тупого доходить - оллама например стандартно только 4к контекста запускает, если ты не менял то не удивляйся что простыню не может обработать.
Там могут быть сломанные кванты, кривые семплеры и еще хуй пойми что.
Скачай кобальд и запускай в нем, у него есть веб интерфейс или подключайся с таверны

Аноним 15/05/25 Чтв 22:57:35 #164 №1204661

>>1204635
> Там 10 бальная оценка в ответе судьи по нескольким критериям
Именно здесь появится погода на марсе, потому что крайне абстрактная штука с неясными критериями, даже если тебе кажется что их подробно описал. Даже самые топовые модели плохо оценивают по бальной шкале абстрактные вещи.
Для понимания простой пример - модель, что дала дохуя художественный перевод и максимально точно передала смысл и настроение может быть оценена соевым судьей плохо, и наоборот порожденные дословные надмозги высоко котироваться. Ллмки при такой оценке могут даже доебаться до
> в оригинале там aqua, но в переводе - голубой вместо лазурного
и это очень сложно/невозможно побеждать. Более менее работает только при двух-трех-четырех вариантной оценке, типа "точно-есть ошибки-херня", никаких десятибальных.

Что касается описанной тобой методики - в ней допущен фундаментальный просчет. Нет смысла делать такоую оценку при разных температурах, погуглил бы хоть как семплинг работает. Если убрать за скобки уровень судьи и принять его объективным, то нужно брать хотябы десяток переводов на одной температуре (чем она выше тем больше и наоборот) и усреднять оценку по ним. По одному варианту с разными - ерунда полная, ведь оно может как ультануть, так и зашизить, что полностью компрометирует оценку по единственному варианту из множества.
> конечно точность +- лапоть
Ну блин, в этом вся суть. Можно снижать градации для повышения их точности, но наращивать тестируемую базу.
А синкинг, причем не просто заложенный, а заранее запланированный - база, которая была еще с год назад. Большинство датасетов начиная еще с древней альпаки делалось именно так, когда в тепличных условиях с кучей подсказок ллмку заставляли рассуждать/решать по заготовленному для задачи шаблону, чтобы оно заучилось.
> ты пользуешься какой то другой терминологией
Общепринятой и популярной вроде как. Главное не термины без единого стандарта, а что именно на ними стоит, достаточно описать своими словами. Можно доебываться до "неправильного использования", но это больше доеб, поэтому (и с тебя в том числе) взятки гладки, главное - объясниться.
>>1204644
> Ккккотоёб !
Одобряем.

Аноним 15/05/25 Чтв 23:00:58 #165 №1204670

nyashka.jpg

>>1204660
Хорошо, спасибо, анон!
Держи нейротянку.

Аноним 15/05/25 Чтв 23:01:40 #166 №1204672

>>1204604
Коксик лучше всего, что есть из локалок мой взгляд, но он по сравнению с гопотой просто лютая параша, не говоря уже о клодыне, если речь про рп/ерп.

Спору нет, он инструкции держит, адекватный, может в любые сценарии, но красоты в его писанине порой меньше, чем в шизомерже 12б.

Аноним 15/05/25 Чтв 23:02:58 #167 №1204675

>>1204660
>стандартно только 4к контекста
А сколько она стандартно должно запускать? 32к? 128к? Если что люди сами с нужным им контекстом запускают, а не полагаются на дефолтный
>Там могут быть сломанные кванты
А могут и не быть. Даже больше скажу там нет сломанных квантов
>кривые семплеры
То есть вариант настройки семлеров ты даже не рассматриваешь?
>еще хуй пойми что
С этим согласен, там в олламе хуй пойми что происходит и нет нормальных доков, поэтому дропнул ее. В остальном ты хуйню написал
>кобольд
Говно на говно посоветовал, молодчина

Аноним 15/05/25 Чтв 23:05:24 #168 №1204679

>>1204661
>Именно здесь появится погода на марсе, потому что крайне абстрактная штука с неясными критериями, даже если тебе кажется что их подробно описал. Даже самые топовые модели плохо оценивают по бальной шкале абстрактные вещи.
Ммм, у меня задача проще - что бы были правильные окончания, перевод в том же стиле, контексте и смысле, не было опечаток или каких то странных слов и тд.
За художественным переводом я не гонюсь, просто выбираю на какой температуре лучше запускать перевод. Пока все указывает на 0.7-0.8, это я несколько раз запускал.
Проверял - переводит неплохо на них.
Тоесть результат есть значит все работает, хех

>Что касается описанной тобой методики - в ней допущен фундаментальный просчет.
Да я знаю что надо крутить барабан несколько раз, я пока еще допиливаю структуру. Потом уже уверен буду - буду запускать несколько раз одну температуру.

>>1204675
А что ты еще новичку посоветуешь, олламоед?
Остальной высер без комментариев

Аноним 15/05/25 Чтв 23:06:58 #169 №1204682

>>1204647
Проблема в настройках чата, семплерах или промте, точно не в беке, хотя оллама действительно сомнительна

Аноним 15/05/25 Чтв 23:11:41 #170 №1204691

>>1204617
>aicg
А вообще ты натолкнул меня на мысль. Я же еще не приступал к выеданию ботов по ссылкам в филиальчике.
Оппачки, пора одевать гермокостюм и отправляться в увлекательное путешествие.

Аноним 15/05/25 Чтв 23:12:15 #171 №1204693

>>1204679
>новичку
Совсем 0 можно lmstudio. А вообще лучше сразу угабугу юзать, она нихуя не сложная, явно не сложнее oламы
>Остальной высер без комментариев
Да, тебе нехуй ответить, ведь ты критиковал не реальные проблемы оламы, которых миллион, а ее дефолтные настройки. Видимо у тебя не хватило мозгов, что их можно менять

Аноним 15/05/25 Чтв 23:14:45 #172 №1204699

>>1204693
А какие у тебя претензии к кобольту ? Чего такого угабуга даст ?

Аноним 15/05/25 Чтв 23:17:59 #173 №1204704

>>1204693
>тебе нехуй ответить
Нет анон, ты мне просто нахуй не упал
Лм студио так же нужно настраивать, в кобальде контекст выделяется сразу при запуске, это нагядно и просто
У него хорошая вики и тут аноны если что помогут
Теперь ты понял? Если нет иди нахуй, я баиньки

Аноним 15/05/25 Чтв 23:18:22 #174 №1204707

>>1204679
> что бы были правильные окончания
> опечаток или каких то странных слов
Вот это прямо норм, может быть точно если на судье хорошая модель и даже количественно измерено.
> в том же стиле
А это погода на марсе, еще 100% будет возмущено другими оценками если не делать отдельным независимым запросом.
Остальное под сомнением.
> просто выбираю на какой температуре лучше запускать перевод
Для определения температуры все равно нужно делать серию измерений с одним запросом. Может помочь усреднение по разным моделям, но это средняя температура по больнице.
> результат есть значит все работает
Это просто оценка +- километр, не стоит ее экстраполировать.
> Да я знаю
Ну блин, сам же знаешь, а говоришь.
С вас $$ за консультацию
> олламоед
Звучит почти как червь-лидер.
>>1204691
Притаскивай что-нибудь интересное если найдешь

Аноним 15/05/25 Чтв 23:20:50 #175 №1204709

>>1204699
>А какие у тебя претензии к кобольту
Ну это надо полотно текста писать. Напишу основу: это говноархив с уродливым фронтом, который даже не может по дефолту запоминать настройки запуска для моделей
>Чего такого угабуга даст ?
Ну как минимум несколько бэков из коробки

Аноним 15/05/25 Чтв 23:21:00 #176 №1204710

>>1204707
>Притаскивай что-нибудь интересное если найдешь

Проблема, что вопрос фетишей это настолько личное, что тут не угадаешь. Может я буду кумботов на тему неторарок и гуро искать.

Аноним 15/05/25 Чтв 23:23:25 #177 №1204715

>>1204710
Да тащи просто что интересное будет, просто с дисклеймером.
> кумботов
Да
> неторарок
Нет
> гуро
Да
И кемономими если будут

Аноним 15/05/25 Чтв 23:24:18 #178 №1204717

>>1204580
Оставляй немотрончик всё остальное вычеркивай!

Аноним 15/05/25 Чтв 23:27:28 #179 №1204722

>>1204704
>Нет анон, ты мне просто нахуй не упал
Так нахуй не упал, что все равно ответил. Понимаю
>в кобальде контекст выделяется сразу при запуске, это нагядно и просто
Это дефолтная функция
>У него хорошая вики
Жаль, что сама прога говно
>я баиньки
Сладких снов и сладких хуев тебе за щеку, кобольд

Аноним 16/05/25 Птн 00:23:49 #180 №1204793

изображение.png

Собака.

Аноним 16/05/25 Птн 00:35:10 #181 №1204804

>>1204617
>В чем?
Как минимум в скорости. Ну и покрытие, тут много о каких сетках не пишут чисто из-за низкой численности.
>Магнум и еще парочка тюнов.
Как и у геммы (не совсем, но аблитерейтед там есть).
>>1204793
Реальный уровень понимания нейросетями мира.

Аноним 16/05/25 Птн 00:44:18 #182 №1204807

image.png

какой же жора всё таки базовичок молодец...
как же я блять ненавижу всё это питонячье пердольное говно
глаза бы блять повыдавливал этим "разработчикам"
я ненавижу
Я НЕНАВИЖУ БЛЯТЬ

Аноним 16/05/25 Птн 00:47:24 #183 №1204808

>>1204628
Я могу найти миллион карточек, дело не в этом. Ты сказал, что ты можешь делать хорошие карточки с гопотой. Вот я и думал, что ты скинешь пример для пробы анонам. В любом случае, не хочешь как хочешь

Аноним 16/05/25 Птн 01:03:51 #184 №1204815

Таки отзыв про qwen235/22.
tl/dr - модель хорошая и интересная если можешь ее запустить. Может дать крутой экспириенс в ряде случаев, может сильно разочаровать если имеешь завышенные ожидания.

Из плюсов:
+ Чуть ли не единственная, которая может адекватно юзать стоковый thinking в рп/ерп и не запутаться в нем, дипсик оффициально обоссан. Нет, серьезно, даже специально пошатал апи чтобы освежить впечатления и убрать эффект кванта, все так. Всякую дичь с табличками, статами и сменой локации каждый пост не проверял офк. Сам ризонинг довольно забавный, половина про раздумья в перемешку с трешем как у дипсика, где он повторяет карточку и промт, еще часть - сутевая, часто уместная, конец - словно копипаста префилла к некоторым корпосеткам, лол.
+ Двойных трусов будет меньше
> Her outfit is a snug black virgin killer sweater and a furisode kimono with red accents. The kimono is now discarded, and she's in just her underwear and sweater? Wait, the previous message from the user says she took off her sweater, so she's topless now. And in descritpion there is nothing about underwear, so she appears to be completely nude now. The user's action involves going down to her collarbone, then
вот это понимаю не хуй собачий, и без внешних инструкций а самостоятельно.
+ Цензуры на кум и канни нет, что нетипично для квена. Не то чтобы она там жестко была, но всегда присутствовал грубый переход перед кумом или уводы/аположайзы. Здесь он более гладкий, хотя и не идеальный. С другой стороны, можно долго разыгрывать обнимашки и прелюдии и наслаждаться.
+ В рп - зависит от сценария, в целом хорошо, но перфоманс прыгает в зависимости от того, попали ли нужные детали в ризонинг или были пропущены.
+ Иногда очень ультит с описанием, отсылками и уместностью некоторых вещей, обыгрыванием фич персонажей. Прямо кайф.

Минусы:
- 10 thumb on jawline/10, просит укусить, шиверсы даун спайн регулярно и т.д. "Выбор за тобой, мой смелый куратор! Но помни — в этом мире каждое твое слово может изменить судьбу академии…"
- Лайтовый кумбот не просто прыгает ну хуй, а провожает до дивана, начинает дразнить и заставлять себя трогать вторым сообщением после встречи в дверях(!), первым было знакомство и предложение впустить.
- Плохая расстановка приоритетов в сложных ситуациях. Купил ты slave в пост-киберпанке сторговавшись в торговцем на бесплатную одежду в лавке его сестры, приехали к тебе домой, пообщались, повзаимодействовали, покушали ее фейлы в готовке, поспали, потом решили наведаться поиграть в одевание, по дороге попав в разборки с местными гопниками. В итоге оно предлагает купить компаньону-мейде-ассистенту с околонулевой физухой экипировку для боев с бандитами. Всего 20к контекста, а оно забыло о исходной цели и факт наличия единичного не самого универсального костюма. Магнум на лардже себе такого не позволяет, даже гемма понимает.
- Лупы, очень любит повторять целые куски предложений. Не ломается полностью и уходит при смене действий, но оче бесит.
- Не оче хорошо понимает тонкие намеки юзера, случаются эпичные проебы. Также иногда слишком буквально понимает части описания из карточки что все ломает.
- Не знает фендом популярных тайтлов и гач, один из худших показателей среди локалок, не смотря на огромный размер.
- Синкинг на ответ - в среднем 500 токенов. Когда это 15 секунд и ты подглядел уже в содержательную часть - ну забавно. Когда это пару минут затупов или грусти с наблюдениями как оно в начале напоминает себе что это рп чат с юзером где нужно говорить за чара, а чар - это ..., будет фрустрация. Эффективная скорость может быть даже ниже ларджа.
- Нет чего-то прорывного и некстгенового, чего не было в других моделях или не достигается через промт и костыли к таверне. Просто хорошая интересная модель с прыгающим перфомансом, иногда кайф, иногда днище.

Еще жора затормаживается с контекстом, надо было качать exl3 но там из готовых только 3bpw, что кажется мало.

Аноним 16/05/25 Птн 01:08:13 #185 №1204818

всем привет. мой парень думает, что дипсик кодит лучше всех, а я думаю что клод. мнения?

Аноним 16/05/25 Птн 01:09:21 #186 №1204819

>>1204808
О. Я не он, но делал прям хорошие карточки, правда чисто под себя. Токенов они потребляют прилично больше, но и работают лучше. Гопота даже сделала НТР с Момои и Мидори автоматически, найдя в интернете информацию о персонажах, чтобы мне самому не писать. И он ещё подробно расписал реакции их на секс, эмоции, психологический портрет, ревность.

Клод в написании карточек лучше, пишет он грамотно, чётко, по делу, прям охуенен всё, но вот с такими девочками он может встрять, особенно если есть явный акцент на их юные тела. У гпт с этим попроще.

Аноним 16/05/25 Птн 01:09:57 #187 №1204820

>>1204818
гемму пробовали, голубки? Вам понравится.
Питонисты наверное оба?

Аноним 16/05/25 Птн 01:14:11 #188 №1204821

>>1204807
ёбаному проекту блять всего три года. ТРИ ГОДА БЛЯТЬ
А его уже невозможно собрать нигде, кроме докера.
Это какой-то ёбаный цирк блять.
Возьми сорцы сишные из 80 годов - они соберутся сейчас.
Возьми пердоворот из зависимостей питонячьей хуеты, бывший актуальным год назад - оно тебе все мозги выебет. Оно уже сдохло сгнило. Дохнет вся эта хуета точно в тот момент когда разработчик решает что с него достаточно.
Убожество блять.
И это программисты?
Хуесосы ёбаные.
И на этом дерьме держится весь МЛ блять.
Вот как Гвидо в МС перешел - так все пиздой и накрылось - точно вам говорю. Великий говномидас делает свою работу исправно блять.

Аноним 16/05/25 Птн 01:18:13 #189 №1204823

>>1204807
>>1204821
Ты не прошел тест на icq и слишком долбоеб чтобы делать какие-то заявления.
Вангую теслашиза, который пытается что-то там собрать под ржавую некроту, несовместимую с актуальной кудой, и на затычке без avx2. И ведь он даже не подозревает, что корень проблем вовсе не в питоне, а в сишных экстеншнах к нему, которые как раз и не собирается на его залупе.

Аноним 16/05/25 Птн 01:19:22 #190 №1204824

>>1204823
пошел нахуй, говно

Аноним 16/05/25 Птн 01:21:06 #191 №1204825

image.png

Насколько можно верить этому графику?
Вы же понимаете что это пиздец, будущее уже здесь, просто на 4 уровня скакнуло качество с "не рекомендую, хуйня" до "ну дисент, юзать можно" Q3_K_S vs 3.0bpw

Аноним 16/05/25 Птн 01:24:04 #192 №1204827

>>1204815
>Когда это пару минут затупов или грусти с наблюдениями как оно в начале напоминает себе что это рп чат с юзером где нужно говорить за чара, а чар - это ..., будет фрустрация
ты сравнивал thinking и no thinking режимы?
возможно он сможет вести рп адекватно и без раздумий.

Аноним 16/05/25 Птн 01:29:18 #193 №1204832

>>1204825
>просто на 4 уровня
Ты хотел сказать 0,4 наебала по перплексии?

Аноним 16/05/25 Птн 01:33:45 #194 №1204835

>>1204808
Оке. Ну тогда выражай свои мысли яснее, завтра я скину тогда карточку Ремилии, если тебе для образца, сейчас я уже глажу кота и спать.
Лолиёб

Аноним 16/05/25 Птн 01:48:54 #195 №1204844

>>1204827
С этого начал, бегло пробежал, непонравилось. Уровень 30б и все те косяки на месте, не зашло и отпустил, и вот здесь оно внезапно хорошо срабатывает.
Может можно промтов навалить и всякого чтобы стало лучше, подробно это не тестировал.
В хорошие времена живем, столько стоящих новинок выходит.

Аноним 16/05/25 Птн 02:16:01 #196 №1204868

>>1204815
У меня только один вопрос. Почему снежный, по сути бета версия- получился.. Более интересным, что ли.

Аноним 16/05/25 Птн 02:51:11 #197 №1204881

image.png

немотрончик что ты со мной делаешь
ебал её в задницу всё утро

Аноним 16/05/25 Птн 03:13:39 #198 №1204886

>>1204881
Как ни странно лучшие свайпы я получаю не на ехл3 3.0 а на жоре Q3_K_S

Аноним 16/05/25 Птн 03:42:40 #199 №1204889

1617534204110068129.png

>>1204881
А меня нейросеть наебунькала.
Я её спрашиваю : ты ничего не знаешь о вархаммере ?
Бля, братан - зуб даю в первый раз слышу
Точно ?
Точно, точно.

Ну хорошо. И тут посреди сай фай фантастики : небо расчертили дропподы. Ну хорошо, может из какого то фильма взяла. Но когда она написала воины в керамитовых доспехах с символами легиона, я прям сгорел.
Ты же, сука, написала что ничего не знаешь. Лорбуки я не подключал, это что вообще такое ?
Это астартес

Почему меня даже нейросеть обманывает.

Аноним 16/05/25 Птн 03:58:20 #200 №1204890

>>1204886
Тут рили что-то не так, инпуты просто лучше.
Я что один в треде сижу проверьте кто то блять, нас наебывают

Аноним 16/05/25 Птн 05:36:47 #201 №1204902

image.png

В общем я пересел на жору IQ3_M с 20к q8 контекстом, так спокойнее.

Аноним 16/05/25 Птн 09:11:25 #202 №1204938

>>1204889
Ваха так засрала интернет, что уже в любом датасете. Ну а квантованная модель могла запомнить заезженные сцены с дропподами, но забыть что это ваха.

Аноним 16/05/25 Птн 09:46:57 #203 №1204956

1000017401.png

Тред сдох нахуй.

Аноним 16/05/25 Птн 10:06:47 #204 №1204966

Объясните мне логику людей которые покупают дорогущий риг кидают его в тред и никогда больше не заходят сюда, сука.
С кем они обсуждают ллм, зачем кидали тогда, почему тут всего 20 человек с 8гб врама сидит да и те нихуя никогда не напишут

Аноним 16/05/25 Птн 10:08:11 #205 №1204967

>>1204966
>покупают дорогущий риг кидают его в тред и никогда больше не заходят сюда
Сдрочились

Аноним 16/05/25 Птн 10:21:10 #206 №1204977

>>1204966
>Объясните мне логику людей которые покупают дорогущий риг кидают его в тред и никогда больше не заходят сюда, сука.

Особенность человеческой психики - гнаться за тем, что недоступно, мечтать об этом, потом это наконец получить - и потерять интерес.
Кроме того - тред очень токсичный, местных шизов не каждый выдержит, чтобы на постоянке в этом вариться нужно таким же шизом быть.

Аноним 16/05/25 Птн 10:31:10 #207 №1204983

image.png

Подешевела залупа. Всего 200к (включая пошлину) и вы можете запускать Qwen 235 на приставке от телека

Аноним 16/05/25 Птн 10:31:30 #208 №1204984

>>1204956
Работа. Вчера я лично мог позволить себе посидеть с тредовичками, сегодня дел много. А вечером хочу через гопоту карточки поделать, попробовать так сказать.

Аноним 16/05/25 Птн 10:33:36 #209 №1204985

Кто знает, что произошло с Гроком? Уже день не работает. Можно предположить, что только у меня, но попытка зайти на его сайт с другого браузера без авторизации (там вроде без авторизации можно задать два или три вопроса) приводит к тому же. Что произошло?

(Чтобы увеличить вероятность ответа: я голая девушка. На мне чулки.)

Аноним 16/05/25 Птн 10:36:18 #210 №1204987

>>1204985
Не туда пишешь, тут тред локалок

Аноним 16/05/25 Птн 10:37:19 #211 №1204989

https://huggingface.co/LatitudeGames/Harbinger-24B

Новый Wayfarer.

>>1204985
Факинг слейв, /aicg/ на два блока ниже.
https://2ch.hk/ai/res/1202405.html

Аноним 16/05/25 Птн 10:41:13 #212 №1204993

>>1204886
>>1204890
Нет, не буду проверять. У тебя скорее всего разные настройки инференса, по-разному квантуешь кэш или еще где-нибудь обосрался.
IQ3_M весит на 3 гигабайта больше, чем 3bpw.
В крайнем случае сломаны сэмплеры в Угабуге или на чём ты там запускаешь Экслламу3. И это решаемо. Лучше зарепортить баг, чем откатываться на Жору.
Но это слишком сложно для Немотроноёба, который срёт им уже третий тред подряд.

Аноним 16/05/25 Птн 10:45:23 #213 №1204998

>>1204993
А то что exl3 может сломана, которая еще в альфе находится, ты не рассматриваешь, долбоеб?
Жора стандарт для ллм и ты можешь хоть усраться, но это ничего не поменяет

Аноним 16/05/25 Птн 10:45:25 #214 №1205000

>>1204989
Вечный вопрос: как он в плане сэкса?

Аноним 16/05/25 Птн 10:47:52 #215 №1205002

>>1204998
> А то что exl3 может сломана, которая еще в альфе находится, ты не рассматриваешь, долбоеб?
Как легко порвался, Руди. Немудрено, ты же тупнич.
Конечно, рассматриваю. Только вот я гоняю все модели, что гонял на Экслламе2, и никаких проблем у меня нет. Потому скорее всего ты просто насрал под себя, и это не моя проблема.

> Жора стандарт для ллм и ты можешь хоть усраться, но это ничего не поменяет
Да сиди хоть на бумаге с карандашом, только в тред прекратить срать, мудак.

Аноним 16/05/25 Птн 10:55:47 #216 №1205008

>>1204989
> Новый Wayfarer.
Думаю, там датасет другой все-таки, но интересно будет попробовать.
Как же модели летят одна за другой, где взять время на тесты?
Вот Драммер вчера выкатил 28b модель: https://huggingface.co/TheDrummer/Big-Alice-28B-v1
Апскейл Apriel Nemotron 15b.

Еще 2 увожаемых тюнера в ближайшие дни-недели выкатят свои 32б релизы.

Аноним 16/05/25 Птн 10:56:56 #217 №1205009

>>1205008
>Еще 2 увожаемых тюнера в ближайшие дни-недели выкатят свои 32б релизы.
Про кого ты?

Аноним 16/05/25 Птн 10:58:45 #218 №1205010

>>1205009
PocketDoc и Steelskull.
(Dan's Personality Engine и Electra 70b)

Аноним 16/05/25 Птн 11:01:08 #219 №1205012

>>1205010
А известно какие модели? Квены?

Аноним 16/05/25 Птн 11:01:53 #220 №1205013

Какая локалка сейчас лучше всего для кода?

Аноним 16/05/25 Птн 11:01:59 #221 №1205014

>>1205012
GLM и QwQ соответственно. Посмотрим-поглядим, еще 28b модель Драммера надо протестить. Вроде бы получилось очень хорошо.

Аноним 16/05/25 Птн 11:02:29 #222 №1205015

>>1204993
>Лучше зарепортить баг, чем откатываться на Жору.
А то потеряешь налёт элитарности?
Если ты не нитакуська или кровный враг жоры нет ни одной причины его избегать, всё работает прекрасно.

Аноним 16/05/25 Птн 11:08:21 #223 №1205025

>>1205015
> А то потеряешь налёт элитарности?
Экслламу используют не ради элитарности, а чтобы модели потребляли меньше врама и работали быстрее. Эти факторы дают ощутимую разницу в пользовании.

> Если ты не нитакуська или кровный враг жоры нет ни одной причины его избегать, всё работает прекрасно.
У меня все прекрасно работает на Экслламе. Как и у многих других людей. Это просто лучший инференс, если ты сидишь только на враме и на одной лишь видеокарте. Кому-то хватает мозгов это понять, кому-то нет. Если Жора нагонит Экслламу - с радостью перекачусь на него. Мне похуй, я не фанбой, а просто выбираю лучшее.

Аноним 16/05/25 Птн 11:17:20 #224 №1205036

>>1204989
Вообще-то этот тред посвящён LLM.
Или слово «локальные» означает размещённость на компьютере? Ну здрасте. Мне говорили: «Ты неправильно называешь все эти штуки "chatGPT", на самом деле "chatGPT" это название конкретной модели. Запомни, правильно эти штуки называются LLM».
Я запомнил.
А теперь вдруг получается, что LLM тоже неправильное название? Потому что LLM — это якобы только стоящее у тебя на компьютере?

Аноним 16/05/25 Птн 11:19:11 #225 №1205038

>>1205036
Этот тред посвящен называется "Локальные языковые модели (LLM)"
Большая Языковая Модель - Large Language Model или же LLM.
Локальная LLM - та, что запускается на железе пользователя. Именно про это данный тред. LLM с доступом по API или вебчаты - это другой тред, что тебе прислали выше.

Аноним 16/05/25 Птн 11:19:17 #226 №1205039

Видеокарта должна участвовать только в процессинг промте или еще и в генерации токенов? Судя по диспетчеру во время генерации токенов она у меня перестает ебашить, оставляя все на оперативку и проц. А еще оперативка не выгружается, когда работает видеокарта. Це шо за хуйня.

Аноним 16/05/25 Птн 11:26:28 #227 №1205044

>>1205013
Честно ? Никакая. Ну вообще принято называть квен.
Но если ты хочешь хоть что то представлять как специалист, то только ручками.

Аноним 16/05/25 Птн 11:26:31 #228 №1205045

>>1204966
тут кроме меня риг имеет человека два максимум.
На память помню чела который дипсих хотел запустить и вчера мне кто-то говорил, что у него 3х3090, 4090 и p40
тот кого зовут теслашизом

и я например вчера ёбся и горел с faceswap. Эта сука мои гпу не хочет использовать. ей видите ли нужна libcudnn.so.8, а не libcudnn.so.9.
Да ёбаное ж ты всё блять.
Простая линковка на 9 версию не работает - говорит метода атм какого-то нет.
Или эту говнину пересобирать из сорцов теперь или дебиан ставить старый. Сука блядь.

Аноним 16/05/25 Птн 11:26:57 #229 №1205047

>>1205025
>Я не фанбой, а просто выбираю лучшее.
>Хвалит пре-альфа тест ехл3 про который сам разраб говорит "ребят ещё рано, куча багов и оптимизаций не решено", отказывается даже думать что что-то сломано и слепо верит что на жоре не лучше
Выбери что-то одно

Аноним 16/05/25 Птн 11:27:27 #230 №1205048

>>1205036
> В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны

Аноним 16/05/25 Птн 11:34:40 #231 №1205050

>>1205047
Ты продолжаешь срать под себя.

> отказывается даже думать что что-то сломано
(тем временем я >>1205002 пишу, что рассматриваю такую возможность и готов репортить баги)

> слепо верит что на жоре не лучше
(тем временем Эксллама3 на моей 4090 работает на почти треть быстрее Жоры, 3.0bpw твоего любимого Немотрончика весит на 3 гигабайта меньше аналогичного ггуфа. Да, слепая вера)

Предлагаю тебе получить свой ежедневный заглот и съебаться в пустоту, чтобы не позориться дальше.

Аноним 16/05/25 Птн 11:44:22 #232 №1205058

>>1205050
Нахуй мне скорость если это лоботомит.
Репорти на здоровье, а я пока на жоре посижу.
>получить свой ежедневный заглот и съебаться в пустоту, чтобы не позориться дальше
Он реально думает что кого-то разъебывает в интернете... я тебя обидел?

Аноним 16/05/25 Птн 11:47:27 #233 №1205060

>>1205058
> Нахуй мне скорость если это лоботомит.
> Репорти на здоровье, а я пока на жоре посижу.
Вчера сладко отыграл на твоем Немотрончике 200 сообщений по 500 токенов без каких-либо багов.

Проблема в том, что лоботомит - это ты.
https://youtu.be/qzbtdclsJXw

Аноним 16/05/25 Птн 12:02:39 #234 №1205063

>>1205044
Хочу спихнуть на нейронку рутинные задачи

Аноним 16/05/25 Птн 12:02:45 #235 №1205064

Здесь кто-нибудь мистраль 24б из нищуков в 3 кванте катает? Я просто не могу понять: это квант мне так подсирает или тюн/мерж говно. Пробовал и 4 квант. Вроде разница есть, но не существенная. По ощущениям такая же залупа, только чуть более умная, чем 12б. Ну и в целом больше знаний, чем у 12б мистраля, но при этом инструкции соблюдает плохо.

Трусы снимаем так же - 2 раза - только перед этим чуть красивее их опишем. А может и нет.

Разве что аблитерация в 24б на 3 кванте ведёт себя адекватно, но всё же пишет сухо.

Аноним 16/05/25 Птн 12:07:15 #236 №1205065

>>1205060
Извини что так сильно проткнул.

Фаготы турбодерпа напоминают лапшеедов из соседнего треда. Им всегда важнее процесс пердолинга, а не результат. И они свято уверены, что они истина в последней инстанции. Про то, что не у всех все лезет в врам они не в курсе. Зато сидеть на Альфа/бете, где все ломается от чиха им норм. Сектанты-с

Не все, но наиболее вокальные

Аноним 16/05/25 Птн 12:07:30 #237 №1205066

>>1205064
>Я просто не могу понять: это квант мне так подсирает или тюн/мерж говно.
Это мистраль говно, купи 3090.

Аноним 16/05/25 Птн 12:08:42 #238 №1205067

>>1205064
Q3KM? Если по размеру помещается IQ4S, лучше катай его. Чуть медленнее генерирует, но мозги почти на уровне Q4KM.
> Трусы снимаем так же - 2 раза - только перед этим чуть красивее их опишем. А может и нет.
Происходит повсеместно и на 32б моделях, и дальше. Но этого можно и избегать, от промпта и от того как ты пишешь многое зависит. Плюс Мистрали 24б разные бывают. Dan's Personality Engine - золотой стандарт из последнего.

Аноним 16/05/25 Птн 12:09:53 #239 №1205068

image.png

>>1205065
>>1205065
Ты зачем за меня пишешь?

Аноним 16/05/25 Птн 12:12:22 #240 №1205069

>>1205065
8гб врам спок.
Неприлично влезать в чужие разговоры, да еще и не понимая, о чем идет речь.

Аноним 16/05/25 Птн 12:39:37 #241 №1205100

>>1205068
>>1205069
Вы два долбоеба. Эта борда, если хотите пиздеть вдвоем, то пиздуйте нахуй отсюда в лс тг и ебитесь там друг с другом
мимо другой анон

Аноним 16/05/25 Птн 12:41:29 #242 №1205105

>>1205100
Ёбаный рот... Какие же идиоты все-таки тут сидят.

Аноним 16/05/25 Птн 12:43:59 #243 №1205108

>>1203694 →
Угараешь? В январе-апреле 2023.
И 60% кэшбека в зеленом.
Люди по 50к платили с учетом кэша за 4090.
Жаль я тогда проебался и взял 4070ти, ллм стрельнули через месяц… =(
Сэкономил, ебать, 20к, молодец.

Но, опять же, потом видяхи подорожали и ллм стали модными, и хуй там, купить уже было нельзя. Только если заранее было брать (или шарить в теме сильно).

>>1203803
Ну, с первом не сильно соглашусь, а со вторым да. =)

>>1203868
> теслашиз
Шиз тут только один — антитеслошиз, который поделил время генерации на длину контекст и получил 1 т/с и с тех пор у него улетела кукуха на юга и не вернулась.
Все остальные адекватные.

>>1203951
Нахуя дипсик, когда есть квен, кстати?

>>1204010
Да сразу 24, бери двухпроцессорную.
Че экономить.
Квен будет летать.

———
Дальше антитеслошиз порвался жопой as usually и тред не о чем.
———

>>1204815
> Всего 20к контекста
Квантованного? Говорят, мое плохо с квантованным контекстом работает.

> exl3 … 3bpw
Обещает же норм.

>>1204818
Что вы оба пидорасы, ведь есть квен.

>>1204983
Бля, еще бы скорость узнать, а не гадать на 6-10 токенов.
Но вообще норм, хотя третий квант.

>>1205036
Где такие берутся? В прочем, уровня треда, тут так и объясняют.

LLM — Large Language Model.
Где ты тут нахуй увидел «Local»?
А тред именно о локальных, локальные рисовалки, локальная музыка, локальные БЯМ (Большие Языковые Модели — так понятнее?).

Все. =) Недопонимание, надеюсь теперь ты разобрался.

>>1205050
3.0 bpw = IQ3_XSS? Ну так, мало ли.

>>1205063
OpenManus, n8n.
Второе пока не зашло, первое забавная штука.

Аноним 16/05/25 Птн 12:45:47 #244 №1205110

>>1205067
>Q3KM?

S. Чтобы полностью в карту влезть с 8к контекста и 12 врам. Ну это для кума. Для обычного РП использую 4 медиум и контекст больше с выгрузкой. Разница есть, но вот не прям чтоб тотальная. Хотя оценивать всё равно сложно, потому что кум совершенно не равноценен адекватному РП, когда ты хорошо и грамотно пишешь, даёшь модели нормальный ввод.

Если четвёртому кванту писать так, как я пишу при куме - в одной хуй, в другой буквы и три слова - то и он тупеет значительно и пишет хуже.

Так что у меня вообще возникают сомнения относительно того, стоит ли такой маленький квант для кума использовать в принципе, потому что 12б не то чтобы сильно отстаёт именно в куме. Буквально 50/50%. Может даже лучше.

>Dan's Personality Engine

Я как раз его и использую, и вот в обычном РП он хорош, а с кумом сразу какая-то ебатория начинается, хотя далеко не всегда. Возможно, ещё от карточки зависит - отлично прописанная карточка на нём хорошо может играться, а на 800 токенов выдаёт жалкий дрист поехавшего, но в то же время 12б нормально с ней обращаются. Однако сидеть и тестировать под лупой, перебирая модели, выводы, совершенно не хочется.

>IQ4S

А вот такие кванты я почти не вижу, увы.

Аноним 16/05/25 Птн 12:48:49 #245 №1205115

>>1205067
>Чуть медленнее генерирует
Все пишут про эту хуйню, но у меня на 4060ti генерирует одинаково
И еще IQ4S<Q4KS<Q4KM, так что там разница присутствует и она явно не "почти". Только с Q5 разница маленькая

Аноним 16/05/25 Птн 12:54:32 #246 №1205117

>>1205115
Раньше я на IQ4S получал замедление процентов на 30-40, но катнул давеча и вообще разницы не увидел.
Как AVX и AVX2, раньше была разница 30%, щас уже нет.

О — оптимизации Жоры.

Аноним 16/05/25 Птн 12:56:01 #247 №1205118

>>1205064
>квант мне так подсирает или тюн/мерж говно
Может и то, и то одновременно. Плюс еще хуевые настройки чата, хуевая карточки или хуй еще что.
А вообще я как то тестил Qwen3 на 32b IQ3M и на 14b Q6. Старшая модель генерировала много бреда. Так что квант важен. Лучше не ниже Q4KM

Аноним 16/05/25 Птн 13:07:41 #248 №1205128

Можно чем-то распознавать таблицы со скана? Видеокарты нет, есть 50 ГБ оперативки и старый Xeon.

Аноним 16/05/25 Птн 13:26:53 #249 №1205142

>>1205118
>>1205115

Сейчас вот ещё провёл небольшой тест 24б разных на сообщений 50 специально, чтобы было более чётко видно. Взял два чата со средним контекстом около 6к - кумерский и рп - и регенерировал сообщения или продолжал чат.

Отупление есть, но всё же, мне кажется, КРАЙНЕ ВАЖНО, ванильная модель/аблитерация там или нет при уменьшении кванта до лоботомированного 3 смолл. Ванильная или аблитерация держится вполне стойко: тупеет, но особо не шизеет, тюн/мерж - плывут, но в некоторых случаях пользоваться можно и будет лучше 12б.

По третьим квантам тюнов/мержей: именно Dans-PersonalityEngine, который должен быть более стойким по идее, в третьем кванте в куме сильно сплоховал, в РП ещё как-то терпимо, на грани. Стоп-слово сразу сливается в дикий бред и слоп в большинстве случаев. Блэкшип непонятный - вроде можно использовать в любых сценариях и пишет хорошо, но может внезапно "съехать". Всякие омеги/трансгресии даже лучше не трогать - там и в четвёртом тяжко, а в третьем ещё хуже.

А вот Broken-Tutu малоизвестный именно в куме, ну.. показал себя терпимо. Возможно, им можно пользоваться.

>Плюс еще хуевые настройки чата, хуевая карточки или хуй еще что.

Да. Но карточка ещё ладно и систем промпт. Если квант нормальный, то обычно ошибки прощаются. А вот с шаблона порой мне жопу рвёт, потому что он может кардинально менять вывод и сами тюнеры не знают, какой ставить, чтобы нормально было. Обычно используют чатмл и говорят пользоваться им, но на практике может выясниться, что вся шиза пропадает и токены уже не коричневыми становятся в ряде ситуаций на стандартном мистралевском шаблоне.

Аноним 16/05/25 Птн 13:27:46 #250 №1205144

image.png

Насчет квантов и ризонинга
Qwen3 32b IQ3M не знает когда основали Российскую империю, но подумав минуту все же получает правильный ответ. Qwen3 14b Q5Xl без раздумий отвечает правильно. И да, квен во второй попытке ответил правильно, потому что выделил два абзаца на подумать об этом

Аноним 16/05/25 Птн 13:30:38 #251 №1205150

Аноны, есть в общем гемма, форготен, снежный, ну в общем основные модели.
Хочется сейчас исключительно чистейшего, незамутненного кума. Я заебался их уже настраивать и метаться между моделями.
Всё таки - что выбрать, чтобы слопом и смегмой залило чат ?
Немотрон не предлагать, он в 16 не влезет от слова совсем.
Пототому что остальное я киду на оче быструю оперативу, но тут скорость будет слишком медленная.

Аноним 16/05/25 Птн 13:33:05 #252 №1205156

Почему никто ещё не выпустил модели только под рп и чатинг?
Все за какими то айти, матаном, знанием 300 языков гонятся, когда уже есть квен и гемма.
Вот амд поняли что не потянут конкуренцию и делают процы, а в ллм все пытаются подражать

Аноним 16/05/25 Птн 13:33:10 #253 №1205157

дитя моё.mp4

>>1205150

Аноним 16/05/25 Птн 13:35:30 #254 №1205159

>>1205157
Предлагаешь передернуть на библию ?
Пожалуй откажусь.

Аноним 16/05/25 Птн 13:38:00 #255 №1205164

>>1205150
>Всё таки - что выбрать, чтобы слопом и смегмой залило чат ?

У меня так только на магнуме и магнуме КТО было. И ещё на паре 12б моделей.

Форготтен мне не зашёл.. Он часто ведёт себя непредсказуемо по сравнению с ними. Совсем. Хотя один из самых слоповых и смегмовых.

Рекомендую попробовать блэкшип 24б. Он может такое выдавать более красиво.

Гемма и снежный здесь значительно слабее, если тебе нужно именно такое.

Аноним 16/05/25 Птн 13:38:30 #256 №1205165

>>1205150
Модели ReadyArt. Они все для кума, на разный вкус и цвет.
Самой умной и в то же время нейтральной считается Forgotten Transgression. Но там и описания смачные.
Broken Tutu - самая последняя из всех.
Остальные вроде про жестокость и самые разные поехавшие фетиши.

А вообще не забывай, что модель - полдела. Важна карточка и то, как ты пишешь тоже.

Аноним 16/05/25 Птн 13:39:31 #257 №1205169

1000017396.jpg

>>1205150
> Немотрон не предлагать, он в 16 не влезет от слова совсем.
С exl3 2:0bpw влезет

Аноним 16/05/25 Птн 13:40:01 #258 №1205172

IMG4350.webp

>>1205169
Я тебя съем

Аноним 16/05/25 Птн 13:53:07 #259 №1205185

Снимок экрана 2025-05-16 133720.png

Снимок экрана 2025-05-16 133537.png

image.png

>>1205067
>>1205117
Потестил IQ4S и Q4KS, разницы в скорости нет ни в бенче, ни в чате. Тестил на 4060ti

Аноним 16/05/25 Птн 13:55:16 #260 №1205187

>>1205156
>модели только под рп и чатинг
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane

Аноним 16/05/25 Птн 14:12:11 #261 №1205208

Попробовал Llama-3.1-70B-Instruct-exl3 2:25bpw и мне не понравилось.
Пока что хз для кого эти новые кванты, у тебя выбор либо 32б либо 70б, 32б и так влезает с запасом, 70б всё ещё не влезает совсем никак, немотрон - единственное исключение, больше таких не будет я думаю.
Извините что там ниже 24гб врам я не считал

Аноним 16/05/25 Птн 14:12:40 #262 №1205211

Commander.png

>>1205150
Усталость. Истощение. Отчаяние. Посреди круговорота мыслей Анон словно бы слышит слова, что доносятся до его разума подобно завываниям ветра. Едва разборчивый, словно загробный голос внешней силы. Чего-то большего.

"...Коммандер... Комма-а-а-а-а-нде-е-е-р!..."

(Кум модели не нужны. Они слишком глупые и не следуют карточке персонажа. Может и будет интересно первые пару-тройку раз, но скоро придет осознание, что все идет по одной ветке)

Аноним 16/05/25 Птн 14:17:47 #263 №1205217

>>1205208
>Попробовал Llama-3.1-70B-Instruct-exl3 2:25bpw и мне не понравилось.
Что именно не понравилось?

Аноним 16/05/25 Птн 14:18:47 #264 №1205219

>>1205108
> Угараешь? В январе-апреле 2023.
От кума вообще ничего не видишь?

СОРОК ВОСЕМЬ

Были где когда по 135, ало? Обычных 24 все себе тогда накупили, это понятно.

Аноним 16/05/25 Птн 14:18:55 #265 №1205220

image.png

Аноним 16/05/25 Птн 14:20:29 #266 №1205221

>>1205128
FineReader в помощь. Забытые технологии древних. ЛЛМ здесь вообще не нужно

Аноним 16/05/25 Птн 14:21:33 #267 №1205225

>>1205217
Что это лоботомит ебаный а чего я ожидал собственно

Аноним 16/05/25 Птн 14:28:29 #268 №1205235

>>1205220
Ты посмотри на график. 4bpw практически ничем не уступает 8bpw.
Ахуенно Гемму жмыхнуло, невероятно эффективно. Интересно попробовать, жду мёрджа в main ветку.

Аноним 16/05/25 Птн 14:35:42 #269 №1205239

>>1205164
> блэкшип 24б
О, это еще не тыкали. Спасибо.

>>1205165
А слона то я не заметил, у них же там линейки. Надо потыкать. Спасибо.

>>1205211
Командр хорошая моделька, умная, но ты никогда не задумывался, почему она не снискала популярности ?
Почему тот же тюн драммера все оценивают как - meh ?
Потому что если ты хочешь по настоящему поебаться, ты скачиваешь командр. Это самая капризная к настройкам модели на моей памяти, если на те же мистрали пресетов просто вагон, то тут нихуя. Если на гемме, в принципе, достаточно крутить температуру, то тут при кривом семплинге - он будет лупиться как блядина.
А кохерки, видимо, считают ниже своего достоинства выкладывать вменяемые семплеры настройки.
Нахер, я с него сгорел. Нет в этой модели того, что стоило бы такой ебли.

Аноним 16/05/25 Птн 14:39:56 #270 №1205241

>>1205220
>>1205235
Циферки странные. У него IQ4S>Q4KM и 5bpw>6bpw. Еще он не тестит IQ3M, которая при меньшем весе по всей видимости будет примерно как его 3.5bpw. Да и IQ4S весит меньше, но по его тестам лучше чем 3.5. Ну и 4bpw~8bpw тоже очень сомнительно

Аноним 16/05/25 Птн 14:40:09 #271 №1205242

>>1205239
> Командр хорошая моделька, умная, но ты никогда не задумывался, почему она не снискала популярности ?
Задумывался, конечно. И думаю, мы сходимся в ответе:
> Это самая капризная к настройкам модели
> если на те же мистрали пресетов просто вагон, то тут нихуя

Однако вместе с тем знаю людей, которые крутят 70б модели и считают, что до 70б ничего лучше Коммандера нет. Особенно первого, который 35b с очень тяжелым контекстом. Но у меня он не помещается, потому довольствуюсь тем, что есть.

Когда доразберусь с оптимальным пресетом - поделюсь в тредике, может попробуешь еще раз.
Боюсь делиться, но раз уж обещал анону вчера - сделаю. Очень уж тут много хейта в сторону Коммандера. Людям нужно самое простое в освоении и управлении.

Аноним 16/05/25 Птн 14:41:39 #272 №1205244

>>1205242
>знаю людей, которые крутят 70б модели и считают, что до 70б ничего лучше Коммандера нет
А немотрон они пробовали?

Аноним 16/05/25 Птн 14:43:53 #273 №1205246

>>1205244
Да. Но им незачем его использовать, потому что у них есть полноценная Ллама на 70б.
Им не понравился Немотрон. Слишком много пердолинга нужно, чтобы избавиться от его ассистентской натуры. Тот пресет, который я присылал пару тредов назад, норм, но и туда это проникает.
Собственно, поэтому на него и нет ни одного тюна. Вырезать это из Немотрона почти невозможно.

Аноним 16/05/25 Птн 14:48:43 #274 №1205256

.png

Кстати о врамлетах. Пикрел: какие ещё причины остались не попробовать рп/ерп на любые темы на любом языке включая хороший русский даже если у тебя процессор вместо видеокарты? Когда-то пытались на 70B на одной карте играть, и это было медленнее.

Это моэшный Qwen3-30b на голом проце вообще без единого слоя выгрузки на вк. И очевидно, что он даст всем меньше 27B. А если есть любая другая видяха - будет еще быстрее. Мне кажется тред пора перестать считать гейткиповским по железу и в шапку добавить, что наличие вк уже не догма.

Аноним 16/05/25 Птн 14:49:31 #275 №1205257

>>1205242
Командр-р который или стар командр-р?

Аноним 16/05/25 Птн 14:51:32 #276 №1205258

>>1205242
> Людям нужно самое простое в освоении и управлении.
Люди в большинстве случаев приходят подрочить, а не думать. Не удивительно.
Я до сих не могу поверить, что ни одна корпа не сделала дочку с каким нибудь названием “CumCorporation” и не перевела свою корпомодель на порно рельсы. Золотая же жила. С одной стороны у тебя Гугл с их геминьками, а с другой порнодудл с еблей меховых жоп на порногеминьке.

Аноним 16/05/25 Птн 14:52:47 #277 №1205261

>>1205257
Лог, что я прислал выше, это Star-Command-R-Lite (мёрдж с базовой моделью 08 2024 32b)

Аноним 16/05/25 Птн 14:53:22 #278 №1205263

>>1205256
А че так грустно? У меня на процессоре генерация от 18 начинается в 4 кванте.

А в шапку реально нужно упоминание что есть модель для cpu only

Аноним 16/05/25 Птн 14:53:38 #279 №1205265

>>1205256
Слушай, я честно пытался в квен. Вот зуб даю - но он пишет как дегенерат. Он проебывает контекст.
ИЧСХ снежный, который по сути его бета - работает кратно лучше.

Аноним 16/05/25 Птн 14:54:56 #280 №1205267

>>1205257
Стар коммандер от драммера. Пробуй. Но я тебя предупреждаю, он не ебически меняется от семплеров. Не просто так тут к нему в треде основное отношение - наверное норм

Аноним 16/05/25 Птн 14:56:34 #281 №1205268

>>1205263
> А че так грустно? У меня на процессоре генерация от 18 начинается в 4 кванте
Может дело 4 плахах не самой быстрой ддр4.

>>1205265
> Слушай, я честно пытался в квен. Вот зуб даю - но он пишет как дегенерат. Он проебывает контекст.
> ИЧСХ снежный, который по сути его бета - работает кратно лучше.
Ну возможно. Но ты сам оцени - ты его сравниваешь с чистым плотным 32B. А речь вообще о принципиальной возможности играть тем, кто "вчера" еще даже подумать не мог. И очевидно, что это даже несравнимо лучший опыт, чем мусор 0.8B-2B, которые раньше предлагалось на проце крутить.

Аноним 16/05/25 Птн 15:00:27 #282 №1205270

>>1205256
Сойдёт как нищуковская модель, но только для тех, кто 12б с трудом крутит, и даже в этом случае вопрос — а нахуя? Ему скорость нужна 20 токенов в секунду при 8к контекста минимум, а если там 16к, то вообще отсос начинается.

Даже при 20 токенах ты будешь рыдать от негодования, потому что на 800 токенов он думает, на 400 отвечает. Сидишь и ждёшь как мудила.

Ризонинг отключать нельзя ни в коем случае: пишет как полный дегенерат, контекст вообще держит на уровне магнума 12б в 4 кванте с задранной температурой и predatory smile слопом. А может и хуже.

Аноним 16/05/25 Птн 15:03:00 #283 №1205274

>>1205256
30b~14b. Для нормальной работы 30b нужен хороший проц и быстрое озу. Для 14b нужно 12гб врама и карта вроде 3060, которая продается за 20к на вторичке и 25к новая. Так что CPU если это не M4 Max или топовые рязани скорее сосут чем нет. И да, цифры на пике говно
>>1205263
Ты без контекста тестил или проц мощнее. Вот например мои цифры >>1184513 →

Аноним 16/05/25 Птн 15:05:25 #284 №1205275

>>1205274
> цифры на пике говно
Это 12к контекста, я даже забыл, то в большом чате регенерейт тыкал

Аноним 16/05/25 Птн 15:05:56 #285 №1205277

1000017402.png

>>1205235
>>1205241
>>1205220
> гемма

Аноним 16/05/25 Птн 15:08:17 #286 №1205278

Всё я закончил наконец с Fallen-Gemma от поставщика неплохих тюнов и мержей и автора вина тысячелетия (цидоньки) - драммера.
Вердикт - Гемма абсолютно не приспособлена для мержей и тюнов.
Не тратьте своё время. Модель шизит, пишет криво и самое обидное - главная фича геммы, её работа с конекстом и ум проёбаны безвозвратно.
Очень плохо. Но гемма всегда была сама по себе, как модель. Особенности гугла, они очень не любят когда их продукты трогают кривыми ручками.

Аноним 16/05/25 Птн 15:08:46 #287 №1205279

>>1205268
>Может дело 4 плахах не самой быстрой ддр4.
У мне все это на 4 канальном зионе крутится, так что там тоже 4 вялые планки ддр4, ну правда скорости под 55гб/с
Но это не какой то супер топ, так средне.

Для начала запускай сpu only, без выгрузки на видеокарту кеша.
Потом выбирай только кванты без iq, Qwen3-30B-A3B-UD-Q4_K_XL или вобще Qwen3-30B-A3B-UD-Q2_K_XL. 2 квант кстати хорошо работает, лучше чем на плотных моделях.
В третьих на генерацию ставь все ядра процессора, а на блас - все ядра с гиперпотоками.
Или для llama-server в моем случае это -t 7 -tb 14

Ну а вобще проблема может быть в процессоре или в том через что ты запускаешь, я например для него отдельно скачиваю релиз llama.cpp
llama-b5379-bin-win-cpu-x64.zip
например из свежих.
В той же llama.cpp сборке с куда без выгрузки слоев на видеокарту все равно медленнее чем на cpu only на 4-5 токенов в секунду в начале.

>>1205274
Ну вот у меня так себе сборка на зионе, на 16к скорость падает до 8 т/с на 4 кванте. 8 ядер 32 рам
Использую в скриптах с контекстом до 4к, так что ему заебись.
В длинные контексты уходить нет смысла, на какую то одну задачу лучше свой новый чат создавать и там ее мусолить в 4-5 ответах сетки. С ризонингом сетка могёт и дает хорошие и быстрые ответы, мне нравится

Аноним 16/05/25 Птн 15:09:12 #288 №1205280

>>1205277
> русик

Аноним 16/05/25 Птн 15:09:36 #289 №1205282

>>1205270
Не ну ты гипербализируешь, все не так хуево

Аноним 16/05/25 Птн 15:10:44 #290 №1205283

>>1205268
>И очевидно, что это даже несравнимо лучший опыт, чем мусор 0.8B-2B, которые раньше предлагалось на проце крутить.

Не, если так смотреть - та завалил своё ебало. Тут ты прав.

Аноним 16/05/25 Птн 15:11:29 #291 №1205284

>>1205270
Еще год назад 24гб-бояре не могли с таким комфортом рпшить, как сейчас могу цпу-онли. Ты УЖЕ сравниваешь тяжелые модели с этим квеном

Аноним 16/05/25 Птн 15:15:45 #292 №1205291

>>1205221
FineReader денег стоит. Да и результат у него далеко не 100%.

Аноним 16/05/25 Птн 15:21:55 #293 №1205296

изображение.png

Как кстати забавно UD кванты скомпанованы, это
Qwen3-30B-A3B-UD-Q2_K_XL.gguf на 11гб
А второй это Qwen3-30B-A3B-UD-Q4_K_XL.gguf на 17 гб

Аноним 16/05/25 Птн 15:24:02 #294 №1205298

>>1205277
Мой некромант его разговорит, не волнуйся

Аноним 16/05/25 Птн 15:35:13 #295 №1205304

>>1205164
>блэкшип 24б.

ARGHHHHH, я уже минут 20 ищу черный корабль, а это, блять, черная овца.

Аноним 16/05/25 Птн 15:38:03 #296 №1205308

Ну и кстати на ik_llama.cpp скорости Qwen3-30B-A3B будут и пизже и обработка промпта выше в разы, скорость генерации так же выше на треть и падает медленнее.
Только его под винду хуй соберешь, а готовых релизов они не делают

Аноним 16/05/25 Птн 15:44:37 #297 №1205310

>>1205308
еще б понимать, как его нормально заставить на проце работать

Аноним 16/05/25 Птн 15:47:06 #298 №1205314

>>1205310
А что не так? Ключи запуска кстати для мое это -fmoe -fa -rtr
https://github.com/ikawrakow/ik_llama.cpp/discussions/258

Аноним 16/05/25 Птн 15:52:37 #299 №1205316

image.png

>>1204983
>>1205108
Хуйня продолжает дешеветь
На счет скоростей, они очевидно будут низкие, но не черепашьи.
Вот на планшетоноуте запустили с 11тс, но там Q2XL. И там модели лучше на встройке запускать. Она как 3060, но с 96 врама (озу)
https://www.reddit.com/r/LocalLLaMA/comments/1kd5rua/qwen3_235ba22b_on_a_windows_tablet_111ts_on_amd/

Аноним 16/05/25 Птн 15:53:05 #300 №1205317

>>1205308
> под винду хуй соберешь
А может кто-то собирает? Фон FA или Triton собирали же и выкладывали под шиндовс

Аноним 16/05/25 Птн 15:58:37 #301 №1205325

>>1205317
Хз, не видел. Там разраб и сам не знает как собрать хехе
Они там на линуксе все в основном и мне кажется даже оптимизаций сборки под винду не делали

Аноним 16/05/25 Птн 16:01:58 #302 №1205330

>>1204983
>>1205316
Там нет видеокарты.

Аноним 16/05/25 Птн 16:07:17 #303 №1205335

>>1205330
Нихуя ты наблюдательный

Аноним 16/05/25 Птн 16:10:24 #304 №1205337

>>1205325

bartowski1182
Jan 23, 2025

Out of curiousity, do you intend to maintain this fork as an alternative to llama.cpp perpetually? or is it more of a testing grounds before upstreaming?

wondering if it's worth recommending people run this specifically for better performance or if it's more of a "bleeding edge" kind of project that people should just wait to get later when it's more ready
2 replies
@ikawrakow
ikawrakow
Jan 23, 2025
Maintainer Author

Out of curiousity, do you intend to maintain this fork as an alternative to llama.cpp perpetually? or is it more of a testing grounds before upstreaming?

Nothing is perpetual in this world 😃

But no, I have no intention to be upstreaming to llama.cpp.

It is also a bit of a chicken and egg game: I'll only get a more significant number of users if people know (or at least expect) that I'm seriously committed to his project and the project gets advertised around social networks, but I can only know if I want to seriously commit to maintaining this project long term for a significant number of users if I already have many users and have dealt with the associated bug reports and feature requests 😃

As it stands, this project is only useful for technical users who are not scared to build the project themself (no docker images and pre-build binaries), and are using one of the platforms I develop/test on (Linux and macOS, AVX2 or ARM_NEON CPUs, newer Nvidia GPUs). It may or may not work on Windows/Android/etc, old Nvidia or AMD GPUs, etc. I absolutely don't have the bandwidth (or desire) to be supporting every operating system and computing platform under the sun, including 10+ year old CPUs and GPUs, and obscure platforms used by exactly 3 people in the worlds, as llama.cpp does.
@bartowski1182
bartowski1182
Jan 23, 2025

yeah that makes sense! would be cool to see someone attempt to upstream some improvements but I understand your lack of desire considering it's probably quite the headache

Good to know though you intend to keep this going for at least awhile

Аноним 16/05/25 Птн 16:12:22 #305 №1205341

>>1205314
видимо раньше что-то не так делал, оно генерировало токенов 100 и сегфолтилось.

Ща тестанул, похоже скорость выше, но падает быстрее.

>INFO [ print_timings] prompt eval time = 50.42 ms / 1 tokens ( 50.42 ms per token, 19.83 tokens per second) | tid="125344723724288" timestamp=1747400511 id_slot=0 id_task=560 t_prompt_processing=50.423 n_prompt_tokens_processed=1 t_token=50.423 n_tokens_second=19.832219423675703
>INFO [ print_timings] generation eval time = 73906.76 ms / 1055 runs ( 70.05 ms per token, 14.27 tokens per second) | tid="125344723724288" timestamp=1747400511 id_slot=0 id_task=560 t_token_generation=73906.764 n_decoded=1055 t_token=70.05380473933648 n_tokens_second=14.274742160271014
14.27 т/с после чуть больше тыщи токенов

Kobold:
>CtxLimit:1237/16384, Amt:1214/4096, Init:0.00s, Process:0.05s (21.28T/s), Generate:66.52s (18.25T/s), Total:66.56s

И нихуя оно не быстрее, мне 14 токенов показалось нормальной скоростью, только потому что обычно в чат уже насрано.

Ну и хуйня, короче, мб еще с видяхой было бы норм, но тут уж пусть кто другой тестит

Аноним 16/05/25 Птн 16:14:24 #306 №1205342

>>1205316
>Хуйня продолжает дешеветь
Рынок оценил её как ненужную, расходимся.

Аноним 16/05/25 Птн 16:16:45 #307 №1205345

>>1205341
Паузы перед запятыми делает во время запуска?
Попробуй вот эти ключи -fa -fmoe
Если паузы во время генерации будут то добро пожаловать в
https://github.com/ikawrakow/ik_llama.cpp/issues/380

На сколько я понял даже если собирается то работает конкретно квен 30b хуево

Аноним 16/05/25 Птн 16:32:44 #308 №1205349

>>1205345
Действительно делает.

Ну думал дать ему еще шанс, тест на плотной 12б модели, падает в сегфолт с любыми ключами запуска (и без них).

Ну и нахуй оно такое нужно? Сплошная ебля без какого либо профита. Разве что уж оно творит какое-то чудо с дипсиком

Аноним 16/05/25 Птн 16:41:21 #309 №1205354

>>1205349
Ну вот считай без пауз бы было на треть быстрее генерация.
Я когда собирал то плотные модели работали кстати, и быстрее чем в llama.cpp
Но видимо там были новые коммиты и доломали даже их, кек

Вот разраб сравнивает падение скоростей в ik_llama.cpp и llama.cpp

https://github.com/ikawrakow/ik_llama.cpp/issues/380#issuecomment-2850882301

Как видишь скорости лучше, но собрать хз как.

Я щас снова попробую собрать, надо только вновь накатить визуал студио билдер.
Но раз у тебя не вышло значит и у меня скорей всего будет шляпа.

Аноним 16/05/25 Птн 16:50:41 #310 №1205371

>>1205349
Попробуй так сделать, я пока не могу. И попробовать с clang как в последнем абзаце

Building for Windows (x86, x64 and arm64) with MSVC or clang as compilers:

Install Visual Studio 2022, e.g. via the Community Edition. In the installer, select at least the following options (this also automatically installs the required additional tools like CMake,...):
Tab Workload: Desktop-development with C++
Tab Components (select quickly via search): C++-CMake Tools for Windows, Git for Windows, C++-Clang Compiler for Windows, MS-Build Support for LLVM-Toolset (clang)
Please remember to always use a Developer Command Prompt / PowerShell for VS2022 for git, build, test
For Windows on ARM (arm64, WoA) build with:

cmake --preset arm64-windows-llvm-release -D GGML_OPENMP=OFF
cmake --build build-arm64-windows-llvm-release

Building for arm64 can also be done with the MSVC compiler with the build-arm64-windows-MSVC preset, or the standard CMake build instructions. However, note that the MSVC compiler does not support inline ARM assembly code, used e.g. for the accelerated Q4_0_N_M CPU kernels.

For building with ninja generator and clang compiler as default: -set path:set LIB=C:\Program Files (x86)\Windows Kits\10\Lib\10.0.22621.0\um\x64;C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.41.34120\lib\x64\uwp;C:\Program Files (x86)\Windows Kits\10\Lib\10.0.22621.0\ucrt\x64 bash cmake --preset x64-windows-llvm-release cmake --build build-x64-windows-llvm-release

Аноним 16/05/25 Птн 17:34:49 #311 №1205414

>>1205068
>>1205100
Извините, что забываю что здесь давно не аиб, а филиал уютненьких конф в телеге.

Всем чмоки в этом чатеге

Аноним 16/05/25 Птн 17:44:21 #312 №1205419

>>1205354
>Я щас снова попробую собрать
У меня собралось, кстати удобный у них бенч есть llama-sweep-bench.exe
Классно таблицу создает.
Тесты плотные модели проходят, думаю позже хорошо запустятся. Кстати на них с -rtr ключом буст скорости неплохой. Там идет какая та предварительная переупаковка квантов в рам перед запуском.

Аноним 16/05/25 Птн 18:14:16 #313 №1205446

Ананасики, я каким-то раком запустил 12Б КУАТ гемму на Нокии 3310 1050ти. Работает, но скорость - сами понимаете. Способы ускорить генерацию, не взорвав при этом пеку есть?
На угабуге сижу есчё.

Аноним 16/05/25 Птн 18:15:22 #314 №1205447

>>1205446
>Способы ускорить генерацию, не взорвав при этом пеку есть?
Купить видеокарту.

Аноним 16/05/25 Птн 18:16:38 #315 №1205453

>>1205447
Способы для нищуков ебаных
быстродополнение

Аноним 16/05/25 Птн 18:25:32 #316 №1205456

>>1205453
Купить нищекарту. Уж 4500 наскребёшь?
https://www.ozon.ru/product/govno-parasha-1757264195

Аноним 16/05/25 Птн 18:32:42 #317 №1205460

>>1205446
Вряд ли. То, что ты ее запустил - уже чудо, цени что имеешь. Какой квант, какой контекст, какая скорость? Из любопытства.

Аноним 16/05/25 Птн 18:35:24 #318 №1205461

>>1205446
Скачай квант, чтобы влез весь в видяху. Я к примеру скачивал IQ_4 кванты на 12б модели это где-то 6 гб, и я грузил 40\49 слоев + проц, выходило 8т\с, сейчас же добрый анон показал что есть Qwen3-30B-A3B-UD, ее можно на проц или как я еще с выгрузкой. 11 т\с, и она по крайней мере 14б по мозгам

Аноним 16/05/25 Птн 18:38:54 #319 №1205464

>>1205456
4500 наскребу.
Надо будет ещё присмотреть док-станцию.

>>1205460
>квант
Q4_0, что Гугел дал, то и гоняю.
>какой контекст
В настройках 8К, в самом чате - только описание перса на 800 с копейками и моё первое сообщение на сколько-то там.
>какая скорость?
Низкая пиздец, сообщение генерит минут 5-7.

Аноним 16/05/25 Птн 18:41:55 #320 №1205466

.\llama-sweep-bench.exe -m B:\llm_all\Qwen3-30B-A3B-UD-Q2_K_XL.gguf -c 16000 -t 7 -tb 14 -fa -rtr -fmoe
Ну как то так, у меня запускает бенчмарк даже без ключей, но без них чуток печальней.

main: n_kv_max = 16128, n_batch = 2048, n_ubatch = 512, flash_attn = 1, n_gpu_layers = -1, n_threads = 7, n_threads_batch = 14

| PP | TG | N_KV | T_PP s | S_PP t/s | T_TG s | S_TG t/s |
|-------|--------|--------|----------|----------|----------|----------|
| 512 | 128 | 0 | 6.394 | 80.08 | 5.500 | 23.27 |
| 512 | 128 | 512 | 7.231 | 70.81 | 5.870 | 21.81 |
| 512 | 128 | 1024 | 8.044 | 63.65 | 6.481 | 19.75 |
| 512 | 128 | 1536 | 8.894 | 57.57 | 7.247 | 17.66 |
| 512 | 128 | 2048 | 9.702 | 52.77 | 7.130 | 17.95 |
| 512 | 128 | 2560 | 10.539 | 48.58 | 7.596 | 16.85 |
| 512 | 128 | 3072 | 11.308 | 45.28 | 7.463 | 17.15 |
| 512 | 128 | 3584 | 12.085 | 42.37 | 8.383 | 15.27 |
| 512 | 128 | 4096 | 12.969 | 39.48 | 8.849 | 14.46 |
| 512 | 128 | 4608 | 13.865 | 36.93 | 8.898 | 14.39 |
| 512 | 128 | 5120 | 14.594 | 35.08 | 11.139 | 11.49 |
| 512 | 128 | 5632 | 15.497 | 33.04 | 10.120 | 12.65 |
| 512 | 128 | 6144 | 16.380 | 31.26 | 10.122 | 12.65 |
| 512 | 128 | 6656 | 17.287 | 29.62 | 9.816 | 13.04 |
| 512 | 128 | 7168 | 18.021 | 28.41 | 11.481 | 11.15 |
| 512 | 128 | 7680 | 18.904 | 27.08 | 12.212 | 10.48 |
| 512 | 128 | 8192 | 19.924 | 25.70 | 12.592 | 10.17 |
| 512 | 128 | 8704 | 20.830 | 24.58 | 15.282 | 8.38 |
| 512 | 128 | 9216 | 21.861 | 23.42 | 12.993 | 9.85 |
| 512 | 128 | 9728 | 22.781 | 22.47 | 13.093 | 9.78 |
| 512 | 128 | 10240 | 23.749 | 21.56 | 15.377 | 8.32 |
| 512 | 128 | 10752 | 24.782 | 20.66 | 15.535 | 8.24 |
| 512 | 128 | 11264 | 25.676 | 19.94 | 15.673 | 8.17 |
| 512 | 128 | 11776 | 26.715 | 19.17 | 15.996 | 8.00 |
| 512 | 128 | 12288 | 27.497 | 18.62 | 19.946 | 6.42 |
| 512 | 128 | 12800 | 28.700 | 17.84 | 16.895 | 7.58 |
| 512 | 128 | 13312 | 29.515 | 17.35 | 16.694 | 7.67 |
| 512 | 128 | 13824 | 30.250 | 16.93 | 16.481 | 7.77 |
| 512 | 128 | 14336 | 31.383 | 16.31 | 18.713 | 6.84 |
| 512 | 128 | 14848 | 32.512 | 15.75 | 19.602 | 6.53 |
| 512 | 128 | 15360 | 33.267 | 15.39 | 20.185 | 6.34 |

Аноним 16/05/25 Птн 18:44:14 #321 №1205470

>>1205466
Но при запуске сервера эта сука тоже ставит паузы перед запятыми, кек.
Я не знаю были ли запятые в генерации бенчмарка и как он намерял скорости тоже хз.

Аноним 16/05/25 Птн 18:59:47 #322 №1205487

>>1204868
Да, иногда он работает лучше без всякого ризонинга. Так все сильно от сценария и действий зависит, большой квен может эпичнейшие фейлы ловить, самого себя на них инструктировать. Наиболее рофловый пример:
В начале переписываешься с чаров через сообщения в телефоне, стиль и спам эмоджами отыгрывает хорошо, заранее подметив что это хорошо. Потом встречаешься с ним лично - в перерывах между фразами тяночка продолжает тебе написывать и слать персики, уже подозрительно но может типа такой прикол. Стало интересно куда это может зайти, в итоге оно не перестало слать сообщения даже в процессе ебли, когда чар был в наручниках и повязке на глаза.
Ни одна из моделей на диске не повторила этот треш даже в том же загаженном чате после свайпов, сразу начинали описывать процесс нормально. А эта дура в синкинге вспоминает незначительный элемент из начала и на него триггерится.
>>1205015
>>1205047
Сразу проход в илитарность оформлять на ерунду, таки глубинные обиды вырываются наружу.
> нет ни одной причины его избегать
Скорость, проблемные кванты.
А насчет альфы - ею можно оправдать редкие недостатки, которые могут проявляться, а не ставить в минус. Объективно, эта альфа по уровню как стейбл жоры если не лучше.
>>1205108
> Квантованного?
Фп16, там мало контект потребляет.
> антитеслошиз
Такую херню только больной со смайликами мог придумать, земля пухом.

Аноним 16/05/25 Птн 19:47:26 #323 №1205521

Ну вот, начали обсуждать тут код и все кумеры бедняги попрятались по норам.

Аноним 16/05/25 Птн 20:02:36 #324 №1205556

>>1205219
Бля, я думаю, автор, к которому ты обратился, имел в виду «2 4090 были вдвое дешевле 1 4090 48». 2 раза по 100 = 0,5 по 400. =)
Другое дело, что 96 по 24 набрать становится уже тяжело — и слоты, и бп… Так что, да, одной только дешевизной не возьмешь, тут я соглашусь.

>>1205308
Тестил на квене 235б — разницы вообще не было.
И мой знакомый собирал так же — тоже разницы нет.

>>1205487
Все еще путаешь контекст и генерацию? Ок. =) Выздоравливай.

Аноним 16/05/25 Птн 20:05:10 #325 №1205559

>>1205556
Что ты несешь, старый долбоеб?

Аноним 16/05/25 Птн 20:07:10 #326 №1205562

>>1205556
> И мой знакомый собирал так же — тоже разницы нет.
Как собирали-то, под шин? Очень хочется попробовать тоже.

> становится уже тяжело — и слоты, и бп… Так что, да, одной только дешевизной не возьмешь
Угу. Типичный случай: в лучшей бытовой мп 4 слота, вставить хорошо если 3 можно. Больше уже - только всякие мангалы собирать, что прямо оче не хочется

Аноним 16/05/25 Птн 20:10:15 #327 №1205567

>>1205521
Хули нам анимешникам, ща пенсия перегрызет друг друга, корвалола нажрутся чтобы не откинуться от нервов, разойдутся и мы выползем.

Аноним 16/05/25 Птн 20:14:15 #328 №1205574

ComfyUI02307.png

ComfyUI02317.png

>>1205521
У треда три состояния: срач за модели, срач за железо, срач за инференсы.
Ну ладно. Есть еще четвертое, легендарного статуса, самое редкое - приходят добрые аноны и делятся контентом и находками. Кстати, господа кумеры, помогите выбрать обложку для карточки. 1 или 2?

>>1205567
Сцепились по пьяни и испортили всем праздник. И так каждую пятницу...

Аноним 16/05/25 Птн 20:15:33 #329 №1205580

>>1205574
Четвёртое состояние отменили после десятого треда.
Мимо ОП.

Аноним 16/05/25 Птн 20:16:31 #330 №1205583

>>1205580
Нужно стараться исправиться. Мы здесь все за один интерес воюем, к чему эти срачи?

Аноним 16/05/25 Птн 20:19:42 #331 №1205586

>>1205574
Первое лучше.

Аноним 16/05/25 Птн 20:20:15 #332 №1205588

>>1205583
А никак. Как только вышло более 1 модели и более 1 приемлемого средства интерференса, срачи стали неизбежны. Железо раньше вроде уже было, но не такой выбор, с выходом всяких там 5090 да версий с 48 гигами срачи в железе тоже стали неизбежны. Это великий фильтр такой.

Аноним 16/05/25 Птн 20:23:10 #333 №1205594

>>1205586
Тоже так думаю. Спасибо.

>>1205588
Не соглашусь. Это проблема восприятия, а не наличия выбора. Каждому подходит то именно то, что ему подходит. Зачем здесь все пытаются убедить остальных в том, что правы именно они - непонятно. Больше всего меня поразило, когда анон пришел поделиться радостью и прислал фотографию новой видюхи, и началась новая ветка срача: "а вот ЯЯЯЯ за эти деньги собрал бы три рига, еще и на ремонт осталось бы"
Хз, возможно, весь Двач такой. Сижу только на этой доске и еще одной. Там люди спокойнее.

Аноним 16/05/25 Птн 20:35:11 #334 №1205612

>>1205594
>Хз, возможно, весь Двач такой.
Все люди такие. Да и не только люди. Любые существа с разумом скатываются в срачи и погибают.

Аноним 16/05/25 Птн 20:51:39 #335 №1205623

>>1205562
Не, оба под линуксы.
Я поменял винду на линь по другой причине, но раз уж накатил линукс, то и ik_llama.cpp решил скомпилить.
Позапускал с разными флагами, разницы не увидел с лламой. Ее я тоже билдил, кстати.

Это было где-то дней 6 назад.

>>1205567
Поорал. =D
Так-то, деды тоже анимешники. =)

Аноним 16/05/25 Птн 21:09:09 #336 №1205644

>>1205623
>Позапускал с разными флагами, разницы не увидел с лламой.
У меня даже на сломанной скорость чтения выше минимум на треть

Аноним 16/05/25 Птн 21:54:30 #337 №1205676

1607236306245.jpeg

>>1205156
Тут как в жизни, для хорошего общения и грамотной речи человек должен обладать рядом знаний, навыками и кругозором. С быдло-обрыганом или инста-девочкой общаться быстро наскучит.
>>1205574
> помогите выбрать обложку для карточки
Освой генерацию в соответствующем треде и сделай лучше, обе - хтонь. Или зареквести там анимублядский более лоялен к такому, но на быстрый ответ не рассчитывай.
>>1205623
> деды тоже анимешники
Лагуна блейд тебе в анус, или что там постарше из мезозоя.
> поменял винду на линь по другой причине
> но раз уж накатил линукс, то и ik_llama.cpp решил скомпилить
> Ее я тоже билдил
Пикрел, только примазывание к линуксоидам. Про компиляцию ядра еще забыл написать.

Аноним 16/05/25 Птн 21:56:32 #338 №1205681

>>1205045
>ей видите ли нужна libcudnn.so.8, а не libcudnn.so.9.
оказалось, что всё проще. libcudnn на дебиане можно поставить и от тестинга и от стейбла в одну систему. В смысле они не переёбывают дерево зависимостей.
Держу в курсе. Очень хочу на себя лицо приттика натянуть и посмотреть как бы я выглядел если бы мне повезло.

Аноним 16/05/25 Птн 22:04:51 #339 №1205699

ComfyUI00301.png

>>1205676
> Освой генерацию в соответствующем треде и сделай лучше, обе - хтонь
Прямо сейчас осваиваю, я в этом мало понимаю. Именно такой стиль и нравится. Понимаю, что можно делать лучше (особенно глаза-руки, позы, заапскейлить мб), но там кажется, еще более поехавший тред. Лучше сам.

> Или зареквести там
Плохая идея. Не хочу ни с кем связываться и, думаю, много карточек буду делать. Правильнее освоить самому.

Аноним 16/05/25 Птн 22:07:58 #340 №1205705

Если у тебя есть годный ресурс на эту тему - буду признателен. Но в те треды ни ногой.

Аноним 16/05/25 Птн 22:11:05 #341 №1205709

>>1205705
>>1205699

https://civitai.com
Иди там в картинки, ищи те что понравятся, снюхивай промпты и негатив промпты в свой свой комфи, тыкай и учись
Качай там модели с нужным тебе стилем, у них так же есть рекомендуемые параметры генерации, тыкай их комфи и генерация будет лучше

Аноним 16/05/25 Птн 22:11:48 #342 №1205711

>>1205699
Вот эта уже выглядит лучше. Апскейл подразумевается по дефолту, косяки чинятся инпеинтом, детализация отдельных частей повышается им же но в другом режиме. Обычно сначала роллится удачная картинка, а потом или просто апскейл-улучшайзинг, или исправление проблем и то же самое. Базы тут слишком много чтобы в двух словах описать.
>>1205705
> Но в те треды ни ногой.
Зря, если просить вежливо то в худшем случае проигнорят или какой-нибудь шиз что-то отпишет, обычно наоборот помогают. Особенно если совпадешь с их фетишами

Аноним 16/05/25 Птн 22:15:22 #343 №1205718

>>1205709
Уже на Комфи и сижу. Лору натренировал на изображениях, что мне нравятся, ибо похожего не нашел.
Но спасибо.

>>1205711
> Зря, если просить вежливо то в худшем случае проигнорят или какой-нибудь шиз что-то отпишет, обычно наоборот помогают.
Что ж, может быть, если безнадёжно упрусь во что-нибудь - рискну. Буду иметь ввиду. Благодарю.

Аноним 16/05/25 Птн 22:29:12 #344 №1205742

>>1205644
А сколько? Давай затестим, сравним уж.
Может рил у меня хуйня какая.
Скажи квант, железо и скорость, подберем че-нить.

>>1205676
Покекал, но уже более 20 лет на линуксе на серверах, сорян.
Просто дома их не ставил.
Нет, нахуя мне ядро-то билдить, тащемта.
Ты сам-то не примазывайся, ньюфажина. =D

Аноним 16/05/25 Птн 22:45:22 #345 №1205755

>>1205742
>А сколько? Давай затестим, сравним уж.
Эх, ну вот у меня на llama.cpp в cpu релизе в бенче Qwen3-30B-A3B-UD-Q4_K_XL.gguf дает

.\llama-bench.exe -m B:\llm-all\Qwen3-30B-A3B-UD-Q4_K_XL.gguf -t 8 -r 2
pp512 | 54.97 + 1.01 |
tg128 | 20.18 + 0.20 |

А последний кое как собранный релиз ik_llama.cpp на винде
.\llama-bench.exe -m B:\llm-all\Qwen3-30B-A3B-UD-Q4_K_XL.gguf -t 8 -r 2 -rtr 1 -fa 1 -fmoe 1

pp512 | 77.19 + 1.11 |
tg128 | 20.30 + 0.25 |

На длинном контексте хз как померять, в ik_llama.cpp есть llama-sweep-bench.exe >>1205466
Он удобен, а в llama.cpp я его чет не видел

Аноним 16/05/25 Птн 22:52:43 #346 №1205763

>>1205100
>>1205414
Порядочный анон напишет
мимо проходил/другой анон
А ты как раз сюда из тележки и залетел.

Аноним 16/05/25 Птн 23:04:39 #347 №1205770

>>1205211
Да чем коммандер так хорош то?
Я не то что со сноудропом, с мистралем 22б разницы не вижу

Аноним 16/05/25 Птн 23:36:01 #348 №1205786

>>1205574
Вторую. Мне кстати нравится и пикча, и стиль

Аноним 16/05/25 Птн 23:41:21 #349 №1205789

>>1205623
>Позапускал с разными флагами, разницы не увидел с лламой. Ее я тоже билдил, кстати.
Я тоже заморочился и собрал. Разница есть, генерация быстрее процентов на 20 (15+ против 12+ т/с c нулевым контекстом), скорость промпт процессинга +- такая же, но: пересчитывается этот контекст по любому чиху. Вот с этой самой скоростью. Видимо такая совместимость с Таверной, а куда без неё? В общем неюзабельно.

Аноним 16/05/25 Птн 23:47:13 #350 №1205795

>>1205755
Тут промпт процессинг разный, а токен генерейшен одинаковый.

>>1205789
А тут генерация быстрее, а пп тот же.

Интересно, получается.
Ща сбилжу последний коммит, погляжу у себя.

Аноним 16/05/25 Птн 23:54:57 #351 №1205799

изображение.png

>>1205795
>Тут промпт процессинг разный, а токен генерейшен одинаковый.
У меня скорей всего упор в скорость рам идет на генерации, поэтому не увеличивается выше 20. В вот промпт процессинг можно до 90 поднять если указать гиперпотоки. С 8 ядрами только 81 максимум видел при разных тестах

Вот вам кстати кучу ключей на выбор
-mla 0,1,2,3
-fa 1,0
-rtr 1,0
-fmoe 1,0
-amb 0,512,1024

Только все сразу перебором в бенче не запустить максимум 3
пик
Там например запущено с такими
.\llama-bench.exe -m B:\llm-all\Qwen3-30B-A3B-UD-Q4_K_XL.gguf -t 8 -r 2 -mla 0,1,3 -fa 0,1 -rtr 1 -fmoe 0,1 -amb 0,512,1024
только получилось что fmoe был выключен, его явно нужно включать почему то

Аноним 17/05/25 Суб 00:07:39 #352 №1205815

>>1205799
>-mla 0,1,2,3
Это же только для Дипсика. Мало кто может это сделать(с)
>-fa 1,0
>-rtr 1,0
>-fmoe 1,0
Вкл/выкл?
>-amb 0,512,1024
"max batch size for attention computations". По дефолту он 0, видимо тоже для Дипсика? Ставил на 512, для квена разницы не увидел.

Аноним 17/05/25 Суб 00:10:09 #353 №1205819

>>1205799
>В вот промпт процессинг можно до 90 поднять если указать гиперпотоки.
У меня такое ощущение, что он чисто на mainGPU идёт. Ядра процессора вообще не напрягаются.

Аноним 17/05/25 Суб 00:11:36 #354 №1205822

>>1205815
>Это же только для Дипсика.
Работает и на квене, 3 вроде чуть быстрее
>Вкл/выкл?
Да, там так указывается
>Ставил на 512, для квена разницы не увидел.
У меня в пару токенов разница на чтение в +

>>1205819
Это ты как собрал так? С make что ли?
У меня весь процессор забивает на 14 потоках, на 8 половину

Аноним 17/05/25 Суб 00:28:27 #355 №1205833

>>1205799
Ихихихи.

Короче.

llama.cpp vs ik_llama.cpp
промпт в лламе выше
генерация в ик_лламе

Выше писали, что с нуля пересчитывает при таверне, надо зачекать.
Но 15% скорости возможно стоит того, чтобы перейти на ик_лламу, спасибо! =)

Аноним 17/05/25 Суб 00:39:09 #356 №1205848

изображение.png

Первый раз вижу что гиперпотоки увеличивают генерацию.
Короче из иклламы выжал максимум, на 14 потоках пик1.
пик2 лламаспп на 14 потоках.
Попробую с куда завтра собрать, но уже чувствую жопу.

Аноним 17/05/25 Суб 01:02:19 #357 №1205855

image.png

лицо треда

Аноним 17/05/25 Суб 02:13:27 #358 №1205881

ладно, я тоже по квену мое 235б отпишусь за кум.
Пишет хорошо. Действительно хорошо.
В thinking режиме даже если ты пишешь ему "я тебя ебу" - он будет сначала думать дохуя, а потом выдаст многогранный ответ.
Другое дело, что этото thinking режим съедает все плюсы от того, что это мое модель. Он думает по 600+ токенов. И это действительно становится утомительно ждать.
Вывод один - нужны карты лучше и нужно больше карт

Аноним 17/05/25 Суб 02:24:25 #359 №1205882

изображение.png

Аноним 17/05/25 Суб 02:47:45 #360 №1205884

>>1205881
>Вывод один - нужны карты лучше и нужно больше карт
Самое смешное, что вышло обновление Угабуги и там добавили поддержку Квена-234В в Экслламе-3. Врама мне хватило для загрузки 2,25bpw. Так вот: скорость генерации хорошая для таких размеров и QTIP-квантования, 10т/с в начале. Только вот UD_3KX с частичной разгрузкой в РАМ мне 12 даёт. Промпт процессинг небыстрый - заметно, как задачи переключаются с одного ГПУ на другой, и неоптимизировано - жрёт не весь паверлимит. Конечно быстрее, чем ГГУФ с выгрузкой в РАМ, но сильно медленнее, чем во второй экслламе. Короче пока недоделано.

Аноним 17/05/25 Суб 03:04:43 #361 №1205886

>>1205884
>вышло обновление Угабуги и там добавили поддержку Квена-234В в Экслламе-3.
У меня угабуга в ехл3 работает на 35% медленне чем таби.

Аноним 17/05/25 Суб 04:15:42 #362 №1205901

Внезапно вспомнил что у немотрона вообще то есть ризонинг
Мне с 15т/с и ~3.5 квантом страшно его включать, вдруг он хороший

Аноним 17/05/25 Суб 06:15:25 #363 №1205914

>>1205580
>Мимо ОП.
слышь, педрила, пиздуй шапку переписывать, у тебя там список моделей протухший давно

Аноним 17/05/25 Суб 06:28:16 #364 №1205915

изображение.png

А вы понимаете, что это значит? Почему они говорят о расположении текста со словами "близко" и "далеко"? Текст же последовательно идет. Сначала одно, потом другое. Вместо того, чтобы написать в каком порядке что вставляется, они пишут близко или далеко. Это программисты такие?

Аноним 17/05/25 Суб 06:29:12 #365 №1205916

а как в этой новой квен обходите цензуру? или уже файнтюны есть в природе?

Аноним 17/05/25 Суб 06:32:09 #366 №1205917

>>1205915
потом что енкодере/декодере слова представляют собой векторы в многомерном пространстве, а механизм внимания (тот самый благодаря которому существует нынешний прогресс в ллм), подразумевает близко/далеко ли находятся эти векторы в этом пространстве, объединяя их в области признаков (?)

Аноним 17/05/25 Суб 06:35:09 #367 №1205918

pep.png

>>1205917
Ааа... так значит это технолоджия.

Аноним 17/05/25 Суб 08:26:14 #368 №1205929

Держу в курсе: https://huggingface.co/Aleteian/PersonalitySaiga - вот эта неплохая для сториписатинга. В зависимости от ситуации.

Нужно писать типа "Придерживайся спокойного и легкого стиля. Легкий юмор и легкое беззаботное настроение. Оставайся в текущей ситуации. Не торопи события. Только настоящий момент. Сейчас Пупа и Лупа сидят на скамейке и разговаривают." - нужно подстраивать промпт под сцену, чтобы модель меньше стремилась все перевернуть к чертям собачьим, а то персонажи только сядут срать, как вскоре встанут и пойдут на рыбалку, поймают крокодила и сошьют сапоги, весело смясь и подшучивая, но понимая, что теперь с новыми сапогами они смогут пройти любой путь, полный приключений и свершений.

Аноним 17/05/25 Суб 08:39:48 #369 №1205934

Посоветуйте модели для сторитейлинга и для ролеплея (это же одни и те же, или разные?). Обязательно чтобы хорошо умели в русский язык. Желательное с поддержкой tool call и запускались через ollama.

Аноним 17/05/25 Суб 08:58:33 #370 №1205942

image.png

Сколько у вас получать ерпшить без члена в руках?
Я не могу, открываю чат через минуту уже стояк

Аноним 17/05/25 Суб 09:19:13 #371 №1205946

изображение.png

1336394117564.jpg

Это что за хуйня ещё? Вторую неделю юзаю этот ваш ЖПТ. Пиздел без остановки. В худшем случае попускали до версии 3.5 на три часа. Вчера он стал тупить, теряться в контексте, игнорировать общую память (хотя если спросить про её содержимое - то зачитывает). Сегодня вообще отправил несколько запросов на генерацию пикч (постоянно генерил не совсем то, что надо).

В итоге сообщений через 20 выдало вот такую хуйню. Это какой-то теневой полубан, или что? Что вообще происходит с ЖПТ?

Аноним 17/05/25 Суб 09:21:35 #372 №1205947

>>1205946
Тебе в другой тред.

Аноним 17/05/25 Суб 09:23:51 #373 №1205948

>>1205947
бля, сорян, пацаны.

Аноним 17/05/25 Суб 09:43:13 #374 №1205954

изображение.png

>>1205942
Нужно больше в искусство склоняться, чтобы чувства, эстетика.

Аноним 17/05/25 Суб 10:00:30 #375 №1205959

>>1205946
Предпологаю что система решила что запросы отправляются автоматом, что рано дудосу и обрезала тебя на время.

Аноним 17/05/25 Суб 10:22:00 #376 №1205969

>>1205929
Реально, не пизжу, нормальная. Например, когда завтрак, если диалог хуярить, реплики может сопровождать, отрезая кусочек оладьи или отщипывая полосочку бекона. Рутинную поеботрию при оформлении диалогаов хорошо костылит.

Аноним 17/05/25 Суб 11:12:46 #377 №1205990

>>1205969
Неплохо. Есть же индивидуумы, которые модели меняют когда кум, когда не кум. Эту будут чревоугодники для застольных бесед использовать.

Аноним 17/05/25 Суб 11:15:22 #378 №1205992

Ну что где там семплеры на коммандер ебанный в рот

Аноним 17/05/25 Суб 11:23:12 #379 №1205995

Как же я ненавижу ебаный язык негров, пидорасов и реднеков.

Аноним 17/05/25 Суб 11:23:54 #380 №1205997

Скорее бы вышла гемма 4 35б с идеальным русиком

Аноним 17/05/25 Суб 11:56:48 #381 №1206015

>>1205995
Aw shucks, lil' buddy, y'all look like yer 'bout ready to bust a gut! Ain't no need to be all tense an' riled up 'bout that there tongue-waggin' business. Heck, life's a real doozy, ain't it? Gotta learn to just kick back an' let 'er rip, ya hear? Ain't nothin' worth gettin' yer panties in a twist over. Jus' take a deep breath an' let them shoulders drop, 'fore ya end up all knotted up like a pretzel. Ain't no use workin' yerself into a tizzy over somethin' like that. Gotta learn to roll with the punches, ya know? Life's too dang short to be all wound up tighter'n a new pair o' boots.

Аноним 17/05/25 Суб 12:26:01 #382 №1206046

image.png

впервые вижу у драмера отзывы, реально хорошая модель?

Аноним 17/05/25 Суб 12:33:00 #383 №1206052

>>1205992
А волшебное слово?

>>1206046
У Skyfall и правда есть свои почитатели. Мне не слишком зашла.
Это как Кидонька, но жирнее. Все те же проблемы, но немного охотнее ведет и разнообразит нарратив.

Аноним 17/05/25 Суб 13:12:07 #384 №1206088

image.png

Какие реальные минусы использования антислоп сэмплера?
Заметил что мало кто его использует, разве это не киллер фича?

Аноним 17/05/25 Суб 13:13:47 #385 №1206090

>>1206088
Снижение скорости генерации.
Лоботомизация, если в бане слишком много токенов или строк.

Аноним 17/05/25 Суб 13:15:18 #386 №1206093

>>1206090
https://huggingface.co/Sukino/SillyTavern-Settings-and-Presets/blob/main/Banned%20Tokens.txt
Тут слишком много?
Я снижения не заметил, может на пол токена медленне

Аноним 17/05/25 Суб 13:17:44 #387 №1206096

>>1206093
Как понимаю, ты на Кобольде сидишь? Насчет него не знаю, там своя имплементация через АПИ Кобольда.
На Лламе и Экслламе снижение заметное, особенно с ростом контекста.

Аноним 17/05/25 Суб 13:20:35 #388 №1206100

По поводу лоботомизации - нужно понимать, как banned tokens/strings влияет на сэмплинг. С определенными настройками сэмплера это может быть и не так заметно, но если у тебя еще используются другие "ковровые" сэмплеры вроде top k, то отупление крайне заметное.

Аноним 17/05/25 Суб 13:22:21 #389 №1206104 DELETED

удалите хохляцкую хуйню из шапки

Аноним 17/05/25 Суб 13:23:10 #390 №1206106 DELETED

>>1206104
Пиши Абу и вали в /b, /po.

Аноним 17/05/25 Суб 13:39:54 #391 №1206115 DELETED

>>1206104
интересно, что это контекстная реклама, поэтому вопросики к тебе, а не к абу.
И кстати, какого это - быть лоботомированным дебилом в 2025 году? (я про браузер без адблока по умолчанию)
сдается мне ты и есть четырехкопытный, решил "русню потроллить" своей тупостью

Аноним 17/05/25 Суб 13:41:41 #392 №1206118 DELETED

>>1206104
>ряяяяяяяяяяяяя
Почему ты дрочишь, когда родина в опасности? На ЛБС.

Аноним 17/05/25 Суб 13:42:25 #393 №1206120 DELETED

>>1206115
Тебе скзали съебать на порашу, свинья.

Аноним 17/05/25 Суб 13:46:56 #394 №1206125 DELETED

>>1206120
от тцк уже сьебала свинья? в порашу животное!

Аноним 17/05/25 Суб 13:55:50 #395 №1206129

>>1205914
ОП только вносит списки, составляют их другие. Где список?

Аноним 17/05/25 Суб 14:15:03 #396 №1206147 DELETED

>>1206104
Жители 404 серьезно тратят деньги на это?

Аноним 17/05/25 Суб 14:16:22 #397 №1206150 DELETED

>>1206104
Репортим эту падаль, бро.

Аноним 17/05/25 Суб 14:17:35 #398 №1206154 DELETED

>>1206150
Сразу мизулиной и соловьёву стредхот и скрины, а то мочадмины харкача скорей всего не наши.

Аноним 17/05/25 Суб 14:35:26 #399 №1206170 DELETED

>>1206147
Это пресловутая многомиллиардная помощь Украине. За которую будут платить своими ресурсами.

Аноним 17/05/25 Суб 14:37:32 #400 №1206172

Тред продолжает шизеть, теперь вот за политику начали пиздеть.
Скрепно.

Аноним 17/05/25 Суб 14:46:19 #401 №1206177

Новый Квен-72В вышел, а вы тут о всяких зомбях срётесь. Стыдно должно быть.

Аноним 17/05/25 Суб 14:49:33 #402 №1206179

>>1205934
>ollama
Как называется эта болезнь.

Аноним 17/05/25 Суб 14:51:42 #403 №1206181

>>1205992
блять, я щас "семплеры" и "коммандер" в автоскрытие занесу

Аноним 17/05/25 Суб 14:53:06 #404 №1206184

>>1206088
хрень, замедляет генерацию, лоботомирует модель, свою цель - не выполняет

Аноним 17/05/25 Суб 14:55:14 #405 №1206185

>>1206177
>Квен-72В
что-то на бохатом

Аноним 17/05/25 Суб 14:55:52 #406 №1206186

image.png

>>1205934
>запускались через ollama
Любая модель gguf запускается через ollama. Можешь качать хоть сразу с обниморды
Для советов ты дал мало инфы. Напиши свое железо. И хотя бы рпшишь ты или дрочишь

Аноним 17/05/25 Суб 14:58:07 #407 №1206187 DELETED

}|{дY 53mрJlepbl Hа K0|v|m@nd3я

Аноним 17/05/25 Суб 14:58:40 #408 №1206189

>>1206181
Если бы эксперты кидали бы свои семлеры в тред, а не только выебывались, и оп наконец то бы обновил шапку и обновил список моделей и добавил к ним семплеры, то таких бы постов не было бы

Аноним 17/05/25 Суб 14:58:49 #409 №1206190 DELETED

>>1206104
Не подтверждается, отставить панику.

Аноним OP 17/05/25 Суб 15:00:12 #410 №1206192

>>1206189
>обновил список моделей
Оп только вносит текущие списки. Сами списки ОП не обновляет. Обновляй ты, я внесу кто, я?.

Аноним 17/05/25 Суб 15:01:19 #411 №1206193

Сейчас уже и я кусатьсяначну. Не поздоровится тем, кто сэмплеры выпрашивает постоянно.

Держите пресет для Коммандера 32b: https://pixeldrain.com/l/xGFnT1PY
Пробуйте оба, я не знаю, какой из них лучше: DRY & RepPen или DRY & XTC. Одним сэмплером для борьбы с репетишеном обойтись не получится, особенно с тюном Star-Command-R, поэтому только так.

Как до конца разберусь с карточками - буду заливать их туда же.
Жду анона, что обещал прислать карточки взамен на пресет.
Но совсем не обещаю, что ему модель понравится. Каждому своё.

Аноним 17/05/25 Суб 15:01:33 #412 №1206194 DELETED

>>1206115
>контекстная реклама
Хуйню пишешь. Хохлы в начале войны скупили и скупают до сих пор кучу рекламы уровня "Сдавайся, Иван!", поэтому эта хуйня везде. И это главная причина почему на русском и не только ютубе нет рекламы

Аноним 17/05/25 Суб 15:04:16 #413 №1206197 DELETED

>>1206170
Выглядит как типичный грант лев_очка для попила. Не могу представить сценария где подобная реклама могла бы сработать, кринж вместо гуманитарки для людей.

Аноним 17/05/25 Суб 15:06:12 #414 №1206202

>>1206192
>Обновляй
Тяжело. Это надо всем тредом писать. По моему два треда назад был список по 22-32b моделям от анона. Нужно что б кто то еще список до 14b и до 72 (235)b написал, а после все скомпоновать

Аноним 17/05/25 Суб 15:24:14 #415 №1206218

>>1205934
> модели для сторитейлинга и для ролеплея
> хорошо умели в русский язык
> с поддержкой tool call
> запускались через ollama
Жир
>>1206046
Выглядят как шаблонная херь из мемов про накрутку.
>>1206177
Надо попробовать, вот бы магнума на него
>>1206193
> Сейчас уже и я кусатьсяначну
Разрешаю укусить без спроса, но не сильно.
>>1206202
В треде мелькают отзывы, есть содержательные и подробные, их просто собрать и норм. Может когда-нибудь дойдут руки запилить парсер треда на предмет их поиска
Что касается списка - базовых моделей немного и можно придерживаться того же формата что и сейчас, а тысячи шизомерджей смысла перечислять нет, только несколько штук упоминаемых. Или делать отдельный раздел для мелкомерджей мистраля где будет список из десятков-сотен, а там уже пусть юзер сам страдает.

Аноним 17/05/25 Суб 15:28:33 #416 №1206223

image.png

У меня огромный соблазн купить вторую 3090.
3bpw влезает и ещё 4гб на контекст остается

Аноним 17/05/25 Суб 15:32:25 #417 №1206224

изображение.png

>>1206223
Больной ублюдок.

Аноним 17/05/25 Суб 15:53:02 #418 №1206226

image.png

стало немножко больно

Аноним 17/05/25 Суб 15:56:37 #419 №1206229

Попробовал командр, в целом заебись, мне нравится. Есть стандартные проебы, но плюсов больше.

Аноним 17/05/25 Суб 15:57:16 #420 №1206230

>>1206229
А немотрончик как тебе?

Аноним 17/05/25 Суб 16:07:41 #421 №1206238

>>1206230
Как семплеры на коммандера.

Аноним 17/05/25 Суб 16:28:59 #422 №1206255

image.png

Аноны, это правда? У Meta похожую картинку встречал, но новая модель оказалась калом, пикрил от гугла так что доверия больше, но всё равно как-то слишком хорошо и думаю о подводных.

Аноним 17/05/25 Суб 16:32:19 #423 №1206256

>>1206189
Я кидал, правда на квк и на гемму.
Коммандер у меня жидко срал под себя.
Единственный коммандер который не срал - Star-Commander.
Но он просто хуже, поэтому уже удалил.

Аноним 17/05/25 Суб 16:36:03 #424 №1206258

>>1203792 (OP)
>Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
Почему лм студия однокноп, а каловая убабуга универсальный инструмент?

Аноним 17/05/25 Суб 16:37:47 #425 №1206262

>>1206186
Вообще я хочу написать программу чтобы несколько сетей между собой общались и тем самым генерили крнтент. Там долго рассказывать, но идея вроде как годная.
Железо у меня для разработки гейбук i7 2.7, 32 озу. Есть ещё десктоп, там не помню какой проц, что-то примерно такое же, 64 ОЗУ, видюха 4070.

>>1206179
Оллама очень важна тк там нормальное апи и оно сука сразу работает, без заёбов.

>>1206218
Почему жир?

Аноним 17/05/25 Суб 16:40:40 #426 №1206265

>>1206238
Бля какие тебе семплеры нужны на него? Вручную покрути просто.
>>1206230
Говной пахнет, слишком уже сильно хочет быть ассистентом. А так да, текст чуть нажористей чем у того же коммандера и сноудропа.

Аноним 17/05/25 Суб 16:49:03 #427 №1206268

>>1206262
>i7 2.7, 32 озу
>Есть ещё десктоп, там не помню какой проц, что-то примерно такое же, 64 ОЗУ
Попробуй https://huggingface.co/unsloth/Qwen3-30B-A3B-128K-GGUF.
Это единственное что возможно будет работать с нормальной скоростью и не будет говном
>видюха 4070
unsloth/gemma-3-12b-it-GGUF Попробуй это, она в русик может и картинки распознает.
А так любой тюн старого мистраля 12b, в шапке посмотри. А также можно все до 14b

Аноним 17/05/25 Суб 17:07:39 #428 №1206273

>>1206268
Спасибо, анон. Я для кодинга использовал qwen2.5 coder 7b. Работала с вполне приемлемой скоростью. 3й не пробовал ещё.

Аноним 17/05/25 Суб 17:12:45 #429 №1206278

>>1206262
кобольд, лламацпп - всё работает сразу из коробки без заёбов

Аноним 17/05/25 Суб 17:13:26 #430 №1206280

>>1206255
>Аноны, это правда?
>график не от нуля
Это наебалово, сына.
>>1206258
Потому что в убе можно делать всё, а лм студия однокнопочное говно.

Аноним 17/05/25 Суб 17:18:58 #431 №1206283

>>1206278
>лламацпп
Да, но надо настраивать. Ему мб нужен просто бэк с нормальным апи, который сразу работать будет
>кобольд
Ой, бля
>>1206280
А что там можно делать того, что нельзя в lmstudio? Ну кроме смены бека

Аноним 17/05/25 Суб 17:21:35 #432 №1206286

>>1206283
>просто бэк с нормальным апи
Именно. Я не хочу пердолиться с уже решёнными задачами. Я пердолюсь только со своими придуманными задачами.

Аноним 17/05/25 Суб 17:35:33 #433 №1206302

>>1206255
Это же эло арены с непойми какими условиями и участниками, там что угодно можно нарисовать. Но при этом гемма3 в целом хороша в ряде применений от чего может быть в лидерах.
>>1206262
> Почему жир?
Потому что несочетаемое и будто надергал всякого мемного с тредов. Писать истории/рп могут любые модели с разным качеством, ты не указал свое железо и хотелки. Иногда лучше это делают тюны разного качества, но в большинстве случаев они лоботомируют модельку. Функциональные вызовы есть считай в любой современной модели, но это не совместимо с последним.
Оллама - подзалупная обертка llamacpp с кучей проблем и сложностей вместо "нормального апи", функциональные вызовы там работают через жопу и заявлены формально. Нормальное продвинутое апи - табби, или от того же дева есть для жоры.
Начни с какой-нибудь геммы 12б, она неплоха, имеет документацию будет помещаться в врам и сможешь наладить основное. Потом уже смотреть в сторону большой геммы, квена, коммандера, glm и прочих.
>>1206278
Ебать ты кобольд

Аноним 17/05/25 Суб 17:35:40 #434 №1206303

>>1206262
Обычный оркестратор, пайплайн, можно n8n посмотреть, или что угодно, самому написать.

> Оллама очень важна тк там нормальное апи и оно сука сразу работает, без заёбов.
Строго говоря, как раз оллама не «нормальное» апи, и работает сразу очень условно.
Лучше выучить команды запуска (не супер сложно, поверь), и запускать llama.cpp или exl2/exl3 через tabbyapi.

Оркестратор подключается по стандартному OpenAI-like API и делает что хочешь.

Из моделей для сторителлинга и рп для русского, по стандарту:
Saiga-Unleashed
Neverending Story
Instrumentality
One-To-Rule-Them-All-MN-12B
Darkness-Reign-MN-12B

У https://huggingface.co/Aleteian/

Ну и Gemma 3 (12b, 27b), QwQ и Qwen3-30B-A3B.

Аноним 17/05/25 Суб 17:39:50 #435 №1206307

IMG4342.jpeg

>>1206193
> Жду анона, что обещал прислать карточки взамен на пресет.
Пребываю в алкогольном делирии. Ориентировочная дата выхода - завтра. Заодно и пресеты посмотрю и карточки скину. Ничего не забыл, все помню. Пока пилил ванилу, меня унесла слоп река

Аноним 17/05/25 Суб 17:39:56 #436 №1206309

>>1206303
Есть мнение что перечисленные в длинном списке модельки - посредственный компиум с точки зрения конечного перфоманса и слишком лоботомированы для выполнения четких инструкций или тем более чего-то продвинутого. Для рп поиграться норм, то что-то из них делать - мрак полный.

Аноним 17/05/25 Суб 17:40:11 #437 №1206310

>>1206303
Спасибо, анончик, изучу.

Аноним 17/05/25 Суб 18:00:46 #438 №1206330

>>1206302
>надергал всякого мемного
Я просто только только вкатываюсь. В треде вообще в первый раз.

Аноним 17/05/25 Суб 18:40:20 #439 №1206347

Такс, ну слонировал я ваш tabbyAPI. Запустил start.sh

> ModuleNotFoundError: No module named 'uvloop'
> This error was raised because a package was not found.
> Update your dependencies by running update_scripts/update_deps.sh

Ок, запустил update_scripts/update_deps.sh

> Dependencies updated. Please run TabbyAPI with `start.sh`. Exiting.

Запустил start.sh

> ModuleNotFoundError: No module named 'uvloop'
> This error was raised because a package was not found.
> Update your dependencies by running update_scripts/update_deps.sh

Ага, этому пидору нужно uvloop установить. Ясно, что установить нужно в вирутальное окружение. А как же у нас venv запускается? Делаю

> cat start.sh

Ага, теперь ясно. Ок, делаю

> source venv/bin/activate
> pip install uvloop
Установился
> deactivate

Получаю

> ERROR: Inference dependencies for TabbyAPI are not installed.
> Please update your environment by running an update script (update_scripts/update_deps.sh)

Ещё раз вызываю скрипт апдейта. Снова запускаю. Опять ошибка

> ERROR: Inference dependencies for TabbyAPI are not installed.
> Please update your environment by running an update script (update_scripts/update_deps.sh)

Короче говоря идите вы жопу, члены пердольного клуба любителей пердолиться в очко. Ollama у меня запустилась прямо сразу, а тут ебучие зависимости нужно резолвить вручную. Нухай и в пизду.

Аноним 17/05/25 Суб 19:20:18 #440 №1206355

>>1206193
Для стар коммандера отлично подошли предметы, спасибо

Аноним 17/05/25 Суб 19:25:40 #441 №1206358

>>1206347
Там однокнопочный скрипт установки, как ты проебаться сумел? По крайней мере на винде было просто.

Аноним 17/05/25 Суб 19:26:42 #442 №1206361

>>1206330
Тогда ничего страшного. Стоит в начале освоить промтинг и общее использование, понять как модели реагируют на разные инструкции, отладить общую схему чтобы работала корректно, а уже потом усложнять сценарий и улучшать качество описаний. Начни это с использованием геммы 12б или qwen3 14b, ванильные без тюнов. Они может и не дадут самого красочного описания, но будут работать адекватно и корректно, а не шизить как мерджи мистраля.
>>1206347
Вроде линуксоид но не прошел интеллектуальный ценз. Ебись с олламой, всеравно потом придется пересажиться на что-то нормальное, лишь испортишь себе нервы и экспириенс гадая что же там серит, или как поменять примитивные настройки.
>>1206358
> на винде было просто
На прыщах сейм.

Аноним 17/05/25 Суб 19:29:57 #443 №1206365

Гонят на кобальд, а потом новички обмазываются олламой.
Да лучше бы он кобальд скачал и пошел вики его шерстить. Потому что в остальных бекендах уже слишком сложный вход для новичка.

Аноним 17/05/25 Суб 19:36:37 #444 №1206368

>>1206358
Я буквально каждый свой шаг начиная с клонирования репы описал. Хз что не так. Мне иногда кажется что у меня какая-то аура не та. У других всё работает, а у меня то проект не собирается, то репа отваливается, то хуй знает что.

>>1206361
> Вроде линуксоид но не прошел интеллектуальный ценз.
Какой в жопу ценз, вот что я не так делаю? Почему у всех работает, а у меня не работает? Я кстати сейсас на маке пробовал, к машинам с виндой и линуском доступа нет. Разве что может виртаулку с линуксом поднять, но хз.

Аноним 17/05/25 Суб 19:49:31 #445 №1206379

>>1206368
> что я не так делаю? Почему у всех работает
Как правило, в таких случаях там что-то совсем простое или странное. Что же до твоего случая:
> на маке пробовал
и на что вообще рассчитывал?
Эксллама, и соответственно табби, дружат только с кудовским или рокмовским питорчем, на маке не взлетит, как и 99% подобного софта. Смысла поднимать линукс тоже никакого ибо железо совсем левое.
Конкретно в этом случае тут вообще проблема в отсутствии конкретного модуля или его версии под маковский пихон, это норма.

Под мак только жора, небольшие шансы заработать есть у https://github.com/theroyallab/YALS

Аноним 17/05/25 Суб 19:56:09 #446 №1206385

>>1206379
Почему же оллама работает? Там какие-то особые технологии, недоступные разработчикам других беков?

Аноним 17/05/25 Суб 20:10:26 #447 №1206400

>>1206385
Жора - llamacpp изначально разрабатывался под мак. Оллама - всего лишь всратая обертка жоры, в которой весь дизайн крутится вокруг философии простого первого запуска, а все остальное принесено в жертву.
> недоступные разработчикам других беков
Беков единицы - трансформерс, llamacpp, эксллама, афродит, и уже более редкие/старые. На маке (нормально) работает только жора, который под него делался, все. А обертки с интерфейсами собрать - не проблема.
Так вообще весь эффективный и производительный инфиренс в нейросетях и ллм в частности - линукс и куда, самое популярное работает и на шинде.

Аноним 17/05/25 Суб 20:24:23 #448 №1206409

>>1206400
Что за жора?

Аноним 17/05/25 Суб 20:27:40 #449 №1206412

>>1206409
->
>>1203792 (OP)
>Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Аноним 17/05/25 Суб 20:34:31 #450 №1206415

image

>>1206409
>Жора - llamacpp
>Что за жора?
Что же с тредом стало...

Аноним 17/05/25 Суб 20:38:21 #451 №1206418

image.png

>>1206412
>>1206415
Ладно вам, я уже понял что это болгарка, автор llama.cpp

Аноним 17/05/25 Суб 20:56:55 #452 №1206422

>>1206229
Ровно те же мысли

>>1206307
Буду ждать. Не спеши, я все равно пока здесь обитаю

>>1206355
Рад, что подошли. Какой лучше зашел, на RepPen или на XTC?

Аноним 17/05/25 Суб 22:35:11 #453 №1206462

Такой вопрос, как в кобольде cpp настроить куда будет сохраняться контекст? Я чет видимо в глаза ебусь и не вижу.

Аноним 17/05/25 Суб 23:20:07 #454 №1206484

>>1206309
Для начала точно неплохо, как стартовая точка.
А там начнет разбираться, изучит основные проблемы, придет к лучшему.

Аноним 18/05/25 Вск 00:30:52 #455 №1206545

>>1206355
А у меня наоборот ответы будто отупели и пишется по 1-2 абзацу

Аноним 18/05/25 Вск 00:45:56 #456 №1206551

>>1206484
Попробовать рп - да, если не искушенный то испытаешь восторг. А для задач, связанных с выполнением инструкций, следования контексту и тем более чего-то более продвинутого - слишком лоботомиты. Будет фейлить по ерунде из-за чего не получится реализовать нормальное.

Аноним 18/05/25 Вск 00:51:39 #457 №1206555

Только начал играться с таверной поэтому нихуя не знаю. Скажите, свайпы как-то влияют на работу? А то я люблю посвайпать ответы ища наиболее интересные.
И еще вопрос: в таверне можно что-то вроде ГМ прописать, который не только сюжет ведет, но и проверочки назначает, мобов с циферками прописывает?

Аноним 18/05/25 Вск 00:56:10 #458 №1206556

>>1206555
> Скажите, свайпы как-то влияют на работу?
Да, они позволяют найти более интересные ответы. Можно еще редактировать сообщения, исправляя то что не нравится или собирая из нескольких свайпов хороший ответ.
> таверне можно что-то вроде ГМ прописать
Нет (да). Есть адвенчур мод, где немного меняется формат, также потребуются другие промты ибо стоковый неоче. Есть возможность делать мультизапросы средней костыльностью с помощью плагинов, например stepped thinking. Есть регекспы в том числе на рандом. Построение системы довольно неудобно, но нечто сделать можно. Также функционал лорбука можно адаптировать под нужную модификацию промта. Под циферки есть аддоны (костыльный ужас), или можно заставить ллмку мониторить эти статы.