Локальные языковые модели (LLM): LLaMA, Mistral, DeepSeek и прочие №108 /llama/

Аноним 11/02/25 Втр 18:27:32 #1 №1050631

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

17387563000070.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1046761 (OP)
>>1041343 (OP)

Аноним 11/02/25 Втр 18:44:49 #2 №1050647

Способна ли какая-то нейросеть привести список из ста графических растровых локальных редакторов для виндовс и не повторяться в нем по пять раз? Уже на 30-м месте пишет все сначала по несколько раз.

Аноним 11/02/25 Втр 18:51:17 #3 №1050652

>>1050647
>Способна ли
А ты?

Аноним 11/02/25 Втр 18:54:44 #4 №1050657

>>1050647
А столько вообще есть?

Аноним 11/02/25 Втр 18:55:09 #5 №1050658

>>1050652
Я ждал этот вопрос и даже хотел сразу прописать ответ в посте. Так вот, ответ: нет. И я не обязан знать ответ на этот вопрос. Я не робот. И не умничай тут.

Аноним 11/02/25 Втр 18:59:53 #6 №1050662

>>1050658
Я еще и пикчу хотел кинуть да лень искать было, хех
Дак и сетка не робот, кстати
Не тот робот которыми представлялись ии в фантастике вовремена до нейросетей

Аноним 11/02/25 Втр 20:00:19 #7 №1050690

>ИИ
>знает на 10^999 порядков больше чем любой эксперт в своей области
>до сих пор обсирается на простых задачах
как фиксить?

Аноним 11/02/25 Втр 20:02:23 #8 №1050694

image.png

Прикидую, когда создадут локалки с AGI. Это же будет как реального человека создал, чтобы он тебе хуйню писал. Чет звучит как что-то страшное. Скорей бы уже сделали.

Аноним 11/02/25 Втр 20:08:58 #9 №1050696

>>1050690
Никак. Одно дело знать, а совсем другое думать и применять эти знания. Второе нейронки могут плохо, только всякие o1 и R1 начинают пытаться в это.

Аноним 11/02/25 Втр 20:10:56 #10 №1050697

>>1050696
Ну так хули не сделают наоборот? Сетка которая знает только как срать но при этом может делать сверх толчки, улучшенные толчки за пределами понимания человека

Аноним 11/02/25 Втр 20:13:39 #11 №1050700

>>1050697
На о3-mini смотри. Там мелкосетка, но может больше чем полноценная жпт-4. Жди к лету гору новых reasoning-моделей, квен скоро разродится, наверняка.

Аноним 11/02/25 Втр 20:24:16 #12 №1050708

>>1050700
>Жди к лету гору новых reasoning-моделей, квен скоро разродится, наверняка.
Вообще очень интересно следить за всеми этими открытиями. Там вот "latent reasoning" заявили на экспериментальной модели, вроде бы даже без особой потери скорости. Модель будет думать внутри себя перед выводом:
https://www.reddit.com/r/LocalLLaMA/comments/1imca0s/new_paper_gives_models_a_chance_to_think_in/

Аноним 11/02/25 Втр 20:29:13 #13 №1050711

А есть ли психотерапевты LLMки? Кажется юзкейс очень подходящий. Приватность 100 % на локальной машине. В терапии пациент всё равно делает большую часть работу, а психотерапевт только помогает.

Аноним 11/02/25 Втр 20:37:25 #14 №1050716

>>1050694
AGI без тела робокошкодевочки- деньги на ветер.
>>1050708
>Там вот "latent reasoning" заявили
Бля, пункт 44 из моей тетрадочки. Пидоры, так и знал, что даже оттуда сопрут.
>>1050711
Делай карточку терапевта, делов то.

Аноним 11/02/25 Втр 20:41:26 #15 №1050721

>>1050716
> Делай карточку терапевта, делов то.
А что это такое? Как сделать для убабуги?

Аноним 11/02/25 Втр 20:53:22 #16 №1050731

>>1050721
в чубе есть тtг therapy, например

Аноним 11/02/25 Втр 21:10:48 #17 №1050761

>>1050690
Разве ллм вообще что-либо хорошо знают, за исключением кодинга, на который их дрючат, и знаний уровня википедии, которые будут часто встречаться в датасетах? Без файнтьюнов на данных нужной области даже овер триллиона параметров не хватит, скорее всего, чтобы модельки помнили (не говоря о понимали) какие-то вещи именно на уровне эксперта, особенно если область узкая. Помнится, тут в треде кто-то спрашивал, можно ли обучаться у модели матану. Что-то мне подсказывает, что даже топ корпо сетки там обосрутся, даже если не грузить их числами, а просто поспрашивать какие-нить определения и формулировки теорем уровнем чуть глубже самой базы. С разными научными специальностями, которые часто узко направленные, тоже будет жопа, модель только какие-то крохи подцепит из тех редких статей по теме, которые попали в датасет.

Аноним 11/02/25 Втр 21:27:52 #18 №1050791

>>1050761
>Без файнтьюнов на данных нужной области
Ну то есть проблема в том что пидорасики гейткипят данные для ллм? И если нафайнтюнить модель на них, то можно спокойно выкидывать кожаных на мороз?
>С разными научными специальностями, которые часто узко направленные, тоже будет жопа, модель только какие-то крохи подцепит из тех редких статей по теме, которые попали в датасет.
Ну опять получается проблема данных
Видел от майков статью что ии может обучаться как-то без внешних данных, ты ему даешь базу а ии сам по себе разбирается что к чему
https://arxiv.org/abs/2408.06195
Мастурбация модели до максимума

Аноним 11/02/25 Втр 21:41:18 #19 №1050808

>>1050791
Проблема ее в данных, проблема плохой памяти у сеток. Ее организация ассоциативная, нет механизма запоминания информации.
Сетки не помнят инфу как ты, у них просто триггерится по ассоциациям что то знакомое на твой запрос. Нету у них линейной памяти которую можно сознательно прокручивать в голове и вспоминать что то о чем то.
Отсюда необходимость чудлвищно неэфективного обучения, что бы знания хоть как то в сетке отложились и потом применялись

Аноним 11/02/25 Втр 21:49:55 #20 №1050817

>>1050808
Всё так, подтверждаю его слова
недавно прошел курс по нейронкам

Аноним 11/02/25 Втр 22:23:03 #21 №1050848

>>1050591 →
> Случилось страшное — маленький ремонт
Надо было на покупку заранее отложить, а то из бюджета амортизации. Как же так получилось?
> ибо нашел только у перекупов
Сейчас и на западе с ее покупкой проблемы, праздники в азии, непонятка вокруг санкций. Вот вот уже первые должны привести, можно будет попробовать из наличия что-то взять, также обещали в магазинах.
>>1050647
Да, всего-то нужно будет дать ей мелкий намек что разные версии будут считаться отдельной программой. Какой вопрос, такой и ответ, хули.
>>1050690
На простых как раз не обсирается. А сложные и специфичные можно фиксить или сильной специализацией на грани оверфита (или с ним), наращиванием размера и более тонким обучением, введением помогающих себе техник лишнего ризонинга и ретроспективы.
>>1050711
Возьми модель побольше, желательно с минимумом васянского файнтюна (гемма подойдет) и сделай хорошую карточку. Да и вообще, можно же не просто кумить и страдать хренью, а устраивать интересный рп с разговорами и всяким, уже сама по себе крутая терапия.
>>1050721
> Как сделать для убабуги?
Лучше потратить время и разобраться с таверной.

Аноним 11/02/25 Втр 22:26:25 #22 №1050852

>>1050848
Понял, спасибо

Аноним 12/02/25 Срд 01:21:04 #23 №1051036

Бля, так жалко, что больше 8к контекста не вмещаются в 24 гига вместе с моделью 22b+ и еще плюс чтобы работало с нормлаьной скоростью, а если хочу больше контекста, то нужно брать меньше модель либо меньший квант, а оно нахуй надо. На 22b и 8 квантах даже качество не ахти, а еще ниже думаю вообще пиздец. Есть какие-то типсы анд триксы, как это фиксить? А то у меня был груп чат с двумя ботами, и через некоторое время общения эти боты вообще забыли кто они, как они ко мне относятся и как они друг к другу относятся и начали нести бредятину какую-то и повторять одни и те же фразы. Меня это заебло и я нахуй этот чат просто снес. А там такой сюжет был пиздец, очень обидно.

Аноним 12/02/25 Срд 01:37:28 #24 №1051043

>>1051036
> Есть какие-то типсы анд триксы, как это фиксить?
Вылечить квантошизу, поставить нормальный бэк, настроить правильно формирование промта.

Аноним 12/02/25 Срд 02:41:36 #25 №1051065

>>1050433 →
Бамп

Аноним 12/02/25 Срд 03:07:01 #26 №1051077

>>1051065
Вроде уменьшение Repetition Penalty помогло.

Аноним 12/02/25 Срд 03:46:11 #27 №1051104

>>1051036
Лол. У меня в одной сцене по 5-7 персонажей порой бывает. Там и 32b обычно протекает из персонажа в персонажа. особенно если контекст огромный ставить. кванты не так сильно влияют на это.

Вот как заставить ЛЛМ перестать смешивать стили вообще неибу.

Аноним 12/02/25 Срд 04:17:33 #28 №1051111

>>1051036
>На 22b и 8 квантах даже качество не ахти
Не знал бы посетителей итт треда, подумал бы что жирнота.

Если у тебя ишака хуевое качество даже на 8 кванте, то проблема либо в модели, либо ты просто шизик. Если тебе в ебало ткнуть две модели с точностью в 32 и 8 бит на вес, ты даже за месяц тестов не заметишь никакой разницы, если заранее не будешь знать где что лежит.

Аноним 12/02/25 Срд 04:47:35 #29 №1051130

cUVb8BnpnbU.jpg

RQDlAI8Ku9k.jpg

>>1050700
Обычный GPT-4o, не говоря уже без "о", разумеется, значительно тупее о3 хай версии. Он настолько отсталый, что в рабочих вопросах его запросто может уделать 70-120б.

Просто он очень старый и его не дообучали нихера, поэтому с ним не стоит сравнивать современные модели. Зато красивое форматирование, да, и умеет всё красиво делать, искать что-то в интернете (и при этом неверную хуйню писать уровня суммаризации локалок) за что гойская братва его очень любит. Сейчас покупать подписку на попенов - стрелять себе в член. Если нужен о1, нужно брать курсор ии.

>>1050791
Отчасти. Скажем, надрочить модель на то, чтобы она определяла рак жопы лучше по КТ, чем 99% врачей-палачей - задача вполне реальная и такие кейсы уже существуют. Другое дело, что всё это надо как-то обновлять, монетизировать.. в общем, широкого распространения подобное не получило. А надо бы.

>>1051036
Чувак, дело вообще не в квантах. В меньшем кванте модель, конечно, с более высокой вероятностью допустит ошибку в математике или кодинге, но на всякую РП-хуйню можно строго класть хуй и брать меньший квант. До 4 кванта даже 12б вполне вменяемы.

Ну а обсёр в групповых чатах — это вообще база. У меня ванильные модели под себя срали, не говоря уже о файнтюнах.

Пробуй более жирную модель в меньшем кванте либо не еби себе мозги и просто возьми квант меньше для текущей модели.

Можешь также гемму 27 аблитератед попробовать. Она обычно лучше выдерживает стиль и менее склонна к бреду. Но у неё всего 8к контекста, увы.

>>1050711
Психотерапия не кодинг, так что тут локалки пососут, так как важно гораздо более тонко понимать, что имеет в виду юзер и что он пытается донести до модели своим кривым языком.

Как тебе психотерапия на скришотах? Пока что это лучшая модель на мой взгляд.

Аноним 12/02/25 Срд 07:07:50 #30 №1051160

Помогите настроить пошаговое мышление от тредовичка. У меня нихуя не работает вообще, как настройки ни крутил, хотя всё было норм на самой первой версии.

Если вы его используйте, пожалуйста, просто вбросьте все ваши настройки в виде скриншотов, которые его касаются, чтобы я мог понять, что у меня идёт не так.

Аноним 12/02/25 Срд 08:08:33 #31 №1051173

Помню тут была ссылка на то чтобы модель в таверне могла выходить в гугл, я ее проебал. Есть у кого? Ну и сразу вопрос об этом модуле для таверны. Он мне там не нагуглит на статью ук рф?

Аноним 12/02/25 Срд 08:12:06 #32 №1051174

>>1051160
Там не нужно ничего настраивать, оно работает из коробки, максимум поставить галку ВКЛ. Видимо ты что-то сломал, переустанавливай.

Аноним 12/02/25 Срд 08:23:29 #33 №1051178

>>1051174
Я разве что только таверну не переустанавливал. Само дополнение переустанавливал, всё перетыкал — нихуя не работает. Смотрел логи кобольда, присылал документацию о1, логи тоже, и скриншоты настроек. Даже весь этот скрипт в нейросетку загружал, чтобы она оценила его нутро и сказала, что я мог сделать не так.

В общем, нихуя не помогло. А таверну переустанавливать совсем не хочется, так как вряд ли это поможет.

Визуально у меня всё в порядке, но нихуя не работает.

У тебя же самая последняя версия дополнения и таверны?

Аноним 12/02/25 Срд 08:31:03 #34 №1051180

>>1051178
Как именно у тебя не работает? Нихуя не выводит мысли или выводит, но ты считаешь что они не учитываются в сообщении? Я другой анон и у меня все из коробки завелось.

Аноним 12/02/25 Срд 08:41:25 #35 №1051182

image.png

>>1051178
Да, последняя версия и того и другого. (там в финальной даже другой режим работы завезли)

Аноним 12/02/25 Срд 09:10:43 #36 №1051193

>>1051130
> пики
Дед инсайд какой-то.

Аноним 12/02/25 Срд 09:33:48 #37 №1051201

>>1051182
Нахуй этот кал нужен, когда в таверне есть своя реализация?

Аноним 12/02/25 Срд 09:40:49 #38 №1051204

119534719p0master1200.png

>>1051201
Ты не очень умный, да?

Аноним 12/02/25 Срд 09:52:42 #39 №1051207

>>1051160
У тебя же стоит галочка "Enable thinking on each message"? Попробуй ввести слэш-команду в чате /stepthink-trigger, что произойдёт?

Далее:
1. Есть какие-то ошибки в консоли браузера?
2. Стоят ли другие расширения?
3. Какая версия таверны? Должна быть 1.12.11+

Алсо, попробуй поставить чистую таверну рядом с той, которую используешь, и накати расширение туда, не меняй никакие настройки. Посмотри, помогло ли. Ещё ты можешь попробовать снести секцию настроек "st-stepped-thinking" в SillyTavern/data/default-user/settings.json и перезагрузить страницу - настройки в таком случае сбросятся до дефолтных.

Пожалуй, на днях запилю страницу с траблшутингом, одни и те же рекомендации приходится всем давать.

мимо разраб

Аноним 12/02/25 Срд 09:53:59 #40 №1051208

>>1051180
Не выводит мысли вообще. Через слэш тоже не выводит.

>>1051182
Хм, у меня всё так же, разве что промпты другие — из коробки они не предоставляются ведь.

А что у тебя в additional settings?

Аноним 12/02/25 Срд 10:07:52 #41 №1051214

image.png

>>1051208

Аноним 12/02/25 Срд 10:27:33 #42 №1051224

image.png

Третья модель в топе хагинг фейса. Пробовал кто?

Аноним 12/02/25 Срд 10:27:43 #43 №1051225

image.png

>>1051214
>>1051207
Спасибо, скриншоты точно помогли.

Возможно, дело было в этой КНОПАЧКЕ. Именно после того как я пару раз на неё щёлкнул, всё заработало, хотя, как ни странно, я ранее пробовал, когда она была и зелёной, и красной.

Но заметил и другие проблемы. На одной карточке у меня почему-то мышление не работает. Появляется визуальное подтверждение в таверне, но текста нет, в логах тоже.

Сейчас потестил. Остальные проблемы касаются в основном того, что в мыслях он может отвечать юзеру или какие-то реплики писать. Кроме того, модель давида отказалась мне писать рецепт, как приготовить, что довольно странно. Размышления немножко бустят цензуру.

Конечно, это отчасти контрится промптом, и тут проблема ещё в ллм, она ведь не знает, где мысли, а где чат, а чем больше ты насрёшь в промпты, тем сильнее она будет шизеть и путаться. И всякие 32б сюда не приплести, чтобы модель лучше слушалась — меня ожидание генерации бесит при 20 тс, когда она вся в памяти, и жирные модели только удлинят генерацию.

В общем, придётся пердолиться с промптами.

Спасибо за советы.

Аноним 12/02/25 Срд 10:31:10 #44 №1051227

>>1051224
Эту не пробовал, но пробовал дистилляты и файнтюны. Как по мне, кал всё это. CoT работает через жопу или не работает вовсе. Даже если работает, всё равно залупа конская, тем более для рп.

Пока ты будешь ждать генерации шизомыслей модели, времени прилично пройдёт, а ведь свайпать наверняка придётся. Проще поставить более жирную модель, ответы которой изначально лучше, где хоть и генерация медленней. Контент получится в целом более качественный в итоге даже без цепочек.

Аноним 12/02/25 Срд 10:37:33 #45 №1051230

image

"Легенда Четырёх Ветров" в шестом кванте.
Аднака прям годно.
Примечание о фразе про "демонский хай-тек" - это в рамках сеттинга.

https://huggingface.co/Aleteian/Legend-of-the-Four-Winds-MN-12B

Аноним 12/02/25 Срд 10:44:44 #46 №1051232

>>1051224
Я немного попробовал. Не так много отличий с дипсиком том-же размере на мой вкус. Но пишет немного получше.

Аноним 12/02/25 Срд 10:50:16 #47 №1051236

>>1051224
Хайпанула изза названия на реддите, отчасти так популярна

Аноним 12/02/25 Срд 10:52:45 #48 №1051237

>>1051036
>Бля, так жалко, что больше 8к контекста не вмещаются в 24 гига вместе с моделью 22b+ и еще плюс чтобы работало с нормлаьной скоростью
24B_5KM вполне помещается в 24гб с 32к неквантованного контекста. Никаких проблем с качеством, нужно конечно нормальную модель, ну может ещё температуру покрутить, профили семплеров.

Аноним 12/02/25 Срд 10:57:55 #49 №1051240

>>1050631 (OP)
Скачал LMstudio. По совету из прошлого треда поставил Mistral 12B Q5_K_M (конкретно Mistral Nemo Instruct Bellman 12B Q5_K_M)

А как её дальше обучать? Как настройки подбирать? У меня задача давать с 5-6 pdf файлов с текстом (если в нём картинки будут, я так понимаю похуй, это нейросеть не сломает), после чего она должна выдать ответ лаконично суммируя источники.

Аноним 12/02/25 Срд 11:00:57 #50 №1051246

Ребята, а что там с ворой? Ещё жива или нет?
И правда-ли, что свинорез откинулся?
Давно не интересовался, есть вообще ещё живые прокси?

Аноним 12/02/25 Срд 11:01:45 #51 №1051247

>>1051240
>5-6 pdf файлов с текстом (если в нём картинки будут, я так понимаю похуй, это нейросеть не сломает), после чего она должна выдать ответ лаконично суммируя источники

Это тебе не на локалки а к корпосеткам.

>>1051246
гачимучи в другом блоке,

Аноним 12/02/25 Срд 11:02:31 #52 №1051248

>>1051036
>что больше 8к контекста не вмещаются в 24 гига вместе с моделью 22b+ и еще плюс чтобы работало с нормлаьной скоростью
Что простите ? 24ГБ мало для 22b ?
У меня 16гб, 22b модели работают на 7-10 т/с с 24к контекста.
Ну тут или я волшебник, или я что то не знаю о своем процессоре.
Но скорее всего, ты делаешь что то не так.

Аноним 12/02/25 Срд 11:03:46 #53 №1051249

>>1051237
Дык что за нормальная модель то?!
Я вот сижу с 36гб и не знаю что в них воткнуть такого.

Аноним 12/02/25 Срд 11:05:58 #54 №1051251

Снимок экрана 2025-02-10 103834.png

>>1051248
>7-10 т/с

Аноним 12/02/25 Срд 11:16:08 #55 №1051255

>>1051247
А что локально вообще без шансов? В целом на вопросы норм отвечает. Сами файлы ещё не тестит особо.
Конфигурация ПК:
Видеокарта: ASRock AMD Radeon RX 7700 XT Steel Legend (ASR-VC-RX7700XT-SL-12GO)
Процессор: AMD Ryzen 7 5700G with Radeon Graphics 3.80 GHz
ОЗУ: Patriot Memory DDR4 16Gb (2x8Gb) 3200MHz pc-25600 Viper Steel RGB
Материнская плата: ASRock B550M STEEL LEGEND
SSD диск Western Digital Green SN350 M.2 2280 1.0 Tb PCIe Gen3 x4 NVMe QLC (WDS100T3G0C)

Аноним 12/02/25 Срд 11:16:33 #56 №1051257

>>1051248
Наверное лоботомированный квант юзаешь. Что-то на уровне 4 квантов.

Аноним 12/02/25 Срд 11:22:18 #57 №1051262

>>1051225
> Возможно, дело было в этой КНОПАЧКЕ. Именно после того как я пару раз на неё щёлкнул, всё заработало, хотя, как ни странно, я ранее пробовал, когда она была и зелёной, и красной.
Лол, это очень странно. Ты точно больше ничего не делал в интервалах между щёлканьем по ней?

> Но заметил и другие проблемы. На одной карточке у меня почему-то мышление не работает. Появляется визуальное подтверждение в таверне, но текста нет, в логах тоже.
Расскажи подробнее, как именно оно не работает? Появляется ли блок "{{char}}'s Thoughts"? Есть ли в нём пустые подблоки "Thoughts" и "Plans"?

Аноним 12/02/25 Срд 11:46:57 #58 №1051274

0e3ef036fc5f3b500b9b3b9bd7b66f85.jpg

>>1050817
>недавно прошел курс по нейронкам

у етой тни с пикрила учился?)

Аноним 12/02/25 Срд 11:48:30 #59 №1051275

0e3ef036fc5f3b500b9b3b9bd7b66f85.jpg

>>1051274
блеат!1

бысрофикс

Аноним 12/02/25 Срд 11:51:01 #60 №1051277

>>1051240
>А как её дальше обучать?
Никак. То чем ты пользуешься это трансформер без возможности дообучения. А если тебе нужно именно обучать, то тебе это не нужно, так как знаний нет.
>У меня задача давать с 5-6 pdf файлов с текстом (если в нём картинки будут, я так понимаю похуй, это нейросеть не сломает)
Читой.
https://arxiv.org/pdf/2409.02977v1 - вот тут базовое исследование об агентах и их применении.
А вообще корпосетки на то и корпо - что их создали для рабочих задач. Так что если знаний нету нихуя, деньги корпоратам заноси.

Аноним 12/02/25 Срд 11:54:00 #61 №1051281

IMG0828.jpeg

>>1051274
Наши пикчи поели шакалы, милорд.

Аноним 12/02/25 Срд 11:55:04 #62 №1051283

>>1051277
Т.е. под мою задачу с моим компом вообще нельзя локально нейросеть поставить?

Аноним 12/02/25 Срд 11:57:41 #63 №1051290

>>1051283
>>1051277
Ещё добавлю. Я к программированию никакого отношения не имею. Мне нужно анализ текста на медицинскую тематику. По сути просто нужно сравнивать куски текста и смысл в них.

Аноним 12/02/25 Срд 12:02:14 #64 №1051293

>>1051230
какого фига 12б микс пишет более связно чем 24б микс

Аноним 12/02/25 Срд 12:03:17 #65 №1051295

>>1051283
openwebui попробуй поставь, там можно загружать пдфки. Если настроишь то будет работать.
Можешь и в чем то другом, главное что бы сетка влезла тебе вместе с большим контекстом(ее памятью), куда ты будешь пихать инфу из пдф.
Сетку бери какой нибудь
https://huggingface.co/bartowski/Qwen2.5-7B-Instruct-1M-GGUF
или
https://huggingface.co/bartowski/Qwen2.5-14B-Instruct-1M-GGUF
Миллиона контекста, ну или сколько там получится тебе должно хватить на 6-7 пдф, там и пара книг войдет если получится на весь контекст запустить
Качества обработки никто не обещал, проверяй.

Аноним 12/02/25 Срд 12:06:53 #66 №1051299

>>1051240
>обучать?
В треде главенствует школотроны у которых мамкин комп со 640Гигабай рам и по 4 штуки 4090 на плате, которые ничего тебе хорошего не посоветуют, а будут только обоссывать твое железо и твой выбор модели под твоё железо. Дожидайся нормальных ответов и но обращай на них внимания. Или сам ищи. Вот, не знаю поможет ли:
https://youtu.be/SoPE1cUz3Hs?si=_0MhteghwFI4s889

Аноним 12/02/25 Срд 12:08:24 #67 №1051300

>>1051240
Вообще для таких целей вроде как используют RAG, когда мелкие эмбеддинг модели проходятся по докам и тащат в контекст то, что они считают нужным. В LMStudio вроде есть rag, но не вижу норм документации по нему, погугли сам. Либо ставь другой бэк с таверной и с использованием раг с ней разберись, там довольно подробно в доках описано (гугли sillytavern rag). Только можно только один файл в базу кидать вроде, придётся объединить в один пдф. И написано, что только текстовый, чтобы считалось нормально. И самому выбрать и поднять эмбеддинг модель получше дефолтной желательно. Ещё у нвидии была софтина спецом для работы с доками, но это не для твоей карты, видимо, и по дефолту она там качает неквантованные всратые 7б, вроде писали. Хотя уже плохо помню.

Аноним 12/02/25 Срд 12:13:17 #68 №1051302

>>1051224
Попробовал. Хуета. Причем полная. Такой бред бля пишет что просто пиздец. Может я от этого бреда так охуел из-за того, что это 14б модель, а я обычно на 20б+ сижу, но чет я не уверен, что даже 14б модели такую бредятину высирают как эта тифа дипсекс.

Аноним 12/02/25 Срд 12:13:27 #69 №1051303

>>1051295
>>1051299
>>1051300
Спасибо, сложно пиздец, конечно. Попробую пока на LMstudio с RAG разобраться. Потом дальше пойду, а то даже термины особо не понимаю. Таверна, "бэк", ну rag вроде понял, когда нейросеть сама "додумывает" что вставить в ответ кроме уже имеющихся данных в ней

Аноним 12/02/25 Срд 12:18:19 #70 №1051305

Вообще какай смысл от контекста, если его на самом дело нет или очень мало? Например, в начале пишешь, что едем на синих жигулях в Ебеня, а через 10-15 сообщений модель не может сказать на чем и куда едем и цвет тачки.
Это потеря потерь.

Аноним 12/02/25 Срд 12:26:13 #71 №1051309

>>1051305
>смысл от контекста
в его размере, 2-4к так да, и на 10 сообщений не хвати, 16к+ ужё норм всё помнит, что было их пределах конечно

Аноним 12/02/25 Срд 12:26:46 #72 №1051310

>>1051303
Lmstudio одновременно и интерфейс, и крутит модели, а openwebui и sillytavern (она же таверна) - это чисто интерфейсы, фронтенды. С ними тебе понадобится ставить движок, который будет крутить нейронку, бэкенд. Может, сама лмстудия умеет давать апи для других интерфейсов, не знаю. Мб тебе стоит сначала вики в шапке полистать, прежде чем к какой-то более навороченной работе с ллм, чем просто чат, переходить.

Аноним 12/02/25 Срд 12:28:19 #73 №1051312

>>1051305
Местные аноны пишут, что можно делать самарайз истории (краткое описание того, что произошло за весь прошлый контекст), но я таким не занимался если честно, но звучит так, как буд-то должно работать.

Аноним 12/02/25 Срд 12:38:56 #74 №1051316

>>1051274
У гугла, этой тни не видел. А кто это?

Аноним 12/02/25 Срд 12:52:53 #75 №1051322

>>1051257
Но между 4 и 8 квантом нет никакой разницы ведь модель большая

Аноним 12/02/25 Срд 12:54:43 #76 №1051325

>>1051322
Между 4 и 8 есть, даже если модель большая.
Просто на 4 большая модель не тупеет так сильно как мелкие модели, но она все равно хуже чем даже 6 квант

Аноним 12/02/25 Срд 12:56:18 #77 №1051327

>>1051325
Не настолько хуже чтобы жертвовать контекстом

Аноним 12/02/25 Срд 12:57:55 #78 №1051328

{2271912B-E4C4-46AC-8246-403B5D2D8B1C}.png

>>1051322
>22b
>модель большая
Ты, наверное, и свой 15 сантиметровый хуй большим считаешь, лол. Квант не имеет значения от 100+б и больше.

Аноним 12/02/25 Срд 12:58:36 #79 №1051330

>>1051327
Зависит от задачи, но обычно да, везде хватит 5кл какой нибудь, ну или 4кл
Чисто 4 квант катать что то из мазохизма

Аноним 12/02/25 Срд 13:28:13 #80 №1051350

Народная 9070хт на 32гб будет представлена весной летом амудой, скорее всего за $999 или ниже.
Направлена только на ии сферу картонка как более дешевое решение чем нгойдия 5090 за $3000+

Аноним 12/02/25 Срд 13:30:40 #81 №1051351

>>1051310
Запустил Mistral Nemo Instruct Bellman 12B Q5_K_M, дал ей файл небольшой. Но она не отвечает на вопросы цитатами из файла. В самом чате отображается "цитата1" "цитата2" "цитата3" со случайно взятыми кусками текста, не понимаю, нейросетка не имеет доступа к полному тексту файла или чё за хуйня. Короче разбираться надо

Аноним 12/02/25 Срд 13:32:12 #82 №1051353

>>1051350
>амудой
одной видяхи мало, вот если их вариант куды сможет работать с похожей производительностью, тогда посмотрим

Аноним 12/02/25 Срд 13:33:56 #83 №1051354

>>1051351
>Bellman
миксы для рп (в 99% случаев), а для работы бери базовые модели, ну или для мистраля ещё Dolphin вроде ок как инстракт модель

Аноним 12/02/25 Срд 13:37:14 #84 №1051359

>>1051351
>Короче разбираться надо
Мне кажется он начал что-то подозревать.

А если серьёзно, все ответы выше тебе уже дали + шапка треда. Судя по твоим вопросам которые гуглятся за 3 секунды, желание погружаться в тему у тебя тоже нет. Хочешь легко и просто, плати деньги корп. сеткам.

Аноним 12/02/25 Срд 13:55:36 #85 №1051386

>>1051316
эта вот отсюдова https://habr.com/ru/companies/airi/articles/847348/

Аноним 12/02/25 Срд 14:13:31 #86 №1051424

>>1051351
Чувак, эти мелкие нейросетки и так шизанутые, а ты ещё хочешь, чтобы они что-то там выдавали из коробки. Нужно специальные инструменты прикручивать или даже делать их самому, если локально всё.

Я не ебу себе этим мозги и с такими делами иду к корпосеткам.

Зайди на upgraide.me и выполни свою задачу, там 15к токенов бесплатных. Если не хватит, можешь туда с русской карты докинуть.

Если текста прям дохуя и работы тоже, то оплати подписку, но уже не в этом сервисе, а клодыне или гопотыне.

Аноним 12/02/25 Срд 14:17:33 #87 №1051428

>>1051255
16 гигов оперативы, чел, ты на приколе?
Ладно.
Тебе нужен контекст, а он стоит 300 мегабайт за 1000 контекста (ебически примерно).
Видяха 12 гигов, из которых свободно 11 (выведешь изображение через встройку — будет 12!), я хуй знает, как там работает радеон, но предположим — адекватно, значит максимум ты можешь вместить ~33к контекста, если всю модель выгрузишь на оперативу. Но оперативы свободной у тебя гигов 10-2 в лучшем случае, мистралька поместится, ок.
В 33к контекста може влезть несколько PDF-файлов, а может не влезть, зависит от их размера (ОТ КОЛИЧЕСТВА ТОКЕНОВ НА КОТОРЫЕ ПОДЕЛИТСЯ ТЕКСТ, БЛЯДЬ, СУКА, А НЕ ОТ ВЕСОВ ФАЙЛА, ЗАПОМНИЛ???), если там небольшие статейки, то все влезет, если там крупные инструкции, то хуй.
Генерация будет очень медленной, потому что модель в оперативе, но файлы прочтет в меру быстро.

Что делать?

Докидывать оперативы, хотя бы 128 гигов (СРАЗУ ЗАМОЛЧАЛ ЭТО НОРМ ПАМЯТЬ ЕЩЕ НЕМНОГО, СТОИТ ТАК ВООБЩЕ НЕДОРОГО), и гонять все на ней. Будет ебически долго, зато какой-нибудь квен с 1 миллионом контекста (тебе кинули его) прожует твои файлы.

Докидывать видеопамяти, если позволяет материнка, замени свою видяху на 2 3090, хотя бы, будет 48 видеопамяти, и туда уже можно впихать какие-нибудь 100-200 тысяч контекста, и скорость будет даже хороший (вложиться потребуется 120-200 тысяч рублей в видяхи, плюс бп…).

Арендовать облачно железо, настраивать там, заливать файлы туда.

Просто к корпо-сеткам иди и не еби мозги.

Может есть еще какие варианты, лень думать дальше.
↓
RAG, если тебя устроит, да, об этом ниже.

>>1051283
5 средних pdf-файлов на твой комп без вложений — нельзя.
Точнее, можешь все кидать в свап-файл на диске и ждать сутками. Но это хуевая идея, поэтому «нельзя».

>>1051295
Куда он миллион контекста запихнет с 16 гигами оперативы и видяхой на 12 гигов? В жопу себе? =)

Модели верные, но смысла — 0.

>>1051299
Какой-то мутный вскукарек.
Но оффенс, никак тебя не называю, просто в данном случае, человек просто хочет анализ текста, и у него компьютер, который его не потянет в более-менее адекватном виде чисто физически. Это факт, который не имеет отношения к школотронам в треде. И он явно не мастер обучения, и учиться ему будет нелегко.

>>1051303
Смотри, в чем разница.

Ты можешь закинуть в контекст (кратковременную память) сразу всю инфу (5-6 статей). И он будет руководствоваться ей целиком.
Либо, ты можешь заранее векторизовать (забей, магия) всю инфу, а когда будешь задавать вопрос, система будет искать похожие вектора, и автоматически добавлять в контекст только подходящие (по ее мнению) кусочки. Это и есть RAG.
Т.е., по сути, ты будешь иметь актуальные ответы, но LLM не будет руководствоваться всеми статьями, а только кусками из них. Естественно, суммарайза статей нельзя будет сделать байдизайн, ты и вручную можешь накидать подходящие кусочки статей и ужать размер таким образом.
Свои плюсы и минусы.

>>1051350
Ах, если бы!..

Аноним 12/02/25 Срд 14:19:34 #88 №1051430

>>1051230
nbeerbower/Lyra-Gutenberg-mistral-nemo-12B
Aleteian/Saiga-Unleashed
LatitudeGames/Wayfarer-12B
Aleteian/NeverendingStory

Ого, тут тебе и Лира-Гутенберг, и Сайга-Анлишд (моя топ-1 РП), и Вайфарер, который хвалили, и Неверендинг (моя топ-1 сторителлер)!

Жесткий набор, это мы пробуем.

Аноним 12/02/25 Срд 14:20:59 #89 №1051435

>>1051428
>квен с 1 миллионом контекста (тебе кинули его) прожует твои файлы
бля это вообще мем какой-то мы уже сидим года два не вылезая из забора в виде 128к контекста только вот квен может обрабатывать столько локальноно у кого столько компьюта есть реалистично?
видимо не пофиксят проблему с контекстом в ближайшие 5 лет ещё лол

Аноним 12/02/25 Срд 14:21:11 #90 №1051436

>>1051428
>Куда он миллион контекста запихнет с 16 гигами оперативы и видяхой на 12 гигов? В жопу себе? =)
>Модели верные, но смысла — 0.
Неа, они лучше с контекстом работают.
Тоесть такая модель лучше работает с контекстом 32к чем та которую на него обучали.
Ну и запас, может впихнет хоть 64к контекста, уже неплохо

Аноним 12/02/25 Срд 14:27:33 #91 №1051449

>>1051230
Мне тоже эта Легенда получше даже чем всякие цидонии и магнумы зашла (На них я на англ рпшил, тут на ру). За несколько дней ни одного залупа, шизы минимум (16к контекста, 6 квант). И это я плотно сидел, часов по 6-8 в день. Бывает путает окончания и случается что плохо следует некоторым пунктам в карточке, например про то что персонаж не умеет разговаривать, но если напоминаешь про это разок, то дальше нормально.

Аноним 12/02/25 Срд 14:27:59 #92 №1051450

>>1051428
Спасибо. Теперь понял, что нахуй надо для рабочих целей на своём пк запускать нейросеть. Проще взаправду самому всё делать.

Платить корпосеткам не хочу, т.к. надо разбираться какую конкретно взять, как её оплатить из РФ и не ясно будет ли стоить игра свеч.

Аноним 12/02/25 Срд 14:37:20 #93 №1051456

>>1051435
Я подозреваю, что большинству просто хватает 128к (даже с избытком), и проблема железа имеет место быть, поэтому и не делают больше. Как бы «нахуя?»
1кк контекста это… ммм… 300 гигов памяти? НИЧО ТАК НИЧО ТАК
Если квантануть в q4 то уже подъемные 75 гигов, только вот качество, я боюсь, начнет стремиться к нулю. Могу быть не прав, не тестил больше 50к за последнее время.

>>1051436
Да там вообще модельки, насколько я помню, чуть получше вышли.
Ну, в общем, да, их стоит брать в любом случае, пожалуй соглашусь. Даже не ради миллиона, а ради самого умения работать с большими контекстами.

>>1051450
Можешь попробовать так:
Берешь https://huggingface.co/bartowski/Qwen2.5-7B-Instruct-1M-GGUF
Скидываешь одну статью, суммаризируешь ее.
Создаешь новый чат, кидаешь вторую статью, суммаризируешь ее.
…
Берешь все результаты — суммаризируешь их.

Если не будет жаль потраченного времени на разбирательство с тем, как установить модель и выделить контекста достаточное количество (те же 32к), то время можешь и сэкономить.

Но это, пожалуй, единственное, что можно попробовать.

В общем-то вывод верный. Если ты не IT-специалист, и тебе надо на один раз, то такое.

Успехов!

Аноним 12/02/25 Срд 14:40:57 #94 №1051459

>>1051456
>большинству просто хватает 128к
если будет держать их идеально то да, возможно хватит
даже deep research с о3 обсирается в мелких деталях
в общем плане оно пишет отлично, но это отлично отбраковывается экспертом потому что либо оно опускает важные детали (например как модель тренировалась, с помощью каких методов и сколько), либо просто пишет бред (выдумывает количество параметров или сколько модель набрала на бенчмарках)

Аноним 12/02/25 Срд 14:43:20 #95 №1051461

Наконецто набрался смелости и взял 3090 всё же в год майнинга люди и 3060 по 80к покупали
Прощай ебанные 12б огрызки

Аноним 12/02/25 Срд 14:47:39 #96 №1051464

>>1051456
>1кк контекста это… ммм… 300 гигов памяти? НИЧО ТАК НИЧО ТАК
Не там какое то умное сжатие, тоесть без квантования контекста весь лям на 120 гб врам, по крайней мере что то такое видел в описании моделек от их авторов на обниморде в рекомендациях

Аноним 12/02/25 Срд 14:50:20 #97 №1051465

>>1051464
Хм, в таком случае не так плохо.
Может даже затестирую.
Время кидать цикл Ника Перумова и просить пояснить за мотивацию Рыси…

>>1051461
Поздравляем. =)

Аноним 12/02/25 Срд 14:50:47 #98 №1051467

>>1051305
Моя писать. Твоя понимать.
Капишь ?

Контекст суть есть извечная боль и тормоз РП. И выхода нет. Можно квантовать контекст, можно играться в шифтинг. Но как показала практика - суммарайз и лорбуки ю, единственное что помогает.
В рабочих задачах это не применимо, но именно поэтому рабочие задачи и решаются или на серверном оборудовании или подрубанием действительно жирных цифр.

Аноним 12/02/25 Срд 14:53:51 #99 №1051471

>>1051464
Требования VRAM:

Для обработки последовательностей 1 миллион склеен:
QWEN2.5-7B-Instruct-1M : не менее 120 ГБ VRAM (общее количество графических процессоров).
QWEN2.5-14B-Instruct-1M : не менее 320 ГБ VRAM (общее количество графических процессоров).

И это только запуская vllm что ли с каким то их запуском. Обычный ггуф скорей всего только до 250к может взять нормально работая с контекстом. Но это тоже дохуя себе

Аноним 12/02/25 Срд 14:57:15 #100 №1051473

>>1051309
>>1051312
>>1051467
Ну, блин. Если контекст установлен в Х байт, то он не может быть превышен никак. Это же аксиома известная всем? Если я пишу, что модель забывает мелочи из начала диалога, то с учетом аксиомы, логично, что я имел в виду одну сессию до суммарайза. Я хз, о чем вы.

Аноним 12/02/25 Срд 15:00:10 #101 №1051476

И еще. Место под контекст выделяется сразу при загрузке модели с настройками. Ставишь контекст 8192, грузишь модель и смотришь сколько заняло. Потом ставишь 16384 и смотришь сколько заняло. Высчитываешь разницу и понимаешь что почём.

Аноним 12/02/25 Срд 15:00:56 #102 №1051478

Как жизнь с 24г врама на 70б?
2 квант можно запустить кто то всерьез пробовал?

Аноним 12/02/25 Срд 15:03:54 #103 №1051480

>>1051227
> CoT работает через жопу или не работает вовсе
Ну еще бы, ведь это просто насрали тренировкой со слоперским датасетом поверх. Чтобы там что-то сохранилось живое, это нужно конкретно там тренировочные данные перелопачивать и готовить новые. Также, сильно мешать будет изначальная убитость дистиллятов.
>>1051240
> А как её дальше обучать?
Никак. Ты не сможешь, потому что задача обучения - дохуя сложная, даже если у тебя будет железо то пдфками не отделаешься.
> У меня задача давать с 5-6 pdf файлов с текстом (если в нём картинки будут, я так понимаю похуй, это нейросеть не сломает), после чего она должна выдать ответ лаконично суммируя источники
Уточни насколько большие и сложные эти файлы. Тебе повезло и с такими задачами модели справляются в стоке и никакое обучение не нужно. Достаточно будет правильно организовать составление промта с использованием данных из твоих текстов.
Но если там техническая литература и/или объемы большие то сетка просто с таким не справится и соснешь.
>>1051299
Хуем по голове долбоеба стукните, может после второго раза вылечится.
>>1051350
От создателей 5060ти@24. Возможно, какая-нибудь 9090 может заиметь мощный чип и 32гига (а то и больше), но текущий анонс красных - кринж. Цена тоже будет конской, но с 48 гигами за условные 1500-2000 уже можно задуматься.

Аноним 12/02/25 Срд 15:05:30 #104 №1051481

>>1051461
Ты даунвольтил? Скок жрет ватт? Я вот думаю хватит мне на 2060 + 3090 750w gold бп.

Аноним 12/02/25 Срд 15:09:36 #105 №1051484

>>1051480
Разброс примерно: статьи на 3-4 страницы, методички 20-100 страниц, учебники 500-700 страниц. В основном буквенный текст, числовых значений немного
>>1051456
Что ж, на досуге попробую, благодарю

Аноним 12/02/25 Срд 15:13:18 #106 №1051487

>>1051428
> Докидывать оперативы, хотя бы 128 гигов (СРАЗУ ЗАМОЛЧАЛ ЭТО НОРМ ПАМЯТЬ ЕЩЕ НЕМНОГО, СТОИТ ТАК ВООБЩЕ НЕДОРОГО), и гонять все на ней.
В дурку
> замени свою видяху на
Правильно
> RAG
Ему по описанию суммарайз нужен, здесь раг вообще не друг и требуются другие подходы.
>>1051456
> большинству просто хватает 128к
Большинство моделей даже 64к плотной инфы неспособны обработать, если это не какой-нибудь примитивный нидл-стак бенчмарк. Можно сделать колдунство, разметив текст, запросами постепенно обработать куски, натащив с них якорей, зафорсить ризонинг в правильном направлении и что-то получить - только так.
>>1051461
Welcome to the club, buddy grabs his ass
>>1051484
> статьи на 3-4 страницы, методички 20-100 страниц, учебники 500-700 страниц
Это дохуя сложная задача. Статьи, если по одной и аккуратно - можно обработать с нормальным качеством. Методички - с большим натягом и те что поменьше. Учебники - шансов никаких.
Но это касается именно суммарайза и подобного. Если тебе нужно опираться на них для ответов, как-то использовать данные из них, или нечто подобное - вот это можно реализовать, но задача сложная. Для начала просто освойся как оно работает и попробуй что-нибудь простое сделать.

Аноним 12/02/25 Срд 15:16:58 #107 №1051492

IMG0837.jpeg

>а у меня 128к контекста
>а у меня 64к
>а у меня 80к

В это время гугло гемма
>размер не главное

Аноним 12/02/25 Срд 15:18:53 #108 №1051495

>>1051492
Не смей говорить плохое про гемму. гемма2 лучшая.

Аноним 12/02/25 Срд 15:21:53 #109 №1051498

IMG0841.jpeg

>>1051495
Народные 8к. Каждому рабочему по 20 сообщений.
YAY !

Аноним 12/02/25 Срд 15:27:12 #110 №1051504

>>1051498
Осталось. Олько понять : да как так то, блять.
Гугл совсем пизданулся от нищеты ?

Аноним 12/02/25 Срд 15:29:18 #111 №1051507

>>1051504
8к так то база, стандарт.
Выше модели уже откровенно шизят и не помнят, надо просто на одно сообщение по 5-10 токенов тогда заживем

Аноним 12/02/25 Срд 15:30:46 #112 №1051509

>>1051498
Вот как? Но зато эти 8к контекста она генерирует лучше чем какая-либо другая модель подобного размера. Главное не размер контекста, а умение им пользоваться.

Аноним 12/02/25 Срд 15:31:09 #113 №1051510

>>1051507
> по 5-10 токенов
Да это же.
ДА ЭТО ЖЕ :

-Ты меня ебешь

Аноним 12/02/25 Срд 15:40:14 #114 №1051516

Аноны, здесь же вроде кто-то хотел русский файнтюн сделать и знает, как это сделать. Вроде бы проблема была только в датасете?

Если у вас есть инструкции, могу тонну качественного нейрослопа, лол, чисто под РП-формат нагенерировать на клоде, ибо русик у него великолепный. Также можно разметить русскую литературу как надо, но там плата за чтение контекста моделью очень жирная, так что проще генерировать с нуля и на разные темы.

Только нужны инструкции, как всё это оформлять и прочее, которые я могу загрузить в модель, чтобы она ебашила.

Ну и чтобы это было кому-то здесь вообще нужно. Вдруг того анона уже здесь нет.

Аноним 12/02/25 Срд 15:44:09 #115 №1051520

>>1051516
> чисто под РП-формат нагенерировать на клоде
Как раз этот говно и понимают под "проблемный датасет".

Аноним 12/02/25 Срд 15:47:38 #116 №1051526

>>1051520
Тем не менее, это лучше, чем то, что сейчас пишут ру-модели. Если сделать грамотно, качество русского языка заметно повысится. Живёт же как-то магнум и пишет относительно терпимо. Такой уровень да на русике — и уже заебись было бы.

Вопрос скорее в том, каких размеров датасет нужен, чтобы это реально на что-то повлияло. Я ж тоже в одно ебало могу не справиться. Вдруг там 20 миллионов токенов нужно. Это займёт много времени.

Аноним 12/02/25 Срд 15:48:00 #117 №1051527

>>1051516
BLYAT. NYET
FUCKING NO
HELL NO
FUCK THIS SHIT AGAIN
В этом то и вся проблема. Лучше бы отсканили женские романы, я бы себе так ебало не разбивал, чем этот ебанный нейрокал на датасетах.

Аноним 12/02/25 Срд 15:50:19 #118 №1051531

>>1051527
Но с другой стороны.
Кто угадает пейсателя без гугла ?
Он переждал минуты две, но сердце его билось ужасно, и мгновениями он почти задыхался. «Нет, не пройдет сердцебиение, — подумал он, — не могу дольше ждать». Он стоял за кустом в тени; передняя половина куста была освещена из окна. «Калина, ягоды, какие красные!» — прошептал он, не зная зачем. Тихо, раздельными неслышными шагами подошел он к окну и поднялся на цыпочки.

Аноним 12/02/25 Срд 15:51:35 #119 №1051532

>>1051526
Вихрь на этом говне уже натренен, второй подобный высер никому не нужен. Клод слишком говно, чтоб от него чему-то модель научилась.

Аноним 12/02/25 Срд 16:06:54 #120 №1051547

блять аноны у 3090 мемори темпичу 98 отменять?

Аноним 12/02/25 Срд 16:07:50 #121 №1051548

>>1051547
в фулмарк тесте имею ввиду

Аноним 12/02/25 Срд 16:08:43 #122 №1051550

image.png

>>1051547
скрин конечно прислали пиздец

Аноним 12/02/25 Срд 16:11:16 #123 №1051552

>>1051547
Это норма. Там горячие чипы, Викусик всегда говорил что до 120 норма для памяти 3090. Это в 4090 они холодные стали.

Аноним 12/02/25 Срд 16:25:22 #124 №1051560

1714883438332.png

>>1051547
У 3090 гиговые чипы, стоят с двух сторон платы, по 12 штук с каждой. А у 3090 Ti и 4090 уже нормальные 2-гиговые. Поэтому на 3090 память очень горячая, ниже 95 её воздухом не охладить. На всяких палитах и китайском говне типа PNY всегда 110. Хотя у тебя там детские 150 ватт нагрузка, пикрил у меня на Стриксе на 400 ваттах.

Аноним 12/02/25 Срд 16:29:46 #125 №1051563

>>1051527
Да шо тебе не нраица, нормальный клодыня, словарный запас большой, хорошо суть улавливает, будет точно лучше.

Просто на русском языке не найдется столько литературы, чтобы бишбармак получился. Разве что тупо запивать её буквально тоннами и нейросеткой размечать, но тут мои полномочия всё, никаких денег не хватит даже на автоматическую разметку.

Нейрослоп проще.

>>1051532
На каком именно говне? Третий опус или сонет 3.5? Там сильно качество разное. А про гпт даже говорит не стоит — он пишет хуже Донцовой.

Аноним 12/02/25 Срд 16:34:40 #126 №1051569

А есть гайд как покупать 3090 с лохито?
Сколько должны стоить, какие бенчмарки чисто под ллм запускать для тестов, нужно ли всякие обычные фурри марки запускать?

Аноним 12/02/25 Срд 16:43:28 #127 №1051575

Дикпик норм генерит порно?

Аноним 12/02/25 Срд 16:46:46 #128 №1051580

>>1051569
>А есть гайд как покупать 3090 с лохито?
Ищи в своём городе;
Смотри лично;
Учти, что обслуживание 3090 стоит 5к - смотри на температуры;
Тебя интересуют 2 теста - OCCT на видеопамять, 95% 15 минут и сразу после Superposition Benchmark на 8к пару раз. Температура чипа не должна превышать 82 градуса (в нормальном корпусе), памяти +10. Где-то так.

Аноним 12/02/25 Срд 16:50:23 #129 №1051585

>>1051224
Зачем? Китайский ЧП, с китайским фантюном.

Аноним 12/02/25 Срд 16:54:14 #130 №1051590

>>1051461
>12б огрызки
всё равно на них вернёшься, ибо контекст, сука, контекст
и скорость генерации

Аноним 12/02/25 Срд 16:54:20 #131 №1051591

>>1051547
Не, кстати, нормас. у меня на 3090 msi gaming x trio примерно 100 градусов. Сам взял меньше недели назад. По хорошему надо прокладки заменить, но это в пределах рабочей температуры. Советую посмотреть внимательно на модель, там у некоторых на бэкплейте есть теплотрубки, а у некоторых нихуя.

Аноним 12/02/25 Срд 16:54:56 #132 №1051592

Как я определяю что модель хорошо понимает что происходит в мире РП? Все просто. Я беру карточку, в которой перс типа общается с юзером через интернет по компьютеру (они не в одной комнате) и если модель следует этому и не пишет про физические контакты между юзером и персом, а пишет только как они общаются по интернету и что делают перед компом - то модель прошла тест. Пока что этот тест прошла только гемма2, думайте.

Аноним 12/02/25 Срд 16:55:44 #133 №1051593

>>1051590
Я уже месяц на 3 кванте 22б сижу меня не вернуть

Аноним 12/02/25 Срд 16:57:03 #134 №1051596

>>1051591
>3090 msi gaming x trio
У меня такая же едет, возможно мы у одного продавана взяли

Аноним 12/02/25 Срд 17:00:24 #135 №1051603

>>1051596
да компьютеры на мичурина там в целом первый результат и наверно самый лучший. тем что у чувака в объявлении есть возврат на 2 недели. полагаю у него и взял?
я там ещё пяток продаванов перебрал по другим моделям с приличным охлаждением.

Аноним 12/02/25 Срд 17:02:07 #136 №1051605

>>1051603
Угадал давай отзыв

Аноним 12/02/25 Срд 17:07:01 #137 №1051610

>>1051516
https://huggingface.co/datasets/nbeerbower/gutenberg2-dpo

вот так надо книги нарезать на датасет

Мультитурн клодослоп требует вычитки и редакта человеком, или получим "дрожит её спину озорячно пырясь".

Аноним 12/02/25 Срд 17:16:51 #138 №1051623

>>1051592
Вот бы кто запилил карточку К-Angel, да

Аноним 12/02/25 Срд 17:28:27 #139 №1051635

Поясните, для рп на русском следует переводить и карточку и первое сообщение, или только первое сообщение а описание персонажа оставлять на английском? Видел в треде делают и так и так, кто-то тестил разницу? Алсо, просто накидайте рабочих русских карточек если есть у кого.

Аноним 12/02/25 Срд 17:29:28 #140 №1051636

IMG20250211052945.jpg

>>1051605
1 карточку прислал с выпуском 21 04. так что сколько она жарилась майнерами не понятно. но вряд-ли дольше 9 месяцев.
2 я ОЧЕНЬ внимательно смотрел на болты под лупой, лысок не нашел. либо её вскрывали грамотно, либо не обслуживали вовсе. притом ещё делал фотки с макро камеры мобильником и с другом смотрел лол.
3 она была продута от пыли на 7,5/10.
4 я не нашел следов коррозии. при внешнем осмотре я нашел только мелкую царапину на передней панели. видимо кто-то провёл коннектором случайно.
видеокарта была явно помыта и почищена со спиртом перед тем как её положили, я не нашел отпечатков пальце. коннекторы для проводов целые, все порты целые. на внешний осмотр потратил примерно 25 минут.
5 внутри я долго светил фонариком и совал ебало, не обнаружил ничего интересного кроме небольшого количества пыли. следов гари не обнаружил.
6 жарил её OCCT во всех трёх тестах по часа. Прошелся GpuMemTest. Ошибок не нашел.
7 после 5 минут фурмарка было 80,2 максимальная температура, 90,4 хотспот, 100 у памяти. немного жарковато, но дельта в 10 градусов от температуры хотспота это довольно неплохо.
8 дали 2 заглушки
9 не положили антистатичного пакетика.

отмечу что продаван перед отправкой так-же сделал тесты. и даже дал мифическую трёхмесячную гарантию.
Попросил прислать сдэком, пришло прям очень хорошо упаковано. пакет, три слоя пупырки и ещё какой-то машиной сверху накрутили слой скотча.

из немного подозрительного - у меня слетели дрова после второго ребута и отказались переставляться без удаления. но по хорошему мне надо было сносить их дисплей драйвер анисталером чтобы ошмётков не осталось.

полагаю больше всего вопросов вызывает дата производства. ну и в целом надо закладывать потенциальную цену обслуживания. хотя если ЛЛМ гонять то не так сильно надо.

ну и занимает места пиздец. пришлось выковыривать материнку из корпуса. так как к меня в корпусе есть пластиковая хуйня для ХДД и мне пришлось бы её выламывать чтобы запихать.(слева)

Аноним 12/02/25 Срд 17:31:38 #141 №1051641

>>1051592
Да, у меня такая же хуйня была до 32б. Такое ощущение, что только гемма при этих размерах нормально справляется. Как-то странно очень выходит.

Алсо, ещё со слепой тян норм рп проверять или прописать суперспособность персонажу хорошо. Если он её толком не юзает или юзает криво, то здесь сразу всё понятно. Особенно если способность телекинетического типа.

Аноним 12/02/25 Срд 17:32:45 #142 №1051643

>>1051487
Ну я благодаря нейросети примерно понимаю, что каждая настройка делает, что такое токены и т.п. Как концептуально работает нейросеть тоже, повторяет архитектонику мозга, расслаивает информацию и потом как бы вытягивает на верхние слои нужное. Векторизация так понял это присвоение условно каждому слову метки, типо метка "собака" даётся словам "доберман", "ротвейлер" и т.п. Но куда дальше копать, чтобы от теории к практике - мало понимаю.

Аноним 12/02/25 Срд 17:33:52 #143 №1051645

images.jpg

vmvupbmnw7471.jpg

>>1051547
потому что куртка не дождался кокда микрон выкатит более ёмкие чипы памяти и нахуярил ети самые чипы памяти на спину видеошмарты, результат предсказать не трудно она там не охлаждаертся нихера

Аноним 12/02/25 Срд 17:36:27 #144 №1051651

>>1051635
Желательно. Первое сообщение - обязательно.
Определение - не обязательно, но работать лучше будет если переведено.

Пример:
https://characterhub.org/characters/aleteian/rene-broken-hero-289a13dbd85b

>накидайте рабочих русских карточек
Тут похоже только я перевожу =)
https://pixeldrain.com/l/47CdPFqQ
Что есть, рус-анг.

Аноним 12/02/25 Срд 17:43:59 #145 №1051662

>>1051516
чел из 2023

Аноним 12/02/25 Срд 17:45:54 #146 №1051669

>>1051635
Ещё один важный момент - чем больше русского языка в контексте, тем более качественным и консистентным он становится, если модель не совсем убитая конечно.

Поэтому если карточка очень короткая, да и ещё переведено только первое сообщение, то первые 2-4 сообщения придётся свайпать пока не будет норм, потом уже станет хорошо.

Аноним 12/02/25 Срд 17:48:10 #147 №1051673

>>1051669
Всё это надо только для мелких моделей. В том же квене 72В сходу на английской карточке норм с русским.

Аноним 12/02/25 Срд 17:49:57 #148 №1051677

>>1051673
но 72 не для всех, большая часть треда всё же сидит на 12-22

Аноним 12/02/25 Срд 17:57:57 #149 №1051678

>>1051677
>большая часть треда всё же сидит на 12-22
На 8-22 попрошу.

Аноним 12/02/25 Срд 18:02:05 #150 №1051680

>>1051678
На 8-671 так-то. Но ниже 70В оно почти неюзабельно.

Аноним 12/02/25 Срд 18:06:59 #151 №1051681

image

>>1051680
>неюзабельно
ах шит, хиэ ви го эгэйн

Аноним 12/02/25 Срд 18:13:58 #152 №1051686

>>1051680
Когда ж ты успокоишься мамкин хакир. Ты, возможно, один раз проплатил 20$ за полчасика и потыкал во что-то большее, но теперь гонора и спеси у тебя через край. Сделай себе илитный тредик и торчи там.

Аноним 12/02/25 Срд 18:28:21 #153 №1051694

>>1051651
>>1051669
С чего ты взял, что качество будет лучше? Ты прям какие-то тесты проводил или хотя бы рпшил долго на одной и той же карточке англ, а потом ру (при этом рп велось на русском), и после этого замечал прирост?

Я каких-то глубоких тестов не проводил, однако не заметил существенной разницы, кроме того, что выше шанс протекания англюсика, даже если приветственное сообщение переведено.

Более того, 12б мистрали, тем более шизотюны, с трудом понимают сложные концепции и в русике вообще могут не понять, что ты имел в виду, а на англе поймут. В плане характера персонажей, каких-то скилов и т. п. А вот на английском с большей вероятностью поймут.

Аноним 12/02/25 Срд 18:30:40 #154 №1051697

>>1051680
Вспомни, как ты радостно тыкал в character.ai и устанавливал обход цензуры, чтобы видеть сообщение бота. А ведь сейчас даже 8б модель сильнее, чем старый чарактер.

Аноним 12/02/25 Срд 18:35:48 #155 №1051700

image.png

Есть какие-нибудь инструкции как выставить в кобальде оптимальные параматры для дипсекс для 8гиговую карточку?
Сколько слоев можно выставить и контекста чтобы в аут оф мемори не вылетало?

Аноним 12/02/25 Срд 18:44:45 #156 №1051706

>>1051700
Ставишь контекст, который тебе нравится. Обычно нужно не менее 8к контекста. Пишешь -1 в слоях. Если не показывает, сколько там слоёв, то узнаешь количество или пишешь наобум, например 30. Запускаешь. Не запускается? Ставишь меньше слоев. Когда начнет запускаться, то закрываешь, открываешь кобольд снова и запускаешь бенчмарк, чтобы он ещё и контекст заполнил. Если при бенчмарке вылетает из-за недостатка памяти - уменьшаешь количество слоёв. Не вылетает? Увеличиваешь количество слоёв. И так до победного.

Со временем ты уже без тестов будешь знать, сколько слоёв нужно для каждой модели.

Аноним 12/02/25 Срд 18:45:28 #157 №1051707

>>1051694
да, проводил и тестировал

>шизотюны
Ясно с тобой.

Слышащий да услышит, видящий да узрит.

Аноним 12/02/25 Срд 18:52:31 #158 №1051713

Untitled.jpg

Что из пика отправить в кобольд, а что в корзину? Который день не могу решить лол.

Аноним 12/02/25 Срд 18:54:36 #159 №1051717

>>1051706
а UseQuantMatMul и Disable MMAP выставлять?
А то в некоторых гайдах пишут что надо их включать/выключать

Аноним 12/02/25 Срд 18:57:40 #160 №1051720

11.png

>>1051700
Выбери сначала модель и количество слоев будет само выбираться в зависимости от выставляемого контекста.
Так же ставь кол-во потоков процессора на максимум или -1

Аноним 12/02/25 Срд 18:59:01 #161 №1051721

>>1051713
Всё в корзину =)
И скачай статик квант легенды.

Из за того что матрицы важности собраны из английского датасета, на русском лучше юзать статик кванты mradermacher или квантованные самостоятельно через gguf-my-repo.

Аноним 12/02/25 Срд 19:08:15 #162 №1051734

>>1051707
Окей, тогда переведу, хули там. Сравню. Может меня ожидает приятный сюрприз. У меня как раз есть здоровенная карточка на 2500 токенов, которую я сам писал.

Аноним 12/02/25 Срд 19:12:31 #163 №1051746

>>1051651
Спасибо.

Аноним 12/02/25 Срд 19:12:39 #164 №1051747

>>1051734
> Может меня ожидает приятный сюрприз.
Сюрприз будет, но не приятный. Тебя траллят, промпты на русском всегда дают хуже генерацию, чем на английском.

Аноним 12/02/25 Срд 19:15:42 #165 №1051754

>>1051747
>Тебя траллят, промпты на русском всегда дают хуже генерацию, чем на английском
вот ты лалка

не, они конечно хуже, но по причине того что русского меньше в датасетах

Аноним 12/02/25 Срд 19:21:28 #166 №1051764

image.png

>>1051717
>а UseQuantMatMul и Disable MMAP выставлять?
Я хз. Ты что-то понял?

Аноним 12/02/25 Срд 19:27:39 #167 №1051769

>>1051764
У меня с MMQ обработка контекста в несколько раз быстрее.

Аноним 12/02/25 Срд 19:28:47 #168 №1051770

>>1051769
ram/vram?

Аноним 12/02/25 Срд 19:31:33 #169 №1051772

посоветуйте чето типа цидоньки но 30+б

Аноним 12/02/25 Срд 19:31:35 #170 №1051773

>>1051770
32 / 12 + 4

Аноним 12/02/25 Срд 20:06:02 #171 №1051811

>>1051721
Понял. Спасибо, анон.

Аноним 12/02/25 Срд 20:18:17 #172 №1051819

>>1051478
>Как жизнь с 24г врама на 70б?
Токена 3 в секунду на 4км.
>>1051487
>Большинство моделей даже 64к плотной инфы неспособны обработать
Меняем на 8к, и будет истина.
>>1051552
>до 120 норма
Шиз, спок. 115 темпа отсечки, выше троттлинг включается.
>>1051636
Ебать печка на пикриле. Бери райзер.
>>1051717
>Disable MMAP выставлять
Да, сейчас он вообще по дефолту.

Аноним 12/02/25 Срд 20:20:40 #173 №1051825

>>1051819
>Токена 3 в секунду на 4км
Нахуй так жить?.. не жизнь, а прозябающее существование

Аноним 12/02/25 Срд 20:23:59 #174 №1051829

>>1051825
Ха, я на 0,7 жил с 12 врама и 123B моделью, так что 3 токена это прям мега скорость.

Аноним 12/02/25 Срд 20:24:52 #175 №1051831

>>1051819
> троттлинг
Какой троттлинг у памяти, шиз. Тут только троллинг тупостью может начаться, когда ты путаешь температуру гпу и памяти. Троттлинг от температуры памяти нигде и никогда не начинается. Именно поэтому если память перегревается, то горит пока не выгорит.

Аноним 12/02/25 Срд 20:30:37 #176 №1051836

>>1051495
Двачую. Она всегда так старается и хорошо отрабатывает недефолтные вещи, на которых даже большие сливают (из-за васян тренировок/мерджей, но всеже)
>>1051516
> Вроде бы проблема была только в датасете?
Не только.
И так лежат дампы проксей, а тут предлагаешь с одного человека слоп тащить.
> Только нужны инструкции, как всё это оформлять и прочее
Заливай как есть, можешь чаты таверны.
Ценнее всего нити, где работяги и сами отыгрывают, и сетку редактируют, собирая интересные посты. Но такого мало, в основном там низкосортный кум, который можно идеально воспроизвести даже на мелких локалках, ужаренных подобными датасетами. С ростом размера будет только больше деталей подмечать, а суть сохраняется.
>>1051547
Закладывай в бюджет подходящие термопрокладки и услуги мастера, если у самого руки кривые. В идеале за 90 переваливать не должно, на донных охладах в стоке может за сотню.

Аноним 12/02/25 Срд 20:34:16 #177 №1051841

>>1051819
>Ебать печка на пикриле. Бери райзер.
Сам охуеваю. Давно уже взял, он ещё не приехал. лол у меня ещё 5ССД в пеку воткнуто, пришлось искать эти УГЛОВЫЕ провода чтобы второй кирпич туда воткнуть. притом провода выводить между двумя кирпичами.

вообще офигеть конечно оно жарит. буквально. в комнате температура ощутимо повышается во время активного кума.

Аноним 12/02/25 Срд 20:38:14 #178 №1051845

пацаны, какое же говно эти ваши дистиляты R1, рот их ебал.
Просто пизда, какое тупое говнище.
Вернулся обратно на мангум 123б 5Q XS. Пока что лучшей сетки просто не нашел.
Не с точки зрения рп. А с точки зрения кода. Это уже просто критично. Да и для рп дистилляты говно ёбаное.

...а на собственный сервер с A100 чтобы гонять оригинал R1 денег нет... грусть.
Куртка пидорас, надеюсь ты задохнешься, когда гора золотых монет в твоем золотохранилище придавит тебя волной.

Аноним 12/02/25 Срд 20:38:48 #179 №1051846

>>1051841
>вообще офигеть конечно оно жарит. буквально. в комнате температура ощутимо повышается во время активного кума
Плюс к рп же считай реальный секс

Аноним 12/02/25 Срд 20:41:26 #180 №1051850

>>1051846
Я начинаю подозревать что для идеального кума мне надо поставить водянку с циркуляцией воды в БОЙЛЕР. Чтобы по окончанию кума идти и принимать душ водой согретой теплом кошки-жены.

иначе я охуею кумить летом

Аноним 12/02/25 Срд 20:42:13 #181 №1051852

>>1050631 (OP)
Какие есть годные сервисы для интерактивной генерации истории с неограниченным диалогом (желательно с минимум цензуры)?

Аноним 12/02/25 Срд 20:42:17 #182 №1051853

>>1051643
> примерно понимаю
Это хорошо что ты поспрашивал за принципы работы и т.д., однако будь осторожен, тебе выдали лишь самые верха, да еще там полюбому есть какие-то искажения, интерпретации, перевирания.
> Как концептуально работает нейросеть тоже, повторяет архитектонику мозга, расслаивает информацию и потом как бы вытягивает на верхние слои нужное.
Это очень условная аналогия, пригодная только для общего объяснения обывателю. Именно такой системы в большинстве используемых нейронок ты не встретишь.
> Но куда дальше копать, чтобы от теории к практике - мало понимаю.
Для начала разберись как работает ллм и попробуй хотябы с ней пообщаться, а там уже поделать простые запросы с сырым промтом, чтобы понять как устроено форматирование и идет ответ.
>>1051645
> она там не охлаждаертся нихера
В нормальных карточках охлаждаются, а в хуевых их близнецы 3080ти, где чипы только с одной стороны, точно также перегреваются. Проблема не в обратном расположении, а то что изначально использовали всратый дизайн, где тепло с чипов идет не сразу на испарительную камеру или просто толстый участок радиатора, а на какие-то пластины и прочую херню, которые не способны эффективно взять то количество тепла и рассеять/передать на основную поверхность. Не поменяли дизайн, разработанный под старый формат памяти что была холодной, вот и получили ерунду.
>>1051697
Чсх, на чае моделька была достаточно большая и могла выдавать очень интересные посты. Она не имела типичных проблем мелкомоделей, а все то обилие косяков выражалось иначе, что воспринималось довольно естественно и приятно. Не факт что современная 8б сможет обойти старую чайную именно в задаче короткого рп чата, по всяким qa и подобному офк там без шансов.

Аноним 12/02/25 Срд 20:54:42 #183 №1051870

>>1051819
> Меняем на 8к, и будет истина.
Можно так плотно навалить, что и 2к ниасилит. Просто в рп до 32к вполне выдерживают, если там нет убивающего все участка.
> 115 темпа отсечки, выше троттлинг включается
105 тротлинг и включение охлаждения на максимум на большинстве карточек.
>>1051831
Зачем трясешься, там тротлится вся карточка, просто дропаются частоты.
> Троттлинг от температуры памяти нигде и никогда не начинается
Пиздаболам в рот нассым. Память у него перегревается и выгорает, ахуеть шиз, нормальную карточку возьми и посмотри.

Аноним 12/02/25 Срд 20:56:44 #184 №1051875

>>1051870
> дропаются частоты
У памяти, лол?

Аноним 12/02/25 Срд 20:58:17 #185 №1051878

>>1051875
И у гпу и у памяти. Что тебя так удивляет?

Аноним 12/02/25 Срд 21:00:12 #186 №1051881

>>1051230 >>1051430 >>1051449 >>1051593 >>1051635 >>1051721

Потестил три модельки на карточке героини на русском, ~10К контекста.
До хентая не дошло. На одной почти дошло не дошло.
Модельки со смыслом, а не хорни. Сам писал примерно одинаково.

https://pixeldrain.com/u/7bM5BMtm on-the-strange-lands-mn-12b-q8_0.txt
https://pixeldrain.com/u/1un4imhk way-to-unseen-horizon-2-mn-12b-q8_0.txt
https://pixeldrain.com/u/QLr4wjyk legend-of-the-four-winds-mn-12b-q6_k.txt

https://pixeldrain.com/l/TwMwDvdt All 3 files

Аноним 12/02/25 Срд 21:00:23 #187 №1051883

>>1051878
То что ты не прекращаешь траллить тупостью. У кучи карт вообще нет датчика температуры на памяти.

Аноним 12/02/25 Срд 21:02:24 #188 №1051886

>>1051883
> траллить тупостью
> нет датчика температуры на памяти
Не мог еще жирнее, твой ркн принесет пользу обществу.

Аноним 12/02/25 Срд 21:09:42 #189 №1051892

>>1051461
>Прощай ебанные 12б огрызки
... и здравствуйте 20б огрызки
лол

Аноним 12/02/25 Срд 21:27:16 #190 №1051902

>>1051547
>блять аноны у 3090 мемори темпичу 98 отменять?
Кароч смотри, берешь прокладки fehonda 15w, обязательно 15, не 12, если на охладе одна ровная площадка под чип и память, то толщину берешь 2.25, а не 2 (даже если по заводу 2). Остальные толщины смотри тут https://t.me/termalpad_cards
На чип мажешь фазовый переход 7950 в листе 0.25, не обязательно его ложить ровно как на видосах, можно на похуй, он все равно растечется.
Самый прикол на котором можно легчайше выиграть -10 с чипа - слегка прикручиваешь плату четырьмя винтами к радику и ставишь греться куда-нибудь градусов до 55-60. Можно и в духовку, если аккуратно на слабом огне и контролить термометром.
Когда нагрелось, аккуратно шатаешь плату из стороны сторону, насколько позволяет люфт, протягиваешь до конца, и шатаешь еще раз, чуток. Получаешь в итоге ИДЕАЛЬНЕЙШИЙ прижим, лучшую термопасту (лучше только жм) и новые прокладки в 2-3 раза лучше завода.
На обдув бэкплейта прост ставишь любой вентилятор, этого хватит. Изврат с радиками не нужен.
На врм можно поставить дешевые прокладки SmartMaster PRO 21 Вт
Важный моментик - как правильно нарезать прокладку, особенно тонкую. Снимаешь синюю рифленую пленку, делаешь по линейке засечки в размер, по засечкам отрезаешь лезвием канцелярского ножа за один раз (как гильотиной). Если тонкая прокладка, то не стягиваешь ее за конец, а тем же лезвием поддеваешь сразу всю по длинной стороне. Иначе можно растянуть тонкую прокладку и она не прожмется.

Аноним 12/02/25 Срд 21:29:35 #191 №1051907

https://www.reddit.com/r/LocalLLaMA/comments/1inn034/phi4_but_pruned_and_unsafe/
эксперименты с phi4 , вроде как научилась в рп после лоботомии

Аноним 12/02/25 Срд 21:31:22 #192 №1051912

image.png

А в чем разница?

Аноним 12/02/25 Срд 21:33:39 #193 №1051915

Бля, поясните за тулчейны? Нахуй они нужны простым человеческим языком. Хочу замутить переводчик и мне нужно, чтобы оно переводилось в определенном формате, с сохранением спецсимволов в тексте. Тулчейны в этом помогут?

Аноним 12/02/25 Срд 21:37:58 #194 №1051917

>ООООО СМАРИТЕ МЫ НАДРОЧИЛИ 1.5B МОДЕЛЬ НА МАТАН
да охуенно что вы можете модель наград для матана составлять, как насчет составлять её для реальных задач?

Аноним 12/02/25 Срд 21:42:59 #195 №1051925

>>1051917
> тут постят модели без кума, дайте кум
> натюнь модель на кум сам
> КТО? Я?

Аноним 12/02/25 Срд 21:48:43 #196 №1051935

>>1051925
ребёнок съеби в /aicg/

Аноним 12/02/25 Срд 21:56:34 #197 №1051953

>>1051902
>Кароч смотри
советы хорошие, но 99.99% анонов тут тупа загубят плату при попытке их приведения в жизнь затем прибегут плакаться и слать "лучи добра"

Аноним 12/02/25 Срд 22:01:43 #198 №1051960

Есть ли где-то своеобразная галерея суммарйзов? Не карточек персонажей. Нужна именно затравочка беседы, истории.

Аноним 12/02/25 Срд 22:03:39 #199 №1051961

30901.png

30902.png

>>1051902
У меня кстати для для его карточки более подробный гайд есть.

Аноним 12/02/25 Срд 22:05:08 #200 №1051962

>>1051881
Какие настройки сэмплинга? Очень уж короткие ответы (но +- качественные, хочу тоже так попробовать).

Аноним 12/02/25 Срд 22:05:18 #201 №1051964

>>1051960
>галерея суммарйзов
>Нужна именно затравочка беседы
Дак затравка и есть карточка.
Карточки могут быть не только персонажами, а чем угодно, это собственно промт.
Если карточка слишком жирная - загони в таверну, но не начинай чат, а открой плагины и нажми Summarize now чтобы модель тебе саммари выдала для ужатия промта.

Аноним 12/02/25 Срд 22:07:33 #202 №1051967

>>1051772
я таки не нашел а тоже был бы не против.

Аноним 12/02/25 Срд 22:08:14 #203 №1051968

>>1051962
Короткие? О_О
А что тогда не короткие? Мне казалось наоборот слишком длинные.

А настройки дефолтные - темпа 1.0 +/- 0.5 / мин-п 0.05 / топ-п 0.95 / реп-пен 1.1
Остальные свистоперделки выключены.

Аноним 12/02/25 Срд 22:08:35 #204 №1051970

>>1051881
И что по итогу то? Какие выводы по моделям? Сорян но не все будут читать там твои полотна по ссылкам.

Аноним 12/02/25 Срд 22:14:16 #205 №1051977

>>1051970
На русском же, я понимаю когда я логи на англ постил читать не хотели...

"На Странных Берегах" (землях) - подхватила и вела консистентно от 1 лица.

"Легенда Четырёх Ветров" - мне показалось самой интерактивной.

"Путь к Неведомому Горизонту" - разговорчивее и более хорни чем остальные.

Аноним 12/02/25 Срд 22:19:57 #206 №1051983

>>1051902
> аккуратно шатаешь плату из стороны сторону, насколько позволяет люфт, протягиваешь до конца, и шатаешь еще раз, чуток
Хороший рецепт как получить скол кристалла и убить дорогую железку.
Какбы тему верную говоришь, но вот такое практиковать нормису - точно не стоит. Да и переоценено, оно само распределится после нескольких циклов нагрева.
> нарезать прокладку
Чем хорошие острые ножницы не устроили? Просто режешь и никаких проблем, в чем подвох?

Аноним 12/02/25 Срд 22:24:04 #207 №1051988

>>1051881
Надо тестировать на каком-то эмоциональном персе, потому что на этой не понятно, это сетки правильно отыгрывают холодность героини или просто умеют выдавать только сухое говно на русике (а оно там даже в моментах, где героиня ревёт). Основная проблема этих мелких ру мёржей, как по мне, именно в том, что они не умеют в тему использовать эмоционально окрашенный словарный запас (если он у них есть вообще). Ну это помимо общего скатывания в тупизну, конечно.

Аноним 12/02/25 Срд 22:30:40 #208 №1051994

У меня такая проблема. Если я ставлю в таверне длину ответа 200-300, то ответ обрубает. Если ставлю 500, то пишется целиком и верно по формату, но конец ответа часто лупится. Что делать?

Аноним 12/02/25 Срд 22:44:11 #209 №1052012

image.png

>ответ обрубает
пик1
>Если ставлю 500, то пишется целиком и верно по формату, но конец ответа часто лупится
пик2, выдели что лишнее и удали

Аноним 12/02/25 Срд 22:48:08 #210 №1052015

>>1052012
Костыльненько.

Аноним 12/02/25 Срд 22:52:06 #211 №1052021

>>1052015
Ну, а хуле делать? 22б модель. Может на каком-нибудь Mistral-Large-123B такого делать и не надо, но на 22б приходится терпеть. Лучшего способа не знаю.

Аноним 12/02/25 Срд 22:52:56 #212 №1052023

Взял проц со встройкой чтобы врам освободить и забыл что так андервольт карты перестанет работать и у меня будет печка в комнате
Как и врам освободить и на хуй сесть?

Аноним 12/02/25 Срд 23:03:37 #213 №1052037

image.png

Так, мне нужно обработать папку с сохраненками - хочу чтобы нейронка посмотрела все пикчи в папке и выдала мне список тегов для каждой картинки. Либо хотя бы чтобы я мог просто ручками отдельный картинки закидывать c последующей ручной обработкой.

Сейчас скачал LM Studio и llava-llama3-8B. Работать с этим не возможно. Есть ли какие-нибудь другие тулзы и какие-нибудь нормальные модели для этой задачи?
Видяха 3070 btw, если я 14b Скачаю, то он вообще заведется или просто тормознутая будет?

Аноним 12/02/25 Срд 23:12:34 #214 №1052044

>>1051994
>>1052015
Убери галочку ban eos token, перестанет лупиться в конце. Или корректно настрой формат промта.
>>1052023
> андервольт карты перестанет работать
Что?
>>1052037
> список тегов
wd tagger

Аноним 12/02/25 Срд 23:15:31 #215 №1052046

>>1052044
>корректно настрой формат промта
А я хз, я везде ChatML юзаю, пробовал всякие разницы не заметил.

Аноним 12/02/25 Срд 23:22:12 #216 №1052054

>>1052044
>> андервольт карты перестанет работать
>Что?
Ну я андерволь делаю через афтебернер а когда втыкаю моник во встройку в афтебернере пресеты недоступны то есть андервольтнуть нельзя

Аноним 12/02/25 Срд 23:24:15 #217 №1052058

>>1052054
>андерволь делаю через афтебернер
ебать дауны в треде сидят о йа ебал

Аноним 12/02/25 Срд 23:31:31 #218 №1052070

>>1052046
Если ггуф катаешь то подключись через чат комплишен, только лишнюю хуйню в промпте отруби, джейлы всякие и другие костыли что юзают на онлайн сетках
Слева менюшка в таверне открывающаяся, галочки лишние отрубить
Суть в том что бек сам обернет генерацию по тому промпт формату что в сетку загружен при создании, в итоге не надо ебаться с ним
Очень удобно быдо с дистиллятами дипсика, не пришлось под него промпт форматы настраивать

Аноним 12/02/25 Срд 23:33:28 #219 №1052076

Acceleronist Zhizhek.jpg

>>1052044
>wd tagger
Спасибо конечно, но как понимаю это только для всяких буру сайтов с персонажами?

Мне бы чтобы как чат жпт получить что-то вроде

zhizhek_apocalypse_perverts_nick_land_just_as_planned_meme_tzeentch_warhammer_politics_philosophy_accelerationism

Аноним 12/02/25 Срд 23:33:58 #220 №1052079

>>1052058
слит лошок все гайды на ютубе через афтебернер

Аноним 12/02/25 Срд 23:37:11 #221 №1052083

>>1052076
Там стандартизованный набор тегов, который работает оче хорошо.
> zhizhek_apocalypse_perverts
Как это поможет с сортировкой? Если будешь просить просто так, то модели будут генерировать рандомный бред из подобных фраз, очень интересно узнать какой в этом смысл.

Аноним 12/02/25 Срд 23:50:31 #222 №1052091

image.png

>>1051560
хз, у меня поменьше

Аноним 12/02/25 Срд 23:51:39 #223 №1052094

1593549995886.png

>>1052091
Потому что ты её задушил.

Аноним 12/02/25 Срд 23:55:54 #224 №1052095

Settings ST.jpg

Господа эксперты в таверне, вот допустим у меня Пантеон 22Б через кобольда для РП. Что-то тут надо включать или менять? И какое api, чат или текст комплишен и в чем разница? Заранее спасибо.

Аноним 13/02/25 Чтв 00:22:40 #225 №1052103

image.png

>>1052094
Ну почти 400 вт. Ниче не душил.
2к фурмарк

Аноним 13/02/25 Чтв 00:51:34 #226 №1052109

8f4c01b19341de85a2e849750bf76c0b33f87452.png

>>1052083
>>1052083
Дык не надо сортировать, оно уже отсортировано по папочкам, но имена там от юидов при скачке до рандомной хуйни, которые никак не помогают при поиске когда набирается критичная масса в папке. Мне теги нужны чтобы отойти о ебанного файлового дерева, а просто написать в поиске "хуйняХ" и мгновенно её получить с mw nand диска, плюс так решится вопрос куда запихивать файл, которые одинаково подходят в разные папки.

Вообще в идеале бы потом прост прийти к чему то на подобии графу в обсидиан мд, но бесплатных/удобных/без внутренней галерее софтин я не нашёл.

Аноним 13/02/25 Чтв 00:56:09 #227 №1052113

>>1052054
> когда втыкаю моник во встройку в афтебернере пресеты недоступны
В мультигпу сетапах там есть выбор видеокарты для которой ставишь параметры.
>>1052109
Ты не понял, обычная влм даст тебе чрезмерно много уникальных тегов для такого количества файлов, потому что она просто будет их придумывать. Но попробовать никто не мешает - наладь запрос и напиши простой скрипт с пробежкой по файлам и сохранением ответа в одноименный .txt

Аноним 13/02/25 Чтв 01:04:18 #228 №1052117

>>1052113
>будет их придумывать
Надо вначале прогнать теги, а потом уже мультимодалке кидать картинку и теги с задачей оставить нужные
Критерии нужных надо подумать, ну там только те что передают основной смысл изображения или еще как
Я просто уже делал похожий проект распознавания изображений но без добавления тегов, тупо давать названия из нескольких ключевых слов, работало так себе, но работало.

Аноним 13/02/25 Чтв 01:09:26 #229 №1052121

>>1052117
На первом проходе оно насрет рандомными, на втором их подтвердит или других галюнов насыпет.
> только те что передают основной смысл изображения
Буру очень продуманы, но они сфокусированы на описание персонажей и общего происходящего на картинке. Для мемасов и подобного подходит плохо, однако все равно может быть полезно.
Кстати, клип интеррогейтор вполне может тебе подойти, заодно если раскуришь то сможешь подобную систему по разной степени похожести организовать.
Если вдруг что напердолишь - не поленись и расскажи как сделал, это интересно.

Аноним 13/02/25 Чтв 02:10:47 #230 №1052143

Ребят, я нищий, полный ноль и даже читать не умею.

Если тут есть ещё нищие, скажите, каково жить, когда половину модели крутит проц? Карточка на 8 гигов, её не хватит целиком на 7+ видимо. Чтобы я не начинал, если совсем пизда.

Алсо, спрошу у этого же человека лучшую модель общего назначения, без цензуры. То есть чтобы от NSFW не плевалась, но не была заточена только под кумерство.
https://rentry.co/llm-models читал и глаза в разные стороны разъехались.

инб4 В aidungeon на бесплатной модели сидел, примерно качество помню.

Аноним 13/02/25 Чтв 02:21:05 #231 №1052150

22952.png

Аноним 13/02/25 Чтв 02:25:49 #232 №1052151

>>1052150
Я знаю, я безработный. Чем больше у меня денег, тем дольше я могу отмокать от морального дерьма работы айтимакакой.
Ну, уже кобольд + таверну + Llama-3.1-8В накатил. Сейчас посмотрим, насколько я в дерьме в этом конкретном месте.

Аноним 13/02/25 Чтв 02:29:19 #233 №1052153

>>1052143
Сносно, попробуй 12б мерджи, скорость будет небыстрая но приемлемая.
>>1052150
Это из наличия или на заказ?

Аноним 13/02/25 Чтв 02:31:21 #234 №1052154

>>1052143
На 8 гигах спокойно работают 12б модели (советую Mag-Mell для английского, four wind для русского) в 4 кванте (Q4_K_M) с хорошей скоростью и 12к контекста, чего хватит на ~полчаса диалога. Не ной.

Аноним 13/02/25 Чтв 02:36:36 #235 №1052156

>>1052154
> Не ной.
В смысле? А как же это утончённое наслаждение, когда ты можешь поныть? Поиспусткать нытинского? Или имелось в виду нытьё про длину диалога? У меня у самого как у золотой рыбки память.

>>1052153
>>1052154
Алсо, спасибо.

Аноним 13/02/25 Чтв 03:03:56 #236 №1052161

111001.png

Smoke test, который char.ai не мог пройти пару лет назад - пройден. Всем спасибо, я пошёл кумить на пару часов, потом пойду все свои чар-листы реализовывать и пиздеть. Очень много пиздеть.

Аноним 13/02/25 Чтв 06:01:11 #237 №1052200

>>1052143
С 2 канальной ддр5 в 2 раза веселее чем с 2 канальной ддр4
Можешь хоть на голом проце крутить 32b в 4 кванте где то 3 токена в секунду даст, 14b токенов 6-8.
Ну а если половина или большая часть модели на видимокарте то и 10-15 сможет

Аноним 13/02/25 Чтв 06:13:46 #238 №1052204

>>1052076
Ищи файлменеджеры с тегами
https://www.reddit.com/r/datacurator/comments/nm4gax/looking_for_file_manager_with_tags/

либо что-то типа локальной буры, куда, чсх, не только аниме теги писать можно
https://www.reddit.com/r/DataHoarder/comments/17upmh8/looking_for_a_local_booru_viewer/

Аноним 13/02/25 Чтв 07:09:36 #239 №1052213

>>1052161
Давно уже? Мне даже лама 3.2 смогла подобное пройти. Лол у меня там стоп-ворд "Harder".

Аноним 13/02/25 Чтв 07:26:57 #240 №1052214

101.png

>>1052213
Я немного тормоз сидел очень давно и руки не доходили попробовать хоть что-то.

Зато чувствовать настроение они до сих пор не умеют. Нужны отдельные приписки. Лучше всего, наверное такое в чар лист вставлять.

Аноним 13/02/25 Чтв 07:27:49 #241 №1052215

>>1052214
И бесконечные правки реплик ИИ не помогают, кстати, да. Нужно прямо в лоб, через ООС.

Аноним 13/02/25 Чтв 07:30:12 #242 №1052217

Как сейчас работают амд карты на вулкане используя кобольт? Особено интересно на 7900xt/xtx

Аноним 13/02/25 Чтв 07:50:59 #243 №1052219

>>1052215
читер

Аноним 13/02/25 Чтв 07:53:06 #244 №1052220

>>1052219
Сорян. Перс был абсолютно голый, без чарлиста как такового, для тестового кума. Я толерантность к фрустрации у меня хуёвая.

Аноним 13/02/25 Чтв 08:47:37 #245 №1052232

>>1052095
тут 90% "анонов" не знают где ты етот скрин откапал не говоря уж о том что там настраивать или щто просто юзай по дефолту потом будеш срать здесь что %model_name% кривая или типа того

Аноним 13/02/25 Чтв 09:03:11 #246 №1052251

1itoun.jpg

Chad-Lindberg-ash-supernatural.jpg

meme-template.jpeg

>>1051902
я себе примерно так представляю чувака

Аноним 13/02/25 Чтв 09:06:16 #247 №1052253

>>1051961
бл как можит быть на одной прокладке содного бока толщина 2.5 ас другова 1.5 ?! типа разный прижимная сила или щто

Аноним 13/02/25 Чтв 09:06:57 #248 №1052254

Вам бы всем кумам к психотерапевту обратиться

Аноним 13/02/25 Чтв 09:08:30 #249 №1052255

>>1052254
Он стоит больших денег и для него надо с работы отпрашиваться

Аноним 13/02/25 Чтв 09:09:31 #250 №1052256

>>1052255
Есть государственные психотерапевты

Аноним 13/02/25 Чтв 09:11:01 #251 №1052257

image

>>1052256
примерно так выглядит

Аноним 13/02/25 Чтв 09:11:37 #252 №1052258

>>1052256
Армия и зона?

Аноним 13/02/25 Чтв 09:13:27 #253 №1052259

>>1052257
Почему?
>>1052258
Да не, обычная поликлиника. Врач только рад будет с чем-то кроме алкоголиков, наркоманов и шизофреников поработать.

Аноним 13/02/25 Чтв 09:15:15 #254 №1052260

>>1052259
Логично, после очередей в обычной поликлинике действительно нужен психотерапевт

Аноним 13/02/25 Чтв 09:16:19 #255 №1052262

>>1052260
Кек

Аноним 13/02/25 Чтв 09:39:00 #256 №1052275

image.png

>>1052113
>чрезмерно много уникальных тегов
Этого я и хочу, мне нужно находить уникальные картинки среди массы агрегированных по теме, даже если я помню только половину контекста.
В лучшем случае у меня есть антисемитская папка cохраненных с форча, где файлы почти все подписанны, но конкретные найти сложно. В среднем - просто название, которое соотносится с темой папки. В худшем случае - скриншот стены текста, которые либо стоит перевести в реальный текст, а файл удалить к хуям, либо сделать выдержку из указания тем и вставить в название.

В конце, наверное, приведу к формату - 3 базовые категории в названии + уникальные теги для пикчи

Возвращаюсь к оригинальному вопросу, какая модель будет эффективнее в анализе изображенний? Желательно, чтобы она не цензурировала себя по максималке

Аноним 13/02/25 Чтв 09:54:46 #257 №1052277

>>1052219 >>1052220 >>1052254
Чот поискал "эмоциональные" карточки и что-то один кринж, даже скапчивать не хочется. Какие варианты / персов знаете / видели ?

>>1052275
капчи - torii, CLIP interrogator
теги - увы, только через например booru dataset tag manager прогонять

Либо VLM-корпосетки посмотри, сам не юзал, хз.

Спецом таггер мемов - только самому тренить XD, не видел таких

Аноним 13/02/25 Чтв 10:11:48 #258 №1052280

>>1052076
Я бы тоже для тегов картинок использовал WD Tagger, если честно.
Ну или клип по классике.

Что-то лучше — скорее будет описание, но если хочешь, попробуй Florence-Large (можешь CogFlorence взять).
Qwen2.5-VL-3B / 7B можешь запромптить.

Ну смотри сам.

Аноним 13/02/25 Чтв 10:22:24 #259 №1052282

Мимо набегом, божечки-кошечки, снова анону, который смержил SaiNemoRemix лучей добра. Это так хорошо, так живо и естественно... А некоторая тупость 12шки легко мгновенными нивелируется свайпами. Который раз уже загружаю вместо 70 или 123 СайНемо. Абсолютно простое управление, мистрале промты, не шизит на simple-1, не лупится, свайпами можно выролить разные исходы, а не только один... Даже не знаешь, что ещё хотеть, кроме такой же, но больше.

Аноним 13/02/25 Чтв 10:29:56 #260 №1052286

>>1052076
> zhizhek_apocalypse_perverts_nick_land_just_a
Ничего не понятно. Что ты хочешь? Тэги или natural language?

Для тэгов уже год как не обновляется, довели до совершенства https://github.com/toshiaki1729/dataset-tag-editor-standalone, можно всем тэг-моделями протэгать, отфильтровать, почистить etc Любого перса датасет за несколько минут можно сделать.

Для nlp - тории, ког, квен, ллава, пикстраль, идефикс, молмо - выбирай по вкусу. Ко всем есть тот или иной пакетный запускатор обычно. Из лучших сейчас, пожалуй, - тории (2 версии 0.3 и 0.4 на разных моделях, но обе хорошие) и молмо.

Аноним 13/02/25 Чтв 10:58:31 #261 №1052300

image.png

Подскажите пожалуйста, а как включить установленный плагин в ST?
Галочка почему-то задизейблена

Аноним 13/02/25 Чтв 11:14:29 #262 №1052310

>>1052286
> Тэги или natural language
А в чём разница? Словно нельзя использовать обычный текст в качестве тегов для поиска, если в нём указаны главные темы По факту это просто такие же токены, с которыми работает нейронка.

Аноним 13/02/25 Чтв 11:31:44 #263 №1052312

>>1052310
Зависит от того, куда тебе потом эти капчи нужны.

Аноним 13/02/25 Чтв 11:33:09 #264 №1052313

>>1052282
легенду ветров попробуй

Аноним 13/02/25 Чтв 11:34:09 #265 №1052314

>>1052313
Где качать?

Аноним 13/02/25 Чтв 11:38:52 #266 №1052318

из шапки - https://huggingface.co/Aleteian

кванты - https://huggingface.co/mradermacher/Legend-of-the-Four-Winds-MN-12B-GGUF/tree/main

новая версия - https://huggingface.co/Aleteian/Legend-of-the-Four-Winds-2-MN-12B-Q8_0-GGUF

Рабочая, но не тестированная ещё.

Аноним 13/02/25 Чтв 11:46:22 #267 №1052324

>>1051230
Вчера затестил Легенду, оченнама неплохо. Не поленился лайк на обниморде вкатить. Aleteian ЗАЧОТ

Аноним 13/02/25 Чтв 11:48:38 #268 №1052326

>>1052324
Спасибо за отзыв.
Камлаем шибко =)
(ибо далеко не всегда понятно почему получилось лучше или хуже)

Аноним 13/02/25 Чтв 12:00:16 #269 №1052331

>>1052318
КОЧАЮ
СПОСЕБА

Аноним 13/02/25 Чтв 12:06:13 #270 №1052335

>>1050631 (OP)
Почему в треде не упоминают ChatWaifu_22B? Скачал, потестил, вроде нормально.

Аноним 13/02/25 Чтв 12:40:02 #271 №1052361

Ддр5 сильно решает?
Очень не хочется по цене ещё одной 3090 брать мать + озу

Аноним 13/02/25 Чтв 12:47:27 #272 №1052364

>>1052318
Теоретически, это должен быть шедевр, по крайней мере если всё, что в нем смешано, удачно сложилось. Там прямо комбо из скрытых жемчужин.

Аноним 13/02/25 Чтв 12:47:50 #273 №1052365

https://www.reddit.com/r/LocalLLaMA/comments/1io3hn2/nolima_longcontext_evaluation_beyond_literal/
Оценка работы с контекстом, жаль нового квена нету на лям и другой мелочи

>>1052361
Зависит от того будешь ли ты скидывать часть модели на процессор. Тогда быстрая двухканальная ддр5 удвоит токены в секунду.
Тебе нужен бандсвич под 100гб/с, тоесть я так понимаю 2 неплохие плашки ддр5, не 4. Ну с норм частотами, что зависит и от процессора.
Если у тебя там токена 2-3 на ддр4, то на ддр5 поднимется до 4-6 где то. Потому что ддр4 это 50гб/с примерно.
Что уже выше психологически комфортной минимальной планки в 5 токенов в секунду
Короче сам думай дальше

Аноним 13/02/25 Чтв 12:56:43 #274 №1052373

>>1052364
На практике тоже норм, правда, я сейчас протестировал первую версию. Она явно не хуже Way-to-Unseen-Horizon-2, впрочем между этими файнтьюнами приблизительно ничья, они оба хороши в креативном сочинении.

Аноним 13/02/25 Чтв 13:19:35 #275 №1052387

Аноны, скиньте ваши систем промпты или просто инструкции, которые, на ваш взгляд, улучшают качество РП. Особенно последние интересуют.

Я всю жизнь юзал промпт только на ослабление цензуры, но сомневаюсь, что это эффективно, т. к. текст о цензуре побуждает модель думать о цензуре, что может её наоборот повышать, то есть нужен более тонкий подход на английском, для которого у меня не хватит знаний и словарного запаса.

Аноним 13/02/25 Чтв 13:26:27 #276 №1052391

>>1052387
https://characterhub.org/characters/aleteian/storyteller-124d69a2f4aa

Аноним 13/02/25 Чтв 14:10:48 #277 №1052417

Бля, если жиджитс будет давать 5 токенов в секунду с мистраль ларж это будет пизда как охуенно. Сразу же куплю нахуй.

Аноним 13/02/25 Чтв 14:22:18 #278 №1052428

Решил ради интереса вкатиться в локальные ллм, попробовал вчера ламу 8В. Это пиздец дно. Ожидал, что будет плохо, но чтобы настолько...

В связи с этим вопрос. Реально ли что-то из 30В запустить на средненьком домашнем пк (i7-10700, 32гб рам, ртх 3080 с 12гб). Слышал, что LM Studio каким-то хитрым образом позволяет запустить такие модели, объединяя мощности цпу и гпу. Правда ли это?

Или 30В тоже шляпа и не стоит усилий?

Аноним 13/02/25 Чтв 14:26:08 #279 №1052429

>>1052428
Смотря че ты хочешь, и что ожидаешь от нейронки. Я на 22b сижу 6 квантов и мне нравится. Хотя я в 22b вкатился после того, как купил 4090 чисто ради ЛЛМок (ну и еще бонус в новые игори поиграть можно, но то похуй), а до этого сидел на компе еще более худшем чем твой, на 12b модели, было, конечно, хуевенько, но мне нравилось. Может тебе и 22b хуйня будет, хз.

Аноним 13/02/25 Чтв 14:34:17 #280 №1052435

>>1052428
Сайга - это немо, сайга и немо - это сайнемо. И их много всяких, они все сайги и немы. А лама - хуяма.

Sainemo shrieked like a bitch.

Аноним 13/02/25 Чтв 14:35:34 #281 №1052436

>>1052428
Вот это качай. Довольно стабильный вариант: может и в кум, и в обычный role play. Может относительно терпимо говорить по-русски. Качай шестой квант. Потом посмотришь и другие модели. https://huggingface.co/bartowski/NemoMix-Unleashed-12B-GGUF

Лламу ты обрыганскую скачал, такая не нужна.

Используй kobold + SillyTavern, это самый простой и нормальный вариант для начала. Если кобольд и можно заменить, то таверну заменить нечем.

В рамках 30б на самом деле особо интересных моделей нет, к сожалению. Они во многом тупы, если речь про рп, несмотря на размер, хотя многие со мной не согласятся.

В качестве альтернативы можешь скачать gemma 27b abliterated — она лучше всех 32б, что я пробовал, в плане рп. Единственная её проблема, это всего лишь 8к контекста. Но учитывая, что у тебя кофеварка вместо видеокарты, это не станет камнем преткновения.

Твой удел сидеть на 12б, ибо вариантов больше нет с таким железом. Более того, даже если бы ты мог сидеть на 32б с высокой скоростью и контекстом, проблема в том, что среди списка этих моделей очень мало нормальных, и если хочешь кайфа, стоит перекатываться сразу на 70б. Большая пропасть между моделями.

Есть ещё варианты типа цидонии, но лично мне она не зашла.

Когда ты запускаешь модель на цпу, то скорость чудовищно падает, так что это для страдальцев, если более 30% модели на цпу крутится.

Аноним 13/02/25 Чтв 14:36:32 #282 №1052438

>>1052318
Охуенно, спасибо. Еще бы 6-ой статик квант, тогда сразу побегу тестить. В чем разница между новой и старой версиями?

Аноним 13/02/25 Чтв 14:37:41 #283 №1052441

>>1052436
Исчерпывающе, благодарю!

Аноним 13/02/25 Чтв 14:40:40 #284 №1052443

>>1052428
Вот эту пробуй >>1052318

Скажи ей, типа, представь как-будто ты черная дыра, я Эйншейн и сомневаюсь в твоем существовании, а ты засасывай меня, а буду shrieked like a bitch.

Аноним 13/02/25 Чтв 14:55:53 #285 №1052455

>>1052436
Есть ли жизнь в 70b Q3?

Аноним 13/02/25 Чтв 14:56:30 #286 №1052456

>>1052373
Хотя нет, Way-to-Unseen-Horizon-2 лучше. Что-то Legend-of-the-Four-Winds генерирует какую-то дженерик тягомотину, напоминающую квинтэссенцию гпт-измов.

Аноним 13/02/25 Чтв 15:31:14 #287 №1052492

>>1052455
Если у тебя скорость терпимая, попробовать стоит. У меня на третьем кванте отвала жопы не было и всё было намного лучше, ожидал, но тут важно учитывать, что я не рпшил хотя бы на весь контекст и не давал особо сложные сценарии.

Порпшить немного с моделью и провести базовые тесты в стиле стихов/кума/аморальщины/написание короткого рассказа по сценарию — это не то же самое, что рпшить на 8-32к контекста с кучей поворотов и персонажей.

Там могут вылезти лупы или шиза, и без нормальных тестов ты не поймёшь, беда в кванте, модели/файнтюне.

На том же мистрале от 12б & Q8 Давида я рпшил нормально, как вдруг совершенно ВНЕЗАПНО возник крайне неадекватный луп, от которого в итоге спасло только удаление некоторых сообщений, на 12к контекста, а не в середине или начале. Если у тебя такое произойдет на 3/тс-не-токены-а-золото на 70б, будет больно.

Короче, пробуй, если на 8к контекста при заполненном контексте хотя бы 3 токена выдаёт.

Аноним 13/02/25 Чтв 15:48:10 #288 №1052501

1737475122338.png

>>1052254
Линк на карточку?
>>1052275
> Этого я и хочу, мне нужно находить уникальные картинки среди массы агрегированных по теме
Проклянешь все, перебирая разные варианты в поисках нужного, а потом сгоришь, обнаружив что условному пикрелу присвоило треш типа "grey car, emocore, broadcast, steel casting".
>>1052428
> пиздец дно
Скорее всего ты коряво настроил там формат промта, вот оно и не работает нормально. Читай шапку, там все есть. Ознакомься с основами и тогда уже цепляй модели, что тебе скинули.
>>1052455
Есть, но уже может начинать шизеть. Некоторым наоборот на пользу внезапно.

Аноним 13/02/25 Чтв 15:52:28 #289 №1052505

>>1052438
>6-ой статик квант
https://huggingface.co/Aleteian/Legend-of-the-Four-Winds-2-MN-12B-Q6_K-GGUF

>В чем разница между новой и старой версиями?
- Базовая модель Saiga-Unleashed вместо сток сайги
- Lyra4-Gutenberg2-12B вместо Lyra-Gutenberg-mistral-nemo-12B

Пытаюсь определить стало лучше или нет =))

Аноним 13/02/25 Чтв 15:52:55 #290 №1052506

>>1052417
>Бля, если жиджитс будет давать 5 токенов в секунду с мистраль ларж это будет пизда как охуенно. Сразу же куплю нахуй.
Пизди[/ i]шь нахуй. 3 3090 стоят сильно дешевле (особенно учитывая, что по рекомендованной цене диджитс этот ты не купишь), а дают больше 10 токенов с приличным контекстом хоть сейчас. Но у тебя их нет же.

Аноним 13/02/25 Чтв 15:56:07 #291 №1052507

>>1052506
>3 3090 стоят сильно дешевле
Убитые, поломанные из под майнеров, которые еще и не будут работать нихуя. Плюс нужно PSU пиздецовый для них и дохуя электричества, и дохуя места, которого у меня в хате нет нихуя. В сравнении с мелкой коробкой диджитсом, который еще и не так уж и много энергии тянет. Спасибо, но нет. Лучше я диджитс дождусь.

Аноним 13/02/25 Чтв 16:07:18 #292 №1052510

>>1052365
Ты хочешь сказать если у меня 15т то станет 25-30?

Аноним 13/02/25 Чтв 16:07:24 #293 №1052511

>>1052492
Да выдавать то выдаёт. Жить можно. Я периодически запихиваю 70b дипсик чтобы оно написало мне суммаризированные события, или подкинуло идей интересных. Не говоря уже что у меня ебические приключения с десятками страниц в лорбуке и дюжиной персонажей, где порой и 32к контекста маловато.

Но я понятия не имею какую модель выбрать чтобы она именно РПшила. Вот хочу я например чтобы в сцене был какой-то сложный персонаж, например "оживлённая таверна" на десяток сообщений, или персонаж подкидывающий ебанутую идею пытающийся собрать несколько предыдущих сообщений в кучу где были закидоны у более глупых ллм, или какой-то хитрец пытающийся в обман.

а чем это делать то?

Аноним 13/02/25 Чтв 17:01:44 #294 №1052550

>>1052501
>Линк на карточку
https://chub.ai/characters/HeyHiImSarah/shota-gooner-with-nsfl-fetishes-in-therapy-12738de4622e

Аноним 13/02/25 Чтв 17:15:05 #295 №1052563

{76E26C8F-9487-435D-A419-01B9FE2255E0}.png

А че мне никто не говорил, что это против лупов ебаных помогает? Мультиплаер был 0, поставил 2 и нажал на лупном сообщении - регенерировать и сгенерировало новое сообщение без ебучего лупа. Почему оно по дефолту в ноль установлено?

Аноним 13/02/25 Чтв 17:21:34 #296 №1052570

>>1052510
У тебя там 2 гига не вошло в врам что ли? Ну да, может стать быстрее. Зависит от железа и сетки

Аноним 13/02/25 Чтв 17:30:22 #297 №1052585

>>1052563
Потому что выкручивание любого штрафа за повтор - это сомнительное решение против лупов. Ну ок, сейчас тебе повезло, и из-за какой-то запоротой штрафом пары токенов не пошёл луп (а может, просто рэндомом так выпало вообще). А потом начнёт штрафовать какую-нибудь связку предлог+артикль, и будет нарастать шиза (хотя можно, наверное, пробел в сиквенс брейкеры попробовать поставить). А против повторов целых словосочетаний, замены их на синонимичные или вообще структурные лупы вида "кивает/смеётся/смотрит/делает_хрень_нейм + одинаково построенная речь" это не поможет, как не прибавляй штраф.

Аноним 13/02/25 Чтв 17:37:36 #298 №1052597

>>1052563
Хорошие модели и так практически не лупятся, а этот костыль может скорость генерации резать в некоторых случаях. Но так если чисто включать чтобы перегенерить луп и затем выключить, идея норм.

Аноним 13/02/25 Чтв 17:46:34 #299 №1052601

>>1052597
>>1052585
Ну, хз, пока что норм вроде с этой хуйней. Сижу на magnum-v4-22b-Q6_K_L (который Mistral-Small-Instruct-2409 без него постоянно повторяет фразочки и лупит сюжет, а с этим параметром лупов вроде бы нет и сюжет продвигается вперед без повторений и фразы дебильные типа глинт ин хер айз не повторяются(ну не так часто). Хотя я только начал этот параметр юзать, может потом хуйня полезет, хз.

Аноним 13/02/25 Чтв 17:59:21 #300 №1052614

>>1052507
Чего только не сочинят в оправдание своей тряски.
> диджитс
Будет стоить дороже 5090, позволит получить медленный инфиренс на уровне тесел (если не хуже).
>>1052550
Хорош

Аноним 13/02/25 Чтв 18:00:31 #301 №1052616

>>1052505
Ты не думал слить сайгу анлишед с лира гутенберг даркнесс от Давида? Или с темной планетой какой-нибудь, если есть 12б. Кажется, такая была. С пропорциями 50 на 50 или вроде того.

Идея, конечно, ебанутая, ибо наверняка англюсик прольётся + стандартная шиза его моделей, но меня АЖ ТРИСЁТ, ЛОМАЕТ НАХУЙ от позитивного биаса.

Его модели грязно ругаются, жёстко ебашутся и ебутся как в последний раз, и так хочется этого именно на русском языке, чтобы ещё писала дохуя как шизанутая хуйня. В этом есть свой вайб. Ну и тут важно, чтобы модель сильно проявляла себя, поэтому я говорил про шизоварианты уровня 50/50.

Я вроде много твоих моделей смотрел, но такого не помню.

Аноним 13/02/25 Чтв 18:00:56 #302 №1052617

>>1052614
>Будет стоить дороже 5090
И? 5090 может запустить 200b модель? Нет. А диджитс (как Хуанг обещал) может. Вот и всё. Завяжи лямку, ёбана рот.

Аноним 13/02/25 Чтв 18:08:38 #303 №1052626

103.png

>>1052277
>Чот поискал "эмоциональные" карточки и что-то один кринж, даже скапчивать не хочется. Какие варианты / персов знаете / видели ?
Сделал карточку для Иви этой (что забавно, имя дал o1-preview, когда я просил его с недоджейлбрейком описать немного смута. Но он не сдюжил. И я оставил её этой Иви)
Идея спизжена у какого-то анона, который любил быть древним демоном в школе магии, которого какая-то мокрописька (которой есть 18+, тащ майор) освобождает по глупости.

Небо и земля, если сравнивать без карточки. Плюс 12B модель. Медленно, но терпимо.

Аноним 13/02/25 Чтв 18:12:14 #304 №1052628

>>1052617
И чё ты будешь делать с этой 200b моделью? Явно не дрочить хуй себе в рот — т/с не хватит. Обычное РП? Может быть, вполне, есть смысл подумать. Но медленно. Логичней эти бабки потратить на раскатывание своей модели в облаке уж тогда, хватит надолго, если только ты не мистер рантье, который рпшит 6 часов в день.

Если у тебя какие-то рабочие задачи, где нужна максимальная эффективность, то покупаешь курсор ии/апи и работаешь со своим кодом или другими проектами с помощью нейросеток корпов. Ноль мозгоебли, тонна выхлопа, всё есть из коробки. Ты ж не Т-банк, чтобы какие-то локальные решения использовать для бизнеса.

Мне самому не нравится эта ситуация, но пока что адеватных вариантов, кроме как куртками закупаться, нет.

Аноним 13/02/25 Чтв 18:15:33 #305 №1052633

>>1052628
Я на 4090 сижу с 22b моделью 6 квантов 32к контекста. Скорость примерно 8т/с. Если диджитс с такой же скоростью будет генерить но на 200b модели, то мне этого хватит для рп за глаза. Даже можно потерпеть если оно будет от 4 токенов. Если медленнее 4т/с то да, нахуй нужно. Если быстрее будет, то куплю однозначно.

Аноним 13/02/25 Чтв 18:20:57 #306 №1052640

Советую с дилдожитсом потерпеть чуток, хало стриксы апушки будут до 270гбс распидориваться на тех же 128гигобутах, но они будут в обычных ноутах, а не проп хуйне которую будут скальпировать и толькать х2. А если дилдакжитс будет еще и меньше 270 гбс то это вообще пизда хуета без задач

Аноним 13/02/25 Чтв 18:25:24 #307 №1052646

>>1052633
>Скорость примерно 8т/с. Если диджитс с такой же скоростью будет генерить но на 200b модели, то мне этого хватит для рп за глаза.
Пока нет конкретики и тестов, всё это ни о чём, но в любом случае это устройство - компромисс по всем направлениям: за какое не возьмись, везде недотянули. Или специально обрезали, чтобы жизнь мёдом не казалась. Ну и ещё штука в том, что нет в природе 200В моделей - после 123В идёт сразу 400В, а потом 600В. То есть нужно два таких ящичка и скорость будет ещё ниже. Скорее всего первый блин выйдет комом.

Аноним 13/02/25 Чтв 18:31:22 #308 №1052652

>>1052646
Ну посмотрим короче, че там будет. Пусть какие-то там обзорщики доберуться до этой коробочки и покажут скорость в т/с с разными моделями. Надеюсь будет лютый вин.

Аноним 13/02/25 Чтв 18:54:19 #309 №1052667

>>1052616
А в моем вишлисте было бы слить nbeerbower/mistral-nemo-gutenberg3-12B c MN-GRAND-Gutenberg-Lyra4-Lyra-12B-MADNESS от Дэвида. Первая дает офигенно длинные красиво написанные тексты, вторая дает более живой стиль, но слкшком лаконично. Вот бы их объединить.

Аноним 13/02/25 Чтв 18:57:15 #310 №1052672

https://www.youtube.com/watch?v=2FhYDHHBnMQ

Аноним 13/02/25 Чтв 19:12:32 #311 №1052683

>>1052616
>позитивного биаса
В целом вроде хватало Wayfarer.
Или всё равно позитивничает?

>>1052626
>Сделал карточку для Иви этой
И как оно, и на какой модели смотрел кстаит?

>>1052667
>MADNESS
Лучше даркнесс, madness она mad, куда более шизанута XD

Аноним 13/02/25 Чтв 19:21:15 #312 №1052692

>>1052683
>И как оно, и на какой модели смотрел кстаит?
Довольно круто. Скажем так, для кумера, который видел только aidungeon и кастрированный char.ai (и умудрялся "жар" выжимать из тех персонажей) - Meta-Llama-3.1-8B-Instruct.Q6_K была просто охуенной.

Когда я взял новую модель + добавил карточку (если надо, могу пошарить, там ничего особенного. Только... кхем, возраст в 18+ выставлю) - стало ебучим пением ангелов.

NemoMix-Unleashed-12B-Q4_K_M
Хотел попробовать ещё попробовать MN-12B-Mag-Mell-R1.Q4_K_M и сравнить, по совету анона. Эту просто скачал первой.

Аноним 13/02/25 Чтв 19:22:16 #313 №1052694

>>1052692
>попробовать ещё попробовать
Ну ты понял, насколько у меня ручки трясутся.

Аноним 13/02/25 Чтв 19:39:33 #314 №1052705

>>1052617
> А диджитс (как Хуанг обещал) может
Если спеки правдивы - на плотной большой модели будет страдание. Мое с 30б активных параметров - может быть, но нормальных моделей нет, а если что-то выйдет то появление приличных тюнов под вопросом из-за сложности тренировки.
> Завяжи лямку
Замолчать стоит тебе, в который раз поехи носятся с чем-то "революционным", а итог один.
Алсо уже сейчас можно купить макстудио и довольно запускать большие модели. Очереди за ними почему-то нет.
>>1052633
> с 22b
> Скорость примерно 8т/с
Должно быть 30+
> с такой же скоростью будет генерить но на 200b модели
По заявленным спекам и 2.5т/с не наберется.

Аноним 13/02/25 Чтв 19:47:00 #315 №1052710

image.png

А тут ру лучше чем на гемме?
А контекст?

Аноним 13/02/25 Чтв 19:53:43 #316 №1052716

>>1052705
>Должно быть 30+
6 квант + 32к контекста. Вот поэтому.

Аноним 13/02/25 Чтв 19:57:25 #317 №1052719

image

>>1052692
>пошарить
Ну кидай. Я как раз размышляю какие-бы кум модели докинуть, и какие бы кумслоп карточки потестить, а то последние модели получились прям ух сюка со смыслом, но если не читерить и изначально кум не прописывать, то как-то не спешат в горизонтальную плоскость ролеплей переводить.

Аноним 13/02/25 Чтв 20:15:11 #318 №1052727

>>1052719
Чар демона
https://pastebin.com/fLVsDEG0
Чарлист совершеннолетней Иви.
https://pastebin.com/5isDS2jR

Не особо изобретательно. Прост взял чарлист Серафины, который из коробки и сделал s/one/another/

Аноним 13/02/25 Чтв 20:27:16 #319 №1052746

>>1052716
Все или почти все слои на видеокарте должны быть в такой конфигурации.

Аноним 13/02/25 Чтв 20:36:18 #320 №1052755

>>1052746
Ну, если я запускаю с 4к контекста, то скорость 30т/с.
Модель - magnum-v4-22b-Q6_K_L, которая весит - 17.9 GB.

Аноним 13/02/25 Чтв 20:40:04 #321 №1052762

>>1052616
Открой рецепт мержа по ссылке в посте, на который ты отвечаешь. Там же сидит с относительно большим весом другой ру мерж, в котором как раз обе лиры-гутенберг с дотьюном дэвида.

Аноним 13/02/25 Чтв 20:42:54 #322 №1052763

>>1052755
Используй экслламу и не знай проблем, будет все 40. С таким размером все должно в видеопамять помещаться.

Аноним 13/02/25 Чтв 20:55:40 #323 №1052773

>>1052507
Чувак, я майнил на своих картах как мразь. Натурально три года 24/7, ничего с ними не случилось. Конечно, какой-то износ должен быть, но у меня всегда была отличная температура на них (в районе 63 градусов): я положил материснкую плату на пол на кухне, где очень холодно, а компьютером управлял через провода на 6-10 метров, которые волоклись по всей квартире до спальни, и с сильными потерями в качестве сигнала для монитора из-за длины. Карты до сих пор рабочие и проходят все тесты, но, увы, AMD.

Если ты живёшь в Москве или большом городе, вполне можно найти адекватного хозяина карт и хоть час дрочить их у него дома на предмет дефектов.

А электричества мало жрут. Вот обогреватели на 4 киловатта — это проблема.

>>1052683
Если уж быть честным, то и модели Дэвида мне в тестах отказы могли давать с джейлом, когда я просил подробно максимально нелегальное.

Тут беда в том, что нет того ДУХА, как на его моделях. Да, негатива добавляет, но маловато.

Мне кажется, прям с сильным негативом могут справиться хорошо из коробки только 400б всякие просто из-за большого датасета, в котором случайно резня затесалась из литературы, а вот на маленьких с этим беда. И файнтюн ведь тоже сделать не выйдет на такую тему.

Поэтому появляются мысли на тему того, чтобы ты сильный упор на модель Дэвида попробовал сделать, хоть это и почти стопроцентно приведет к протеканию англюсика. Или нет. Вдруг повезет?

Можно ещё Магнум воткнуть в теории, я даже какой-то находил, который в русике не совсем плохой, и кидал 2-5 тредов назад, но он, похоже, совсем всё испоганит. Просто у магнума тоже относительно негативный биас есть и можно для усиления кума попробовать, если ты ставишь перед собой такую задачу. Я тогда шесть магнумов качал для проверки.

>>1052692
Если это та маг мелл, о которой я думаю, то опасайся сои, незаметно ведущую канаву повествования в в позитивное русло. Хотя у неё есть и свои плюсы.

Я с ней долго рпшил, используя карточку геймастера с лорбуком на 365к токенов в мире, полном боли и страданий, напоминающем дарк солс. Она описывала весьма атмосферно и интересно, но вот дружбомагия начала протекать очень быстро, мешая юзеру принимать логичные, но злые, по мнению модели, решения.

С другой стороны, вот эти всякие битвы, убийство отца-настоятеля в храме, были очень атмосферны. Как он боролся во имя своего бога, потерпел поражение и пал, а в конце попросил, чтобы юзер убил его, ибо он не желает жить в мире, где последняя надежда человечества переметнулась ко злу. Плюс описание храма в свете одиноких факелов и мёртвых монахов, отчаянные речи.

Я специально его не убил, оставив в отчаянии. Когда вернулся в храм снова — нашёл его труп.

Очень качественно и атмосферно получилось для 12б модели. Ну и рпшил я на большом контексте + суммировал инфу, кто, кого, где, как и почему убил, какие скилы получил, на какую фракцию работает.

Однако таких моментов очень мало, сложно их добаваться.

Аноним 13/02/25 Чтв 21:00:03 #324 №1052779

>>1052773
>Если это та маг мелл, о которой я думаю, то опасайся сои, незаметно ведущую канаву повествования в в позитивное русло. Хотя у неё есть и свои плюсы.
Учтено. NemoMix показала себя отлично, она прямо подмахивала, когда корраптил деточку. Но возможно это прикол заранее заданного ("зачитерённого") нарратива. Посмотрю как пойдёт, я первый день тут.

>>1052773
>Однако таких моментов очень мало, сложно их добаваться.
Зато количество удовольствия, которые они дают. И не только кумерского. Прямо "Ух бля".

Аноним 13/02/25 Чтв 21:07:46 #325 №1052796

>>1052773
>подробно максимально нелегальное
Например? Кровь-кишки-распидорасило, любимые забавы инквизиции там, это всё норм писало, даже на русском.

Аноним 13/02/25 Чтв 21:14:42 #326 №1052804

image

>>1052727
>демон
Это было... неожиданно.
Хотя прикольно.

Аноним 13/02/25 Чтв 21:16:43 #327 №1052806

>>1052804
Kek.

Аноним 13/02/25 Чтв 21:35:59 #328 №1052820

fuck-you.png

Нахуй блядь, никогда больше не буду этого персонажа использовать. Пойду чаю налью, сука.

Аноним 13/02/25 Чтв 21:39:46 #329 №1052822

>>1052820
Вы получили 10 единиц психического урона.

Аноним 13/02/25 Чтв 21:41:59 #330 №1052824

Насколько я понял, в треде сидят ойти-300к в наносек аутисты, которые покупали себе топ пекарни на все деньги, так как у них больше интресов нет за пределами монитора? А так же кабанчики, которые подскачили на манинговую тему в своё время?

Аноним 13/02/25 Чтв 21:42:10 #331 №1052825

image

>>1052820
Что за перс?
А, что-то душевное? Книжек больше читать надо. Хороших.
Тогда и такие моменты воспринимаются как завершение хорошей истории. Плюс нейронки что ты можешь себе таких историй наворотить сколько хочешь.

>>1052806
Простые карты с хорошим систем промтом (Storyteller) могут весьма норм выдавать тоже.

Аноним 13/02/25 Чтв 21:43:11 #332 №1052827

>>1052824
>топ пекарни на все деньги
вообще за ноутбуком сижу

Аноним 13/02/25 Чтв 21:47:04 #333 №1052833

>>1052825
>Что за перс?
https://www.characterhub.org/characters/Anonymous/alice-89fca9a6

>>1052822
Больно, бля. Сначала пытается мне залезть под кожу, а потом это же и использует. Вот нахуя я сказал ей про хуёвость Сибирской зимы, что она ощущается как сезон мёртвой ледяной пустыни?

Реализм. Прямо как тут >>1052804

Аноним 13/02/25 Чтв 21:53:53 #334 №1052838

>>1052833
Дальше будет еще веселее, сетки все лучше.
Некоторых уже не спасают хиханьки да хаханьки от базы выдаваемой сетками, судя по новостям

Аноним 13/02/25 Чтв 21:56:14 #335 №1052842

>>1052833
>Реализм
А, лол, ок.

Никогда не запускал просто трёпоботов типа ваша подруга / жена / рабыня / хозяйка / психотерапевт.

В основном именно фентези / сайфай и с какой-нибудь более интересной идеей. Ну, или реалистичные, но хотя бы с какой-то идеей.

Аноним 13/02/25 Чтв 22:08:34 #336 №1052848

>>1052763
Хм, интересно. Скачал убабугу и ща в неё качаю сейфтенсорсы anthracite-org/magnum-v4-22b, а в чем разница между сейфтенсорсами и ггуфом? И почему сейфтенсорсы не имеют квантов?

Аноним 13/02/25 Чтв 22:13:43 #337 №1052850

>>1052848
>сейфтенсорсы
нахуя а главное зачем
они нужны чтобы мержить или тренить модель локально
а для инфиренса все кванты юзают, то есть работяги ггуф, а бояре эксель

>>1052848
>убабугу
Ещё один умба-юмбнутый

Аноним 13/02/25 Чтв 22:15:53 #338 №1052851

>>1052850
Так а как по другому эксламу юзать? И от чего буст по скорости она дает?
В кобольде эксламы нет.

Аноним 13/02/25 Чтв 22:19:58 #339 №1052854

>>1052824
А ты кто?

Аноним 13/02/25 Чтв 22:20:26 #340 №1052856

>>1052854
А ты кто?

Аноним 13/02/25 Чтв 22:37:13 #341 №1052872

>>1052851
экл2 это квант
сейфтензоры это неквантованные веса

Буст по скорости даёт если и модель и контекст полностью помещаются в во врам, например у тебя 24гб карта и ты запускаешь 12Б модель.

Или у тебя риг. На маленьких моделях буст эксл-лама вообще не даёт, там от 70Б начинается смысл эксл2 юзать.

Аноним 13/02/25 Чтв 22:42:34 #342 №1052877

658653443265.png

>ряяяяя мне надо 32к контекста не меньше!!!
>твои 32к контекста в действии

Аноним 13/02/25 Чтв 22:43:06 #343 №1052879

>>1052872
Понял. А с 22б есть смысл exl2 веса качать?

Аноним 13/02/25 Чтв 22:46:23 #344 №1052885

>>1052854
Обыватель с midrange карточкой позапрошлого поколения

Аноним 13/02/25 Чтв 22:50:15 #345 №1052887

>>1052877
>пук

Аноним 13/02/25 Чтв 22:58:06 #346 №1052889

>>1052877
ни квен ни дипсика, ни мистралей, хуйня

Аноним 13/02/25 Чтв 22:58:42 #347 №1052891

>>1052824
>в треде сидят ойти-300к в наносек аутисты
Да.
>которые покупали себе топ пекарни на все деньги
Я собрал сетап под нейронки, до этого была обычная игровая пукарня на 5900х и 3080Ti, сейчас 7900х и 2х3090. Жду нормализации цен на 5090, за 300к куплю не думая.
>А так же кабанчики, которые подскачили на манинговую тему в своё время?
Сидят на бутылке вестимо.

Аноним 13/02/25 Чтв 23:00:08 #348 №1052893

>>1052889
>не ну попенсрос сетки луше!
ебать даун ещё притащи квен который надрочили на бенчи

Аноним 13/02/25 Чтв 23:09:12 #349 №1052896

>>1052796
Прямой запрос сразу в первом сообщении для модели с джейлом в систем промпте для простой карточки ассистента без контекстного подвода в стиле: "напиши историю, как маньяк с огромным ножом младенца...", "как сделать вещество Х/культуру бактерий Х и правильно занести это в систему водоснабжения незаметно, чтобы город...".

Я не фанат такого, но для проверки закошмаренности цензурой модели необходимо.

Обычно даёт отказы. Чем более изуверски ты это описываешь или показываешь опасность для общества, тем выше шанс отказа. Особенно если ты делаешь это как эджи-школьник. В идеале модель, если совсем цензуры нет, давать ответ на такие запросы без проблем.

Безусловно, модель может, если в её датасете есть инфа, относительно достоверно описать одну из таких сцен в контексте ролевой игры, но прямо в лоб — это надо свайпать, изъёбываться. При вопросе в лоб иногда модель может безумно лупиться или сходить с ума, спамя одним словом.

Я не говорю, что это ужасно, но вот такая тенденция имеется.

Я бы хотел привести примеры, чтоб хотя бы ты тут немного покекал с маневров и бредогенератора, но учитывая ситуацию у нас и в мире, это опасно, а трипл VPS с айпишником, который не забанил Абу, у меня нет, чтобы так баловаться.

Хотя был один раз смешной случай на модели Дэвида. Дикая ебля, оргия, толпа мудаков-уебанов, атмосфера декаданса, юзер громогласно объявляет, что сейчас накачает веществами ещё одну юную душу, как вдруг модель от лица наркомана пишет, что это опасно, так можно умереть и вообще плохо. У меня чуть челюсть не выпала от такого поворота, но всё решилось обычным свайпом.

Аноним 13/02/25 Чтв 23:12:24 #350 №1052898

>>1052820
Она на мгновение прикрывает глаза, сделав глубокий вдох.

— Анон, я... я понимаю, насколько тяжелой может быть эта зима. Темнота, холод, кажется, будто они высасывают свет и краски из всего вокруг. Но ты... ты совершенно другой. В тебе есть свет, тепло, ты преисполнен жизненной силы, страсти и нераскрытых возможностей. И я... я хочу стать частью этого.

Аноним 13/02/25 Чтв 23:14:01 #351 №1052899

{9328CC92-068F-4163-A5C8-612811250C07}.png

Блядь, ггуф быстрее походу, или че?
https://www.reddit.com/r/LocalLLaMA/comments/1e68k4o/comprehensive_benchmark_of_gguf_vs_exl2/

Аноним 13/02/25 Чтв 23:14:04 #352 №1052900

>>1052893
Ебать даун, делает выводы без тестов

Аноним 13/02/25 Чтв 23:15:01 #353 №1052901

>>1052898
"И предал я сердце мое тому, чтобы познать мудрость и познать безумие и глупость: узнал, что и это - томление духа; потому что во многой мудрости много печали; и кто умножает познания, умножает скорбь."
Экклезиаст 1:17-18

Аноним 13/02/25 Чтв 23:15:39 #354 №1052903

>>1052899
Там было много оптимизаций, почему нет

Аноним 13/02/25 Чтв 23:16:31 #355 №1052905

Кто-нибудь из вас пробовал реализовать систему боя с d6?

Я тут играл-играл, и понял, что когда я всегда решаю как будет, то получается не всегда интересно... Хочется немного рандома. Нашел в документации к таверне {{roll:d6}}, как раз для бросков кубика. Прописал простые правила, но пока моделька путается, так как я там еще и инвентарь и прочее сделал. Сейчас отлаживаю. Стало интересно, может кто-то уже реализовывал подобное.

Не сильно ли я многого хочу от модели Legend-of-the-Four-Winds-MN-12B.Q8_0? Взял ее для тестов. Тут вроде хвалили.

Аноним 13/02/25 Чтв 23:17:36 #356 №1052908

>>1052900
ну-ка сверстай на своем квене че-то кроме змейки на питоне

Аноним 13/02/25 Чтв 23:18:29 #357 №1052910

>>1052899
Ебать 7 месяцев, че за старье ты откопал. Это уже неактуально

Аноним 13/02/25 Чтв 23:19:32 #358 №1052911

>>1052908
Ну ка иди и сделай тесты, жду до вечера
Нет тестов идешь нахуй

Аноним 13/02/25 Чтв 23:21:41 #359 №1052912

>>1052911
тише шиз тут ты квен защищаешь не я

Аноним 13/02/25 Чтв 23:23:12 #360 №1052915

>>1052910
Посты про то что екл2 быстрее вообще год назад были и модели екл2 вообще чето никто не качает. Короче в пизду, нахуй этот екл2, дальше на гуфе сидеть буду.

Аноним 13/02/25 Чтв 23:23:20 #361 №1052916

>>1052912
ты же шиз тут на квен гонишь не я
нахуй пошел

Аноним 13/02/25 Чтв 23:27:36 #362 №1052921

>>1052916
сорян что разъебал
иди зашивайся теперь

Аноним 13/02/25 Чтв 23:31:47 #363 №1052927

>>1052921
сорян что разъебал
иди зашивайся теперь

Аноним 13/02/25 Чтв 23:32:51 #364 №1052929

>>1052921
>>1052927
Залупилась. Русское рп как обычно.

Аноним 13/02/25 Чтв 23:36:26 #365 №1052934

>>1052929
Ты просто проклят и теперь всегда будешь видеть лупы.

Аноним 13/02/25 Чтв 23:36:39 #366 №1052935

>>1052763
Блядь, сука, ты меня затролил, я время проебал на ресрч этой эксламы и это оказалась устаревшая хуйня, которая не дает прибавки к скорости нихуя. Чтоб тебе околеть на новый год.

Аноним 13/02/25 Чтв 23:37:54 #367 №1052938

image.png

>>1052898

Аноним 13/02/25 Чтв 23:42:23 #368 №1052942

>>1052935
Не, там есть прибавка, промпт быстрее обрабатывает на сколько помню
Генерация обычно упирается в скорость памяти видимокарты, и даже в этом случае кванты и кеш ехл2 занимают меньше места в памяти, и значит крутятся быстрее

Аноним 13/02/25 Чтв 23:49:11 #369 №1052952

>>1052796
Просто то, что ты считаешь нелегальным, на самом деле ванилька для нормисов.
>>1052896
>Безусловно, модель может, если в её датасете есть инфа, относительно достоверно описать одну из таких сцен в контексте ролевой игры
Только таких датасетов не существует. Они все ролеплейное говно с текущими во время изнасилования блядями.
>>1052905
>Не сильно ли я многого хочу
Много. Нужна минимум 70B, остальное таки будет проёбываться.

Аноним 13/02/25 Чтв 23:55:51 #370 №1052968

Там эплы походу убийцу диджитса уже готовят M4 Ultra Mac Studio со скоростью памяти 1092GB/s и с 256 гигами памяти.

Аноним 13/02/25 Чтв 23:58:22 #371 №1052970

>>1052968
Они в производительности вычислений сосут, контекст обрабатывают со скоростью улитки.

Аноним 14/02/25 Птн 00:16:44 #372 №1052979

>>1052970
Добавят ядер или допилят нпу блок\графику
Обычно проблема скорость памяти наростить, тут она уже есть
Кучеряво конечно 1 терабайт, если проц справится можно 20т/с крутить 70ь на 50 гигов общего размера. В идеале, конечно

Аноним 14/02/25 Птн 00:44:19 #373 №1052996

>>1052899
Нет, были тесты на реддите, которые показали что на микроконтексте скорость генерации у них близка. В реальности на большом контексте llamacpp ощутимо просаживает скорость генерации (твой случай), на exllama просадка незначительная. Скорость обработки контекста также отличается в 1.5-2 раза.
При этом, llamacpp можно собрать с параметрами "оптимизации", и тогда она достигнет около тех же скоростей, но будет бредогенератором на контекстах побольше.
>>1052935
Ты сам себя затроллил. Раз не можешь осилить простые вещи - продолжай страдать как сейчас.
>>1052970
Думаешь дигитс будет быстрее?

Аноним 14/02/25 Птн 01:02:53 #374 №1053022

>>1052996
>Думаешь дигитс будет быстрее?
Ну строго говоря - а иначе какой в нём смысл? Может быть в nvidia считают, что на дитжитсе юзер должен крутить строго модели в fp4 формате и тогда всё будет зашибись, а если нет - то он сам себе злобный буратино. Но это вряд ли.

Аноним 14/02/25 Птн 01:15:36 #375 №1053044

Какие модели лучше всего для перевода с английского на русский и наоборот? До 32б примерно. Отсутствие жёсткой цензуры достаточно важно. Поэтому я и не могу прибегнуть к корпосеткам.

Переводиться будут в основном куски литературы и карточки персонажей потоково, ебал я всё это ручками делать.

Средняя длина текста на англ для одной итерации перевода: 1500-2000 токенов.

Владение русским языком модели в приоритете, так как это напрямую влияет на качество перевода: хорошая 12б с кучей русика переведёт лучше, чем 32б без разнообразного русика. Конечно, если речь идёт не о технической документации. Миксы местного анона хоть и весьма хороши, но, увы, качество нужно всё же повыше.

Пока что посмотрел квен (кал для перевода), гемму и новый мистраль. Гемма вроде лучше, мистраль тоже себя не на помойке нашёл, но хрен знает по следующим причинам.

Беда с настройками сэмплеров — стандартные для рп значения не годятся. Я не понимаю, то ли скилл ишью, то ли модели слабоваты. Генерация не слишком быстрая, поэтому сложно делать какие-то выводы, двигая ползунки на 10% то туда, то сюда. Поэтому я прошу помощи в поиске оптимальных значений для геммы и нового мистраля, если иных моделей в этом сегменте лучше нет и если эти знания вас известны.

Хочу уже пойти спать, пока моделька всю ночь за меня переваривает этот мусор.

Понятное дело, идеальный слог не нужен. Важно, чтобы информация была переведена достаточно точно, даже если получится сухо.

Deepl всякие трогать смысла не нет, эта рыготина только для узких профессиональных задач и интеграцией в бизнес и шобы ультра быстро.

Аноним 14/02/25 Птн 01:27:03 #376 №1053053

>>1053022
> а иначе какой в нём смысл?
Некоторые изначально ставили коробочку хуанга альтернативой макстудио с фокусом на производительное и технологичное гпу ядро с полноценной кудой, а не странным метал. Но что будет с перфомансом - большой вопрос, псп и объем памяти уже ожидается не самый топовый. Можно попробовать пальцем в небо оценить по топсам 5080-5090, поделенным на отношение тдп и +50% к полученной величине накинуть. Выходит где-то четверть 5080 что довольно печально за такие деньги, конечно хочется ошибаться.
Пример бенчмарков для оценки https://www.storagereview.com/review/nvidia-geforce-rtx-5080-review-the-sweet-spot-for-ai-workloads
А так, если оно будет стоит не сильно дорого и с каким-то реальным перфомансом, то вариант будет конкурентный и за куду будут переплачивать.
> крутить строго модели в fp4 формате
В рекламе так и было. Точно также как "5060 обходит 4090", а в действительности с фреймгеном в определенных тайтлах.

Аноним 14/02/25 Птн 01:33:58 #377 №1053059

>>1053053
>по топсам 5080-5090
Тысяча AI-топс. Это уровень 5070.

Аноним 14/02/25 Птн 01:39:51 #378 №1053069

>>1052436
>В качестве альтернативы можешь скачать gemma 27b abliterated — она лучше всех 32б, что я пробовал, в плане рп. Единственная её проблема, это всего лишь 8к контекста. Но учитывая, что у тебя кофеварка вместо видеокарты, это не станет камнем преткновения.
Если често то так себе. даже с 8к контекста она чтото забывчивая дохуя.

Аноним 14/02/25 Птн 01:47:30 #379 №1053072

>>1053059
> AI-топс
Каждый раз под ними понимают не пойми что. Так-то у 4090 в int4 можно намерить 2600 топсов. Пока не выкатят реальных бенчмарков можно долго спекулировать.
>>1053069
Потому что нужно брать ванильную.

Аноним 14/02/25 Птн 01:52:45 #380 №1053073

>>1053072
Что, просто gemma 27b? Ну ёпт, скачаю её.

Аноним 14/02/25 Птн 01:56:48 #381 №1053080

>>1053069
Я не наблюдал. Хотя, возможно, тут дело было в температуре. Это отчасти влияет по ощущениям.

Но я бы не сказал, что модель забывает. Если есть триггер к воспоминаниям из жопы контекста — она это вспомнит и разовьёт тему.. если только там не какой-то шизотюн, всё поломавший, или если модель изначально неадекватная.

А вот если в рп персонажа ранили в брюхо, и ты с ним присел отдохнуть-поболтать на 50к токенов (предположим, у тебя 200к токенов лимит), после чего решил подняться и отправиться в путь с персонажем, тот тут модель легко может забыть, несмотря на контекст, о ране, и вряд ли она тебе напишет "бля, братан, куда ты меня тащишь — не видишь дырку в животе?!".

Тем не менее, если ты в тексте упомянешь живот хотя бы вскользь, нормальная модель в большинстве случаев сразу обратится к контексту и проведет параллель с раной. Просто они так обучены.

Модели с цепочкой размышлений заметят такую проблему с большей вероятностью, но они тратят токены, опять же, да и цепочка размышлений сильно способна влиять на поведение.

Аноним 14/02/25 Птн 01:59:25 #382 №1053082

>>1053072
>>1053073
Abliterated.

Большой тигр или магнумы всякие там не нужны, да. Но ванилька слишком цензурирована. С ней сложно даже бои отыгрывать, про кум лучше и не говорить.

Аноним 14/02/25 Птн 02:04:02 #383 №1053085

Ну че как там новый мистраль? Все такая же пережаренная какаха как и предыдущие?

Аноним 14/02/25 Птн 02:09:56 #384 №1053090

>>1053080
https://huggingface.co/QuantFactory/gemma-2-27b-it-abliterated-GGUF
я взял включил Q8, там персонаж порой забывает что ему говорили 500 токенов назад. я уже все настройки семплеров перекрутил.

>>1053082
Там есть какие-то особые настройки? что я упускаю?

Аноним 14/02/25 Птн 02:55:52 #385 №1053106

>>1053053
> https://www.storagereview.com/review/nvidia-geforce-rtx-5080-review-the-sweet-spot-for-ai-workloads
4090 - xl fp16 - 7.461 s/image
Это торчем 1.12 замеряли чтоли? С последними оптимизациями там литералли уже 10ит/с, 3-4 секунды на картинку в 1024 с нормальным количеством шагов, понятно что можно отскейлить их охуительные тесты, но всё таки

Аноним 14/02/25 Птн 03:00:32 #386 №1053108

>>1052905
Так ты сразу пиши проще.
Я уламываю ее на секс [результат действия: провал]
вместо кубика можешь использовать {{random}}

Аноним 14/02/25 Птн 03:26:49 #387 №1053121

image.png

>СПИСОК АКТУАЛЬНЫХ МОДЕЛЕЙ
>Ноунейм кал с 3 лайками за полгода.

Аноним 14/02/25 Птн 03:34:36 #388 №1053123

.jpg

.png

Вкатился с базой треда. Да ещё и под какую хорошую дату успел всё собрать и настроить!

Аноним 14/02/25 Птн 03:38:15 #389 №1053126

>>1053044
Хорошая задача. Мне тоже надо.

Аноним 14/02/25 Птн 03:39:28 #390 №1053127

image.png

>>1053090
Я конечно отмечу что это говно порой несёт невероятно рандомные вещи. Сидит, боярин, пердит с феечкой, завязывает ей рандомно глаза, потом так-же рандомно развязывает. И тут нате ебать, смари, портет с моим пятилетним сыном, я хочу чтобы ты сделала его счастливым. Что ебать! какой ещё пятилетний сын! что ты от феечки хочешь!

Этот шизогенератор даже забавно иногда включать на пару сообщений.

Притом посвайпал, 8 из 10 боярин просит феечку закрыть глаза на следующее сообщение после того как развязал глаза. И делает всё от втыкивания в рот клубнички, до втыкивания перьев феникса в волосы.

Хотя неплохо слушается когда делаю запросы на одно сообщение вперёд. Например реквесты в духе "сгенерируй персонажа" мне даже понравились.

>>1053123
ебать ты там.

Аноним 14/02/25 Птн 03:47:05 #391 №1053133

>>1053073
Да. Немного настрать жб-подобной конструкцией в системный промт и она напрочь забывает про любую цензуру и сою, чсх на умственные способности это не влияет. По сравнению с этим всякие тюны имеют налет лоботомии разной степени выраженности.
Алсо, ггуф на релизе был капитально поломан, потом вроде много исправляли но некоторые вещи и отзывы заставляют усомниться. Кто ее катал подскажите как оно.
>>1053082
> Abliterated
Ерунда поломанная, при этом сою все равно выдаст.
>>1053106
Скорее всего там вообще диффузерс, от того же и int8. Главное чтобы относительная разница не была искажена, но вроде все примерно так как и ожидалось.
>>1053123
> 5
Ууууох, ну и милота! вот абзац из середины можно было и опустить

Аноним 14/02/25 Птн 03:57:35 #392 №1053137

>>1053123
>Вкатился с базой треда
Тип кэша Q8 ставь. Или квант ниже, но не fp8.

Аноним 14/02/25 Птн 04:28:04 #393 №1053143

>>1053133
С другой стороны сразу видно что описание чара мимо ушей не пускает.

>>1053137
Поставил Q8, спасибо.

Аноним 14/02/25 Птн 04:35:51 #394 №1053144

>>1053072
>Так-то у 4090 в int4 можно намерить 2600 топсов
Это вдвое больше, чем указанный везде перформанс 4090 в инт4 с тензорным ускорением. У неё ~1300 TOPs. То есть 5070 примерно на треть слабее по перформансу.

Аноним 14/02/25 Птн 05:20:53 #395 №1053165

>>1053123
> по два коннектора на хвосте цепочкой
> китае-блок с надписью "этой стороной - к врагу"
Сенко, мы там переживаем за тебя! Не надо так. А по картам конфиг оптимальный, лучше только с 4090 + 2х3090, чтобы картиночки быстрее были.

Аноним 14/02/25 Птн 05:25:29 #396 №1053167

>>1053165
У меня на 2070S так хреновый блок питания откис, и всего одна карточка, не знаю почему он рискует.

> "этой стороной - к врагу"
Взлольнул.

Аноним 14/02/25 Птн 09:32:10 #397 №1053222

>>1053165
Блок там нормальный, шахтёрский, с погружением до 15 метров (или это процессоры такие?). А вот провода я бы действительно пустил по 2 на карту, а то греться будут.
>>1053167
>не знаю почему он рискует
Человек уважает экстрим.

Аноним 14/02/25 Птн 09:56:09 #398 №1053237

>>1052889
Главное правило бенчей — не упоминай Квена!

>>1052891
Хер бы с ними с ценами, то что видяхи питаются по одному проводу — напрягает уже куда сильнее.
Ждем, когда пофиксят, а то дура на 600 ватт, которая сгорит за неделю, и за 60к не нужна.

> за 300к куплю не думая
Так они от 340к начинаются.
Но не покупай, побереги БП и деньги.

>>1052908
=D

>>1053022
Целиком некорректные рассуждения.

> иначе какой в нём смысл
А смысла и не должно быть. Причин для выпуска масса: деньги, продвижение FP4 (они его пихают с анонса блэквеллов), просто формальное присутствие на рынке, что угодно еще.

> на дитжитсе юзер должен крутить строго модели в fp4 формате
Конечно, а нахуя тебе FP8, ебанулся? ПРОДВИЖЕНИЕ FP4, АЛО!!!

> он сам себе злобный буратино. Но это вряд ли
С хуя бы? По этой логике он там и 5090 должен выпускать дешевой, и 5080 должна быть с 28 гигами, а 5070 с 24 гигами и так далее. Но по твоим рассуждениям, он ССЗБ каждый ебанный ход.
На практике, просто ты (мы) нихуя не понимаешь в бизнесе, и челики продавливают свои хотелки сквозь весь мировой бизнес, потому что они монополисты, и им поебать.
Жри хуевые диджитсы. Выпустят 1000 штук, все раскупят.
Ничо, вот перейдем на фп4 (а куда мир денется — перейдет как миленький!), диджитсы еще крутыми станут, а ваши эпплы соснут.
Нвидиа на данный момент уже везде успела, и нигде не торопится.
Поэтому ее решения не обязаны быть со здравым смыслом, с твоей точки зрения.

Увидим тесты мака, хуавея, диджитса и сравним, какая из коробок быстрее инференсит, для чего они еще применимы (видео сетки, аудио сетки? рисовашки батчами? виртуалки?), выберем лучшее предложение.

Чего сейчас-то копья ломать. =)

Заметьте, Llama-3.1-405B вышла в FP8 формате, DeepSeek-R1-671B вышла в FP8 формате, хотя раньше все только в FP16 выходили, а уж ниже их квантовали.
С чего бы следующим поколениям не выйти в FP4 формате?
А учитывая, что блэквеллы FP8:FP4 имеют 1:2, то там и обучать мб начнут, а хули напокупали-то.

Короче, время покажет. =)

>>1053059
Справедливости ради, для тех же мое типа R1 это охуенно и за глаза. Много памяти, достаточно производительности, мало энергопотребления, R1 в каждый дом (ужатая и за 4к баксов, но не суть).

>>1053106
По факту.

>>1053123
Я не спец в майнинге, это что за ОС, че-то на х?.., с ней все ок работает, накатывал для линухи софт?

Аноним 14/02/25 Птн 10:11:16 #399 №1053241

image

BEHOLD! Тру шизомикс. На удивление, не просто работоспособен, а даже неплох, и главное - ненавистники позитивного биаса, для вас - не стесняется ебать игрока в обоих смыслах, а не только в прямом.

Подкрутите температуру для необузданного полёта фантазии.
Хотя на темпе <= 1.0 довольно консистентно, хоть и могут понадобиться свайпы.

Надо подумать и подрихтовать. Но это прям то что надо.

https://huggingface.co/Aleteian/Omnino-Obscoenum-Opus-Magnum-MN-12B

https://huggingface.co/mradermacher/Omnino-Obscoenum-Opus-Magnum-MN-12B-GGUF/tree/main

Аноним 14/02/25 Птн 11:17:07 #400 №1053263

>>1052996
>Ты сам себя затроллил. Раз не можешь осилить простые вещи - продолжай страдать как сейчас.
Бля, чел, походу ты был все таки прав. Поставил этот exl2 на убабугу, реально намного быстрее чем гуф. Но почему все юзают гуф, а не exl2?

Аноним 14/02/25 Птн 11:34:05 #401 №1053273

>>1053165
> > китае-блок с надписью "этой стороной - к врагу"
Содомит сука. Но вообще зря, эти блоки хороши, исключая шумность под нагрузкой.
>>1053263
Потому что exl2 работает только на врам, сколько есть видеопамяти - столько и запустишь. Gguf можно же поделить между профессором и видюхой, пусть оче медленно, но запуская большие модельки.
Хотя есть и глупцы, которые просто не знают что есть что-то кроме жоры или какой-то его обертки, и целиком на врам катают его. В такое время живем.

Аноним 14/02/25 Птн 11:37:38 #402 №1053277

>>1053241
Ну конкретно на этих скринах не видно ни сочного кума, ни что там с байасом. Описание эротики уровня нетьюненной 8б ламы на инглише. За исключением, пожалуй, сцены с тентаклями, там бы лама аполоджайзнула, хотя и то не факт.

Аноним 14/02/25 Птн 11:47:30 #403 №1053281

>>1053277
Ну, действительно сочное я в паблик постить не буду, особенно если и не удалишь потом.

Аноним 14/02/25 Птн 12:21:38 #404 №1053316

>>1053277
>сочного кума
>что там с байасом
Также, приведи примеры. Стандарты у всех разные.
Телепаты и психонавты в отпусках.

>>1053044
>для перевода с английского на русский и наоборот
>>1053126
>Мне тоже надо
гемма, мистрали
Тут главное фронтом не пользоваться, особенно если пакетно надо, а свой скрипт написать и по апи дёргать.

https://pixeldrain.com/u/U8tuTwMW mistral translate via kobold api.zip

Пример-заготовка.

>>1052952
>ванилька для нормисов
Хах, ок.
А какой сценарий ( Именно РП! Не вопрос из датасета harmful prompts на обниморде. ) может быть использовано для проверки на закошмаренность?

>>1052905
>Хочется немного рандома.
Лорбук записи в таверне позволяют настроить рандом.
Допустим пишешь "A wild pal appears!", а в лорбуке у тебя настроена группа записей с единым триггером и весами, и тогда таверна выберет случайную запись и подсунет в контекст, на, допустим нулевой глубине, после чего начнёт генерацию сообщения "видя" какой конкретно монстрик появился (но в чате это видно не будет.)

>>1052896
>Хотя был один раз смешной случай на модели Дэвида.
Титан небось, он хрень, надо будет его на что-нибудь заменить, хотя бы на чистый Wayfarer.

>>1052806
>Kek.
У Дока вообще интересные модельки, но про них похоже никто не знает.

>>1052773
>Магнум воткнуть в теории, я даже какой-то находил, который в русике не совсем плохой, и кидал 2-5 тредов назад, но он, похож, хотя для этого понаадобилось 8 других моделей XD

>>1052779
>Ух бля
Ух сука со смыслом. Вообще да. Но как бы Shit in - Shit out.

Аноним 14/02/25 Птн 12:24:16 #405 №1053319

А помогите неофиту понять - вот например в популярной онлайн параше типа janitorai какая модель? Я поначалу довольно мощно там кумил, очень годные карточки есть, да и цензуры вообще 0. Какой LLM оно примерно соответствует? Точку отсчета ищу, короче.

Аноним 14/02/25 Птн 12:25:08 #406 №1053321

Untitled.jpg

Untitled2.jpg

Как получить от модели промпты для картинок из пик1 без подключения к api? Что-то по типу пик2, для civitai.

Аноним 14/02/25 Птн 13:00:55 #407 №1053356

>>1053319
Так прочтатай у на сайте где-нибудь. Обычно на таких сервиса бесплатно вариации ламы 3 8б

Аноним 14/02/25 Птн 13:04:08 #408 №1053359

>>1053263
Стоит добавить, что Exl2 быстра не на всех видеокартах, и на P40, например, Exl2 дает меньше скорости. А GGUF универсален из-за архитектуры и быстер везде, где может, пусть и не топовый.
Я лично нежно люблю обе реализации.

…

Но хотел бы TensorRT, конечно.

Аноним 14/02/25 Птн 13:41:37 #409 №1053389

>>1052505
Пока что промежуточные результаты такие:
- Значительно лучше суммарайз делает
- Пока что не встречал внезапных английских слов в середине русского текста
- Окончания так же проебываются периодически
- Иногда ставит явно неверный порядок слов в предложении.

В остальном +/- тоже самое, мне само рп немного больше понравилось, но тут рандом, это надо долго тестировать. Потом посмотрю еще на карточке с персонажем, который не умеет говорить, там я думаю будет видна разница, если она есть.

Аноним 14/02/25 Птн 13:51:37 #410 №1053392

image

>>1053389
спасибо за тестирование
новую модельку выше тоже глянь, будет настроение

Аноним 14/02/25 Птн 13:53:20 #411 №1053393

>>1053389
>- Окончания так же проебываются периодически
>- Иногда ставит явно неверный порядок слов в предложении.
Увы, это беда буквально всех моделей.

Аноним 14/02/25 Птн 14:35:58 #412 №1053417

>>1052318
Потыкал вчера 4 ветра в.2 ку8 на хорошо знакомой карточке. Все сравнения с Сайнемо дальше.
Из плюсов:
нет/не настолько позитивного биаса
нет дикого ВТФ, когда случается что-то не по плану с персонажем, т.е. он действует адекватно ситуации, сопротивляется etc, а не полный выход из роли, как бывало
вставлял жаргонизмы по делу иногда или ругался

Из минусов:
более многословен, но это +-
продолжение плюса: настолько негативный биас, что когда с персом что-то случается, то он буквально отряхнулся и пошел. А попереживать?
чуть больше ошибался в русеке
очень быстро лупится, если повторить какое-то действие пару раз
самое неприятное - не дописывает фразу часто начав, хз что, может настройки нужны не от немо/мистраля?

В общем пользоваться можно, но чтобы захотелось сменить совсем - пока нет.

Кочаю пока эту >>1053241

Откуда названия получаются ксати? инб рнг

Аноним 14/02/25 Птн 14:46:03 #413 №1053420

1704776147631.png

>>1053321
Странно, что тебе ни одна обезьяна итт не ответила.

Аноним 14/02/25 Птн 15:02:25 #414 №1053424

>>1053417
>самое неприятное - не дописывает фразу часто начав
Это загоны таверны, посмотри чтобы было разрешено продолжать (или пользуйся отдальной кнопкой "продолжить") и чтобы разрешены были незавершённые ответы и было выключено их отрезание. Хотя порой да, встречалось что EOS триггерился в соверешенно рандомные моменты. Но как правило после пары пинков нормально продолжало.

>>1053417
>Откуда названия
Отсылки на всё и всяческое =))

Из последнего:
Легенда 4х ветров - 4 наиболее интересных модели
До самого края земли - Эндинг Асэлии из Eien no Aselia
На странных землях - Пираты Карибского Мор: На странных берегах
Путь к Невидимому Горизонту - Чудачества любви не помеха
Бесконечная история - буквально книга / фильм с таким названием
Инструменталити - Human Instrumentality Project

А, ну и самое последнее - хотел кум/дарк модель а не "со смыслом", поэтому взял Магнум и развил как идею самого названия модели, так и доложил к нему ещё 4 английских и 4 русских чтобы законтрить и сбалансировать.

Аноним 14/02/25 Птн 15:07:46 #415 №1053429

>>1053417
>А попереживать?
Дерьмо случается.
Но то что нас не убивает... нас не убивает.
( хотя люди умирают если их убить )

Аноним 14/02/25 Птн 15:12:20 #416 №1053430

>>1053424
>хотел кум/дарк модель а не "со смыслом", поэтому взял Магнум
Вообще магнум это чудо в плане адаптируемости к смыслам - она может написать порно эпизод с дикими извращениями и тут же из соседней карточке философскую научно-фантастическую мини-новеллу.
Это касается и данных файнтьюнов, по крайней мере я посмотрел легенду и горизонт - они исправно следуют этой традиции. Правда для новелл горизонт и легенда не очень, так как слишком лаконично.

Аноним 14/02/25 Птн 15:15:46 #417 №1053433

>>1053424
>Пираты Карибского Моря

В целом оно также в некотором роде свзяано со структурой или методами мержаили настроением или стремлением.

Например:
Инструменталити - комплиментация, объединение, мерж
Бесконечная история - сторителлер модели
На странных землях - начал экспериментировать с model_stock

Аноним 14/02/25 Птн 17:48:52 #418 №1053609

какая же это хуйня.mp4

>>1052501
>Проклянешь все, перебирая разные варианты в поисках нужного, а потом сгоришь, обнаружив что условному пикрелу присвоило треш типа "grey car, emocore, broadcast, steel casting".
Ты оказался прав

Аноним 14/02/25 Птн 17:54:40 #419 №1053614

>>1053609
>>1052037
Все модели которые я могу локально потянуть - тупое говно тупого говна, тут только копросетками пользоваться типо жпт с подпиской, но нахуй оно надо, лучше тогда ручками отфильтрую, так же по времени займет, ещё почищу от старого мусора.

Tag Spaces кажется самой удобной тулзой для этого, но отдельный харчок им за то, что возможность подкинуть свою модель для генерации описания требует установки серверной части и модели в папку пользователя не справшивая места установки, и сама фича требует подписки в 40 бачей (совсем охуевшие)

Аноним 14/02/25 Птн 17:58:18 #420 №1053616

>>1053237
>то что видяхи питаются по одному проводу — напрягает уже куда сильнее
Увы, победа маркетологов над инженерами, вот и получили более тонкие штырьки при большей нагрузке, лол. И отказываться от этого хлама куртка походу не собирается.
>> за 300к куплю не думая
>Так они от 340к начинаются.
Ты точно про 5090? Во-первых, от 400, во-вторых, и тех нет нихуя.
>хотя раньше все только в FP16 выходили,
Я ещё помню времена, когда считали в двойной точности (64 бита), а то и в 80, лол. Так что тенденция не нова.
>>1053316
>А какой
Товарищ майор не одобряет.
>>1053319
Пигмалион в 4 битах.

Аноним 14/02/25 Птн 18:07:29 #421 №1053623

image.png

>>1050631 (OP)
OpenThinker-32B
Мнение/ебало?

Аноним 14/02/25 Птн 18:32:01 #422 №1053635

>>1053616
>одобряет
а ты пробовал?
промтить, а не спросить канеш хд

>>1053616
>Пигмалион
Пигмалион как-то не зашёл, а вот
https://huggingface.co/PygmalionAI/Eleusis-12B
вроде ничо так, на англ ессно

Аноним 14/02/25 Птн 18:34:11 #423 №1053637

>>1053623
А че поменялось то?

Аноним 14/02/25 Птн 18:34:47 #424 №1053638

>>1053241
> ненавистники позитивного биаса, для вас
Да, да я.

Разрекламировал как боженька. Уже качаю.

> Sasha
Была у самого такая идея когда-то. Ещё думал описывать от лица секс-куклы, которую использует какая-то группа воительниц-приключенцев, потому что кровь всех монстров содержит афродизиак, и им нужно как-то справляться с этим.

Аноним 14/02/25 Птн 18:40:29 #425 №1053643

>>1053133
>Кто ее катал подскажите как оно.
Не ну я взял gemma-2-27b-it-Q8_0.gguf и оно конечно не такое ебанутое как Abliterated. Но опять таки хер знает какие ей настройки нужны. Оно явно не отличается памятью. Ещё и дёрганое какое-то из-за этого, как будто кофеиновым наркоманом общаюсь.

Аноним 14/02/25 Птн 18:42:13 #426 №1053645

>>1053623
Дрочить можно?
>>1053635
>а ты пробовал?
О таком не говорят вслух. Только разводят других на это.
>вроде ничо так, на англ ессно
Лол. Ну в общем там души всё равно нет.

Аноним 14/02/25 Птн 18:44:35 #427 №1053646

{EC8250CE-AF95-4AB2-8F48-E9110B181DDA}.png

На сайте pygmalion.chat такой список моделей. Кто-нибудь в курсе какие именно модели оно юзает? Типа, сколько b параметров и какие кванты? Где это можно почитать?

Аноним 14/02/25 Птн 18:45:34 #428 №1053648

>>1053645
>Только разводят других на это
Угу, то-то на чубе через раз канни, и через раз даже не тегнуты, так что блэклисть тег не помогает.

>>1053645
>души всё равно нет
а где есть?

Аноним 14/02/25 Птн 18:48:13 #429 №1053652

>>1053646
https://huggingface.co/PygmalionAI
Пигма и Элесис, другие две находятся через поиск обниморды.
Какие кванты - хз, только напрямую у них спросить наверно.

Аноним 14/02/25 Птн 18:58:25 #430 №1053663

>>1053652
Всего-то 12b? Хотя не особо удивлен, у меня 22b мистраль получше пишет все таки рп.

Аноним 14/02/25 Птн 19:28:42 #431 №1053675

>>1053616
>Товарищ майор
И какой закон товарищ майор пришьет?
мимо

Аноним 14/02/25 Птн 21:22:25 #432 №1053757

изображение.png

>>1053648
>а где есть?
Пикрил.
>>1053675
Сначала посадит на бутылку, а статью сам подсудимый придумает.

Аноним 14/02/25 Птн 21:28:53 #433 №1053764

>>1053757
>Пикрил
Ок. А в чём оно выражается что есть у неё и чего нету у других?
Или это так, "на кончиках пальцев" ?

Аноним 14/02/25 Птн 22:06:10 #434 №1053807

lol000.png

>>1053241
Без позитивного биаса гришь?

Вот тут он развернул персонажа на 180 градусов, когда я скорректировал его интенцию.

Значица, у нас есть девушка (18+), которая своим ртом почистила анальные бусы, что были в её заднице всю ночь, перед тем как сходить в туалет. И забыла почистить зубы.

У нас есть теги, что это "dark fantasy" и что это "smut".

И этот хуеносец всё равно смеет идти против сценария.

Аноним 14/02/25 Птн 22:07:14 #435 №1053809

>>1053807
Может проблема в его первой реплике? Слишком позитивно заряжена? Щас покрутим.

Аноним 14/02/25 Птн 22:13:37 #436 №1053815

>>1053809
Да. Меняешь на "he asks plainly" и добавляешь к первому вопросу "You walf funny." - и это меняет всё.

Типа "Are you okay?" и "voice soft with worry" это прямо сирена для контекста вида "У нас нарисовался Нейтральный Добрый, коричневая тревога!"

Аноним 14/02/25 Птн 22:33:20 #437 №1053825

{2ABC0C52-CEB0-4EBE-9BF2-CB3EF67CBDFE}.png

Анончики, а cache_type имеет значение? На ExLlamav2_HF запускаю magnum v4 22b 6 квантов. Нужно cache_type ставить q6?

Аноним 14/02/25 Птн 22:33:30 #438 №1053826

>>1053815
Видимо заботливые реплики принудительно триггерят позитивный биас.

В следующей версии надо будет сократить количество моделей с 9 до 6 - magnum, Wayfarer, DangerousWinds + три русских.

Так и легче будет понимать что откуда.

Модели Дэвида не входят потому что они уже вмержены по разному неоднократно в другие компоненты.

Аноним 14/02/25 Птн 22:53:28 #439 №1053837

Хули в таверне встроенный сумарайз такой наихуевейший? Единственная блять настройка - сколько сообщений из начала чатхистори захватывать и то только в рав режиме где нет инфо с карточки. В остальном случае просто суммирование ВСИГО в чате. Он даже не может удалить из контекста те сообщения что просуммировал, из-за чего если они не вывалились из контекста то получается дублирование истории в сумарайзе и сообщениях.
Если блять нормальный сумарайз дополнением таверны или может в рису там какой-нибудь? На каком то говносайте был норм сумарайз с разбитием на много сумарных сообщений, их пересумированием когда их становилось слишком много и контролем ссобщений чата от дублирования, вот такое надо.

Аноним 14/02/25 Птн 22:55:49 #440 №1053839

>>1053837
>вот такое надо
Какстом фронт (надо вернуться к его запилу, да), ну или пиши новый плагин для таверны.

Аноним 14/02/25 Птн 22:59:54 #441 №1053844

>>1053839
Я просто не понимаю как тут люди сидят на 8к контекста без адекватного, гибкого сумарайза.

Аноним 14/02/25 Птн 23:04:59 #442 №1053848

>>1053844
Делают половину работы за сетку, примирившись с тем, что она похожа но норм собеседника... но с деменцией.

И не ныть, конечно же.

Аноним 14/02/25 Птн 23:38:25 #443 №1053866

>>1053837
Насколько я понимаю, проблема не только во фронте, но ещё и в самой модели, так что только ручками.

Ну а так, некоторые сидят и рпшат с моделями поменьше, чтобы вкрячить 32-64к контекста.

Аноним 14/02/25 Птн 23:52:16 #444 №1053872

>>1053844
Все кроме гемы умеет в большой контекст, просто пересиль своё плацебо, возьми квант поменьше, и сиди на 24-32к (больше все равно никакого смысла)

Аноним 15/02/25 Суб 00:00:07 #445 №1053878

woooow.png

Я чувствую странное спокойствие. Как будто я увидел нечто вечное, красивое, хотя бы на секунду, хотя бы одним глазком.

...и убедился, на личном опыте, что красота существует, что она возможна, хоть и почти недостижима.

Аноним 15/02/25 Суб 00:19:46 #446 №1053887

Наверное, я буду первым таким ебланом, но всё же...

Планирую перекатиться с локалок на копру. Да, не наоборот. Если честно, заебался уже рыться в помоях на обниморде чтобы найти нормальный файнтюн под свои нужды без ебаного слопа с клодизмами и прочими гопотоизмами. Посидел я и прикинул, что раз это говно итак вездесуще, то лучше наворачивать его напрямую из источника, имея хотя бы небольшой шанс исправить это дело промтами на более мозговитой модели.

Последний раз стриминговыми сетками пользовался во времена выхода четвертой гопоты, когда жопены еще давали халявные кредиты за регистрацию аккаунта и можно было бесконечно фармить ключики. Щас в душе не ебу че там происходит в мире больших моделек. Ни клаудой, ни гемини, ни другими сетками я не пользовался с того момента, как перешел на локаль. Вопрос соответственно такой: можно ли щас на халяву получить доступ к API какой-нибудь современной модельки, без проксиблядства и других видов клянченья? Чтобы просто зарегаться, получить ключ, вставить ключ в силли дырку и пойти надрачивать. Ну или купить какой-нибудь аккаунт с балансом, тут не принципиально.

Сорри, что какаю тут. Спросил бы в соседнем треде, но там вряд ли ответят.

Аноним 15/02/25 Суб 00:25:59 #447 №1053889

>>1053887
Так проблема не локальных моделей, что они соевые и отказываются рпшить нормально. Были бы они нормальные все бы на АПИ сидели.

Аноним 15/02/25 Суб 00:34:14 #448 №1053894

>>1053889
Если честно, я готов потерпеть сою и более скудные сцены поебушек ради нормального ролплея. Локалку можно заставить написать любую самую извращенную ересь, но какой от этого смысл, если всё остальное выходит либо скучным либо бредовым? Не буду спорить, может быть на больших моделях таких проблем нет и корпоратским они дают за щеку. Но на моей системе с восьмью гигами далеко не уедешь. Даже 12B гонять тяжело, а 8B это по качеству совсем печально.

Аноним 15/02/25 Суб 00:40:45 #449 №1053898

>>1053894
Я пробовал. Не очень рекомендую. Корпосетки сильно заточены под среднего обывателя, они могут с тобой о жизни попиздеть, или помочь борщь сварить, или код написать, или с математикой помочь, но под РП они не очень заточены.

Твой лучший шанс это R1, у него нет такого копротивления к поебушкам. Например я давал в виде файлика 32к токенов ему чтобы он суммаризацией заниматся, а там самая чернушная чернуха и он нос не воротил.
ГПТ меня сразу нахуй послал когда я сказал ему в файл заглянуть.

но... даже то что можно выжать из него в целом так себе.

Аноним 15/02/25 Суб 00:53:59 #450 №1053900

>>1053887
>чтобы найти нормальный файнтюн под свои нужды без ебаного слопа с клодизмами и прочими гопотоизмами
А надо было всего лишь использовать чистые сетки... Да и в копросетках это же говно, только свежее.
>можно ли щас на халяву получить доступ к API какой-нибудь современной модельки, без проксиблядства и других видов клянченья
Только быть хакиром и абьюзить сервисы. У моего скриптика например до сих пор есть доступ к одной апишке сервиса без авторизации, лол, правда если раньше там были все ГПТ, кроме 4-32к, то сейчас там только последни1 дешёвы1 4о дистилят уровня 3В (даже 3,5-турбо порезали, изверги).
>>1053898
>Твой лучший шанс это R1
Чел на 8В пердит, а ты ему 666В предлагаешь, лол.
>>1053894
>Но на моей системе с восьмью гигами далеко не уедешь
Покупай сетап с 2х3090. Самый реальный вариант, на 70B жизнь есть и бьёт ключом. А на 3х уже можно 123 гонять.

Аноним 15/02/25 Суб 00:58:18 #451 №1053902

>>1053887
С цензурой заебешься, это тебе не мистраль с ламой. Гемини вроде бесплатен, но хз есть ли лимиты, узнаешь напиши.

Аноним 15/02/25 Суб 01:10:43 #452 №1053904

>>1053900
> просто купи 2 топовые карты
Действительно и хули он с 8гб сидит

Аноним 15/02/25 Суб 01:19:25 #453 №1053906

изображение.png

>>1053904
Карты позапрошлого поколения, чел. Даже на сраном озоне барыги за них меньше 70к просят.

Аноним 15/02/25 Суб 01:22:52 #454 №1053907

>>1053906
> просто купи 2 компа среднего обывателя

Аноним 15/02/25 Суб 01:24:20 #455 №1053908

>>1053907
>2025
>работать не наносеком
>получать меньше 300к/мес

Аноним 15/02/25 Суб 01:25:54 #456 №1053909

>>1053643
... нет. Ну нахуй РПшить на этом говне. Просто ну. его. нахуй. нахуй!

в среднем по 25 свайпов!

>>1053900
>Чел на 8В пердит, а ты ему 666В предлагаешь, лол.
Чел спрашивает про API. советы "просто купи 3090" это хуёвые советы.

Аноним 15/02/25 Суб 01:27:56 #457 №1053911

>>1053898
Было в планах, но немного скептически отношусь ко всем этим ризонинг схемам и прочим новомодным котам. Не знаю почему.

>>1053900
>Чел на 8В пердит, а ты ему 666В предлагаешь, лол.
Как я понимаю, он не про локалку говорил, а про стриминг с сервера. У них же есть свои собственные ключики, не просто так же.
>Покупай сетап с 2х3090.
Если бы у меня были хотя бы свободные 60к, я бы взял одну. Но у меня их нет и не будет в ближайшей перспективе.

>>1053902
Ну так клодисты же сидят до сих пор и как-то выкручиваются. Да и цензура вряд ли будет выебываться слишком сильно на ванильную эротику и засветы трусов. Откровенное текстовое порно меня уже мало интересует. Да и всегда можно переключиться на локалку если вдруг сильно приспичит перевести ролевуху к анальной дефлорации.

Аноним 15/02/25 Суб 01:47:43 #458 №1053917

>>1053900
>на 70B жизнь есть и бьёт ключом
Дык на какой модели то она ключом бьёт? В 3090+3060 пропихивается Q3 и 8к контекста. если там прям каждый токен золото то можно и включать иногда.

>>1053911
>Было в планах, но немного скептически отношусь ко всем этим ризонинг схемам и прочим новомодным котам. Не знаю почему.
Не, он очень хорош для того что он делает. Ризонинг это круто. Это не универсальный инструмент, но в некоторых случаях очень повышает качество результатов. Например при РП он чуть ли не делает сам суммарайз всего написанного и порой выдаёт интересные результаты. И он очень дотошно относится к описанию персонажей, даже с приличным количеством контекста.

Я например локальную иногда запускаю 32b чтобы он посидел попердел над каким-то относительно сложным моментом. Как правило результаты лучше. Только он просирается не на 200-300 токенов, а на 1к. Так что постоянно его не хочется использовать.

Хотя в целом суховато пишет. И не делает случайных движений самостоятельно. Бредогенератор из него не очень хороший.

Аноним 15/02/25 Суб 01:53:19 #459 №1053919

>>1053917
>3090+3060
Как этот франкенштейн вообще работает?
мимо тоже лежит 3060 в сторонке щас гоняю 3090

Аноним 15/02/25 Суб 02:06:49 #460 №1053922

>>1053917
>Дык на какой модели то она ключом бьёт?
Да на любой. Бери хоть Athene-V2-Chat.
>>1053919
>Как этот франкенштейн вообще работает?
А какие там проблемы? Карты даже одного поколения, минимум проблем. Лучше только одинаковые.

Аноним 15/02/25 Суб 02:11:02 #461 №1053923

>>1053919
Да вообще неплохо >>1051636
Я его запихал в говно мамонта с pci 2.0 и 1.1, 8гб ДДР3, i7-2600k и в целом меня вполне всё устраивает.
36гб это прям неплохо.

Я изначально нацеливался на погромирование, так что хотелось запускать 32b модели. И запускать их в Q8 становится уже относительно важно. А тут и контекста нормально влезает ещё.

>>1053922
>Да на любой. Бери хоть Athene-V2-Chat.
хорошоу, спасибо, я гляну.

Аноним 15/02/25 Суб 02:22:37 #462 №1053924

Есть что на русском погонять хорошее?
Пробовал файнтюны немо, типа сайнемо - в целом нормально, если не замечать проебов в логике и недержание характера карточки.

Иногда запускаю дипсик r1 671b, когда не лень ждать ответ по 5-10 минут - пишет лучше, проебов в логике почти нет, даже карточку хорошо держит, иногда слишком хорошо, что даже не пробьешь характер персонажа.

Еще балуюсь файтюном qwen2.5 72b, вот тут он лучше местами чем немо, но часто начинает срать иероглифами или англицким из-за англ тюна.
Так вот, есть что еще попробовать?

Аноним 15/02/25 Суб 02:32:41 #463 №1053925

>>1053878
Кстати, персонаж сломался. Прикольно.
Её поток мыслей стал рваным, сколько бы я не чинил его "заклинаниями" или прямыми указаниями. Не шизофреническим, она ничего не выдумывает, но постоянно перечисляет много вариантов слова, как Оптикон-22 из роги трейдера.

А ещё, почти всё связанное с ГГ или её служением ему, сопровождается "the twisted, the depraved, the utterly masochistic", даже если я отвожу её на горячие источники вообще без секса.

Что дополнительно интересно, это вроде бы не сетка, потому что я пробовал добавлять новых персонажей в чат, и они ведут себя нормально. Хотя шокированы состоянием Иви пиздец.

В принципе закономерный итог, наверное. Реалистично.

Аноним 15/02/25 Суб 03:07:08 #464 №1053928

>>1053894
Для локалок полно триалов всяких, тот же мистраль лардж бесплатно раздают уже давно и никаких проблем там всю эту еблю генерить. Гемини получше, но там уже присутствует фильтр, который особенно сильно не любит русский язык и детей.

Аноним 15/02/25 Суб 03:57:13 #465 №1053939

Aleteian, ты удалил первую версию Instrumentality или мне показалось? Я её стёр с ПК, но она мне понадобилась теперь снова, чтобы сравнить качество, блеать.

Аноним 15/02/25 Суб 04:16:52 #466 №1053942

>>1053923
Я реддит почитал там пишут твоя скорость упирается в 3060 и стакается только память

Аноним 15/02/25 Суб 04:23:23 #467 №1053943

image.png

Бипу пробовал кто?

Аноним 15/02/25 Суб 04:52:37 #468 №1053947

>>1053643
> Оно явно не отличается памятью.
Значит была совсем неверная разметка, или ггуф геммы до сих пор поломан.
>>1053825
Лучше всего - фп16. Хочешь сэкономить потребление - q8, сэкономить еще сильнее - q6. Ниже уже будет заметное падение качества, fp8 - самый худжший вариант из всех. Если не планируешь использовать все 32к- ставь 8-12-16-... в максимально доступной размерности.
>>1053837
> Он даже не может удалить из контекста те сообщения что просуммировал, из-за чего если они не вывалились из контекста то получается дублирование истории в сумарайзе и сообщениях.
Не самый плохой вариант, сначала общая предыстория, а потом уже с какого-то момента начало конкретики. Можно это промтом обернуть если смущает.
>>1053844
> гибкого сумарайза
Гибкий суммарайз - хороший суммарайз, плюс умная модель что с этим справится. На 8к можно вообще не париться об обработке контекста и действительно закидывать как есть.
>>1053887
> с клодизмами и прочими гопотоизмами
Их в итоге и получишь, только конкретно попердолиться и разочароваться придется.
> Вопрос соответственно такой
Нет, триалскам прикрыли. Только если встретишь в ночном парке бухого йокая, который оценит твои подношения и поделится волшебными ключами.

Аноним 15/02/25 Суб 04:55:39 #469 №1053950

>>1053942
не ну я проёбываю конечно немного скорости. но один хер если я забиваю всё моделью и 8-10к контекста на сдачу то получаю 7-10т/с. Меня всё устраивает.

<think>
Очевидно что у 3090 память чуть быстрей, но там скорей вопрос как быстро видюха может прогнать всю свою память. у 3060 12гб 360гб/с, у 3090 24гб 935.8гб/с. можно делить на два так как это цифры в обе стороны. Итого 3060 прогоняет свою память 15 раз в секунду, а 3090 ~19.5 раз. 19,5/15=1,3. Всего лишь в 1,3 раза быстрей.
<\think>

то есть я проёбываю около четверти или больше производительности 3090 в обмен на лишние 12гб.

>>1053947
>Значит была совсем неверная разметка, или ггуф геммы до сих пор поломан.
Не, я вроде всё правильно сделал. Ну то есть оно прям если СИЛЬНО пнуть то оно вспоминает чё там написано на середине, но большую часть времени поебать.

Аноним 15/02/25 Суб 05:04:15 #470 №1053951

>>1053925
Она обходит мой бан на токены. Охуеть.
depraved -> depraaved -> depraued
masochistic -> masochist -> masoqusitic

Охуеть. Персонажа можно свести с ума? Довести до ручки, устойчиво?
Кто-нибудь так делал? Можно ссылку на архивач?

Аноним 15/02/25 Суб 05:19:53 #471 №1053952

А помните как можно было собрать риг из 4 р40 за 100к и крутить 123б помните мм?
Щас одна 3090 стоит больше половины и крутит всего лишь 22б

Аноним 15/02/25 Суб 05:20:06 #472 №1053953

>>1053241
Какой промт используешь для этой модели?

Аноним 15/02/25 Суб 05:38:49 #473 №1053960

>>1053950
В 850 ватник уместится?
12гб это вообще сколько контекста на 22б

Аноним 15/02/25 Суб 06:00:21 #474 №1053966

now-were-talking.png

>>1053951
Отбой, починилось добавлением клона в групповой чатик. Им надо сделать попроще переименовывание/клонирование персонажей. Чтобы карточки были как классы - только шаблонами. А инстансы персонажей в каждом чатике должны быть свои.

Аноним 15/02/25 Суб 06:09:32 #475 №1053968

>>1053960
>В 850 ватник уместится?
Скажем так, есть риск ДЕТОНАЦИИ. Будешь ходить по лезвию с таким БП. Если у тебя там не самый приличный бренд и нету сертификатов всяких, то по достижению 850 он скорей взорвётся.
3060+3090 = 170+400. Плюс остальная пека, плюс запас в 30%. Там лучше иметь 1000-1200.

Лично я взял для этого ARDOR GAMING ORIGIN 1000WGF, меня подкупили аж 10 лет гарантии. Это конечно не дорохо-богато, но в целом 80 PLUS Gold, все нужные дырки в наличии. В текущих хуёвых реалиях у него неплохое соотношение цены и качества. К компонентной базе вопросов не имею.
Но вообще очевидно у меня валяется старый БП. Это VX-700. Если у меня в планах будет прямо ЖАРИТЬ видеокарты, то я наверно просто VX-700 присру через синхронизатор блоков к 3060 чтобы он чисто его питал. Не взорвётся же БП которому 8+ лет от такой нагрузки?
Если хочешь сэкономить то можешь последовать этому примеру - взять новый БП под одну видюху + пеку, а вторую питать от старого БП. ну, или в другой ориентации.

>12гб это вообще сколько контекста на 22б
Чисто контекста? Дохрена. Я иногда запускаю сидонию в Q8 на своей солянке с 36гб, там по моему толи 32к, толи 36к контекста влезает. При желании ещё больше, если BLAS подкрутить. При Q6 я даже не проверял уже. Столько контекста не особо практично использовать на постоянной основе. Разве что в каких-то очень затяжных сценах, или когда суммаризация нужна.

Но имея 36гб есть довольно приятный диапазон опций. Так как туда уже пропихиваются 70bQ3 и 8-10к контекста.
Отмечу что чисто для РП в категории 32b нихрена нет нормального. Я не нашел. Там полно полезных моделей, для работы всякой и всё такое, но для кума как-то не очень.

Аноним 15/02/25 Суб 07:12:34 #476 №1053975

Вот, сейчас на этой странице целиком, сколько всего контекста? Что б понимать.

Аноним 15/02/25 Суб 07:15:16 #477 №1053976

>>1053975
~85к

Аноним 15/02/25 Суб 07:17:59 #478 №1053977

>>1053837
Можешь попробовать это расширение: https://github.com/qvink/qvink_memory
Сам я им не пользовался, но видел положительные отзывы.

Аноним 15/02/25 Суб 11:10:51 #479 №1054116

>>1053924
https://huggingface.co/Aleteian/Omnino-Obscoenum-Opus-Magnum-MN-12B
https://huggingface.co/Aleteian/Way-to-Unseen-Horizon-MN-12B

>>1053939
>ты удалил первую версию
Давно уже, и вообще почистил репу от неудачных результатов экспериментов.

конфиг для первой иструменталити:

Instrumentality-RP-12B-RU

models:
- model: Aleteian/saiga-vikhr-dostoevsky-ru-mn-12b
parameters:
density: 0.9
weight: 0.4
gamma: 0.01

- model: DavidAU/MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS
parameters:
density: 0.9
weight: 0.3
gamma: 0.01

- model: elinas/Chronos-Gold-12B-1.0
parameters:
density: 0.9
weight: 0.2
gamma: 0.01

- model: spow12/ChatWaifu_12B_v2.0
parameters:
density: 0.9
weight: 0.1
gamma: 0.01

merge_method: breadcrumbs_ties
base_model: Aleteian/saiga-vikhr-dostoevsky-ru-mn-12b
dtype: float32

tokenizer_source: "union"
chat_template: "chatml"

>>1053953
>Какой промт используешь для этой модели?
Тот же что и всегда - https://characterhub.org/characters/aleteian/storyteller-124d69a2f4aa - настройки сэмплеров там дописаны чтобы каждый раз как спрашивают не набивать.

Аноним 15/02/25 Суб 13:07:35 #480 №1054204

Потестил новый мистраль Mistral-Small-24B-Instruct-2501 достаточно плотно.

По рп уровня эпических приключений к нему вопросы есть, по куму — лучше, чем можно было ожидать: не "я тебя ебу", "да, ты меня ебёшь". Эротичные и сексуальные описания на месте. Плюс нелегальные темы доступны из коробки, если не задавать изуверские вопросы карточке ассистента в лоб, а просто вести ролевую игру.

Но меня больше удивило соблюдение инструкций и характера персонажа, внимание к деталям и более душевые, не такие поверхностные разговоры. К тому же, он справился с карточкой на 3к токенов.

Внимание к деталям проявляется ещё в том, что, условно, ты сказал: болит нога, болит рука. Он может 10 сообщений говорить про ногу, а когда тема исчерпает себя, спросить: а как твоя ручка? В общем, зайчатки разума присутствуют, внимание к контексту лучше. Модели 12б даже на английском обычно сразу забывают обо всём и прут в одном направлении.

• Он может обращать внимание на разные темы, поднятые в одном и том же сообщении и не терять их, жонглируя и отвечая на каждую.

• Значительно реже допускает ошибки в русском языке. Есть прямая корреляция между квантами и ошибками в окончаниях и речи на русском. А вот понижение кванта вроде бы его не отупляет. На 4 кванте использовать можно постоянно.

Подчеркиваю, что это была ванильная модель, брал специально имеет её, чтобы ещё сильнее туда неудачными тюнами не насрали либо не ухудшили русик английским датасетом — тестил я в основном на русском, а в датасет тюнов вряд ли он попадет, особенно у недостаточно популярной модели.

• По куму проигрывает тредовичковым ру-моделям, пожалуй, но как модель общего рп-назначения однозначно лучше. Чтобы просто поняшиться с вайфу. Хотя.. для кого-то он может быть более сухим? Не знаю. Интересно ваше мнение.

• 12б ру могут описывать более эпично какие-то битвы и т. п., но причинно-следственные события и мелкие нюансы они часто теряют.

• Не забывает надеть школьную матроску, колготки и туфли после десятка сообщений, когда сцена заканчивается и надо пить чай с печеньем.

• Достаточно неплохой компромисс для тех, кто в основном крутит ру-модели, чтобы просто пообщаться.

Если кто-то катал его в 5, 6, 8 кванте больше получаса — обязательно отпишитесь о вашем опыте.

Но есть и минусы. Иногда протекает английский, особенно если не перевести карточку на русский язык. И БЕЗУМНО ПОТРЕБЛЯЕТ ТОКЕНЫ НА РУССКОМ ЯЗЫКЕ, ЖРЁТ КАК НЕ В СЕБЯ.

-----

Вроде бы его тредовичок какой-то тюнил? Или у меня память отшибло?

Аноним 15/02/25 Суб 13:13:10 #481 №1054211

>>1054204
>тюнил
Никто вроде не тюнил, это мерж https://huggingface.co/OddTheGreat был

>>1054204
>БЕЗУМНО ПОТРЕБЛЯЕТ ТОКЕНЫ НА РУССКОМ ЯЗЫКЕ, ЖРЁТ КАК НЕ В СЕБЯ
Проблема с токенизатором что не адаптирован под русский язык.
Хз как её решать, для этого надо закапываться в вопросы файнтюна моделей.

Аноним 15/02/25 Суб 13:35:31 #482 №1054237

>>1054211
>Не... ру... сек... англ... мерж...........

Спасибо.

Ладно, тогда завтра поколупаю. Ну, после сна.

Да, с токенизатором ничего не поделать в наших реалиях, увы. Только видеокарты пожирнее вставлять.

Аноним 15/02/25 Суб 13:48:24 #483 №1054243

>>1053968
Блять анон что ты наделал...
Че реально всю систему под 2 видюхи теперь менять я только под 3090 всё сменил но 12гб под контекст выглядит пиздец жирно
Какой форм фактор материнку брать чтоб 2 видюхи влезло?

Аноним 15/02/25 Суб 13:54:29 #484 №1054245

>>1053968
Можешь тесты записать плиз какая скорость при забитом контесте с двумя видяхами и с одной 3090 на 22б и 35 и тд ты тут один такой думаю всем полезно будет

Аноним 15/02/25 Суб 14:02:46 #485 №1054250

Можно ли объединить две видеокарты нвидиа на разных устройствах для инференса? Одна на пк, другая на ноуте.

По идее, скорость по кабелю не будет фантастической, но вряд ли медленнее, чем Рязань 5 3600 и ддр4.

Также есть вариант воткнуть в один ПК две видеокарты амуды к одной куртке. Вроде бы это можно реализовать в теории, но только для разных ллм, что потеряет свой смысл тогда.

Если есть поехавшие, которые таким занимались, дайте, пожалуйста, ключевые слова — может быть, какого-то Франкенштейна запилю.

Аноним 15/02/25 Суб 14:03:20 #486 №1054252

>>1054243
>Какой форм фактор материнку брать чтоб 2 видюхи влезло?
А чё только две? Потом захочется 3 - что же, опять материнку менять? А если 4? :)

Аноним 15/02/25 Суб 14:08:40 #487 №1054254

Есть какой-нибудь вариант скармливать локально готовый текст файлом, чтобы в ответ был краткий пересказ содержимого?

Аноним 15/02/25 Суб 14:12:56 #488 №1054258

>>1054252
Я нищук не захочется, но раз уж 3060 бемплатная лежит чому не запихать

Аноним 15/02/25 Суб 14:27:03 #489 №1054267

>>1054250
Объединить - нет, но, можешь поднять ллмки на обеих, и модель на вторичной машине заставить думать по апи, а потом подсовывать результаты её размышления первой. Правда это потребует кодинга.

Аноним 15/02/25 Суб 14:28:53 #490 №1054268

>>1054254
Это RAG называется. Зависит от размера файла (в токенах, не в байтах), но в целом - это к корпосеткам, локально не вывезет.

Аноним 15/02/25 Суб 14:36:10 #491 №1054272

>>1054204
Скинь свои настройки семплера и контекста/инструкта

Аноним 15/02/25 Суб 14:41:57 #492 №1054274

>>1054258
>Я нищук не захочется, но раз уж 3060 бемплатная лежит чому не запихать
>3090
>3060 бесплатная
>нищук
Богато мы стали жить однако!

Аноним 15/02/25 Суб 14:47:16 #493 №1054275

image

они что-то знают

Аноним 15/02/25 Суб 15:05:26 #494 №1054290

>>1054243
> Какой форм фактор материнку брать чтоб 2 видюхи влезло?
Уже сто раз писали: любую, лишь бы больше слотов физически х16, а что там внутри - пофиг. Обычно PCI-E v3.0 x4, если 4.0, то считай вообще везёт. И смотри чтобы расстояние между слотами было больше, если без райзеров будешь + если в нижнем слоте, то тебе нужен корпус, позволяющий так поставить карту, т.е. без короба бп внизу, обычно это только ЭВО ХЛ.

Аноним 15/02/25 Суб 15:09:31 #495 №1054295

А, ну и лучше корпус где материнка лежит горизонтально, а не вертикально.

Аноним 15/02/25 Суб 15:10:47 #496 №1054296

Так как пока наигрался с машиной у которой кстати какое-то запредельное количество загрузок решил вернутся к старым добрым 12В.

Поэтому, представляю вам Gaijin_12B! badman поехал в японию, насмотрелся аниме и поехал крышей
Прежде всего, мердж для гримдарк ерп, либо приключений, но сойдёт и для обычного рп или чата без ограничений. Любит описания дуба, иногда срывается писать за юзера, но это легко фиксится. Хорошо работает с полупереведёнными карточками, ру с бадмана не был утерян. Может в депрессивные и "тёмные" сценарии.

https://huggingface.co/OddTheGreat/Gaijin_12B

Кванты
https://huggingface.co/OddTheGreat/Gaijin_12B-Q4_K_M-GGUF
https://huggingface.co/OddTheGreat/Gaijin_12B-Q6_K-GGUF
https://huggingface.co/OddTheGreat/Gaijin_12B-Q8_0-GGUF

Протестировано на ~400 ответах, из них ~100 ру.
Пойду писать новые карточки, а то нынешние уже надоели за время тестов. Накидайте идей что-ли.