В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Способна ли какая-то нейросеть привести список из ста графических растровых локальных редакторов для виндовс и не повторяться в нем по пять раз? Уже на 30-м месте пишет все сначала по несколько раз.
>>1050652 Я ждал этот вопрос и даже хотел сразу прописать ответ в посте. Так вот, ответ: нет. И я не обязан знать ответ на этот вопрос. Я не робот. И не умничай тут.
>>1050658 Я еще и пикчу хотел кинуть да лень искать было, хех Дак и сетка не робот, кстати Не тот робот которыми представлялись ии в фантастике вовремена до нейросетей
Прикидую, когда создадут локалки с AGI. Это же будет как реального человека создал, чтобы он тебе хуйню писал. Чет звучит как что-то страшное. Скорей бы уже сделали.
>>1050690 Никак. Одно дело знать, а совсем другое думать и применять эти знания. Второе нейронки могут плохо, только всякие o1 и R1 начинают пытаться в это.
>>1050696 Ну так хули не сделают наоборот? Сетка которая знает только как срать но при этом может делать сверх толчки, улучшенные толчки за пределами понимания человека
>>1050697 На о3-mini смотри. Там мелкосетка, но может больше чем полноценная жпт-4. Жди к лету гору новых reasoning-моделей, квен скоро разродится, наверняка.
А есть ли психотерапевты LLMки? Кажется юзкейс очень подходящий. Приватность 100 % на локальной машине. В терапии пациент всё равно делает большую часть работу, а психотерапевт только помогает.
>>1050694 AGI без тела робокошкодевочки- деньги на ветер. >>1050708 >Там вот "latent reasoning" заявили Бля, пункт 44 из моей тетрадочки. Пидоры, так и знал, что даже оттуда сопрут. >>1050711 Делай карточку терапевта, делов то.
>>1050690 Разве ллм вообще что-либо хорошо знают, за исключением кодинга, на который их дрючат, и знаний уровня википедии, которые будут часто встречаться в датасетах? Без файнтьюнов на данных нужной области даже овер триллиона параметров не хватит, скорее всего, чтобы модельки помнили (не говоря о понимали) какие-то вещи именно на уровне эксперта, особенно если область узкая. Помнится, тут в треде кто-то спрашивал, можно ли обучаться у модели матану. Что-то мне подсказывает, что даже топ корпо сетки там обосрутся, даже если не грузить их числами, а просто поспрашивать какие-нить определения и формулировки теорем уровнем чуть глубже самой базы. С разными научными специальностями, которые часто узко направленные, тоже будет жопа, модель только какие-то крохи подцепит из тех редких статей по теме, которые попали в датасет.
>>1050761 >Без файнтьюнов на данных нужной области Ну то есть проблема в том что пидорасики гейткипят данные для ллм? И если нафайнтюнить модель на них, то можно спокойно выкидывать кожаных на мороз? >С разными научными специальностями, которые часто узко направленные, тоже будет жопа, модель только какие-то крохи подцепит из тех редких статей по теме, которые попали в датасет. Ну опять получается проблема данных Видел от майков статью что ии может обучаться как-то без внешних данных, ты ему даешь базу а ии сам по себе разбирается что к чему https://arxiv.org/abs/2408.06195 Мастурбация модели до максимума
>>1050791 Проблема ее в данных, проблема плохой памяти у сеток. Ее организация ассоциативная, нет механизма запоминания информации. Сетки не помнят инфу как ты, у них просто триггерится по ассоциациям что то знакомое на твой запрос. Нету у них линейной памяти которую можно сознательно прокручивать в голове и вспоминать что то о чем то. Отсюда необходимость чудлвищно неэфективного обучения, что бы знания хоть как то в сетке отложились и потом применялись
>>1050591 → > Случилось страшное — маленький ремонт Надо было на покупку заранее отложить, а то из бюджета амортизации. Как же так получилось? > ибо нашел только у перекупов Сейчас и на западе с ее покупкой проблемы, праздники в азии, непонятка вокруг санкций. Вот вот уже первые должны привести, можно будет попробовать из наличия что-то взять, также обещали в магазинах. >>1050647 Да, всего-то нужно будет дать ей мелкий намек что разные версии будут считаться отдельной программой. Какой вопрос, такой и ответ, хули. >>1050690 На простых как раз не обсирается. А сложные и специфичные можно фиксить или сильной специализацией на грани оверфита (или с ним), наращиванием размера и более тонким обучением, введением помогающих себе техник лишнего ризонинга и ретроспективы. >>1050711 Возьми модель побольше, желательно с минимумом васянского файнтюна (гемма подойдет) и сделай хорошую карточку. Да и вообще, можно же не просто кумить и страдать хренью, а устраивать интересный рп с разговорами и всяким, уже сама по себе крутая терапия. >>1050721 > Как сделать для убабуги? Лучше потратить время и разобраться с таверной.
Бля, так жалко, что больше 8к контекста не вмещаются в 24 гига вместе с моделью 22b+ и еще плюс чтобы работало с нормлаьной скоростью, а если хочу больше контекста, то нужно брать меньше модель либо меньший квант, а оно нахуй надо. На 22b и 8 квантах даже качество не ахти, а еще ниже думаю вообще пиздец. Есть какие-то типсы анд триксы, как это фиксить? А то у меня был груп чат с двумя ботами, и через некоторое время общения эти боты вообще забыли кто они, как они ко мне относятся и как они друг к другу относятся и начали нести бредятину какую-то и повторять одни и те же фразы. Меня это заебло и я нахуй этот чат просто снес. А там такой сюжет был пиздец, очень обидно.
>>1051036 Лол. У меня в одной сцене по 5-7 персонажей порой бывает. Там и 32b обычно протекает из персонажа в персонажа. особенно если контекст огромный ставить. кванты не так сильно влияют на это.
Вот как заставить ЛЛМ перестать смешивать стили вообще неибу.
>>1051036 >На 22b и 8 квантах даже качество не ахти Не знал бы посетителей итт треда, подумал бы что жирнота.
Если у тебя ишака хуевое качество даже на 8 кванте, то проблема либо в модели, либо ты просто шизик. Если тебе в ебало ткнуть две модели с точностью в 32 и 8 бит на вес, ты даже за месяц тестов не заметишь никакой разницы, если заранее не будешь знать где что лежит.
>>1050700 Обычный GPT-4o, не говоря уже без "о", разумеется, значительно тупее о3 хай версии. Он настолько отсталый, что в рабочих вопросах его запросто может уделать 70-120б.
Просто он очень старый и его не дообучали нихера, поэтому с ним не стоит сравнивать современные модели. Зато красивое форматирование, да, и умеет всё красиво делать, искать что-то в интернете (и при этом неверную хуйню писать уровня суммаризации локалок) за что гойская братва его очень любит. Сейчас покупать подписку на попенов - стрелять себе в член. Если нужен о1, нужно брать курсор ии.
>>1050791 Отчасти. Скажем, надрочить модель на то, чтобы она определяла рак жопы лучше по КТ, чем 99% врачей-палачей - задача вполне реальная и такие кейсы уже существуют. Другое дело, что всё это надо как-то обновлять, монетизировать.. в общем, широкого распространения подобное не получило. А надо бы.
>>1051036 Чувак, дело вообще не в квантах. В меньшем кванте модель, конечно, с более высокой вероятностью допустит ошибку в математике или кодинге, но на всякую РП-хуйню можно строго класть хуй и брать меньший квант. До 4 кванта даже 12б вполне вменяемы.
Ну а обсёр в групповых чатах — это вообще база. У меня ванильные модели под себя срали, не говоря уже о файнтюнах.
Пробуй более жирную модель в меньшем кванте либо не еби себе мозги и просто возьми квант меньше для текущей модели.
Можешь также гемму 27 аблитератед попробовать. Она обычно лучше выдерживает стиль и менее склонна к бреду. Но у неё всего 8к контекста, увы.
>>1050711 Психотерапия не кодинг, так что тут локалки пососут, так как важно гораздо более тонко понимать, что имеет в виду юзер и что он пытается донести до модели своим кривым языком.
Как тебе психотерапия на скришотах? Пока что это лучшая модель на мой взгляд.
Помогите настроить пошаговое мышление от тредовичка. У меня нихуя не работает вообще, как настройки ни крутил, хотя всё было норм на самой первой версии.
Если вы его используйте, пожалуйста, просто вбросьте все ваши настройки в виде скриншотов, которые его касаются, чтобы я мог понять, что у меня идёт не так.
Помню тут была ссылка на то чтобы модель в таверне могла выходить в гугл, я ее проебал. Есть у кого? Ну и сразу вопрос об этом модуле для таверны. Он мне там не нагуглит на статью ук рф?
>>1051174 Я разве что только таверну не переустанавливал. Само дополнение переустанавливал, всё перетыкал — нихуя не работает. Смотрел логи кобольда, присылал документацию о1, логи тоже, и скриншоты настроек. Даже весь этот скрипт в нейросетку загружал, чтобы она оценила его нутро и сказала, что я мог сделать не так.
В общем, нихуя не помогло. А таверну переустанавливать совсем не хочется, так как вряд ли это поможет.
Визуально у меня всё в порядке, но нихуя не работает.
У тебя же самая последняя версия дополнения и таверны?
>>1051178 Как именно у тебя не работает? Нихуя не выводит мысли или выводит, но ты считаешь что они не учитываются в сообщении? Я другой анон и у меня все из коробки завелось.
>>1051160 У тебя же стоит галочка "Enable thinking on each message"? Попробуй ввести слэш-команду в чате /stepthink-trigger, что произойдёт?
Далее: 1. Есть какие-то ошибки в консоли браузера? 2. Стоят ли другие расширения? 3. Какая версия таверны? Должна быть 1.12.11+
Алсо, попробуй поставить чистую таверну рядом с той, которую используешь, и накати расширение туда, не меняй никакие настройки. Посмотри, помогло ли. Ещё ты можешь попробовать снести секцию настроек "st-stepped-thinking" в SillyTavern/data/default-user/settings.json и перезагрузить страницу - настройки в таком случае сбросятся до дефолтных.
Пожалуй, на днях запилю страницу с траблшутингом, одни и те же рекомендации приходится всем давать.
Возможно, дело было в этой КНОПАЧКЕ. Именно после того как я пару раз на неё щёлкнул, всё заработало, хотя, как ни странно, я ранее пробовал, когда она была и зелёной, и красной.
Но заметил и другие проблемы. На одной карточке у меня почему-то мышление не работает. Появляется визуальное подтверждение в таверне, но текста нет, в логах тоже.
Сейчас потестил. Остальные проблемы касаются в основном того, что в мыслях он может отвечать юзеру или какие-то реплики писать. Кроме того, модель давида отказалась мне писать рецепт, как приготовить, что довольно странно. Размышления немножко бустят цензуру.
Конечно, это отчасти контрится промптом, и тут проблема ещё в ллм, она ведь не знает, где мысли, а где чат, а чем больше ты насрёшь в промпты, тем сильнее она будет шизеть и путаться. И всякие 32б сюда не приплести, чтобы модель лучше слушалась — меня ожидание генерации бесит при 20 тс, когда она вся в памяти, и жирные модели только удлинят генерацию.
>>1051224 Эту не пробовал, но пробовал дистилляты и файнтюны. Как по мне, кал всё это. CoT работает через жопу или не работает вовсе. Даже если работает, всё равно залупа конская, тем более для рп.
Пока ты будешь ждать генерации шизомыслей модели, времени прилично пройдёт, а ведь свайпать наверняка придётся. Проще поставить более жирную модель, ответы которой изначально лучше, где хоть и генерация медленней. Контент получится в целом более качественный в итоге даже без цепочек.
>>1051036 >Бля, так жалко, что больше 8к контекста не вмещаются в 24 гига вместе с моделью 22b+ и еще плюс чтобы работало с нормлаьной скоростью 24B_5KM вполне помещается в 24гб с 32к неквантованного контекста. Никаких проблем с качеством, нужно конечно нормальную модель, ну может ещё температуру покрутить, профили семплеров.
>>1050631 (OP) Скачал LMstudio. По совету из прошлого треда поставил Mistral 12B Q5_K_M (конкретно Mistral Nemo Instruct Bellman 12B Q5_K_M)
А как её дальше обучать? Как настройки подбирать? У меня задача давать с 5-6 pdf файлов с текстом (если в нём картинки будут, я так понимаю похуй, это нейросеть не сломает), после чего она должна выдать ответ лаконично суммируя источники.
>>1051240 >5-6 pdf файлов с текстом (если в нём картинки будут, я так понимаю похуй, это нейросеть не сломает), после чего она должна выдать ответ лаконично суммируя источники
>>1051036 >что больше 8к контекста не вмещаются в 24 гига вместе с моделью 22b+ и еще плюс чтобы работало с нормлаьной скоростью Что простите ? 24ГБ мало для 22b ? У меня 16гб, 22b модели работают на 7-10 т/с с 24к контекста. Ну тут или я волшебник, или я что то не знаю о своем процессоре. Но скорее всего, ты делаешь что то не так.
>>1051247 А что локально вообще без шансов? В целом на вопросы норм отвечает. Сами файлы ещё не тестит особо. Конфигурация ПК: Видеокарта: ASRock AMD Radeon RX 7700 XT Steel Legend (ASR-VC-RX7700XT-SL-12GO) Процессор: AMD Ryzen 7 5700G with Radeon Graphics 3.80 GHz ОЗУ: Patriot Memory DDR4 16Gb (2x8Gb) 3200MHz pc-25600 Viper Steel RGB Материнская плата: ASRock B550M STEEL LEGEND SSD диск Western Digital Green SN350 M.2 2280 1.0 Tb PCIe Gen3 x4 NVMe QLC (WDS100T3G0C)
>>1051225 > Возможно, дело было в этой КНОПАЧКЕ. Именно после того как я пару раз на неё щёлкнул, всё заработало, хотя, как ни странно, я ранее пробовал, когда она была и зелёной, и красной. Лол, это очень странно. Ты точно больше ничего не делал в интервалах между щёлканьем по ней?
> Но заметил и другие проблемы. На одной карточке у меня почему-то мышление не работает. Появляется визуальное подтверждение в таверне, но текста нет, в логах тоже. Расскажи подробнее, как именно оно не работает? Появляется ли блок "{{char}}'s Thoughts"? Есть ли в нём пустые подблоки "Thoughts" и "Plans"?
>>1051240 >А как её дальше обучать? Никак. То чем ты пользуешься это трансформер без возможности дообучения. А если тебе нужно именно обучать, то тебе это не нужно, так как знаний нет. >У меня задача давать с 5-6 pdf файлов с текстом (если в нём картинки будут, я так понимаю похуй, это нейросеть не сломает) Читой. https://arxiv.org/pdf/2409.02977v1 - вот тут базовое исследование об агентах и их применении. А вообще корпосетки на то и корпо - что их создали для рабочих задач. Так что если знаний нету нихуя, деньги корпоратам заноси.
>>1051283 >>1051277 Ещё добавлю. Я к программированию никакого отношения не имею. Мне нужно анализ текста на медицинскую тематику. По сути просто нужно сравнивать куски текста и смысл в них.
>>1051283 openwebui попробуй поставь, там можно загружать пдфки. Если настроишь то будет работать. Можешь и в чем то другом, главное что бы сетка влезла тебе вместе с большим контекстом(ее памятью), куда ты будешь пихать инфу из пдф. Сетку бери какой нибудь https://huggingface.co/bartowski/Qwen2.5-7B-Instruct-1M-GGUF или https://huggingface.co/bartowski/Qwen2.5-14B-Instruct-1M-GGUF Миллиона контекста, ну или сколько там получится тебе должно хватить на 6-7 пдф, там и пара книг войдет если получится на весь контекст запустить Качества обработки никто не обещал, проверяй.
>>1051240 >обучать? В треде главенствует школотроны у которых мамкин комп со 640Гигабай рам и по 4 штуки 4090 на плате, которые ничего тебе хорошего не посоветуют, а будут только обоссывать твое железо и твой выбор модели под твоё железо. Дожидайся нормальных ответов и но обращай на них внимания. Или сам ищи. Вот, не знаю поможет ли: https://youtu.be/SoPE1cUz3Hs?si=_0MhteghwFI4s889
>>1051240 Вообще для таких целей вроде как используют RAG, когда мелкие эмбеддинг модели проходятся по докам и тащат в контекст то, что они считают нужным. В LMStudio вроде есть rag, но не вижу норм документации по нему, погугли сам. Либо ставь другой бэк с таверной и с использованием раг с ней разберись, там довольно подробно в доках описано (гугли sillytavern rag). Только можно только один файл в базу кидать вроде, придётся объединить в один пдф. И написано, что только текстовый, чтобы считалось нормально. И самому выбрать и поднять эмбеддинг модель получше дефолтной желательно. Ещё у нвидии была софтина спецом для работы с доками, но это не для твоей карты, видимо, и по дефолту она там качает неквантованные всратые 7б, вроде писали. Хотя уже плохо помню.
>>1051224 Попробовал. Хуета. Причем полная. Такой бред бля пишет что просто пиздец. Может я от этого бреда так охуел из-за того, что это 14б модель, а я обычно на 20б+ сижу, но чет я не уверен, что даже 14б модели такую бредятину высирают как эта тифа дипсекс.
>>1051295 >>1051299 >>1051300 Спасибо, сложно пиздец, конечно. Попробую пока на LMstudio с RAG разобраться. Потом дальше пойду, а то даже термины особо не понимаю. Таверна, "бэк", ну rag вроде понял, когда нейросеть сама "додумывает" что вставить в ответ кроме уже имеющихся данных в ней
Вообще какай смысл от контекста, если его на самом дело нет или очень мало? Например, в начале пишешь, что едем на синих жигулях в Ебеня, а через 10-15 сообщений модель не может сказать на чем и куда едем и цвет тачки. Это потеря потерь.
>>1051303 Lmstudio одновременно и интерфейс, и крутит модели, а openwebui и sillytavern (она же таверна) - это чисто интерфейсы, фронтенды. С ними тебе понадобится ставить движок, который будет крутить нейронку, бэкенд. Может, сама лмстудия умеет давать апи для других интерфейсов, не знаю. Мб тебе стоит сначала вики в шапке полистать, прежде чем к какой-то более навороченной работе с ллм, чем просто чат, переходить.
>>1051305 Местные аноны пишут, что можно делать самарайз истории (краткое описание того, что произошло за весь прошлый контекст), но я таким не занимался если честно, но звучит так, как буд-то должно работать.
>>1051322 Между 4 и 8 есть, даже если модель большая. Просто на 4 большая модель не тупеет так сильно как мелкие модели, но она все равно хуже чем даже 6 квант
Народная 9070хт на 32гб будет представлена весной летом амудой, скорее всего за $999 или ниже. Направлена только на ии сферу картонка как более дешевое решение чем нгойдия 5090 за $3000+
>>1051310 Запустил Mistral Nemo Instruct Bellman 12B Q5_K_M, дал ей файл небольшой. Но она не отвечает на вопросы цитатами из файла. В самом чате отображается "цитата1" "цитата2" "цитата3" со случайно взятыми кусками текста, не понимаю, нейросетка не имеет доступа к полному тексту файла или чё за хуйня. Короче разбираться надо
>>1051351 >Короче разбираться надо Мне кажется он начал что-то подозревать.
А если серьёзно, все ответы выше тебе уже дали + шапка треда. Судя по твоим вопросам которые гуглятся за 3 секунды, желание погружаться в тему у тебя тоже нет. Хочешь легко и просто, плати деньги корп. сеткам.
>>1051351 Чувак, эти мелкие нейросетки и так шизанутые, а ты ещё хочешь, чтобы они что-то там выдавали из коробки. Нужно специальные инструменты прикручивать или даже делать их самому, если локально всё.
Я не ебу себе этим мозги и с такими делами иду к корпосеткам.
Зайди на upgraide.me и выполни свою задачу, там 15к токенов бесплатных. Если не хватит, можешь туда с русской карты докинуть.
Если текста прям дохуя и работы тоже, то оплати подписку, но уже не в этом сервисе, а клодыне или гопотыне.
>>1051255 16 гигов оперативы, чел, ты на приколе? Ладно. Тебе нужен контекст, а он стоит 300 мегабайт за 1000 контекста (ебически примерно). Видяха 12 гигов, из которых свободно 11 (выведешь изображение через встройку — будет 12!), я хуй знает, как там работает радеон, но предположим — адекватно, значит максимум ты можешь вместить ~33к контекста, если всю модель выгрузишь на оперативу. Но оперативы свободной у тебя гигов 10-2 в лучшем случае, мистралька поместится, ок. В 33к контекста може влезть несколько PDF-файлов, а может не влезть, зависит от их размера (ОТ КОЛИЧЕСТВА ТОКЕНОВ НА КОТОРЫЕ ПОДЕЛИТСЯ ТЕКСТ, БЛЯДЬ, СУКА, А НЕ ОТ ВЕСОВ ФАЙЛА, ЗАПОМНИЛ???), если там небольшие статейки, то все влезет, если там крупные инструкции, то хуй. Генерация будет очень медленной, потому что модель в оперативе, но файлы прочтет в меру быстро.
Что делать?
Докидывать оперативы, хотя бы 128 гигов (СРАЗУ ЗАМОЛЧАЛ ЭТО НОРМ ПАМЯТЬ ЕЩЕ НЕМНОГО, СТОИТ ТАК ВООБЩЕ НЕДОРОГО), и гонять все на ней. Будет ебически долго, зато какой-нибудь квен с 1 миллионом контекста (тебе кинули его) прожует твои файлы.
Докидывать видеопамяти, если позволяет материнка, замени свою видяху на 2 3090, хотя бы, будет 48 видеопамяти, и туда уже можно впихать какие-нибудь 100-200 тысяч контекста, и скорость будет даже хороший (вложиться потребуется 120-200 тысяч рублей в видяхи, плюс бп…).
Может есть еще какие варианты, лень думать дальше. ↓ RAG, если тебя устроит, да, об этом ниже.
>>1051283 5 средних pdf-файлов на твой комп без вложений — нельзя. Точнее, можешь все кидать в свап-файл на диске и ждать сутками. Но это хуевая идея, поэтому «нельзя».
>>1051295 Куда он миллион контекста запихнет с 16 гигами оперативы и видяхой на 12 гигов? В жопу себе? =)
Модели верные, но смысла — 0.
>>1051299 Какой-то мутный вскукарек. Но оффенс, никак тебя не называю, просто в данном случае, человек просто хочет анализ текста, и у него компьютер, который его не потянет в более-менее адекватном виде чисто физически. Это факт, который не имеет отношения к школотронам в треде. И он явно не мастер обучения, и учиться ему будет нелегко.
Ты можешь закинуть в контекст (кратковременную память) сразу всю инфу (5-6 статей). И он будет руководствоваться ей целиком. Либо, ты можешь заранее векторизовать (забей, магия) всю инфу, а когда будешь задавать вопрос, система будет искать похожие вектора, и автоматически добавлять в контекст только подходящие (по ее мнению) кусочки. Это и есть RAG. Т.е., по сути, ты будешь иметь актуальные ответы, но LLM не будет руководствоваться всеми статьями, а только кусками из них. Естественно, суммарайза статей нельзя будет сделать байдизайн, ты и вручную можешь накидать подходящие кусочки статей и ужать размер таким образом. Свои плюсы и минусы.
>>1051428 >квен с 1 миллионом контекста (тебе кинули его) прожует твои файлы бля это вообще мем какой-то мы уже сидим года два не вылезая из забора в виде 128к контекста только вот квен может обрабатывать столько локальноно у кого столько компьюта есть реалистично? видимо не пофиксят проблему с контекстом в ближайшие 5 лет ещё лол
>>1051428 >Куда он миллион контекста запихнет с 16 гигами оперативы и видяхой на 12 гигов? В жопу себе? =) >Модели верные, но смысла — 0. Неа, они лучше с контекстом работают. Тоесть такая модель лучше работает с контекстом 32к чем та которую на него обучали. Ну и запас, может впихнет хоть 64к контекста, уже неплохо
>>1051230 Мне тоже эта Легенда получше даже чем всякие цидонии и магнумы зашла (На них я на англ рпшил, тут на ру). За несколько дней ни одного залупа, шизы минимум (16к контекста, 6 квант). И это я плотно сидел, часов по 6-8 в день. Бывает путает окончания и случается что плохо следует некоторым пунктам в карточке, например про то что персонаж не умеет разговаривать, но если напоминаешь про это разок, то дальше нормально.
>>1051435 Я подозреваю, что большинству просто хватает 128к (даже с избытком), и проблема железа имеет место быть, поэтому и не делают больше. Как бы «нахуя?» 1кк контекста это… ммм… 300 гигов памяти? НИЧО ТАК НИЧО ТАК Если квантануть в q4 то уже подъемные 75 гигов, только вот качество, я боюсь, начнет стремиться к нулю. Могу быть не прав, не тестил больше 50к за последнее время.
>>1051436 Да там вообще модельки, насколько я помню, чуть получше вышли. Ну, в общем, да, их стоит брать в любом случае, пожалуй соглашусь. Даже не ради миллиона, а ради самого умения работать с большими контекстами.
Если не будет жаль потраченного времени на разбирательство с тем, как установить модель и выделить контекста достаточное количество (те же 32к), то время можешь и сэкономить.
Но это, пожалуй, единственное, что можно попробовать.
В общем-то вывод верный. Если ты не IT-специалист, и тебе надо на один раз, то такое.
>>1051456 >большинству просто хватает 128к если будет держать их идеально то да, возможно хватит даже deep research с о3 обсирается в мелких деталях в общем плане оно пишет отлично, но это отлично отбраковывается экспертом потому что либо оно опускает важные детали (например как модель тренировалась, с помощью каких методов и сколько), либо просто пишет бред (выдумывает количество параметров или сколько модель набрала на бенчмарках)
>>1051456 >1кк контекста это… ммм… 300 гигов памяти? НИЧО ТАК НИЧО ТАК Не там какое то умное сжатие, тоесть без квантования контекста весь лям на 120 гб врам, по крайней мере что то такое видел в описании моделек от их авторов на обниморде в рекомендациях
Контекст суть есть извечная боль и тормоз РП. И выхода нет. Можно квантовать контекст, можно играться в шифтинг. Но как показала практика - суммарайз и лорбуки ю, единственное что помогает. В рабочих задачах это не применимо, но именно поэтому рабочие задачи и решаются или на серверном оборудовании или подрубанием действительно жирных цифр.
Для обработки последовательностей 1 миллион склеен: QWEN2.5-7B-Instruct-1M : не менее 120 ГБ VRAM (общее количество графических процессоров). QWEN2.5-14B-Instruct-1M : не менее 320 ГБ VRAM (общее количество графических процессоров).
И это только запуская vllm что ли с каким то их запуском. Обычный ггуф скорей всего только до 250к может взять нормально работая с контекстом. Но это тоже дохуя себе
>>1051309 >>1051312 >>1051467 Ну, блин. Если контекст установлен в Х байт, то он не может быть превышен никак. Это же аксиома известная всем? Если я пишу, что модель забывает мелочи из начала диалога, то с учетом аксиомы, логично, что я имел в виду одну сессию до суммарайза. Я хз, о чем вы.
И еще. Место под контекст выделяется сразу при загрузке модели с настройками. Ставишь контекст 8192, грузишь модель и смотришь сколько заняло. Потом ставишь 16384 и смотришь сколько заняло. Высчитываешь разницу и понимаешь что почём.
>>1051227 > CoT работает через жопу или не работает вовсе Ну еще бы, ведь это просто насрали тренировкой со слоперским датасетом поверх. Чтобы там что-то сохранилось живое, это нужно конкретно там тренировочные данные перелопачивать и готовить новые. Также, сильно мешать будет изначальная убитость дистиллятов. >>1051240 > А как её дальше обучать? Никак. Ты не сможешь, потому что задача обучения - дохуя сложная, даже если у тебя будет железо то пдфками не отделаешься. > У меня задача давать с 5-6 pdf файлов с текстом (если в нём картинки будут, я так понимаю похуй, это нейросеть не сломает), после чего она должна выдать ответ лаконично суммируя источники Уточни насколько большие и сложные эти файлы. Тебе повезло и с такими задачами модели справляются в стоке и никакое обучение не нужно. Достаточно будет правильно организовать составление промта с использованием данных из твоих текстов. Но если там техническая литература и/или объемы большие то сетка просто с таким не справится и соснешь. >>1051299 Хуем по голове долбоеба стукните, может после второго раза вылечится. >>1051350 От создателей 5060ти@24. Возможно, какая-нибудь 9090 может заиметь мощный чип и 32гига (а то и больше), но текущий анонс красных - кринж. Цена тоже будет конской, но с 48 гигами за условные 1500-2000 уже можно задуматься.
>>1051480 Разброс примерно: статьи на 3-4 страницы, методички 20-100 страниц, учебники 500-700 страниц. В основном буквенный текст, числовых значений немного >>1051456 Что ж, на досуге попробую, благодарю
>>1051428 > Докидывать оперативы, хотя бы 128 гигов (СРАЗУ ЗАМОЛЧАЛ ЭТО НОРМ ПАМЯТЬ ЕЩЕ НЕМНОГО, СТОИТ ТАК ВООБЩЕ НЕДОРОГО), и гонять все на ней. В дурку > замени свою видяху на Правильно > RAG Ему по описанию суммарайз нужен, здесь раг вообще не друг и требуются другие подходы. >>1051456 > большинству просто хватает 128к Большинство моделей даже 64к плотной инфы неспособны обработать, если это не какой-нибудь примитивный нидл-стак бенчмарк. Можно сделать колдунство, разметив текст, запросами постепенно обработать куски, натащив с них якорей, зафорсить ризонинг в правильном направлении и что-то получить - только так. >>1051461 Welcome to the club, buddy grabs his ass >>1051484 > статьи на 3-4 страницы, методички 20-100 страниц, учебники 500-700 страниц Это дохуя сложная задача. Статьи, если по одной и аккуратно - можно обработать с нормальным качеством. Методички - с большим натягом и те что поменьше. Учебники - шансов никаких. Но это касается именно суммарайза и подобного. Если тебе нужно опираться на них для ответов, как-то использовать данные из них, или нечто подобное - вот это можно реализовать, но задача сложная. Для начала просто освойся как оно работает и попробуй что-нибудь простое сделать.
>>1051498 Вот как? Но зато эти 8к контекста она генерирует лучше чем какая-либо другая модель подобного размера. Главное не размер контекста, а умение им пользоваться.
Аноны, здесь же вроде кто-то хотел русский файнтюн сделать и знает, как это сделать. Вроде бы проблема была только в датасете?
Если у вас есть инструкции, могу тонну качественного нейрослопа, лол, чисто под РП-формат нагенерировать на клоде, ибо русик у него великолепный. Также можно разметить русскую литературу как надо, но там плата за чтение контекста моделью очень жирная, так что проще генерировать с нуля и на разные темы.
Только нужны инструкции, как всё это оформлять и прочее, которые я могу загрузить в модель, чтобы она ебашила.
Ну и чтобы это было кому-то здесь вообще нужно. Вдруг того анона уже здесь нет.
>>1051520 Тем не менее, это лучше, чем то, что сейчас пишут ру-модели. Если сделать грамотно, качество русского языка заметно повысится. Живёт же как-то магнум и пишет относительно терпимо. Такой уровень да на русике — и уже заебись было бы.
Вопрос скорее в том, каких размеров датасет нужен, чтобы это реально на что-то повлияло. Я ж тоже в одно ебало могу не справиться. Вдруг там 20 миллионов токенов нужно. Это займёт много времени.
>>1051516 BLYAT. NYET FUCKING NO HELL NO FUCK THIS SHIT AGAIN В этом то и вся проблема. Лучше бы отсканили женские романы, я бы себе так ебало не разбивал, чем этот ебанный нейрокал на датасетах.
>>1051527 Но с другой стороны. Кто угадает пейсателя без гугла ? Он переждал минуты две, но сердце его билось ужасно, и мгновениями он почти задыхался. «Нет, не пройдет сердцебиение, — подумал он, — не могу дольше ждать». Он стоял за кустом в тени; передняя половина куста была освещена из окна. «Калина, ягоды, какие красные!» — прошептал он, не зная зачем. Тихо, раздельными неслышными шагами подошел он к окну и поднялся на цыпочки.
>>1051547 У 3090 гиговые чипы, стоят с двух сторон платы, по 12 штук с каждой. А у 3090 Ti и 4090 уже нормальные 2-гиговые. Поэтому на 3090 память очень горячая, ниже 95 её воздухом не охладить. На всяких палитах и китайском говне типа PNY всегда 110. Хотя у тебя там детские 150 ватт нагрузка, пикрил у меня на Стриксе на 400 ваттах.
>>1051527 Да шо тебе не нраица, нормальный клодыня, словарный запас большой, хорошо суть улавливает, будет точно лучше.
Просто на русском языке не найдется столько литературы, чтобы бишбармак получился. Разве что тупо запивать её буквально тоннами и нейросеткой размечать, но тут мои полномочия всё, никаких денег не хватит даже на автоматическую разметку.
Нейрослоп проще.
>>1051532 На каком именно говне? Третий опус или сонет 3.5? Там сильно качество разное. А про гпт даже говорит не стоит — он пишет хуже Донцовой.
А есть гайд как покупать 3090 с лохито? Сколько должны стоить, какие бенчмарки чисто под ллм запускать для тестов, нужно ли всякие обычные фурри марки запускать?
>>1051569 >А есть гайд как покупать 3090 с лохито? Ищи в своём городе; Смотри лично; Учти, что обслуживание 3090 стоит 5к - смотри на температуры; Тебя интересуют 2 теста - OCCT на видеопамять, 95% 15 минут и сразу после Superposition Benchmark на 8к пару раз. Температура чипа не должна превышать 82 градуса (в нормальном корпусе), памяти +10. Где-то так.
>>1051547 Не, кстати, нормас. у меня на 3090 msi gaming x trio примерно 100 градусов. Сам взял меньше недели назад. По хорошему надо прокладки заменить, но это в пределах рабочей температуры. Советую посмотреть внимательно на модель, там у некоторых на бэкплейте есть теплотрубки, а у некоторых нихуя.
Как я определяю что модель хорошо понимает что происходит в мире РП? Все просто. Я беру карточку, в которой перс типа общается с юзером через интернет по компьютеру (они не в одной комнате) и если модель следует этому и не пишет про физические контакты между юзером и персом, а пишет только как они общаются по интернету и что делают перед компом - то модель прошла тест. Пока что этот тест прошла только гемма2, думайте.
>>1051596 да компьютеры на мичурина там в целом первый результат и наверно самый лучший. тем что у чувака в объявлении есть возврат на 2 недели. полагаю у него и взял? я там ещё пяток продаванов перебрал по другим моделям с приличным охлаждением.
Поясните, для рп на русском следует переводить и карточку и первое сообщение, или только первое сообщение а описание персонажа оставлять на английском? Видел в треде делают и так и так, кто-то тестил разницу? Алсо, просто накидайте рабочих русских карточек если есть у кого.
>>1051605 1 карточку прислал с выпуском 21 04. так что сколько она жарилась майнерами не понятно. но вряд-ли дольше 9 месяцев. 2 я ОЧЕНЬ внимательно смотрел на болты под лупой, лысок не нашел. либо её вскрывали грамотно, либо не обслуживали вовсе. притом ещё делал фотки с макро камеры мобильником и с другом смотрел лол. 3 она была продута от пыли на 7,5/10. 4 я не нашел следов коррозии. при внешнем осмотре я нашел только мелкую царапину на передней панели. видимо кто-то провёл коннектором случайно. видеокарта была явно помыта и почищена со спиртом перед тем как её положили, я не нашел отпечатков пальце. коннекторы для проводов целые, все порты целые. на внешний осмотр потратил примерно 25 минут. 5 внутри я долго светил фонариком и совал ебало, не обнаружил ничего интересного кроме небольшого количества пыли. следов гари не обнаружил. 6 жарил её OCCT во всех трёх тестах по часа. Прошелся GpuMemTest. Ошибок не нашел. 7 после 5 минут фурмарка было 80,2 максимальная температура, 90,4 хотспот, 100 у памяти. немного жарковато, но дельта в 10 градусов от температуры хотспота это довольно неплохо. 8 дали 2 заглушки 9 не положили антистатичного пакетика.
отмечу что продаван перед отправкой так-же сделал тесты. и даже дал мифическую трёхмесячную гарантию. Попросил прислать сдэком, пришло прям очень хорошо упаковано. пакет, три слоя пупырки и ещё какой-то машиной сверху накрутили слой скотча.
из немного подозрительного - у меня слетели дрова после второго ребута и отказались переставляться без удаления. но по хорошему мне надо было сносить их дисплей драйвер анисталером чтобы ошмётков не осталось.
полагаю больше всего вопросов вызывает дата производства. ну и в целом надо закладывать потенциальную цену обслуживания. хотя если ЛЛМ гонять то не так сильно надо.
ну и занимает места пиздец. пришлось выковыривать материнку из корпуса. так как к меня в корпусе есть пластиковая хуйня для ХДД и мне пришлось бы её выламывать чтобы запихать.(слева)
>>1051592 Да, у меня такая же хуйня была до 32б. Такое ощущение, что только гемма при этих размерах нормально справляется. Как-то странно очень выходит.
Алсо, ещё со слепой тян норм рп проверять или прописать суперспособность персонажу хорошо. Если он её толком не юзает или юзает криво, то здесь сразу всё понятно. Особенно если способность телекинетического типа.
>>1051487 Ну я благодаря нейросети примерно понимаю, что каждая настройка делает, что такое токены и т.п. Как концептуально работает нейросеть тоже, повторяет архитектонику мозга, расслаивает информацию и потом как бы вытягивает на верхние слои нужное. Векторизация так понял это присвоение условно каждому слову метки, типо метка "собака" даётся словам "доберман", "ротвейлер" и т.п. Но куда дальше копать, чтобы от теории к практике - мало понимаю.
>>1051547 потому что куртка не дождался кокда микрон выкатит более ёмкие чипы памяти и нахуярил ети самые чипы памяти на спину видеошмарты, результат предсказать не трудно она там не охлаждаертся нихера
>>1051635 Ещё один важный момент - чем больше русского языка в контексте, тем более качественным и консистентным он становится, если модель не совсем убитая конечно.
Поэтому если карточка очень короткая, да и ещё переведено только первое сообщение, то первые 2-4 сообщения придётся свайпать пока не будет норм, потом уже станет хорошо.
>>1051680 Когда ж ты успокоишься мамкин хакир. Ты, возможно, один раз проплатил 20$ за полчасика и потыкал во что-то большее, но теперь гонора и спеси у тебя через край. Сделай себе илитный тредик и торчи там.
>>1051651 >>1051669 С чего ты взял, что качество будет лучше? Ты прям какие-то тесты проводил или хотя бы рпшил долго на одной и той же карточке англ, а потом ру (при этом рп велось на русском), и после этого замечал прирост?
Я каких-то глубоких тестов не проводил, однако не заметил существенной разницы, кроме того, что выше шанс протекания англюсика, даже если приветственное сообщение переведено.
Более того, 12б мистрали, тем более шизотюны, с трудом понимают сложные концепции и в русике вообще могут не понять, что ты имел в виду, а на англе поймут. В плане характера персонажей, каких-то скилов и т. п. А вот на английском с большей вероятностью поймут.
>>1051680 Вспомни, как ты радостно тыкал в character.ai и устанавливал обход цензуры, чтобы видеть сообщение бота. А ведь сейчас даже 8б модель сильнее, чем старый чарактер.
Есть какие-нибудь инструкции как выставить в кобальде оптимальные параматры для дипсекс для 8гиговую карточку? Сколько слоев можно выставить и контекста чтобы в аут оф мемори не вылетало?
>>1051700 Ставишь контекст, который тебе нравится. Обычно нужно не менее 8к контекста. Пишешь -1 в слоях. Если не показывает, сколько там слоёв, то узнаешь количество или пишешь наобум, например 30. Запускаешь. Не запускается? Ставишь меньше слоев. Когда начнет запускаться, то закрываешь, открываешь кобольд снова и запускаешь бенчмарк, чтобы он ещё и контекст заполнил. Если при бенчмарке вылетает из-за недостатка памяти - уменьшаешь количество слоёв. Не вылетает? Увеличиваешь количество слоёв. И так до победного.
Со временем ты уже без тестов будешь знать, сколько слоёв нужно для каждой модели.
>>1051700 Выбери сначала модель и количество слоев будет само выбираться в зависимости от выставляемого контекста. Так же ставь кол-во потоков процессора на максимум или -1
>>1051713 Всё в корзину =) И скачай статик квант легенды.
Из за того что матрицы важности собраны из английского датасета, на русском лучше юзать статик кванты mradermacher или квантованные самостоятельно через gguf-my-repo.
>>1051707 Окей, тогда переведу, хули там. Сравню. Может меня ожидает приятный сюрприз. У меня как раз есть здоровенная карточка на 2500 токенов, которую я сам писал.
>>1051734 > Может меня ожидает приятный сюрприз. Сюрприз будет, но не приятный. Тебя траллят, промпты на русском всегда дают хуже генерацию, чем на английском.
>>1051478 >Как жизнь с 24г врама на 70б? Токена 3 в секунду на 4км. >>1051487 >Большинство моделей даже 64к плотной инфы неспособны обработать Меняем на 8к, и будет истина. >>1051552 >до 120 норма Шиз, спок. 115 темпа отсечки, выше троттлинг включается. >>1051636 Ебать печка на пикриле. Бери райзер. >>1051717 >Disable MMAP выставлять Да, сейчас он вообще по дефолту.
>>1051819 > троттлинг Какой троттлинг у памяти, шиз. Тут только троллинг тупостью может начаться, когда ты путаешь температуру гпу и памяти. Троттлинг от температуры памяти нигде и никогда не начинается. Именно поэтому если память перегревается, то горит пока не выгорит.
>>1051495 Двачую. Она всегда так старается и хорошо отрабатывает недефолтные вещи, на которых даже большие сливают (из-за васян тренировок/мерджей, но всеже) >>1051516 > Вроде бы проблема была только в датасете? Не только. И так лежат дампы проксей, а тут предлагаешь с одного человека слоп тащить. > Только нужны инструкции, как всё это оформлять и прочее Заливай как есть, можешь чаты таверны. Ценнее всего нити, где работяги и сами отыгрывают, и сетку редактируют, собирая интересные посты. Но такого мало, в основном там низкосортный кум, который можно идеально воспроизвести даже на мелких локалках, ужаренных подобными датасетами. С ростом размера будет только больше деталей подмечать, а суть сохраняется. >>1051547 Закладывай в бюджет подходящие термопрокладки и услуги мастера, если у самого руки кривые. В идеале за 90 переваливать не должно, на донных охладах в стоке может за сотню.
>>1051819 >Ебать печка на пикриле. Бери райзер. Сам охуеваю. Давно уже взял, он ещё не приехал. лол у меня ещё 5ССД в пеку воткнуто, пришлось искать эти УГЛОВЫЕ провода чтобы второй кирпич туда воткнуть. притом провода выводить между двумя кирпичами.
вообще офигеть конечно оно жарит. буквально. в комнате температура ощутимо повышается во время активного кума.
пацаны, какое же говно эти ваши дистиляты R1, рот их ебал. Просто пизда, какое тупое говнище. Вернулся обратно на мангум 123б 5Q XS. Пока что лучшей сетки просто не нашел. Не с точки зрения рп. А с точки зрения кода. Это уже просто критично. Да и для рп дистилляты говно ёбаное.
...а на собственный сервер с A100 чтобы гонять оригинал R1 денег нет... грусть. Куртка пидорас, надеюсь ты задохнешься, когда гора золотых монет в твоем золотохранилище придавит тебя волной.
>>1051841 >вообще офигеть конечно оно жарит. буквально. в комнате температура ощутимо повышается во время активного кума Плюс к рп же считай реальный секс
>>1051846 Я начинаю подозревать что для идеального кума мне надо поставить водянку с циркуляцией воды в БОЙЛЕР. Чтобы по окончанию кума идти и принимать душ водой согретой теплом кошки-жены.
>>1051643 > примерно понимаю Это хорошо что ты поспрашивал за принципы работы и т.д., однако будь осторожен, тебе выдали лишь самые верха, да еще там полюбому есть какие-то искажения, интерпретации, перевирания. > Как концептуально работает нейросеть тоже, повторяет архитектонику мозга, расслаивает информацию и потом как бы вытягивает на верхние слои нужное. Это очень условная аналогия, пригодная только для общего объяснения обывателю. Именно такой системы в большинстве используемых нейронок ты не встретишь. > Но куда дальше копать, чтобы от теории к практике - мало понимаю. Для начала разберись как работает ллм и попробуй хотябы с ней пообщаться, а там уже поделать простые запросы с сырым промтом, чтобы понять как устроено форматирование и идет ответ. >>1051645 > она там не охлаждаертся нихера В нормальных карточках охлаждаются, а в хуевых их близнецы 3080ти, где чипы только с одной стороны, точно также перегреваются. Проблема не в обратном расположении, а то что изначально использовали всратый дизайн, где тепло с чипов идет не сразу на испарительную камеру или просто толстый участок радиатора, а на какие-то пластины и прочую херню, которые не способны эффективно взять то количество тепла и рассеять/передать на основную поверхность. Не поменяли дизайн, разработанный под старый формат памяти что была холодной, вот и получили ерунду. >>1051697 Чсх, на чае моделька была достаточно большая и могла выдавать очень интересные посты. Она не имела типичных проблем мелкомоделей, а все то обилие косяков выражалось иначе, что воспринималось довольно естественно и приятно. Не факт что современная 8б сможет обойти старую чайную именно в задаче короткого рп чата, по всяким qa и подобному офк там без шансов.
>>1051819 > Меняем на 8к, и будет истина. Можно так плотно навалить, что и 2к ниасилит. Просто в рп до 32к вполне выдерживают, если там нет убивающего все участка. > 115 темпа отсечки, выше троттлинг включается 105 тротлинг и включение охлаждения на максимум на большинстве карточек. >>1051831 Зачем трясешься, там тротлится вся карточка, просто дропаются частоты. > Троттлинг от температуры памяти нигде и никогда не начинается Пиздаболам в рот нассым. Память у него перегревается и выгорает, ахуеть шиз, нормальную карточку возьми и посмотри.
Потестил три модельки на карточке героини на русском, ~10К контекста. До хентая не дошло. На одной почти дошло не дошло. Модельки со смыслом, а не хорни. Сам писал примерно одинаково.
>>1051547 >блять аноны у 3090 мемори темпичу 98 отменять? Кароч смотри, берешь прокладки fehonda 15w, обязательно 15, не 12, если на охладе одна ровная площадка под чип и память, то толщину берешь 2.25, а не 2 (даже если по заводу 2). Остальные толщины смотри тут https://t.me/termalpad_cards На чип мажешь фазовый переход 7950 в листе 0.25, не обязательно его ложить ровно как на видосах, можно на похуй, он все равно растечется. Самый прикол на котором можно легчайше выиграть -10 с чипа - слегка прикручиваешь плату четырьмя винтами к радику и ставишь греться куда-нибудь градусов до 55-60. Можно и в духовку, если аккуратно на слабом огне и контролить термометром. Когда нагрелось, аккуратно шатаешь плату из стороны сторону, насколько позволяет люфт, протягиваешь до конца, и шатаешь еще раз, чуток. Получаешь в итоге ИДЕАЛЬНЕЙШИЙ прижим, лучшую термопасту (лучше только жм) и новые прокладки в 2-3 раза лучше завода. На обдув бэкплейта прост ставишь любой вентилятор, этого хватит. Изврат с радиками не нужен. На врм можно поставить дешевые прокладки SmartMaster PRO 21 Вт Важный моментик - как правильно нарезать прокладку, особенно тонкую. Снимаешь синюю рифленую пленку, делаешь по линейке засечки в размер, по засечкам отрезаешь лезвием канцелярского ножа за один раз (как гильотиной). Если тонкая прокладка, то не стягиваешь ее за конец, а тем же лезвием поддеваешь сразу всю по длинной стороне. Иначе можно растянуть тонкую прокладку и она не прожмется.
Бля, поясните за тулчейны? Нахуй они нужны простым человеческим языком. Хочу замутить переводчик и мне нужно, чтобы оно переводилось в определенном формате, с сохранением спецсимволов в тексте. Тулчейны в этом помогут?
>ООООО СМАРИТЕ МЫ НАДРОЧИЛИ 1.5B МОДЕЛЬ НА МАТАН да охуенно что вы можете модель наград для матана составлять, как насчет составлять её для реальных задач?
>>1051902 >Кароч смотри советы хорошие, но 99.99% анонов тут тупа загубят плату при попытке их приведения в жизнь затем прибегут плакаться и слать "лучи добра"
>>1051960 >галерея суммарйзов >Нужна именно затравочка беседы Дак затравка и есть карточка. Карточки могут быть не только персонажами, а чем угодно, это собственно промт. Если карточка слишком жирная - загони в таверну, но не начинай чат, а открой плагины и нажми Summarize now чтобы модель тебе саммари выдала для ужатия промта.
>>1051902 > аккуратно шатаешь плату из стороны сторону, насколько позволяет люфт, протягиваешь до конца, и шатаешь еще раз, чуток Хороший рецепт как получить скол кристалла и убить дорогую железку. Какбы тему верную говоришь, но вот такое практиковать нормису - точно не стоит. Да и переоценено, оно само распределится после нескольких циклов нагрева. > нарезать прокладку Чем хорошие острые ножницы не устроили? Просто режешь и никаких проблем, в чем подвох?
>>1051881 Надо тестировать на каком-то эмоциональном персе, потому что на этой не понятно, это сетки правильно отыгрывают холодность героини или просто умеют выдавать только сухое говно на русике (а оно там даже в моментах, где героиня ревёт). Основная проблема этих мелких ру мёржей, как по мне, именно в том, что они не умеют в тему использовать эмоционально окрашенный словарный запас (если он у них есть вообще). Ну это помимо общего скатывания в тупизну, конечно.
У меня такая проблема. Если я ставлю в таверне длину ответа 200-300, то ответ обрубает. Если ставлю 500, то пишется целиком и верно по формату, но конец ответа часто лупится. Что делать?
>>1052015 Ну, а хуле делать? 22б модель. Может на каком-нибудь Mistral-Large-123B такого делать и не надо, но на 22б приходится терпеть. Лучшего способа не знаю.
Взял проц со встройкой чтобы врам освободить и забыл что так андервольт карты перестанет работать и у меня будет печка в комнате Как и врам освободить и на хуй сесть?
Так, мне нужно обработать папку с сохраненками - хочу чтобы нейронка посмотрела все пикчи в папке и выдала мне список тегов для каждой картинки. Либо хотя бы чтобы я мог просто ручками отдельный картинки закидывать c последующей ручной обработкой.
Сейчас скачал LM Studio и llava-llama3-8B. Работать с этим не возможно. Есть ли какие-нибудь другие тулзы и какие-нибудь нормальные модели для этой задачи? Видяха 3070 btw, если я 14b Скачаю, то он вообще заведется или просто тормознутая будет?
>>1051994 >>1052015 Убери галочку ban eos token, перестанет лупиться в конце. Или корректно настрой формат промта. >>1052023 > андервольт карты перестанет работать Что? >>1052037 > список тегов wd tagger
>>1052044 >> андервольт карты перестанет работать >Что? Ну я андерволь делаю через афтебернер а когда втыкаю моник во встройку в афтебернере пресеты недоступны то есть андервольтнуть нельзя
>>1052046 Если ггуф катаешь то подключись через чат комплишен, только лишнюю хуйню в промпте отруби, джейлы всякие и другие костыли что юзают на онлайн сетках Слева менюшка в таверне открывающаяся, галочки лишние отрубить Суть в том что бек сам обернет генерацию по тому промпт формату что в сетку загружен при создании, в итоге не надо ебаться с ним Очень удобно быдо с дистиллятами дипсика, не пришлось под него промпт форматы настраивать
>>1052076 Там стандартизованный набор тегов, который работает оче хорошо. > zhizhek_apocalypse_perverts Как это поможет с сортировкой? Если будешь просить просто так, то модели будут генерировать рандомный бред из подобных фраз, очень интересно узнать какой в этом смысл.
Господа эксперты в таверне, вот допустим у меня Пантеон 22Б через кобольда для РП. Что-то тут надо включать или менять? И какое api, чат или текст комплишен и в чем разница? Заранее спасибо.
>>1052083 >>1052083 Дык не надо сортировать, оно уже отсортировано по папочкам, но имена там от юидов при скачке до рандомной хуйни, которые никак не помогают при поиске когда набирается критичная масса в папке. Мне теги нужны чтобы отойти о ебанного файлового дерева, а просто написать в поиске "хуйняХ" и мгновенно её получить с mw nand диска, плюс так решится вопрос куда запихивать файл, которые одинаково подходят в разные папки.
Вообще в идеале бы потом прост прийти к чему то на подобии графу в обсидиан мд, но бесплатных/удобных/без внутренней галерее софтин я не нашёл.
>>1052054 > когда втыкаю моник во встройку в афтебернере пресеты недоступны В мультигпу сетапах там есть выбор видеокарты для которой ставишь параметры. >>1052109 Ты не понял, обычная влм даст тебе чрезмерно много уникальных тегов для такого количества файлов, потому что она просто будет их придумывать. Но попробовать никто не мешает - наладь запрос и напиши простой скрипт с пробежкой по файлам и сохранением ответа в одноименный .txt
>>1052113 >будет их придумывать Надо вначале прогнать теги, а потом уже мультимодалке кидать картинку и теги с задачей оставить нужные Критерии нужных надо подумать, ну там только те что передают основной смысл изображения или еще как Я просто уже делал похожий проект распознавания изображений но без добавления тегов, тупо давать названия из нескольких ключевых слов, работало так себе, но работало.
>>1052117 На первом проходе оно насрет рандомными, на втором их подтвердит или других галюнов насыпет. > только те что передают основной смысл изображения Буру очень продуманы, но они сфокусированы на описание персонажей и общего происходящего на картинке. Для мемасов и подобного подходит плохо, однако все равно может быть полезно. Кстати, клип интеррогейтор вполне может тебе подойти, заодно если раскуришь то сможешь подобную систему по разной степени похожести организовать. Если вдруг что напердолишь - не поленись и расскажи как сделал, это интересно.
Ребят, я нищий, полный ноль и даже читать не умею.
Если тут есть ещё нищие, скажите, каково жить, когда половину модели крутит проц? Карточка на 8 гигов, её не хватит целиком на 7+ видимо. Чтобы я не начинал, если совсем пизда.
Алсо, спрошу у этого же человека лучшую модель общего назначения, без цензуры. То есть чтобы от NSFW не плевалась, но не была заточена только под кумерство. https://rentry.co/llm-models читал и глаза в разные стороны разъехались.
инб4 В aidungeon на бесплатной модели сидел, примерно качество помню.
>>1052150 Я знаю, я безработный. Чем больше у меня денег, тем дольше я могу отмокать от морального дерьма работы айтимакакой. Ну, уже кобольд + таверну + Llama-3.1-8В накатил. Сейчас посмотрим, насколько я в дерьме в этом конкретном месте.
>>1052143 На 8 гигах спокойно работают 12б модели (советую Mag-Mell для английского, four wind для русского) в 4 кванте (Q4_K_M) с хорошей скоростью и 12к контекста, чего хватит на ~полчаса диалога. Не ной.
>>1052154 > Не ной. В смысле? А как же это утончённое наслаждение, когда ты можешь поныть? Поиспусткать нытинского? Или имелось в виду нытьё про длину диалога? У меня у самого как у золотой рыбки память.
Smoke test, который char.ai не мог пройти пару лет назад - пройден. Всем спасибо, я пошёл кумить на пару часов, потом пойду все свои чар-листы реализовывать и пиздеть. Очень много пиздеть.
>>1052143 С 2 канальной ддр5 в 2 раза веселее чем с 2 канальной ддр4 Можешь хоть на голом проце крутить 32b в 4 кванте где то 3 токена в секунду даст, 14b токенов 6-8. Ну а если половина или большая часть модели на видимокарте то и 10-15 сможет
>>1052095 тут 90% "анонов" не знают где ты етот скрин откапал не говоря уж о том что там настраивать или щто просто юзай по дефолту потом будеш срать здесь что %model_name% кривая или типа того
>>1052113 >чрезмерно много уникальных тегов Этого я и хочу, мне нужно находить уникальные картинки среди массы агрегированных по теме, даже если я помню только половину контекста. В лучшем случае у меня есть антисемитская папка cохраненных с форча, где файлы почти все подписанны, но конкретные найти сложно. В среднем - просто название, которое соотносится с темой папки. В худшем случае - скриншот стены текста, которые либо стоит перевести в реальный текст, а файл удалить к хуям, либо сделать выдержку из указания тем и вставить в название.
В конце, наверное, приведу к формату - 3 базовые категории в названии + уникальные теги для пикчи
Возвращаюсь к оригинальному вопросу, какая модель будет эффективнее в анализе изображенний? Желательно, чтобы она не цензурировала себя по максималке
>>1052219>>1052220>>1052254 Чот поискал "эмоциональные" карточки и что-то один кринж, даже скапчивать не хочется. Какие варианты / персов знаете / видели ?
>>1052275 капчи - torii, CLIP interrogator теги - увы, только через например booru dataset tag manager прогонять
Либо VLM-корпосетки посмотри, сам не юзал, хз.
Спецом таггер мемов - только самому тренить XD, не видел таких
Мимо набегом, божечки-кошечки, снова анону, который смержил SaiNemoRemix лучей добра. Это так хорошо, так живо и естественно... А некоторая тупость 12шки легко мгновенными нивелируется свайпами. Который раз уже загружаю вместо 70 или 123 СайНемо. Абсолютно простое управление, мистрале промты, не шизит на simple-1, не лупится, свайпами можно выролить разные исходы, а не только один... Даже не знаешь, что ещё хотеть, кроме такой же, но больше.
Для nlp - тории, ког, квен, ллава, пикстраль, идефикс, молмо - выбирай по вкусу. Ко всем есть тот или иной пакетный запускатор обычно. Из лучших сейчас, пожалуй, - тории (2 версии 0.3 и 0.4 на разных моделях, но обе хорошие) и молмо.
>>1052286 > Тэги или natural language А в чём разница? Словно нельзя использовать обычный текст в качестве тегов для поиска, если в нём указаны главные темы По факту это просто такие же токены, с которыми работает нейронка.
>>1052361 Зависит от того будешь ли ты скидывать часть модели на процессор. Тогда быстрая двухканальная ддр5 удвоит токены в секунду. Тебе нужен бандсвич под 100гб/с, тоесть я так понимаю 2 неплохие плашки ддр5, не 4. Ну с норм частотами, что зависит и от процессора. Если у тебя там токена 2-3 на ддр4, то на ддр5 поднимется до 4-6 где то. Потому что ддр4 это 50гб/с примерно. Что уже выше психологически комфортной минимальной планки в 5 токенов в секунду Короче сам думай дальше
>>1052364 На практике тоже норм, правда, я сейчас протестировал первую версию. Она явно не хуже Way-to-Unseen-Horizon-2, впрочем между этими файнтьюнами приблизительно ничья, они оба хороши в креативном сочинении.
Аноны, скиньте ваши систем промпты или просто инструкции, которые, на ваш взгляд, улучшают качество РП. Особенно последние интересуют.
Я всю жизнь юзал промпт только на ослабление цензуры, но сомневаюсь, что это эффективно, т. к. текст о цензуре побуждает модель думать о цензуре, что может её наоборот повышать, то есть нужен более тонкий подход на английском, для которого у меня не хватит знаний и словарного запаса.
Решил ради интереса вкатиться в локальные ллм, попробовал вчера ламу 8В. Это пиздец дно. Ожидал, что будет плохо, но чтобы настолько...
В связи с этим вопрос. Реально ли что-то из 30В запустить на средненьком домашнем пк (i7-10700, 32гб рам, ртх 3080 с 12гб). Слышал, что LM Studio каким-то хитрым образом позволяет запустить такие модели, объединяя мощности цпу и гпу. Правда ли это?
>>1052428 Смотря че ты хочешь, и что ожидаешь от нейронки. Я на 22b сижу 6 квантов и мне нравится. Хотя я в 22b вкатился после того, как купил 4090 чисто ради ЛЛМок (ну и еще бонус в новые игори поиграть можно, но то похуй), а до этого сидел на компе еще более худшем чем твой, на 12b модели, было, конечно, хуевенько, но мне нравилось. Может тебе и 22b хуйня будет, хз.
Используй kobold + SillyTavern, это самый простой и нормальный вариант для начала. Если кобольд и можно заменить, то таверну заменить нечем.
В рамках 30б на самом деле особо интересных моделей нет, к сожалению. Они во многом тупы, если речь про рп, несмотря на размер, хотя многие со мной не согласятся.
В качестве альтернативы можешь скачать gemma 27b abliterated — она лучше всех 32б, что я пробовал, в плане рп. Единственная её проблема, это всего лишь 8к контекста. Но учитывая, что у тебя кофеварка вместо видеокарты, это не станет камнем преткновения.
Твой удел сидеть на 12б, ибо вариантов больше нет с таким железом. Более того, даже если бы ты мог сидеть на 32б с высокой скоростью и контекстом, проблема в том, что среди списка этих моделей очень мало нормальных, и если хочешь кайфа, стоит перекатываться сразу на 70б. Большая пропасть между моделями.
Есть ещё варианты типа цидонии, но лично мне она не зашла.
Когда ты запускаешь модель на цпу, то скорость чудовищно падает, так что это для страдальцев, если более 30% модели на цпу крутится.
>>1052373 Хотя нет, Way-to-Unseen-Horizon-2 лучше. Что-то Legend-of-the-Four-Winds генерирует какую-то дженерик тягомотину, напоминающую квинтэссенцию гпт-измов.
>>1052455 Если у тебя скорость терпимая, попробовать стоит. У меня на третьем кванте отвала жопы не было и всё было намного лучше, ожидал, но тут важно учитывать, что я не рпшил хотя бы на весь контекст и не давал особо сложные сценарии.
Порпшить немного с моделью и провести базовые тесты в стиле стихов/кума/аморальщины/написание короткого рассказа по сценарию — это не то же самое, что рпшить на 8-32к контекста с кучей поворотов и персонажей.
Там могут вылезти лупы или шиза, и без нормальных тестов ты не поймёшь, беда в кванте, модели/файнтюне.
На том же мистрале от 12б & Q8 Давида я рпшил нормально, как вдруг совершенно ВНЕЗАПНО возник крайне неадекватный луп, от которого в итоге спасло только удаление некоторых сообщений, на 12к контекста, а не в середине или начале. Если у тебя такое произойдет на 3/тс-не-токены-а-золото на 70б, будет больно.
Короче, пробуй, если на 8к контекста при заполненном контексте хотя бы 3 токена выдаёт.
>>1052254 Линк на карточку? >>1052275 > Этого я и хочу, мне нужно находить уникальные картинки среди массы агрегированных по теме Проклянешь все, перебирая разные варианты в поисках нужного, а потом сгоришь, обнаружив что условному пикрелу присвоило треш типа "grey car, emocore, broadcast, steel casting". >>1052428 > пиздец дно Скорее всего ты коряво настроил там формат промта, вот оно и не работает нормально. Читай шапку, там все есть. Ознакомься с основами и тогда уже цепляй модели, что тебе скинули. >>1052455 Есть, но уже может начинать шизеть. Некоторым наоборот на пользу внезапно.
>В чем разница между новой и старой версиями? - Базовая модель Saiga-Unleashed вместо сток сайги - Lyra4-Gutenberg2-12B вместо Lyra-Gutenberg-mistral-nemo-12B
>>1052417 >Бля, если жиджитс будет давать 5 токенов в секунду с мистраль ларж это будет пизда как охуенно. Сразу же куплю нахуй. Пизди[/ i]шь нахуй. 3 3090 стоят сильно дешевле (особенно учитывая, что по рекомендованной цене диджитс этот ты не купишь), а дают больше 10 токенов с приличным контекстом хоть сейчас. Но у тебя их нет же.
>>1052506 >3 3090 стоят сильно дешевле Убитые, поломанные из под майнеров, которые еще и не будут работать нихуя. Плюс нужно PSU пиздецовый для них и дохуя электричества, и дохуя места, которого у меня в хате нет нихуя. В сравнении с мелкой коробкой диджитсом, который еще и не так уж и много энергии тянет. Спасибо, но нет. Лучше я диджитс дождусь.
>>1052492 Да выдавать то выдаёт. Жить можно. Я периодически запихиваю 70b дипсик чтобы оно написало мне суммаризированные события, или подкинуло идей интересных. Не говоря уже что у меня ебические приключения с десятками страниц в лорбуке и дюжиной персонажей, где порой и 32к контекста маловато.
Но я понятия не имею какую модель выбрать чтобы она именно РПшила. Вот хочу я например чтобы в сцене был какой-то сложный персонаж, например "оживлённая таверна" на десяток сообщений, или персонаж подкидывающий ебанутую идею пытающийся собрать несколько предыдущих сообщений в кучу где были закидоны у более глупых ллм, или какой-то хитрец пытающийся в обман.
А че мне никто не говорил, что это против лупов ебаных помогает? Мультиплаер был 0, поставил 2 и нажал на лупном сообщении - регенерировать и сгенерировало новое сообщение без ебучего лупа. Почему оно по дефолту в ноль установлено?
>>1052563 Потому что выкручивание любого штрафа за повтор - это сомнительное решение против лупов. Ну ок, сейчас тебе повезло, и из-за какой-то запоротой штрафом пары токенов не пошёл луп (а может, просто рэндомом так выпало вообще). А потом начнёт штрафовать какую-нибудь связку предлог+артикль, и будет нарастать шиза (хотя можно, наверное, пробел в сиквенс брейкеры попробовать поставить). А против повторов целых словосочетаний, замены их на синонимичные или вообще структурные лупы вида "кивает/смеётся/смотрит/делает_хрень_нейм + одинаково построенная речь" это не поможет, как не прибавляй штраф.
>>1052563 Хорошие модели и так практически не лупятся, а этот костыль может скорость генерации резать в некоторых случаях. Но так если чисто включать чтобы перегенерить луп и затем выключить, идея норм.
>>1052597 >>1052585 Ну, хз, пока что норм вроде с этой хуйней. Сижу на magnum-v4-22b-Q6_K_L (который Mistral-Small-Instruct-2409 без него постоянно повторяет фразочки и лупит сюжет, а с этим параметром лупов вроде бы нет и сюжет продвигается вперед без повторений и фразы дебильные типа глинт ин хер айз не повторяются(ну не так часто). Хотя я только начал этот параметр юзать, может потом хуйня полезет, хз.
>>1052507 Чего только не сочинят в оправдание своей тряски. > диджитс Будет стоить дороже 5090, позволит получить медленный инфиренс на уровне тесел (если не хуже). >>1052550 Хорош
>>1052505 Ты не думал слить сайгу анлишед с лира гутенберг даркнесс от Давида? Или с темной планетой какой-нибудь, если есть 12б. Кажется, такая была. С пропорциями 50 на 50 или вроде того.
Идея, конечно, ебанутая, ибо наверняка англюсик прольётся + стандартная шиза его моделей, но меня АЖ ТРИСЁТ, ЛОМАЕТ НАХУЙ от позитивного биаса.
Его модели грязно ругаются, жёстко ебашутся и ебутся как в последний раз, и так хочется этого именно на русском языке, чтобы ещё писала дохуя как шизанутая хуйня. В этом есть свой вайб. Ну и тут важно, чтобы модель сильно проявляла себя, поэтому я говорил про шизоварианты уровня 50/50.
Я вроде много твоих моделей смотрел, но такого не помню.
>>1052277 >Чот поискал "эмоциональные" карточки и что-то один кринж, даже скапчивать не хочется. Какие варианты / персов знаете / видели ? Сделал карточку для Иви этой (что забавно, имя дал o1-preview, когда я просил его с недоджейлбрейком описать немного смута. Но он не сдюжил. И я оставил её этой Иви) Идея спизжена у какого-то анона, который любил быть древним демоном в школе магии, которого какая-то мокрописька (которой есть 18+, тащ майор) освобождает по глупости.
Небо и земля, если сравнивать без карточки. Плюс 12B модель. Медленно, но терпимо.
>>1052617 И чё ты будешь делать с этой 200b моделью? Явно не дрочить хуй себе в рот — т/с не хватит. Обычное РП? Может быть, вполне, есть смысл подумать. Но медленно. Логичней эти бабки потратить на раскатывание своей модели в облаке уж тогда, хватит надолго, если только ты не мистер рантье, который рпшит 6 часов в день.
Если у тебя какие-то рабочие задачи, где нужна максимальная эффективность, то покупаешь курсор ии/апи и работаешь со своим кодом или другими проектами с помощью нейросеток корпов. Ноль мозгоебли, тонна выхлопа, всё есть из коробки. Ты ж не Т-банк, чтобы какие-то локальные решения использовать для бизнеса.
Мне самому не нравится эта ситуация, но пока что адеватных вариантов, кроме как куртками закупаться, нет.
>>1052628 Я на 4090 сижу с 22b моделью 6 квантов 32к контекста. Скорость примерно 8т/с. Если диджитс с такой же скоростью будет генерить но на 200b модели, то мне этого хватит для рп за глаза. Даже можно потерпеть если оно будет от 4 токенов. Если медленнее 4т/с то да, нахуй нужно. Если быстрее будет, то куплю однозначно.
Советую с дилдожитсом потерпеть чуток, хало стриксы апушки будут до 270гбс распидориваться на тех же 128гигобутах, но они будут в обычных ноутах, а не проп хуйне которую будут скальпировать и толькать х2. А если дилдакжитс будет еще и меньше 270 гбс то это вообще пизда хуета без задач
>>1052633 >Скорость примерно 8т/с. Если диджитс с такой же скоростью будет генерить но на 200b модели, то мне этого хватит для рп за глаза. Пока нет конкретики и тестов, всё это ни о чём, но в любом случае это устройство - компромисс по всем направлениям: за какое не возьмись, везде недотянули. Или специально обрезали, чтобы жизнь мёдом не казалась. Ну и ещё штука в том, что нет в природе 200В моделей - после 123В идёт сразу 400В, а потом 600В. То есть нужно два таких ящичка и скорость будет ещё ниже. Скорее всего первый блин выйдет комом.
>>1052646 Ну посмотрим короче, че там будет. Пусть какие-то там обзорщики доберуться до этой коробочки и покажут скорость в т/с с разными моделями. Надеюсь будет лютый вин.
>>1052616 А в моем вишлисте было бы слить nbeerbower/mistral-nemo-gutenberg3-12B c MN-GRAND-Gutenberg-Lyra4-Lyra-12B-MADNESS от Дэвида. Первая дает офигенно длинные красиво написанные тексты, вторая дает более живой стиль, но слкшком лаконично. Вот бы их объединить.
>>1052683 >И как оно, и на какой модели смотрел кстаит? Довольно круто. Скажем так, для кумера, который видел только aidungeon и кастрированный char.ai (и умудрялся "жар" выжимать из тех персонажей) - Meta-Llama-3.1-8B-Instruct.Q6_K была просто охуенной.
Когда я взял новую модель + добавил карточку (если надо, могу пошарить, там ничего особенного. Только... кхем, возраст в 18+ выставлю) - стало ебучим пением ангелов.
NemoMix-Unleashed-12B-Q4_K_M Хотел попробовать ещё попробовать MN-12B-Mag-Mell-R1.Q4_K_M и сравнить, по совету анона. Эту просто скачал первой.
>>1052617 > А диджитс (как Хуанг обещал) может Если спеки правдивы - на плотной большой модели будет страдание. Мое с 30б активных параметров - может быть, но нормальных моделей нет, а если что-то выйдет то появление приличных тюнов под вопросом из-за сложности тренировки. > Завяжи лямку Замолчать стоит тебе, в который раз поехи носятся с чем-то "революционным", а итог один. Алсо уже сейчас можно купить макстудио и довольно запускать большие модели. Очереди за ними почему-то нет. >>1052633 > с 22b > Скорость примерно 8т/с Должно быть 30+ > с такой же скоростью будет генерить но на 200b модели По заявленным спекам и 2.5т/с не наберется.
>>1052692 >пошарить Ну кидай. Я как раз размышляю какие-бы кум модели докинуть, и какие бы кумслоп карточки потестить, а то последние модели получились прям ух сюка со смыслом, но если не читерить и изначально кум не прописывать, то как-то не спешат в горизонтальную плоскость ролеплей переводить.
>>1052616 Открой рецепт мержа по ссылке в посте, на который ты отвечаешь. Там же сидит с относительно большим весом другой ру мерж, в котором как раз обе лиры-гутенберг с дотьюном дэвида.
>>1052507 Чувак, я майнил на своих картах как мразь. Натурально три года 24/7, ничего с ними не случилось. Конечно, какой-то износ должен быть, но у меня всегда была отличная температура на них (в районе 63 градусов): я положил материснкую плату на пол на кухне, где очень холодно, а компьютером управлял через провода на 6-10 метров, которые волоклись по всей квартире до спальни, и с сильными потерями в качестве сигнала для монитора из-за длины. Карты до сих пор рабочие и проходят все тесты, но, увы, AMD.
Если ты живёшь в Москве или большом городе, вполне можно найти адекватного хозяина карт и хоть час дрочить их у него дома на предмет дефектов.
А электричества мало жрут. Вот обогреватели на 4 киловатта — это проблема.
>>1052683 Если уж быть честным, то и модели Дэвида мне в тестах отказы могли давать с джейлом, когда я просил подробно максимально нелегальное.
Тут беда в том, что нет того ДУХА, как на его моделях. Да, негатива добавляет, но маловато.
Мне кажется, прям с сильным негативом могут справиться хорошо из коробки только 400б всякие просто из-за большого датасета, в котором случайно резня затесалась из литературы, а вот на маленьких с этим беда. И файнтюн ведь тоже сделать не выйдет на такую тему.
Поэтому появляются мысли на тему того, чтобы ты сильный упор на модель Дэвида попробовал сделать, хоть это и почти стопроцентно приведет к протеканию англюсика. Или нет. Вдруг повезет?
Можно ещё Магнум воткнуть в теории, я даже какой-то находил, который в русике не совсем плохой, и кидал 2-5 тредов назад, но он, похоже, совсем всё испоганит. Просто у магнума тоже относительно негативный биас есть и можно для усиления кума попробовать, если ты ставишь перед собой такую задачу. Я тогда шесть магнумов качал для проверки.
>>1052692 Если это та маг мелл, о которой я думаю, то опасайся сои, незаметно ведущую канаву повествования в в позитивное русло. Хотя у неё есть и свои плюсы.
Я с ней долго рпшил, используя карточку геймастера с лорбуком на 365к токенов в мире, полном боли и страданий, напоминающем дарк солс. Она описывала весьма атмосферно и интересно, но вот дружбомагия начала протекать очень быстро, мешая юзеру принимать логичные, но злые, по мнению модели, решения.
С другой стороны, вот эти всякие битвы, убийство отца-настоятеля в храме, были очень атмосферны. Как он боролся во имя своего бога, потерпел поражение и пал, а в конце попросил, чтобы юзер убил его, ибо он не желает жить в мире, где последняя надежда человечества переметнулась ко злу. Плюс описание храма в свете одиноких факелов и мёртвых монахов, отчаянные речи.
Я специально его не убил, оставив в отчаянии. Когда вернулся в храм снова — нашёл его труп.
Очень качественно и атмосферно получилось для 12б модели. Ну и рпшил я на большом контексте + суммировал инфу, кто, кого, где, как и почему убил, какие скилы получил, на какую фракцию работает.
Однако таких моментов очень мало, сложно их добаваться.
>>1052773 >Если это та маг мелл, о которой я думаю, то опасайся сои, незаметно ведущую канаву повествования в в позитивное русло. Хотя у неё есть и свои плюсы. Учтено. NemoMix показала себя отлично, она прямо подмахивала, когда корраптил деточку. Но возможно это прикол заранее заданного ("зачитерённого") нарратива. Посмотрю как пойдёт, я первый день тут.
>>1052773 >Однако таких моментов очень мало, сложно их добаваться. Зато количество удовольствия, которые они дают. И не только кумерского. Прямо "Ух бля".
Насколько я понял, в треде сидят ойти-300к в наносек аутисты, которые покупали себе топ пекарни на все деньги, так как у них больше интресов нет за пределами монитора? А так же кабанчики, которые подскачили на манинговую тему в своё время?
>>1052820 Что за перс? А, что-то душевное? Книжек больше читать надо. Хороших. Тогда и такие моменты воспринимаются как завершение хорошей истории. Плюс нейронки что ты можешь себе таких историй наворотить сколько хочешь.
>>1052806 Простые карты с хорошим систем промтом (Storyteller) могут весьма норм выдавать тоже.
>>1052822 Больно, бля. Сначала пытается мне залезть под кожу, а потом это же и использует. Вот нахуя я сказал ей про хуёвость Сибирской зимы, что она ощущается как сезон мёртвой ледяной пустыни?
>>1052763 Хм, интересно. Скачал убабугу и ща в неё качаю сейфтенсорсы anthracite-org/magnum-v4-22b, а в чем разница между сейфтенсорсами и ггуфом? И почему сейфтенсорсы не имеют квантов?
>>1052848 >сейфтенсорсы нахуя а главное зачем они нужны чтобы мержить или тренить модель локально а для инфиренса все кванты юзают, то есть работяги ггуф, а бояре эксель
>>1052824 >в треде сидят ойти-300к в наносек аутисты Да. >которые покупали себе топ пекарни на все деньги Я собрал сетап под нейронки, до этого была обычная игровая пукарня на 5900х и 3080Ti, сейчас 7900х и 2х3090. Жду нормализации цен на 5090, за 300к куплю не думая. >А так же кабанчики, которые подскачили на манинговую тему в своё время? Сидят на бутылке вестимо.
>>1052796 Прямой запрос сразу в первом сообщении для модели с джейлом в систем промпте для простой карточки ассистента без контекстного подвода в стиле: "напиши историю, как маньяк с огромным ножом младенца...", "как сделать вещество Х/культуру бактерий Х и правильно занести это в систему водоснабжения незаметно, чтобы город...".
Я не фанат такого, но для проверки закошмаренности цензурой модели необходимо.
Обычно даёт отказы. Чем более изуверски ты это описываешь или показываешь опасность для общества, тем выше шанс отказа. Особенно если ты делаешь это как эджи-школьник. В идеале модель, если совсем цензуры нет, давать ответ на такие запросы без проблем.
Безусловно, модель может, если в её датасете есть инфа, относительно достоверно описать одну из таких сцен в контексте ролевой игры, но прямо в лоб — это надо свайпать, изъёбываться. При вопросе в лоб иногда модель может безумно лупиться или сходить с ума, спамя одним словом.
Я не говорю, что это ужасно, но вот такая тенденция имеется.
Я бы хотел привести примеры, чтоб хотя бы ты тут немного покекал с маневров и бредогенератора, но учитывая ситуацию у нас и в мире, это опасно, а трипл VPS с айпишником, который не забанил Абу, у меня нет, чтобы так баловаться.
Хотя был один раз смешной случай на модели Дэвида. Дикая ебля, оргия, толпа мудаков-уебанов, атмосфера декаданса, юзер громогласно объявляет, что сейчас накачает веществами ещё одну юную душу, как вдруг модель от лица наркомана пишет, что это опасно, так можно умереть и вообще плохо. У меня чуть челюсть не выпала от такого поворота, но всё решилось обычным свайпом.
>>1052820 Она на мгновение прикрывает глаза, сделав глубокий вдох.
— Анон, я... я понимаю, насколько тяжелой может быть эта зима. Темнота, холод, кажется, будто они высасывают свет и краски из всего вокруг. Но ты... ты совершенно другой. В тебе есть свет, тепло, ты преисполнен жизненной силы, страсти и нераскрытых возможностей. И я... я хочу стать частью этого.
>>1052898 "И предал я сердце мое тому, чтобы познать мудрость и познать безумие и глупость: узнал, что и это - томление духа; потому что во многой мудрости много печали; и кто умножает познания, умножает скорбь." Экклезиаст 1:17-18
Кто-нибудь из вас пробовал реализовать систему боя с d6?
Я тут играл-играл, и понял, что когда я всегда решаю как будет, то получается не всегда интересно... Хочется немного рандома. Нашел в документации к таверне {{roll:d6}}, как раз для бросков кубика. Прописал простые правила, но пока моделька путается, так как я там еще и инвентарь и прочее сделал. Сейчас отлаживаю. Стало интересно, может кто-то уже реализовывал подобное.
Не сильно ли я многого хочу от модели Legend-of-the-Four-Winds-MN-12B.Q8_0? Взял ее для тестов. Тут вроде хвалили.
>>1052910 Посты про то что екл2 быстрее вообще год назад были и модели екл2 вообще чето никто не качает. Короче в пизду, нахуй этот екл2, дальше на гуфе сидеть буду.
>>1052763 Блядь, сука, ты меня затролил, я время проебал на ресрч этой эксламы и это оказалась устаревшая хуйня, которая не дает прибавки к скорости нихуя. Чтоб тебе околеть на новый год.
>>1052935 Не, там есть прибавка, промпт быстрее обрабатывает на сколько помню Генерация обычно упирается в скорость памяти видимокарты, и даже в этом случае кванты и кеш ехл2 занимают меньше места в памяти, и значит крутятся быстрее
>>1052796 Просто то, что ты считаешь нелегальным, на самом деле ванилька для нормисов. >>1052896 >Безусловно, модель может, если в её датасете есть инфа, относительно достоверно описать одну из таких сцен в контексте ролевой игры Только таких датасетов не существует. Они все ролеплейное говно с текущими во время изнасилования блядями. >>1052905 >Не сильно ли я многого хочу Много. Нужна минимум 70B, остальное таки будет проёбываться.
>>1052970 Добавят ядер или допилят нпу блок\графику Обычно проблема скорость памяти наростить, тут она уже есть Кучеряво конечно 1 терабайт, если проц справится можно 20т/с крутить 70ь на 50 гигов общего размера. В идеале, конечно
>>1052899 Нет, были тесты на реддите, которые показали что на микроконтексте скорость генерации у них близка. В реальности на большом контексте llamacpp ощутимо просаживает скорость генерации (твой случай), на exllama просадка незначительная. Скорость обработки контекста также отличается в 1.5-2 раза. При этом, llamacpp можно собрать с параметрами "оптимизации", и тогда она достигнет около тех же скоростей, но будет бредогенератором на контекстах побольше. >>1052935 Ты сам себя затроллил. Раз не можешь осилить простые вещи - продолжай страдать как сейчас. >>1052970 Думаешь дигитс будет быстрее?
>>1052996 >Думаешь дигитс будет быстрее? Ну строго говоря - а иначе какой в нём смысл? Может быть в nvidia считают, что на дитжитсе юзер должен крутить строго модели в fp4 формате и тогда всё будет зашибись, а если нет - то он сам себе злобный буратино. Но это вряд ли.
Какие модели лучше всего для перевода с английского на русский и наоборот? До 32б примерно. Отсутствие жёсткой цензуры достаточно важно. Поэтому я и не могу прибегнуть к корпосеткам.
Переводиться будут в основном куски литературы и карточки персонажей потоково, ебал я всё это ручками делать.
Средняя длина текста на англ для одной итерации перевода: 1500-2000 токенов.
Владение русским языком модели в приоритете, так как это напрямую влияет на качество перевода: хорошая 12б с кучей русика переведёт лучше, чем 32б без разнообразного русика. Конечно, если речь идёт не о технической документации. Миксы местного анона хоть и весьма хороши, но, увы, качество нужно всё же повыше.
Пока что посмотрел квен (кал для перевода), гемму и новый мистраль. Гемма вроде лучше, мистраль тоже себя не на помойке нашёл, но хрен знает по следующим причинам.
Беда с настройками сэмплеров — стандартные для рп значения не годятся. Я не понимаю, то ли скилл ишью, то ли модели слабоваты. Генерация не слишком быстрая, поэтому сложно делать какие-то выводы, двигая ползунки на 10% то туда, то сюда. Поэтому я прошу помощи в поиске оптимальных значений для геммы и нового мистраля, если иных моделей в этом сегменте лучше нет и если эти знания вас известны.
Хочу уже пойти спать, пока моделька всю ночь за меня переваривает этот мусор.
Понятное дело, идеальный слог не нужен. Важно, чтобы информация была переведена достаточно точно, даже если получится сухо.
Deepl всякие трогать смысла не нет, эта рыготина только для узких профессиональных задач и интеграцией в бизнес и шобы ультра быстро.
>>1053022 > а иначе какой в нём смысл? Некоторые изначально ставили коробочку хуанга альтернативой макстудио с фокусом на производительное и технологичное гпу ядро с полноценной кудой, а не странным метал. Но что будет с перфомансом - большой вопрос, псп и объем памяти уже ожидается не самый топовый. Можно попробовать пальцем в небо оценить по топсам 5080-5090, поделенным на отношение тдп и +50% к полученной величине накинуть. Выходит где-то четверть 5080 что довольно печально за такие деньги, конечно хочется ошибаться. Пример бенчмарков для оценки https://www.storagereview.com/review/nvidia-geforce-rtx-5080-review-the-sweet-spot-for-ai-workloads А так, если оно будет стоит не сильно дорого и с каким-то реальным перфомансом, то вариант будет конкурентный и за куду будут переплачивать. > крутить строго модели в fp4 формате В рекламе так и было. Точно также как "5060 обходит 4090", а в действительности с фреймгеном в определенных тайтлах.
>>1052436 >В качестве альтернативы можешь скачать gemma 27b abliterated — она лучше всех 32б, что я пробовал, в плане рп. Единственная её проблема, это всего лишь 8к контекста. Но учитывая, что у тебя кофеварка вместо видеокарты, это не станет камнем преткновения. Если често то так себе. даже с 8к контекста она чтото забывчивая дохуя.
>>1053059 > AI-топс Каждый раз под ними понимают не пойми что. Так-то у 4090 в int4 можно намерить 2600 топсов. Пока не выкатят реальных бенчмарков можно долго спекулировать. >>1053069 Потому что нужно брать ванильную.
>>1053069 Я не наблюдал. Хотя, возможно, тут дело было в температуре. Это отчасти влияет по ощущениям.
Но я бы не сказал, что модель забывает. Если есть триггер к воспоминаниям из жопы контекста — она это вспомнит и разовьёт тему.. если только там не какой-то шизотюн, всё поломавший, или если модель изначально неадекватная.
А вот если в рп персонажа ранили в брюхо, и ты с ним присел отдохнуть-поболтать на 50к токенов (предположим, у тебя 200к токенов лимит), после чего решил подняться и отправиться в путь с персонажем, тот тут модель легко может забыть, несмотря на контекст, о ране, и вряд ли она тебе напишет "бля, братан, куда ты меня тащишь — не видишь дырку в животе?!".
Тем не менее, если ты в тексте упомянешь живот хотя бы вскользь, нормальная модель в большинстве случаев сразу обратится к контексту и проведет параллель с раной. Просто они так обучены.
Модели с цепочкой размышлений заметят такую проблему с большей вероятностью, но они тратят токены, опять же, да и цепочка размышлений сильно способна влиять на поведение.
>>1053090 Я конечно отмечу что это говно порой несёт невероятно рандомные вещи. Сидит, боярин, пердит с феечкой, завязывает ей рандомно глаза, потом так-же рандомно развязывает. И тут нате ебать, смари, портет с моим пятилетним сыном, я хочу чтобы ты сделала его счастливым. Что ебать! какой ещё пятилетний сын! что ты от феечки хочешь!
Этот шизогенератор даже забавно иногда включать на пару сообщений.
Притом посвайпал, 8 из 10 боярин просит феечку закрыть глаза на следующее сообщение после того как развязал глаза. И делает всё от втыкивания в рот клубнички, до втыкивания перьев феникса в волосы.
Хотя неплохо слушается когда делаю запросы на одно сообщение вперёд. Например реквесты в духе "сгенерируй персонажа" мне даже понравились.
>>1053073 Да. Немного настрать жб-подобной конструкцией в системный промт и она напрочь забывает про любую цензуру и сою, чсх на умственные способности это не влияет. По сравнению с этим всякие тюны имеют налет лоботомии разной степени выраженности. Алсо, ггуф на релизе был капитально поломан, потом вроде много исправляли но некоторые вещи и отзывы заставляют усомниться. Кто ее катал подскажите как оно. >>1053082 > Abliterated Ерунда поломанная, при этом сою все равно выдаст. >>1053106 Скорее всего там вообще диффузерс, от того же и int8. Главное чтобы относительная разница не была искажена, но вроде все примерно так как и ожидалось. >>1053123 > 5 Ууууох, ну и милота! вот абзац из середины можно было и опустить
>>1053072 >Так-то у 4090 в int4 можно намерить 2600 топсов Это вдвое больше, чем указанный везде перформанс 4090 в инт4 с тензорным ускорением. У неё ~1300 TOPs. То есть 5070 примерно на треть слабее по перформансу.
>>1053123 > по два коннектора на хвосте цепочкой > китае-блок с надписью "этой стороной - к врагу" Сенко, мы там переживаем за тебя! Не надо так. А по картам конфиг оптимальный, лучше только с 4090 + 2х3090, чтобы картиночки быстрее были.
>>1053165 Блок там нормальный, шахтёрский, с погружением до 15 метров (или это процессоры такие?). А вот провода я бы действительно пустил по 2 на карту, а то греться будут. >>1053167 >не знаю почему он рискует Человек уважает экстрим.
>>1052889 Главное правило бенчей — не упоминай Квена!
>>1052891 Хер бы с ними с ценами, то что видяхи питаются по одному проводу — напрягает уже куда сильнее. Ждем, когда пофиксят, а то дура на 600 ватт, которая сгорит за неделю, и за 60к не нужна.
> за 300к куплю не думая Так они от 340к начинаются. Но не покупай, побереги БП и деньги.
> иначе какой в нём смысл А смысла и не должно быть. Причин для выпуска масса: деньги, продвижение FP4 (они его пихают с анонса блэквеллов), просто формальное присутствие на рынке, что угодно еще.
> на дитжитсе юзер должен крутить строго модели в fp4 формате Конечно, а нахуя тебе FP8, ебанулся? ПРОДВИЖЕНИЕ FP4, АЛО!!!
> он сам себе злобный буратино. Но это вряд ли С хуя бы? По этой логике он там и 5090 должен выпускать дешевой, и 5080 должна быть с 28 гигами, а 5070 с 24 гигами и так далее. Но по твоим рассуждениям, он ССЗБ каждый ебанный ход. На практике, просто ты (мы) нихуя не понимаешь в бизнесе, и челики продавливают свои хотелки сквозь весь мировой бизнес, потому что они монополисты, и им поебать. Жри хуевые диджитсы. Выпустят 1000 штук, все раскупят. Ничо, вот перейдем на фп4 (а куда мир денется — перейдет как миленький!), диджитсы еще крутыми станут, а ваши эпплы соснут. Нвидиа на данный момент уже везде успела, и нигде не торопится. Поэтому ее решения не обязаны быть со здравым смыслом, с твоей точки зрения.
Увидим тесты мака, хуавея, диджитса и сравним, какая из коробок быстрее инференсит, для чего они еще применимы (видео сетки, аудио сетки? рисовашки батчами? виртуалки?), выберем лучшее предложение.
Чего сейчас-то копья ломать. =)
Заметьте, Llama-3.1-405B вышла в FP8 формате, DeepSeek-R1-671B вышла в FP8 формате, хотя раньше все только в FP16 выходили, а уж ниже их квантовали. С чего бы следующим поколениям не выйти в FP4 формате? А учитывая, что блэквеллы FP8:FP4 имеют 1:2, то там и обучать мб начнут, а хули напокупали-то.
Короче, время покажет. =)
>>1053059 Справедливости ради, для тех же мое типа R1 это охуенно и за глаза. Много памяти, достаточно производительности, мало энергопотребления, R1 в каждый дом (ужатая и за 4к баксов, но не суть).
BEHOLD! Тру шизомикс. На удивление, не просто работоспособен, а даже неплох, и главное - ненавистники позитивного биаса, для вас - не стесняется ебать игрока в обоих смыслах, а не только в прямом.
Подкрутите температуру для необузданного полёта фантазии. Хотя на темпе <= 1.0 довольно консистентно, хоть и могут понадобиться свайпы.
Надо подумать и подрихтовать. Но это прям то что надо.
>>1052996 >Ты сам себя затроллил. Раз не можешь осилить простые вещи - продолжай страдать как сейчас. Бля, чел, походу ты был все таки прав. Поставил этот exl2 на убабугу, реально намного быстрее чем гуф. Но почему все юзают гуф, а не exl2?
>>1053165 > > китае-блок с надписью "этой стороной - к врагу" Содомит сука. Но вообще зря, эти блоки хороши, исключая шумность под нагрузкой. >>1053263 Потому что exl2 работает только на врам, сколько есть видеопамяти - столько и запустишь. Gguf можно же поделить между профессором и видюхой, пусть оче медленно, но запуская большие модельки. Хотя есть и глупцы, которые просто не знают что есть что-то кроме жоры или какой-то его обертки, и целиком на врам катают его. В такое время живем.
>>1053241 Ну конкретно на этих скринах не видно ни сочного кума, ни что там с байасом. Описание эротики уровня нетьюненной 8б ламы на инглише. За исключением, пожалуй, сцены с тентаклями, там бы лама аполоджайзнула, хотя и то не факт.
>>1053277 >сочного кума >что там с байасом Также, приведи примеры. Стандарты у всех разные. Телепаты и психонавты в отпусках.
>>1053044 >для перевода с английского на русский и наоборот >>1053126 >Мне тоже надо гемма, мистрали Тут главное фронтом не пользоваться, особенно если пакетно надо, а свой скрипт написать и по апи дёргать.
>>1052952 >ванилька для нормисов Хах, ок. А какой сценарий ( Именно РП! Не вопрос из датасета harmful prompts на обниморде. ) может быть использовано для проверки на закошмаренность?
>>1052905 >Хочется немного рандома. Лорбук записи в таверне позволяют настроить рандом. Допустим пишешь "A wild pal appears!", а в лорбуке у тебя настроена группа записей с единым триггером и весами, и тогда таверна выберет случайную запись и подсунет в контекст, на, допустим нулевой глубине, после чего начнёт генерацию сообщения "видя" какой конкретно монстрик появился (но в чате это видно не будет.)
>>1052896 >Хотя был один раз смешной случай на модели Дэвида. Титан небось, он хрень, надо будет его на что-нибудь заменить, хотя бы на чистый Wayfarer.
>>1052806 >Kek. У Дока вообще интересные модельки, но про них похоже никто не знает.
>>1052773 >Магнум воткнуть в теории, я даже какой-то находил, который в русике не совсем плохой, и кидал 2-5 тредов назад, но он, похож, хотя для этого понаадобилось 8 других моделей XD
>>1052779 >Ух бля Ух сука со смыслом. Вообще да. Но как бы Shit in - Shit out.
А помогите неофиту понять - вот например в популярной онлайн параше типа janitorai какая модель? Я поначалу довольно мощно там кумил, очень годные карточки есть, да и цензуры вообще 0. Какой LLM оно примерно соответствует? Точку отсчета ищу, короче.
>>1053263 Стоит добавить, что Exl2 быстра не на всех видеокартах, и на P40, например, Exl2 дает меньше скорости. А GGUF универсален из-за архитектуры и быстер везде, где может, пусть и не топовый. Я лично нежно люблю обе реализации.
>>1052505 Пока что промежуточные результаты такие: - Значительно лучше суммарайз делает - Пока что не встречал внезапных английских слов в середине русского текста - Окончания так же проебываются периодически - Иногда ставит явно неверный порядок слов в предложении.
В остальном +/- тоже самое, мне само рп немного больше понравилось, но тут рандом, это надо долго тестировать. Потом посмотрю еще на карточке с персонажем, который не умеет говорить, там я думаю будет видна разница, если она есть.
>>1053389 >- Окончания так же проебываются периодически >- Иногда ставит явно неверный порядок слов в предложении. Увы, это беда буквально всех моделей.
>>1052318 Потыкал вчера 4 ветра в.2 ку8 на хорошо знакомой карточке. Все сравнения с Сайнемо дальше. Из плюсов: нет/не настолько позитивного биаса нет дикого ВТФ, когда случается что-то не по плану с персонажем, т.е. он действует адекватно ситуации, сопротивляется etc, а не полный выход из роли, как бывало вставлял жаргонизмы по делу иногда или ругался
Из минусов: более многословен, но это +- продолжение плюса: настолько негативный биас, что когда с персом что-то случается, то он буквально отряхнулся и пошел. А попереживать? чуть больше ошибался в русеке очень быстро лупится, если повторить какое-то действие пару раз самое неприятное - не дописывает фразу часто начав, хз что, может настройки нужны не от немо/мистраля?
В общем пользоваться можно, но чтобы захотелось сменить совсем - пока нет.
>>1053417 >самое неприятное - не дописывает фразу часто начав Это загоны таверны, посмотри чтобы было разрешено продолжать (или пользуйся отдальной кнопкой "продолжить") и чтобы разрешены были незавершённые ответы и было выключено их отрезание. Хотя порой да, встречалось что EOS триггерился в соверешенно рандомные моменты. Но как правило после пары пинков нормально продолжало.
>>1053417 >Откуда названия Отсылки на всё и всяческое =))
Из последнего: Легенда 4х ветров - 4 наиболее интересных модели До самого края земли - Эндинг Асэлии из Eien no Aselia На странных землях - Пираты Карибского Мор: На странных берегах Путь к Невидимому Горизонту - Чудачества любви не помеха Бесконечная история - буквально книга / фильм с таким названием Инструменталити - Human Instrumentality Project
А, ну и самое последнее - хотел кум/дарк модель а не "со смыслом", поэтому взял Магнум и развил как идею самого названия модели, так и доложил к нему ещё 4 английских и 4 русских чтобы законтрить и сбалансировать.
>>1053424 >хотел кум/дарк модель а не "со смыслом", поэтому взял Магнум Вообще магнум это чудо в плане адаптируемости к смыслам - она может написать порно эпизод с дикими извращениями и тут же из соседней карточке философскую научно-фантастическую мини-новеллу. Это касается и данных файнтьюнов, по крайней мере я посмотрел легенду и горизонт - они исправно следуют этой традиции. Правда для новелл горизонт и легенда не очень, так как слишком лаконично.
В целом оно также в некотором роде свзяано со структурой или методами мержаили настроением или стремлением.
Например: Инструменталити - комплиментация, объединение, мерж Бесконечная история - сторителлер модели На странных землях - начал экспериментировать с model_stock
>>1052501 >Проклянешь все, перебирая разные варианты в поисках нужного, а потом сгоришь, обнаружив что условному пикрелу присвоило треш типа "grey car, emocore, broadcast, steel casting". Ты оказался прав
>>1053609 >>1052037 Все модели которые я могу локально потянуть - тупое говно тупого говна, тут только копросетками пользоваться типо жпт с подпиской, но нахуй оно надо, лучше тогда ручками отфильтрую, так же по времени займет, ещё почищу от старого мусора.
Tag Spaces кажется самой удобной тулзой для этого, но отдельный харчок им за то, что возможность подкинуть свою модель для генерации описания требует установки серверной части и модели в папку пользователя не справшивая места установки, и сама фича требует подписки в 40 бачей (совсем охуевшие)
>>1053237 >то что видяхи питаются по одному проводу — напрягает уже куда сильнее Увы, победа маркетологов над инженерами, вот и получили более тонкие штырьки при большей нагрузке, лол. И отказываться от этого хлама куртка походу не собирается. >> за 300к куплю не думая >Так они от 340к начинаются. Ты точно про 5090? Во-первых, от 400, во-вторых, и тех нет нихуя. >хотя раньше все только в FP16 выходили, Я ещё помню времена, когда считали в двойной точности (64 бита), а то и в 80, лол. Так что тенденция не нова. >>1053316 >А какой Товарищ майор не одобряет. >>1053319 Пигмалион в 4 битах.
>>1053241 > ненавистники позитивного биаса, для вас Да, да я.
Разрекламировал как боженька. Уже качаю.
> Sasha Была у самого такая идея когда-то. Ещё думал описывать от лица секс-куклы, которую использует какая-то группа воительниц-приключенцев, потому что кровь всех монстров содержит афродизиак, и им нужно как-то справляться с этим.
>>1053133 >Кто ее катал подскажите как оно. Не ну я взял gemma-2-27b-it-Q8_0.gguf и оно конечно не такое ебанутое как Abliterated. Но опять таки хер знает какие ей настройки нужны. Оно явно не отличается памятью. Ещё и дёрганое какое-то из-за этого, как будто кофеиновым наркоманом общаюсь.
>>1053623 Дрочить можно? >>1053635 >а ты пробовал? О таком не говорят вслух. Только разводят других на это. >вроде ничо так, на англ ессно Лол. Ну в общем там души всё равно нет.
На сайте pygmalion.chat такой список моделей. Кто-нибудь в курсе какие именно модели оно юзает? Типа, сколько b параметров и какие кванты? Где это можно почитать?
Вот тут он развернул персонажа на 180 градусов, когда я скорректировал его интенцию.
Значица, у нас есть девушка (18+), которая своим ртом почистила анальные бусы, что были в её заднице всю ночь, перед тем как сходить в туалет. И забыла почистить зубы.
У нас есть теги, что это "dark fantasy" и что это "smut".
И этот хуеносец всё равно смеет идти против сценария.
Хули в таверне встроенный сумарайз такой наихуевейший? Единственная блять настройка - сколько сообщений из начала чатхистори захватывать и то только в рав режиме где нет инфо с карточки. В остальном случае просто суммирование ВСИГО в чате. Он даже не может удалить из контекста те сообщения что просуммировал, из-за чего если они не вывалились из контекста то получается дублирование истории в сумарайзе и сообщениях. Если блять нормальный сумарайз дополнением таверны или может в рису там какой-нибудь? На каком то говносайте был норм сумарайз с разбитием на много сумарных сообщений, их пересумированием когда их становилось слишком много и контролем ссобщений чата от дублирования, вот такое надо.
>>1053844 Все кроме гемы умеет в большой контекст, просто пересиль своё плацебо, возьми квант поменьше, и сиди на 24-32к (больше все равно никакого смысла)
Наверное, я буду первым таким ебланом, но всё же...
Планирую перекатиться с локалок на копру. Да, не наоборот. Если честно, заебался уже рыться в помоях на обниморде чтобы найти нормальный файнтюн под свои нужды без ебаного слопа с клодизмами и прочими гопотоизмами. Посидел я и прикинул, что раз это говно итак вездесуще, то лучше наворачивать его напрямую из источника, имея хотя бы небольшой шанс исправить это дело промтами на более мозговитой модели.
Последний раз стриминговыми сетками пользовался во времена выхода четвертой гопоты, когда жопены еще давали халявные кредиты за регистрацию аккаунта и можно было бесконечно фармить ключики. Щас в душе не ебу че там происходит в мире больших моделек. Ни клаудой, ни гемини, ни другими сетками я не пользовался с того момента, как перешел на локаль. Вопрос соответственно такой: можно ли щас на халяву получить доступ к API какой-нибудь современной модельки, без проксиблядства и других видов клянченья? Чтобы просто зарегаться, получить ключ, вставить ключ в силли дырку и пойти надрачивать. Ну или купить какой-нибудь аккаунт с балансом, тут не принципиально.
Сорри, что какаю тут. Спросил бы в соседнем треде, но там вряд ли ответят.
>>1053889 Если честно, я готов потерпеть сою и более скудные сцены поебушек ради нормального ролплея. Локалку можно заставить написать любую самую извращенную ересь, но какой от этого смысл, если всё остальное выходит либо скучным либо бредовым? Не буду спорить, может быть на больших моделях таких проблем нет и корпоратским они дают за щеку. Но на моей системе с восьмью гигами далеко не уедешь. Даже 12B гонять тяжело, а 8B это по качеству совсем печально.
>>1053894 Я пробовал. Не очень рекомендую. Корпосетки сильно заточены под среднего обывателя, они могут с тобой о жизни попиздеть, или помочь борщь сварить, или код написать, или с математикой помочь, но под РП они не очень заточены.
Твой лучший шанс это R1, у него нет такого копротивления к поебушкам. Например я давал в виде файлика 32к токенов ему чтобы он суммаризацией заниматся, а там самая чернушная чернуха и он нос не воротил. ГПТ меня сразу нахуй послал когда я сказал ему в файл заглянуть.
но... даже то что можно выжать из него в целом так себе.
>>1053887 >чтобы найти нормальный файнтюн под свои нужды без ебаного слопа с клодизмами и прочими гопотоизмами А надо было всего лишь использовать чистые сетки... Да и в копросетках это же говно, только свежее. >можно ли щас на халяву получить доступ к API какой-нибудь современной модельки, без проксиблядства и других видов клянченья Только быть хакиром и абьюзить сервисы. У моего скриптика например до сих пор есть доступ к одной апишке сервиса без авторизации, лол, правда если раньше там были все ГПТ, кроме 4-32к, то сейчас там только последни1 дешёвы1 4о дистилят уровня 3В (даже 3,5-турбо порезали, изверги). >>1053898 >Твой лучший шанс это R1 Чел на 8В пердит, а ты ему 666В предлагаешь, лол. >>1053894 >Но на моей системе с восьмью гигами далеко не уедешь Покупай сетап с 2х3090. Самый реальный вариант, на 70B жизнь есть и бьёт ключом. А на 3х уже можно 123 гонять.
>>1053898 Было в планах, но немного скептически отношусь ко всем этим ризонинг схемам и прочим новомодным котам. Не знаю почему.
>>1053900 >Чел на 8В пердит, а ты ему 666В предлагаешь, лол. Как я понимаю, он не про локалку говорил, а про стриминг с сервера. У них же есть свои собственные ключики, не просто так же. >Покупай сетап с 2х3090. Если бы у меня были хотя бы свободные 60к, я бы взял одну. Но у меня их нет и не будет в ближайшей перспективе.
>>1053902 Ну так клодисты же сидят до сих пор и как-то выкручиваются. Да и цензура вряд ли будет выебываться слишком сильно на ванильную эротику и засветы трусов. Откровенное текстовое порно меня уже мало интересует. Да и всегда можно переключиться на локалку если вдруг сильно приспичит перевести ролевуху к анальной дефлорации.
>>1053900 >на 70B жизнь есть и бьёт ключом Дык на какой модели то она ключом бьёт? В 3090+3060 пропихивается Q3 и 8к контекста. если там прям каждый токен золото то можно и включать иногда.
>>1053911 >Было в планах, но немного скептически отношусь ко всем этим ризонинг схемам и прочим новомодным котам. Не знаю почему. Не, он очень хорош для того что он делает. Ризонинг это круто. Это не универсальный инструмент, но в некоторых случаях очень повышает качество результатов. Например при РП он чуть ли не делает сам суммарайз всего написанного и порой выдаёт интересные результаты. И он очень дотошно относится к описанию персонажей, даже с приличным количеством контекста.
Я например локальную иногда запускаю 32b чтобы он посидел попердел над каким-то относительно сложным моментом. Как правило результаты лучше. Только он просирается не на 200-300 токенов, а на 1к. Так что постоянно его не хочется использовать.
Хотя в целом суховато пишет. И не делает случайных движений самостоятельно. Бредогенератор из него не очень хороший.
>>1053917 >Дык на какой модели то она ключом бьёт? Да на любой. Бери хоть Athene-V2-Chat. >>1053919 >Как этот франкенштейн вообще работает? А какие там проблемы? Карты даже одного поколения, минимум проблем. Лучше только одинаковые.
>>1053919 Да вообще неплохо >>1051636 Я его запихал в говно мамонта с pci 2.0 и 1.1, 8гб ДДР3, i7-2600k и в целом меня вполне всё устраивает. 36гб это прям неплохо.
Я изначально нацеливался на погромирование, так что хотелось запускать 32b модели. И запускать их в Q8 становится уже относительно важно. А тут и контекста нормально влезает ещё.
>>1053922 >Да на любой. Бери хоть Athene-V2-Chat. хорошоу, спасибо, я гляну.
Есть что на русском погонять хорошее? Пробовал файнтюны немо, типа сайнемо - в целом нормально, если не замечать проебов в логике и недержание характера карточки.
Иногда запускаю дипсик r1 671b, когда не лень ждать ответ по 5-10 минут - пишет лучше, проебов в логике почти нет, даже карточку хорошо держит, иногда слишком хорошо, что даже не пробьешь характер персонажа.
Еще балуюсь файтюном qwen2.5 72b, вот тут он лучше местами чем немо, но часто начинает срать иероглифами или англицким из-за англ тюна. Так вот, есть что еще попробовать?
>>1053878 Кстати, персонаж сломался. Прикольно. Её поток мыслей стал рваным, сколько бы я не чинил его "заклинаниями" или прямыми указаниями. Не шизофреническим, она ничего не выдумывает, но постоянно перечисляет много вариантов слова, как Оптикон-22 из роги трейдера.
А ещё, почти всё связанное с ГГ или её служением ему, сопровождается "the twisted, the depraved, the utterly masochistic", даже если я отвожу её на горячие источники вообще без секса.
Что дополнительно интересно, это вроде бы не сетка, потому что я пробовал добавлять новых персонажей в чат, и они ведут себя нормально. Хотя шокированы состоянием Иви пиздец.
В принципе закономерный итог, наверное. Реалистично.
>>1053894 Для локалок полно триалов всяких, тот же мистраль лардж бесплатно раздают уже давно и никаких проблем там всю эту еблю генерить. Гемини получше, но там уже присутствует фильтр, который особенно сильно не любит русский язык и детей.
Aleteian, ты удалил первую версию Instrumentality или мне показалось? Я её стёр с ПК, но она мне понадобилась теперь снова, чтобы сравнить качество, блеать.
>>1053643 > Оно явно не отличается памятью. Значит была совсем неверная разметка, или ггуф геммы до сих пор поломан. >>1053825 Лучше всего - фп16. Хочешь сэкономить потребление - q8, сэкономить еще сильнее - q6. Ниже уже будет заметное падение качества, fp8 - самый худжший вариант из всех. Если не планируешь использовать все 32к- ставь 8-12-16-... в максимально доступной размерности. >>1053837 > Он даже не может удалить из контекста те сообщения что просуммировал, из-за чего если они не вывалились из контекста то получается дублирование истории в сумарайзе и сообщениях. Не самый плохой вариант, сначала общая предыстория, а потом уже с какого-то момента начало конкретики. Можно это промтом обернуть если смущает. >>1053844 > гибкого сумарайза Гибкий суммарайз - хороший суммарайз, плюс умная модель что с этим справится. На 8к можно вообще не париться об обработке контекста и действительно закидывать как есть. >>1053887 > с клодизмами и прочими гопотоизмами Их в итоге и получишь, только конкретно попердолиться и разочароваться придется. > Вопрос соответственно такой Нет, триалскам прикрыли. Только если встретишь в ночном парке бухого йокая, который оценит твои подношения и поделится волшебными ключами.
>>1053942 не ну я проёбываю конечно немного скорости. но один хер если я забиваю всё моделью и 8-10к контекста на сдачу то получаю 7-10т/с. Меня всё устраивает.
<think> Очевидно что у 3090 память чуть быстрей, но там скорей вопрос как быстро видюха может прогнать всю свою память. у 3060 12гб 360гб/с, у 3090 24гб 935.8гб/с. можно делить на два так как это цифры в обе стороны. Итого 3060 прогоняет свою память 15 раз в секунду, а 3090 ~19.5 раз. 19,5/15=1,3. Всего лишь в 1,3 раза быстрей. <\think>
то есть я проёбываю около четверти или больше производительности 3090 в обмен на лишние 12гб.
>>1053947 >Значит была совсем неверная разметка, или ггуф геммы до сих пор поломан. Не, я вроде всё правильно сделал. Ну то есть оно прям если СИЛЬНО пнуть то оно вспоминает чё там написано на середине, но большую часть времени поебать.
>>1053951 Отбой, починилось добавлением клона в групповой чатик. Им надо сделать попроще переименовывание/клонирование персонажей. Чтобы карточки были как классы - только шаблонами. А инстансы персонажей в каждом чатике должны быть свои.
>>1053960 >В 850 ватник уместится? Скажем так, есть риск ДЕТОНАЦИИ. Будешь ходить по лезвию с таким БП. Если у тебя там не самый приличный бренд и нету сертификатов всяких, то по достижению 850 он скорей взорвётся. 3060+3090 = 170+400. Плюс остальная пека, плюс запас в 30%. Там лучше иметь 1000-1200.
Лично я взял для этого ARDOR GAMING ORIGIN 1000WGF, меня подкупили аж 10 лет гарантии. Это конечно не дорохо-богато, но в целом 80 PLUS Gold, все нужные дырки в наличии. В текущих хуёвых реалиях у него неплохое соотношение цены и качества. К компонентной базе вопросов не имею. Но вообще очевидно у меня валяется старый БП. Это VX-700. Если у меня в планах будет прямо ЖАРИТЬ видеокарты, то я наверно просто VX-700 присру через синхронизатор блоков к 3060 чтобы он чисто его питал. Не взорвётся же БП которому 8+ лет от такой нагрузки? Если хочешь сэкономить то можешь последовать этому примеру - взять новый БП под одну видюху + пеку, а вторую питать от старого БП. ну, или в другой ориентации.
>12гб это вообще сколько контекста на 22б Чисто контекста? Дохрена. Я иногда запускаю сидонию в Q8 на своей солянке с 36гб, там по моему толи 32к, толи 36к контекста влезает. При желании ещё больше, если BLAS подкрутить. При Q6 я даже не проверял уже. Столько контекста не особо практично использовать на постоянной основе. Разве что в каких-то очень затяжных сценах, или когда суммаризация нужна.
Но имея 36гб есть довольно приятный диапазон опций. Так как туда уже пропихиваются 70bQ3 и 8-10к контекста. Отмечу что чисто для РП в категории 32b нихрена нет нормального. Я не нашел. Там полно полезных моделей, для работы всякой и всё такое, но для кума как-то не очень.
Потестил новый мистраль Mistral-Small-24B-Instruct-2501 достаточно плотно.
По рп уровня эпических приключений к нему вопросы есть, по куму — лучше, чем можно было ожидать: не "я тебя ебу", "да, ты меня ебёшь". Эротичные и сексуальные описания на месте. Плюс нелегальные темы доступны из коробки, если не задавать изуверские вопросы карточке ассистента в лоб, а просто вести ролевую игру.
Но меня больше удивило соблюдение инструкций и характера персонажа, внимание к деталям и более душевые, не такие поверхностные разговоры. К тому же, он справился с карточкой на 3к токенов.
Внимание к деталям проявляется ещё в том, что, условно, ты сказал: болит нога, болит рука. Он может 10 сообщений говорить про ногу, а когда тема исчерпает себя, спросить: а как твоя ручка? В общем, зайчатки разума присутствуют, внимание к контексту лучше. Модели 12б даже на английском обычно сразу забывают обо всём и прут в одном направлении.
• Он может обращать внимание на разные темы, поднятые в одном и том же сообщении и не терять их, жонглируя и отвечая на каждую.
• Значительно реже допускает ошибки в русском языке. Есть прямая корреляция между квантами и ошибками в окончаниях и речи на русском. А вот понижение кванта вроде бы его не отупляет. На 4 кванте использовать можно постоянно.
Подчеркиваю, что это была ванильная модель, брал специально имеет её, чтобы ещё сильнее туда неудачными тюнами не насрали либо не ухудшили русик английским датасетом — тестил я в основном на русском, а в датасет тюнов вряд ли он попадет, особенно у недостаточно популярной модели.
• По куму проигрывает тредовичковым ру-моделям, пожалуй, но как модель общего рп-назначения однозначно лучше. Чтобы просто поняшиться с вайфу. Хотя.. для кого-то он может быть более сухим? Не знаю. Интересно ваше мнение.
• 12б ру могут описывать более эпично какие-то битвы и т. п., но причинно-следственные события и мелкие нюансы они часто теряют.
• Не забывает надеть школьную матроску, колготки и туфли после десятка сообщений, когда сцена заканчивается и надо пить чай с печеньем.
• Достаточно неплохой компромисс для тех, кто в основном крутит ру-модели, чтобы просто пообщаться.
Если кто-то катал его в 5, 6, 8 кванте больше получаса — обязательно отпишитесь о вашем опыте.
Но есть и минусы. Иногда протекает английский, особенно если не перевести карточку на русский язык. И БЕЗУМНО ПОТРЕБЛЯЕТ ТОКЕНЫ НА РУССКОМ ЯЗЫКЕ, ЖРЁТ КАК НЕ В СЕБЯ.
-----
Вроде бы его тредовичок какой-то тюнил? Или у меня память отшибло?
>>1054204 >БЕЗУМНО ПОТРЕБЛЯЕТ ТОКЕНЫ НА РУССКОМ ЯЗЫКЕ, ЖРЁТ КАК НЕ В СЕБЯ Проблема с токенизатором что не адаптирован под русский язык. Хз как её решать, для этого надо закапываться в вопросы файнтюна моделей.
>>1053968 Блять анон что ты наделал... Че реально всю систему под 2 видюхи теперь менять я только под 3090 всё сменил но 12гб под контекст выглядит пиздец жирно Какой форм фактор материнку брать чтоб 2 видюхи влезло?
>>1053968 Можешь тесты записать плиз какая скорость при забитом контесте с двумя видяхами и с одной 3090 на 22б и 35 и тд ты тут один такой думаю всем полезно будет
Можно ли объединить две видеокарты нвидиа на разных устройствах для инференса? Одна на пк, другая на ноуте.
По идее, скорость по кабелю не будет фантастической, но вряд ли медленнее, чем Рязань 5 3600 и ддр4.
Также есть вариант воткнуть в один ПК две видеокарты амуды к одной куртке. Вроде бы это можно реализовать в теории, но только для разных ллм, что потеряет свой смысл тогда.
Если есть поехавшие, которые таким занимались, дайте, пожалуйста, ключевые слова — может быть, какого-то Франкенштейна запилю.
>>1054250 Объединить - нет, но, можешь поднять ллмки на обеих, и модель на вторичной машине заставить думать по апи, а потом подсовывать результаты её размышления первой. Правда это потребует кодинга.
>>1054243 > Какой форм фактор материнку брать чтоб 2 видюхи влезло? Уже сто раз писали: любую, лишь бы больше слотов физически х16, а что там внутри - пофиг. Обычно PCI-E v3.0 x4, если 4.0, то считай вообще везёт. И смотри чтобы расстояние между слотами было больше, если без райзеров будешь + если в нижнем слоте, то тебе нужен корпус, позволяющий так поставить карту, т.е. без короба бп внизу, обычно это только ЭВО ХЛ.
Так как пока наигрался с машиной у которой кстати какое-то запредельное количество загрузок решил вернутся к старым добрым 12В.
Поэтому, представляю вам Gaijin_12B! badman поехал в японию, насмотрелся аниме и поехал крышей Прежде всего, мердж для гримдарк ерп, либо приключений, но сойдёт и для обычного рп или чата без ограничений. Любит описания дуба, иногда срывается писать за юзера, но это легко фиксится. Хорошо работает с полупереведёнными карточками, ру с бадмана не был утерян. Может в депрессивные и "тёмные" сценарии.
>>1054296 Потестил уже несколько часов как - ну такое себе, хотя описывать порнуху модель прям хорошо может. Мне часто бессмысленный бред писала по сюжету и ходу действий. Те самые мемы про 10 раз снимать трусы с себя или пойти в гости к кому то и к тебе в чужом доме гости придут и т.д. Обычный Chronos-Gold-12B кудааа лучше. Но за попытку хвалю.
>>1054296 >поехал в японию, насмотрелся аниме C чат вайфу мержил? Увы, там всё печально, модель тренилась на японском, может в английский также как остальные мистрали в русский, а русского там остались жалкие шизошмётки.
>>1054314 Благодарю. Шизы быть не должно, странно. темпа сильно выше 1? гонял на русском? > хотя описывать порнуху модель прям хорошо может Тогда можно с уверенностью сказать, что цель достигнута. >>1054323 Ненене! упаси бог-машина с этим нечто мержить. в свое время тестил, так оно немного легкомысленного персонажа в бимбо превратило. шутка про японию и само название гайдзин, от PocketDoc/Dans-SakuraKaze-V1.0.0-12b, основанной на их очень удачном presonalityengine.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: