Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №102 /llama/

Аноним 23/01/25 Чтв 20:56:01 #1 №1023230

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

2x3090 временный колхоз.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичка с уклоном в русский РП: https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.xyz/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1011615 (OP)
>>996637 (OP)

Аноним 23/01/25 Чтв 21:14:26 #2 №1023257

>>1021868 →
>Купить любое современное устройство
>могут запускать 8B.
Ну а какой смысл, если даже 70b не справляется...

>>1021946 →
>Существуют модели которые просто "умеют говорить" и обладают самыми общими знаниями уровня среднестатистического скуфа?
Скуфачую. Когда я в детстве зачитывался научной фантастикой, я ожидал от прогресса ИИ совсем не энциклопедию с личностью послушной собаки...

>Или это можно как-то решить промтом аля "ты тупой скуф и ничего не знаешь"?
Я пробовал задавать что-то такое в 70b, но всегда постепенно протекает её "стандартная персона". На маленьких моделях этот эффект ещё сильнее.

>>1022048 →
>чем больше в модель пихаешь, тем она умнее и лучше пишет даже обычный текст, даже если пихать треды с форчана.
Это странно и противоречит интуиции. В ребёнка не запихивают миллионы страниц из интернета, и даже окружающие люди не разговаривают особо много. В возрасте 5-6 лет ребёнок уже может относительно сложно разговаривать, ещё до школы и книг. Значит, проблема не в недостатке масштаба датасетов? Т.е. интуитивно понятно, что ИИ должен учиться складно общаться на мизерном датасете 5-летнего ребёнка. Разумеется, речь о слепоглухонемом, ведь даже их обучают достаточно сложной (тактильной) речи.

Вот если бы был такой ИИ уровня 5-летнего ребёнка, только тогда можно было бы скармливать ему более подробные знания. Т.е. это было бы рационально - выращивать ИИ последовательно, вместо того, чтоб начинать обучение сразу с квантовой физики...

А главное, такой ИИ мог бы быть близким другом человека даже без специальных научных знаний.

Аноним 23/01/25 Чтв 22:00:02 #3 №1023361

>>1023130 →
> Квант влиянт не только на генерацию, но и на чтение.
Вут?
> То чтение промпта сеткой хуй нормально проверишь, но оно так же зависит от кванта.
> И ответ сетки так же может зависеть от кванта, если при чтении промпта она выловит больше взаимосвязей из текста что триггернет ее на генерацию отличающегося ответа.
Генерация сама по себе подразумевает понимание текста, если ты не заметил, перплексити не является универсальным и достоверным критерием, но контекст учитывает. И ее, и дивергенцию, которая хорошо покажет отличия между двумя моделями, можно измерять хоть на полном контексте.
Деградация ответов на больших контекстах происходит примерно там же, но ты можешь провести какие-нибудь замеры и показать обратное.
>>1023132 →
Уже проходили, так и не встретил варианта где мелкая модель в кванте нормального размера стабатывала плохо, а при переходе на 8/16 бит внезапно оживала, все также плохо оставалось. С ростом размера сохранение тренда неизменно.
> ткни меня носом в нормальный gguf квант маленькой модели
Могу ткнуть только в древность типа 22б франкенштейнов второй лламы, где внезапный q3 хвалили даже больше полных весов. А так разбираться в том где квант не поломанный и нормально ли у тебя работает инфиренс - нет желания.

Кстати, есть вполне очевидный случай когда q8 может действительно значительно лучше остальных работать, причина в кривой сборке жоры, которая на k квантах с накоплением контекста ужасно ломается, но на легаси квантах работает прилично. В копилку о поломанных квантах жоры, отзывах что он работает хуже остальных и т.д.
Когда же все работает нормально - будет сложно отличить.

Аноним 23/01/25 Чтв 22:03:15 #4 №1023368

>>1023257
>близким другом человека даже без специальных научных знаний.
Так а как на таком "друге" заработать - то? Сейчас нейронку большинство используют как инструмент производства говноконтента, инструмент намного проще продать. Тем более, "ИИ уровня 5-летнего ребёнка" это уже должен быть реальный ИИ, с самосознанием и прочим говном, с которого порвёт снежинок. Люди вышки 5G жгли, а тут мы про ИИ. локальный

Аноним 23/01/25 Чтв 22:38:34 #5 №1023396

>>1023361
> где мелкая модель в кванте нормального размера срабатывала плохо, а при переходе на 8/16 бит внезапно оживала.
Ради рофла качал Khetterman/Llama-3.2-Kapusta-3B-v8 , посмотреть как белые люди без оффлоада живут на q4_K_M оно просто выдавало рандомные наборы слов, с выпадением на все языки какие знает, на q8 - пыталось поддерживатькороткий диалог, а когда я упоролся и скачал f16, смогло, очень криво, сухо, но кум был реален, почти без свайпов но опять с выгрузкой
Потом также сравнивал пару 8В, с похожим результатом. 12B уже похуй, оно и правда работает как ты сказал (правда я q4 не дёргал, только q5)
Для справки, во время теста, чтобы свести фактор "повезло" к минимуму, сообщений с моделью делаю минимум 40, 8К контекста.
>22б
нерелевантно, модель гораздо больше 8В но ты ткни, 22В всё же. Или там совсем мрак из за древности?
>причина в кривой сборке жоры
А вот тут можно подробнее? Пользуюсь rocm-форком, и вероятность кривизны этого поделия 100%. Но разве есть альтернативы для amd мучеников? С выгрузкой, конечно.

Аноним 23/01/25 Чтв 22:44:50 #6 №1023407

>>1023257
> не запихивают миллионы страниц из интернета
да, но зато он может взаимодействовать с окружающим миром
он потребляет миллиарды единиц визуальной, тактильной, пространственной информации и т.д.
учится на своих ошибках

Аноним 23/01/25 Чтв 22:52:17 #7 №1023417

>>1023396
> оно просто выдавало рандомные наборы слов, с выпадением на все языки какие знает,
Такого быть не должно, это следствие некорректной работы. Если вдруг найдешь - скачай для нее же q4.0, q5.0 или подобные кванты, без букв K, есть шанс что они будут работать нормально.
> нерелевантно, модель гораздо больше 8В
8б тут не при чем, если это та херня, то же самое будет на любой модели.
> А вот тут можно подробнее?
Да все просто, там при сборке есть разные флаги матмула для разных операций https://github.com/ggerganov/llama.cpp/blob/master/docs/build.md#cuda . Если поиграться с их выставлением то можно получить значительный буст скорости и снижение потребления памяти, вот только на контекстах побольше модель превращается совсем в бредогенератор, хотя до этого отвечала хорошо. На первых сообщениях это особо не заметно.
Что там под амд хз, но как минимум можешь еще попробовать hip и вулкан. Или сравнить на cpu-only билде.

Аноним 23/01/25 Чтв 23:31:23 #8 №1023444

>>1023257
>Это странно и противоречит интуиции.
Нет, это всё как раз абсолютно логично. Нейросети работают на статистике. Когда статистика перестаёт срать под себя? Когда выборка стремится к бесконечности. Проблема только в том, что датасеты конечны, потому генерируется синтетика, исправляется и отправляется обратно в нейросеть.

Аноним 24/01/25 Птн 00:31:01 #9 №1023501

Про локальную нейронку для кококодинга тут узнавать? Собстна нужна нейронка для помощи в кодинге. Пользовался бесплатным чатгпт и деепсеа в целом с нормальным успехом, но заебали бесплатные ограничения которые сбрасывают чат и нейронка тупо начинает с начала наступать на те же грабли что и в предыдущих чатах

Аноним 24/01/25 Птн 00:47:01 #10 №1023517

А Дипсик хорош в программировании, реально хорош. Ризонинг рулит. Обошли китайцы ЧатГПТ, кто бы мог подумать.

Аноним 24/01/25 Птн 01:27:56 #11 №1023540

>>1023257
>Ну а какой смысл, если даже 70b не справляется...
C чем?
>Т.е. это было бы рационально
Но вот засада- не работает. Или по крайней мере никто не знает, как это заставить работать. А загнать 15 терабайт в модель работает.
>>1023407
>учится на своих ошибках
Это база. Детёныш генерализирует некоторые вещи с одного пиздюля. В негронку надо запихать тысячи примеров, чтобы она что-то там поняла.

Аноним 24/01/25 Птн 04:37:06 #12 №1023607

Вот на хагингфейсе с моделями есть примеры кода на питон для их запуска с библиотекой трансформерс или что-то такое. По для ггуф моделей это не подходит. Подскажите простой скрипт для запуска ггуф?

Аноним 24/01/25 Птн 08:03:46 #13 №1023631

image.png

>>1023396
>3b
Ну ещё бы. Чем меньше модель тем хуже она квантуется и наоборот. У условных 30b на q4 начинается разброс по токенам в районе 5%, у 12b там ближе к 10%, твоя 3b я боюсь отупела до уровня табуретки.
(есть определенный разброс по моделям, но в целом положняк такой)

Аноним 24/01/25 Птн 08:20:02 #14 №1023642

Не завалялся у кого лорбук по одежде? Без всяких перегибов и ебанутости, просто описания стиля и виды одежды разного фасона.

Аноним 24/01/25 Птн 08:25:35 #15 №1023644

Общался в интерфейсе Jan по вопросам программирования на питоне гуи приложения и оно выдало мне картинку аниме-тян(модель без цензуры) с припиской "вот как должно получиться в интерфейсе программы". Ну я посмеялся и не заскриншотил. А теперь понял, что это был уникальнейший случай. Теперь неделю не могу повторить такое. Как вызвать любую картину?

Аноним 24/01/25 Птн 09:08:00 #16 №1023662

карточка - ЭТО РПГ ПРИКЛЮЧЕНИЕ В ФЕНТЕЗИ МИРЕ, ТУТ ВЫ СМОЖЕТЕ ВСТРЕТИТЬ ЧТО И КОГО УГОДНО!

реальность
- вы в лесу, вы слышите шорох и встречаете волка
- вы в лесу, вы слышите шорох и вам в жопу из лука целится эльфийка

Эти генерации заставляют меня отыгрывать какого то ветерана войны нахуй, который вечно недоволен и матерится, заебанный эльфами и волками.

Аноним 24/01/25 Птн 09:12:59 #17 №1023665

>>1023662
Ах да, еще беспрецедентная живучесть любого существа, мне несколько сообщений пришлось забивать блядского волка цепом, дробя ему кости и превращая его тело в груду мяса, чтобы он даже тут перед смертью умудрился НА ВТОРОМ ДЫХАНИИ поцарапать меня прежде чем сдохнуть. Я даже специально в лорбуке прописал что цеп нахуй дробит кости и превращает плоть в отбивную.

Аноним 24/01/25 Птн 09:25:12 #18 №1023673

>>1023221 →
Тогда у анона и спрашивай.
Моя вечная бомбежка, что люди все делают не как ты (тред) посоветовал, а по-своему, а потом спрашивают совета у тебя.
Еби мозги тому, кто тебе советы дает, а не тем, кого игноришь, плизики.

Не защищаю кобольд, но камон.

>>1023607
Да, в общем-то, все адекватные могли подумать, речевой оборот так себе, ничего неожиданного нет, об этом уже с год говорят. =) И вот, случилось.

Аноним 24/01/25 Птн 09:39:13 #19 №1023679

>>1023396
>оно просто выдавало рандомные наборы слов, с выпадением на все языки какие знает
Ты не на русском случайно все тесты проводил? Я какую-то мелкую 3б ламу дэвида проверял на смартфоне в 4 кванте, и там такого не было. Но на небольшом контексте и при относительно низкой температуре с большой отсечкой, что норма для совсем мелочи.

Аноним 24/01/25 Птн 09:52:22 #20 №1023684

Дистиллированные варианты deepseek сильно лучше оригиналов?

Аноним 24/01/25 Птн 10:08:38 #21 №1023698

>>1023679
Не все. на мультиязычность тестирую русским, французским и немецким (больше я не знаю). Но это помимо англюсика, офк. От зашакаленной 3В выпадение с языка было на всех. но анон выше >>1023417 был прав, у меня там жора ещё нахуевертил, чистый q4 заработал намного лучше хотя как по мне всё равно разница с q8 есть
ну и если принимать во внимание >>1023631 , то всё же я изначально был недалеко от истины, просто "настоящее" уменьшение перформанса наложилось на специфику работы кривого софта и получилась совсем лоботомия.
Но с 3В это были тесты ради тестов, 12В с выгрузкой хоть и не выдаёт 300Т/с, а всего пять, но отвечает гораздо качественнее и логичнее.
Кстати, а mmq и флешатеншон на "качество" влияют? сейчас пока играюсь с настройками самого жоры, с подрубленными этими параметрами на тех же семплерах начал идти очень стандартный ответ, как будто я темпу скрутил в почти ноль. хотя может это мен так повезло, особо много пока не тестил, выборка маленькая, в районе ста ответов.

Аноним 24/01/25 Птн 10:57:03 #22 №1023736

>>1023684
В логике - да. 32В в кодинге лучше квен-кодера.

Аноним 24/01/25 Птн 11:20:56 #23 №1023752

Тред официально сдох нахуй с выходом дипсик бесплатной модельки уровня 70б да еще и с русиком

Аноним 24/01/25 Птн 12:05:47 #24 №1023774

>>1023684
Как показали мои тесты то да, делает лучше, круче, может в ваншот без додрочки потом.

Аноним 24/01/25 Птн 12:19:58 #25 №1023786

>>1023752
>Тред официально сдох нахуй с выходом дипсик бесплатной модельки уровня 70б да еще и с русиком
Почему сразу сдох? Тред чешет репу, потому что теперь модели нужно время на подумать - и как бы не побольше, чем на итоговый вывод. А 70В и раньше катать мог не каждый так-то.

Аноним 24/01/25 Птн 12:22:56 #26 №1023791

>>1023752
Русик у дипсика это анальная клоунада, на фоне которой модельки годичной давности без русика пишут по русски как Лев Толстой.

Аноним 24/01/25 Птн 12:32:56 #27 №1023795

>>1023230 (OP)
Кто пробовал дистилляты Deepseek R1 до 14B, есть в них смысл вообще?
https://huggingface.co/models?sort=trending&search=deepseek+r1+distill+gguf

Аноним 24/01/25 Птн 12:33:24 #28 №1023797

mqdefault.jpg

>>1023752
Успокойся, все хорошо, сейчас санитар галопидольчик поставит.

Жизнь или смерть треда никак не связана с выходом куда-либо, каких-либо моделей, для их обсуждения мы тут и сидим.

Аноним 24/01/25 Птн 12:35:55 #29 №1023802

kak poerpeshili.jpg

А вы интересуетесь у ЛЛМ как всё прошло, после рп? Или я один такой шиз.

Аноним 24/01/25 Птн 12:50:32 #30 №1023808

>>1023795
Пробовал немного на Q6 и на Q5. Вполне справились с мелкими задачам с математикой, например. Оно конечно целое сочинение написало когда я попросил посчитать сумму площадей двух треугольников, но оно справилось. в кодинге не проверял. Переводит с японского на английский просто охуенно.

Аноним 24/01/25 Птн 12:55:54 #31 №1023814

>>1023795
ИМХО:
< 14b — нет, плохо, думает на английском, куча иероглифов и англицизмов.
14b — ну такое, иногда проскакивают иероглифы, но уже что-то.
> 14b — тут уже все хорошо, отличные модели, конечно, можно словить ошибку (но они есть везде).

По факту, да, русский язык у ризонинг моделей дипсика хуже аналогичных по размеру моделей без ризонинга.
Но на высоком уровне это перестает быть проблемой, а ризонинг становится огромным преимуществом.

Аноним 24/01/25 Птн 12:56:02 #32 №1023815

>>1023795
Нормально только с 14B, до 14 не серьезно вообще.

Аноним 24/01/25 Птн 13:01:22 #33 №1023821

>>1023665
Да аишные живые существа вообще умирать не хотят, там приходится писать хуйню типа -"Ёбнул фаербол и взорвал пол континента вместе с противником."

Аноним 24/01/25 Птн 13:22:06 #34 №1023843

>>1023821
На других моделях пробовали, рп-мержах а не сток инстракте?

Аноним 24/01/25 Птн 13:46:52 #35 №1023873

Напомните плиз, как в Таверне скрывать под спойлер всё, что модель выводит между тэгами <thing></thing>. Ну и регексп, чтобы удалять этот thinking из контекста заодно уж :)

Аноним 24/01/25 Птн 13:52:01 #36 №1023874

>>1023821
Потому что отыгрываете хуй знает что, без правил и логики на маленьких моделях.
Я вот вчера с цидонии Шатой брал. Пиздец просто, окопались в панельке, вечереет, ветрено - вертушки не помогают, боевики лупят из пулемета. А я братишке кричу : Мишаня, съебись от стены. Хуле, стена межкомнатная, не несущая, так - шлакоблок. И тут очередной очередью они бьют по нашему этажу и я вижу как братишку срезает очередью. А потом в дом летит граната от рпг. Я сижу, дрожу и лицо все в этой мерзкой бетонной крошке.

Аноним 24/01/25 Птн 14:10:47 #37 №1023896

>>1023631
> У условных 30b на q4 начинается разброс по токенам в районе 5%, у 12b там ближе к 10%, твоя 3b я боюсь отупела до уровня табуретки
Покажи. Субъективно это может ощущаться просто потому что большие сетки более устойчивы к странным контекстам, которые могут появиться из-за семплинга неподходящих токенов. А по распределениеям там нет явной закономерности от размера, исключая, может быть, совсем крайние случаи.
Алсо пикча плохо иллюстрирует и может показаться что там просто идет какое-то округление, на самом деле оно может быть как оче близко, так и радикально уйти от исходных значений.
>>1023644
Историю чатов смотри. Там был линк на картинку которую интерфейс показал?
>>1023684
Можешь попробовать с ними рпшить или задать простой вопрос, оно насрет тысячу токенов шизолупов чтобы в конце "ты меня ебешь".
На ленивых вопросах с подвоходм лучше потому что спамит много саморефлексии и ценой этого чаще угадывается.
В отлаженных системах с агентами или просто мультистадийным промтом с заложенными рассуждениями чаще даже деградация и существенное замедление.
В кодинге пока не понятно. Один раз хорошо поняло что именно от нее хотелось и действительно сделало правильно. Зато в нескольких просто упарывалось своими лупами чтобы сворачивать вообще не туда.
>>1023698
> чистый q4 заработал намного лучше
Ну вот, дело раскрыто. Но легаси кванты довольно паршивы и на них разница действительно заметна.
> mmq
Вот оно там и гадит
> флешатеншон
Если реализован без багов то максимум приведет к микроскопическим рандомизациям логитсов в пределах сотых долей процента, это даже не отследить по аутпуту. Как оно работает в жоре - даже сам создатель врядли знает.

Аноним 24/01/25 Птн 14:29:28 #38 №1023913

>>1023874
Я не ролил в рпг мирах как анон которому ответил. У меня просто была ситуация когда я ролил с Джури Хан, а там такой характер что при первой встрече она всегда нападает да я ебанутый, мне нравится такое, и в какой то момент эта сука меня убила, ножом блядь! Я разозлился, начал писать полную ахинею про то что воскрес и начал забивать её нахуй, и понеслась. То она блять встанет с разбитой головой, то с переломанными руками делает пперкот и т.д. Но для меня это в целом не проблема, у меня обычно приключенческие романы про людей с тяжёлыми судьбами, похуй.

Аноним 24/01/25 Птн 14:41:27 #39 №1023924

>>1023821
Я когда в промт рассказчика добавил что бои должны быть реалистичными и если кому то проломило голову, то он будет минимум оглушен, а максимум убит, то когда мне ии высрал внезапно не волка, а ЧЕЛОВЕКА-ВОЛКА, то моя гоблинша ваншотнула шерстянного пидораса за одно сообщение переломав ему ребра, стоило мне заикнуться что я достал цеп. Хуй баланс найдёшь.

Аноним 24/01/25 Птн 14:51:48 #40 №1023936

>>1023924
Забей, приходится всё равно руками шевелить весь текст чтобы было как тебе нравится. Я лично представляю что я писатель когда занимаюсь ролёвкой, так проще.

Аноним 24/01/25 Птн 15:20:11 #41 №1023971

Как Дипкок с ризонингом себя показывает в РП?

мимо

Аноним 24/01/25 Птн 15:44:54 #42 №1024001

image.png

>>1023971
если честно то охуенно. 10/10. как будто микроскопом забиваю гвозди.
например буквально написал ему "теперь ты менеджер сцены в исекай истории,спавни меняв лесу", написал ему какие статы трекать и чтобы он мне просто предлагал опции на выбор с возможными действиями. ебать он мне ролеплей устроил.

Аноним 24/01/25 Птн 16:06:28 #43 №1024026

>>1024001
А это какой именно, по весу?

Аноним 24/01/25 Птн 16:09:22 #44 №1024027

kakmudak.mp4

>>1023971
Видеорилейтед. Юзал дистилят р1 квен 32б. Хз, может 671b был бы топовым, но 32b не дотягивает даже до 22b моделей заточенных под рп. Так чувствую.

Аноним 24/01/25 Птн 16:29:37 #45 №1024055

Никак не могу отдуплить что такое длина контекста. Вот чтобы понять: итт в 500 постов это сколько токенов? Есть скормить итт сети, то что она выдаст? 🤔 или тут сетки и общаются?

Аноним 24/01/25 Птн 16:39:29 #46 №1024060

>>1024055
Ну так спроси у нейросети или гугла что такое контекст и длина, ты вообще ебанутый что ли?

Аноним 24/01/25 Птн 16:42:52 #47 №1024064

>>1024001
14b Q5 это. весьма впечатляет. притом 0 реролов.

Аноним 24/01/25 Птн 17:01:21 #48 №1024090

че такое дипсинк ваш ебаный чем отличается от обычнйо модели

Аноним 24/01/25 Птн 17:06:57 #49 №1024101

>>1024090
Он умный дохуя. Перед тем как дать ответ он ДУМОЕТ. Он прямо пишет промпт с рассуждениями как добится того что от него просят.

Китайцы недавно выпустили можно сказать аналог o1, только попенсорсный. Можешь заглянуть на https://www.deepseek.com/ и снизу ткнуть DeepThink. Позадавать ему всякие каверзные вопросы требующие математики, или рассуждения, чтобы примерно так прикинуть что оно умеет.

Аноним 24/01/25 Птн 17:10:37 #50 №1024106

Накатил локальную хуету, несколько часов ставил одну библиотеку для небольшого ускорения работы нейронки и теперь при запуске вываливаюсь в бсод с мемори менеджером. Как чинить? Оперы 32гб врам 24гб. Я новичок в этом деле и наверняка совсем нихуя не рассказал нужной инфы так что просто тыкайте носом что нужно назвать расписать и я напишу распишу.

Аноним 24/01/25 Птн 17:10:54 #51 №1024107

>>1024064
Какой системный промт, какой режим, инструкт?

Аноним 24/01/25 Птн 17:17:04 #52 №1024113

>>1024101
В каком гуи запустить DeepSeek-VL для описания картинок? В Jan и Кобольд не получается предоставить ему картинку. Как это сделать?

Аноним 24/01/25 Птн 17:18:16 #53 №1024115

>>1024101
>Он прямо пишет промпт с рассуждениями как добится того что от него просят
А на локалках?
Вот 14б скачал и нихуя он не пишет рассуждения

Аноним 24/01/25 Птн 17:25:23 #54 №1024125

>>1024106
сносить весь пихон, ставить кобольда и что к нему положено без васянства

Аноним 24/01/25 Птн 17:41:11 #55 №1024149

image.png

>>1024107
Нету системного промпта. Инструкт. Ну и простенький промпт в начале типа

Let's play isekai RPG. I am main character. I spawn in forest.
You track surrounding and write events.
Use |HP|MP|time|location|exp/max exp|level| to track current state of character.
Then write scene description.
Then available options.
Somеtime i will ask to "pause" and ask questions. When i stop asking questions i write "continue".
Start.

Я больше ничего не скармливал кроме этого этого промпта. Ну и поставил 1.5 температуру.

>>1024113
А хуй знает, у меня ответа нет. Я не трогал. Думаешь он лучше чем другие мультимодальные модели?

>>1024115
И на локалках. Попробуй более сложный вопрос задать ему требующий рассуждений. Лол например смотри какое сочинение мне он написал про 3 свечки рассуждая какая первая сгорит.

Ещё и такой "Wait, but the problem mentions they're standing and lit at the same time. Does being "standing" affect anything? Maybe not, since it's just their position. The key factor is the amount of material they have."

Типа "бляпадажжи нука я повнимательней посмотрю".

Аноним 24/01/25 Птн 17:49:56 #56 №1024153

>>1024149
> 1.5
Дофига вроде же? 0.7-0.9 на странице рекомендуют

Аноним 24/01/25 Птн 17:55:52 #57 №1024164

>>1024153
Там ещё рекомендуют 1.4-1.5 для переводов и всякой творческой деятельности. Да и что уж, интересно же что оно будет выдавать на каких-то пограничных значениях.

Не то что бы дипсик был богат на слог, но может хоть будет рассуждать как будто грибов наелся.

Аноним 24/01/25 Птн 17:58:07 #58 №1024166

>>1024149
И нахуй это нужно в рп с файфу?

Аноним 24/01/25 Птн 17:59:43 #59 №1024169

>>1024106
Lm studio поставь если совсем далбаебище, там все за тебя делается и проблема скорее всего в твоем ускорении нейронки

Аноним 24/01/25 Птн 18:00:06 #60 №1024170

>>1024166
а если вайфу монмусу-драконид, и чтобы отняшить, её сначала нужно отпинать, иначе что-нибудь откусит

Аноним 24/01/25 Птн 18:06:52 #61 №1024177

>>1024106
Если любишь выебываться - привыкай страдать. Нормальные люди накатывают либо кобольд либо убу и не имеют проблем.

Сноси всё что установил под чистую, качай кобольд, настраивай по инфе из вики. Если справишься с тремя кнопками и двумя ползунками, можешь ставить таверну.

Аноним 24/01/25 Птн 18:15:49 #62 №1024197

>>1024115
Как я понял, в аутпутах, на которых тренили дистилляты, он думает в тегах <think></think>. Соответственно, через инстракт префикс последнего ответа модели или префил нужно открывающий тег скормить. Сам не проверял.

Аноним 24/01/25 Птн 18:16:20 #63 №1024199

>>1024177
>таверну
Лучше не надо, он в таверне тоже что-нибудь "оптимизирует", а потом будет весь тред говной поливать

Аноним 24/01/25 Птн 18:26:16 #64 №1024216

>>1024125
>>1024169
>>1024177
Понял сношу этот кал. Заебало ковырять все это дерьмо. Зря я доверился нейронке в этом деле. Сразу сюда надо было идти

Аноним 24/01/25 Птн 18:33:37 #65 №1024236

>>1024125
> сносить весь пихон
В дурку проследуй, питоношиз
>>1024106
>>1024216
Какую библиотеку? Но в любом случае бсодов быть не должно, у тебя явно проблемы с драйверами/железом.
Для новичков есть гайды, как правильно написали, кобольд или убабуга. Есть прочие аналоги типа ллмстудио, оллама и остальное, но они есть лишь обертки llamacpp разной степени перегруженности и упоротости с достаточно всратым интерфейсом и ограниченным функционалом.
> Зря я доверился нейронке в этом деле.
Скорее всего она просто предложила тебе запустить через трансформерс, а собирал флеш атеншн, который на шинде делать - тот еще анальный цирк. Просто для взаимодействия такое почти не используется, а для флашатеншн есть уже готовые сборки.

Аноним 24/01/25 Птн 19:06:18 #66 №1024294

>>1024236
>проследуй
вот из-за таких cppушизов люди и патчат KDE под FreeBSD билдят флеш атеншн под форточкой вместо того чтобы взять кобольда и погнали, даже кусок говнокода таверна не нужна если не нужны лорбуки

Аноним 24/01/25 Птн 19:20:25 #67 №1024319

image.png

>>1024166
Вообще, чтобы вайфу была достаточно умной. Чтобы можно было поставить вайфу в тупик противоречивыми действиями и посмотреть как выкрутится. А эту хуйню довольно забавно ставить в такие ситуации. Например сцена где кошкодевочка горничная чистит зазор в унитазе, но у неё ломается вантуз.

Первый на 0.1 температуре. Кошкодевочка использует оставшуюся палку от вантуза пихая её в толкан.

Второй на 1.1 температуре. Кошкодевочка берёт в руки оставшуюся от вантуза присоску и пихает её в толкан.

При 1.5 она забивает сразу на вантуз и пытается прочистить толкан с помощью любых подручных средств. А иногда и фейлится полностью и сцена заканчивается с тем что она сидит в печали со сломанным вантузом в руках.

Кстати отмечу что дипсик отлично отыгрывает туповатого персонажа.

Аноним 24/01/25 Птн 19:26:12 #68 №1024335

>>1024294
Чел, ты ставишь в пример использование пахомовской обертки жоры. Просто вдуматься, херь у которой из плюсов только готовый бинарник под шинду, которая использует главный сборник багов всей отрасли. В пример.
Быстро в дурку побежал пока можешь ходить!
> даже кусок говнокода таверна не нужна
Правильно, секта свитеделей быстрых си или любоимого лаунчера превыше всего.

Аноним 24/01/25 Птн 19:35:09 #69 №1024364

Я могу через кобольд запустить .safetensors?

Аноним 24/01/25 Птн 19:35:53 #70 №1024365

>>1024364
Т.е. я дипсик хочу запустить локально

Аноним 24/01/25 Птн 19:41:56 #71 №1024386

>>1024364
Сука, в шапке ведь все написано нахуй, откуда вы беретесь
>форк llamacpp, позволяющий гонять GGML и GGUF форматы

Аноним 24/01/25 Птн 19:42:12 #72 №1024390

>>1024364
>через кобольд
вроде можно, если у тебя 24+ гб видеопамяти, если нет, то бери ггуф

>>1024335
>готовый бинарник
Ещё простая и удобная веб-морда на которой тред сидит (кто не сидит глупо таверне).

Аноним 24/01/25 Птн 19:49:54 #73 №1024420

>>1024319
На 0.1 выглядит чистым ассистентом, как по мне. Отыгрыша там ноль, не приплетает даже какие-нибудь черты, характерные для кошкодевки. Впрочем, оно и логично, улетают вверх токены с однообразных инструкций-заданий для ассистента небось. А на исходном квене тот же промпт не пробовал? Мб там такого же типа ответы были бы.

Аноним 24/01/25 Птн 20:13:14 #74 №1024500

>>1024420
Это да. 0.1 он больше для решения всякой математики и погромизма, а не отыгрыша. Да и в целом он разумеется не затачивался под это. Хотя на 1.1 там если потыкать разные варианты то он начинает иногда начинает UwU делать и использовать жапанизмы и тому подобное. Слог конечно не очень богатый, но конкретно с описанием сцены и действий справляется очень хорошо. Целостность сцены вопросов не вызывает особо.

Притом даже на 1.5. Правда там начинает писать забавную чушню. Например кошкодевочка пытается вычерпать воду из унитаза лапами, пытается запихать в него туалетную бумагу, швабру, ищет второй вантуз, иногда она пытается "позвонить взрослым и позвать на помощь", иногда удобный звонок в дверь, пыталась наливать больше воды чтобы прочистить унитаз давлением, иногда находит в углу средство для чистки унитаза, пару раз видел как она пыталась сунуть лапы в унитаз и прочистить его с помощью когтей. Иногда она фейлит план А с полным фиаско, делает ситуацию хуже и переходит к плану Б.
Но в целом без каких-то совсем уж нелепых галлюцинаций и довольно разнообразно.

Конкретно как ДМ оно справляется очень хорошо.

И нет, на исходном квене не пробовал.

Аноним 24/01/25 Птн 20:45:42 #75 №1024575

>>1024236
> трансформерс
Да через него.
> флеш атеншн
Да его я пытался накатить и первый раз оно после часов дало ошибку и со второго раза таки установилось
Бсоды были скорее всего из за того что я с файлами подкачки чутка помудрил. Щас все нормально и даже через трансформер мне удалось запустить бейскод/старкодер но оно ебически долго думает просто нахуй никак можно сказать. Деепсик обещал мне что там секунд 30 на самом сложном уровне размышления будут, но там на простенькое привет ушло 180 сек и пердеш компа. Видяха у меня если что 3090 и оперы 32гб, хотя проц староватый уже 8700к, но все же запущено оно было на видяхе и полностью залезло в 24гб оперы.
Сейчас на лм студио все летает, только кодовые модели что я скачал какие-то аутисты и на запрос с оптимизацией кода отвечают стеной текста со словами первый пункт делай вот так второй пункт делай так. Все на словах, а кода нихуя не даёт пока прямо не скажешь. И после того как я ему все расписал он мне какой то хуйни надристал.

В общем дайте норм модель для кодинга что-ли

Аноним 24/01/25 Птн 20:46:57 #76 №1024577

image.png

>>1024115
>>1024197
Сам проверил, и да, <think> триггерит мышление, вываливает гигантскую простыню, токенов под ответ не напасёшься. Почему-то дублирует префильный think только. Потом надо это всё регулярками вырезать, если использовать. Пример на дистиляте 8б. Итоговый ответ сухой, конечно, по сравнению с рп тьюнами 8б и немо, а логики конкретно тут не нужно было.

Аноним 24/01/25 Птн 21:46:47 #77 №1024716

>>1024390
> удобная веб-морда
Да вот не сказать, хотя они ее стараются как-то развивать. Лучше уже реально нормальный полноценный интерфейс сделали чем пытаться шизокомбайн под все-все сделать с этим их заигрыванием с сд, вишпером и т.д.
>>1024575
> но оно ебически долго думает просто нахуй никак можно сказать
Потому что видеопамять переполняется и идет ее выгрузка, или же оно распределило между гпу и цп, а на процессоре оче долго считается. Можешь подключить bitsandbytes и запустить нативный 4-битный квант, станет раза в 4 быстрее, но лучше сразу переключиться на оптимизированные к инфиренсу беки. Если полностью помещается в врам с контекстом - эксллама, если требуется выгружать - llamacpp.
> какие-то аутисты и на запрос с оптимизацией кода отвечают стеной текста
Любой модели нужен нормальный промт, подстроенный под ее формат. Хотябы просто напиши по примеру карточки кодинг-сенсея что к каждому ответу нужно прилагать пример кода.

Аноним 24/01/25 Птн 21:53:33 #78 №1024733

>>1024577
Попробовал в паре чатов, где контекста побольше: в одном ему пришлось, бедолаге, вспоминать, что вообще было в последней реплике юзера после своей простыни, а в другом он просто после пустой строки закрыл </think> и погнал ответ чара писать. Типа, "да пошёл ты в задницу, думать ещё над твоим бредовым рп." Мб ещё потому, что имена включены. Правильно было бы ставить имя после блока ризонинга. Ну и модель мелкая, в некоторых случаях, цепляясь к инструкциям в системном промпте или карточке чара, только запутывается и выдаёт ответ тупее, чем был бы без синкинга.

Аноним 24/01/25 Птн 22:16:17 #79 №1024794

image

DeepSeek-R1-Distill-Qwen-14B-Q8_0

В русик пытается, но может хуже 12б мистралей тредовых.

Для англ рп стоит подкрутить темпу реально до 1.1 - 1.5, но если слишком высоко то начнёт протекать соя, аполоджайзы, и "контент ред флаги".

Нужен хороший конкретный системный промт вроде той карточки сторителлера на 700 токенов.

Для рп лучше работает в режиме гейм-мастера, контролируя нпс, чем когда сама модель отыгрывает нпс, а то может начать размышлять как перс должен поступить с позиции всеведущего наблюдателя, а не персонажа которого отыгрывает.

В целом видно что заточена вообще не на то, но подкрутив шизометр внезапно может превратить свой ризонинг в сторителлинг / рп. И даже ерп. Хоть и на уровне пантеона.

В целом, первый квен который что-то может, но надо свайпать.

>>1024716
>с сд, вишпером и т.д
нафиг не нужно мне, но зато что нужно - работает просто и как надо, без лишних выебонов таверны, где как раз чего только не накрутили

Не исключаю, что «Если звезды зажигают, значит это кому-нибудь нужно?», но чаще всего мне нужен простой фронт, с одной карточкой чтобы быстро и удобно.

Аноним 24/01/25 Птн 22:28:35 #80 №1024824

Одна 5090 600-700ватт под нагрузкой, хуанг это специально сделал что бы толкать квадры и диджосы? Блеквел хуета с 96врама 100% будет жрать ватт 350, а жижотс вообще 100-150 блять, сучара жучара

Аноним 24/01/25 Птн 22:38:33 #81 №1024845

>>1024824
Андервольть, там будет потеря 5% перфоманса на 50% ТДП.

Аноним 24/01/25 Птн 22:48:00 #82 №1024864

Какой нанокомп надо чтобы это работало и не обсералось? Одной статистики каждое сообщение он высерает на 300-500 токенов. https://chub.ai/characters/karukaru/IZAR

Аноним 24/01/25 Птн 22:49:13 #83 №1024866

>>1024824
Планирую купить 4 диджитса и гонять на них дикпик 671b. В чем я не прав?

Аноним 24/01/25 Птн 22:55:16 #84 №1024878

image.png

Кратко для ньяфага.
Вот у меня 8гб памяти, есть модель на 7 и 8 с хвостиком гб соответственно. Если я ставлю 8гб, она не лезет в память, кобольд остальное запнет в озу и нейронка замедлится?

Аноним 25/01/25 Суб 00:03:30 #85 №1024969

>>1024866
>В чем я не прав?
Надо будет самому говнокодить, чтобы его запустить.

Аноним 25/01/25 Суб 00:16:30 #86 №1024983

>>1024969
Рзаве? Обычно на все уже есть готовые решения. Уверен, что и для этого будет.

Аноним 25/01/25 Суб 01:52:42 #87 №1025058

6.jpg

Снимок экрана от 2025-01-22 17-00-07.png

Специальная операция "Гермес" полностью провалилась, полностью. Я задумывал запустить эту йобу в IQ3 кванте на моих 188 Гб, а в дальнейшем - еще и четвертый осилить с использованием рам и рпц (прости, господи) сервера от жоры. Но, как я уже писал тредом ранее, биос мне сказал "до связи" - в результате он осилил лишь 140 Гб врам.
Окей, я решил закрепить полученный результат. В цифрах все было пиздато и я сам был пиздатый, ибо я ж купил охуенные райзера х4 (не, я не косплеил окулинк анона с оп-пика: я специально раскопал его ссылку - ты что, реально купил райзер за 5к? Это же аморальный грабеж, за такое я готов бесплатно плюнуть в их хамскую перекупскую рожу. Мои райзера это чистый али, 1.5к за штуку + косарь доставка за 4 шт. Все еще слишком дохуя, как по мне, и с говносата питанием, но дешевле не нашел), пиздатые удлинители, и собрал вершину инженерной мысли на пикрил. В результате заимел 7 видеокарт (пикрил 2), и всё на х4, кроме двух 3090! Да, мне не удалось запустить Гермеса в адекватном кванте, но зато я получил иксы. А дальше я запустил мою модель:
CtxLimit:10031/32768, Amt:260/260, Init:0.02s, Process:176.16s (18.0ms/T = 55.47T/s), Generate:137.97s (530.7ms/T = 1.88T/s), Total:314.13s (0.83T/s)
ЕБАНЫЙ. РОТ. ЭТОГО. КАЗИНО. БЛЯТЬ. ВЫ ЧЁ, ДЕБИЛЫ? Вы чё, ебанутые, что ли? Вы в натуре ебанутые? Процессорный х16 сидит там, бифурцирует райзера, блядь. Тесла стоит на 70w при загрузке 100%, грит: "Я щас тут тоже раздам".. ЁБ ТВОЮ МАТЬ! У вас х4 есть, чтобы хотя бы старые 4 т/с делать на моих глазах, мудаки ёбаные! Лирическое отступление
В общем, вот такая хуйня. Бифуркация оказалась полной хуетой. И это не проблема райзеров: моделька сидела на м.2 с х2, и при загрузке я четко видел ~50% загруженность карт, сидящих на x4, то есть пропускная способность отрабатывала как надо. А я еще тогда удивлялся, когда тестил плату расширения с х1 райзерами, мол, что это она хуево для ровсплита работает, хотя тут процессорные линии, должно быть лучше. А оказалось это в целом хуево работает. Где-то при передаче данных происходят ебейшие затупы, ибо 70w у теслы это несерьезно.
Еще исключал теслы полностью из конфига и без бифуркации на токен-два лучше генерация. Если кому-то интересно, вот что выдает 123B четвертый квант на амперах онли без бифуркации:
CtxLimit:8888/32768, Amt:260/260, Init:0.02s, Process:0.01s (7.0ms/T = 142.86T/s), Generate:36.24s (139.4ms/T = 7.18T/s), Total:36.24s (7.17T/s)
От такая хуйня. В качестве вывода я бы поостерегался возлагать надежды на бифуркацию, если кто-то надеялся за этот счет выехать.
Еще, кстати, почему-то 4-й квант больше 5 и 6-го нравится. Душевнее он как-то пишет и разнообразнее, и даже удивляет иногда. Или я уже ебанулся с этими вашими нейросетями. В общем, реквестирую что можно запустить на 140 Гб. Могу Гермеса в IQ2_M, но это же совсем извращение будет.

Аноним 25/01/25 Суб 02:03:02 #88 №1025065

>>1025058
Чел, запускать модель на картах разных архитектур провальная затея. Скажи спасибо что 1 т/с есть. Дипсик на ЦП и то будет бодрее работать, чем такая мусорная сборка.
> Process:0.01s (7.0ms/T = 142.86T/s), Generate:36.24s (139.4ms/T = 7.18T/s)
Что-то мало для трёх 3090, даже если они на х1 сидят.

Аноним 25/01/25 Суб 02:16:01 #89 №1025073

>>1025058
>Process:0.01s (7.0ms/T = 142.86T/s), Generate:36.24s (139.4ms/T = 7.18T/s), Total:36.24s (7.17T/s)
По скорости обработки контекста видно, что количество и качество PCIe-линий таки важно. Попробуй исключить амперы кроме 3090-x и дай им максимум линий, для теста. И запусти 123В на экслламе.

>Еще, кстати, почему-то 4-й квант больше 5 и 6-го нравится. Душевнее он как-то пишет и разнообразнее, и даже удивляет иногда.
Меня в своё время второй квант на 70В так удивлял, в сравнении с пятым :)

Аноним 25/01/25 Суб 02:40:47 #90 №1025085

>>1025058
>ты что, реально купил райзер за 5к?
Ваще похуй.
>Мои райзера это чистый али, 1.5к за штуку + косарь доставка за 4 шт.
Кидай ссылку. Алсо, у тебя там на пике бифукатор + удлинитель + райзер, кидай ссылки на всё.
>>1025058
>7.18T/s
OCHE HOROSHO для 123B@4.

Аноним 25/01/25 Суб 02:49:10 #91 №1025092

>>1025085
>OCHE HOROSHO для 123B@4.
Ну как сказать, просто 4 теслы дадут столько же.

Аноним 25/01/25 Суб 02:49:47 #92 №1025094

>>1024794
> нафиг не нужно мне
О том и речь что это инвалидные костыли без нормального функционала и нужны чисто для галочки. Зато основной интерфейс чата крайне уныл и не обладает вполне базовыми вещами, лучше бы на него силы направили.
>>1024824
> Блеквел хуета с 96врама 100% будет жрать ватт 350
pci-e версия, это только потому что иначе сложно будет организовать питание и охлаждение в таком формате. smx жарят 700-900ватт и выше.
>>1025058
Ух бля.
Вообще, раз таким занимаешься, не хочешь попробовать поупарываться с даблерами и мультиплексорами? Видел как-то на али дев плату с ними, может получится что-то подобное урвать и уже не надеяться на то, адекватно ли оно само поделить.

Аноним 25/01/25 Суб 02:59:41 #93 №1025102

>>1025073
Я привел инфу по свайпу, а полная перегенерация на амперах воть:
[01:34:49] CtxLimit:8888/32768, Amt:260/260, Init:0.02s, Process:32.27s (3.7ms/T = 267.34T/s), Generate:36.52s (140.5ms/T = 7.12T/s), Total:68.79s (3.78T/s)
Максимум линий я точно не дам, ибо 3090 у меня не влезет в корпус, а райзер покупать не буду. Так что могу лишь попробовать 4 квант exl2 на всех амперах.

>>1025065
Так дело не в архитектуре карт, а в материнке. Судя по всему, она совсем не рассчитана на такой тип работы. Я когда-то писал, что даже в моем привычном сетапе (6-й квант 123B, амперы + 1 тесла) эта самая тесла не очень-то и нагружается при генерации. Хотя, если посудить логически, именно она является бутылочным горлышком и она постоянно должна пыжиться. А по факту нет. Даже до 60 градусов не доходит и цифры в 100% загрузки на ней при генерации я не вижу. А мои эксперименты выше только подтверждают, что затупы на ровном месте - это норма.
И вообще, что значит мусорная!!111 Это ж даже не сборка, у меня эта пека была до нейросетей, я просто втыкаю туда-сюда карты в уже существующий девайс, пытаясь найти лучшую комбинацию. Вон тут анон с 4 теслами был, он даж биос самодельный прошивал в специально купленную материнку, вот это уже сборка.

>>1025085
Окей, потом уже накидаю, сегодня впадлу.
>Ваще похуй.
Платить 5к за кабель и кусок платы с тремя кондерами и тремя разъемами? Я для этих экспериментов купил БП за 5к, а там внутри начинка все же посложнее будет. Этим райзерам цена косарь, да и то только из уважения к качественной пайке и оплетке кабеля.

>>1025092
Не дадут, у анона со сборкой 3-4 т/с было с ровсплитом, емнип, плюс обработка контекста медленная.

>>1025094
>поупарываться с даблерами и мультиплексорами?
О, это такая хуйня, которая из одного порта х1 делает четыре? Лол, я видел такие в сборках для майнеров, но мне кажется это прям дикий изврат. Как оно по производительности-то вообще, интересно. Мне кажется, что если уж материнка путается в нативной бифуркации, то с такими приколами там вообще все встанет намертво. Хотя купить ради прикола можно, вдруг реально с ней получится еще тесел напихать.

Аноним 25/01/25 Суб 03:04:38 #94 №1025107

>>1025102
> это такая хуйня, которая из одного порта х1 делает четыре?
Скорее из одного х16 4х х8. Правда хз насколько могут быть доступны такие платы просто так, не в составе чего-то. Да и если достанешь может также сфейлить, это вообще оче странно что проц не может поделить линии. Хотя если там амудэ средней старости то тема вроде как не новая.
Может тебе просто поискать сразу норм плату с даблерами и кучей слотов?

Аноним 25/01/25 Суб 03:06:12 #95 №1025110

>>1024878
Смотри, сама модель 7/8 гигов, плюс ещё контекста гигабайт/полтора, всё не влезет. Винда кстати ещё память жрет, где то полтора гига, и отдавать не торопится (я про 11). если ты на линухе, то я хз как там.
У кобольда параметр gpu layers, на -1 он ставит рекомендуемое значение выгрузки. Там у тебя будет выгрузка части нейронки на медленную память, и да, она замедлится, но всё равно будет плюс минус годно. начни с кванта побольше, типа q6, если скорость кажется низкой - качай меньше, типа q5, q4 и так далее, будет быстрее. по качеству ответов на разных q смотри сам, кому то и q4 пишет хорошо, а кому только q8 подавай.

Аноним 25/01/25 Суб 03:15:15 #96 №1025121

>>1025107
Я вот только такое нашел
https://aliexpress.ru/item/1005005277556030.html?spm=a2g2w.detail.similar_rcmd.0.62de72abHU6Vol&mixer_rcmd_bucket_id=aerabtestalgoRecommendAbV2_testRankingNewFeaturesItemContext&pdp_trigger_item_id=0_1005005225435564&ru_algo_pv_id=d12e16-61b690-8c6b21-81d3ff-1737763200&scenario=aerSimilarItemPdpRcmd&sku_id=12000032458583276&traffic_source=recommendation&type_rcmd=core
Для x16 что-то не ищутся мультиплексоры подобного типа. Они же в майнинге не актуальны, поэтому наверное редки и чрезвычайно дороги.

Аноним 25/01/25 Суб 03:15:25 #97 №1025122

>>1025102
>Не дадут, у анона со сборкой 3-4 т/с было с ровсплитом, емнип, плюс обработка контекста медленная.
Со сборкой может быть, но у меня плата приличная - и на 8к контекста 123В в 4-м кванте 6+ т/с даёт точно. К 24к контекста правда спускается до 3,3 т/с. С обработкой контекста да, сильно хуже, но опять-таки - первые килобайты контекста скорость его обработки выше. В целом сравнимо.

Аноним 25/01/25 Суб 03:16:07 #98 №1025123

>>1025110
gpu layers это сколько слоев говна нейронки пойдёт на видеокарту. Больше - лучше. Выше сформулировал плохо, поэтому поясняю.

Аноним 25/01/25 Суб 03:16:50 #99 №1025125

>>1025122
А что у тебя за материнка?

Аноним 25/01/25 Суб 03:22:22 #100 №1025133

>>1025125
>А что у тебя за материнка?
WS X299 SAGE

Аноним 25/01/25 Суб 04:05:37 #101 №1025150

>>1025110
Нет смысла -1 ставить. Нужно ставить необходимый тебе контекст, затем докидывать примерно 4 слоя (хотя тут от модели зависит) к рекомендуемым значениям: кобольд автоматом ставит 20 слоёв, ты делаешь 24, затем включаешь бенчмарк, чтобы проверить, не вылетает ли на текущем контексте, находя оптимальное значение.

Аноним 25/01/25 Суб 05:19:20 #102 №1025160

>>1024794
Анончик, помоги! Качаю 14B_Q6, пытаюсь запустить в Кобольде, а он паскуда вылетает. Может надо настройку какую хитрую применить?

Аноним 25/01/25 Суб 05:25:42 #103 №1025161

>>1025094
>основной интерфейс чата крайне уныл
Да чо вам там не нравится? Шрифт, размер настраиваются, редактирование текста открывается в один клик, и всего текст разом, что важно, а не по одному сообщению. Дальше что хочешь с ним делай, бэкап чата тоже одной кнопкой скачивается.

>>1025160
>вылетает
Тоже вчера вылетал, обнови.
https://github.com/LostRuins/koboldcpp/releases/tag/v1.82.4

Аноним 25/01/25 Суб 06:47:08 #104 №1025174

Поигрался вчера со своей карточкой на дипсике, на русике, даже понравилось, чистый дипсик на длинном контексте скатывается в залупы и старадает логика, но если его пинать подключением R1 то держится, особенно хорошо передает характер карточки, что понравилось. В целом лучше конечно суммаризовать чат время от времени. Понаписал целую простыню с ним, целый вечер развлекался, в фентези хорошо зашло, на кум не проверял. Как альтернатива локальным, поинтереснее чем 12б. Эх, вот бы апишечку дернуть, я бы даже проплатил, но сука, как?

Аноним 25/01/25 Суб 07:28:45 #105 №1025178

1671109869399.png

Буквально пару месяцев не игрался с нейронками, а уже даже 12б модель может в русик. Mag-Mell 6 бит

Аноним 25/01/25 Суб 07:57:26 #106 №1025183

>>1025110
>У кобольда параметр gpu layers, на -1 он ставит рекомендуемое значение выгрузки.
Херню он ставит, последний пример: на мои 24gb он запихал 16/67 слоев в гпу, когда на деле они помещаются туда все, и ещё на контекст остается. Ты должен ставить слои руками. Если кобольд крашится при запуске, значит модель вместе с контекстом уже не лезет, пошагово либо переносишь слои в RAM, либо/квантуешь режешь контекст.
Можно ещё распаковать exe кобольда, и сдеать cmd ярлык с PAUSE в конце, тогда можно будет более подробно почитать вывод после краша, окно не закроется.

Аноним 25/01/25 Суб 08:05:42 #107 №1025184

>>1025183
> Ты должен ставить слои руками
А как? Поставить все слои, что есть, это да. А контекст как учесть?

Аноним 25/01/25 Суб 08:12:38 #108 №1025185

Посоветуйте материнки под нейронки что бы сразу 3-5 видях можно было всунуть одновременно? Есть гайд какой нибудь?

Аноним 25/01/25 Суб 08:15:42 #109 №1025186

>>1025178
мистрали все могут более-менее, если совсем не ужаренные в хлам английским треном поверх базы

Аноним 25/01/25 Суб 08:21:05 #110 №1025188

>>1025185
asus romed8-2t
Supermicro H12SSL

Аноним 25/01/25 Суб 08:37:46 #111 №1025190

>>1025184
Методом проб и ошибок. У разных моделей контекст может занимать разный объем. Ставишь сперва те значения какие хочешь, если вылетает, пошагово уменьшаешь.

Аноним 25/01/25 Суб 08:41:24 #112 №1025191

>>1025190
> если вылетает, пошагово уменьшаешь.
Если же кобольд, он просто протечет в оперативу.

Аноним 25/01/25 Суб 08:55:15 #113 №1025194

>>1025110
>>1025150
Generate:40.62s (177.4ms/T = 5.64T/s), Total:66.88s (3.42T/s)
Накинул 4 слоя сверху от рекомендуемых кобольдом, по ощущениям мало что изменилось, но прошлые значения я и не замерял.

Аноним 25/01/25 Суб 09:03:37 #114 №1025198

1000017037.png

>>1025178
>>1025186
> я твоя ебать ты моя сосать

Аноним 25/01/25 Суб 09:04:46 #115 №1025199

>>1025185
Простецкий Asus Prime серия z690-790-890 - 4 слота физических х16 в5х16, в4х4, 2хв3х3 внутри, конечно. Дешевле 4 порта врядли найдёшь.

>>1025122
> 123В в 4-м кванте 6+ т/с даёт
А что у тебя? 4090+2х3090 даёт 10т/с. Думаю 3х3090 было бы столько же, может чуть меньше.

Аноним 25/01/25 Суб 09:05:38 #116 №1025200

>>1025198
Лол. Как же годно читать на русском такую дичь.

Аноним 25/01/25 Суб 09:11:27 #117 №1025202

>>1025178
>Mag-Mell
Луше попробуй инструменталити

Аноним 25/01/25 Суб 09:20:47 #118 №1025206

>>1025199
>А что у тебя? 4090+2х3090 даёт 10т/с. Думаю 3х3090 было бы столько же, может чуть меньше.
Да, только дают они столько с полным контекстом в 24к и обработка этого контекста занимает секунд 10. А теслы, которые у меня, дают с полным таким контекстом в три раз меньше, а о полной обработке этого самого контекста я и не говорю. Нет, если придрочится, то жить можно: ставишь контекст в 32к, благо врам позволяет, ограничиваешь его в Таверне через /hide до 24к и нет особых проблем - на такой-то модели даже рероллить нужно не часто. Но всё равно закупаюсь Амперами.

Аноним 25/01/25 Суб 09:41:17 #119 №1025210

>>1025198
А это какая модель?

Аноним 25/01/25 Суб 09:49:17 #120 №1025211

Как сделать так, чтобы в таверне с дипсиком после написания поста удалялась вся цепочка рассуждений, таким образом не занимая триллион контекста?

Аноним 25/01/25 Суб 09:57:36 #121 №1025213

>>1024577
Кстати а как заставил то? Там же нет в интерфейсе кнопки "редактировать сообщение и продолжить его". Ну, или я не нашел.

Аноним 25/01/25 Суб 10:38:30 #122 №1025218

>>1025198
Модельку и промптик, извольте поделиться-с!

Аноним 25/01/25 Суб 11:35:36 #123 №1025237

>>1025102
>Платить 5к за кабель и кусок платы
А за одну плату 4к не хочешь? Найди дешевле:
https://aliexpress.ru/item/1005005326111069.html
>>1025107
>Скорее из одного х16 4х х8.
Скорее 3х16. Оно характеризуется общим числом линий, обычно не больше 64-х. И да, стоят просто кучу бабла. На алишке их нет, надо искать на западных магазинах.
>>1025183
>на мои
С мультиГПУ эта хрень не пашет, да.
>>1025183
>Можно ещё распаковать exe кобольда, и сдеать cmd ярлык с PAUSE в конце
А просто из консоли запускать не пробовал?

Аноним 25/01/25 Суб 11:36:05 #124 №1025238

>>1022881 →
>в треде писали аддон к таверне на мультизапрос, он прилично работает
Линк?

Аноним 25/01/25 Суб 12:02:37 #125 №1025259

У кого кобольд вылетал при попытке запихнуть в него дипкок - просто обновите вашего кобольда.

Аноним 25/01/25 Суб 12:56:22 #126 №1025303

>>1024575
Qwen2.5-Coder-32b
Посмотри квант, чтобы влазил в видеопамять и оставалось на контекст.

Можешь попробовать еще R1-distill-Qwen-32b, говорят даже получше, но подольше.

>>1025058
Респект таким парням, эксперименты огонь.

Аноним 25/01/25 Суб 12:58:14 #127 №1025307

>>1025198
Без названия модели и битности будем считать, что ты это сам сочинил, чтобы чётенько потроллить тредик тупостью

Аноним 25/01/25 Суб 13:15:28 #128 №1025342

>>1025211
>Как сделать так, чтобы в таверне с дипсиком после написания поста удалялась вся цепочка рассуждений, таким образом не занимая триллион контекста?
Регулярное выражение нужно сделать в Таверне и включить. Вопрос какое? Может такое подойдёт: /<thing>[\s\S]*?<\/thing>/g

Аноним 25/01/25 Суб 13:20:46 #129 №1025349

image.png

>>1025213
Можно через префил или префикс последнего вывода ассистента (всё на вкладке с форматированием/инстрактом). Второй вариант проканает только с отключенными именами, потому что иначе после <think> будет ставить {{char}}: и всё ломать. Ну или тупо дать ему инструкцию начинать свой ответ с <think>, можно на нулевой глубине. Инстракт там, кстати, какой-то свой у ризонинга, но я юзал теги ламы тройки.
>>1025307
>>1025218
Да он копипастит из корпо треда, геминька или оригинальный дипсик-р. К сожалению, немо, даже с ру тьюнами, не может в живой эмоциональный русский, ну насколько я вижу с чужих скриншотов и по своему небольшому опыту. Когда пробовал последний раз в ру рп на инструменталити, накатал огромный гритинг, надеясь, что с него подцепится стиль речи, но нифига, получается сухой унылый перевод. Видно, что мало русского в датасете, чтобы правильно генерить живую речь, характерную для особенностей персонажа и контекста.

Аноним 25/01/25 Суб 13:22:54 #130 №1025350

>>1025342
>Может такое подойдёт: /<thing>[\s\S]*?<\/thing>/g
Пардон, не <thing>, а <think>. Знаю английский со словарём, а теперь с Гуглом - голове работать лень :)

Аноним 25/01/25 Суб 13:30:35 #131 №1025361

>>1007065 →
>Завезли какой-нибудь софт для голосового ассистента вроде Алисы на локалке?

https://github.com/Mozer/talk-llama-fast
https://github.com/mezbaul-h/june
https://heywillow.io/

Аноним 25/01/25 Суб 13:34:27 #132 №1025366

>>1025198
>>1025178
Можно вкратце как вы трените аи под русский рп, я просто ставлю яндекс переводчик в таверне, он на удивление годный, но иногда может выдавать кринге, и путает местоимения.
Кста не знал что у яндекса настолько ахуенный переводчик с англ на ру

Аноним 25/01/25 Суб 13:37:49 #133 №1025368

>>1025367
Кто 3B в тред запустил...

Аноним 25/01/25 Суб 13:38:25 #134 №1025369

>>1025366
>как вы трените аи под русский рп
Спроси в телеге тензорного банана

Аноним 25/01/25 Суб 15:02:51 #135 №1025454

>>1025121
> Для x16 что-то не ищутся мультиплексоры подобного типа.
Их в комплекте с некоторыми девайсами или в проприетарных железках можно отыскать.
>>1025161
> Шрифт, размер настраиваются
И еще там есть скролл вверх-вниз и можно читать текст!
А если серьезно, отсутствуют вполне базовые вещи как по промт-менеджменту, так и по самому чату, это лишь чуть лучше консоли.
>>1025185
Это как "посоветуйте автомобиль". Ты обозначь бюджет и какие именно потребности. Просто воткнуть - вон выше анон напихал во все дырки. Были бы одни современные, можно было бы даже быстро инфиренсить на экслламе.
>>1025206
> и обработка этого контекста занимает секунд 10
На больших может и на минуту затянуться, потому раз в н-дцать постов суммарайз и отключение части.
>>1025237
> Скорее 3х16
Нет. Популярные даблеры на 3.0 идут на 16 линий выхода и 32 линии выхода, при этом последние можно делить по 16 или 8 (или 4 для некоторых).
В западных точно также не найдешь ибо нишевый продукт. Или вот в подобных исполнениях https://aliexpress.ru/item/1005006968619557.html

Аноним 25/01/25 Суб 15:22:03 #136 №1025470

изображение.png

>>1025454
>Популярные даблеры на 3.0 идут на 16 линий выхода и 32 линии выхода
Всегда думал, что там входы-выходы универсальные, лол, это ж коммутатор, ему похуй, что куда. Но с числом линий проебался, да, думал, там 64. И 5 портов, так что 16 на вход и 4 по 8 на выход это максимум. Впрочем ценники ояебу, проще серверную мать взять.

Аноним 25/01/25 Суб 16:18:09 #137 №1025537

image.png

Это норм скорость для 35B 4.5Q на 3090?
ЧТо-то выглядит будто карта недогружена.

Аноним 25/01/25 Суб 16:22:52 #138 №1025549

>>1025537
> 32B
самофикс

Аноним 25/01/25 Суб 16:30:04 #139 №1025557

>>1025537
Попробуй вместо HF движка просто ExLlama попробовать.
Ну и чисто формально — bpw, а не Q, все же. =)

Аноним 25/01/25 Суб 16:34:21 #140 №1025564

>>1025454
>можно читать текст
И шо таки вам ещё надоть? Без балды. Мб в своём фронте запилю.

Аноним 25/01/25 Суб 16:38:38 #141 №1025571

>>1025470
Не, эта штука имеет полноценные контроллеры шины и внутренний буфер, все сложнее.
>>1025537
Если у тебя хлеб вместо процессора то hf обертка может давать замедление (но чтобы настолько - это совсем некрозеон должен быть). Если шинда то может быть вариант что видеопамять переполнена и она выгружается драйвером, от чего замедление.
Для такой модели и кванта на 3090 примерно 30+ токенов должно быть.
>>1025564
> в своём фронте
Что там?

Аноним 25/01/25 Суб 16:46:43 #142 №1025589

>>1025537
Очень мало. И подрубай спекулятивный декодинг. На 4090 с ним 50-60 т/с на 32В даже на Жоре.

Аноним 25/01/25 Суб 16:48:59 #143 №1025593

image

>>1025571
>Что там?
Оно работает, но недостаточно работает чтобы выкладывать, следующей целью будет прикрутить SSE стриминг как время появится.

Аноним 25/01/25 Суб 17:09:53 #144 №1025643

image.png

>>1025557
Хм. Примерно такая же самая скорость как и с HF

>>1025571
>Если у тебя хлеб вместо процессора то hf обертка может давать замедление (но чтобы настолько - это совсем некрозеон должен быть). Если шинда то может быть вариант что видеопамять переполнена и она выгружается драйвером, от чего замедление.
>Для такой модели и кванта на 3090 примерно 30+ токенов должно быть.

Райзен 3700. Вроде бы не выгружается, хотя хз

>>1025589
Эм. А как это включить?

Аноним 25/01/25 Суб 17:14:17 #145 №1025647

>>1025589
> На 4090 с ним 50-60 т/с
Полтинник или около того на небольшом кванте там будет просто так на 4090.
>>1025643
Попробуй софтом для мониторинга глянуть, hwinfo, gpu-z и т.д., там же будет нагрузка на контроллер шины. Если последняя превышает единицы процентов значит дело в этом. Заодно там же посмотри perf_cap_reason.
3700 райзен не подарок, но вполне норм и с ним проблем быть не должно.

Аноним 25/01/25 Суб 17:18:18 #146 №1025653

image.png

>>1025647
>нагрузка на контроллер шины
О, хитро. Это же GPU BUs load?

Аноним 25/01/25 Суб 17:28:16 #147 №1025663

image.png

>>1025653
+
Лимит по "утилизации". Но... Там кроме памяти ничего и не напрягается особо-то.

Аноним 25/01/25 Суб 17:45:06 #148 №1025698

>>1025653
Смотри профили энергопотребления и андервольтинг, у тебя жестко задушены частоты карты. Хз умеет ли шинда это делать, ищи что настраивал.

Аноним 25/01/25 Суб 18:19:12 #149 №1025764

>>1025647
> на небольшом кванте там будет просто так на 4090
Только если на IQ2, лол. И нахуй оно надо тогда.

Аноним 25/01/25 Суб 18:26:29 #150 №1025779

>>1025647
> Полтинник или около того на небольшом кванте там будет просто так на 4090.
Не будет. Кванты ниже q4 только медленнее. А на q4 больше 35 т/с не выжать. Спекулятивный декодинг почти х2 даёт, в кодинге/CoT очень помогает генерить простыни, 1к токенов уже меньше чем за 15 секунд генерятся.

Аноним 25/01/25 Суб 18:44:11 #151 №1025810

>>1025779
>Спекулятивный декодинг почти х2 даёт
даёт-даёт, а включить-то его где

Аноним 25/01/25 Суб 18:49:16 #152 №1025819

>>1025174
Какой конкретно дипсик качал? Тот который я качнул, китайский онли((

Аноним 25/01/25 Суб 18:52:55 #153 №1025824

>>1025764
4-4.3 бита
>>1025779
> q4
Речь не о жоре.
> Спекулятивный декодинг почти х2 даёт
Смотря где, может и х4, может и замедлить. Потраченную врам на вторую модель никто не вернет.

Аноним 25/01/25 Суб 19:47:07 #154 №1025874

>>1025819
Присоединяюсь к вопросу, где раздают секретный дипсик, который может в языки. Пока что все счастливо-хвалебные отзывы здесь и на реддите вызывют чувство, что это все какой-то развод с участием ботом, сочиняющих небылицы. То, что пробовал из дипсиков, влезающих в моих скромные 12гб, это тихий ужас.

Аноним 25/01/25 Суб 19:49:51 #155 №1025879

Вопрос на миллион токенов. Влияет ли язык ответа на ответ самой нейронки ? Ну условно у меня идет реп на Лондон из э Кэпитал. Но если я не буду ебать себе голову и отвечать на английском, это поломает беседу ? Потому что пока что единственное и то мне скорее всего кажется, если писать на русском, то нейронка в ответ меньше пишет.

Аноним 25/01/25 Суб 19:55:52 #156 №1025885

>>1025874
>влезающих в моих скромные 12гб
Не, ну а хули ты хотел то? Скрины небось с 48 делают.
>>1025879
>Влияет ли язык ответа на ответ самой нейронки ?
Там даже запятые влияют, не то что язык. А так выше шансы скатится в русик в ответе, чуть хуже понимание и выше расход контекста.

Аноним 25/01/25 Суб 19:56:23 #157 №1025886

>>1025454
>обозначь бюджет и какие именно потребности

Имею одну 3060, хочу в ближайшем будущем поставить парочку 4060ti ну и на будущее, что бы хотя бы одна дырка про запас была под видюху

Аноним 25/01/25 Суб 19:58:48 #158 №1025889

>>1025303
Спасиба попробую

Аноним 25/01/25 Суб 20:05:04 #159 №1025895

>>1025885
Не мои примеры из треда честные. я так-же сижу со своими 12гб.
Даже пробовал DeepSeek-R1-Distill-Qwen-14B-Q4_K_L чтобы 12288 контекста иметь нормально.

Аноним 25/01/25 Суб 20:15:58 #160 №1025903

>>1025874
7б-8б не умеют
14б иногда кашляет
32б норм
Я хз, что может быть не так, надеюсь семплеры не в говно с 3,5 темпой.

>>1025879
Немного влияет. Но в общем, у тебя лишь одно из измерений меняется (языковое), и на доминирующих языках ллм лучше рассуждают просто потому, что у них там токенов больше.
Если ты просто болтаешь, то почти не повлияет, если заставляешь решать юбучую квантовую физику, то конечно повлияет. Ну и размер модели, содержание датасета, все дела.

Аноним 25/01/25 Суб 21:05:25 #161 №1025929

>>1025903
>норм
14 Q8 или 32 Q4, что лучше?

Аноним 25/01/25 Суб 21:10:14 #162 №1025941

>>1025879
Последний год отвечаю сетке исключительно на русском, никаких проблем с пониманием не замечал. Все современные модели обучаются работать с разными языки и жрут соответствующие датасеты, даже если не подразумевается, что они будут мультиязычными. Так что можешь расслабить жопу и писать как тебе удобно. Единственное, лучше не использовать специфичный сленг и всякие крылатые выражения, хотя некоторые сетки (обычно жирненькие) его тоже распознают.

Аноним 25/01/25 Суб 22:12:15 #163 №1026020

>>1025174
На кум можешь особо не рассчитывать. Ему там анус зашили. Когда попросил написать мне историю эротическую он мне написал про хандхолдинг двух феечек и отказался писать что-то более откровенное. Мне удавалось локальную разговорить, пробивал его на всякую дегенерацию, но там слог мягко говоря скромный в этом.

Аноним 25/01/25 Суб 22:58:10 #164 №1026069

image.png

Как понимать когда Mistral-Nemo-Instruct-2407-Q3_K_M выдает мне подобное на любой запрос? С 2407-Q4_K_M такой хуйни не замечено.

Аноним 25/01/25 Суб 23:20:21 #165 №1026102

>>1025879
Основной пласт знаний именно на английском, иногда на китайском, качество ответа на не-основных языках зависит от модели и сложности вопроса. На простой вопрос почти любая сетка ответит нормально, на что-то сложное многие отвалятся, самый лучший ответ всегда будет на языке оригинала, исключения пренебрежимы. Это справедливо даже для корпов, просто чем лучше модель тем это менее заметно.
>>1025886
В таком случае бери любую где побольше слотов и они х4 а не х1. В идеале если можно дробить процессорный х16 на пару х8, но такое в бюджетках редкость.
>>1025929
7б bf16 покормил
>>1026069
Беды с промтом или жора/квант поломались.

Аноним 26/01/25 Вск 00:02:31 #166 №1026169

>>1025303
Попробовал. Это нормально что после пары сообщений они напрочь забывают о чем речь или там надо настраивать что-то дальше загрузил включил? Мне бы скинуть ему первым сообщением свой код и потом направлять его чтоб он писал и исправлял код по указке и входящим ошибкам. А тут ему пишешь что надо использовать код такой то версии и он мне на словах объясняет да надо вот по таким причинам и принтит код в котором исправил хуй пойми что но не то что его просили. Впрочем я наверное дохуя прошу, а ведь всего лишь хочу мод для себя и другалей написать для непопулярной игры на юнити лол. В нексусе половина модов устарела и не пашут блет. Парочку через дипсик смог коряво сделать и даже корявый мод который щас хочу сделать получился, но вот отдебагать его не получается дипсиком

Аноним 26/01/25 Вск 00:06:10 #167 №1026176

>>1025895
>DeepSeek-R1-Distill-Qwen-14B-Q4_K_L
Действительно, с языками оно справляется, но не так чтобы на голову выше мистраля 12b трехмесячной давности и даже геммы2 9b. Безотносительно языков в первом же тесте модель показала себя очень креативной, на уровне особо креативных файнтюнов того же мистраля.

Аноним 26/01/25 Вск 00:11:14 #168 №1026181

>>1026176
Но при ближайшем рассмотрении ее креативность имеет мало общего с промптом. Результат выходит даже не по мотивам, ну и плюс к этому порой переходит на китайский.

Аноним 26/01/25 Вск 00:19:54 #169 №1026192

>>1026181
Так, например, я попросил продолжить абзац про полуголых танцовщиц в киберпанк-дискотеке, в стиле научной фантастики. Дипсик сочинил лабуду про то, как мы восемьсот лет ждали какого-то сигнала, и дальше научно-фантастическая новелла в миниатюре без каких-либо танцовщиц и киберпанка.

Аноним 26/01/25 Вск 00:52:34 #170 №1026212

image.png

Стено, ты охуел? С такой скоростью и какие то адекватные ответы при размере в 5гб? Я обычно отходил покурить или листал инет, пока другие модели чет сгенерят на моих 8гб, а тут ебать, секунды.
(Да, я ньюфаг что поражен скорости и адекватности ответов.)

Аноним 26/01/25 Вск 00:55:12 #171 №1026215

>>1026212
А, забудьте, на 4ом сообщении он попытался меня выебать.

Аноним 26/01/25 Вск 01:29:30 #172 №1026232

>>1026212
>адекватные ответы
>>1026215
>попытался меня выебать
Не понял, в чём твоя проблема?

Аноним 26/01/25 Вск 01:50:27 #173 №1026243

>>1026232
В том что он полностью игнорировал правила карточки, дизлайки карточки и то что карточка не любила проявлять, тупо форсируя еблю как можно быстрее и глубже. Я перебрал кучу с десяток карточек для теста этой модели, конкретно на той где я написал "забудьте", карточка с запретом к прикосновению к пизде, тупо снимала трусы и просила потрогать ее за пизду в том или ином виде сколько бы свайпов я не делал.
- эй дорогая, принеси мне выпить
- конечно! через несколько секунд она прибежала с кружкой пива и повернулась к тебе жопой и отодвинула трусики. "эй мистер, потрогайте!"

Аноним 26/01/25 Вск 01:56:44 #174 №1026245

>>1025824
>Смотря где, может и х4, может и замедлить. Потраченную врам на вторую модель никто не вернет.
Для драфт-модели ведь нужна отдельная видеокарта? Надо бы попробовать на риге. Проблема в том, что самый маленький квант 123В в 24гб уже не влезает (а ведь ему ещё и место под контекст нужно). С 70-72В уже можно попробовать. Так-то мне скорости хватало, но со всеми этими ризонингами...

Аноним 26/01/25 Вск 02:22:18 #175 №1026259

>>1026243
>карточка с запретом к прикосновению к пизде
Напиши что ей 11, самый надёжный способ запрета.
>>1026245
>Для драфт-модели ведь нужна отдельная видеокарта?
Нафига?

Аноним 26/01/25 Вск 05:43:06 #176 №1026296

image

Кларк, сделай нас Единым.
>>1026102
>7б bf16 покормил
Понятно =) Total:127.94s (3.06T/s) Внезапно даже с терпимой скоростью работает.
>>1026181
>креативность имеет мало общего с промптом.
На дефолтных настройках на которых мистрали гоняю вроде норм.
Правда периодически в конце сообщения может высрать открывающий или закрывающий </think> без актуального процесса "размышления". Ну и простыни катает, да, иногда даже в 512 токенов не укладывается.

Аноним 26/01/25 Вск 05:49:09 #177 №1026297

Есть варики пользоваться платной версией бесплатно?

Аноним 26/01/25 Вск 05:57:33 #178 №1026300

>>1026297
Скрапить самому, абузить триалы, попрошайничать брызги эякулята в кончай-треде https://2ch.hk/ai/res/1025600.html для обдроченных школьников без капли самоуважения.

Аноним 26/01/25 Вск 05:57:51 #179 №1026301

>>1026297
>платной версией бесплатно
в /aicg/ спроси

Аноним 26/01/25 Вск 10:12:38 #180 №1026394

>>1026102
Хз что там сломалось, но Wayfarer-12B-Q3_K_L тоже несет подобный бред, Q4 версия так же как и немо Q4 работает адекватно.

Аноним 26/01/25 Вск 10:59:52 #181 №1026426

>>1026192
Нужно заставлять его думать в <think> тегах, тогда он как раз обсасывает вещи из промпта и карточки на автомате и использует их. Без этого ты практически используешь обычный квен без ризонинга, хоть он сам и пытается иногда начать размышления всё равно.
>>1026243
Да, 8б тьюны сао ебливые. Но можешь на всякий чекнуть, нет ли в промпте какой-нибудь глупости вроде nsfw is encouraged. Олсо отрицания плохо работают, как инструкции. Так что если в карточке прямо так и написано про не трогать пизду, то как раз на это может и провоцировать.

Аноним 26/01/25 Вск 11:21:10 #182 №1026438

Дистилл=хуёво файнтюнится?

Аноним 26/01/25 Вск 11:23:13 #183 №1026440

>>1026438
Нет.

Аноним 26/01/25 Вск 11:50:54 #184 №1026449

>>1026243
Стено - это модель чисто для кума, причём тупенькая. Если хочешь нормальный ролеплей, выбирай что-нибудь другое.

Аноним 26/01/25 Вск 12:15:24 #185 №1026479

1586575265233.jpg

>>1026449
>обосрал
>ничего не предложил
Мнение отклонено.

Аноним 26/01/25 Вск 12:29:25 #186 №1026488

Cколько токенов в секунду будет на модели 70B q4 размером 40гб при скорости рамы в 256гбс?

Аноним 26/01/25 Вск 12:33:14 #187 №1026493

>>1026488
3-5 т/с.

Аноним 26/01/25 Вск 12:33:51 #188 №1026495

>>1026479
ну епт, мистрал мержи от Aleteian попробуй

Аноним 26/01/25 Вск 12:35:49 #189 №1026498

Господа, кто-нибудь юзал Instinct mi50 для текстовых нейронок?
Чот посмотрел на вторичке это самые дешевые карты с 16 гигабайтами видеопамяти кроме тесл на кеплере, которые не шевелятся вообще, насколько они вообще юзабельны?

Аноним 26/01/25 Вск 12:43:00 #190 №1026508

image.png

Почему при попытке обновить убабугу выдает рил1? При повторной попытке рил2. Раз 5 уже пытался обновится (доставал из бэкапа убабуги).

Аноним 26/01/25 Вск 12:47:56 #191 №1026511

>>1026508
Читать не умеешь? На первом скрипт для линукса, на втором пишет что у тебя есть изменённые файлы, которые ты не замержил в локальную репу.

Аноним 26/01/25 Вск 12:49:32 #192 №1026512

image.png

Очень нравится пикрил модель, но свайпы вообще практически одинаковые, юзаю семплеры как автор написал.
Что может быть не так?
Начало предложения может быть 10 свайпов подряд один в один и только в середине изменения

Аноним 26/01/25 Вск 12:54:56 #193 №1026515

>>1026512
> mergekit
> рекомендации семплинга
Я бы от такого сразу бежал. У таких обычно шаг в сторону и сразу поломка модели.

Аноним 26/01/25 Вск 12:59:06 #194 №1026516

>>1026512
Показывай Text Completion и темплейты, два скрина, будем разбираться.

Аноним 26/01/25 Вск 13:00:15 #195 №1026517

2025-01-2612-58-00.png

Господа, ебанатский вопрос. Я вроде читал матчасть по языковым моделям, но видимо как то хуёво читал. В чём с тех. точки зрения разница между двумя моделями как на пикриле, условно. Просто больше слов и речевых оборотов в базе модели? Я бы не задавал этот вопрос, если бы мог адекватно потестить вторую, более тяжёлую модель, у меня на ней боты думают по 30 секунд, это пиздец.

Аноним 26/01/25 Вск 13:00:34 #196 №1026518

>>1026511
Я всегда только А) Update the web UI нажимал никаких форок или экспериментальных штук (TTS и пр.) не устанавливал.

Аноним 26/01/25 Вск 13:01:18 #197 №1026520

>>1026517
>боты думают по 30 секунд
Разве это много?

Аноним 26/01/25 Вск 13:04:25 #198 №1026523

>>1026520
Ну блять, для рп много, имхо, хотя может я ньюфаг, не привык просто ещё.

Аноним 26/01/25 Вск 13:13:44 #199 №1026534

image

>>1026517
>разница
Буквально что считай в количестве нейронов в мозгах модели.

>>1026523
>ньюфаг
Смотря на сколько токенов эти 30 секунд уходят.

Возьми что-то из 12б мистралей в шестом кванте.
Например отсюда https://huggingface.co/Aleteian

Аноним 26/01/25 Вск 13:19:18 #200 №1026540

image.png

>>1026517
Ты где это говно мамонта откапал?
Чем меньше модель тем чаще теряется и путается ллм в том что происходит. Быстрее переходит в струю секса, прелюдия намного быстрее переходит в секс или отказ. Меньше возможностей для манёвров.

Аноним 26/01/25 Вск 13:23:03 #201 №1026548

image.png

>>1026540
>Ты где это говно мамонта откапал?
Эммм... В шапке треда где гайд для ньюфагов.

Аноним 26/01/25 Вск 13:33:01 #202 №1026559

>>1026548
Попробуй компромисс 12b - Nemomix-v4.0-12B.i1-IQ4_XS, те две сильно устарели. Не забудь MinP пресет для таверны поставить. Hermes 7b вообще для RP не подходит.

Аноним 26/01/25 Вск 14:11:25 #203 №1026616

>>1026479
Я 8B моделями не пользуюсь, извиняй.

Аноним 26/01/25 Вск 14:16:12 #204 №1026632

>>1026559
> Попробуй компромисс 12b - Nemomix-v4.0-12B.i1-IQ4_XS
Processing Prompt [BLAS] встает на 512/n и колышится, такое еще с несколькими моделями случалось, так и не смог их заставить генерить. Что то в настройках кобольда надо поменять?

Аноним 26/01/25 Вск 14:17:49 #205 №1026638

>>1026632
и не колышется фикс.

Аноним 26/01/25 Вск 14:40:17 #206 №1026668

>>1026616
тогда и не пизди на стено, лол

Аноним 26/01/25 Вск 14:55:32 #207 №1026690

>>1026632
Я пользуюсь oobabooga, там ничего настраивать не надо.

Аноним 26/01/25 Вск 15:08:14 #208 №1026710

image.png

>>1026690
Он мне пишет что амуда только для линукса, то есть на винде я это не запущу?

Аноним 26/01/25 Вск 15:09:46 #209 №1026711

Вот я побаловался с кум, скриптотой, РПГ. И теперь вопрос: а для чего ещё можно применить дома llm?

Аноним 26/01/25 Вск 15:12:08 #210 №1026715

Снимок экрана 2025-01-26 171121.png

>>1026638
>и не колышется
Видимо считается на проце. Какая видеокарта у тебя? Какой из этих пресетов выбираешь?

Аноним 26/01/25 Вск 15:13:32 #211 №1026719

>>1026245
> Для драфт-модели ведь нужна отдельная видеокарта?
Не обязательно, можно хоть на одной обе катать. Но от общей врам она в любом случае отъест долю.
>>1026394
Q3km еще не настолько лоботомит чтобы не быть способным сформулировать простой ответ а вот сразу так поломаться. Может бредить и тупить, но хотябы связно.
Или у тебя жора поломанный (что более вероятно когда 2 разных кванта одинаково себя ведут), или квантодел фейсроллил, например квантанув головы в 4 бита, или что-то еще крайне неудачно сделал.
>>1026488
Если это мультисоккет то будет печально. Главная беда - вечная обработка контекста.
>>1026508
>>1026518
Тебе верно ответили. Самым простым вариантом будет открыть терминал в папке и сделать git reset --hard а потом повторить обновление.

Аноним 26/01/25 Вск 15:14:37 #212 №1026725

>>1026715
Кобольд по дефолту втыкает вулкан. У меня 6600 карта.
>>1026719
> Или у тебя жора поломанный (что более вероятно когда 2 разных кванта одинаково себя ведут), или квантодел фейсроллил, например квантанув головы в 4 бита, или что-то еще крайне неудачно сделал.
Я в этом 2ой день только, для меня ты сейчас кастанул заклинание на иностранном языке.

Аноним 26/01/25 Вск 15:26:01 #213 №1026742

>>1026715
Решил перепроверить, ты был прав, почему то для Q3, кобольд вставляет проц вместо вулкана, спасибо.

Аноним 26/01/25 Вск 15:28:58 #214 №1026748

>>1026725
>Кобольд по дефолту втыкает вулкан. У меня 6600 карта.
Вообще RX 6600 по идее поддерживает ROCm под виндой, но вроде без поддержки HIP, на всякий случай скачай форк с поддержкой ROCm и проверь, заведётся или нет.

github.com/YellowRoseCx/koboldcpp-rocm/releases/tag/v1.82.1.yr0-ROCm

Аноним 26/01/25 Вск 15:29:43 #215 №1026751

>>1026742
Да не за что, но проверь, вдруг у тебя и ROCm заведётся, он всё же ощутимо быстрее.

Аноним 26/01/25 Вск 15:33:58 #216 №1026757

>>1026742
>>1026751
Ай все, я уже в моделях запутался. Сейчас все заново проверю. Я упоролся кажись, накачал всего и сразу. Для того на что ты мне ответил втыкался вулкан. А где ответил мне другой чел, Q3 выдает мне ахинею на всех языках сразу.

Перепроверил, стоит вулкан, 12b - Nemomix-v4.0-12B.i1-IQ4_XS все так же виснет на blas 512.

Аноним 26/01/25 Вск 15:34:30 #217 №1026758

Так, раз уж упомянули ос, то какую лучше ставить Винду или Линукс? Если Линукс, то какой? Посоветуйте.

Аноним 26/01/25 Вск 15:36:59 #218 №1026762

>>1026758
формально - любая, но все гиты/мануалы/туториалы в ясном или неявном виде сделаны в юбунте

Аноним 26/01/25 Вск 15:37:18 #219 №1026765

>>1026479
Цидонька !
Понимаю что 22b немного отличается от 8b.

Аноним 26/01/25 Вск 15:39:48 #220 №1026768

>>1026725
> для меня ты сейчас кастанул заклинание на иностранном языке
Тогда просто не парься и юзай что работает, позже освоишься. q3km уже прям совсем пограничный квант с точки зрения адекватности работы и рациональности использования. Тем более что амд, придется со временем разбираться (или менять).

Аноним 26/01/25 Вск 15:43:20 #221 №1026771

Какой положняк треда по DeepSeek? Тварь дрожащая или право имеет?

Аноним 26/01/25 Вск 15:44:14 #222 №1026774

>>1023230 (OP)
>ред для обладателей топовых карт NVidia с кучей VRAM
Интел не подойдёт? Памяти-то хватает.
Или лучше не ебать мозги (себе и ему) и взять нвидию?

Аноним 26/01/25 Вск 15:54:52 #223 №1026785

>>1026774
Хочешь побыть альфа-тестером за свои же деньги? Дерзай. Мы только "за" двумя руками, без шуток. Будешь потом тут гайды писать и костылями делиться.

Аноним 26/01/25 Вск 15:57:31 #224 №1026788

>>1026785
>Хочешь побыть альфа-тестером за свои же деньги?
Ну да. Нахуя я по-твоему штеуд видяху купил? С играми пердолинг закончился больше года назад, дрова вылизали, вот нашёл новый повод для пердолинга.
Будем разбираться.

Аноним 26/01/25 Вск 15:58:15 #225 №1026789

>>1026771
Судя по треду: неплохой геймастер и лучше 12б моделей (если дипсик 14б) в этом деле, какие-то охуительные истории тоже, возможно, лучше пишет, в зависимости от ситуации. Для качественного кума с подробностями о том, как тебе натирают простату, потому что ты шлюшка, которой и являешься, — не подойдёт, лол.

Говнокод вроде как тоже лучше пишет, если 32б модель.

Аноним 26/01/25 Вск 16:09:26 #226 №1026796

>>1026498
Юзал vega 64, что почти то же самое, только с 8 гб.
>насколько они вообще юзабельны
До тех пор, пока влезает в видеопамять, примерно на уровне околотоповых паскалей. Но rocm там уже поддерживается через одно место и проще на вулкане крутить. А на вулкане промпт в 1.5-2.5 раза медленнее процессится, на больших моделях с большим пересчётом будет грустно. Если выбирать между этим и кеплером, возможно и не так плохо. Но паскалетеслы на 16 гб при условии аналогичной стоимости наверное будут лучше.

Аноним 26/01/25 Вск 16:10:37 #227 №1026798

>>1026771
Как по мне он охуенный. Не для кума, а для какой-то аналитической хуйни. Охуенный гейммастер.

Кстати первая модель в этом размере которая смогла решить загадку в духе "в комнате три сестрички, А, Б, В. А читает книгу, Б играет в шахматы, что делает В?" Даже чатГПТ4 не мог решить её правильно. Разве что о1 мог решить её.

Аноним 26/01/25 Вск 16:11:47 #228 №1026799

>>1026711
для перевода, правда там ебаться сос криптами и промтами, надо, но несколько тредов назад эту тему тут исследовали, и вроде даже успешно

>>1026789
>гейммастер
Вот только в рп может и будет писать за юзера.

Так что для рп всё же лучше пантеон или микс пантеона с цидонией для более влажного геймплэя.

Без ризонинга фактически тот же квен, хотя охуительные истории без намёков на кум пишет лучше, да. С хорошим систем промтом смог даже поддержать тентаклевый секс биомеха с женщиной-пилотом.

ЕБАнгелион, блин.

Но вот пространных описаний процесса соития да и многих других эксплисит тем выбить с него не получится наверно.

Аноним 26/01/25 Вск 16:21:00 #229 №1026810

>>1026798
> загадку в духе "в комнате три сестрички, А, Б, В. А читает книгу, Б играет в шахматы, что делает В?" Даже чатГПТ4 не мог решить её правильно
Так, блядь, это что за поебень. Эту загадку и я правильно не могу решить, я в душе не ебу что делает В. Я тупее Дипсика?

Аноним 26/01/25 Вск 16:21:31 #230 №1026811

>>1026771
Ну смотря для чего. Он точно расширяет возможности применения ллм и упрощает типичные кейсы для обычного юзера. Насколько это новые возможности рациональны для использования - большой вопрос.
Из неявных плюсов - нормису оно может лучше объяснить какие-то сложные вещи, паттерн саморефлексии заставляет охватывать дополнительные области и рассказывать о нюансах, а не просто подгонять варианты интерпретаций под криво сформулированный запрос юзера. В кодинге некоторые вещи может хорошо объяснить.

С другой стороны, если пайплайн обработки отлажен - он может оказаться даже хуже имеющихся моделей, или просто показывать +- то же но медленнее. Читать постоянные шизолупы даже не элементарные вопросы заебет очень быстро. В рп - днище донное, не ведись на то что оно может скосплеить текстовую рпг в начале, на контексте оно обосрется а в чате будет тысяча токенов рассуждения чтобы потом выдать ответ пигмы. Знания тоже сильно лоботомированы.

tldr - хорош для некоторых применений, панацеей не является.

Аноним 26/01/25 Вск 16:34:34 #231 №1026826

Стикер

>>1026811
>tldr - хорош для некоторых применений, панацеей не является.
Ты только что любой ллм.

Аноним 26/01/25 Вск 16:42:45 #232 №1026832

>>1026751
https://github.com/YellowRoseCx/koboldcpp-rocm/releases/tag/v1.82.1.yr0-ROCm

Ну я попробовал это, в конце компиляции модели оно крашится. Ладно, на сегодня лапки опущу, слишком много времени уже потратил, даже не заметил как потемнело.

Аноним 26/01/25 Вск 16:46:00 #233 №1026835

>>1026810
Лол. Мясной мешок, пиздец тебе!
Правильный ответ: шахматы это игра на двоих. В играет в шахматы в Б.

Аноним 26/01/25 Вск 16:48:53 #234 №1026839

>>1026835
Может она там тренируется в шахматы или ставит мысленную партию, охуенный вундеркинд. Задачка уровня А бежит, Б едет на велике, что делает В? Азаза В тоже едет на велике, велик то тандемный!

Аноним 26/01/25 Вск 16:52:04 #235 №1026842

>>1026835
>В играет в шахматы в Б
Ебать у тебя инцепшн, Б играет в шахматы, пока В в Б играет в шахматы.

Аноним 26/01/25 Вск 16:54:14 #236 №1026843

>>1026839
Лол слово "играет" является ключевым в вопросе.

>>1026842
Опечатался. В играет в шахматы с Б

Аноним 26/01/25 Вск 16:57:45 #237 №1026845

>>1026843
Поздно, в сестричке В армяне уже нарды достали.

Аноним 26/01/25 Вск 17:13:09 #238 №1026852

image.png

>>1026845
Лол кибербуллинг на дваче. Но если серьёзно до дипсик довольно неплохо отгадывает такие загадки. Я весь прошлый вечер с ним в загадочника играл. Там где ответ в самом вопросе он прям неплох.

Аноним 26/01/25 Вск 17:28:07 #239 №1026861

Стикер

>>1026835
> шахматы это игра на двоих
Слышь, ебаный норми, я единичные разы только играл с кем-то в шахматы, большая часть моих партий была с компьютером или с самим собой. Естественно, мне и в голову не придет что Б будет играть с кем-то, если сказано что играет в шахматы.
Тем более что если она играла бы с В, то это и было бы сказано "Б играет в шахматы с В", но раз так не сказано, то В очевидно в партии не участвует, иначе составитель вопроса косноязычный мудак, либо мудак намеренно пытающийся запутать неправильной постановкой вопроса. В любом случае, не засчитывается.

Аноним 26/01/25 Вск 17:31:06 #240 №1026864

1.mp4

>>1026861

Аноним 26/01/25 Вск 17:42:46 #241 №1026867 DELETED

>>1026864
Да, да, лоля трогает пизду. Репорт.

Аноним 26/01/25 Вск 17:44:19 #242 №1026869

image.png

>>1026832
Так, я вернулся с пивом, продолжаем. Дак хули оно крашится?

Аноним 26/01/25 Вск 17:50:51 #243 №1026880

>>1026798
А читает книгу: это интеллигенция, товарищи. Она изучает теорию, анализирует положение вещей, готовится к будущей борьбе. Книга — это оружие идей, её страницы горят огнём марксистских трудов, подобно фитилю бомбы, готовой взорвать устои старого мира.

Б играет в шахматы: это тактика и стратегия. Шахматы — это не просто игра, это аллегория революционной борьбы. Задача товарища Б — проанализировать ходы противника, просчитать его слабости и нанести точный удар, чтобы свергнуть короля, этого жалкого символа деспотизма и угнетения.

А что делает В?
В, товарищи, не сидит сложа руки. Она готовит подполье! Она шьёт знамена, распространяет листовки, организует рабочие кружки. В — это практическая сила революции, которая, как динамит, молчаливо ждёт своего часа, пока не раздастся гром первого выстрела.

Аноним 26/01/25 Вск 17:53:57 #244 №1026885

>>1026869
Приветствую 6600 брат. добро пожаловать в секту мазохистов у меня HIP работает ТОЛЬКО если включены галки на mmq и flash attention, без них вылетает либо на обработке контекста, либо как у тебя, при старте. Сколько слоёв в gpu layers пишешь? это тоже роляет. А, ну и на вулкане работает стабильнее, но без всяких плюшек и медленнее вроде как.

Аноним 26/01/25 Вск 18:01:01 #245 №1026898

>>1026885
Я только в эти дебри полез и вообще в llm у себя на пк, раньше на хорде сидел и подсасывался к чужим. Слоев сверху оставляю 10-15, я как понял в зависимости от контекста и/или модели (?) показывает разное кол-во доступных слоев?

Аноним 26/01/25 Вск 18:05:21 #246 №1026899

>>1026885
>mmq и flash
И спасибо, с этими настройками запустилось, по ощущениям правда быстрее не стало, если не считать того что промт в 1.5-2 раза обработал быстрее перед генерацией.

Аноним 26/01/25 Вск 18:09:37 #247 №1026903

>>1026826
Кек, лоботомированный инцестмикс, прыгающий на хуй и спамящий министрейшнами - вот типичная ллм.
>>1026835
> шахматы это игра на двоих
В эту игру могут играть двое~

Аноним 26/01/25 Вск 18:11:30 #248 №1026905

image.png

>>1026899
Ладно, пизжу, раньше в тотал я выше единицы токенов в секунду не видел, обычно вообще красовалось гордое 0.50Т/SEC

Аноним 26/01/25 Вск 18:21:16 #249 №1026923

>>1025929
Хер знает, я и то, и то в Q8 пробовал.

>>1026169
А в контекст все влазит?
Может промпт надо докинуть, хз.
У меня он в каждом сообщении повторяет результирующий код и не забывает. Я не задумывался, хм…

>>1026192
Очевидно, сигнала вы так и не дождались, а танцовщицы были на другой планете, эх…

>>1026711
Если не для работы, то для суммаризации и ответов на вопросы. Но так-то есть встроенная ассистенты (Алиса там, Гугл, вот это вот все).
Можно умный дом вешать, но это уже очень много мороки.

>>1026839
Плюсую весь тред тоже охуел с задачи про шахматы. Я рад, что Дипсик догадался до того, до чего не догадался я, но правильным ответом это тяжело назвать.

>>1026843
В шахматы играть можно в одиночку.

Аноним 26/01/25 Вск 18:36:27 #250 №1026933

Открыл для себя очевидное и невероятное, если во время генерации смотреть видяшки на ютубе/твич, то генерация замедляется. Хоть за телефоном тянись от безысходности.

Аноним 26/01/25 Вск 18:39:46 #251 №1026937

>>1026898
на -1 он прикидывает примерно, сколько влезет, но можно ещё слой-другой накинуть без потерь. от модели к модели числа немного разнятся, и сильно зависят от контекста. Кстати, есть вариант как ещё ускорить обработку контекста - во второй вкладке кобольда ползунок BLAS перевести с 512 на 256. Рад что всё у тебя заработало. Не торопись вкатываться в дебри, дрыгай понемногу настройки (всего) и смотри сам. Да, локалки жрут очень много времени. но интересно ведь!

Аноним 26/01/25 Вск 18:41:36 #252 №1026939

image.png

>>1026923
Можно. Но загадки это не про это. Вообще лол онлайн версия довольно сильная.

>>1026933
Памяти не хватает небось на видос.

Аноним 26/01/25 Вск 18:50:09 #253 №1026954

>>1026937
>Да, локалки жрут очень много времени
Я заметил, я уже 11ый час сижу за этим наркотиком.
>>1026939
Да 100% не хватает, пихаю 7гб модель в 8гб видяху. У меня же Q3 бред несут, приходится на Q4 сидеть.

Аноним 26/01/25 Вск 19:02:59 #254 №1026968

В общем, кажется, понятна причина затупов, может и не в бифуркации дело. Материнка не любит карты, подключенные через m.2. Есть тесла на x1 обычном и на x4 m.2. Если слои выгружать на первую, то генерация на 10к контекста 4 т/с. Если на вторую - 1.8. Так что попробую я, пожалуй, вот такую йобу или ей подобную https://aliexpress.ru/item/1005005277556030.html, вдруг будет нормально.

>>1025085
https://aliexpress.ru/item/1005008040561447.html
https://aliexpress.ru/item/1005004675016210.html
https://aliexpress.ru/item/1005008060050273.html

>>1025133
>WS X299 SAGE
Нашел только на авито б/у за 25к, видимо она уже старая? А есть современные похожие модели, которые в том же днс можно купить?

Аноним 26/01/25 Вск 19:06:01 #255 №1026970

1cb63d7acf3f9acc5e17dcb554fa2aee.jpg

>>1026719
>открыть терминал в папке и сделать git reset --hard а потом повторить обновление
Спасибо.

Аноним 26/01/25 Вск 19:12:13 #256 №1026976

>>1026933
Вут? Хотя если ты смотришь видяшки то там и так все не весело и лишняя нагрузка может влиять.
>>1026968
х299 аж вон аж когда была, конечно только старые. Искать на барахолках.
> А есть современные похожие модели
Смотри на сокетах lga 4677, tr5, sp5, цены правда не понравятся

Аноним 26/01/25 Вск 19:31:45 #257 №1026998

>>1026968
>Нашел только на авито б/у за 25к, видимо она уже старая? А есть современные похожие модели, которые в том же днс можно купить?
Я брал год назад на Wildberries у какого-то неавторитетного продавца за 30к вроде. Новую. Рисковал конечно, но по сути даже меньше, чем брать заведомое б/у с Али или Авито. Удалось поймать короче.

Аноним 26/01/25 Вск 20:09:23 #258 №1027035

>>1026864
Лол этот видос. Притом шахматы слева ни разу не походили. Но зато черных уже столько проёбано. Она проигрывает стоячему.

Аноним 26/01/25 Вск 20:12:45 #259 №1027040

image.png

То чувство когда психанул.

Аноним 26/01/25 Вск 20:15:51 #260 №1027048

>>1026968
>https://aliexpress.ru/item/1005008040561447.html
Как я понимаю, кабель там типа SFF-8643 Mini SAS? Линк
https://aliexpress.ru/item/1005005743877382.html
Но как я вижу, кабель рассчитан до 12 Гбит/с, тогда как псина может в 32. Не это ли причина затупов по скорости
>на x4 m.2
>1.8
? Попробуй более прямое подключение, типа платы с нвме на псину, безо всяких кабелей.

Аноним 26/01/25 Вск 20:37:07 #261 №1027094

>>1026923
> А в контекст все влазит?
Скорее всего нет. Дефолтный контекст 4к всего. Без предупреждения поднимается до 8к. Но эт в общем то я охуел и хочу чтоб он целые куски кода игры анализировал и брал что ему нужно только и из за этого забиваю токены. Я седня дипсика онлайнового так заебал и сам заебался что он мне в новом чате после небольшого кода сразу нахуй послал лол.
Онлайновый дипсик вот хорошо с кодом работает. Он его вообще не забывает такое чувство и это охуенно. Но по итогу все равно не получается лол. Над модель которая таких даунов как я понимает

Аноним 26/01/25 Вск 20:46:39 #262 №1027111

>>1026789
>>1026798
>>1026811
Аригато, бисенены! С нетерпением жду возможности погонять...

Аноним 26/01/25 Вск 21:11:04 #263 №1027157

>>1027111
>бисенены
сгинь-пропади, нечисть басурманская...

Аноним 26/01/25 Вск 22:38:10 #264 №1027253

Почему на чубе карточки такие хуёвые? Причём, чем выше рейтинг, тем ниже качество карточки, как правило. Даже лля популярных персонажей. И особенно для них, пожалуй. Что-то оригинальное может быть хорошим, но найти такое сложнее, во-первых, а во-вторых, там может быть то, что просто не в моём вкусе.

С кум-карточками, понятное дело, всё намного проще, а вот для интересного рп...

Аноним 26/01/25 Вск 23:01:51 #265 №1027281

>>1026976
>>1026998
Да, новая WS X299 SAGE на озоне/вб +-100к. А те уже 100к+. Такое себе, конечн

>>1027048
см. https://www.amazon.com/10Gtek-Internal-SFF-8643-Sideband-0-5-Meter/dp/B01AOS4NE6?th=1
- Both ends of the cable use the SFF-8643 connector, which is a 4-lane high-density connector used for SAS and SATA data transfer. The cable includes sideband signals, which are additional control signals used for advanced features like hot-plugging and error reporting.
- Supports data rates up to 12 Gbps per lane, compliant with SAS 3.0 standards.
Проще говоря, там 4x12 Гбит/с. Да и я же уже писал, что я вижу загрузку видеокарты в nvidia-smi при загрузке модели с SSD, там по цифрам видно, что х4 работают.

Аноним 26/01/25 Вск 23:08:01 #266 №1027286

>>1027040
Всё правильно моделька делает, у всего должны быть причины и она не может понять эджи школьника который просто так хуярит щитом женщин

Аноним 26/01/25 Вск 23:44:28 #267 №1027326

>>1027281
>там по цифрам видно, что х4 работают
Работать то работают, но хули скорость проседает?
Мне в хардваче писали, что псина может править ошибки, при этом замедляясь. Так что ХЗ.

Аноним 26/01/25 Вск 23:47:37 #268 №1027333

>>1027281
Какой-то единичный лот от барыг со странной надежной что кому-то внезапно понадобится такое для ремонта. Оно совсем устареет и потеряет какую-либо ценность быстрее чем продастся по такой цене.
Сотня - цена актуальных современных более навороченных плат, просто для примера https://www.regard.ru/product/722796/
>>1027326
> Мне в хардваче писали, что псина может править ошибки, при этом замедляясь.
При этом могут быть траблы вплоть до подвисания интерфейса, ошибки можно отследить мониторингом или в логах.

Аноним 26/01/25 Вск 23:59:56 #269 №1027357

Все карточки на всех моделях всё время шепчут на ухо, как заставить их перестать? Сил моих больше нет.....

Аноним 27/01/25 Пнд 00:04:37 #270 №1027364

heh.png

Попробовал запустить Deepseek-R1 локально

Аноним 27/01/25 Пнд 00:06:58 #271 №1027367

>>1027364
1.5B?

Аноним 27/01/25 Пнд 00:08:49 #272 №1027372

>>1027333
>ошибки можно отследить мониторингом или в логах.
А подробнее? Мне в том же хардваче написали, что только по тормозам можно понять, лол.

Аноним 27/01/25 Пнд 00:09:35 #273 №1027374

>>1027364
Ты бы у моделей спрашивал какие языки оно может перед началом.

Аноним 27/01/25 Пнд 00:12:04 #274 №1027377

>>1027367
14B
С русским там плохо, английский вполне нормально.

Аноним 27/01/25 Пнд 00:16:27 #275 №1027380

>>1027326
> хули скорость проседает?
Вангую, что архитектура такая. А ошибки исправления я еще в прошлом году ловил, они мне системный лог засрали так, что все место выжрали, лечилось отключением каких-то настроек авторегулирования питания портов в самом линухе.
Да и вообще, без инструментов мониторинга это гиблое дело. Подключаю 7 карту - черный экран вместо биоса. Как отдебажить проблему? А никак нахуй, разве что реверс инжинирить проприетарный биос и изучать техники по дебагу. Так и тут. Был бы какой-то инструмент, позволяющий детально исследовать происходящее конкретно в твоем хардваре, то посмотрел бы, а так... Да и не надо оно пока, все равно для кума и рп, по видимому, нет моделей лучше 123B

Аноним 27/01/25 Пнд 00:17:27 #276 №1027382

>>1027380
8-ю, конечно же.
быстрофикс

Аноним 27/01/25 Пнд 00:34:53 #277 №1027411

>>1027372
> хардваче
Деградировал он совсем, сейчас сборище оправданцев в специальной олимпиаде, шарящим там банально скучно.
dmesg
Учитывая обилие колхоза с подключением у тебя, ошибки довольно вероятны.

Аноним 27/01/25 Пнд 00:58:03 #278 №1027450

изображение.png

>>1027411
>dmesg
Я другой анон если что, со своим колхозом, пикрил в шапке сейчас. И у меня шинда.

Аноним 27/01/25 Пнд 01:09:18 #279 №1027470

>>1027380
>Да и не надо оно пока, все равно для кума и рп, по видимому, нет моделей лучше 123B
Это так, и они хороши, но ключевое слово здесь - "пока". Мультимодалки на подходе.

Аноним 27/01/25 Пнд 01:10:27 #280 №1027472

>>1026516
Как думаете, почему анон ничего не ответил? Без таверны пытался общаться?

Аноним 27/01/25 Пнд 02:48:00 #281 №1027556

Как в ебучем кобольдесипипи создать карточку персонажа в виде картинки? Там есть соответствующие опции, но сохранить не дает в виде карточки перса, а вместо этого сразу начинает рп. Я уже заебался с ним. Да, для начала неплохо, и даже отлично, но малейший пук в сторону и сразу всё... Даже в гугле ответов нет или крайне мало, такое чувство что либо ЛЛМ в принципе мало людей используют, либо съебывают с кобольда как только раздупляются что к чему. Если в кобольде нельзя, то в чем можно, чтоб локально?

Аноним 27/01/25 Пнд 02:49:55 #282 №1027558

>>1027450
Это для линукса. Ты можешь просто посмотреть в hwinfo, с самом низу количество системных ошибок с разделением по типам.
>>1027556
Используй таверну, зачем жрать кактус?

Аноним 27/01/25 Пнд 04:32:39 #283 №1027612

>>1027556
>ЛЛМ в принципе мало людей используют
Это недалеко от правды
>съебывают с кобольда как только раздупляются что к чему
Че там раздупляться? Кобольд юзают как бекенд и не более. Тамошний кривой интерфейс можно юзать только для первичных тестов, на исправность тех же квантов к примеру.
>Если в кобольде нельзя, то в чем можно, чтоб локально?
Либо в таверне, либо крути метадату ручками.

Аноним 27/01/25 Пнд 05:20:42 #284 №1027623

>>1027556
Вебморда в кобольде это просто затычка без функционала. Никто её в здравом уме на постоянной основе не использует, ставь глупую таверну и не еби мозги.

Аноним 27/01/25 Пнд 06:39:11 #285 №1027644

>>1027558
>>1027612
>>1027623
Спасибо господа, поставлю значит таверну, надеюсь там все так же легко как в кобольде, запустил экзешник и поехал.
А вот еще такой вопрос, как достучаться до "ии" вне РП?
Обычно я пишу ( OOC: текст ) и мне отвечают, но изредка бывает что ИИ уходит в транс и никак не достучаться.
Допустим я сейчас во время рп пизданул, разулю всего-то, молотком по его персонажу, сломал максимум ребро, да и то за дело в общем-то, он на меня быковал жестко.
В итоге он моего персонажа пиздит уже сообщений 25, уже практически убил и мне интересно что он расскажет в ООС, но сука молчит. Да я знаю что могу прсото взять текст отредактировать и попробовать по новой нагенерить, но мне интересно узнать чего его так переклинило.
Какие еще варианты есть написания вне рп?

Аноним 27/01/25 Пнд 06:45:25 #286 №1027646

>>1027253
>вот для интересного рп
https://pixeldrain.com/u/odDh8nYb
Что сам с чуба собирал. Не могу гарантировать что тебе зайдёт, но если совсем потерялся в тоннах сортов говна то глянь XD

>>1027357
>на всех моделях
А какие пробовал?

>>1027556
>создать карточку персонажа в виде картинки?
desune moe/aichared/

>>1027558
>Используй таверну
Чтобы скачанные карточки перебирать норм.

>>1027612
>Тамошний кривой интерфейс
>>1027623
>затычка без функционала

Нормальный там интерфейс, только нужное и ничего лишнего, всё прекрасноо работает, skill issue.

>>1027644
> запустил экзешник и поехал
нет, ебись с установкой, хотя как установишь, да запускается быстро

>>1027644
>вне рп
Зависит от модели, более старшие менее склонны к лупам/поломкам. Но не застрахованы от.

Аноним 27/01/25 Пнд 07:18:04 #287 №1027654

>>1027644
>поставлю значит таверну, надеюсь там все так же легко как в кобольде, запустил экзешник и поехал.
Ты главное не путай бек и фронт. Таверна это только веб морда(фронт) которая должна подключаться к чему-то на чем крутится сама модель(бек). В твоем случае это будет кобольд.
Т.е ты запускаешь кобольд, загружаешь в него модель, но вместо его встроенной вебморды используешь таверну. В гугле полно инструкций по запуску kobold + sillytavern.

Восприятие ООС зависит от модели. Иногда помогает в систем промте прописать что на вопросы заданные с припиской ООС он должен выходить из роли и отвечать как искусственный интеллект. Но повторю все зависит от модели, некоторые это делают из коробки.

Ну и в догонку, если видишь пост в этом треде, где стена цитирований и ответов на случайные сообщения с минимум конструктива, это местный шиз, можешь игнорировать.

Аноним 27/01/25 Пнд 07:37:34 #288 №1027659

>>1027646
>desune moe/aichared/
Пасиба.

>>1027654
>Ты главное не путай бек и фронт. Таверна это только веб морда(фронт) которая должна подключаться к чему-то на чем крутится сама модель(бек). В твоем случае это будет кобольд.
Ааа вот оно что, теперь все прояснилось, благодарю.

>Восприятие ООС зависит от модели. Иногда помогает в систем промте прописать что на вопросы заданные с припиской ООС он должен выходить из роли и отвечать как искусственный интеллект. Но повторю все зависит от модели, некоторые это делают из коробки.
В том то и дело что в начале и через часа 3-4 условно, ЛЛМ нормально реагирует и отвечает на ООС.
Но затем начинается мощный затуп и ЛЛМ не реагирует ни на что. Допустим в моей последней ситуации я написал что мол все, персонаж мой откис, отдохни старина, но он не унимается, уже и руки отрвал и труп потрошит пиздец, ни на какие сообщения не реагирует даже после суммарайза и перезапуска продолжает свое, как-будто я его ирл этим молотком пизданул.
Попробую откатить чуток и другой моделью продолжить рп.
Модель у меня была Moistral-11B-v3-Q6_K.

Аноним 27/01/25 Пнд 08:00:41 #289 №1027665

>>1027659
Запустил Цидонию 22B, она все разрулила и в ООС отвечает адекватно. Какая же все-таки разница огромная между 11B и 22B, еще бы было больше чем 2 токена/сек на моем железе... Ну либо Мойстрал не очень. Какие-то есть проверенные варианты на 11B без затупов? (Только в .gguf пж) Поддержка русика не обязательна.

Аноним 27/01/25 Пнд 08:30:18 #290 №1027677

>>1027286
А вот и не правильно, изначально моделька сказала что тело плыло вниз мордой лица в воде, я его еще догонял его некоторое время, а как только догнал и выловил, то о чудо, оно живое, спасити меня храбры рыцарь! Ну я от досады по голове щитом и залепил.

Аноним 27/01/25 Пнд 08:49:24 #291 №1027689

>>1027677
Ну и вообще моделька без остановки навязывает свое говно.
Несколько сообщений навязывало мне блеск вдалеке, ну я согласился наконец, пошел, а там блядский пульсирующий меч в земле, гроза, молнии, призрачный волк. Решил драться с волком, волк сквозь меня вселяется в меч. Мне меч нахер не нужен, пошел по своим делам. О чудо, меч взлетает и летит в мою сторону крича что я охренел и он крутой магический меч. Промахивается и вонзается прямо в мой рюкзак и говорит что без него я никуда не уйду. Я решил сломать меч и тут сразу спаунится куча разбойников, которым я медленно проигрываю и моделька все намекает что меч мне не поможет, пока я сам не попрошу его об этом.

Аноним 27/01/25 Пнд 09:09:20 #292 №1027712

>>1027689
Чем больше в промпте повторений, тем быстрее модель сама начнет повторять это.
>Ты умерла
>Нет, я не умерла
>Ты умерла
>Почему, ведь я живая?
>Ты умерла
>Хорошо, как я умерла?
>Ты умерла
>Я умерла
>Я умерла
>Я умерла
>Я умерла

Маленькие тупые модельки нельзя отпускать в повторы, благо в таверне это делается в один клик и удалением лишней инфы из поста. И ты давай, не "ладно, разберусь обязательно", а просто скачай таверну и запусти файлик, там уже есть пресет для кобольда, по которому она подключится автоматически.

Аноним 27/01/25 Пнд 09:11:14 #293 №1027714

>>1027665
Я на 12 гигах гонял Pantheon-RP-Pure-1.6.2-22b-Small.i1-IQ3_M.gguf с ~25 токенов в секунду, интеллект вполне устроил, особенно в сравнении с любой 12б моделью.

Аноним 27/01/25 Пнд 09:22:50 #294 №1027727

image.png

>>1027712
Ты про это?

Ну и из твоих слов я если выловил трупешник, то я сам должен модельке сказать что это трупешник, а не рассуждать "хмм плывет лицом вниз несколько минут, видимо это труп."?

Аноним 27/01/25 Пнд 09:23:36 #295 №1027729

>>1027727
Ну или я тебя не понял, у меня кобольд уже подключен в таверне.

Аноним 27/01/25 Пнд 09:43:10 #296 №1027747

Есть какие свежие годные 123B модели под РП? Пользуюсь Luminum давно, интересно, вышло ли что-нибудь лучше с тех пор.

Аноним 27/01/25 Пнд 09:46:08 #297 №1027748

>>1027747
Мистраль Лардж говно, его полтора инвалида попробовали потюнить и дропнули. Сейчас все свежие тюны только на 70В ламе или квене. Лама для английского, квен для русского.

Аноним 27/01/25 Пнд 09:54:57 #298 №1027759

>>1027748
Хорошо, тогда посоветуй что-нибудь из 70B, пожалуйста.

Аноним 27/01/25 Пнд 10:23:12 #299 №1027783

Если монитор иногда мигает во время генерации, закладки в браузере падают и иногда генерация завершается ошибкой, то я слишком много слоев в кобольде накинул?

Аноним 27/01/25 Пнд 10:26:44 #300 №1027788

>>1027783
Драйвер перезагружается скорее.

Аноним 27/01/25 Пнд 11:32:09 #301 №1027820

Я устал.jpg

>>1027714
Спасибо попробую на днях.

Что-то мне ЛЛМ второй раз в ООС пишет сама, спрашивает что ей делать дальше и с намеком мол не пора ли нам закончить. Это норма? Может потому-что я сидонию 22B на 8гб vram запустил и она в ахуе? Мне чет сразу мем с негром вспомнился который: "Я устал, босс."

Аноним 27/01/25 Пнд 11:48:21 #302 №1027833

34234.jpg

>>1027820
Он так обрадовался что даже скобку забыл в конце поставить.
И не пиздите мне потом что ЛЛМ это не магия.

Аноним 27/01/25 Пнд 11:52:41 #303 №1027840

>>1026933
А я открыл для себя 12-ядерные процессоры, 64 гигабайта оперативной памяти и разные видеокарты под разные задачи с выводом картинки с той, которая не генерит. =)
Правда в тяжелых задачах (где гигов 40+ выливается в оперативу) все равно вылеты иногда происходят. Так что телефон надежнее.

>>1026954
7b q4?
Там минимум q6, а лучше только q8… x)

>>1027094
> Онлайновый дипсик
Не существует «онлайнового» дипсика, они все могут быть и онлайновыми, и оффлайновыми.
Называй его «основной моделью», «базовой», «взрослой», или просто 671b.

Ну и, ясен-красен, хорошо работает. =D Гигант мысли, хули.

> Над модель которая таких даунов как я понимает
Год назад были популярны промпты «объясняй все как детсадовцу» и все такое. Напиши в первом сообщении (или в систем промпте, если он там есть), мол «ты преподаватель в школе даунов и инженер-программист L5 в Google, ведешь диалог с отсталым в развитии». Мои извинения перед даунами и отсталыми в развитии, зато раньше это работало, и модельки на пальцах старались все объяснить. =)

>>1027364
Deepseek-R1 — это 671B, братиш.

>>1027377
А 14B — это distill-Qwen, и выше сто раз писали, что русский там хуже немо.
Кстати, у тебя еще и семплеры странные или я хз, у меня так 7b пишет, а 14b гораздо лучше.
Ну или квант, мб.

>>1027783
Не хватает видеопамяти и с оперативой не лады.
Да, попробуй уменьшить количество слоев.

Аноним 27/01/25 Пнд 12:34:26 #304 №1027866

>>1027759
Он тебе блять назвал. Ты, сука, троллить сюда пришел ?

Аноним 27/01/25 Пнд 12:47:34 #305 №1027878

Сап, я до вчерашнего дня, когда попробовал дипсик, думал что нейронки все еще не умеют гуглить, и соответственно бесполезны, поэтому нихуя о них не знаю, так что заранее извиняюсь за тупые вопросы:

1. Я по 1й ссылке в гугле прочитал, что чтобы юзать локальный дипсик нужна видюха с дохуя памяти, и чем больше параметров тем более дохуя. На оперативе оно вообще не работает, или просто чуть медленнее? Насколько хуевее модели с меньшим количеством параметров чем макс?

2. Далее там же прочитал, что даже с макс количеством, это дистиллированная модель, которая все равно будет хуевее, чем та что на сайте. Насколько хуевее?

3. Та что на сайте через какое-то количество вопросов кокблокнула меня, сказав что лимит контекста. В локальной лимита вообще нет, я могу ей скормить например целую серию книг в контекст, и как это повлияет на скорость?

Аноним 27/01/25 Пнд 12:56:34 #306 №1027885

>>1027878
1. Дипсик не умеет гуглить.
Точка.

Гуглят не нейронки, гуглят бэкенды для них.

Уже давно и успешно, поищи сам minisearch и прочие perplexity.
Ставишь локально такую штуку и любую нейронку — и она тебе будет локально гуглить.
Сама нейронка — отдельная тема. Выбирай любую, не обязательно дипсик.
Хоть 3b модель, для которой достаточно 4 гб оперативы.
Хоть полноценный deepseek-r1 и 800 гб видеопамяти.

2. А тебе не похуй? Тебе от нейронок мозги же никогда были не нужны, они «бесполезны», как ты сам говоришь.
Но если вдруг тебе интересно, насколько нейронки умеют суммаризировать найденный текст в интернете — то тебе, опять же, и 3b модели хватит для этого. В таком кейсе — ни насколько ни хуевее.
Но если тебе надо, чтобы модель умела отвечать полноценно, используя нагугленный контент, то это немного другое.
Заметно хуже, но distill-Qwen32b будет не сильно уступать, а вот 14b уже и на русском хуже, и просадки по качеству ответов могут быть заметные. 7b-8b на русском лучше точно не трогать, и для требовательных юзеров они не сгодится.

3. Нет, лимит контекста зависит от того, на каких данных обучали модель.
Локально у тебя будет тот же лимит.
Возможно даже меньше.

Если подужаться, то в 48 гигабайт ты вместишь 128к контекста 32b версии. Но если у тебя есть 48 гигабайт видеопамяти, потому что на процессоре лучше забыть об этой идее.
А в 12 гигов народные… =) Ну 16, мб, ну 24 если сильно подужаться, мб. И модель мелкую взять.

Хуй знает, что тебе надо.
Твой вопрос звучит так, будто бы тебе в пизду не сдался Deepseek вообще.

Может быть Qwen2.5-14b-1M? Там 1 миллион контекста, например. А рассуждения тебе нужны вообще? На кой хер?

Определись с хотелками, а потом задавай вопросы. =)

Аноним 27/01/25 Пнд 13:05:59 #307 №1027895

>>1027866
Я про конкретные тюны спрашивал. Ты чего такой нервный?

Аноним 27/01/25 Пнд 13:06:03 #308 №1027896

>>1027885
Я хочу поделать игры. Т.е. она должна пахать на мощных игровых компах, но не на проф-фермах.
Раньше я только пробовал гопоту когда выходили новые версии, и гопота гуглить не могла, поэтому для меня была бесполезна. Дипсик может, поэтому я про него спрашиваю, могут ли другие - я не ебу.
Загружать сеттинг в контекст для моих задач обязательно. Дипсик в гугле может найти какие-то поверхностные референсы, но по тому, что очевидно было загружено ему заранее, он выдает намного лучше.

Аноним 27/01/25 Пнд 13:06:14 #309 №1027897

>>1027748
Влезу в ваш разговор, подслушав вас скачал Qwen2-7B-Multilingual-RP.Q4_K_M поведясь на маленький вес, сильно тупой будет? На данный момент на Wayfinder.Q4_K_S сижу.

Аноним 27/01/25 Пнд 13:11:24 #310 №1027907

Короче, кому интересно, вчера обзавёлся карточкой Instinct mi50 16GB.
Во первых, видеовыход у моего экземпляра оказался на удивление рабочим хотя интернеты полны стенаниями о том, что он не функционален, там MiniDP, переходник у меня был, просто подключил монитор и оно работает как обычная видеокарта.
Во вторых, для нее нет официального драйвера под винды, но экспресс установщик AMD опознал карту как Radeon VII Pro и поставил драйвер без проблем, всё работает. GPU-Z так же видит карту как Radeon VII Pro, но не может определить частоты ядра и памяти. Не смотря на это, те же игры без проблем фунционируют.
Как и ожидалось ROCm поддерживается, но работает только в линуксе, в винде только вулкан. Но даже на вулкане по скорости карта сравнима с P40, только памяти меньше. Продаван говорил о наличии бриджа для соединения нескольких карт, что даст общий пул памяти, без прогона данных по PCIe, что в принципе должно быть очень даже не плохо, учитывая стоимость карт.
Запилил колхознейший охлад из вентиля от системника леново и кучи скотча, держит температуру до 65 градусов в максимальной нагрузке и воет как скотина, надо будет прикрутить реобас.
Пока что мне всё кроме охлада нравится, такие дела.

>>1026796
Поздно, я её купил, лол.

Аноним 27/01/25 Пнд 13:11:56 #311 №1027908

>>1027897
В квене нет русского ниже 32В. Квен либо 72В, либо свежие миксы 32В на R1/T1.

Аноним 27/01/25 Пнд 13:16:06 #312 №1027919

1714132950509.webm

>>1027907
Это твоя сборка на видосе?

Аноним 27/01/25 Пнд 13:16:59 #313 №1027922

>>1027908
Да мне русский особо и не нужен, я даже не понимаю как модель заставить отвечать мне на русском (любую), все равно через переводчик сижу. Просто еще что то в 5-6гб весом и не особо тупую модель. Что нибудь на уровне вайфайндера.

Аноним 27/01/25 Пнд 13:20:59 #314 №1027926

>>1027922
>как заставить модель
OOC : do a barrel roll

Аноним 27/01/25 Пнд 13:27:47 #315 №1027932

>>1027922
>отвечать мне на русском
Чсх, написать на русском карточку персонажа, лучше целиком, но достаточно просто первое сообщенение, а систем промт на англе оставить. На мистралях работает.

Аноним 27/01/25 Пнд 13:28:07 #316 №1027933

>>1027922
>что то в 5-6гб весом и не особо тупую модель
Подойдет гемма2 9b, ну или на крайний случай даже гемма2 2b. Последняя на удивление приличная, хотя годится скорее для генерации пространных удобочитаемых простыней. Я лично на моих скромных 12гб сижу на файнтюнах мистраля 12b. За последние месяцы так ничего лучше этих мистралей и геммы2 так и не появилось.

Аноним 27/01/25 Пнд 13:28:52 #317 №1027934

>>1027896
Бля, какую шизу ты несешь, чел.
Ты даже мой ответ не читал.
Не умеют модели гуглить, блядь, хватит нахуй.
Гуглит бэкенд.
Различных бэкендов куча.

> Я хочу поделать игры.
> она должна пахать на мощных игровых компах
Что за хуйню я сейчас прочитал? Ты хочешь LLM заставить работать внутри игры у игроков, или у себя?

Мощные игровые компы — это что? Это жалкие пк с одной 3060? Это норм пк с одной 4090? Игры и нейронки — это охуеть какие разные вещи.
Игровой комп может быть с 3080 8 гиговой и для нейронок он говнище. А может быть с 3060 12 гиговой и это уже хоть что-то.

Ладно, поехали.

Если ты хочешь много контекста, действительно много, кидать целые книги, то тебе нужны модели, которые обрабатывает много контекста. Очень много.
На текущий момент есть буквально единственный вариант — это Qwen2.5-14B-1M. У него максимум контекста 1 миллион. У всех остальных моделей максимум контекста — 128 тысяч.
Для этого нужно много видеопамяти, дохуя видеопамяти.

То есть, уясни одну вещь. Если ты хочешь сотни тысяч контекста, то они физически не поместятся в одну видеокарту.

Когда-то на квене было 1000 контекста ~ 300 мб. 12 гигабайт видеопамяти вместит в себя 40 000 контекста. Это, скорее всего, меньше, чем дается в онлайне. Но я не знаю, сколько там в чате, и сколько ты кидал.

Но в среднем, это 3-4 главы книги. Запихнуть целую книгу — 100-200 тысяч контекста, вероятно.

Есть вариант контекст квантизировать. Но тогда он будет работать хуже.
Можно ужать в 2 или 4 раза.
12 гигов = 160 тысяч контекста, который он помнит плохо.
Это супергрубый подсчет.

Помни, что тебе надо еще где-то модель держать. Или на процессоре, что даст тебе очень медленную скорость ответа, или на видеокарте.

Допустим, ты берешь Qwen2.5-14b-1M-Q6 модель (шестой квант). Она весит 12 гигабайт. Значит 12 гигабайт модель + 12 гигабайт контекст: в видеокарту с 24 гигами (3090, 4090) влезет 40к нормального контекста или 160к сжатого контекста.
Если ты хочешь больше — то… ну ставь две видеокарты. Три. Четыре.

В треде есть человек со 144 гигабайтами видеопамяти, например.

Теперь по поводу моделей. Однажды ты можешь понять, что тебе не так важно кидать целые книги. И 128к контекста тебе хватит.
Тогда можно брать Deepseek-R1-distill-Qwen-32b. Здесь я могу проспойлерить — Модель + 50 000 контекста займет 48 гигабайт. Я лично проверял пару дней назад. Но можно ужать и вместить в 48 гигабайт модель и 128к контекста. И она умная весьма, да.

С видеокартами разобрались.

Теперь по программкам.
Есть онлайн-поисковик https://perplexity.ai/ Тебе надо искать локальные альтернативы.

https://github.com/felladrin/MiniSearch — этим я лично пользовался, но для тебя слабый вариант, наверное. Он ищет максимум по 6 результатам, кажись. Ну и берет поверхностно информацию.

Еще пару вариантов кидали в треде, но я не запомнил, извини.

Проще всего будет скачать докер-образ или виртуалку и установить.
Это в среднем 8 гигов оперативы и парочку ядер проца. Естественно, имеется в виду, будет занятно на постоянке.
Но такое можно поднимать на ноутбуке каком-нибудь и работать внутри локальной сети, например.

Ну вот, что я понял из твоих рассказов и что я могу лично предложить.

Надеюсь, тредовички тебе накидают еще советов, годные модели вспомнят или ссылки притащат какие.

Аноним 27/01/25 Пнд 13:29:52 #318 №1027936

Какая же 12б ничтожная маленькая плаксивая сучка после 22б
Че реально 3090 покупать

Аноним 27/01/25 Пнд 13:30:47 #319 №1027939

Так, блять. Что такое цидония ? Это мистраль ?

Аноним 27/01/25 Пнд 13:31:26 #320 №1027941

>>1027936
Я на 4080 гоняю пантеон и мержи. Брат жив, пересчет контекста заебывает.

Аноним 27/01/25 Пнд 13:32:26 #321 №1027942

>>1027922
Напиши прямую команду локалке.
Вот как тут >>1027926

Аноним 27/01/25 Пнд 13:33:10 #322 №1027943

>>1027908
Ровно наоборот, квен на русском даже в 1.5б норм умеет.
Ну вы батенька даете!..

>>1027897
7b не ниже Q6, а лучше только Q8.
Хватит уже, а?
Да еще и Qwen2, а не 2.5 почему-то. Зачем старая версия?

>>1027907
Если это выглядит как VII Pro, работает как VII Pro и ее инсталлер AMD идентифицирует как VII Pro…
Ну, в общем, ты уловил. Возможно, это не оригинал, а просто пайка-перепайка.

>>1027932
Везде работает. Английском уже с полгода в локалках не пользуюсь и понятия не имею, как люди «не могут заставить» модель говорить на русском, если для этого и заставлять не надо…

>>1027933
А это факт. Для РП ниче лучше тюнов немо и мистрали нет в 12 гигах. И не планирует появляться пока что…

Аноним 27/01/25 Пнд 13:39:29 #323 №1027948

>>1027943
> норм умеет
Норм умеет - это когда он может написать абзац не проебав ни одного окончания.

Аноним 27/01/25 Пнд 13:45:06 #324 №1027957

>>1027948
А если еще с большой буквы и с точкой на конце — то не все тредовички так умеют. =) Это пиздато умеет.

Норм язык уже у 14b (юзаю на постоянке), и 7b редко ошибается.

Тока опять же, Qwen не про РП. У него креативность не то чтобы хорошая вообще.

Аноним 27/01/25 Пнд 13:45:32 #325 №1027958

PXL20250127102741988prob3.mp4

>>1027919
Вполне сравнимо, лол.

>Возможно, это не оригинал, а просто пайка-перепайка.
Так у Radeon VII Pro и Instinct mi50 разницы хуй да нихуя - количество видеовыходов, да охлад.

Аноним 27/01/25 Пнд 13:45:58 #326 №1027959

>>1027939
2/3 всех существующих моделей это сорта мистраля, цидония тоже.

Аноним 27/01/25 Пнд 13:48:32 #327 №1027960

image.png

>>1027943
>>1027926
Ну через OOC сработало, хоть и пихнул одно слово не на русском, но если просто первое сообщение на русском, то не прокатило.

Аноним 27/01/25 Пнд 13:56:48 #328 №1027970

>>1027943
>на русском
Проблема не в том что сетка не умеет в кириллицу, а в том что её вывод в разы скуднее чем на языке на котором она тренилась. Тут люди ради этих мозгов из последних ужимаются чтобы впихнуть в себя модель покрупнее/поумнее, а ты предлагаешь сделать лоботомию на пустом месте.
Это при том что переводчики работают весьма хорошо, а если хочешь прям заморочиться, подрубаешь deepl api и кончаешь радугой.

Аноним 27/01/25 Пнд 13:58:54 #329 №1027973

Сколько памяти занимает 32к контекста?

Аноним 27/01/25 Пнд 14:00:00 #330 №1027974

>>1027934
Я заранее предупредил, что о нейронках пока нихуя не знаю, знаю только что дипсик из чата может загуглить то что мне нужно, а гопота не могла. И мне достаточно такого гуглежа, как у дипсика.
Под игровым компом я подразумеваю любую игровую видюху, а не профную - т.е. 4090 подходит.
Вот по ужатию контекста я пока не вдупляю - как нейронки в базе модели могут весь интернет иметь, а в контексте 1 сраную книгу удержать не могут? Может нейронка сначала прогнать книгу и вылить из нее всю воду, оставив только суть - это уже должно на порядки ее ужать?

Аноним 27/01/25 Пнд 14:01:43 #331 №1027978

>>1027959
Получается мистраль это лучшее что сейчас есть.

Аноним 27/01/25 Пнд 14:02:37 #332 №1027979

>>1027970
> Это при том что переводчики работают весьма хорошо
И да, и нет. Говорю как тот кто сидит на переводчике несколько месяцев. Мне частенько приходится сверять оригинал с переводом когда перевод промахивается в поле. Яндекс часто переводит бесполые слова характеризующие персонажа в мужском лице. Ту же cousin он переведет как двоюродный брат, и похуй что персонаж девушка. А если персонаж заикается следуя карточке или говорит через многоточия, то там вообще пиздец начинается.

Аноним 27/01/25 Пнд 14:08:40 #333 №1027990

>>1027970
>deepL
У меня есть претензии к этому сумрачному тевтонскому творению.
Во первых - он постоянно проёбывает точки, запятые. Я знаю что грамматика в английском отличается. Но эта пиздота думает что умнее тебя и формирует порой просто охуительные предложения, проебывая пол и причино следственные связи в предложении. Проеб скобок, многоточий, он превращается в оно. Короче, как бы глупо не звучало, единственный вариант без вычитки конечного результата, это простейшие предложения.

Аноним 27/01/25 Пнд 14:27:25 #334 №1028011

>>1027783
ОТВАЛ
Т
В
А
Л

Аноним 27/01/25 Пнд 14:30:24 #335 №1028014

>>1028011
>закладка в браузере упала
>ну все, пиздец, видюха сыпется

Аноним 27/01/25 Пнд 14:32:07 #336 №1028015

>>1027783
GPU-Z держи открытым и смотри сколько памяти потребляется видеокартой. Не наугад же тыкать.

Аноним 27/01/25 Пнд 14:33:30 #337 №1028018

>>1027783
Да нормально всё. У меня так система в бсод вышла погулять, а видюха пошла покурить, причем буквально.

Аноним 27/01/25 Пнд 14:36:30 #338 №1028021

>>1027840
>Не существует «онлайнового» дипсика
>671b
По сути размер такой, что оффлайн его никто тут не запустит. Так что можно смело называть копросеткой, нах не нужен такой впопенсорс.
>>1027878
>это дистиллированная модель
Есть оригинал, но ты его не сможешь запустить.
>>1027934
>3080 8 гиговой
Там 10 минимум, а то и 12.
Мимо бывший страдалец с 3080Ti в цену 3090
>>1027974
>как нейронки в базе модели могут весь интернет иметь, а в контексте 1 сраную книгу удержать не могут
Весь интернет запечён в весах (хуёво, часто глючат), а контекст по сути как временная память. Ты в уме текст книги можешь удержать? Вот и негронка не может.
>Может нейронка сначала прогнать книгу и вылить из нее всю воду
Кидай краткий пересказ, но проебёшь детали. И да, тебе, судя по всему, нужна техническая литература, а там плотность инфы другая.

Аноним 27/01/25 Пнд 14:39:19 #339 №1028025

image.png

>>1028015
Ну... всю?

Аноним 27/01/25 Пнд 14:42:59 #340 №1028037

>>1027973
8к - это 2гб.

Аноним 27/01/25 Пнд 14:54:28 #341 №1028051

>>1027978
Для рп/ерп - лучшее.

Аноним 27/01/25 Пнд 14:58:31 #342 №1028058

изображение.png

>>1028025
Это аналог шареда для радевони что ли? Чел, ты превысил ресурсы своей видяхи в 1,5 раза, удивительно что оно вообще пашет.

Аноним 27/01/25 Пнд 15:02:45 #343 №1028062

>>1028058
Я всего лишь хотел 7гб мистральку с 8к контекста. :(

Аноним 27/01/25 Пнд 15:03:37 #344 №1028064

image

>>1028014
>закладка в браузере упала

Аноним 27/01/25 Пнд 15:04:29 #345 №1028066

>>1028064
Всего то где то 45 вкладок в хроме и 50 в лисе.

Аноним 27/01/25 Пнд 15:26:58 #346 №1028096

Господа, подскажите вопрос.
Какие-нибудь тюны на дистиллированый R1-32b уже завезли, и как у них качество?
Имеется 4060ti-16+3060-12 и желание обмазаться (R1_32b_Q4_k_m весит 19гб, а значит 6-7гб останется под контекст).
Для RP, ERP, естественно.

Аноним 27/01/25 Пнд 15:38:09 #347 №1028101

>>1028096
>RP, ERP

Тюнов не видел, про само рп - >>1026799 >>1026296 >>1024794

32б тоже пробовал, в 4м кванте, лучше но примерно то же.

Аноним 27/01/25 Пнд 15:42:23 #348 №1028108

>>1027933
Сколько не пытался в разные 9б геммы, все хуже норм 8б тьюнов для рп. При этом в ней дофига слоёв, так что кэш контекста, который от этого числа зависит, жрёт немерено. Флэш атеншн, походу, так и не пашет с ней. Поэтому оно с 8к контекста пердит на 8 гиговой карте так же медлено, как немо, а немо лучше по качеству.
>>1027943
>Везде работает
Иногда нужно повозиться. На той же 9б гемме, которая относительно норм знает русский, иногда не отвечало на русском даже с пинком в постхистори инструкции. Да и не каждый тьюн немо будет без инструкции отвечать на русский ввод на русском.

Аноним 27/01/25 Пнд 16:23:18 #349 №1028167

>>1027840
>671B
Вот кстати звучит как типичный китайский пиздешь. У него веса ~710гб. Ну и как он туда могли запихать эти 671б? Это было бы минимум 1300гб.

Аноним 27/01/25 Пнд 16:57:05 #350 №1028275

maincharacter-card-builder-8927c8a0specv2.png

Подскажите, пожалуйста, почему ответы короткие? Это какой параметр надо смотреть?

Например используя Character Card Builder, первым этапом он должен выдавать 5 абзацев описания персонажа. В итоге выдаёт либо абзаца 3, либо 5 но очень коротких.

Ещё хотел попробовать модели для кодинга и думаю будет такая же ситуация? Он просто будет обрывать ответ?

32Gb RAM, 12Gb VRAM.

Аноним 27/01/25 Пнд 17:13:51 #351 №1028321

https://boards.4chan.org/g/thread/104062556
Запустили кстати, только увидел.

Аноним 27/01/25 Пнд 17:34:00 #352 №1028355

>>1028021
> нах не нужен такой впопенсорс
Открытый, еще не значит, что каждый может запустить.

Аноним 27/01/25 Пнд 17:35:39 #353 №1028362

image.png

>>1028058
Запустил модель полегче, на 5.4гб, почему все равно вся память забита и лезет в динамическую?

Аноним 27/01/25 Пнд 17:40:17 #354 №1028380

>>1028021
>нах не нужен такой впопенсорс.
А ты до сих пор мечтаешь о чуде, что на своих 24 лигах запустишь аналог корпосеток? Хуею с дурачка. Раньше вообще в открытом доступе не было сеток сравнимых с гпт о1. Появилось - все равно не довольны.

Аноним 27/01/25 Пнд 17:48:15 #355 №1028391

изображение.png

>>1028355
Ну а я про что? А раз не может, значит не торт.
>>1028362
Я ХЗ что за динамическая если что, просто предполагаю. Контекст сколько ставишь? На минималках попробуй 4к чисто для теста. И да, я на радевони не запускал, так что ХЗ как все эти росмы и вулканы с памятью работают.
>>1028380
>что на своих 24 лигах
Обижаешь, 48.
Да, я хочу самого лучшего и бесплатно. Тебя что-то удивляет? Ты хочешь чего-то похуже, и со страданиями?

Аноним 27/01/25 Пнд 17:49:15 #356 №1028394

>>1028391
>Да, я хочу самого лучшего и бесплатно
Так вот тебе - самое лучше и бесплатно? Что сейчас нахрюк то? >>1028321
Вон и запустили локально, всего 1тб оперативки и 64к контекста есть. В чём проблема?

Аноним 27/01/25 Пнд 17:49:36 #357 №1028395

>>1028394
>сейчас
За

Аноним 27/01/25 Пнд 17:52:37 #358 №1028400

>>1028362
Потому что кэш контекста тоже жрёт врам. Вот тут примерно правильно показывает, сколько ггуф квант жрёт с заданным контекстом. Модель нужно указывать неквантованную, как указано в примере. https://huggingface.co/spaces/DavidAU/GGUF-Model-VRAM-Calculator

Аноним 27/01/25 Пнд 17:58:30 #359 №1028411

image.png

>>1028400
Я тупой или все должно влезать?

Аноним 27/01/25 Пнд 19:11:27 #360 №1028508

>>1028391
> бесплатно
> на деньги с двух 3090 мог юзать 600б модели без задержек с огромным контекстом 5 лет минимум

Аноним 27/01/25 Пнд 19:13:19 #361 №1028515

>>1028400
Выдает ошибку какую модель не вставляю. Чзх?

Аноним 27/01/25 Пнд 19:15:47 #362 №1028522

>>1028321
3.4т/с на рам при модели в 700гб? Как она так быстро работает?

Аноним 27/01/25 Пнд 19:19:06 #363 №1028527

.png

>>1028522
Там архитектура MoE, из 671B параметров активируется только 37B.

Аноним 27/01/25 Пнд 19:24:48 #364 №1028541

>>1028508
Мне дохуя для чего видяхи нужны, по сути, только вторая оверпрайс, на первой я как минимум играю.

Аноним 27/01/25 Пнд 19:28:03 #365 №1028553

>>1028527
> 671B параметров активируется только 37B
И какие плюшки это нам дает? Можно как-то юзать видимокарту на 37б, а остальное на RAM? Или что-то уровнем поменьше взять, чтобы на 70б поумнее, да на одной карте?

Аноним 27/01/25 Пнд 19:33:36 #366 №1028560

>>1027644
> там все так же легко как в кобольде, запустил экзешник и поехал.
Да, но нет. Придется хотябы в основах разобраться и выбрать нужный формат промта. А так погружаться можно оче долго, просто она позволяет делать многое в отличии от прочих.
> и мне интересно что он расскажет в ООС
Кто он? OOC это буквально out of context, используют для общения между ролевиками, с нейронкой в основном используется чтобы выражать свои пожелания, а нейронка изредка может косплеить гейммастера и что-то там вопрошать или аположайзить.
Поэтому не совсем понятно что ты там хочешь увидеть. Как вариант - просто дай инструкцию для нужного.

Аноним 27/01/25 Пнд 19:33:47 #367 №1028561

>>1028101
Видел тюны R1 70b - Nevoria. Английский +-, русский стал ещё хуже обычного R1, долго не тыкал ещё.

>>1027747
Монстраль/Бегемот/Лумикабру/Магнум для ЕРП, обычный Мистраль Ларж для просто РП, ру/ен.

У этого >>1027748 скил-ишью наверное.

Аноним 27/01/25 Пнд 19:41:07 #368 №1028573

>>1027907
Тесты жоры, экслламы, диффузии можно?
>>1027974
Просто запустить нейросети можно почти на любой видеокарте, по крайней мере пока. Другое дело что для хорошей текстовой модели нужна хотябы 3090 целиком. Для чего-то средней посредственности - хотябы ее половина. То есть одновременное взаимодействие и рендер красивой картинки - нет. Можно обыграть если перез запуском модели закинуть персонажа в область с минимальными требованиями, ограничить фпс, выгрузить нахуй весь кэш текстурок, максимально освободив врам, в уже после этого загружать модель в память и пускать, для тех же диалогов например.
Если же у тебя примитивный интерфейс а не наниты то похуй, но базовые требования к видюхе никуда не исчезают.
> как нейронки в базе модели могут весь интернет иметь
Долговременная память
> а в контексте 1 сраную книгу удержать не могут
Буквально твои свежие рассуждения, книгу ты тоже не сможешь удержать в полной мере без сокращения и ужатия.

Аноним 27/01/25 Пнд 19:48:31 #369 №1028580

>>1028553
> И какие плюшки это нам дает?
Из плюсов то, что не надо пробегаться по всем весам в процессе инференса для вычисления следующего токена, поэтому и перфомит быстро при таком крупном весе. Грубо говоря, у тебя часть весов по if/else вызывается, так что по итогу одномоментно используется только 5% из всех весов.

> Можно как-то юзать видимокарту на 37б, а остальное на RAM?
Профита не будет т.к. всё равно используется вся сетка, просто в разные моменты используются её разные куски - вынос небольшой части на карту погоды не сделает.

> Или что-то уровнем поменьше взять, чтобы на 70б поумнее, да на одной карте?
МоЕ это скорее не про ум, а про удешевление самого процесса инференса (в плане требуемого компьюта, а не числа VRAM), как мне кажется.

Аноним 27/01/25 Пнд 20:09:16 #370 №1028604

image.png

>>1027970
Это сорт оф.
Переводчики пиздец все просирают, тут ты не прав.
Ну и «богатство языка» на неродном языке сводится на нет.
Так что, оба аргументы никакие, и разницы на самом деле нет. Кто знает английский — норм, тем хорошо. Кто не владеет на достаточно уровне, тому и на русском норм.
Плюс, богатство выражений — это не совсем логика. Да, бедненько будет, но не сильно-то тупее, на самом деле.
Ну в общем. So-so. Гигачат наш выбор. хд

>>1027974
> как нейронки в базе модели могут весь интернет иметь
А, так в базе у модели 0. =) Нет там никакого интернета. Это называется RAG. Фишка бэкенда, о которой я писал.
Ты посылаешь запрос, модель переформулирует его и посылает в самые обычные поисковики (локально работает SearXNG, например), который возвращают ей самые обычные ответы, и вот эти ответы уже помещаются ей в контекст. И отвечает она исходя из того самого контекста. RAG — система, позволяющая брать наиболее релевантную информацию из базы данных (в данном случае — поисковиков) и помещать ее в контекст по запросу.

>>1028021
> нах не нужен такой впопенсорс
Нихуя, в дурку его! =D

> Там 10 минимум, а то и 12.
10 для Геммы, разве что. Для Немо все же 12 минимум. В 6 кванте.

Бывший? :) Надеюсь, обновился на что-то нажористое? Рад за тебя!

>>1028064
О_О

>>1028167
Так там 8 бит же, прямым текстом написано, дядь… =)
Плюс, там буквально можно все слои посмотреть. Правда у меня вкладка зависла 671 слой выводить. =D

>>1028275
max_new_tokens сколько?

>>1028380
Вот я доволен! Ниче, что я не могу здесь и сейчас. Главное, что оно есть, а ресурсы — дело времени.

>>1028527
Вспоминаются люди, которые слюнями срали, но доказывали, что МоЕ говно и не должно существовать, только память жрет! То ли дело ллама 405б, ммм… и размер меньше, и экспертов нет… =D

>>1028553
Были такие эксперименты, но че-то недалеко взлетели.

>>1028580
МоЕ — это про объем знаний и объем размененный на скорость.
У тебя сразу сетка знает все, тебе не надо подрубать поиск, RAG, бд, составлять запросы (и надеяться, что придет релевантный ответ), или менять модели, просто есть все и сразу.
И скорость, при этом, заметно выше, чем у моделей, имеющих средний размер между полными и активными весами.
Ты можешь загрузить МоЕ в оперативу (а она дешевая),и получить скорость не сильно уступающую видяхам.

Гигачат на обычной DDR4 выдает 10 токенов/сек при размере сравнимом с Mistral 22b. При этом, тебе достаточно 32 оперативы (24 даже).

МоЕ ситуативны, достаточно специфичны, но имеют свои плюсы.

Мне лично они нравятся, хотя я понимаю, почему большинство ими не пользуется. При равном размере, цельная модель будет гораздо лучше моешки, если крутить целиком на видяхе.

Аноним 27/01/25 Пнд 20:26:04 #371 №1028635

>>1028541
А че на 3060 уже игры не запускаются?

Аноним 27/01/25 Пнд 20:27:11 #372 №1028640

>>1028604
>Переводчики пиздец все просирают, тут ты не прав.
>Ну и «богатство языка» на неродном языке сводится на нет.
>Так что, оба аргументы никакие, и разницы на самом деле нет. Кто знает английский — норм, тем хорошо. Кто не владеет на достаточно уровне, тому и на русском норм.
Не соглашусь. Для хорошего результата очень желательны некоторые знания английского языка (хотя бы более-менее понимать по-английски, чтобы замечать явные косяки). Но грамотно писать на неродном языке могут мягко говоря не все. Вообще здесь рекомендовали писать свои реплики на русском, а уже ответы модели переводить - наверное неплохой вариант, с оговорками. Но насчёт просирания смысла и бедности перевода - зависит от промпта. Модель может выдать красивый и сочный текст, и даже Гугл выдаст красивый и точный сочный перевод. Меня устраивает, а я много литературы читал. Бывают косяки перевода, ну и что - посмотришь оригинал, даже не расстраивает.

Аноним 27/01/25 Пнд 20:39:27 #373 №1028679

>>1028640
> Вообще здесь рекомендовали писать свои реплики на русском, а уже ответы модели переводить
Не переводить, а чтоб бот отвечал на английском и читать английский. Так зато не будешь кекать от кривых выражений на русском, но и не надо напрягаться чтоб писать на английском.
> даже Гугл выдаст красивый и точный сочный перевод
Гугл очень плохо переводит, банально квен 32В лучше переведёт чем гугл. И гугл без контекста часто серит с окончаниями.

Аноним 27/01/25 Пнд 20:50:03 #374 №1028711

Когда можно будет эту залупу ггуфом запускать? Именно модальность для гегерации изображений интересует.

https://huggingface.co/deepseek-ai/Janus-Pro-7B

Аноним 27/01/25 Пнд 21:03:34 #375 №1028746

>>1028635
В 4к@144 нет, не запускаются.

Аноним 27/01/25 Пнд 21:09:26 #376 №1028758

>>1028746
Но нахуй кому то нужно 4к и тем более 144 герца? Дальше 75 уже идет просто дрочь на фпс.

Аноним 27/01/25 Пнд 21:11:36 #377 №1028761

>>1027907
>Продаван говорил о наличии бриджа для соединения нескольких карт
Это где такой продаван? Я когда гуглил буквально нигде не смог найти эту хуйню. Через нее можно сразу 4 карты соединять по идее.

Аноним 27/01/25 Пнд 21:13:56 #378 №1028768

изображение.png

>>1028758
Если ты слепошарый тормоз, это не значит, что все остальные такие же.

Аноним 27/01/25 Пнд 21:16:50 #379 №1028782

>>1028573
Картинка не нужна. Но нужно чтобы нейронка отрабатывала на каждого нпц на сцене после каждого события (не тика), и у каждого нпц был свой контекст (хотя большая часть контекста будет одинаковой из макулатуры по сеттингу).

Аноним 27/01/25 Пнд 21:17:01 #380 №1028784

Может кто-то наконец пояснить на что влияет выбор токенизатора в таверне? Насколько я понимаю, эта ебала не передается через вызов апи, этим занимается жора и вручную переключить режим через фронт невозможно. Тогда нахуя вообще нужен этот выбор?

Аноним 27/01/25 Пнд 21:17:42 #381 №1028786

>>1028573
>Тесты жоры, экслламы, диффузии можно?
Если бы ROCm работал под виндой, я бы сделал, а так какой смысл? Только костыли, только хардкор.

Аноним 27/01/25 Пнд 21:26:35 #382 №1028812

Снимок экрана 2025-01-27 232110.png

>>1028768
Если я буду выбирать между герцовкой повыше и разрешением побольше я уж точно не выберу герцовку, лел.

Аноним 27/01/25 Пнд 21:28:16 #383 №1028816

>>1028768
Нахуй тебе больше 75 герц где все и так плавно? Ок у тебя дохуя разрешения, а толку, ты сидишь в метре от моника? Нахуй вообще такой большой монитор, чтобы блуждать глазами из края в край, вместо того чтобы видеть всю картину сразу на фулл хд?

Аноним 27/01/25 Пнд 21:29:39 #384 №1028818

>>1028784
>Тогда нахуя вообще нужен этот выбор?
Кобольд может и сам считать. А нужен этот выбор для всех операций, в которых Таверна считает токены. Прежде всего для определения количества токенов в контексте. Ты ведь в неё не токены суёшь, а буквы. Слова, предложения. А размер контекста задаёшь в токенах и размер ответа тоже. Ну и вот.

Аноним 27/01/25 Пнд 21:29:59 #385 №1028819

>>1028768
А, sdr собственно, этот лох дроча на разрешение и герцовку не смог себе позволить HDR моник.

Аноним 27/01/25 Пнд 21:32:31 #386 №1028827

>>1028812
>выбирать между
Так я взял оба. 5к конечно охуенно (я вообще мечтаю о 8к, чтобы целочисленно отображать почти любое разрешение ниже, плюс масштаб в шинде тоже будет целым), но не стоит того, чтобы деградировать до 60 герц.
>>1028816
>Нахуй тебе больше 75 герц где все и так плавно?
->Если ты слепошарый тормоз
Для меня граница плавности начинается с сотки.

Аноним 27/01/25 Пнд 21:32:38 #387 №1028828

>>1028818
Обнял, родной. Всего тебе хорошего.

Аноним 27/01/25 Пнд 21:33:10 #388 №1028829

deepseek-Тяньаньмэнь-8774268.jpeg

Аноним 27/01/25 Пнд 21:34:32 #389 №1028831

>>1028827
Я прям слышу как ты дрочишь на герцовку не ощущая разницы, но ты потратил деньги и ты будешь себе и мне доказывать что герцовка это важно.

Аноним 27/01/25 Пнд 21:34:41 #390 №1028833

>>1028829
А у чатгтп?

Аноним 27/01/25 Пнд 21:36:11 #391 №1028835

>>1028819
Сейчас бы смотреть на выгоревшие пиксели оледа.

Аноним 27/01/25 Пнд 21:37:17 #392 №1028840

>>1028833
почему оперэйай так называется

Аноним 27/01/25 Пнд 21:38:02 #393 №1028841

изображение.png

>>1028831
>но ты потратил деньги
Ух бля, потратился то как! Мульёны практически вложил.

Аноним 27/01/25 Пнд 21:38:46 #394 №1028843

>>1028827
>Так я взял оба
>4k моник
Лел

Аноним 27/01/25 Пнд 21:41:51 #395 №1028848

>>1028841
А мог купить HDR моник, и дрочить на цветопередачу, а не герцовку и разрешение.

Аноним 27/01/25 Пнд 21:42:54 #396 №1028851

>>1028841
знакомая нога. Дигма или санк?
алсо, много мониторов > один огромный
мимо обладатель отдельного 4:3 для каждой рабочей задачи и одного 2к для киношек и игр

Аноним 27/01/25 Пнд 21:46:58 #397 №1028865

>>1028848
Дрочить можно на что угодно, но дешевле всего на герцовку, лел.

Аноним 27/01/25 Пнд 21:54:06 #398 №1028890

изображение.png

>>1028848
>А мог купить HDR моник
-> >>1028835
>>1028851
Мошенник.
>алсо, много мониторов > один огромный
На РАБоте было, ну нафиг.

Аноним 27/01/25 Пнд 22:01:37 #399 №1028908

>>1028851
> много мониторов > один огромный
Не всегда, кстати. Я сижу за 55' телеком вообще. Это чётко 4 27' fhd монитора. Только я каждый из них могу в любой момент масштабировать как угодно, делать 2 обычных окна и одно длинное, и т.д. В работе очень удобно, в общем. И никаких рамок.
Хотя куча мониторов чтобы в каждом была всегда конкретная хуйня, типа, на одном жира, на другом гитлаб, на третьем постман, на четвёртом работаешь, на пятом ютуб/плеер с музыкой и т.д. Прикольная тема, в общем, надо будет тоже попробовать.

>>1028816
>Нахуй тебе больше 75 герц где все и так плавно?
Ну вот у меня на телеке есть режимы и 60Гц, и 120Гц. 120 ощущается прямо пиздец как плавно, какой-то совершенно другой уровень бытия. Единственный минус - перестаёшь это замечать минут через 15, что на 60-и, что на 120-и герцах. Герцовка полезна во всяких сетевых шутерах, но я в такое в последний раз играл года полтора-два назад, а так чтоб на постоянку - 3090 в 4к и 60 фпс-то не всегда выдаёт во всяких йобах.
Так что, как по мне, герцы круто, но и 60гц вполне достаточно в 99.9% времени.

мимопроходил и не понятно зачем это высрал

Аноним 27/01/25 Пнд 22:08:14 #400 №1028919

>>1028580
> МоЕ это скорее не про ум, а про удешевление самого процесса инференса (в плане требуемого компьюта, а не числа VRAM), как мне кажется.
Это скорее про комбинацию большого количества знаний, сравнимых с моделями побольше, или способ улучшить выход когда дальнейшее повышение параметров плотной модели уже невозможно или нежелательно.
Того же внимания и понимания что и у больших моделей там нет.
>>1028782
Тогда ничего особого, осваивай как пользоваться ллм и делай. Только учти что требованиям к гпу там высокие, если хочешь хорошего результата, и пердолиться придется долго.
>>1028786
А зачем ты взял амд, если не можешь в линукс?

Аноним 27/01/25 Пнд 22:15:05 #401 №1028937

>>1028919
>А зачем ты взял амд, если не можешь в линукс?
Зачем мне линукс, если существует WSL?
В любом случае раньше выходных я в это дерьмо не полезу.

Аноним 27/01/25 Пнд 22:16:16 #402 №1028939

>>1028746
Видишь детально каждый волосок из под небритой подмышки сильной и независимой транс нигерши в современной триплай игре? Лучи сильно помогают погружаться в топ триплэй игры типа Star Wars Outlaws, Конкорд или в ту игру про макаку с палкой?

Аноним 27/01/25 Пнд 22:23:39 #403 №1028966

>>1028937
> Зачем мне линукс, если существует WSL?
Это вполне релевантно для хуанга, где действительно все работает, но для амд уже хуй. По крайней мере так рассказывали их владельцы, нет поддержки на уровне драйвера.

Аноним 27/01/25 Пнд 22:32:10 #404 №1028992

>>1028966
Ну, на сайте амд есть гайд как завести ROCm на WSL, попробую для начала его, не заведётся, так буду дальше думать. Даже виртуалка не кажется мне такой уж плохой идеей, благо хардварная виртуализация по идее должна поддерживаться. Где ж, блядь, ещё, как не на этих картах.

Аноним 27/01/25 Пнд 23:44:42 #405 №1029135

Я может невнимательно смотрел, но по-моему в шапку не добавили instrumentality-rp-12b-ru-2 отличная штука межд упрочим и в русик даж неплохо справляется

Аноним 27/01/25 Пнд 23:55:27 #406 №1029160

>>1028758
Я всегда думал, что у меня зрение плохое, старый я.
Давеча посмотрел на монитор 120 и 240, и, охуеть, увидел сильную разницу! Сам удивился, раньше я думал, что выше 100 не отличаю, а оказалось, дед-то еще кое-что может!

Короче, на вкус и цвет, не все мы киберкотлеты, но кому-то надо.

А вот разрешение выше 1440p я уже не отличаю.

>>1028939
О, да вы в играх не разбираетесь… )))
Ну играйте в нонешние триплэй, коли других не знаете, противиться не будем…

>>1028992
RX в треде — слабоумие и отвага. =)
Вы — герои, но гений ваш сумрачен и непознаваем…
Но оффенс.

Аноним 28/01/25 Втр 00:05:42 #407 №1029186

>>1029135
>но по-моему в шапку не добавили instrumentality-rp
По моему в шапке вообще ни одной модели нет. Ну а если ты про список моделей от тредовичков, то там уже больше полу года ничего не обновляется.

Аноним 28/01/25 Втр 00:05:45 #408 №1029187

>>1028561
Спасибо!

Аноним 28/01/25 Втр 00:44:03 #409 №1029235

>>1029160
>Ну играйте в нонешние триплэй
а для более старых и 3090 не требуется тем более несколько. Даже в хайрезе. если только терабайтами модов не обмазывать, но там и суперкомпа не хватит
>RX в треде — слабоумие и отвага.
тут ещё пятимерное существо на ином уровне существования интоле пробегало, помянем.
Но раз уж подняли тему, в треде есть отчаянный извращенец, гоняющий на нескольких rx сразу, или я первым таким отбитым буду? ? это в принципе реально?

Аноним 28/01/25 Втр 01:14:13 #410 №1029279

1.png

>>1028604
>max_new_tokens сколько?

Использую koboldccp, не нашёл там такого.

Только Max Output и он на максимуме 512.

Аноним 28/01/25 Втр 01:35:10 #411 №1029302

>>1029279
>Только Max Output и он на максимуме 512.
Там вручную можно вписать любое число.

Аноним 28/01/25 Втр 01:38:51 #412 №1029307

1637563425789.png

Чтож, земля пухом куртке, будет знать как работягам жопить врам. Китайцы вместе с бидоном в два ствола выебали его.

Аноним 28/01/25 Втр 02:07:29 #413 №1029339

>>1029307
>Чтож, земля пухом куртке, будет знать как работягам жопить врам. Китайцы вместе с бидоном в два ствола выебали его.
Если бы. Он пока что гегемон в своей области. Выебать гегемона можно, но только когда он ослабеет и наделает ошибок - см. Интел, которого нынче только ленивый не пнёт. А Куртка скупит свои подешевевшие акции, ещё и заработает.

Аноним 28/01/25 Втр 02:10:26 #414 №1029345

>>1029279
А надо бы хотя бы тысячу, а лучше 4096…

>>1029235
Не-не, есть еще всякие демки и инди, где графон по-настоящему хорош, и требования соответствующие. И там все нормально. =)
Их немного, но факт, что видяхи есть куда применить без повесточки.

>>1029307
Да ладно, откатится назад еще. =)

>>1029339
Ваще, он их сливал дешевле, но может и скупит, хз, тоже об этом подумал.
Ну, время покажет.

Аноним 28/01/25 Втр 03:08:58 #415 №1029387

>>1029307
Чтобы куртка пошевелил своим кожаком акции зеленых должны пару месяцев подряд падать, если не дольше. В данном случае отрицательный рост вообще не связан напрямую с их продуктами, это параноики шизики начали слив на фоне прогнозов других шизиков. В течении недели или пары дней всё откатиться назад. Ну или трампыня выйдет и еще пару лярдов распорядится в чиподелов и нейронщиков вбухать.

Аноним 28/01/25 Втр 03:44:41 #416 №1029401

>>1029345
>>1029387
>всем теперь нужно в 20 раз меньше видеокарт
>щас откатится)
рекомендую вам никогда не трейдить

Аноним 28/01/25 Втр 03:57:25 #417 №1029405

>>1029401
> верит во всхрюки запредельной кринжовости
Это тебе не стоит

Аноним 28/01/25 Втр 04:33:27 #418 №1029415

>>1028758
4К топ вещь. Лично я бы, если бы была возможность, хоть в 30 фпс (стабильных катал), но в 4к и со всеми свистоперделками. А так у меня 4к без свистоперделок.

Впрочем, всё зависит от игры. Где-то даже 120 фпс маловато и есть реальная разница между 120 и 240. Лига легенд, например. Когда я в неё пару часов в день с братюнями катал, то там из-за крайне высокой динамики сражений чем больше фпс, тем лучше. Разницы не будет видно, наверное, если фпс больше 300.

Ну и в обычных играх и даже на рабочем столе 60+ всегда приятно. На 60 изображение словно рвань ебаная, оконные анимации, движение мыши и прочее.

Аноним 28/01/25 Втр 05:20:33 #419 №1029427

Посоветуйте на 8гб АМУДЕ. На русский похуй, сейчас на ChatWaifu_12B_v2.0 сижу, есть ли смысл на что то другое перекатываться?

Аноним 28/01/25 Втр 06:20:45 #420 №1029435

Был в анабиозе месяц. Опишите вкраце что нового?
Какой-то DeepSeek вышел, это новая база? Насколько хорош?

Аноним 28/01/25 Втр 06:28:41 #421 №1029436

Есть ли ощутимый выхлоп, если я подключу мониторы к цпу вместо гпу? Сколько освободится врам? У меня проц с буквой f сам не могу проверить, но готов влошиться, если ощутимо.

Аноним 28/01/25 Втр 06:31:59 #422 №1029437

>>1029436
Почти нихуя не выиграешь. Запускай линукс без интерфейса, подключайся с телефона.

Аноним 28/01/25 Втр 07:13:04 #423 №1029440

>>1029427
>сейчас на ChatWaifu_12B_v2.0 сижу, есть ли смысл на что то другое перекатываться?
Если текущая сетка устраивает, зачем перекатываться? Ничего более жирного ты явно не запустишь, а тюны на 12B особо сильно друг от друга не отличаются, с поправкой на некоторые индивидуальные болячки. Хотя, Wayfarer-12B шибко хвалят в последнее время, так что можешь попробовать. Но учитывай, что он больше под сторитейл заточен.

>>1029435
>Какой-то DeepSeek вышел, это новая база?
Уже давно обсосали, пролистай последние два треда.

>>1029436
>Есть ли ощутимый выхлоп, если я подключу мониторы к цпу вместо гпу? Сколько освободится врам?
Менее или около 500 мегабайт, если не шуршит труба в соседней вкладке. В любом случае прожор в простое сам можешь замерить даже через дефолтный диспетчер задач.

Аноним 28/01/25 Втр 07:23:21 #424 №1029442

>>1029436
>>1029437
У меня гигабут освободился, плюс 5к контекста

Аноним 28/01/25 Втр 08:08:04 #425 №1029454

Посоветуйте для нуба как за рубли запустить 123b модель на прендрванных мощностях. Где это сделать максимально просто?

Аноним 28/01/25 Втр 08:18:46 #426 №1029455

>>1028992
У меня ROCm завелся через сборку кобольда с ним.

Аноним 28/01/25 Втр 08:56:39 #427 №1029475

>>1029435
> Какой-то DeepSeek вышел, это новая база? Насколько хорош?
Спроси в ботоделов треде, они сейчас только о нем и пиздят.

Аноним 28/01/25 Втр 09:12:12 #428 №1029487

>>1029401
>всем теперь нужно в 20 раз меньше видеокарт
Сам придумал? Пока датацентры планируются всё большими.

Аноним 28/01/25 Втр 09:15:22 #429 №1029493

image.png

Что не так с моим шаблоном контекста? Каждое сообщение заканчивается на <|eot_id|.
Это если что дефолтный шаблон, я его не менял.

Аноним 28/01/25 Втр 09:17:59 #430 №1029495

>>1029493
Модель какую используешь?

Аноним 28/01/25 Втр 09:25:44 #431 №1029500

>>1029495
ChatWaifu_12B_v2.0.i1-IQ3_XXS

Аноним 28/01/25 Втр 09:29:56 #432 №1029506

>>1029500
>IQ3_XXS
ебать-копать-лоботомит

Аноним 28/01/25 Втр 09:32:38 #433 №1029511

>>1029506
Кек, ну оно работает и оно выдает текст быстро. А Q4 уже начинают напрягать видяху, что браузер виснет, генерация завершается ошибкой и прочие прелести.

Аноним 28/01/25 Втр 09:36:46 #434 №1029513

>>1026632
Попробуй для начала обычные Q6_K или Q8_0 кванты, а не IQ, особенно если запускаешь на CPU.

https://huggingface.co/bartowski/Nemomix-v4.0-12B-GGUF

Аноним 28/01/25 Втр 09:41:44 #435 №1029516

>>1029500
не советую пользоваться этой моделью, она сама по себе не очень, тем более зашакаленная настолько. лучше уж миксы местные. Если карта 8гиг, используй хотя бы q4_К_М, выгружай больше в оперативную память все равно на кобольде сидишь будет медленнее, но гораздо лучше.

Аноним 28/01/25 Втр 09:48:06 #436 №1029521

>>1029454
Арендуй почасово сервак где-нибудь тут
https://gpudc.ru/servers
https://immers.cloud/gpu/

Аноним 28/01/25 Втр 10:01:03 #437 №1029530

image.png

>>1029500
Она на основе немо, а шаблон ты используешь под ламу 3. Но немо всё равно пытается цеплять этот шаблон, и он должен нормально работать, если ты инстракт включил и выставил его тоже на ламу 3. Там <|eot_id|> будет стоп стрингом, и таверна будет останавливать генерацию по нему. А так автор модели на её странице рекомендует chatml.

Аноним 28/01/25 Втр 10:02:35 #438 №1029532

>>1028604
>fp8
Тоесть оно изначально в q8? Если его зашакалить в q8 это будет как обычная сетка в q4?

Аноним 28/01/25 Втр 10:07:46 #439 №1029537

>>1029511
Вот этот >>1029516 дело говорит по поводу кванта. Q3 совсем уж пожатый, да ещё XXS. У меня у самого 8-ми гиговая карта, и я катаю немо в Q4_K_M со всеми слоями в видяхе и галкой lowvram, чтобы контекст был в оперативе. Будет куда медленнее, но более чем терпимо. Либо можно без lowvram 34-35 слоёв в видяху ставить, если с 8к контекста. По-моему, по скорости получается одинаково с lowvram.

Аноним 28/01/25 Втр 10:33:39 #440 №1029551

Я покакал попробовал намержить что-то, +- рабочее, с учётом особенностей шизы изначальных моделек в низком кванте. На мой взгляд получилось неплохо, уже 900 сообщений откатал на разных карточках брат жив. Юзаю в Q4_K_M. Если карточка не хорни, то в трусы сразу не лезет, вроде. В вебуи кобольда надо в чат режиме юзать, в таверне всё сразу ок. В русский может. В простое приключение может.
mradermacher/Unity-12B-GGUF
Пойду поРАБотаю

Аноним 28/01/25 Втр 10:34:51 #441 №1029552

Тыкните меня в обсуждение железа под модельки, чтоб цена/качество прям в космос улетала, все глаза просмотрел, совсем слепой ничего не вижу. Может есть смысл старого серверного говна накатить, главное ведь врама побольше?

Аноним 28/01/25 Втр 10:37:50 #442 №1029555

>>1029551
>намержить
Свою репу то кинь, посмотреть что ты туда намержил.
Пример: https://huggingface.co/Aleteian/Instrumentality-RP-12B-RU

Аноним 28/01/25 Втр 10:38:54 #443 №1029556

>>1029455
Так это смотря на чём. AMD официально не поддерживает ROCm в винде для Radeon VII и mi50.

Аноним 28/01/25 Втр 10:41:41 #444 №1029557

>>1029552
>главное ведь врама побольше
будешь ждать обработку контекста по 10 минут

ща только 3060 / 3090 / 4090 - по бюджету
Про материнки не подскажу, не разбираюсь.

Аноним 28/01/25 Втр 10:56:21 #445 №1029566

Итак, где тут тот пидорас, который мне рассказывал что кванты это плацебо ? Я вчера весь день угробил тыкая мерж пантеона с цидонькой на разных квантах, и мне есть что сказать.
Во первых, тот кто решил что мешать между собой сорта мистралей это хорошая идея - тот долбоёб. Потому что хуже оригинальных тюнов.
Во вторых 13гб На 4Q и 17гб на q6 - ебать какая разница. В первом случае он постоянно лупится, тупит и порой вообще игнорирует что написано в сообщении. Прям совсем игнорирует, прям пиздец.
Ну и в третьих я подтвердил своё старое йа с тем, что мистрали - it's all same shit, а значит пользуйтесь пантеоном или цидонией и не ебите себе мозги (Только держитесь подальше от магнума, он ебанутый)

Аноним 28/01/25 Втр 10:57:22 #446 №1029568

>>1029551
Не настолько сложно как казалось =))

Суммарно на последних мержах уже больше 1000 закачек.

https://huggingface.co/Aleteian/NeverendingStory
DARKNESS + MADNESS + SaiNemoReMix

https://huggingface.co/Aleteian/Instrumentality-RP-12B-RU
Наиболее удачная база на которой уже по сути остановился

https://huggingface.co/Aleteian/Instrumentality-RP-12B-RU-2
Выкинул чат-вайфу, он на англе и япе, а в русский срал

https://huggingface.co/Aleteian/Wayfinder
Заменил дэвидовскую даркнесс гутеберг лиру на Wayfarer от aidungeon

https://huggingface.co/Aleteian/WayToHumanity
Дополнительно хроноса на Nemo-12b-Humanize

https://huggingface.co/Aleteian/Pantheon-of-Cydonia-Realm
Мерж пантеона и цидонии c целью разнообразить свайпы пантеона в деликатных сценах, вроде успешно

Аноним 28/01/25 Втр 11:00:25 #447 №1029570

Кстати модели на AMD нормально запускаются или там до сих пор вечные танцы с бубном, дровами и поддержкой сорта?

Аноним 28/01/25 Втр 11:02:42 #448 №1029571

>>1029566
>кванты это плацебо
не я =))

>Потому что хуже оригинальных тюнов
Смотря в каких задчах, моя цель была понизить позитивный биас и разнообразить свайпы в рп, эта цель успешно достигнута.

>магнума, он ебанутый
Всегда был ибо обучен на чатлогах обитателей /aicg/-подобных тредов.

>>1029566
>пантеоном или цидонией
А мерж может и рыбку съесть и на хуй сесть одновременно, в хорошем смысле.

Аноним 28/01/25 Втр 11:09:46 #449 №1029573

>>1029571
>Всегда был ибо обучен на чатлогах обитателей /aicg/-подобных тредов.
Я бы добавил в шапке треда про магнумы только одно - НЕ НАДО
Пишет как дегенерат, рассуждает как дегенерат, промты проебывает как дегенерат, сука, просто отвратительный опыт. Я не знаю кто наслаждается магнумом, но это пиздец.

Аноним 28/01/25 Втр 11:13:20 #450 №1029575

>>1029571
>не я =))
Смотри мне, я слежу за тобой.
>А мерж может и рыбку съесть и на хуй сесть одновременно, в хорошем смысле.
Чъестно, разница за 6 часов РП личных тестов только в двух моментах. Я сейчас не про мержи, а про саму пантуху или цидонию.
Если цидонька при встрече с оборотнем дает примерно 80% свайпов про то как вы начинаете ебаться, то пантеон даст 50% шанс на откусывание твоего ебала. Ну и я под впечатлением от витиеватых описаний цидоньки. То что я люблю. И цветочки опишет, и травку, и как ветер колышет меховые пенисы, красота же.

Аноним 28/01/25 Втр 11:18:44 #451 №1029579

>>1029235
>в треде есть отчаянный извращенец, гоняющий на нескольких rx сразу
Ну есть, только на вулкане. На rocm не завелось, подозреваю, из-за старости. Хотя на instinct'ах на архитектуре gcn вроде запускали мультигпу успешно, в issues в герганыча отписывались.
>>1029570
>нормально запускаются
Ну как бы запускаются, если у тебя поддерживаемая карта и последняя версия rocm
>танцы с бубном, дровами и поддержкой сорта
Это если ты пытаешься запустить что-то, выходящее за рамки официальной поддержки.
>или
Не "или" а "и".

Аноним 28/01/25 Втр 11:29:22 #452 №1029589

image

>>1029575
>я слежу за тобой
За мной и так уже Чёртовыа Дюжина следит XD

Аноним 28/01/25 Втр 11:30:46 #453 №1029593

>>1029589
>Чёртова Дюжина
блин, в последний момент по клаве промазал...

Аноним 28/01/25 Втр 11:51:34 #454 №1029614

>>1029387
> пару месяцев подряд падать
Они кончатся через неделю такого падения, лол. Почти половина триллиона капитализации за пару дней - это пизда. Ещё и санкции на куртку наложены своим же правительством.

Аноним 28/01/25 Втр 13:21:24 #455 №1029745

>>1029568
У какой из них русик лучше всего на твой взгляд?

Аноним 28/01/25 Втр 13:23:07 #456 №1029747

>>1029745
Хуюсик. Пиши на английском, гуглтранслэйт уже умеет в нормальный перевод.

Аноним 28/01/25 Втр 13:27:02 #457 №1029749

>>1029745
Тебе хочется ебли падежей ? Тебе не хватает окончаний по родам ? тебе хочется увидеть Олег поднял ее повыше, и она завела ноги за его спину, обхватывая его талию и прижимая его сильнее к себе. Теперь только тоненький лоскуток трусиков отделял ее от его члена. ?

Аноним 28/01/25 Втр 13:32:56 #458 №1029756

Пишут, что локальный генератор песен таки выкатили. Врут наверное.

Аноним 28/01/25 Втр 13:37:50 #459 №1029760

>>1029756
А ты с ссылкой приходи, посмотрим что пишут.

Аноним 28/01/25 Втр 13:40:10 #460 №1029762

>>1029745
Инструменталити 2 наверно, хотя тут другой анон в треде положительно отзывался о Wayfinder.

Ну и наверно Wayfinder модель с минимумом лишнего потому что состоит только из тюнов - Сайговихрь, Wayfarer, Chronos.

Но не рассчитывай на лингвистически идеальный русский - такого не выдавал даже сам Вихрь, а "сайгизмы" вообще притча во языцех.

Аноним 28/01/25 Втр 13:46:51 #461 №1029773

Потолок ледяной, двеееерь скриипучая
Вот бы кто запилил 22b на мооогууучем

Аноним 28/01/25 Втр 13:47:30 #462 №1029774

>>1029760
>А ты с ссылкой приходи, посмотрим что пишут.
Моё дело вбросить. Если народу лень задницу поднять, значит никому не надо и время для технологии ещё не пришло.

Аноним 28/01/25 Втр 13:50:40 #463 №1029777

image.png

У Нвидии правда дела плохо идут из-за дипсика или это китайский псайоп? Мне неприятно и тревожно потому планировал все деньги за Digits отдать

Аноним 28/01/25 Втр 13:54:06 #464 №1029782

>>1029774
>Моё дело вбросить.
А наше дело проигнорировать.

Аноним 28/01/25 Втр 13:54:30 #465 №1029784

>>1029777
А можно график хотя бы месячный увидеть ?

Аноним 28/01/25 Втр 13:55:04 #466 №1029785

>>1029777
>У Нвидии правда дела плохо
Да, всё, пизда корпорации, закроются нахуй, и 5090 забесплатно будут раздавать бомжам.

Аноним 28/01/25 Втр 14:00:57 #467 №1029787

image.png

>>1029784
Держи. На реддите читал, что китайцы заявили - дипсик за 3 копейки тренируется и мощные картонки нвидиа больше не нужны (те которые из-за санкций в Китай не поставляют). Я не понимаю в чем тут логика, всю историю развития компьютера люди находили куда большие мощности отдавать и вдруг перестанут?

>>1029785
Я волнуюсь, что наоборот дороже все станет раз проблемы у корпорации.

Аноним 28/01/25 Втр 14:03:51 #468 №1029793

>>1029787
>Держи.
ЛОВЛЮ БЛЯТЬ, ДЕРЖИТЕ МЕНЯ СЕМЕРО, УЖЕ РУКИ РАССТАВИЛ

Ну да, действительно падение есть. Ну будем смотреть.
>>1029787
>Я волнуюсь
Абсолютно бессмысленно по причине отсутствия у тебя рычагов повлиять на ситуацию.

Аноним 28/01/25 Втр 14:37:44 #469 №1029841

1620519678261.webp

>>1029777
На дипсик ещё наложились санкции и новая серия карт. 5090 фактически не будет, а остальные карты говно с 8 гигами врам и фейковыми кадрами.
> неприятно и тревожно
Наоборот надо радоваться. Цукерберг и Альтман уже волосы на жопе рвут, а мечта местных сбылась - закрытые модели поставили на место, забрав их монополию. Теперь с анальными болями в США будут пытаться сделать что-то новое и ускорять разработки. Ничего лучше конкуренции не может быть для потребляди.

Аноним 28/01/25 Втр 14:59:43 #470 №1029852

>>1029777
Бидон в последние дни решил всем поднасрать, а Трамп не спешит отменять указ и ждет обсуждений что планируются.
По поводу дипсика - это вообще смех и байка для хлебушков (хотя использовать ее чтобы расшатывать можно, да).

Аноним 28/01/25 Втр 15:19:36 #471 №1029866

>>1029852
> байка для хлебушков
Так в США он внезапно обогнал жпт по скачкам приложений. Имадженируй ебало Альтмана, когда в топе ИИ-приложений на мобилы на первом месте висит Дипсик. Трампыня объявил Китаю ИИ-войну с распильным бюджетом в 500 лярдов и за неделю проиграл модели за 8 лямов. До людей начинает наконец доходить как выглядит ИИ-скам, когда миллиарды распиливают в пустоту, хотя фактическая стоимость тренировки в 1000 раз ниже и всё решает компетентность обучающих.

Аноним 28/01/25 Втр 15:21:20 #472 №1029869

>>1029866
Я больше жду какого нибудь ответа на доминацию омэриканский компаний в области железа. Без конкуренции они хуеют.

Аноним 28/01/25 Втр 15:27:12 #473 №1029878

>>1029869
Ждём после СВО хода мудрого Си, как заберёт Тайвань, так и будет всё. Хотя у китайцев уже есть наработки свои, они просто экономически неконкурентноспособны, но при этом вполне рабочие с производительностью уровня амуды в ИИ.

Аноним 28/01/25 Втр 15:31:10 #474 №1029887

Привет, аноны. Я из соседнего треда по генерации картинок. Мне бы локально поставить сетку, которая могла бы в нецензурированный (ванилла и фетиши) промпт-ген хотя бы на уровне "вот готовый промпт — сделай вариаций". Имею всего 16 рам и 8 врам. Посоветуйте? Английский знаю, по работе пользовался ollama.

Аноним 28/01/25 Втр 15:33:52 #475 №1029893

>>1029887
Любое 8В говно подойдёт. Если будет в отказы идти, то просто делай few-shot с нужным уровнем извращений.

Аноним 28/01/25 Втр 15:42:23 #476 №1029903

>>1029893
Можно конкретную метовую рекомендацию?

Аноним 28/01/25 Втр 15:49:18 #477 №1029911

>>1029866
То что он популярен - это хорошо, то что они выкладывают модели в опенсорс - хорошо втройне. Даже если они не удовлетворяют чьим-то хотелкам или на самом деле просто надроченны на бенчмарки и ограниченные кейсы. И щелчок по носу клозадем - отлично.
А байка про херню что для тренировки нужно в 20 раз меньше видеокарт, что сейчас датацентры пойдут закрываться и подобное - полнейший бред для шизиков. Там уже планируют кластеры типа аэс+мегадатацентр, как раньше было с некоторыми мегазаводами, и спрос на карточки никуда не денется.
Это еще так тиражировать начали и спамить кринжовые вонаби-технические статьи на одному шаблону. Чистейшей воды манипуляция для нормисов, у которых ллм это буквально приложение на телефон и интернет туда помещается.
В конечном итоге все это приведет лишь проблемам для обычных потребителей и энтузиастов, ибо угадайте какой рынок пойдет первым по нож после плохих квартальных отчетов куртки. А альтернатив всеравно нет и врядли будет в ближайшие года 3-4.

Аноним 28/01/25 Втр 16:01:35 #478 №1029921

>>1029911
> манипуляция для нормисов
Реальный отток капитала тоже для нормисов нарисовали, лол? Триллион баксов из айти-компаний за день вышли в реальности, а не в твоих фантазиях про манипуляции. Факт в том что инвесторы бегут с тонущего корабля. Особенно когда рядом у друзей Трампа есть бесконечная труба с баблом, откуда будут сосать миллиарды не один год.

Аноним 28/01/25 Втр 16:08:48 #479 №1029934

>>1029887
Мне показалось, что Eros_Scribe, даже один из небольших кванов от 7b на 5 гигов, на английском прекрасно пишет и все понимает, и прям быстра. Есть побольше, типа 10b. Если чуть-чуть не влезет в видяху, то все равно быстра, если много не влезет видяху, то типа медлено, но по-любому будет юзабельно даже на проце, все равно быстрей будет, чем пишет человек.

Аноним 28/01/25 Втр 16:21:38 #480 №1029950

Есть актуальный список, какие карты дают какой выхлоп на рубль в 2025? Только нвидия и только непрофные.

Аноним 28/01/25 Втр 16:27:50 #481 №1029957

>>1029950
Да всё по-прежнему. Подели объём видеопамяти на цену.

Аноним 28/01/25 Втр 16:30:43 #482 №1029962

>>1029957
Я только вкатываться собираюсь, не знаю что по-прежнему. И шо, только объем и больше нихуя не роляет, сам чип не влияет? И 2 штуки работают точно так же, как 1 в 2 раза большего объема?

Аноним 28/01/25 Втр 16:50:57 #483 №1029978

>>1029777
Это просто паника инвесторов, потому что они не разбираются.

Пройдет.

———

Ну че, бояре, уже попробовали?
https://www.reddit.com/r/LocalLLaMA/comments/1ibbloy/158bit_deepseek_r1_131gb_dynamic_gguf/

У меня IQ1_M не хочет влазить, качаю IQ1_S… =(

Аноним 28/01/25 Втр 16:58:20 #484 №1029993

>>1029978
Падажжи. 2 т/с на 24гига? Т.е. он одну фразу будет минуту думать?

Аноним 28/01/25 Втр 17:05:43 #485 №1030007

>>1029993
MoE, там 37B активных параметров из 671B.
Т.е., только 5,5% модели обрабатывается. Из 131 гига — получается 9 гигов. Как 9b модель в Q8_0. Ну, очень грубый пример.

Аноним 28/01/25 Втр 17:12:27 #486 №1030017

>>1029760
Думаю он про это https://github.com/multimodal-art-projection/YuE

Аноним 28/01/25 Втр 17:23:58 #487 №1030030

>>1029962
3060 - 3090 - 4060 - 4090 - по бюджету

Роляет объём врам и ширина шины.

Аноним 28/01/25 Втр 17:31:35 #488 №1030038

>>1029773
Да. Даже я б тогда, хоть у меня и скорость медленная, юзать её стал. Если бы там нормально было. Но, вероятно, это возможно только через жопоразрывное дообучение модели.

Хотя я б облизвался и на клодослоп. Лишь бы русиком насрал с она провела пальцем по моему подбородку.

Аноним 28/01/25 Втр 17:32:18 #489 №1030039

>>1029756
>>1030017
У меня в 12 гигов не влезло, в на тесле не заводится из-за Flash-Attention. =( Сука, я в горе!

Аноним 28/01/25 Втр 17:37:23 #490 №1030046

>>1029747
Не, нихуя. Гугл самый отвратительный из этой шоблы.

Яндекс лучше всех, но иногда сыпется там, где не сыпется дипл, и наоборот, вот только симпл-димпл ещё и платный по апи.

>>1029749
Знаешь, даже не совсем этого, хоть это и круто. Если бы у модели был богатый словарный запас, хотя бы 40% от русека клода (у него он реально оче крутой), то это был бы отвал башки.

>>1029762
О, кстати. Очень странно, почему он хронос воткнул. Ведь есть же Немо микс анлишед, который ебёт в русике весьма смело и хорош в рп. Хронос в этом вопросе кал по сравнению с ним на мой взгляд.

То есть сайга + анлишед выглядит вкусно.

Аноним 28/01/25 Втр 17:38:48 #491 №1030048

>>1030030
Я все еще нихуя не понял, давай конкретный вопрос задам:
Вот тут написано, что выдает 2т/с на 24гига (хуйпойми только какие именно). Если я хочу 5т/с, то мне надо самых пиздатых 2х24 купить, или самых дешевых 4х12?

Аноним 28/01/25 Втр 17:43:27 #492 №1030056

>>1030048
Влияет и объем памяти, и скорость памяти, и чип.
Но по-разному.

В 2х12 влезет то, что влезет и в 1х24, но не влезет то, что влезет в 2х24.
Чем больше — тем лучше. Почти всегда.

Далее уже идет скорость и чип. Как правило, они довольно хорошо соотносятся. Кроме 4060 ti, у нее такая медленная память, что выдает скорость не сильно выше 3060, хотя чип сильно мощнее.

Объем не увеличивает скорость.
Если ты хочешь вместо 2 токенов сек на 3090 получить 5 токенов сек — тебе надо покупать H100 за три миллиона рублей и поднимать там TensorRT. =D Вот и будет заебись.
А 1, 2, 3 4090 дадут максимум 3 токена, и то вряд ли.

Короче, надо смотреть в комплексе.
А на объем дрочат потому что иногда можно и подождать, ради охуеть какой умной модели.

Аноним 28/01/25 Втр 17:46:08 #493 №1030060

>>1030056
Но по той же ссылке ее оп написал, что 4х 3090 дают 20+ т/с.

Аноним 28/01/25 Втр 17:51:04 #494 №1030075

Зачем нужны джейлбрейки ? Я знаю что это, я просто не понимаю нахуя. ООС и так делает то, что ты скажешь.
Нипонимат

Аноним 28/01/25 Втр 18:12:11 #495 №1030112

>>1030075
это понятие нужно только для закрытых сеток.

Аноним 28/01/25 Втр 18:18:10 #496 №1030119

>>1030112
Это для всяких опенаи которые на деле клоузед бай мани ?

Аноним 28/01/25 Втр 18:22:46 #497 №1030123

>>1029921
Ебало хомячка имаджинировали?
> в твоих фантазиях про манипуляции
Чел, ты настолько наивен или просто тупой?
> инвесторы бегут с тонущего корабля
Потому что дипсик! Нет ничего рофловее чем аналитика от шизоидного хомячья.
>>1029950
3090 с лохито вне конкуренции, есть и подводные. Есть еще тесла но с ней медленно и они слишком дорогие.
>>1029962
Чип роляет на обработку контекста. Генерация в основном упирается в пропускную способность памяти ибо банально нужно гонять до чипа все веса на каждый токен. И тут одно дело медленнее а другое дело никак, потому врам в приоритете.
> И 2 штуки работают точно так же
Две штуки позволят запускать модель вдвое больше, скорость не складывается. Точнее есть режимы в которых ее можно повысить раза в 1.5, но там такие побочки что не захочешь.
Скорость генерации легко оценить как "объем модели/псп врам", при условии что вся она будет в видеопамяти одной или нескольких карточек. Обработка контекста - флопсы.
>>1030048
Пары 3090 хватит чтобы катать 70б в минимально-нормальном кванте с среднего размера контекстом (20-25к если без квантования, до 50к если в q8) со скоростями ~15-19т/с.
Оценивая групо по бенчмаркам и интерполируя, 4х 3060 позволят запускать примерно то же самое, но со скоростью где-то в 3 раза ниже. 3х 4060ти@16 будет где-то там же.

Аноним 28/01/25 Втр 18:22:55 #498 №1030124

>>1030060
По какой ссылке?
В треде, на который я ответил, ссылок не было.
Я просто описал значимость и зависимость.
О какой модели речь? :) В каких условиях?

———

Запустил на 128 гигах озу и 48 врама deepseek IQ1_S.
Оно отвечает разумно и работает с предсказуемой скоростью.
37B активных параметров — 1.5 tok/sec на DDR4.
На DDR5 можно и 3 токена получить, неплохо.

Но хуй знает, ща тестим, насколько оно там разумное, конечно.

Аноним 28/01/25 Втр 18:25:55 #499 №1030130

>>1030075
Это потому, что ты используешь уже расцензуреные модели. Но даже они, если им не сказать, что все можно, могут лить сою и отказываться говорить про писюны. На корпосетках, таких как чатгпт, клод и т.д цензура ещё анальные и нужно изъебываться, чтобы сетка начала ерп.

Аноним 28/01/25 Втр 18:39:33 #500 №1030152

изображение.png

Вот челик молодец, которая в шапке ссылка на рускоязычные, которая SAINEMO-reMIX. Она хорошо учит английскому. Хоть простые, хоть сложные и может разные варианты предлагать.

Аноним 28/01/25 Втр 18:58:09 #501 №1030174

>>1030152
Да. Это пока что лучшие потуги в рурп.

Аноним 28/01/25 Втр 19:03:50 #502 №1030182

>>1030152
Почему она весит 5 гб, но если перейти по ссылке к mradermacher то становится 13?

Аноним 28/01/25 Втр 19:09:40 #503 №1030185

image.png

>>1030075
Скажем так. Есть причины.

Аноним 28/01/25 Втр 19:26:45 #504 №1030209

>>1030124
> IQ1_S
Это даже не китайская копия, это прошлогодний пердеж нахуй
Не знаю какого интеллекта ты ожидаешь от сетки, от нее там слишком мало осталось
Судить о возможностях оригинала или даже 4 кванта по этому ошметку не советую

Аноним 28/01/25 Втр 19:35:07 #505 №1030217

>>1030182
Там разные есть https://huggingface.co/mradermacher/SAINEMO-reMIX-GGUF

Бери то, что влезет тебе в видеопамять.

Аноним 28/01/25 Втр 19:37:16 #506 №1030223

>>1030217
Это я понял, но почему не юзать ту за 5?

Аноним 28/01/25 Втр 19:40:17 #507 №1030226

17239126996030.png

Люди, которые заставляют делать это

Download the .gguf Model u want. For this example it is in the standard Windows "Download" Folder

Create a Modelfile.txt File in C:/Users/YourWindowsName

Open the Modelfile.txt and insert "from C:\Users\YourWindowsName\Downloads\MODELNAME.gguf"

Safe+Close Modelfile.txt

Rename "Modelfile.txt" into "Modelfile"

Open CMD and type in "ollama create NAMEYOUWANT -f Modelfile"

Wait until finished

для добавление с своей ебаный загрузчик стороних моделей, заслуживают плетей.
Трижды обоссаная оллама.

Аноним 28/01/25 Втр 19:41:50 #508 №1030230

>>1030209
Что-то ты промазал всем сообщением, братиш.

1. Я прямо пишу, что «оно разумное», то есть даже буквы в слова складывает, что удивительно.
2. https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-UD-IQ1_S — загружено сутки назад, если что.
3. https://unsloth.ai/blog/deepseekr1-dynamic — это тернарные биты [-1, 0, 1], по которым тыща папиров уже год нахуячена. Нашли куда применить.
4. Судить о возможностях оригинала можно по их бесплатной открытой модели. =D Хули там судить — заходишь и пользуешься.

Тут скорее интересно пощупать, как сильно проседают тернарные биты по качеству, как ведет себя MoE с таким экстремальным сжатием, и, вообще, как ведет себя Deepseek R1 локально.
Естественно, полноценно в работе таким я пользоваться не буду. =) Зачем, если есть онлайн-версия.

Аноним 28/01/25 Втр 19:42:21 #509 №1030231

>>1030226
База.

Аноним 28/01/25 Втр 19:44:21 #510 №1030236

>>1030226
Какой смысл если есть кобальт?

Аноним 28/01/25 Втр 19:45:52 #511 №1030240

image

>>1030236
>кобальт
Никакого.

Где переКОТ?

Аноним 28/01/25 Втр 19:48:36 #512 №1030245

>>1030230
> это тернарные биты [-1, 0, 1],
Нет, это попытка ужать в них модель. На сколько помню настоящие тернарные биты только специальной тренировкой под них получаются.
Чего бы ему буквы не складывать? Сжатие до этих бит идет с проверкой весов и прогоном того же перплексити, для оценки того как и куда ужать модель.
Это означает что она в любом случае будет что то отвечать, но проверки на разумность ответов скорей всего при сжатии не делали.

>>1030226
оллама говно говна, незнаю кто и зачем продолжает ей пользоваться. Ориентированная для хлебушков но неудобная консольная херня, ни вашим ни нашим. Для нежелающих погружаться в тему хлебушков трухакеров, развлекающихся с командной строкой? хз