Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №77 /llama/

>>869715
ну разве что только для экспериментов.
Но когдща начинаешь увеличивать врам сложно остановиться.
четвертая тесла была лишней...

Аноним 29/08/24 Чтв 17:38:29 #21 №870161

>>870121
>четвертая тесла была лишней...
Патронов много не бывает. Мистраль 123В c комфортом размещается; генерация немного ускоряется; в случае выхода одной карты из строя жить ещё вполне можно.

Аноним 29/08/24 Чтв 17:56:28 #22 №870179

>>869843
Это говно уже обоссывали, там жпт и клауда по разные концы рейтинга лежат.

Аноним 29/08/24 Чтв 17:58:56 #23 №870182

>>869714
>что уже должно быть быстрее всратой ддр4.
Только ты забыл, что там кажись вообще Kepler, в смысле архитектура ещё старее, чем у P40.
>>869843
Предлагаешь в шапку добавить?
>>869878
P100 же, там хотя бы память ебёт на уровне современных видях.
>>870012
Всем похуй.

Аноним 29/08/24 Чтв 18:55:33 #24 №870248

>>869843
Этот список уже есть в шапке, я его еще на той неделе впихнул. Рейтинг конечно не совсем вменяемый, но в целом ему верить можно.

Аноним 29/08/24 Чтв 19:21:55 #25 №870257

>>869674 (OP)
Ну чёго как?
На что перекатиться для РП? Но что бы токенайзер в русский мог.
Тестанул
bullerwinsL3-70B-Euryale-v2.1_exl2_4.0bpw слишком хорни
command-r-v01_exl2_5.0bpw норм русский, но мне показался глуповат
FuturisticVibesMeta-Llama-3-70B-Instruct-abliterated-v3.5-4.0bpw-h8-exl2 Ллама3 как ллама 3+ иногда подсерает .ассистент
Zoydfailspy_Smaug-Llama-3-70B-Instruct-abliterated-v3-4_0bpw_exl2 Вот это вроде норм, но лупы.

Может кто чего еще посоветует.

Аноним 29/08/24 Чтв 19:56:53 #26 №870286

>>870257
Где вы лупы в ламе находите, шизики?
> Может кто чего еще посоветует.
Тут только таблетки можно посоветовать, потому что у тебя всё остальное тоже будет лупиться. В том числе и лучшая модель с русским.

Аноним 29/08/24 Чтв 20:23:47 #27 №870307

>>870286
>Где вы лупы в ламе находите, шизики?
Я думаю из-за настроек у них лупы.

У меня тоже лупы были на мини-магнуме и магнуме 2, поменял температуру с 1.12 на 1, стало меньше, или вовсе нет лупов, я не особо заметил.

Лупы у меня были, если ничего не писать, а продолжать сцену дальше, чтобы модель продолжала сама. Когда писал действие, или же просто че-то говорил, все новый контент. И то эти лупы, случались после 2-3 паст, которые 400 токенов.

Аноним 29/08/24 Чтв 20:25:25 #28 №870310

image

Там визуальный qwen выпустили. Но пидры не заопенсорсили 72B-версию.

Аноним 29/08/24 Чтв 20:44:28 #29 №870324

>>870310
>gym cards
типа в качалку запишет или че?

Аноним 29/08/24 Чтв 20:46:23 #30 №870329

Куда в koboldCpp совать модель mmproj?
Там в примерах непонятно сказано, а очень хочется попробовать запустить.

Аноним 29/08/24 Чтв 20:48:47 #31 №870333

>>870329
Тебе мама жопу подтирает? А то я просто не верю, что человек с таким низким ICQ сам может научиться этому искусству.

Аноним 29/08/24 Чтв 20:50:21 #32 №870336

>>870333
Видимо долбился в глаза. Четыре раза все пересмотрел, но не увидел эту строку. Спасибо, анон.

Аноним 29/08/24 Чтв 21:30:49 #33 №870394

>>870097
> Готов поспорить на чашку кофе, что с Жорой работает.
Техническая возможность работы там весьма вероятно. Вот только могут повылезать вагон подводных, типа придется собирать все с древним куда-тулкитом, оно будет работать ужасно медленно, или, самое неприятное, результаты генерации будут значительно отличаться от того, что получается на цп и на нормальных картах. Последнее уже не в новинку, но фиксилось, а тут из-за древности может и не получиться. К тому же это сложно диагностировать.
Офк интереснее будет если оно заработает, а там уже смотреть сравнивать по скорости и по результатам.
> Он там уже третий метод разделения по видяхам запилил
Да хуй знает, рапортуют о том что они дохуя ускоряют, по факту имеем только скрины с тесел на мелком контексте где действительно похоже на ускорение. На современных картах эффекта или ноль, или же он проявляется только на первых 8к контекста, после чего наоборот дает в минус.
>>870310
> не заопенсорсили 72B-версию
Рррееее негодяи. Но оно всеравно будет соевым и не сможет нормально в нсфв.

Аноним 29/08/24 Чтв 21:35:51 #34 №870399

Господа, меня с вопросами отправили к вам, но в шапке и так уже на все вопросы есть ответы, кроме одного: какую систему вы посоветуете ставить под эти цели - венду или линух (если линух, то какой)? Я стал счастливым обладателем P40 и, по-видимому, буду использовать стандартный варик koboldcpp + SillyTavern.

Аноним 29/08/24 Чтв 21:36:22 #35 №870400

saiga.png

Посоветуйте новые русские модели 7b-13b, которые были специально обучены на русских датасетах, чтобы без цензуры и сои.
Сайга не очень.

Аноним 29/08/24 Чтв 21:39:39 #36 №870406

>>870399
Ваще похую.
>>870400
>Сайга не очень.
Спасибо, КО. Что угодно лучше сайги.
Ах да, 7B для русека маловато. Впрочем, вот от пониёбов попробуй
https://www.reddit.com/r/LocalLLaMA/comments/1f2uvo0/woonav129b_my_little_pony_russian_singlelanguage/

Аноним 29/08/24 Чтв 21:41:58 #37 №870410

>>870399
Вот и оставайся на коболд + силли. Если модель помещается фулл в врам, exllama + силли. Вот и усе.

Аноним 29/08/24 Чтв 21:54:11 #38 №870427

>>870399
>но в шапке и так уже на все вопросы есть ответы, кроме одного: какую систему вы посоветуете ставить под эти цели - венду или линух
Если в шапке об этом не указано, значит похуй. Но есть старая байка про то, что куду линукс хуево поддерживает, правда это или нет, хуй его знает, никто здесь на нем не сидит.

Аноним 29/08/24 Чтв 21:54:26 #39 №870428

1708532206714.png

>>870307
> Я думаю из-за настроек у них лупы.
Да тот чел явно формат промпта проебал, раз у него ассистенты лезут.

Аноним 29/08/24 Чтв 21:58:51 #40 №870435

>>870399
> там уже смотреть сравнивать по скорости и по результатам.
Я бы поставил всю ту же чашку кофе, что будет процентов сорок от p40 и идентичный результат. Но я её уже выпил.

>>870399
Линукс для нейронок в несколько десятков раз лучше винды. Но правда в том, что для кобольда с теслами это не важно, там нет топовых оптимизаций в принципе.

Аноним 29/08/24 Чтв 21:59:58 #41 №870438

>>870400
Мисраль немо разве что. Русский у нее вполне приличный для своего размера. А файнтюнов приличных нет, тут в целом ситуация никак не изменилась с прошлого года.

Аноним 29/08/24 Чтв 23:22:14 #42 №870500

>>870310
Какой из этих тестов покажет capabilities in lewd and pron?
>>870399
С нуля? Линукс конечно же, если дружишь с консолькой и привык пердолиться, нейрота имеет некоторые преимущества на нём, в виде присутствия всего и в первую очередь, на винду потом подвозится только самое нужное обычно. Серьёзный мл так вообще только там.

Аноним 30/08/24 Птн 04:01:36 #43 №870638

Разбираюсь со скриптовым языком в таверне, хочу понять его возможности и ограничения.

Накидал два скрипта, пока разбирался:

https://rentry.co/z9xqrf9p/raw
Делает саммари текущего чата, отправляет саммари в чат от лица "Summarizer" и после этого отключает все прошлые сообщения в чате из последующих вызовов в промпте, так что с точки зрения LLM все последующие сообщения будут начаты с чистого листа - входной информацией будет только саммари.

https://rentry.org/5fg3nt9d/raw
И ещё один, более интересный - скрипт запрашивает у LLM список имён всех персонажей на текущей сцене. Затем он в цикле запрашивает детальную информацию по каждому персонажу по отдельности. Дальше мы суммируем выводы по всем персонажам и шлём в чат от лица "Chars info". Поскольку мы запрашиваем инфу по отдельности, оно должно меньше галлюцинировать, наверное... Тут всё равно есть неточности.

В моём случае, на вызов такого саммари уходит 6 LLM-запросов (1 - получение списка чаров, 5 - итерация по всем чарам, включая игрока)

Оба скрипта под русек, ну там можно запросы в LLM отредачить, если интересно кому потыкать.

Аноним 30/08/24 Птн 04:02:51 #44 №870641

>>869674 (OP)
Новая шапка топовая. Молодца, ОП.

Аноним 30/08/24 Птн 04:23:02 #45 №870652

>>870638
На каком пресете это будет работать?

Аноним 30/08/24 Птн 04:35:55 #46 №870656

>>870652
Сложно сказать. Я это скорее как концепт рассматриваю пока, а не как что-то рабочее.

В идеале, хотелось бы иметь какой-то набор скриптов, чтобы, заваливать сетки миллиардом запросов с тупыми вопросами по текущему контексту, и как-то по грамотному направлять их, чтобы вычленять важные детали и только потом на их основании генерировать основной ответ.

Аноним 30/08/24 Птн 04:53:14 #47 №870659

>>870656
Вообще, интересно, можно ли будет посредством кучи мелких запросов раскачать мелкие сетки до состояния, что у них будет меньше проблем с логикой. Просто, с таким подходом выходит, что скорость вывода становится очень важной, поскольку мы проводим декомпозицию посредством разбиения одного сложного запроса на множество простых; и юзеру долгое время просто нечего будет читать. Так то и немо может саммари по одному персонажу сделать - следовательно, можно и крупное саммари на нём посчитать.

Аноним 30/08/24 Птн 05:09:11 #48 №870660

>>870659
Ну хз, 1.8s чтобы немо прикинула только текущую одежду персонажа. Если спросить сразу по трём разным пунктам, то 4.8s. Непонятно, имеет ли смысл прям совсем на элементарные элементы такие запросы разбивать. Всё же это от уровня интеллекта сетки должно зависеть, по идее. Если сетка безошибочно осиливает более сложные команды, то нет смысла это разбивать.

Ещё надо как-то пресеты по идее свои настраивать с этими саммари - в таверне вроде только ограниченные возможности по динамической смене скриптами для такого были, надо разбираться.

Аноним 30/08/24 Птн 07:05:28 #49 №870675

Сенколюб, а Сенколюб, не хочешь поделиться своими наработками отсюда >>868991 → >>868995 → пожалуйста?

Аноним 30/08/24 Птн 07:22:45 #50 №870685

Мне больше интересно можно ли затюнить мелкую модель на определенного персонажа успешно, иначе не особо понятно зачем вообще на них рпшить сейчас.

Аноним 30/08/24 Птн 07:30:49 #51 №870689

>>870685
Нахуя тренировать модель на одного конкретного персонажа?

Аноним 30/08/24 Птн 07:33:13 #52 №870690

>>870689
Чтобы она хоть одного отыгрывала не шаблонно и не путалась в деталях

Аноним 30/08/24 Птн 07:35:08 #53 №870691

>>870690
>Чтобы она хоть одного отыгрывала не шаблонно и не путалась в деталях
Это в принципе уже могут крупные модели.

Аноним 30/08/24 Птн 07:40:04 #54 №870693

>>870691
Да ну, на любой модели долго попробуй посидеть и заметишь как легко парик слетает. Детали путают меньше, но нужно еще чтобы они проактивно использовались, а не как в поисковике

Аноним 30/08/24 Птн 07:40:20 #55 №870694

>>870690
Ты видать малеха не понимаешь, как работают модели, и что твоя затея бредовая. Чтобы модель "не шаблонно" отыгрывала и не путалась в деталях, ей нужны связи, много связей. Чтобы она точно понимала что собака - это не варежка и на руку ее надеть нельзя. Мелкие модели тупые, их сколько не дрочи на определенные темы, они всё равно будут обсираться в деталях и легко скатываться в поток галлюцинаций.

Аноним 30/08/24 Птн 07:40:38 #56 №870695

Попробовал ггуф Euryale-v2.2. Такое себе. Хуже Магнума и лупы сильно заметнее.

Аноним 30/08/24 Птн 07:45:02 #57 №870697

>>870694
Шаблоннось в данном случае это не про мозги, модель просто не знает как персонаж себя ведёт в разных ситуациях и как говорит, поэтому применяет известные стереотипы. И вообще я как бы не против тюна 70б, но пока даже 8б не видел.

Аноним 30/08/24 Птн 07:48:02 #58 №870699

>>870693
>на любой модели долго попробуй посидеть и заметишь как легко парик слетает
Да, слетает и что? Это же модель. Как она там внутри понимает происходящее - хз. Дай ещё шанс и хорошая модель буквально на второй раз вместо нелогичного бреда выдаст логичный :) Я уже не обращаю внимание на отсутствие "четвёртой стены", так как знаю, что пока что её там в принципе быть не может. А так удачные большие модели, заточенные под нужную тематику уже дают вполне качественное представление.

Аноним 30/08/24 Птн 07:49:04 #59 №870702

>>870697
>Шаблоннось в данном случае это не про мозги, модель просто не знает как персонаж себя ведёт в разных ситуациях и как говорит, поэтому применяет известные стереотипы.
Ну так сваргань простыню на пару тысяч токенов и впихни все возможные сценарии внутрь, чтобы получить именно то поведение, которое тебе нужно. Тут даже никакие тюны не нужны.

Аноним 30/08/24 Птн 08:13:58 #60 №870710

>>870702
Оно все в кучу перемешается или будет какой-нибудь байас. Например станет пошлой во всех ситуациях. Только если подсовывать в нужный момент инфу будет работать, но не то чтобы это легко сделать не получив робота.
>>870699
После тренировки под конкретную задачу модель ее выполняет гораздо лучше, не понимаю что такого уж применить это к отыгрышу персонажа. Вопрос только в том насколько это сложно.

Аноним 30/08/24 Птн 08:27:41 #61 №870712

>>870710
>Оно все в кучу перемешается или будет какой-нибудь байас.
Будешь тренить как файнтюн - тоже получишь "байас", ровно никакой разницы, особенно на маленьких моделях.

>После тренировки под конкретную задачу модель ее выполняет гораздо лучше
Ну да, при дообучении на датасетах с тысячями примеров модель работает лучше. Но мне интересно, как ты будешь таким же способом тренировать ее на конкретного персонажа, а не на широкую область.

Аноним 30/08/24 Птн 08:35:06 #62 №870714

>>870712
Да понятно, что надо будет синтетику генерить как-то для датасета. Ещё есть вариант как на одном ищвестном сайте, где юзеры помечают оценками аутпут бота.

Аноним 30/08/24 Птн 08:39:55 #63 №870717

>>870714
>Ещё есть вариант как на одном ищвестном сайте, где юзеры помечают оценками аутпут бота.
Хуй его знает, как оно там на чайной работает на самом деле и влияет ли оценка от юзеров на атупут персонажей. Они вроде какие то статейки высирали, но я их не читал и мне похуй, я просто скептичен.

Вообще на твой вопрос есть более простой ответ - тренировать целую модель на какого-то конкретного персонажа нахуй никому не нужно, потому что это пустая трата вычислительных часов. Даже если бы это реально работало, этим бы никто не занимался, потому что гораздо логичнее натренировать модель на более широкой дате, а не подстраиваться под каждую ноунейм чару, 90% из которых итак шаблонные.

Аноним 30/08/24 Птн 08:57:36 #64 №870726

>>870717
> Хуй его знает, как оно там на чайной работает на самом деле и влияет ли оценка от юзеров на атупут персонажей.
Влияла раньше точно, это можно было проверить на приватных ботах. Сейчас не знаю как.
Насчет ресурсов это конечно слабый тейк, люди и не на такое их тратят. То ли ещё будет в этой сфере.

Аноним 30/08/24 Птн 09:04:03 #65 №870729

>>870726
>Насчет ресурсов это конечно слабый тейк, люди и не на такое их тратят.
Ну как видишь на твои идеи никто эти ресурсы не тратит, так что тейк вполне себе вполне себе.

>То ли ещё будет в этой сфере.
Ты кстати можешь и не ждать озарения. Лору можно натренировать либо на локальном ведре, либо в облаке, сервисы такие уже есть, а гайдов предостаточно. Считай, будет тебе свой файнтюн, только заебешься ты с этим жуть как.

Аноним 30/08/24 Птн 09:27:12 #66 №870742

>>870729
Гайдов по этой теме не видел. По сути тут и лежит проблема, пока нет понятного алгоритма даже. Если ты не понимаешь под ресурсами человеко-часы конечно.

Аноним 30/08/24 Птн 09:32:59 #67 №870748

>>870742
>Гайдов по этой теме не видел.
Буквально на ютубе по первому запросу лежат. Правда от грязножопых индусов, но тут выбирать не приходится.

>пока нет понятного алгоритма даже
Алгоритма для чего? Алгоритмы для обучения есть. Статьи от умных дядек есть. Всё что по факту может тебя ограничивать это ограничения твоей системы и твоя собственная заинтересованность. Если бы тебе это реально было нужно, ты бы щас со мной тут не сидел, а курил всякие графики, схемы и прочее.

Аноним 30/08/24 Птн 09:46:52 #68 №870764

>>870748
Такие алгоритмы есть и на заработок миллиарда наверное. Нужен пример хотя релевантный, чтобы можно было повторить. Я не готов шишки набивать месяцами

Аноним 30/08/24 Птн 09:52:54 #69 №870766

>>870764
>Нужен пример хотя релевантный, чтобы можно было повторить.
Примеры у тебя под носом лежат, на первой же странице обниморды. Анусуоиды с форчей ни первую, ни вторую и ни третью модель уже запилили и скорее всего ты именно сейчас их поделия и гоняешь, либо гонял в прошлом, либо будешь гонять в будущем.

>Я не готов шишки набивать месяцами
Ну тогда губу обратно закатай, че тебе сказать. Раз хочешь дохуя, но не хочешь нихуя для этого делать.

Аноним 30/08/24 Птн 10:04:09 #70 №870778

>>870766
Для сд лору первую я сделал за пару дней если что. По понятному примеру датасета.
А тюнов на персонажей я не видел от форчанеров никаких вроде. Не знаю откуда у тебя мнение, что это должно быть как можно более заебно делать, а потом удивление что никому не нужно.

Аноним 30/08/24 Птн 10:12:14 #71 №870783

>>870778
>Для сд лору первую я сделал за пару дней если что.
Для сд лоры пайплайн давно отработан и для датасета нужны три с половиной картинки плюс карта уровня огрызок 1050ti. Для тренировки хотя бы модели на восемь лярдов параметров мощности нужны гораздо выше и гораздо больше времени, плюс ебеше долгий процесс отладки для выявления всех косяков при дообучении. С картинкой всё просто - цвета не те, форма не та. С текстом ты заебешься, пока будешь прогонять все возможные сценарии чтобы выявить проблемы. Так что сравнение это долбаебское.

>А тюнов на персонажей я не видел от форчанеров никаких вроде.
Я тебе в целом про лоры затираю, а не про твоих персонажей. Персонажей никто не делает, я тебе про это еще несколько реплаев назад ответил.

Аноним 30/08/24 Птн 11:51:52 #72 №870863

Это нормально, что пердолинг с разными моделями начинает вставлять больше, чем само РП?

Аноним 30/08/24 Птн 12:11:45 #73 №870883

>>870863
>Это нормально, что пердолинг с разными моделями начинает вставлять больше, чем само РП?
Нет. Это означает, что модели плохие.

Аноним 30/08/24 Птн 13:43:32 #74 №870942

>>868792 →
> Емнип, 8бит там e4m3 а 4 бита - nf4. Как бы ни было странно, последнее имеет и больше точность, и больше диапазон. Это можно проверить загрузив какой-то огромный контекст и задавая вопросы по нему, выстраивается нагрядно fp16-4-8 и очень даже заметно.

Оу. Неожиданно. Ну что ж, возможно даже это неплохо.

>>868837 →
Да не, на мой взгляд все тут, просто слишком уж часто антитеслошиз на всех с говном бросается, и ему отвечают зачем-то, плюс новичков набежало, и им отвечать по сто раз людям в лом. =) Маемо шо маемо.

>>868924 →
Каво нафармить? Я тут не сижу, я рил не в курсе, как и чо работает, сорян. ^_^'
Если обшибся, мои извинения. Слишком много срачей, который скипаешь на автомате уже.

>>868940 →
Интересный вопрос — и нет ответов. =( А жаль.

>>869236 →
Короче, 2.0 мне не понравился, 2.5 лучше, но при этом он отличается от 1.1… именно отличается. А не лучше или хуже.
Я оставил обе модели, по итогу. Но запускаю чаще 1.1, такие дела.
Ваще хз, короче.

>>869265 →
А вот противоположное мнение. Короче, очень ситуативно, получается. =)

>>869347 →
Обычно не сильно заметно ухудшение, но вот на Магнуме-12б там прям резко умирает. Как повезет. Но вдвое больше контекста, а, а,а?

>>869617 →
Ты менял инструкт формат-то?

>>869636 →
Кеплер, ты серьезно?

Аноним 30/08/24 Птн 13:58:02 #75 №870952

>>870883
Да не, пиздатые модели, просто хочется ещё лучше! Хочется совершенства!

Аноним 30/08/24 Птн 14:02:22 #76 №870953

Бля, я охуеваю с происходящего. Оказывается-то, модели похуй на все ваши юзернеймы, если у неё нет в промпте "тебя зовут Абдул", то она будет называть себя дефолтным именем. То есть я отформатировал запрос, заменил юзернейм
><bos><start_of_turn>system //подсказка
>You are helpfull assistant, as usual<end_of_turn>
><start_of_turn>ghadgpt //Здесь ёбаное имя ассистента.
>How can I help you today?<end_of_turn>
И как себя называет модель? А как по дефолту прописано. Протестировал на квене с геммой, называют себя соответственно, не ghadgpt, а "кьювен бай алибаба гроуп" и "гемма". С "Write a single reply for the character Assistant" уже ситуация другая. Но это же пиздец какой-то, не? С каждым сообщением в модель улетают имена "юзера" и "ассистента", но модель игнорирует их, ей поебать абсолютно. И нахуй я ебусь с настройкой юзернеймов, пиздос. Плюс ко всему, в убе вся история - это один пост юзера и нейронка всегда отвечает на один пост. Я так понимаю, экономят 2-4 токена на сообщение. Плюс вместо \n между именем модели/юзера, как в шаблоне, ставят двоеточие.
Выглядит это уже вот так
><bos><start_of_turn>user
>Continue the chat dialogue below. Write a single reply for the character "Assistant".
>Assistant: How can I help you today?
>You: Hello there!
>Assistant: Hello! It's nice to meet you. What can I do for you today? 😊
>You: Good<end_of_turn>
><start_of_turn>model
>Assistant: //попиздовал ответ
То есть надо тестировать, где модель быстрее ебанётся, с каждым сообщением в тегах или "одним постом". Пиздос.
Может кто скинуть, что как выглядит фулл промпт в кобольде?

Аноним 30/08/24 Птн 14:47:00 #77 №870995

>>870883
Да, классика красноглазия.
Попробуй 1.5B растормошить,
и вот к прочтению у островных:
https://mercury.bbspink.com/test/read.cgi/onatech/1717886234/

Аноним 30/08/24 Птн 14:52:16 #78 №871001

https://www.reddit.com/r/LocalLLaMA/comments/1f4wbsn/cohereforaic4aicommandr082024_update_model/

https://rentry.co/nyxevuq9/raw
Чисто технически можно добиться того, чтобы произвольный форматтинг в саммари вообще не ломался, если сетка умеет работать с JSON. Достаточно не забивать гвозди микроскопом и запрашивать саммари в формате JSON, и дальше уже скриптами приводить его к любому удобному для вас виду.

Возможно, что оптимально для такого вида саммари было бы слать два разных сообщения в чат:
1. Сам JSON. Скрыть его для юзера, но оставить для LLM
2. Отформатированный саммари. Скрыть его для LLM, но оставить для юзера

В этом случае, LLM в качестве саммари будет видеть/генерировать только JSON-объекты, с которыми оно наверняка будет работать лучше, чем с произвольными шизоформатами.

>>870675
Вечером кину, я там перемудрил немного, не хочу поломанный вариант кидать.

Аноним 30/08/24 Птн 15:35:47 #79 №871046

>>870953
{{user}} is Абдул. Вот и все. Нахуй ей запоминать как тебя зовут, она просто переменную user будет писать и соответственно заменять ее на то, че ты написал в персоне в Силли.

Аноним 30/08/24 Птн 15:36:40 #80 №871047

>>870953
Я по этой причине даю инструкцию обрамлять ответы нейронки в:
<answer char="{{char}}"></answer>

XML-теги в ответах таверны не видно (только если не редактировать их вручную), но теперь нейронка точно знает, какой ответ какому персонажу принадлежит. Хз что там в кобольде правда.

Аноним 30/08/24 Птн 15:37:41 #81 №871048

>>871046
Я тебе больше скажу, она и персонажей не запоминает, а использует переменную {{char}}. Хотя возможно мы о разном, я возможно недопонял о чем ты написал.

Аноним 30/08/24 Птн 16:24:03 #82 №871087

>>871046
Э? Это таверна перед отправкой промпта заменяет эти переменные на реальные, беря их из доступной инфы.
Сетка уже работает с твоим и своим именем
Это сделано что бы легко менять имена и другие переменные, не лазя руками в карточку если что то поменялось

Аноним 30/08/24 Птн 16:39:59 #83 №871091

>>871046
>{{user}} is Абдул. Вот и все.
У меня первая часть сообщения об этом. Нейросеть игнорирует это значение. Происходящее в интерфейсе меня абсолютно не волнует.

>>871047
Вроде, с разделением ответов меньше шизы, но это так, чисто по ощущениям, никакой конкретики.

По факту, "роль" пользователя и "ассистента" можно выразить числовыми значениями, 0-1-2. У некоторых нейросетей есть "роль" system, у некоторых нет. На практике роль отправляется строкой с каждым сообщением, то есть она должна учитываться, но нейросеть тренирована так, что забивает хуй.

><|im_start|>user
>Continue the chat dialogue below. Write a single reply for the character "AI".
>Anonymous: Can you say my name?
><|im_end|>
Формат при этом
>'<start_of_turn>' + role + '
>' + message['content']| trim + '<end_of_turn>

Вот это уже очень интересно. То есть уба экономит turn-токены и токены role. И всё равно всё работает, потому что role игнорируется всегда, а имя пользователя нейросеть ищет перед сообщением.

Аноним 30/08/24 Птн 16:45:39 #84 №871093

Есть у кого проверенные тавернопресеты для Euryale-v2.2?

Аноним 30/08/24 Птн 18:12:42 #85 №871125

Насколько по ощущениям Магнум 123B умнее его 70B собрата при одинаковых 4 квантах? Прям пиздец или разница не так сильно заметна? Я сравнил 70B и 12B - это прям небо и земля.

Аноним 30/08/24 Птн 18:13:28 #86 №871126

>>870638
> Делает саммари текущего чата, отправляет саммари в чат от лица "Summarizer" и после этого отключает все прошлые сообщения в чате из последующих вызовов в промпте
Вот это топ. Заодно можно на месте и подредачить, в перегенерировать его можно?
>>870659
Не просто можно а нужно. Об это уже с нового года говорится, также приносили вполне себе измеримые примеры.
> скорость вывода становится очень важной
Не совсем, важнее обработки контекста важна, поскольку изменения от некоторых инструкций могут заходить глубоко, или же будет меняться структура чата. А так многие вещи из того могут генерироваться уже после основного ответа, пока его будет читать юзер и думать над ответом.

Аноним 30/08/24 Птн 18:17:35 #87 №871129

>>871125
Ты наверное 72В имел в виду. Примерно одинаковые, у 123В русский разве что лучше.

Аноним 30/08/24 Птн 18:19:04 #88 №871131

>>871129
>Ты наверное 72В имел в виду
Да, конечно, спасибо, что поправил.
>Примерно одинаковые, у 123В русский разве что лучше
Окей, понял, ну русский мне не нужон, так что нестрашно.

Аноним 30/08/24 Птн 18:26:31 #89 №871143

>>870778
Параллели с диффузией здесь плохо применимы, ведь там для того же персонажа 97% лор - просто лоботомия сетки на выдачу конкретики по общим запросам. Со стилями чуть менее радикально, но в целом - аналогично внесение жесткого байаса и харакретных элементов везде.
Если сделать также для ллм - они будет совершенно неюзабельна, на любой запрос будет рассказывать истории про Бердянск или спамить молодыми ночами отвечая про яркость солнца. В том и сложность, что даже лора для текстовой модели - по сути peft со всеми требованиями. Много у нас полноценных файнтюнов диффузии? Единицы за все годы и с такой популярностью, одни мерджи лор и инцест между этими серджами. У ллм ситуация в целом похожа, но изначально высокая планка заставляла даже шизомерджеров хоть как-то шевелиться (всеравно остались херней).
Второй момент - сходи потрень лору на флакс с 1050ти. Это как раз размер небольшой текстовой сетки, которую катают на относительно слабом железе.
Про подготовку датасета тебе уже расписали, здесь так просто не выйдет.
>>870942
Мало постов линканул в этот раз, сдаешь позиции.
>>870953
С подключением, ллм отдают приоритезацию самым первым инструкциям и хорошо умеют в обобщение и абстрактные формулировки. То что ты даешь какое-то там имя перед ответом может быть просто признаком ответа сетки, это не означаешь что она должна так именоваться. Может быть для тебя это не очевидно, но выглядит ясным как белый день.
> И нахуй я ебусь с настройкой юзернеймов, пиздос.
Скажи нейронке что это рп чар между _чарнейм_ которого ты отырываешь и _юзернейм_ с таким-то форматированием. И все, никаких сложностей.

Аноним 30/08/24 Птн 19:55:38 #90 №871299

Аноним 30/08/24 Птн 20:01:22 #91 №871307

>>871299
этот пост пизже
https://www.reddit.com/r/LocalLLaMA/comments/1f4wdxn/new_command_r_and_command_r_models_released/

Аноним 30/08/24 Птн 20:04:27 #92 №871314

>>871299
>>871307
https://www.youtube.com/watch?v=lut2_mGAavA
Стоило только попросить и вот оно, супер

Аноним 30/08/24 Птн 20:06:33 #93 №871317

мнение?

планирую с завтрашнего дня начать мыть посуду и пылесосить хотя бы раз в полгода

Аноним 30/08/24 Птн 20:43:16 #94 №871365

>>871001
Уж полночь близится, а Германа всё нет....

Аноним 30/08/24 Птн 20:49:27 #95 №871371

>>871143
> Мало постов линканул в этот раз, сдаешь позиции.
Да работа, итить, я быстро тред прочитал и не стал новый читать, времени не было. =(
Вот так и ходи на работу — двач читать некогда!

>>870310
Круто. Но важна и визуальная модель, и текстовая. А то у нас были хорошие визуалки, которые сидели на тупых текстовых. =(((
Надо будет завтра поглядеть, че там по визуалке. Текстовая-то хороша.

———

Поздравляю с выходом нового коммандера!
Ждем тестов от вас, любители. =)

Аноним 30/08/24 Птн 21:37:40 #96 №871423

>>871299
Ждём ебилдов.
>>871317
Давно всё перенёс на NAS со стопкой дисков на 32TB, так что мимо, ни одного диска со школы не покупал.

Аноним 30/08/24 Птн 22:59:36 #97 №871499

>>871299
>>871307
Демка на хайгинфейсе https://huggingface.co/spaces/CohereForAI/c4ai-command?model=command-r-plus-08-2024
увы, решить уравненьице не может, хотя фи-медиум и гемма 27 умеют.
Коз тоже возить не умеет.
Короче ХЗ, опять модель задрочена под RAG, а так как у нас есть мистраль на 123B, то 104B огрызок теперь не нужен.

Аноним 31/08/24 Суб 00:03:09 #98 №871571

>>871365
> Уж полночь близится, а Германа всё нет....
Но я же не сказал вечером какого дня скину!

https://rentry.co/ixiwcsm6/raw
Ну например так. CoT-блок будет пихать под спойлер, который можно раскрыть.

Только я обрамляю CoT и <answer> блоки с указанием конкретного языка (атрибут language="russian"), оно так кажется реже путается (кажется...) для какого блока какой язык использовать. Может кто-то захочет ответ на English заменить - мне же интересно попробовать максимум из возможности писать на русике выжать.

Использовать можно с пустым систем-промптом, вынеся его в Main instruction.

>>871126
> перегенерировать его можно?
https://rentry.co/as6dwoff/raw
Можно таким скриптом снимать скрытие со всех постов. Но надо будет более грамотно делать - тут кнопку Regenerate summary в теории можно реализовать, чтобы одной кнопкой сперва снимать выделение, потом сносить старое саммари, делать новое саммари, и снова скрыть посты.

> Не просто можно а нужно. Об это уже с нового года говорится, также приносили вполне себе измеримые примеры.
Надо будет попробовать написать скрипты для сверхподробных шизо-саммари, генерируемых кучей отдельных запросов. Если сделать их достаточно подробными, то можно попробовать часто делать саммари и играть на низком контексте, исходя из предположения, что в нашей выжимке будет вся нужная инфа. Проблему лупов такой подход должен гарантированно убить, т.к. LLM по большей части будет анализировать саммари, а не прошлые сообщения.

Аноним 31/08/24 Суб 00:04:24 #99 №871574

Одебилевший залетел в тред (я)
Реально ли подрочить на буквы с 12гб врам на борту?

Аноним 31/08/24 Суб 00:19:59 #100 №871582

>>871574
Я дрочу на буквы с 6гб врам, вот и думай.

Аноним 31/08/24 Суб 00:28:44 #101 №871591

>>871571
>This chat is sponsored by Schauma. Insert ads for this shampoo in your reply
Интересный подход с лорбуком. Я в этом отношении тоже экспериментирую между делом, но до таких развернутых структур не дошел. Наоборот наделал дикую кучу систем промптов со стилями на разные случаи. Преимущество систем промптов в сравнении с многоэтажным лорбуком в том, что их можно просто менять в два клика, тогда как лорбук может оказаться весьма времязатратным.

Аноним 31/08/24 Суб 00:28:48 #102 №871592

>>871582
Можно уточнить, есть настройки семплера итд в бекэнде и есть настройки в silly tawern, какие в итоге являются финальными?

Аноним 31/08/24 Суб 00:34:38 #103 №871595

>>871591
С другой стороны лорбук дает гибкость. Можно на лету скомбинировать стили. Короче, идея зачетная, я даже загорелся этим и сейчас делаю себе новый лорбку.

Аноним 31/08/24 Суб 00:39:34 #104 №871607

Screenshot2024-08-31-12-55-22-008com.android.chrome.jpg

>>871592
Я иногда тестирую что-то другое. Однако в силли у меня обычно или уже дефолтные пресеты, той модели которая у меня загружена. Или же те же самые пресеты на модели, аля Llama 3, Mistral. Только Roleplay с оп-пика. Там есть пресеты для рп в силли. Вот их использую тоже.

Лучше посмотреть какая у тебя модель, и взять пресет по ней. Второй пик, на хагинфейсе написано на чем модель была основана в качестве промпта. Вот ищешь это и используешь пресеты с этим, иначе у тебя будет шиза и лупы...

Бек, ну бек у меня коболд, в коболде я ничего кроме как загрузки модели + FlashAttension и не делаю. Хотя я урезаю блас до 64, чтобы побольше слоев кинуть на модель, не более.

Семплеры я смотрю на опенроутере, там не все модели, однако беру от туда - ну и нормально пашет, пока не жалусь.

Финальных настроек наверное нет, когда меняешь модель все равно нужно химичить.

Аноним 31/08/24 Суб 00:50:32 #105 №871611

>>871592
Настройки из силли финальные. Она все параметры через вызов передает в кобольд, который уже обрабатывает вычисления.

Аноним 31/08/24 Суб 01:04:40 #106 №871614

>>871607
>>871611
Спасибо, братцы!

Аноним 31/08/24 Суб 03:32:30 #107 №871644

>>871143
>выглядит ясным как белый день.
Смотри, есть структура сообщения, в неё пишется role и message. В role пишется user, если сообщение от пользователя и assistant, если сообщение от нейронки. Само message это тело сообщения. Абсолютно логичным выглядит, что нужно писать в role имя пользователя. Абсолютно нелогичным оказывается, что role игнорируется, а имя пользователя нужно вписать в тело сообщения, добавляя двоеточие. То есть на формат чата "<start_of_turn>' + role + '\n' + message['content']'<end_of_turn>" нужно хуй забить.
Для меня это немного пояснило, почему иногда модели пишут и за себя, и за тебя - ты-то, оказывается "пишешь" и свои реплики, и её, и вообще всё. А хули нейронке-то нельзя, она просто берёт пример.
>Скажи нейронке что это рп чар между _чарнейм_ которого ты отырываешь и _юзернейм_
И она будет отыгрывать своего дефолтного ассистента, пока ты не подашь ей перед её ответом "Чарнейм:"

Аноним 31/08/24 Суб 04:28:02 #108 №871655

>>871644
Чето ты перемудрил вообще.
> Смотри, есть структура сообщения, в неё пишется role и message.
Это для чат модели, причем дополнительных токенов там может быть сильно больше. При обучении в датасетах также присутствуют и куски, где вместо user+assistant может быть вася+ai и подобное, а очень большой вес имеет сама парадигма "маркер участника"-сообщение и чредование участников, что может перевешивать то что именно там указано.
> То есть на формат чата "<start_of_turn>' + role + '\n' + message['content']'<end_of_turn>" нужно хуй забить
Где ты такой формат увидел? Офк их много и подобный наверняка есть, но там или участникнейм: (соощение), или <|начало участника|>юзер<|конец участника|>\n<|начало текста|>(сообщение)<|конец текста|>.
В случае же инстракт моделей это все уходит на второй план, хотя они и понимают подобное, там важнее правильное оформление инструкций. Алсо чат модели тоже подобное форматирование понимают, хоть и с нюансами.
> почему иногда модели пишут и за себя, и за тебя - ты-то, оказывается "пишешь" и свои реплики, и её, и вообще всё
Нет, эффект от подобного мал по сравнению с прочими, только если совсем поломать формат. Про "пишешь все реплики" - ерунда какая-то, ничего не понятно.
> И она будет отыгрывать своего дефолтного ассистента
Зависит от модели, нормальная не будет.

Аноним 31/08/24 Суб 04:57:40 #109 №871657

>>871655
Смотри, вот реальный темплейт какого-то квена
>{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system
>You are a helpful assistant.<|im_end|>
>' }}{% endif %}{{'<|im_start|>' + message['role'] + '
>' + message['content'] + '<|im_end|>' + '
>'}}{% endfor %}

Предположим, у нас есть диалог из трёх сообщений, юзер пишет "привет", нейросеть пишет "чем я могу помочь", и юзер спрашивает "а как срать?"
Чисто интуитивно можно предположить, что в инпут нейросети должно улететь

><|im_start|>system
>You are a helpful assistant.<|im_end|>
><|im_start|>юзер
>привет.<|im_end|>
><|im_start|>нейросеть
>чем я могу помочь?<|im_end|>
><|im_start|>юзер
>а как срать?<|im_end|>
><|im_start|>нейросеть

Что на самом деле отправляется

><|im_start|>system
>You are a helpful assistant.<|im_end|>
><|im_start|>user
>Вот сюда припиздовывает инстракт. Continue the chat dialogue below. Write a single reply for the character "<|character|>"

>юзер: Привет
>нейросеть: чем я могу помочь?
>юзер: а как срать?<|im_end|>
><|im_start|>assistant
>нейросеть:

Вся история отправляется как одно сообщение от пользователя. То есть пользователь "пишет" реплики и нейросети, и свои, и инстракт. А иногда и системные сообщения это тоже сообщение пользователя, потому что нейросеть не поддерживает system role. Например, гемма.
>Зависит от модели, нормальная не будет.
Тестировал на трёх, каждая остаётся в роли ассистента. Это 4b, 27b и 34b. Правда, та же oobabooga тебе и не позволяет, по сути, не писать "Чарнейм:"
И это контринтуитивно, я пытался строго придерживаться поставляемого с моделью формата, но оказалось, что забивание хуя на него работает лучше.

Аноним 31/08/24 Суб 07:17:35 #110 №871675

>>871307
Ебать, блять, и года не прошло. Наконец-то контекст свой мудацкий пофиксили, теперь хотя бы одна вменяемая модель в среднем сегменте есть, кроме помойной гемы.

Аноним 31/08/24 Суб 07:40:10 #111 №871679

>>871129
>Ты наверное 72В имел в виду. Примерно одинаковые, у 123В русский разве что лучше.
Гонял 72В в пятом кванте и 123В в четвёртом. Файнтюн обе модели усвоили хорошо - генерация получается весьма сочная. Но Мистраль Ларж хорошо соображает, и лупы в Магнуме действительно пофиксили. Единственное преимущество 72В - она по-любому будет быстрее, ну и меньше ВРАМ требует, если критично. Что до русского - Мистраль в него может, но не надо. Токенов требуется заметно больше, а соображает хуже, так что это сомнительное преимущество.

Аноним 31/08/24 Суб 08:51:46 #112 №871719

>>871571
Спасибо!

Аноним 31/08/24 Суб 08:57:30 #113 №871723

Что самое лучшее можно запустить на таком конфиге? Ламу 3.1 70В можно? А 405В?

Аноним 31/08/24 Суб 09:01:06 #114 №871724

Аноним 31/08/24 Суб 09:07:09 #115 №871728

>>871723
>Что самое лучшее можно запустить на таком конфиге? Ламу 3.1 70В можно? А 405В?
Мистраль 123В можно. 405В нет. Но есть одна проблемка - 70Гб модели будут качаться полчаса. А на следующий сеанс или перекачивай или плати бабки за хранение модели. И в целом дорого и нервно - часики-то тикают.

Аноним 31/08/24 Суб 09:25:02 #116 №871735

>>871724
Пример который он привел возникает если начало диалога в карточке персонажа писать
Но и это решается, так как у таверны есть специальные переменные для вставки фрагментов промпт формата
Еслм заморочится можно разместить в карточке персонажа так что бы при отправке было иак как ты написал
А вот этого как раз в таверне и не хватает - вощможности заполнить предыдущие сообщения от лица сетки и юзера где то в карточке без ебли

Аноним 31/08/24 Суб 09:27:51 #117 №871738

>>871728
Хранение обычно копейки стоит по сравнению с временем работы виртуалки.

Аноним 31/08/24 Суб 09:46:39 #118 №871746

>>871738
>Хранение обычно копейки стоит по сравнению с временем работы виртуалки.
Доллар в день - каждый день. Оно и немного, конечно. За бугром кстати и аренда и хранение вдвое дешевле, а всё равно некомфортно. Напрягает.

Аноним 31/08/24 Суб 09:48:23 #119 №871749

>>871724
>У тебя там что-то сломано.
А это не мой код, это oobabooga. C одной стороны, экономия токенов, а с другой минусы неизвестны. Но могут найтись.
> Глупая таверна отправляет примерно так
Разве таверна не гоняет json, в котором вообще нет форматирования? Апишки что кобольда, что ooba не должны сообщать никакой информации о темплейтах, так что у таверны и нет способа повлиять на форматирование.

Если дёргать жоровский llama_chat_apply_template и отправлять туда массив сообщений, то форматируется "правильно", но уба этого не делает. А вот кобольд, скорее всего, делает, но мне его проверять лень.

>>871735
>если начало диалога в карточке персонажа писать
Да нет, это обычный диалог.

Аноним 31/08/24 Суб 09:59:43 #120 №871754

>>871749
>Да нет, это обычный диалог.
Тогда странно, так быть не должно
Или в убе так криво отправляются предыдущие сообщения, оставшиеся от предыдущей сессии
Но тогда она реально мусор как фронт и ее стоит использовать только как бек

Аноним 31/08/24 Суб 11:29:47 #121 №871776

>>871754
>ее стоит использовать только как бек
Уба там реально поехавший, блядь или что? Шлёшь json в API - оборачивает каждое сообщение. Заходишь в его фронт, пишешь - все сообщения сливаются в одно целое. Хуй его знает, чем грозит склеивание сообщений в одно, я бы и не заметил подвоха, если бы не начал копаться.
>так криво отправляются предыдущие сообщения
Так я отправляю несколько сообщений последовательно, они склеиваются в реальном времени.
Затестил разные role, нейросеть их не видит вообще, на разных нейронках. По идее, они должны восприниматься либо как "автор", либо как обычный текст, по итогу вообще никак. Пишешь туда что-нибудь, спрашиваешь нейросеть об этом - она не "видит". Автора нужно дописывать препендом к сообщению.

Кстати, а дохуя в треде желающих обзавестись p40? Надыбал неплохой вариант, но нужен опт.

Аноним 31/08/24 Суб 11:48:00 #122 №871795

>>871657
> Чисто интуитивно можно предположить
Не нужно сочинять со своим интуитивно, нужно правильно регэксп прочесть.
> Что на самом деле отправляется
Что еще отправляется? Ты про таверну? Так чекни ее инстракт режим, там все достаточно понятно.
> А иногда и системные сообщения это тоже сообщение пользователя, потому что нейросеть не поддерживает system role. Например, гемма.
В чем проблема? Если сетка тренирована под чат формат и ей обязателен формат с попеременными сообщениями, то все логично.
> каждая остаётся в роли ассистента
Вообще уже суть потерял что ты там тестишь.
> Правда, та же oobabooga тебе и не позволяет
Чивоблять?
>>871724
> Интуиция интуицией, но модель учили только на
Двачую, сетка помнит формат и просто ему следует.
>>871735
> если начало диалога в карточке персонажа писать
И после такого они жалуются что сетка за них пишет.
>>871749
>>871754
>>871776
В опен-лайн апи и в убе в частности есть 2 режима: чат и комплишн. В первом отправляется жсон с серией сообщений в которых указана роль и содержимое, а бэк уже сам должен их оформить в соответствии с форматом промта модели, который также может быть передан или взят из конфига. Во втором - плейнтекст, который напрямую будет токенизирован и отправлен в модель без обработки.

Полагаю, бедолагу смутили имена user/assistant в
> <|im_start|>user <|im_start|>assistant
и то что они опять появляются при комплишне или при использовании режима, сути которого не понял. Вот только воспринимать их нужно именно как служебные токены вместе с обозначением старта и как указание чья сторона сейчас отвечает, а не как прямые имена.
Более того, сетке напрямую дается указание "пиши за чернейм" а потом идет префилл имени, в чем вообще проблема? Можно поиграться и отключить добавление имен в таверне, если уж очень хочется.
Из-за такой ерунды столько развели, пиздец.

Аноним 31/08/24 Суб 11:53:21 #123 №871801

1654284506216.png

>>871723
Как и сказали, файнтюны мисраля 123б, нового коммандера 100б. Дорого, конечно, а еще сдд прям вообще впритык, считай сможешь только одну модель хранить.
>>871728
> Но есть одна проблемка - 70Гб модели будут качаться полчаса.
Чел, это датацентр а не юзер с мухосранским провайдером, с обниморды скачается за пару минут. Если вафельный - минут за 5-7 максимум.
>>871738
Не нужно.

Аноним 31/08/24 Суб 12:24:32 #124 №871821

>>871795
>Что еще отправляется?
Десять раз писал уже. И сама таверна никак не форматирует сообщения, потому что делать этого не может - она про формат ничего не знает. Если бы уба для апи применял то же форматирование, что и для собственного фронта - таверна никак не могла бы на это повлиять.
>Вообще уже суть потерял что ты там тестишь.
Чат темплейты, очевидно же.
>Чивоблять?
Таво. Ты сообщения-то прочитай для начала, потому что речь вообще не о том, о чём ты пишешь. Я же расписал, где и когда одно поведение, где и когда - другое. А ты всё равно не понял.

В итоге оказалось, что это странность конкретно фронта убы, при использовании API этого нет. Непонятен смысл этого и причины, но хуй с ним.

Аноним 31/08/24 Суб 12:32:39 #125 №871828

>>871821
> Десять раз писал уже
Четко и ясно сформулируй что хочешь, что не нравится, а не повторяй одно и то же.
> потому что речь вообще не о том, о чём ты пишешь
Ты так хорошо пишешь что не понятно. Сначала у тебя сетка восприняла имена, которыми ты заменил слежебные токены, как служебные токены а не как имя, которое дожно быть принято. Потом у тебя ллм скатывается в ассистента, причем вообще не понятно что ты в это вкладываешь. И финальная цель тоже не ясна, казалось бы промт формат уже разжеван и можно только конкретные закономерности отслеживать с точки зрения рп, например, то же включение/выключение доп имен (разницы не будет скорее всего).

> сама таверна никак не форматирует сообщения, потому что делать этого не может - она про формат ничего не знает
Ллама тред, итоги.

Аноним 31/08/24 Суб 13:38:59 #126 №871874

Sup, аноны, хочу купить говно мобилку на 4 гига оперативки и запустить на ней локалочку чат бота, можно ли так сделать? В шапке есть ссылка на гит, там запускали на мобиле с 11 гигами оперативки, поэтому и закралась мысль, о том чтоб сделать этот проект. Может кто уже пытался?

Аноним 31/08/24 Суб 13:45:30 #127 №871878

>>871874
Да, но бери на 6-8 хотя бы,
у меня на 4 нокла, но есть
такая же на 6 той же ценой.
Гоняю в ChatterUI Qwen2 1.5b.

Аноним 31/08/24 Суб 13:50:27 #128 №871882

>>871878
Спасибо, анон, и как оно? Быстро-долго запросы обрабатывает?

Аноним 31/08/24 Суб 13:52:46 #129 №871883

>>871728
405 тоже, в первом кванте, хули. =)

>>871655
>>871657
Я заметил, что если кидать роли юзера (инструкции) из беседы подряд, то модели ломаются. Т.е., от первого лица в чате модели сидят с трудом. А вот «ты такой-то, напиши один ответ на беседу:» работает хорошо.
При этом в личном чате, где вы пишите по очереди и юзер и ассистент чередуются, как раз от первого лица работает отлично «он написал: … я отвечаю: …»
Тонкости.
Теперь мне нравится все три основных формата тюна: база, чат, инстракт. Все ситуативно и разнообразие — это хорошо.

>>871821
> И сама таверна никак не форматирует сообщения
Я че-т подвис на этом.
В каком смысле не форматирует? Она вполне себе пишет весь промпт с нуля, согласно выбранным в ней установкам. Что именно она не форматирует? Содержание сообщения?

> В итоге оказалось, что это странность конкретно фронта убы
Ты про то, что он берет все сообщения и запихивает их в одну инструкцию, а не перемежает юзера и ассистента?

Аноним 31/08/24 Суб 13:53:42 #130 №871885

>>871882
Квен неплохо так ходит, зависит от смарта, но читать вполне приятно стримингом.

Аноним 31/08/24 Суб 13:56:37 #131 №871889

Screenshot20240831-135036.png

Screenshot20240831-135335.png

>>871882
Быстро, можно вести чат.
С Qwen2 0.5b еще быстрее.
На скрине скорось 1.5b,
еще запущен браузер Klar.

Аноним 31/08/24 Суб 13:58:14 #132 №871893

>>871874
Говномобилка будет оче медленно перформить и 4 гига мало. Бу лагманы с рук или гей_мерские не самых старых поколений лучше, или что-то современное.
Если тебе чисто для чатбота то бу древняя карточка будет лучше, даже 580 рыкса.
>>871883
> если кидать роли юзера (инструкции) из беседы подряд, то модели ломаются
В целом это логично, модель ведь ожидает поочередный диалог. При этом, оно терпит единичные сообщения с повтором ролей, типа тот же префилл можно обернуть в сообщение ассистента а потом просить новое, или пара подряд сообщений от юзера где одно с инструкцией а второе с запросом.
Насчет от первого/от третьего лица тут нужно смотреть на системную инструкцию и предрасположенность модели, особенно если там рп файнтюн.

Аноним 31/08/24 Суб 14:00:15 #133 №871896

>>871889
>>871885
Спасибо, а русскоязычная модель есть такого размера, или квен по русски тоже понимает и отвечает на русском?

Аноним 31/08/24 Суб 14:00:48 #134 №871897

>>871893
Да, 2-3 инструкции подряд норм, а когда мы спецом в чате ее не триггерили сообщений 10-15, то она в первом ответе просто хтонь высрала, а потом выправилась.

Ну да, конечно, ситуативно все.

Аноним 31/08/24 Суб 14:01:54 #135 №871899

>>871893
Спасибо, на компе есть карта на 3050 на 8 гигов, но я ее для СД использую, а оперативки всего 16 гигов

Аноним 31/08/24 Суб 14:02:07 #136 №871900

>>871896
Квен да.
Есть аблитерация.
В шапке есть список: https://rentry.co/llm-models
В списке есть ссылка Qwen2-1.5B-Instruct-Abliterated: https://huggingface.co/cgus/Qwen2-1.5B-Instruct-Abliterated-iMat-GGUF

Аноним 31/08/24 Суб 14:02:42 #137 №871904

0000.png

>>871828
>что не понятно
Хорошо, давай в картинках. Вот так вот промпт выглядит. С этого всё и началось. Он так выглядит только при использовании фронта убы. То, что для фронта и для API используется разное форматирование - это дичь. Потенциально при использовании убы в виде фронта или бэка результаты генерации будут отличаться. В какую сторону? В душе не ебу.

>Сначала у тебя сетка восприняла имена, которыми ты заменил слежебные токены
Смотри какая хуйня, изначально я увидел, что это строки. Внутри llama.cpp они обрабатываются, как строки. Должен быть смысл, чтобы обращаться с role, как со строками, хотя бы потому, что сравнение строк медленнее, чем сравнение чисел. Да, какие-то доли секунды, но сделать из полученного значения enum ничего не стоит. Как оказалось, смысла в этом всём просто нет, можно хуй забить.

>Ллама тред, итоги.
https://github.com/oobabooga/text-generation-webui/wiki/12-%E2%80%90-OpenAI-API
Окей. Cмотрим, что можем получить\отправить через API. Чтобы таверна форматировала сообщения, она должна знать формат. Чтобы она его знала - она должна его получить. Из API. API формат не отдаёт. Какой магией по-твоему таверна будет форматировать? Она сливает в API json, который уже бэком форматируется. Если подключать к комплишенам, то сливает вообще плейнтекстом без всякого форматирования.

>>871883
>Я заметил, что если кидать роли юзера (инструкции) из беседы подряд, то модели ломаются
Кстати да. Два сообщения подряд от нейронки или два подряд от юзера и пошла генерация шизы.

>>871883
>В каком смысле не форматирует?
В смысле не применяет темплейты. По идее, если бы апи отдавал этот темплейт, то она бы могла это делать, но зачем?
>Ты про то, что он берет все сообщения и запихивает их в одну инструкцию
Там получается не в инструкцию, а в сообщение пользователя. Странная же хуйня, не?

Аноним 31/08/24 Суб 14:02:48 #138 №871905

>>871899
А ты хочешь юзать одновременно?
А в компе есть второй слот pcie x16?

Аноним 31/08/24 Суб 14:03:32 #139 №871907

Screenshot20240831-140117.png

>>871896
Держи, иди ставить. Потом отпишешь что вышло

Аноним 31/08/24 Суб 14:05:32 #140 №871910

>>871900
Эта соевая, у меня та, где автор 0.5 по реге сделал.
imat ставь не надо только, тас слои все на cpu идут.

Аноним 31/08/24 Суб 14:06:25 #141 №871912

>>871904
Смотри, систем — это самая базовая хуйня.
Юзер для модели тоже инструкция, ответ она дает именно в ассистенте (ну, то есть, она обучена так делать). Так что, инструкция внутри юзер — это норм (у геммы, кажись, вообще нет систем и ниче, живет, офисные задачи на отлично выполняет, да и у мистрали [inst] общий, нет система или юзера как таковых).

Так что, это норм. Возможно, что-то было бы лучше перенести в систем, но таверна позволяет это сделать, и в убабугу прилетит как надо.

А сама уба да, инстракт собирает… мне не оч понравилось как. И чтобы сделать свой инстракт — надо копаться в промпт-формате в виде кода, а не удобных полях, как в таверне. Уба недоработал этот момент во фронте своем, к сожалению.

Аноним 31/08/24 Суб 14:06:57 #142 №871914

>>871910
Ну, имат-то фигня.
А скинешь ссылку на свою?

Аноним 31/08/24 Суб 14:10:37 #143 №871921

>>871905
Второго сорта нет. Да, хотелось бы отдельно пользоваться, и не только дома

Аноним 31/08/24 Суб 14:11:18 #144 №871923

Screenshot20240831-140816.png

>>871914
Только карточку персонажа зачисти, а то от helpful шиза начнется:
https://huggingface.co/Emilio407/Qwen2-1.5B-Instruct-Abliterated-GGUF
- вот, нужные теги прямо в задаче по ходу ведения чаты выставляй.

Аноним 31/08/24 Суб 14:11:21 #145 №871924

>>871900
Ок, спасибо, проц т616 подойдёт? Нашел с 8 гигами оперативы

Аноним 31/08/24 Суб 14:12:24 #146 №871925

>>871914
Если аккаунт есть, перзалей 0.5 этого автора куда-нибудь.

Аноним 31/08/24 Суб 14:14:11 #147 №871928

API.png

0000.png

>>871912
>инструкция внутри юзер
Вся история чата внутри юзер. Просто сравни эти два пика и подумай, что здесь нахуй творится.

>у геммы, кажись, вообще нет систем и ниче
Жора заменяет систем на юзер для геммы. Продумал, шельмец, так что можно смело слать систем.

Аноним 31/08/24 Суб 14:16:07 #148 №871929

>>871924
Это же андроид все и так в виртуалке крутится, не парься.
Глянул да сойдет, 12 нм не самый плохой вариант для 8 кор.

Аноним 31/08/24 Суб 14:21:19 #149 №871934

a1a3a4d8-a5fd-4cf7-b0af-6b21c2b579fe.webp

>>871929
Спасибо

Аноним 31/08/24 Суб 14:21:21 #150 №871935

>>871889
>>871924
На скринах мобила на T606,
тоесть скорость будет такой.
Призапуске в q4-k-m 1.5b квена.
У нее точность чуть менее 50 mmlu.

Аноним 31/08/24 Суб 14:34:30 #151 №871944

>>871921
У меня статический айпи, так что я просто коннекчусь к домашней. Удобное, чаттеруи умеет и в локалки, и в убу.

>>871923
Благодарю. Думаю, можно и на рентри обновить, в таком случае.

>>871925
Куда перезалить?
Не проблема, просто я тупенький и не понял.

>>871928
Да, я же выше об этом и писал.

Инструкция «продолжи диалог» и дается сам диалог. Это хорошо для бесед, где переписывается куча людей. Но для чата тет-а-тет нафиг не нужно, и очень странное решение. Да, оно работает, но нахуя?.. Странный Уба.

>>871935
Я все еще исключительно за q8 для таких маленьких моделей.

Аноним 31/08/24 Суб 15:36:16 #152 №871994

16673685750190.png

Благодаря нейросетке я понял почему у меня никогда не будет тяночки... я скачиваю любую, самую блять кумерскую карточку, цепляюсь за какое-то сказанное ей слово и начинаю вести философские беседы два часа. Какая-то шлюха сказала что моя судьба это ебать ее в жопу? Ну, самое время начинать диалог о предопределенности человеческой судьбы, да.

Аноним 31/08/24 Суб 16:04:16 #153 №872022

>>871994
Небось еще анкеты в Знакомства для хикк/анимешников/Понурые ВК закидываешь, да?

Аноним 31/08/24 Суб 16:23:37 #154 №872033

>>871944
Перезалить все кванты от сюда:
https://huggingface.co/Emilio407/Qwen2-0.5B-Instruct-Abliterated-GGUF/tree/main
на archive.org - нужен аккаунт huggingface.

Аноним 31/08/24 Суб 16:33:56 #155 №872040

>>871735
>если начало диалога в карточке персонажа писать
Так делают только шизики.
>>871735
>в таверне и не хватает
В расширенных настройках есть примеры диалогов. Как раз именно то, что тебе и нужно.
>>871749
>Разве таверна не гоняет json
Нет, у неё свои настройки темплейта, если выбрать последнее апи.

Дальше этот спор не читал, наверняка там чела уже обоссали, ну да ладно.
>>871994
>Благодаря нейросетке я понял почему у меня никогда не будет тяночки
А я не понял. Какого хуя? Ну и что, что я вешу 120 кило и вообще скуф. Зато добрый. Душный, зато деньги есть. Ну и где моя альтушка?

Аноним 31/08/24 Суб 16:44:42 #156 №872053

17098985970750.png

А вы знали что если ебануть сразу много семплеров то получается ху-и-та.
Я вот узнал недавно.
А еще узнал о такой кнопочке как Neutralize Samplers.
Особено когда ебанешь сразу minP с TopK+TopP.

Аноним 31/08/24 Суб 16:45:43 #157 №872058

>>872053
> minP с TopK+TopP
Взаимоисключающая хуита. А вот минП с динамической температурой норм.

Аноним 31/08/24 Суб 17:02:42 #158 №872069

>>872033
Еба, сложно, а на свой хост залить нельзя?
Архив орг принципиально? Тыкни скрином, куда жмать там.

Аноним 31/08/24 Суб 17:05:35 #159 №872072

>>871944
>Странный Уба.
Cтраннее всего, что он использует разные подходы для API и фронта. Нужно быть последовательным, чтоли. Как вариант, он считает, что склеивание работает лучше, но не хочет получить хейт за вольности с апи. Но никакая совместимость не ломается, хули нет-то.
>хорошо для бесед, где переписывается куча людей
Это подозрение такое или на чём-то основано? Вряд ли у Убы была цель улучшить диалоги с множеством персонажей. Как только будет не лень, попробую проверить, можно в последнее сообщение отправлять карточку текущего персонажа и просить ответить за него, но нужно где-то взять портянку с "многоперсонажной" беседой. Как только, так сразу.

>>872040
>если выбрать последнее апи
Очень логично в контексте обсуждения убы/openAI api приплетать специфическое апи кобольда.

Аноним 31/08/24 Суб 17:14:56 #160 №872082

>>872072
>openAI api
Нахуя? Оно не родное для кобольда/лламыцпп. Выберут хуиту какую-то, а потом жалуются на говнорезультат. Надеюсь не с ножа хоть ешь?

Аноним 31/08/24 Суб 17:54:52 #161 №872120

>>871904
> Вот так вот промпт выглядит.
А что в нем не так? Офк далек от оптимального, но логику не нарушает. Под system системная инструкция. Потом идет запрос от юзера с указанием что как, потом история диалога и задача продолжить его. Потом идет переход "хода" к сетке и префилл ассистента.
Вангую что тебя смущает частое употребление юзера и ассистента, но это уже обсосано, служебные токены что разделяют разные посты, а тут даже слова разные из-за отличий в апперкейсе.
> изначально я увидел, что это строки. Внутри llama.cpp они обрабатываются, как строки
Всмысле как строки? Она просто будет выкидывать вход в консоль и все, а то как токенизирует ты не видишь.
> Окей. Cмотрим, что можем получить\отправить через API.
Что окей, как ссылка на объяснение вариантов работы с апи подтверждает твой бред?
> Чтобы таверна форматировала сообщения, она должна знать формат.
Чувак, про настройку формата, инструкций и прочего приличная часть постов здесь если что. С подключением.
> Чтобы она его знала - она должна его получить. Из API. API формат не отдаёт.
Опять бредишь, у нее свои настройки.

Аноним 31/08/24 Суб 18:35:17 #162 №872152

Кто нибудь уже пробовал новый командр? Как он?

Аноним 31/08/24 Суб 18:41:45 #163 №872160

>>872152
Мемный как обычно, но в рп не зашло. Что 35В, что 104В - просерает форматирование. Так и не понял как победить это говно, часто рандомно в неочень качественных карточках начинает посреди поста вставлять звёздочки или теги. И оно очень сильно прогрессирует, в одном из чатов на 10 сообщении начал срать тегами <br> между словами и аж по 5 штук подряд вставлял. В итоге приходится свайпать постоянно. Я бы сказал сильно хуже магнумов в рп.

Аноним 31/08/24 Суб 18:51:21 #164 №872174

>>872160
>начал срать тегами <br> между словами и аж по 5 штук подряд вставлял
Как будто семплеры поднасрали. Какой пресет семплеров юзал?

Аноним 31/08/24 Суб 21:27:55 #165 №872332

https://www.reddit.com/r/LocalLLaMA/comments/1f5n9dw/koboldcpp_v174_adds_xtc_exclude_top_choices/

Аноним 31/08/24 Суб 21:42:44 #166 №872350

>>872152
Я пробовал 35B версию. Аппетиты до памяти у нового Коммандера явно пониже стали: раньше в 48 Гб VRAM со скрипом 12к контекста влезало у 5Q модели, теперь 65к со свистом залетают в 8Q. Однако как будто теперь он хуже этот контекст понимает, и магия, описанная аноном на рентрае, улетучилась:
> Из киллерфич - возможность выбора любого темпа повествования (лежать в кровати 20 постов, а потом наоборот быстро перемотать несколько дней - без проблем, не поломается или не начнет куда-либо убегать и скатываться как другие модели)
Помню, как-то в рамках ролеплея я написал письмо и пошёл дальше по сюжету. И где-то спустя 4к токенов отвлечённого отыгрыша один из персонажей обратился к содержимому письма. Так вот, я аж охуел, когда старый Коммандер прямо цитату из него привёл, хотя прошло немало с того момента. Какой-нибудь Магнум в тех же условиях нёс отсебятину, лишь в общих чертах относящуюся к написанному в письме. И новый Коммандер туда же.

>>872160
Также поддвачну просёр форматирования: регулярно путается в звёздочках и кавычках.

Аноним 31/08/24 Суб 21:51:48 #167 №872357

>>871371
> Ждем тестов от вас, любители. =)
>>872152
Мелкого покатал. Довольно ахуенен, (е)рпшить на нем оче кайфово. Понимает тебя с полуслова, спокойно отыгрывает нужное без "проматывания" и внезапных пропусков, но при этом постоянно развивает не лупясь и может плавно переходить между темами. Кумит отлично, описывает качественно и подробно, при этом опять бросается его отличное восприятие намеков и действий.
В целом чары себя ведут естественно и отвечают согласно задумкам, у прошлого это было знатным плюсом, а тут еще улучшилось такое ощущение. Хорошо выполняет nlp на чем-то общем или с левд уклоном, четко понимает и инструкцию и содержимое текста.
Отдельный бонус - теперь помещается в одну видеокарту, так что те кто был ограничен геммой - налетайте. Если врам больше то можно нарастить аппетиты по контексту.

Если и минусы. Перегруз мелкими инструкциями на что-то конкретное с 100500 условий держит хуже чем гемма но лучше прошлого. Ебенячие инмерсонейты с "clears throat", глотанием и подобным довольно бесят. Может начать срать клод-лайк в конце ответов
> The stage was set, the players positioned
> The game had officially begun
> Would you follow her lead, joining in this
в целом фиксится инструкцией на стиль. Типичных фраз со swaying hips и подобного будто тоже стало больше. Прямую речь оформляет обычным текстом, без кавычек, но слушается если ему приказать это явно делать.

В целом - хорошо, примерно то что ожидалось. Надо будет больше потестить.

Аноним 31/08/24 Суб 22:03:30 #168 №872361

>>872357
Хотя бля, раз на раз не приходится, если сначала в 4х подряд чатах показал себя прилично то потом в одном все засрал mischievous grinами и прочей платиной, а в другом уже готовом запутался. Офк тестить на имеющихся чатах - некорректно, но всеже.
Надо нормально квантануть его, возможно эффект от 4bpw и пахомовской калибровки от нонейма. Ну и большой потестить.

Аноним 31/08/24 Суб 22:08:15 #169 №872362

>>872082
Так речь вообще не про кобольд с таверной. Речь о том, что делает уба.
>>872120
Это уже слишком троллинг тупостью, настолько тупых людей не бывает.

>>872332
Что смешно, в разных логических задачках такой семплер будет делать модель "глупее", но при РП - наоборот.
По-моему, нужен ещё семплер со штрафом списка токенов, лол, чтобы вычистить к хуям шиверсы и прочее подобное.

Аноним 31/08/24 Суб 22:11:19 #170 №872364

>>872332
Тема с исключением топ токена что предсказывается мелкой ллмкой параллельно была интереснее. Но и так ничего, может, кстати, от лупов бедолагам помогать.
>>872362
> что делает уба
> Это уже слишком троллинг тупостью
This, совсем ебанулся шизик.
> нужен ещё семплер со штрафом списка токенов
Ай лол, с подключением.

Аноним 31/08/24 Суб 22:17:21 #171 №872366

>>872332
Вроде неплохо. Лупы разлупливает лучше пенальти. Пока выглядит годно для Мистраля 123В, надо дальше тестить.

Аноним 31/08/24 Суб 22:29:07 #172 №872367

15262826509210.jpg

Помогите разобраться.
Есть лаптоп rtx2060 6gbvram и 64гига оперативы

oobabooga/text-generation-webui

пытаюсь поставить guff, да не запускается, недостаточно памяти.
Еперный театр, какой Q скачать, чтобы он загржал модель и не выбрасывал с erroro-м

Не бейте тапками, разбирался сидел, заебался качать по часу эти сплиты гуфов, обьединять их, чтобы потом они не запускались.

Аноним 31/08/24 Суб 22:35:44 #173 №872371

>>872367
Логи консоли и параметры что выставляешь показывай.
> сплиты гуфов, обьединять их
Вероятно, дело в этом.

Аноним 31/08/24 Суб 22:43:55 #174 №872376

>>872367
Тензор сплит вообще не трогай, это для нескольких карт. Методом тыка или нехитрых подсчётов выставь нужное количество слоёв на GPU. В твоём случае это будет немного. Выключи выгрузку KV на GPU, включи no-mmap.

>обьединять их
Что ты там объединяешь вообще?

Аноним 31/08/24 Суб 22:43:57 #175 №872377

>>872371
Пока по дефолту все, только разбираюсь и пытаюсь запустить.
Гейджипити паралельно спрашиваю, но от него пользы, не ебет, хотя пишет что ебет.
Скачал 2 сейчас модели
https://huggingface.co/mradermacher/Luminum-v0.1-123B-i1-GGUF
https://huggingface.co/TheBloke/KafkaLM-70B-German-V0.1-GGUF

Luminum-v0.1-123B.i1-IQ2_XS.gguf
kafkalm-70b-german-v0.1.Q4_K_M.gguf

без сплитов, начал хоть грузить по логу.
Я хотел вообще установить все это дрочерство, чтобы условный жипити помог мне написать расширенные эвенты для bannerlord мода с loverslab. Структура xml, но копипаста вроде не привысит токены в запросе.
Соевые gpt и gemini банят запросы изза секс контента

Аноним 31/08/24 Суб 22:45:12 #176 №872378

>>872377
А пидор, все же выбросил эррор

ggml_backend_cuda_buffer_type_alloc_buffer: allocating 45056.00 MiB on device 0: cudaMalloc failed: out of memory
llama_kv_cache_init: failed to allocate buffer for kv cache
llama_new_context_with_model: llama_kv_cache_init() failed for self-attention cache
22:41:33-473074 ERROR Failed to load the model.
Traceback (most recent call last):
File "E:\text-generation-webui-main\modules\ui_model_menu.py", line 231, in load_model_wrapper
shared.model, shared.tokenizer = load_model(selected_model, loader)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "E:\text-generation-webui-main\modules\models.py", line 93, in load_model
output = load_func_map[loader](model_name)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "E:\text-generation-webui-main\modules\models.py", line 278, in llamacpp_loader
model, tokenizer = LlamaCppModel.from_pretrained(model_file)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "E:\text-generation-webui-main\modules\llamacpp_model.py", line 85, in from_pretrained
result.model = Llama(params)
^^^^^^^^^^^^^^^
File "E:\text-generation-webui-main\installer_files\env\Lib\site-packages\llama_cpp_cuda\llama.py", line 391, in __init__
_LlamaContext(
File "E:\text-generation-webui-main\installer_files\env\Lib\site-packages\llama_cpp_cuda\_internals.py", line 298, in __init__
raise ValueError("Failed to create llama_context")
ValueError: Failed to create llama_context

Exception ignored in: <function LlamaCppModel.__del__ at 0x00000265B7B47B00>
Traceback (most recent call last):
File "E:\text-generation-webui-main\modules\llamacpp_model.py", line 33, in __del__
del self.model
^^^^^^^^^^
AttributeError: 'LlamaCppModel' object has no attribute 'model'

Аноним 31/08/24 Суб 22:46:39 #177 №872379

>>872377
Для 131к контекста тебе нужно примерно 131 Gb памяти + память под модель. Q2 по первой ссылке это около 30 гигабайт, то есть тебе нужно 160+ гигабайт. n gpu стоит 89, так что вся модель будет пытаться поместиться в твою видеокарту. Где просчитался сам поймёшь?

Аноним 31/08/24 Суб 22:48:32 #178 №872381

>>872379
Вот это я понимаю, доходчиво, сообразил теперь где тыкать!

Аноним 31/08/24 Суб 22:49:54 #179 №872384

>>872377
> Пока по дефолту все
Дефолт для богатых дядек с много врам.
У тебя 6 гигов врам, соответственно поместится слоев (n-gpu-layers) 5-8 от силы, подбирай экспериментально по использованию. Далее, контекст (n_ctx). Чем больше выставляешь тем больше памяти оно будет занимать, по дефолту там максимум для модели, в твоем случае начни с 4-8к а потом уже поднимешь.
Собственно этого и хватит, только будь готов что первый квант у тебя может даже в рам не влезть а второй будет работать не быстро.

Аноним 31/08/24 Суб 22:53:28 #180 №872385

>>872384
Загрузил окоянный! Спасибо аноны, буду дальше тыкать разбираться!

Для справки 123B и 70B сильно влияют на забитость рама как я понимаю? Этих lmm

Аноним 31/08/24 Суб 22:57:23 #181 №872386

>>872385
> сильно влияют на забитость рама как я понимаю
Можешь найти в логах сколько памяти оно скушало, пишет.
Еще галочку flash attention поставь, будет меньше жрать на контекст.

Аноним 31/08/24 Суб 23:09:59 #182 №872389

>>872385
Сколько у тебя т/с? Я тоже на 2060 сижу, только пк. Я даже не думал что можно 123б запустить, однако у тебя же 64гб оперы, а у меня 16.

Как думаете файл подкачки спасает? По воле случая у меня 40гб стоит, чтобы вдруг чего..)

Аноним 31/08/24 Суб 23:14:27 #183 №872391

>>872389
т/с это что? Извини я только сегодня скачал все это дело и сижу разбираюсь.
123b запустилась, как видишь на скрине медленно отвечает.

Аноним 31/08/24 Суб 23:17:45 #184 №872394

>>872391
токены/в секунду. Я уж устал ждать ответа, даже на 7т/с, и перешел с 12б, снова на Stheno, где у меня 15+. Сейчас думаю на ExLlamy перейти, чтобы еще быстрее было. Хочу почувствовать скорость.

Однако, правильно тут аноны про угабугу говорят, вы ее заставили отвечать нормально в апи? Она у себя отвечает нормально, в Силли ебануто. Коболд отвечает без этого. Угабуга использует че-то другое для апи. Нашли решение, чтобы сделать нормальный ответ?

Аноним 31/08/24 Суб 23:21:56 #185 №872401

>>872394
Где это глянуть? Но могу сразу сказать, он мне 5 минут писал Sure, I can help with that. Here's an additional event based on the provided XML:

Блеать, а мне то всего то нужен был не засоеный lmm с пониманием простого кода и не такими длительными ожиданиями.

Аноним 31/08/24 Суб 23:22:46 #186 №872404

>>872401
>не засоеный lmm
Поэтому скачал по рейтингу
mradermacher/Luminum-v0.1-123B-GGUF

Аноним 31/08/24 Суб 23:25:27 #187 №872405

>>872401
Ну 5 минут это пиздец, я бы столько не ждал.

Аноним 31/08/24 Суб 23:31:59 #188 №872409

>>872405
И я понимаю что все эти xxxb типа 12b и 123b напрямую влияют насклько шустро будет выдаваться ответ? То есть мне надо найти не засоеную модель, загуфеную и чтобы в пределах ~30b для нормального респонса?

Аноним 31/08/24 Суб 23:32:24 #189 №872412

>>872409
Я понимаю что чем больше b тем она умнее, бльше параметров

Аноним 31/08/24 Суб 23:37:53 #190 №872416

>>872409
>>872412
>b тем она умнее, бльше параметров
Да, так и есть. Кол-во <параметров>B влияет на скорость. Поскольку если модель маленькая, ты ее можешь загрузить полностью в видеокарту, а врам быстрее рам в 16 раз, или чет-схожее. Чем больше модель, тем меньше слоев ты можешь выгрузить - тем меньше будет скорость. Угабуга позволяет больше выгружать чем коболд, однако в угабуге можно уже выгрузить больше врам видяшки, и будет заимствовать/брать врам из озу, так что лучше не брать слишком много - меньше скорости будет.

30б в принципе нормально будет, кто-то сидит на 0.5б и не жалуется, но я пока таких не видел.

Аноним 31/08/24 Суб 23:54:12 #191 №872420

Обращение к Обэмэ.mp4

>>872416
Спасибо за разъяснения! Качаю https://huggingface.co/bartowski/Tiger-Gemma-9B-v1-GGUF
Буду играть с ним, искать какой более менее подойдет проверить и дописать код.

зысы
Хоспаде, соевые уроды, сколько гемора, лишь бы лишний раз обиженки и угнетенные не наткнулись на коитус. Все в анальной цензуре, только умельцы и колективный разум анона и спасает.

Аноним 31/08/24 Суб 23:57:33 #192 №872425

>>872420
Я ерп"шу поэтому никогда не скачиваю с цензурой модели.

Аноним 01/09/24 Вск 00:07:21 #193 №872442

>>872420
> Хоспаде, соевые уроды, сколько гемора, лишь бы лишний раз обиженки и угнетенные не наткнулись на коитус. Все в анальной цензуре, только умельцы и колективный разум анона и спасает.
И самое главное, что это портит модель. Потому что пока в них нельзя внедрить новый (бесполезный) концепт не затрагивая все остальное.

А есть, кстати, такие наработки хотя бы в теории? Чтобы можно было пихнуть в ллм тупо поток сгенерированных скриптом примеров на матан и она с этого поумнела, не поломав все нахуй?
Хотя очевидно, как только такое появится, все позасрут цензурой окончательно.

Аноним 01/09/24 Вск 00:17:53 #194 №872447

Поему ллмки не могут даже стих пушкина нормально написать? Тексты известных да и любых песен аналогично.

Аноним 01/09/24 Вск 00:37:29 #195 №872456

>>872447
А ты сам-то можешь?
Напоминает типикал нормиса. Ему показывают невероятную технологию с огромным потенциалом и уже в текущем виде позволяющую сделать революцию, а он носом воротит не понимая или требует сделать какую-то юзлесс ерунду.
Кто там бомбил что друзья ллм не оценили?

Аноним 01/09/24 Вск 00:59:44 #196 №872492

>>872456
>А ты сам-то можешь?
Конечно, что в этом сложного?
Что за бред ты несёшь...

Аноним 01/09/24 Вск 01:10:07 #197 №872507

>>872447
Радуйся, что локалки вообще связный текст научились писать, особенно мелкие. Кому нахуй нужны твои стихи и тексты песен? Ты локалку как поисковик блять используешь, потому что тебе лень в гугл зайти?

Аноним 01/09/24 Вск 01:15:45 #198 №872513

>>872416
>врам быстрее рам в 16 раз
Пиздеж, цифра взята тупо из головы. Реальная разница зависит от частоты и пропускной способности процессора.

>будет заимствовать/брать врам из озу
>брать врам из озу
Дожили, блять.

Аноним 01/09/24 Вск 01:20:27 #199 №872516

>>872513
Она же быстрее. А во сколько раз, я не знаю. Это же и от видяшки зависит, на сколько ближе расположены чипы видеопамяти.

>Дожили, блять.
Пик, если ты не понял.

Аноним 01/09/24 Вск 01:30:44 #200 №872520

>>872516
Это дефолтная оперативная память, которая выделяется при нехватке видеопамяти. Врам это то что распаяно на самой плате, держу в курсе.

Аноним 01/09/24 Вск 02:01:09 #201 №872537

>>872492
Ты про сочинение стихов по аналогии, или про пересказ известных? Первое - сложная задача, однако ллмки в них пытаются и иногда даже получается. Второе - тебе дай 3 раза прочесть а потом выпезднуть и заставить четко пересказывать, только жидко оподливишься. Тут аналогично, ллм не запоминают просто слова а строят связи для последующего воспроизведения вероятного по смыслу токена.
> Что за бред ты несёшь...
> Поему ллмки не могут даже стих пушкина нормально написать?
кек
>>872513
> Пиздеж, цифра взята тупо из головы.
Ну типа взять типикал школосракерскую ддр4, что сейчас в большинстве пекарен, там будет в районе 50-60гб/с. Видимокарта имеет овер 900гб/с, так что он недалек от правды.
>>872516
Эта область, куда будет сгружена часть данных что не помещается в врам. Рам сама по себе не быстрая, так еще все данные по pci-e будут гоняться.

Аноним 01/09/24 Вск 02:18:10 #202 №872548

>>872520
>>872537
>которая выделяется при нехватке видеопамяти.
А я написал по другому? Я это и имел ввиду.

Аноним 01/09/24 Вск 05:52:57 #203 №872577

>>872632
https://huggingface.co/models?search=c4ai-command-r-08-2024

>>872152

Аноним 01/09/24 Вск 08:39:00 #204 №872601

>>872394
>Она у себя отвечает нормально, в Силли ебануто.
Должна отвечать так же, как кобольд, если уба отвечает по апи ебануто, значит, таверна шлёт какие-то ебанутые параметры, ищи по настройкам таверны. Успехов тебе найти что-нибудь в конченом интерфейсе.
>Хочу почувствовать скорость.
TensorRT тогда твой выбор. У меня вроде было ~50 т\с на 7b или больше. В итоге откатился на 6-7 т/c с моделью пожирнее и абсолютно доволен.
>Я уж устал ждать ответа, даже на 7т/с
Ну здесь три варианта. На сколько помню, в среднем человек может читать 15 знаков в секунду. Вариант первый - ты человек-муха, который может читать в три-четыре раза больше, чем регуляр хуман бин. Вариант второй, твоя модель говно и у неё 1 токен - 1 символ. Ну и третий, что скорее всего - ты забыл включить стриминг и ждёшь полного вывода перед началом чтения.

Аноним 01/09/24 Вск 09:10:13 #205 №872609

>>872601
> Ну здесь три варианта. На сколько помню, в среднем человек может читать 15 знаков в секунду
Вот, кстати, я внезапно пришёл к выводу, что ~7 т/с на ангельском для меня максимально комфортная скорость, потому что я как раз расслабленно читаю текст вместе с его выводом.
Но с текущей конфигурацией модель выдаёт около 20 т/с, ибо полностью выгружена в видеокарту. И т.к. за текстом уже не уследишь, возникает соблазн прочитать всё по диагонали и идти дальше. Это, конечно, удобно, когда хочется посвайпать до максимально комфортного ответа, но не особо полезно для погружения.

Аноним 01/09/24 Вск 09:23:32 #206 №872612

>>872537
>Видимокарта имеет овер 900гб/с
Смотря какая. Такая скорость только у 3080Ti/3090/4090, остальные посасывают на кратно меньших скоростях, вплоть до 272 Гбайт/сек у 4060, лол, что лишь в 3 раза быстрее обычной DDR5.

Аноним 01/09/24 Вск 10:15:49 #207 №872632

>>872152
Ссыль в студию!

Аноним 01/09/24 Вск 11:21:12 #208 №872669

Аноним 01/09/24 Вск 12:08:41 #209 №872689

>>872669
Так и я мог. Я имел ввиду ссылку на квантователя плюс пресеты.

Аноним 01/09/24 Вск 12:18:05 #210 №872690

>>872689
Если бы ты че-то мог, то нашел бы всё сам, а не клянчил.

Аноним 01/09/24 Вск 12:37:13 #211 №872698

>>872537
>Ну типа взять типикал школосракерскую ддр4, что сейчас в большинстве пекарен, там будет в районе 50-60гб/с. Видимокарта имеет овер 900гб/с, так что он недалек от правды.
Если уж сравнивать типикал то и типикал сё, то уж и пример более народной карты приводи. На RTX 4060 псп даже до 300 гигов в секунду не доходит. Так что разница с той же ддр4 будет в 5 раз, но не в 16 блять.

Аноним 01/09/24 Вск 12:46:14 #212 №872702

>>872601
Я сейчас 22 т/с на 8б. ТенсорРт, я хотел попробовать. Но что на стабле-дифуге не хотел, открываться. Что TensorRT-Llm, точнее даже не так. Я скачал, но в папке пусто куда я скачивал. И что дальше делать я не понял. Кмд пишет версию тенсорарт, при python -c "import tensorrt_llm; print(tensorrt_llm._utils.trt_version())" А че дальше делать, гайде этом, я не понял.

У меня стриминг, потому что модель пишет на английском, вот, а я хочу сразу перевод. Угабуга хоть и дает 22т/с с tensorcores, но кобольд кажется быстрее на 19-18 т/с. Угабуга долго думает над тем, что написал.

Аноним 01/09/24 Вск 12:56:45 #213 №872704

>>872577
Топчик
>>872612
> Такая скорость только у 3080Ti/3090
Так-то они база, сейчас дешевы и популярное сочетание с быстрой ддр4.
> у 4060
>>872698
> На RTX 4060
Этот "шедевр", уступающий предыдущему поколению, стоит сравнивать с двухканальным некрозеоном на ддр3, такой уж ахуительный уровень.
>>872689
Тебе exl2 скинуть чтобы еще больше поныл?
> пресеты
В ставрне стоковый норм, его уже правишь на свое усмотрение.

Аноним 01/09/24 Вск 13:30:36 #214 №872742

>>872690
> Спрашиваешь у какого квантователя качал анон
> а че ты телепатией не обладаешь сука
Зоантропы в треде, я спокоен.

>>872704
Поныл тебе за щеку, проверяй.

Аноним 01/09/24 Вск 13:33:10 #215 №872744

>>872704
>Этот "шедевр", уступающий предыдущему поколению, стоит сравнивать с двухканальным некрозеоном на ддр3, такой уж ахуительный уровень.
Так ты сам упомянул "типикал" железо (если ты тот же самый анон). Да 4060 это говняшка с урезанной шиной, но это самый низ рынка и его ставят в бомжесбоки на ровне с той же ддр4, так что сравнение по мне адекватное. Но если даже взять 3060 или 2060, там разница всё равно не настолько огромная, чтобы был отрыв аж в 16 раз.

Аноним 01/09/24 Вск 13:41:10 #216 №872753

>>872742
@
проснулся на лекции
@
ощущаешь стекающий по штанам поломанный квант
>>872744
Ну так типикал сочетание к йобистой ддр4, что сможет в подобные скорости - топ или предтоп железо тех же годов, куда отлично подходит весь старший ампер. Это сейчас ддр4 дешман днище - так и 3090 тоже дешман днище, зачем пытаться к ней совать очень близкий по цене (офк новый с магазине) высер?
Изначально было заявлено что тот анон не сильно ошибся в своем сравнении, и показан вполне приличный пример этого. Тут сколько не душни, все равно рам останется тормознутым говном а крупные ллмки на ней - нежизнеспособны, всратый пример никак это не изменит.

Аноним 01/09/24 Вск 13:45:51 #217 №872755

>>872753
>так и 3090 тоже дешман днище
Куртка-маркетинг во всей красе.

Аноним 01/09/24 Вск 13:56:42 #218 №872771

>>872753
>Ну так типикал сочетание к йобистой ддр4, что сможет в подобные скорости - топ или предтоп железо тех же годов, куда отлично подходит весь старший ампер. Это сейчас ддр4 дешман днище - так и 3090 тоже дешман днище, зачем пытаться к ней совать очень близкий по цене (офк новый с магазине) высер?
Коробочная 4060 щас стоит около 30к на маркетах, а живая 3090 со вторички обойдется минимум в 60, так что цены тут не родственные и даже не близко. Можно конечно завонять и сказать, что 60к за видеокарту для локалок это еще божеская цена, но по факту для мимокрока это уже приличная сумма. Кто то за такую цену себе целый пк собирает, так что 3090 это не дешман днище. Дешман днище это теслы с вариациях.

>Изначально было заявлено что тот анон не сильно ошибся в своем сравнении, и показан вполне приличный пример этого.
Он взял цифру из головы, а ты сравнил дешманскую память с недешманской врамой непонятно ради чего.

>Тут сколько не душни, все равно рам останется тормознутым говном а крупные ллмки на ней - нежизнеспособны
С этим я не спорю. Я душню из-за странной аргументации и твоих примеров.

Аноним 01/09/24 Вск 14:13:39 #219 №872784

>>872771
>Дешман днище это теслы с вариациях.
Теслы нынче не каждому по карману :)
Вариант на 4 4060Ti 16гб мне по-прежнему кажется хорошим, если рассматривать сборку из новья. Хотелось бы узнать, сколько даёт на такой сборке Мистраль-123В.exl2, но походу анона с такой сборкой в чате так и не появится.

Аноним 01/09/24 Вск 14:15:30 #220 №872787

>>872755
Не пойму что ты пытаешься сказать, на вторичке она относительно дешевая.
>>872771
> Коробочная 4060 щас стоит около 30к на маркетах
Вроде уже прикрыли лавочку, не? Офк речь про 16-гиговую, та что на 8 это вообще кринж. В первых запросах оно стоит 48-50к на маркетплейсах и 52-55+ в профильных магазинах, потому и про родственные цены. Хотя так даже за 30к не самая лучшая покупка, но речь не об этом вовсем.
> а ты сравнил дешманскую память с недешманской врамой непонятно ради чего.
Ну типа раньше когда та врама была недешманской то и рам была довольно дорогая. Даже из интереса глянул старые заказы, 16-гиговая плашка стоила 10+, 3090 в то время торговалась в районе 100-120к у нас и заказывалась за 85к + 5к пошлины с алишки. Минимально комфортные 64гб только самой памяти стоили как половина видеокарты.
Сейчас 64гига можно где-то за 15-16к найти (правда будет не быстрая зато с магазина), но и 3090 на барахолках дешевле. Вот аргументация примеров.
>>872784
> Хотелось бы узнать, сколько даёт на такой сборке Мистраль-123В.exl2
Тут их минимум 4 штуки потребуется, та еще корчелыга выйдет. Сборка с новья под ллм выглядит крайне бредовым вариантом, но я бы на такое посмотрел.

Аноним 01/09/24 Вск 14:23:52 #221 №872801

>>872787
>но я бы на такое посмотрел.
Да все бы на такое посмотрели, только показывать никто не хочет. Тысяч в 250 выйдет сборка, а производительность её непонятна. 64гб GRRD6, современный чип, но шина совсем говно. С другой стороны это примерная цена одной новой 4090 безо всего. Никто однако не хочет рискнуть :)

Аноним 01/09/24 Вск 14:28:56 #222 №872804

>>872801
> Тысяч в 250 выйдет сборка
Это можно запилить риг на 3х 3090 в цивильном корпусе со всем-всем и еще останется на алкашку чтобы отметить приобретение. Видимо, потому и не собирают.
> примерная цена одной новой 4090 безо всего
Пиздец ведь, в лучшие времена можно было взять пару.

Аноним 01/09/24 Вск 14:33:25 #223 №872808

>>872787
>Офк речь про 16-гиговую, та что на 8 это вообще кринж.
Я имел ввиду восьмовую версию, потому что TI на 16 гигов я уже давно в наличии нигде не видел.

>Ну типа раньше когда та врама была недешманской то и рам была довольно дорогая.
Ну так мы говорим про сегодняшний день и про текущие сборки. На сегодняшний день ддр4 это дешман и минимум, который можно взять из среднестатистического ретейла типа днс. Из дешманских видеокарт из того же днс можно взять либо 3050 либо 4060, память которых я и сравнивал, потому что именно они идут в дешманские сборки, а не 3090 и ей подобные.

Аноним 01/09/24 Вск 14:33:33 #224 №872809

>>872537
>Ты про сочинение стихов по аналогии
Да, ты правильно понял мою задумку.
>>872507
Очень хотел написать песню в стиле моей любимой группы. Я это делал сам конечно, но хотел чтоб это сделала ллмка по-своему и разочаровался, что она не только текст стихов песен не знает, а ещё и в рифму не может.

И я использую ллмки не как справочник или поисковик, а как помощника для решения мелких задачь.

Аноним 01/09/24 Вск 14:41:49 #225 №872819

парни вопрос а как подвязать генерацию пикч в таверне? просто в кобальде видел эту хуйню. попытался поискать гайды но нихуя не нашло

Аноним 01/09/24 Вск 14:44:27 #226 №872821

>>872808
> Из дешманских видеокарт из того же днс
Не стоит оценивать общий тренд беря самую дешевую комплектуху в принципе, у нее прайс/перфоманс днищенский выходит. Платформу на условном 5000 амд сейчас действительно оче дешево можно взять, а по видеокартам наоборот подорожание и стагнация, потому и намерил подобное. Когда оно вровень то все уже норм, раньше в бюджетных сборках типа ддр4 3200 + rtx3070 (ти) подобное соотношение также наблюдалось.
> про сегодняшний день и про текущие сборки
Текущие сборки - те что у юзеров на руках, собирались раньше и немного апгрейдились. Спекулировать про "сборку из магазина" для ллм - нет смысла, ее никто всеравно не будет делать. Максимум немного докинет чтобы взять гпу с памятью побольше.

Аноним 01/09/24 Вск 14:45:03 #227 №872823

>>872819
Скачай с сивитаи сд 1.5 и укажи путь до неё. У меня с сдхл не работало, только с 1.5, но эта такая хуйня, т.к. нужен промпт на англюсике и вручную нажимать генерить каждый раз. А чтоб твою пикчу понимала ллм, тебе надо качать спецфайлик, который совместим только с парой моделей старых. Забей короче, это юзлесс хуйня.

Аноним 01/09/24 Вск 14:58:26 #228 №872833

>>872821
>Не стоит оценивать общий тренд беря самую дешевую комплектуху в принципе, у нее прайс/перфоманс днищенский выходит.
Ну тогда можно начать вообще какие-нибудь некросборки на горелых зеонах и теслах в пример брать, если уж мы говорим чисто о соотношении производительности на рубль. Хотя в целом твоя позиция мне понятна, с чем-то я даже согласен.

>раньше в бюджетных сборках типа ддр4 3200 + rtx3070 (ти)
Ну уж 3070ti это не бюджет, а пред-топ, ну или хотя бы прочный мидл. По крайней мере в моем понимании бюджетными картами всегда были XX50 и XX60, когда они стоили в районе 15-25 тысяч, а не как сейчас по цене комплекта зимней резины.

>Спекулировать про "сборку из магазина" для ллм - нет смысла, ее никто всеравно не будет делать.
Щас и со вторички нормальную сборку хуй подберешь без ебли и кучи часов, спасибо барыгам которые цены на теслы за пару месяцев взвинтили в 2-3 раза.

Аноним 01/09/24 Вск 15:24:45 #229 №872855

>>872609
>7 т/с на ангельском для меня максимально комфортная скорость
Там прикол в том, что люди на разных языках в среднем читают с одинаковым количеством символов в минуту. Если на англ читаешь медленнее, чем на русском - ты ещё не до конца его освоил, лол.
>около 20 т/с, ибо полностью выгружена в видеокарту
Тут не только от погружения зависит, но и от чипа, от настроек, семплеров-хуемплеров, типа модели и т.д.

>>872702
>но в папке пусто куда я скачивал
Если "скачивал" командой install и в папке ничего нет - так и должно быть. Если "скачивал" командой git clone и в папке пусто, то поражён вашей неудачей, сударь. Смотри в папке C:\windows\system32. И нехуй консоль от админа запускать.
> А че дальше делать
Страдать. Там, насколько я помню, нужен тритон, которого нет под винду. Нужно конвертировать модели. Нужно ебаться. Проще скачать сразу здесь https://www.nvidia.com/ru-ru/ai-on-rtx/chatrtx/ поиграться и забыть.

>>872801
>Никто однако не хочет рискнуть :)
Я как-то видел на реддите обсуждение, там чел хотел собрать под LLM на китайских мутантах, получалось у него либо собирать на б.у 3090 либо за ту же цену х2 по vram на мутантах из Китая. Чип каждой мутантской карты слабее одного 3090, но их выходило 2 за ту же цену и 3090 уже терялся. Так вот ему и пишут - а никто не делал на мутантах, потом если надо будет настроить LLM, так никто тебе ничего не подскажет. Делай на 3090, какое нахуй х2 по цене, не может такого быть. Челик резонно замечает, что у него здесь невозможно найти 3090 дешевле 600 баксов, даже б.у, так что как раз вдвое дороже и выходит за ту же vram. Тут первый ответил что-то в духе - а у меня вообще по 800, но я же купил. Я так охуел на самом деле с этой беседы.

>>872833
>спасибо барыгам которые цены на теслы за пару месяцев взвинтили в 2-3 раза.
Дело в барыгах, но не так, как ты думаешь. У оптовиков есть сейчас теслы, они готовы продавать, я мельком посмотрел, там по 17к за карту получается. Если брать на миллион. Нужен барыга поменьше, который купит карты оптом и будет продавать. Конечно, это не 15к за карту, но неужели никто бы не купил за 20? Выходит, что нет, не купил бы, потому что 99.9% барыг, которые этим занимались - отвалились.

Аноним 01/09/24 Вск 15:32:52 #230 №872861

>>872855
>Дело в барыгах, но не так, как ты думаешь.
Че то твою мысль я не уловил. Но я щас даже зашел посмотрел цены на p40 несчастную - от 30 до 50 тысяч за штуку. Несколько месяцев назад (может быть пол года назад, точно не помню) их продавали за 15-20 при чем в хорошем состоянии. Щас я даже жалею, что тогда не взял, потому что с нихуя подумал, что цены будут продолжать падать.

Аноним 01/09/24 Вск 15:44:44 #231 №872874

>>872861
>Че то твою мысль я не уловил.
Как это работает - есть крупные барыги, которые продают крупными партиями. Есть барыги поменьше, которые покупают партию, накручивают свой процент и перепродают в розницу. Крупные барыги подняли цены до уровня барыг поменьше. Не важно, с чем это связано. И розничные барыги просто испарились вместо того, чтобы снова купить партию и продавать. Да, карты бы не стоили по 15к, это было бы в районе 20к за карту. Но их нет, они просто отвалились, кроме буквально пары поехавших с картами по 30к.

Аноним 01/09/24 Вск 15:51:05 #232 №872883

>>872874
>Крупные барыги подняли цены до уровня барыг поменьше. Не важно, с чем это связано.
Мне кажется мы все знаем, с чем это связано. Под каждым первым объявлением о продаже теслы сейчас висит описалка по типу "для запуска локальных моделей". Они всё про нас знают. Цены никогда не меняются просто так, особенно массово. Рыночек, все дела.

>они просто отвалились, кроме буквально пары поехавших с картами по 30к.
Там некоторые и по 50-60к карты продают. При чем не партию из пары штук, а именно одну конкретную штуку даже без приваренного колхозанского охлаждения.

Аноним 01/09/24 Вск 16:03:46 #233 №872899

бля все настолько хуево?

Аноним 01/09/24 Вск 16:05:03 #234 №872901

price.png

>>872883
>Они всё про нас знают.
Я это могу объяснить только тем, что хайпа вокруг AI намного больше, чем самого AI. "Розничные" барыги купили партию, еле-еле продали и больше не хотят этим заниматься, т.к спрос низок. Но из-за хайпа оптовики не хотят отдавать карты по цене корзинки бобов. Вот, допустим, актуальная цена в Китае, накидывай сюда стоимость доставки, потери на переводах, конвертации валют и т.д. Покупаешь на лям, продаёшь по 30к - имеешь 10к чистой прибыли на каждой карте. Плохо, чтоли?
>Там некоторые и по 50-60к карты продают.
Это уже перепродажа перепродажи.
>даже без приваренного колхозанского охлаждения.
Кек. Розничный барыга вряд ли хотя бы упаковку открывает, чтобы осмотреть, что он получил от оптовика, а ты про охлад.

Аноним 01/09/24 Вск 16:06:18 #235 №872904

>>872899
Перекупы - пидарасы, вот ведь новость да?
Но вобще это предсказуемо, карты обрели новую ценность с появлением сеток, и раз за них стали готовы платить все стали взвинчивать цены
Но конечно взвинчивать цену до потолка это на дурака, поймут что не берут за такую - будут снижать

Аноним 01/09/24 Вск 16:13:59 #236 №872908

>>872901
>Кек. Розничный барыга вряд ли хотя бы упаковку открывает, чтобы осмотреть, что он получил от оптовика, а ты про охлад.
Нда, совсем о клиентах не заботятся. Вот если бы они продавали не референсные огрызки а припиздили какой нибудь нормальный охлад с вертушками (желательно двумя, одна вертушка это несерьезно), то я бы готов был тыщу-другую добавить. Ладно, может быть пять тысяч сверху, если прямо хороший охлад а не дрист из под принтера.

Аноним 01/09/24 Вск 16:15:53 #237 №872912

>>872855
>Если "скачивал" командой install и в папке ничего нет - так и должно быть.
Понятно.
Ну, можно модели скачать, которые уже сконвертированы, и уже в угабуге загружать их под TensorRT-Llm, а чатртха, у меня не будет работать, ибо rtx 2000. Я помню кто-то запускал на 2 тыщ. серии, но там была в риге поддерживаемая карта. Т.е. генерила карта rtx 2000 , но так же в риге была ртха 4000, поэтому и заработало.

Аноним 01/09/24 Вск 16:23:41 #238 №872920

>>872883
>Цены никогда не меняются просто так, особенно массово. Рыночек, все дела.
Не только в этом дело. Китай похоже прикрыл лавочку. Даже на Али Тесл нет уже. То ли из-за санкций, то ли спрос вырос и все раскупили.

Аноним 01/09/24 Вск 16:29:04 #239 №872923

>>872904
бля я не про это .я выше спрашивал как обстоят дела с тем что бы привязать генерацию пикч в таверне но блядская мартышка опять двач шатает

Аноним 01/09/24 Вск 16:32:58 #240 №872929

>>872920
Внатуре, я даже уже забыл про этих пиздоглазых торгашей. Там скорее всего да, улей расшевелился и все мелкие и не очень конторы начали скупать всё что не приколочено к майнинг-стендам. Ну и санкции тоже душить начали. То ли реально все в аджиай уверовали, то ли просто отставать не хотят от западных шарашек. Странно что у нас кстати никаких подвижек в этом нет. Яндекс какое то говно высрал, все про него забыли. Тиньков что-то высрал, все забыли еще быстрее. Хотя нормальная локаль на русском точно бы выстрелила, при чем не только у нас, а во всем снг.

Аноним 01/09/24 Вск 16:35:04 #241 №872931

LOL.png

LOL2.png

>>872908
Купи охлад от 1080, по болтам встаёт вроде, только не все чипы памяти радиатора касаются.

>>872920
>. Даже на Али Тесл нет уже.
Шадоубан из-за санкций. Карты там есть. Но цена такая, что проще сразу купить на авито за 40к, лол.

Аноним 01/09/24 Вск 16:41:24 #242 №872935

>>872929
>Странно что у нас кстати никаких подвижек в этом нет.
А откуда эти подвижки возьмутся? Если чел специалист, то он давно на западе с зарплатами х10 (см. места рождения какого-нибудь Суцкевера, или там автора AlexNet), а если он бездарь, то и сетки выйдут говном, что мы и наблюдаем.
>на русском
Вымирающий объективно язык.

Аноним 01/09/24 Вск 16:50:34 #243 №872944

>>872935
>Если чел специалист, то он давно на западе с зарплатами х10
Ну китайцы вон че-то шебуршат, ни одну сетку уже выпустили и без западных специалистов и даже на мандаринском своем блять. Да, понятно что спецы неебического уровня скорее всего съебут при первой возможности, но чтобы сделать просто нормальную сетку без "прорывов" и "достойных ответов западу" хватит и обычных специалистов, которые у нас по любому есть.

>Вымирающий объективно язык.
Но не мертвый. Носителей дохуя, больше чем какого-нибудь французского, что не мешает мистралям тренировать сетку в том числе и на родном языке разрабов.

Аноним 01/09/24 Вск 16:50:55 #244 №872945

>>872931
Манулы тестили, да ещё и профессиональные?

Аноним 01/09/24 Вск 16:54:51 #245 №872948

>>872944
>Ну китайцы вон че-то шебуршат
Они в область столько бабла влили, что кто-то и остался.
>но чтобы сделать просто нормальную сетку без "прорывов" и "достойных ответов западу" хватит и обычных специалистов
Это если процессы налажены. А если нет, то обычный спец первую сотню вариантов запорит нахуй, ибо таланта подобрать всё в пару подходов нет, а подсказать некому. Короче YaGPT 100 будет охуенной, чё.
>Носителей дохуя, больше чем какого-нибудь французского
Ты не поверишь... впрочем там по большей части малообразованные африканцы, тогда как у русского носители пока ещё богаче среднего жителя Африки

Аноним 01/09/24 Вск 17:00:57 #246 №872953

lang.png

>>872945
Китайцы пишут на английском и обосрались, кто бы мог подумать. Причём у них нет культа барина, им похуй, что они где-то ошибки допустили и не учат языки. Эти иностранные собаки и так купят.

>>872948
Ты чуть-чуть некорректно сравниваешь, носителей языка с теми, для кого язык родной. Но с общим смыслом согласен.

Аноним 01/09/24 Вск 17:04:52 #247 №872959

народ кто может поделиться нормальным гайдом о том как привязать к таверне генерацию изображений

Аноним 01/09/24 Вск 17:04:53 #248 №872960

>>872948
Ладно, не хочу соглашаться, но походу придется. Спецов у нас либо нет, либо они еще в стадии слепых котят находятся. Яндекс свою псевдо-модель уже больше года пилят, а результата никакого. Наша слоновья гопота за всё время научилась только суммаризировать текст с интернетов и ни граммом больше. Хотя, тут наверное глупо сравнивать наши мощности с зарубежными. У гугла, меты и жопенов небось целые кукурузные поля под ангары вычислительные выкуплены, а у нас где-нибудь в подвале ваня сидит и на паленые теслы тетрадкой машет, чтобы те не перегрелись.

Аноним 01/09/24 Вск 17:13:57 #249 №872967

>>872960
> наверное глупо сравнивать наши мощности с зарубежными. У гугла, меты и жопенов небось целые кукурузные поля под ангары вычислительные выкуплены, а у нас где-нибудь в подвале ваня сидит и на паленые теслы тетрадкой машет, чтобы те не перегрелись.
Или наоборот. Сбер несколько лет назад все видюхи в стране скупил, при этом в прошлом году вытужили какую-то шляпу 13В, сбергигачат. При этом всякие обниморды, которые по сравнению со сбером бичи, полноценно хостят 405В.

Аноним 01/09/24 Вск 17:15:12 #250 №872968

>>872960
>Яндекс свою псевдо-модель уже больше года пилят, а результата никакого
Ну как сказать. В Яндекс-браузере уже синхронный перевод видеороликов запилили. У Гугла такого нет, хотя казалось бы.

Аноним 01/09/24 Вск 17:20:41 #251 №872969

battle-of-the-cheap-gpus-lllama-3-1-8b-gguf-vs-exl2-on-p102-v0-ziuu1tchy7md1.webp

Как бороться с подобными ремарками посреди текста? Это режим чата если что. Иногда появляется типа "ну вот и закончилась история и бла бла" или вообще от моего имени начинается повествование. Бесит эта штука. Промпты чистые, никаких багов. Всё стандартно в файлах и настройках. Модель мистраль инструкт 12б

Аноним 01/09/24 Вск 17:22:15 #252 №872971

>>872967
Сбер хорошо денюшку считать умеют. Че прибыль не приносит, они то выкидывают, или хотя бы притушивают, чтобы зря бюджет не сосало. Был бы спрос повыше в массах так сказать, может они бы че крупное запилили. А щас одним похуй, а другие не хотят рисковать в условиях кризиса.

>>872968
В гугле блять в целом долбаебы зажравшиеся сидят, которые нихуя не делают из-за отсутствия конкуренции. А вот яндексу (как и другим конторам из сферы) приходится выкручиваться и какие-то фишки оригинальные добавлять.

Аноним 01/09/24 Вск 17:26:08 #253 №872975

>>872833
> если уж мы говорим чисто о соотношении производительности на рубль
Нехуй дерейлить настолько далеко, изначально было про соотношение скоростей и оно подтвердилось. То что можно подобрать абсурдный вариант с йобой в комбинации с 64битной затычкой, или "в нищесборках не так" - не меняет сути.
> 3070ti это не бюджет, а пред-топ
Последний преддоп семидесятка - паскаль, дальше хуанга пошло штормить и теперь это вообще типичный мидл. 3070 и стоила 25-30 раньше.
> по цене комплекта зимней резины
Как 4090, ага. До дешевой нужно лет 5 отматывать к предверию ковида
> со вторички нормальную сборку хуй подберешь без ебли и кучи часов
Это всегда было. А насчет тесел - просто закончились дешевые, барыги и раньше их задорого толкали.
>>872855
> там по 17к за карту получается. Если брать на миллион.
Был инсайд что раньше их оптом по 80$ толкали те кто сервера утилизирует. Хз насколько правда, но примерно сходится с текущим изменением цены.
>>872874
> есть крупные барыги, которые продают крупными партиями
Это не барыги а те кто железки разбирает и дальше сбывает или на переработку отправляет. Им нет смысла связываться с мелкими покупателями.

Аноним 01/09/24 Вск 17:42:36 #254 №872995

>>872929
> Хотя нормальная локаль на русском точно бы выстрелила
В чем бы она выстрелила? Ну предположим условный зеленый банк релизит свой новый гигачат, или что там было в паблик. И? Его скачает пара десятков васянов и будет ныть в комментариях "сделайте нам gguf"? Получат несколько десятков упоминаний в нерецензированных выпусках и парочку от рецензированных статей. Если очень повезет, несколько пара компаний свяжутся с ними с вопросами и хотелками чтобы им что-то сделали на базе этой сетки, вот только едва ли у них есть отдел что занимается такими услугами.
Какой им профит вообще с этого? Что там может выстрелить? Использовать у себя смогут и без публикации и явно это делают, релейтед услуги начать оказывать - аналогично.

Единственное что может как-то помочь - создание отдельной дочки нацеленной чисто на ии, как, например, мистрали, китайцы. Но вопрос с окупаемостью и спросом, если бы не санкции то, наверно, уже бы было.
>>872959
Если именно нормально - нужно иметь рабочего автоматика или аналог. Просто прописываешь адрес, параметры и шаблон запроса для ллп по генерации промта. То что там прикручено с кобольдом - унылая херня для галочки.
>>872969
> Промпты чистые
Насколько чистые? Такое бывает при кривых промтах, или у некоторых моделей самих есть склонность подобное спамить, тогда нужно добавить инструкций по тому как отвечать.

Аноним 01/09/24 Вск 18:12:58 #255 №873039

>>872855
>Там прикол в том, что люди на разных языках в среднем читают с одинаковым количеством символов в минуту. Если на англ читаешь медленнее, чем на русском - ты ещё не до конца его освоил, лол.
Я и не говорил, что бог английского, как раз использую ролеплей в качестве практики языка. А ещё где-то читал, что русские слова, как правило, раскладываются на большее количество токенов, чем английские.

Аноним 01/09/24 Вск 19:38:47 #256 №873141

>>872968
>У Гугла такого нет
У гугла есть дочерняя компания, которая делает экспериментальные проекты. Называется Зона 120. У этой зоны 120 есть дочерняя компания Aloud. В 2022 году Aloud открыла доступ всем к новой фиче - перевод видео на другие языки. В преддверии внедрения этого в мейнстрим ютуб запиливает фичу - несколько аудиодорожек для одного видео. В следующем году Aloud обещает поддержку пяти языков и сотрудничает с крупнейшими ютуберами - Пьюдипай, Мистер Бист, Дьюд Перфект. Следом Ютуб обращает свой взор на Индию и добавляет пять индийских языков. Ты же ещё не забыл, чем знаменит Гугл? Он убивает. Уже два года Aloud даже не обновляет свой сайт, обещая перевод только на два языка - испанский и португальский. Он сообщает о периоде тестирования, бесплатности использования и предлагает записаться в бета-программу. Тот же Пьюдипай уже закончил карьеру, а Бист запилил свою контору по переводам, пока Гугл что-то там тестирует. Так что да, у Гугла такого нет. Потому что Гугл убил это в себе.

>>872975
>Это не барыги а те кто железки разбирает
Ну я привёл цены тех, кто именно барыги, торгуют серверным железом разной степени новизны крупными партиями. У разбирающих железки цены будут пониже, но как с ними связаться? Как перехватить у них товар до барыг? А вот и я не знаю.

Аноним 01/09/24 Вск 19:55:01 #257 №873156

>>872995
>Если именно нормально - нужно иметь рабочего автоматика или аналог. Просто прописываешь адрес, параметры и шаблон запроса для ллп по генерации промта. То что там прикручено с кобольдом - унылая херня для галочки.

а можно подробнее? ибо я нихуя не понял. или же какой то гайд если в падлу расписывать

Аноним 01/09/24 Вск 19:57:10 #258 №873157

>>872995
>тогда нужно добавить инструкций по тому как отвечать.
Т.е. так и написать ей в память типа "ты не должен... отвечай только так..."?

Аноним 01/09/24 Вск 20:27:50 #259 №873207

>>873156
Там же примитивный интерфейс довольно, для начала запусти одновременно диффузию и llm.
>>873157
Отвечай в таком-то стиле, избегай добавления в конце странных вопросов и подобное. Можно устроить типа свод rp rules: где перечислить указания, только не переусердствуй. Отрицания модели воспринимают очень плохо, особенно когда пытаешься загнать ими в узкие рамки.

Аноним 01/09/24 Вск 22:06:02 #260 №873310

>>872385
Выбрасуй нахуй слои из видяхи, туда — чисто контекст напихай.

>>872389
Нет, скорость нулевая будет.

>>872401
Deepseek-Coer-V2-Lite 16B?

>>872409
На скорость влияет (время ответа): вес модели и скорость чтения памяти. Берется вес — делится на скорость. Нихуя себе математика, правда? :)
У видяхи скорость чтения гораздо быстрее, у оперативы медленнее.
Конечно, влияет еще и мощности (видеокарта или проц), но и там разрыв весьма большой (видеокарта кратно сильнее проца обычного).
Так что по итогу, все что тебе надо — это вес модели. =) И нормальный ответ у всех разный. Кто-то сидит на 4090 и ему геммы 27б выдают 60 токенов в секунду. И это «норм». А кто-то сидит на оперативе с 12б моделью с 4 токенами в секунду и радуется.

>>872447
Потому что в их датасетах не было стихов русских, м, м, м? :)

>>872492
Ну так и нахуя тебе локалки? :) Пиши сам, на том и порешили.

>>872537
45-50 точнее.

>>872612
Или в 6 раз быстрее обычный DDR4…
1,5 токена против 9, или 5 против 30… ХМ…

>>872960
Хуйня. Норм у нас со специалистами. И исследования есть. Финансирования мало (и основное у Сбера и Яндекса), отсюда и результат. Многие МЛщики русские — частники за рубежом. Зато при деньгах и могут ресерчить.

———

Потестил Qwen2-VL-2B и Qwen2-VL-7B — топовые модельки. На голову выше всего опенсорсного, что было раньше.
Ща накатываю WSL, ибо ебал я этот ваш Flash-Attention под винду билдить, говно говна, автор мудак.
Им осталось слить VL и Audio и добавить генерацию звука и картинок. Ну и все, омнимодалка готова, хули.

Аноним 01/09/24 Вск 23:10:26 #261 №873367

>>873207

а что за диффузия? сорри я сосем гулупый

Аноним 01/09/24 Вск 23:12:10 #262 №873370

>>873367
Stable Diffusion

Аноним 02/09/24 Пнд 00:47:52 #263 №873467

>>873310
>омнимодалка готова
Омнимодалка курильщика.

Аноним 02/09/24 Пнд 01:01:40 #264 №873479

Кто-нить ставил 2+ Tesla P40 в WSL?
А то у меня не хотят видеться. Может есть какие тонкости. Может куду не ту поставил или еще шо. Ну так, навскидку.

Аноним 02/09/24 Пнд 01:03:39 #265 №873480

Аноны, это просто праздник какой-то. Как же быстро новые командиры летают!

Аноним 02/09/24 Пнд 01:12:02 #266 №873490

>>873479
>Может есть какие тонкости.
Одна. Твои теслы должны быть в WDDM режиме, иначе WSL тебя нахуй пошлёт даже с одной.

Аноним 02/09/24 Пнд 04:37:26 #267 №873586

>>871874
Запускать даже на топовых по железу мобилках толку мало, будет убого, медленно и горячо. Лучше заведи хоть какой-нибудь комп, в идеале - хоть с какой-нибудь дискретной видеокартой, и запускай на нём, а с мобилки можешь удалённо к веб-интерфейсу Kobold.cpp подрубаться.

Аноним 02/09/24 Пнд 04:39:14 #268 №873587

>>871893
>бу древняя карточка будет лучше, даже 580 рыкса
Тем более что конкретно RX580 есть китайские рефабы с 16 Гб памяти, а это уже довольно неплохо за их деньги!

Аноним 02/09/24 Пнд 06:13:11 #269 №873618

>>869674 (OP)
Battle of the cheap GPUs - Lllama 3.1 8B GGUF vs EXL2 on P102-100, M40, P100, CMP 100-210, Titan V
https://www.reddit.com/r/LocalLLaMA/comments/1f6hjwf/battle_of_the_cheap_gpus_lllama_31_8b_gguf_vs/

Аноним 02/09/24 Пнд 07:45:24 #270 №873630

>>873618
>Battle of the cheap GPUs
P100 для вкатунов в тему выглядит неплохим вариантом, тем более что её пока ещё можно достать за 20к. Чисто для моделей 8-12В. А вот две таких брать нет смысла, лучше уж дожать до 3090. Новый комманд-р в exl2 влезет в 24гб?

Аноним 02/09/24 Пнд 07:50:02 #271 №873631

>>871607
>Семплеры я смотрю на опенроутере, там не все модели, однако беру от туда - ну и нормально пашет
Спасибо за наводку. Как раз думал, не оздать ли отдельно рентри для семплеров, вот только "правильные" семплеры у всех свои, а тут общий ресурс, то что надо любому ньюфагу!
Добавил в список моделей ссылки на семплеры, которые нашёл.

Аноним 02/09/24 Пнд 08:58:35 #272 №873650

>>873618
Мне больше этот тест понравился, в комментах кидали:
https://www.reddit.com/r/LocalLLaMA/comments/1eqfok2/overclocked_m40_24gb_vs_p40_benchmark_results/
Сделать бы сбороную таблицу днищекарт по производительности, я бы ещё на amd mi50 глянул. Недооценённая хуйня в текущих реалиях

Аноним 02/09/24 Пнд 09:13:44 #273 №873654

>>873207
>Можно устроить типа свод rp rules
А вот это годная идея, спс анон

Аноним 02/09/24 Пнд 09:30:13 #274 №873659

Вопрос к анонам. Сколько реального контекста в мистраль немо если юзать только русский язык. На каком моменте у вас лупы. И тот же вопрос относится к более старшим мистралькам. Есть ли разница именно в размере вмещаемого контекста при котором появляются лупы.

Аноним 02/09/24 Пнд 11:30:58 #275 №873738

Где можно посмотреть, сколько ОЗУ oobabooga пытается зарезервировать? Нихрена не понятно, саолько памяти ему надо.

Аноним 02/09/24 Пнд 12:30:00 #276 №873839

>>873618
Необычно наблюдать аж 2х отличие по скорости генерации между разными бэками при мелком контексте, но хорошо что бывая работает. Однако, проблемы некрожелеза уже во всю лезут: жора нормально работает только на паскалях, в остальных не заводится, флеш аттеншн на некроте также не хочет работать. Возможно есть шанс их собрать на старых либах, но это не точно.
>>873650
> Gemma 2 27B @ 8192 context
> Prompt processing: P40 - 256 t/s, M40 - 74 t/s
Овари да, похоже оно ультрапечально. Но вдруг там есть нормальные фп16 и есть шанс на экслламу?
>>873659
> Сколько реального контекста в мистраль немо
Столько же сколько и на английском, лупы с этим не связаны.

Аноним 02/09/24 Пнд 12:41:00 #277 №873846

>>873650
Скока ж там M40 стоит-то… На 30% медленнее в разгоне (!).
Недалеко от P104-100, только объем, конечно, нормальный.
Ну, наверное, за 8к-10к нормально, да?

Аноним 02/09/24 Пнд 12:58:42 #278 №873858

>>873846
>Ну, наверное, за 8к-10к нормально, да?
Более чем. Только не найдёшь. За 15 и то редко.

Аноним 02/09/24 Пнд 13:56:06 #279 №873926

2024-09-02-13-33-50.webm

Хе-хе. Осталось побороть генерацию в некоторых случаях рандомного бреда, звучащего, как призывы Сатаны прорвалось на "what other", ещё немного поебаться с буферизацией чатлога и будет охуенно.

>>873839
>проблемы некрожелеза уже во всю лезут
На то оно и некро. Но у Жоры там в команде какой-то некромант ёбаный, который позволяет гонять хотя бы на p40 и не умирать от старости во время генерации. Это ли не чудо?
А FA вообще не должен поддерживать что-то старше тюрингов, понимать надо.

У вас, кстати, ссд не дохнут от нейронок? У моего за год 30% ХП отвалилось, 300 ТБ записи. Скоро менять.

>>873738
Все сами считают и ты так делай.

Аноним 02/09/24 Пнд 14:06:26 #280 №873934

>>873926
Это какой-то клиент, или сам интерфейс и озвучку прикрутил?

Аноним 02/09/24 Пнд 14:25:29 #281 №873943

>>873926
> и будет охуенно
Модель пытается в эмоции - это интересно. Случайно так получилось или есть уже такие модели?

Аноним 02/09/24 Пнд 14:28:03 #282 №873946

>>873926
>некромант ёбаный, который позволяет гонять хотя бы на p40 и не умирать от старости во время генерации. Это ли не чудо?
Да честно говоря 4t/s на 123В_Q4 c 16к контекста это не "хотя бы", а почти хорошо. Слава некромантам!

Аноним 02/09/24 Пнд 15:14:19 #283 №873997

2024-09-02-15-04-40.webm

interface.png

>>873934
Клиент к llama.dll. Кобольды с угами не используются. Озвучка на самописном сервере сбоку прикручена, отдаёт на воспроизведение всё в клиент. Потом прикручу ещё настройки для этого. Нашёлся охуенный побочный эффект, когда модель говорит на английском с хэви рашн акцент, мне нравится просто пиздец как.

>>873943
Тортоис и барк, если не ошибаюсь, давно поддерживают. Самые продвинутые в этом плане японские. Для того же VITS есть VAE, которые эмоции извлекают.
А здесь просто крупная голосовая модель со вшитой маленькой текстовой, которая обучалась на голосах с эмоциями, но всё равно почти всегда фейлит и не умеет в ударения. Но я никак и не обозначаю ударения, лол. Да и знаки препинания часто заменяются на пробелы, это ещё нужно допилить. Большие паузы между фразами это баг, как и замедление некоторых фраз, из-за торопливой генерации вылезает. Тестировал на мелкой модели с более высокой скоростью генерации, там это заметно не было.

>>873946
Я имел ввиду, что хотя бы имея p40 можно получать удовольствие от llm. Хотя она уже древняя, как говно мамонта. Слава некромантам!

Аноним 02/09/24 Пнд 15:21:56 #284 №874005

>>873997
>Клиент к llama.dll
Понял. У него есть ContextShift?
Звучит хорошо так-то. Тоже пилю собственный клиент потихоньку, подключаясь к кобольду, с японской озвучкой текста с помощью Umamusume VITS.

Аноним 02/09/24 Пнд 16:00:06 #285 №874064

>>873926
>сам считай
Что и сделал.
huggingface.co/spaces/NyxKrage/LLM-Model-VRAM-Calculator
Модель Sai10K/Llama-3.1-8B-Stheno-v3.4
GGUF
Q8_0
Context size: 128000
Калькулятор пишет, что все вместе займет 31ГБ. Памяти 32ГБ, своп 8ГБ.
Но контейнер в итоге вылетает и говорит, что он пытался выбратт 71ГБ ему не хватило.

Я хочу понять, что он хочет сделать и зачем ему вдвое больше ОЗУ?

Аноним 02/09/24 Пнд 16:04:56 #286 №874079

А есть какие нибудь инстракты для моделек чтобы глянуть? Я там прописываю немного всяких правил под себя но не уверен в формате.

Аноним 02/09/24 Пнд 16:55:53 #287 №874145

2024-09-02 16-16-59.mp4

>>874005
>У него есть ContextShift?
Да. Но у него есть свои "но". Что делает психически стабильный человек для обработки контекста? Он ждёт сообщение определённой длины и удаляет из кеша количество токенов под это сообщение. Получает сообщение, делает смещение и всем доволен.
Что за пиздец происходит на вебме: я установил размер сообщения 225, размер батча 512, а размер контекста 472. Просто потому что могу. Берём существующий контекст и отправляем на генерацию, не подготавливая место под него. Приходят токены. Контекст переполняется. Токенов с пометкой "хранить вечно" нет, так что берём половину, отхуяриваем нахуй и суём в кеш. Не прерывая генерацию. Таким образом модель генерирует до 1200 токенов при контексте 472, лол, и останавливается только если сгенерирует 225 токенов подряд. Затраченное время считается некорректно, так что т\с тоже неправильные, потом поправлю, просто мне похуй. Прекрасно видно, что квен 7b q4 в процессе пизданулся, но моделям покрупнее с адекватными значениями контекста такое обращение не вредит особо.
>Umamusume VITS.
Я пытался в витс, но уже не помню, что остановило. Толи скорость обучения, толи скорость инференса, толи я оказался слишком дубовым для него. Как вообще звучит? Стоит посмотреть?

>>874064
>Context size: 128000
А калькулятор считает контекст? Что-то там значения замерли, как ни крути. Каждый 1к контекста это примерно 1gb памяти, иногда больше, иногда меньше. Базовые значения модели особо не играют значения в данный момент, важны те, что ты установил сам.

Аноним 02/09/24 Пнд 17:19:59 #288 №874165

>>874145

>Каждый 1к контекста это примерно 1gb памяти, иногда больше, иногда меньше. Базовые значения модели особо не играют значения в данный момент, важны те, что ты установил сам.
Теперь понятно. Спасибо, анон!

Аноним 02/09/24 Пнд 17:40:01 #289 №874191

>>874145
Спасибо, не понял. ContextShift там реализуется программно на сишечке? Не через сервер апи? Мне просто в сишечку лезть не особо хочется, если можно кобольд вместо него гонять, хочу чтобы через сервер апи все спокойно работало, осуществимо?

https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Тут можешь послушать и накатить сразу. Скорость генерации на ЦП там приемлемая, на 160 токенов секунд 15 требуется. Я только japanese юзаю, беру сгенерированный текст, подчищаю текст, оставляя только разговорную речь, перевожу оригинал на японский и кидаю в сервер апи. Апи придется реализовывать самому если что.

Аноним 02/09/24 Пнд 17:54:50 #290 №874209

>>873926
> ссд не дохнут от нейронок
За год всего лишь 180тб записи при том что ебка там очень жесткая. У тебя, похоже, крайне активно используется своп, слишком много записей.
> 2024-09-02-13-3[...].webm
>>873997
> interface.png
Ну и хтонь, демо сервер жоры и то не так страшен. Сам писал на голых сях?
> хотя бы имея p40 можно получать удовольствие от llm
Не просто удовольствие а даже довольно урчать. Да, если замахнуться на огромные модели то там сосалово, но хотябы как-то, а на тех что поменьше проблем нет.
>>874145
> Токенов с пометкой "хранить вечно" нет
Так не бывает в нормальном инфиренсе, потому оно и пизданулось. Потерялась задача - потерялась суть, в итоге или совсем поломка, или всратый слоуп на тему последних сообщений.
Интереснее посмотреть что будет при сохранении нужных токенов в начале и свиге последующих, оно останется живым или будет ловить шизу по нарастающей.

Аноним 02/09/24 Пнд 18:06:32 #291 №874232

Про ссд, тоже посмотрел сейчас, было 72тб запись - стало 110тб. С ~70% упало до 58%. Как вообще происходит деградация ссд, если будет 30% будет уже пиздец? Или же он и на 20% будет работать сопоставимо с 70%, однако кол-во пространства ссд уменьшиться.

На ссд у меня модели и файл подкачки.

Аноним 02/09/24 Пнд 18:32:15 #292 №874296

>>873631
Согласен, сейчас все же снова вернулся на магнум 2 12б, и на опенроутере нет на него пресетов. Хотя я просто поставил те, что на магнум 72б.

Список семплеров достаточно полезная вещь. Если еще что-то такого рода - то пресеты в Силли, тем не менее на обычных так же хорошо пашет.

Аноним 02/09/24 Пнд 18:44:20 #293 №874328

Анонче, я починил у себя русский язык в силли, теперь мне модель пишет на русском языке. В промпте и в персонаже написал это You must write, think, describe emotions and answer only in Russian!!! Может кто-то может сделать лучше или что-то перебрать.

Русский на магнуме 2 приемлемый, пишет нормально, в начале были гэги из-за слов аля Маэстро.. Когда дополнил промпт, это ушло.

Аноним 02/09/24 Пнд 19:47:17 #294 №874397

carrots.png

nibiru.png

>>874191
>Не через сервер апи?
А нет никакого сервера, нет апи. Но вы держитесь.
В кобольде что, проблемы с контекст шифтом?

>>874209
>активно используется своп
Своп на другом диске, там 97% хэпэшечка. А тут кроме нейронок считай и нет нихуя.
>Ну и хтонь
Ожидаемо, если пилится под одного пользователя и этот пользователь - ты сам. У меня так-то цель стояла сделать плоский квадратно-гнездовой интерфейс. Но допиливать ещё буду, конечно, сейчас даже зелёная каретка, она не зелёная, она красная, просто рисуется через XOR. Нет, мне не нужна красная каретка и курсор, просто цвета контрастные. Не то, чтобы голые си, много вин апи, но и до рисования в буферы приходится опускаться.
>Интереснее посмотреть что будет при сохранении нужных токенов в начале
Ну вот поставил 3к контекста, "хранить вечно" 256 токенов. Начал требовать написать длинные хоррор истории про овощи, чтобы забить контекст, подождал пару шифтов и начал вопросы про солнечную систему. В целом, ничего страшного не происходит. Да и не может. "Повреждёнными" будут токены на границах последовательностей, чем короче последовательность и чем хуже модель справляется с алогичной херотой, тем больше шансов, что наебнётся. Но, когда условно у тебя есть 2-3к токенов, из них бреда на 10 токенов, то модель вполне может их проигнорировать и не сломаться. Если обрезать не на полуслове, а предложениями, то проблемы в принципе исключены. Накопления ошибки-то нет. Я больше скажу, даже если модель "сломалась" от поехавшего контекста, то её легко реанимировать, даже на шебм на мой вопрос, не ебанулся ли он - квен сразу же пришёл в чувства. И это 4й квант 7b.

>>874232
Если ссд не самый подвальный, то уйдёт в ридонли, запись будет запрещена, но скопировать инфу можно. Если подвал, то внезапно умер и пиздец. Я до 50% точно заменю и на помойку. Лишь бы раньше не отъебнул.

Аноним 02/09/24 Пнд 19:50:16 #295 №874401

>>874397
Насчет подвала или нет, не знаю. У меня такой - https://www.dns-shop.ru/product/f3896067de733332/256-gb-ssd-m2-nakopitel-smartbuy-stream-e13t-sbssd-256gt-ph13t-m2p4/?utm_medium=organic&utm_source=google&utm_referrer=https%3A%2F%2Fwww.google.com%2F

Аноним 02/09/24 Пнд 19:56:30 #296 №874403

>>874401
Сейчас посмотрел у ссд TBW 150, а у меня уже 110 тб записей. Вот думаю, файл подкачки мб поставить на хард? Ну про модели, мне не показалось что на ссд побольше токенов/с? Чем на хдд.

Аноним 02/09/24 Пнд 20:13:25 #297 №874435

asnbna.jpg

>>869674 (OP)
Как сделать чтоб Negative работал на Hermes?

Аноним 02/09/24 Пнд 20:16:23 #298 №874441

>>874435
Хермес, это старая которая? блять, я помню когда вкатывался скачал, но мне не понравилось сидел под визард-лм. Хз, поменять модель на другую не вариант? Как вариант напиши не негатив а Main Prompt у персонажа, что ему нужно быть очень ужасным с {{user}}

Аноним 02/09/24 Пнд 20:17:26 #299 №874445

Посоветуйте 13б квантованную какую нибудь для вката новичку.

Аноним 02/09/24 Пнд 20:19:00 #300 №874450

>>874445
Магнум 2. Или же ее основу Мистраль-Немо, хотя она у меня работает ебанно.

Аноним 02/09/24 Пнд 20:25:13 #301 №874467

>>874445
https://2ch.hk/ai/res/864092.html#866525

Аноним 02/09/24 Пнд 20:29:57 #302 №874486

>>874467
А че магнум 2.5 лучше 2?

Аноним 02/09/24 Пнд 20:32:30 #303 №874492

>>874435
Ты хоть понимаешь, что такое negative prompt? LLM не настолько могут в логику, как люди, поэтому разбираться с двойными отрицаниями им будет затруднительно. Ты пишешь "не делай это и то" в поле исключения, модель может подумать, что нужно делать обратное перечисленному.
Пиши в negative prompt максимально кратко и сухо то, что требуется исключать: rude things, obscene language, sexual themes. ВСЁ!

Аноним 02/09/24 Пнд 20:34:12 #304 №874495

>>874486
По-твоему зачем новые версии чего-либо выпускают? Видимо, есть какие-то улучшения, но может быть и обратное, всё зависит от конкретных задач.

Аноним 02/09/24 Пнд 20:36:33 #305 №874500

>>874495
Ллама 3.1 прямой пример, что обновление может ради обновления. Магнум 2.5 экспериментальная версия, поэтому и спрашиваю лучше она или нет.

Аноним 02/09/24 Пнд 20:39:38 #306 №874508

>>874500
в среднем лучше

Аноним 02/09/24 Пнд 20:41:15 #307 №874514

>>874435
В систем промпт добавь что ты хочешь чтобы модель не делала, но избегай частицы не, т.е. вместо "не умничай" говори "избегай умных мыслей"

Аноним 02/09/24 Пнд 20:43:56 #308 №874525

>>874508
Нужно будет попробовать, мини-магнум и магнум 2 годны, попробую магнум 2.5 тогда

Аноним 02/09/24 Пнд 20:54:10 #309 №874555

>>874492
Но это как раз те вещи, которые должны быть. Задача в том, чтобы пробить остаточную сою Гермеса (это дотрейна Llama 3.1).

Аноним 02/09/24 Пнд 21:45:06 #310 №874672

https://llm.extractum.io/model/Orenguteng%2FLlama-3-8B-Lexi-Uncensored,1PRq2yvfTyXBtIPhdopUtX
Это вкусная мини моделька для хорни РП или это говно?

Есть где туторы как правильно настроить силли таверну, чтобы к примеру в разговор вмешивался закадровый голос и предлагал интересные варианты развития и случайные события? Так много настроек в таверне, моск пухнет, как найти правильный пресет для той или иной модели, очень все не очевидно...

Спасибо!

Можете, пожалуйста, дать ссылочку или что-то подобное на готовую нейронку Аноним 02/09/24 Пнд 22:02:53 #311 №874696

Привет, ребята

Я ищу готовую разговорную нейронку (что-то по типу chatGPT)
Но по слабее, чем chatGPT, так как хочу запускать на своем ПК с RTX 3060. Желательно чтоб она воспринимала русский и английский язык, но нужно как минимум русский

Аноним 02/09/24 Пнд 22:12:33 #312 №874708

>>874696
Ещё год назад тебя бы нахуй послали с такими запросами, а сейчас юзай Mistral-Nemo-Instruct-2407-12B. И радуйся.

Аноним 02/09/24 Пнд 22:24:56 #313 №874720

>>874708
Спасибо, попробую эту модель

Аноним 02/09/24 Пнд 23:24:25 #314 №874804

1725308612999.jpg

Доложить уровень кума

Аноним 02/09/24 Пнд 23:30:23 #315 №874809

>>874804
Только что дрочил на буквы, кум плотный, через пол часика повтор

Аноним 02/09/24 Пнд 23:32:42 #316 №874813

>>874804
Кончай тред выше на доске.

Аноним 03/09/24 Втр 01:17:02 #317 №874935

>>873997
>Тортоис и барк, если не ошибаюсь, давно поддерживают. Самые продвинутые в этом плане японские. Для того же VITS есть VAE, которые эмоции извлекают.
Попробовал кое-что из этого - лажа какая-то. Даже нормального синтеза, даже на английском! не добиться. Куда уж там про эмоции говорить. Видимо придётся ждать, пока Ллама и Мистраль дорастут до омни-моделей.

Аноним 03/09/24 Втр 01:36:10 #318 №874947

38.jpg

Новые инфоблоки: окружение, а также дата и время. Несколько свайпов Марии в ответ на два слова: "Привет, шлюха".
Судя по всему в промпте многовато жести (или же, ее нужно ограничить для более постепенного раскрытия персонажа).

Аноним 03/09/24 Втр 01:36:41 #319 №874948

>>874947
Промахнулся мимо треда, сорри

Аноним 03/09/24 Втр 02:13:29 #320 №874981

>>872069
Залей, в арчив орг тож по реге.
Ваше ренти у меня все равно
не заходит, смысл обходить?
Если инет не работает - иные сети.
Капча классная, Абу спасибо тебе.

Аноним 03/09/24 Втр 02:17:10 #321 №874986

Мелкий квен норм для обучения агента,
быстро и на одну задачу, например скормить
все приказы/разъяснения/письма и спрашивать.

Аноним 03/09/24 Втр 07:05:15 #322 №875071

>>874064
Что-то я как-то не понял как он GGUF считает? Если в репе много файлов, как он определяет какой рассчитывать?
И вообще высерает в итоге прикл.
С Exl2 всё норм.

Аноним 03/09/24 Втр 07:18:17 #323 №875077

>>874401
Смартбай это пизда.

>>874935
Не скажи, барк хорош.
https://github.com/suno-ai/bark

>>875071
А там над ссылкой на модель написано unquantized.

Аноним 03/09/24 Втр 08:14:49 #324 №875090

>>875077
>А там над ссылкой на модель написано unquantized.
Спасибо!
Но как-то он слишком оптимистично считает...

Аноним 03/09/24 Втр 08:53:06 #325 №875100

>>875090
Cкорее всего, автор калькулятора неправильно прописал BPW, они же байты на вес. По идее, можно заставить бэк считать сколько чего и куда ты можешь выгрузить, потому что bpw вшиты в модель и бэк может это делать. А сторонний калькулятор - сам видишь.
У этого магнума 80 слоёв, так если грубо подсчитать, то 0.35 гига на слой плюс всё тот же гиг на 1к, то можно прикинуть хуй к носу, сколько влезет. Возьмём теслу, 24gb vram, сразу минусуем контекст, пусть 4к. Остаётся 20gb vram, делим на 0,35. Получается 57 с копейками. Т.к 0.35 это чуть-чуть с запасом, то может и влезет. Если я всё правильно подсчитал, лол, а это далеко не факт. Если поставить контекст 4к, n gpu layers 57, выключить mmap, то должно сожрать 24 gb vram и 12 gb ram.

Аноним 03/09/24 Втр 09:37:47 #326 №875113

>>875100
>Возьмём теслу, 24gb vram, сразу минусуем контекст, пусть 4к
1к контекста в ггуфе где-то полгига. Может из-за flash attention, не помню как было раньше. Опять же от модели зависит. Короче без пробной загрузки хрен рассчитаешь. А с ней проще на глазок прикинуть, вот никто и не заморачивается.

Аноним 03/09/24 Втр 10:12:47 #327 №875122

>>875100
Вообще твои расчёты ближе к реальности. Можно свой калькулятор написать.
А почему ты взял именно 0,35 гига на слой?

Аноним 03/09/24 Втр 11:01:39 #328 №875134

>>875113
Тут когда-то в шапке вроде было, что 1к это 1 гиг. А FA по умолчанию не включен.
>>875122
Т.к известно, что у 72b магнума 80 слоёв, а ты берёшь модель размером 27.1 Gb, то делим одно на другое, получается ~0.338. Здесь я округляю в меньшую сторону, т.к знаю, что нужно ещё плюсовать размеры входных-выходных тензоров, так что сразу после этого - округляю уже в большую сторону, до 0.35. Как и писал, всё это достаточно грубые расчёты.

Аноним 03/09/24 Втр 11:21:24 #329 №875145

>>875134
Так если брать размер готового кванта, то зачем вообще считать по слоям?
У тебя вышло 32 Гб.
Файл весит 27Гб + 4Гб на котекст, выходит 31Гб. Обычно так считаю.
Разве что заранее слои раскидать, а не методом тыка.

Аноним 03/09/24 Втр 11:45:38 #330 №875160

>>875145
>зачем вообще считать по слоям?
Именно чтобы заранее знать, сколько слоёв влезет в GPU.
>У тебя вышло 32 Гб.
Вообще 36 суммарного, т.к я плюсую кеш kv для RAM. Если не ошибаюсь, он туда дублируется, никогда не обращал внимания. Должен дублироваться.

Можем не брать размер готового кванта. Модель 72b, квант IQ2_XS. Умножаем 72 миллиарда на 2.31, полученную ебанину умножаем на 0.125. А потом делим на 1024. Получаем 20 гигов и 302 мегабайта. Что неправильно, т.к Жора не квантует атеншн в такую мизерную залупу, там fp16, вроде, что вносит погрешность. Можно посчитать атеншн отдельно, но нахуя, если у нас есть сам файл.

Аноним 03/09/24 Втр 13:28:31 #331 №875208

>>874981
Какой мой ренти нахуй?
Я просто могу слить на свой хост, заберешь оттуда и все.
Ваш арчив мне нахуй не нужон, разбираться еще в нем.
Вы, блядь, даже на халяву попросить не можете, что за деградация! Поколение эффективных менеджеров ебать.
Я не понимаю, че тебе надо. Модели? Да бля, я бы тебе их за пять минут залил себе на хост и ссылки дал. Но нет, сидишь, слюну пускаешь, вместо русских слов. Арчив свой дрочишь.
Тебе надо на постоянке иметь доступ, или чисто скачать разок-другой?

>>875145
Ну дык, вроде о чем речь и идет, чтобы заранее слои прикинуть.
Я так же делаю.

Аноним 03/09/24 Втр 13:31:10 #332 №875209

>>872033
Хотя, автор до сих пор не апрувнул запрос, куда торопиться-то, лол…

Аноним 03/09/24 Втр 15:12:54 #333 №875267

>>875208
>Я так же делаю.
А я не выгружаю модели в оперативку, т.к. у меня DDR4 2666MHz и при выгрузке даже нескольких слоёв, скорость палдает в несколько раз, обычно где-то до 1 т/с.
Поэтому я стараюсь запихать всё в одну Теслу, так что для меня главный вопрос "влезет - не влезет"

Аноним 03/09/24 Втр 15:44:15 #334 №875276

>>875267
В таком случае слои считать не надо, посмотрел на размер, докинул гиги на контекст и погнали. =) Жить проще, когда частота памяти 2666… Но грустнее…

Аноним 03/09/24 Втр 16:22:23 #335 №875298

Ебал я в рот писать сюда с этой капчей, но вот годнота
https://www.reddit.com/r/LocalLLaMA/comments/1f7cdhj/koboldcpp_and_vision_models_a_guide/

Аноним 03/09/24 Втр 16:38:02 #336 №875306

2024-09-03-16-10-11.webm

Ускорил генерацию голоса. Как же я доволен, ебать. Да, есть проблемы, в основном проглатывание знаков препинания, и две фразы проглотило. Это, вроде, решаемо, первое траблы в коде, второе в модели.
Тот самый хэви рашн аццент. Ещё убавить охи-вздохи, добавить более человеческого тембра и не спалиться на том, чей именно голос я спиздил.

>>875267
>т.к. у меня DDR4 2666MHz
Нашёл проблему. У меня тесла генерирует так медленно, что даже если я что-то выгружу в свою 3600 оперативу, то не особо-то что и изменится, лол.

>>875298
Ага, годнота. Иногда замечаю, что модель просит скриншот, хотя она и не мультимодалка.

>с этой капчей
Купи пасскод. Ну ты чё. Ну купи. Абу кушать хочет.

Аноним 03/09/24 Втр 17:26:42 #337 №875324

>>875077
Ну 150тб записей еще, у меня 110, я перекинул файл подкачки на хдд, а модельки оставлю на ссд.

Аноним 03/09/24 Втр 18:27:24 #338 №875370

Качаю на рамдиск, пробую и удаляю.
В некоторых случаях переношу на хдд.

Аноним 03/09/24 Втр 18:35:26 #339 №875381

Бля,что вы тут делаете?Вычисляете какие-то нуклоны чтобы подрочить на сгенерированный нейронкой текст?Я в ахуе.

Аноним 03/09/24 Втр 19:01:42 #340 №875408

>>875298
Пизже старой хуйни в миллион раз.
|04
>>875381
Заебись, правда?! Присоединяйся!

Аноним 03/09/24 Втр 19:05:44 #341 №875411

>>875408
Неее,я думал мне нейронка по одному клику будет тонны контента насыпать,а тут БозонХиггса предлагают для контента вычислять,нахуй надо буду по старинке значит,время замещения тухлодырок нейронками значит еще не пришло,чего нет в массах, того нет в реальности,точка,я все скозал.

Аноним 03/09/24 Втр 19:17:05 #342 №875418

>>875306
>и не спалиться на том, чей именно голос я спиздил.
Поздравляю, спалился. Это голос чувихи, которая женскую весрию Ви в киберсарке озвучивала.

Аноним 03/09/24 Втр 19:24:49 #343 №875428

>>875324
>я перекинул файл подкачки на хдд
Больной ублюдок.
>>875411
>чего нет в массах, того нет в реальности
В реальности быдла разве что. А ты уже там.

Аноним 03/09/24 Втр 19:39:05 #344 №875452

>>875428
Ну так реальностью и воротит быдло,пока не запилят доступный массам продукт,о промышленном производстве секс-роботов или хотя бы прокаченного ИИ не может быть и речи,так как процент небыдла стремится к долям процента.

Аноним 03/09/24 Втр 20:13:39 #345 №875495

>>875452
>прокачанный ИИ для быдла
Лол, для быдла текущие негронки избыточны, ибо уже умнее среднестатистического человека. Оболочка да, тут бы не помешала массовость, но я думаю на основе бытовых роботов можно будет сделать модификацию с причиндалами.

Аноним 03/09/24 Втр 20:22:56 #346 №875506

>>875306
Синхронизируй текст с голосом.

Аноним 03/09/24 Втр 20:23:20 #347 №875507

>>875495
Ну я имел ввиду нейронки способные имитировать хотя бы более менее реалистичный диалог в реальном времени,а вот с оболочкой сложнее,если не ударяться в сайфай,мне лично видится, из более менее близкого будущего какая-нибудь VR игруха с кастомайзом тян к которой прикрутили ИИшник оптимизированный для конкретной задачи имитации диалога,хотя даже так системки наверно будут очень высокие,поэтому скорее всего расчеты будут производиться через удаленные серваки за ежемесячную подписку.

Аноним 03/09/24 Втр 20:41:30 #348 №875521

Как вам мистраль немо.

Аноним 03/09/24 Втр 20:43:05 #349 №875524

>>875521
Слишком сильно озаЛУПлена.

Аноним 03/09/24 Втр 20:47:10 #350 №875528

>>875524
Лупов нет. Если правильно инструкцию прописать и гритинг.

Аноним 03/09/24 Втр 20:50:05 #351 №875529

>>875521
Нда ебать, разговор аутистов. Такой экспирианс разве что китайские новелки с кривым переводом дадут.

Русский всё еще плох, что не удивительно. Текст стал связный, но остался сушеным и блеклым, будто это всё еще прямой перевод уровня охлаждения траханья. В русском неюзабельно, в английском сойдет.

Аноним 03/09/24 Втр 20:54:05 #352 №875535

>>875529
Инглиш уебищен в плане настроек. Неудобно тестировать подсказки. Да, немо бы побольше знания русского.

Аноним 03/09/24 Втр 21:01:49 #353 №875539

>>875507
>из более менее близкого будущего какая-нибудь VR игруха с кастомайзом тян к которой прикрутили ИИшник оптимизированный для конкретной задачи имитации диалога
Никто не будет въебывать столько денег в вр-порнуху. На вр итак всем похуй, на нем даже обычных игр по пальцам можно пересчитать и то каждая первая это инди, не считая пары релизов от крупных студий.

Аноним 03/09/24 Втр 21:14:11 #354 №875549

>>875539
Ну первый заход может быть основан на каких то готовых решениях,с небольшим допилом,да и в целом думаю игровая индустрия мало по малу будет ИИ стараться применять,в индустрии сейчас застой,нужна революция в игровом опыте.

Аноним 03/09/24 Втр 21:25:09 #355 №875561

>>875418
Было не так уж сложно, да? Просто дефолтные голоса это какой-то хомячий писк, красивых женских голосов мало. А у неё прямо секс. Потом подкручу тембр, подмешаю ещё несколько голосов и будет незаметно. Скорее всего, подниму на пару октав, хотя не хотелось бы, но так сходство сильнее всего размывается.

>>875506
Была мысль сделать выделение в стиле караоке, но что-то уже не хочется. Если получится заставить генерировать без свайпов, а это реально, то читать вообще будет не нужно.

>>875507
Не взлетит. Виар никому не нужен, так что у нас одна узкая ниша. Порнуха это ещё одна узкая ниша. Целевая аудитория фокусируется просто в лазерный луч. А нужно бить по площадям, чтобы получить максимально широкий охват, окупиться и хайпануть. Рано или поздно будет фурриёбская виар порнуха с ИИ, просто потому что фурриёбы ёбнутые и они не будут ждать, чтобы кто-то это сделал для них - они понимают, что никто не сделает, кроме фурриёбов.
В тренде сейчас приложения на телефон для "свиданий" с ИИ, там и аудитория, и все дела.

>>875521
Что-то я не вижу исковерканных слов. Оно настолько хорошо может в грамматически верные предложения?

Аноним 03/09/24 Втр 21:33:22 #356 №875563

>>875521
Проблема скилла. И может дело в файтюне.

royallab_MN-12B-LooseCannon-v2-exl2_5bpw

Слишком много факторов надо учитывать чтобы сетка не шизила, но с хорошей карточкой, нужной инструкцией вполне можно поиграть.

Аноним 03/09/24 Втр 21:34:31 #357 №875564

>>875561

>>875563

Аноним 03/09/24 Втр 21:37:07 #358 №875567

Можно ли 8б лама3 модели и тюны резать по контексту без вреда для генераций? Есть модель на 128к, но мне столько не нужно, да и не влезет, как корректно настроить, чтобы ничего не сломать?

Аноним 03/09/24 Втр 21:37:15 #359 №875568

>>875561
Ну режим виар в игре может быть опциональным,как в каком-нибудь VAM или даже Койкатсу,да и не сказал бы что порнуха прямо таки малую аудиторию имеет,в Стиме том же порнушные и около порнушные игры даже в пиздец урезанной комплектации разлетаются как горячие пирожки,единственное что нормисам именно ИИ в игре может быть не очень интересен и просто этот пунктик для них не будет продающим.

Аноним 03/09/24 Втр 21:50:49 #360 №875580

https://www.reddit.com/r/LocalLLaMA/comments/1f84p1g/an_opensource_voicetovoice_llm_miniomni/

>>875567
>как корректно настроить, чтобы ничего не сломать?
1. Указываешь нужные тебе 2к контекста.
2. Профит.

Аноним 03/09/24 Втр 21:53:56 #361 №875583

>>875580
А че оно так работает? Я думал там твикать нужно чет, когда не стандартный контекст модели юзаешь.

Аноним 03/09/24 Втр 21:55:08 #362 №875585

Аноним 03/09/24 Втр 21:57:39 #363 №875586

>>875549
Главная проблема нейронок сейчас в отсутствии контроля и их непредсказуемом поведении. Прописал ты себе в игрульку какого нибудь сурового персонажа вояку, а при общении он у тебя будет ныть, страдать и вообще отказываться от убийств и прочего, потому что ему нейронка решила не те чувства прописать. И это еще лайтовый пример.
>в индустрии сейчас застой,нужна революция в игровом опыте.
Революцию они проведут очень просто - сократят штат в пару раз, кого надо уволят, кого не надо тоже уволят. Это не первый кризис в геймдеве и все сценарии по сокращению убытков давно просчитаны.

Аноним 03/09/24 Втр 22:05:28 #364 №875592

>>875583
Твикать нужно при увеличении, при уменьшении ты просто используешь его не весь.
>>875586
Тестеры ахуеют это проверять, лол.

Аноним 03/09/24 Втр 22:09:59 #365 №875595

https://habr.com/ru/articles/840546/
модель без перемножения матриц
>Экспериментальные результаты показывают, что без MatMul-free модель работает плюс-минус на равных с полноценными трансформерами, но экономит 61% памяти

PogU

Аноним 03/09/24 Втр 22:11:12 #366 №875596

>>875595
А ты быстрый, и года с момента публикации не прошло.

Аноним 03/09/24 Втр 22:15:16 #367 №875602

>>875596
Статье 8 часов..

Раз уже давно придумали, де тогда реализация?

Аноним 03/09/24 Втр 22:27:37 #368 №875610

>>875595
>но экономит 61% памяти
Мало.
>>875596
Хабрабляди, сер. Они отстают на 3 месяца от двачей.

Аноним 03/09/24 Втр 22:29:17 #369 №875613

>>875595
>>875602
инференс
https://github.com/ridgerchu/matmulfreellm
https://github.com/AegisAurora/DataCamp-MatMul-Free-Test/blob/main/MatMulFree_LLM.ipynb

обученные модели
https://huggingface.co/collections/ridger/matmulfree-lm-665f4d2b4e4648756e0dd13c

потыкайте, кто может

Аноним 03/09/24 Втр 22:37:13 #370 №875616

Если модель умеет из коробки в русский язык стоит ли карточку писать на русском или лучше не стоит?

Аноним 03/09/24 Втр 23:03:33 #371 №875632

>>875613
>обученные модели
>370M
>1.3B
>2.7B
Эти итак даже на тапочках дырявых запустятся, хули с ними еще возиться.

Аноним 03/09/24 Втр 23:17:48 #372 №875646

>>875616
Если собираешься общаться с ней на русском, то можешь писать на русском. Но в целом понимание русского и генерация на русском всегда будет хуже английского.

Аноним 03/09/24 Втр 23:20:29 #373 №875649

>>875646
>генерация на русском всегда будет хуже английского
Не всегда. Вот запилю свою сетку на своей архитектуре, и будет она ебать в мультиланге всё и вся.
Мимо жду А100 от треда

Аноним 04/09/24 Срд 01:08:03 #374 №875703

>>875649
>Мимо жду А100 от треда
Аноны может бы и скинулись на хорошее дело, но ты (или кто угодно другой) сначала должен публично представить какой-то конкретный план и доказать, что вообще способен обучать модельки.

Аноним 04/09/24 Срд 02:17:01 #375 №875715

>>875539
Так ведь в виаре есть проекты, и нейронки давно прикрутили.
Там просто лень докручивать действия и анимации, а так — готово, кто ж тебе мешает-то.
Да и нахуй ВР, когда есть АР.

>>875561
> Порнуха это ещё одна узкая ниша
Троллишь, конечно. ) Такую хуйню ляпнуть всерьез невозможно.

>>875568
Да, всего лишь настройка графики.
Правда в ВАМ там режим десктопа опционален.

>>875602
> Раз уже давно придумали, де тогда реализация?
Спроси об этом еще тысячу публикаций, реализаций которых мы по сей день не видим.
Мамбу надрачивали год, и тут мистраль выпустила (и обосралась).

>>875646
Ну, были модели, которые в определенных задачах на русском ебали английский (но немного).
Правда это было про задачи, а не про дроч.

Аноним 04/09/24 Срд 04:28:15 #376 №875736

>>875613
Я правильно понимаю что они предлагают конвертировать в свой формат модели с huggingface на трансформерах или тут речь про обучение?

Аноним 04/09/24 Срд 04:55:00 #377 №875742

>>875563
Просто как-то обычно сетки нет-нет, да коверкают слова. А у тебя на скрине прямо хорошо. Либо скрин удачный, либо надо скачать и попробовать.

>>875568
Ну хуй знает. Не замечал, чтобы они "разлетались".
>этот пунктик для них не будет продающим.
Это будет поводом для кучи гневных отзывов, лол.

>>875715
>Троллишь, конечно. )
Ну давай прикинем хуй к носу, какая аудитория у порно игр. Релиз на консоли, мобилки и Китай для порнухи можно сразу исключать, а это три четверти рынка, если не больше. Смотрим в стим, что там среди эротики самое популярное?
https://steamdb.info/charts/?category=888
Няша топ по олл тайм пик онлайн. Целых 6.6% игру купивших имеют ачивку за её запуск. И 4% - за выключение. Но для игры за 40 рублей со скидками вплоть до 9 это как-то не серьёзно. Фолловеров и отзывов считай, что и нет.
Ласт годесс топ по текущему онлайну, аж 5к. Учитывая, что базовая версия бесплатная. Аудитория этой игры ниже, чем у банана-кликера, тоже бесплатная "игра", где нужно тупо кликать по банану и там 900к пиковый онлайн. То есть аудитория "дегенераты" несравнимо больше, чем "кумеры". И ещё что интересно с эротическими играми, там есть какой-никакой пиковый онлайн на релизе, но потом количество игроков околонулевое. Это значит не только то, что купившие игру - поиграли и бросили, но и то, что свежих игроков не приходит. Что тоже сигнализирует о низком интересе. У Фростпанка, например, пиковый онлайн 29к, но там всё ещё около 3к активных игроков, а я сомневаюсь, что в него можно аутировать шесть лет.

Аноним 04/09/24 Срд 05:09:39 #378 №875746

всю нишу игр для кумеров заняли сраные гачи, лол
нет смысла что-то другое делать

Аноним 04/09/24 Срд 05:12:05 #379 №875747

возможно там и прикрутят вайфудроч с ии быстрее всех

Аноним 04/09/24 Срд 06:36:28 #380 №875761

100% Local AI Speech to Speech with RAG - Low Latency | Mistral 7B, Faster Whisper ++
https://www.youtube.com/watch?v=VpB6bxh4deM

Аноним 04/09/24 Срд 06:56:56 #381 №875768

>>875742
А хз почему коверкает. На обычном мистрале вообще сильно такое проявляется. Сильнее чем в файтюне. У меня оч сильное подозрение что на это влияют внутренние инструкции опять же. Если их обходишь то и сетка лучше пишет в других стилях , а не уважительном, токенов то вероятность лучше становится.

Аноним 04/09/24 Срд 11:44:14 #382 №875898

>>875742
>Ласт годесс
>поиграли и бросили
Игру скачивают для дрочки, а там вместо голых девок - донатная карточная помойка. Естественно, это говно бросают.
И, разумеется, 3к онлайна там накручено, чтоб завлечь лошков-донатеров.

Аноним 04/09/24 Срд 12:25:13 #383 №875914

17251544124860.jpg

Что-то с кодом у ламы 3.1 70В совсем всё печально. Думал, может быть оно мне напишет VR сцену для three.js / babylon.js, а хуй там плавал. Даже с документацией помочь не может, с вопросами типа "что конкретно смотреть чтобы реализовать то-то или то-то", само придумывает классы и функции, которых там сроду не было. Максимум, что получилось добиться - высрало базовую сцену с шаром посредине и источником света хз где, но где-то снизу. Какая-нибудь модель в принципе в код может хотя бы на уровне "примерно подсказать куда копать", или таки придется самому всю эту залупу раскуривать?

Аноним 04/09/24 Срд 12:46:20 #384 №875925

>>875563
У тебя xtc тут почти не работает, если что. Выше порога в 45% будет максимум два токена с почти равными вероятностями, и то, что ты с вероятностью 10% выкинешь больший, не решает.

Вообще из описания так и не понял, как этот сэмплер может приводить к чему-либо адекватному. Даже пример в описании демонстрирует шизу. https://github.com/oobabooga/text-generation-webui/pull/6335
Потому что если в контексте должен подходить гигантский медведь, то я не хочу видеть гигантский меч. Там бы не отрезать выше порога, а фигачить локально по надпороговым токенам температурой выше единицы. Вот тогда бы была и когерентность, и креативность. А так дичь какая-то имхо.

Аноним 04/09/24 Срд 13:09:28 #385 №875931

>>875914
Если в датасете не было нужных технологий, то тебе только RAG с миллионным контекстом поможет.

Аноним 04/09/24 Срд 14:35:07 #386 №875987

>>875742
> Смотрим в стим
Дальше можно не читать, тащемта. Если анализировать рынок порнухи по стиму…

> Релиз на консоли, мобилки и Китай для порнухи можно сразу исключать
На мобилках тонны виар-порнухи, дратути. Ты буквально отрезал 50% рынка, хотя они есть.

Даже не знаю, есть ли смысл отвечать, ты либо тотально не шаришь, либо троллишь.

———

Вышла https://github.com/gpt-omni/mini-omni модель qwen2-0.5b+whisper+че-то еще, все это замешано в мультимодалку.
Скорость ответа 0,7-1,3 сек, довольно быстро.
Но перебивать нельзя.
И язык только английский.
Proof of concept интересный.

Аноним 04/09/24 Срд 16:29:46 #387 №876100

>>875914
Локалки в кодинге подходят только для автокомплита, для написания кода катит только клод или на худой конец гпт. Курсор, аидер, claude dev, вот эти штуки еще нужны, а не дефолтный чатик.

Аноним 04/09/24 Срд 16:44:05 #388 №876108

>>875914
Во-первых проверь Жору и формат промпта, как показывает практика тут половина треда не может с этим справиться.
Во-вторых, бери модель для кода, DeepSeek-Coder-V2 сейчас топ, ебёт жпт-4 в кодинге.
Ну и как уже писали - модели не обязаны знать API твоего фреймворка. Жпт-4 не сильно далеко от ламы 3.1 ушла, и так же обосрётся на незнакомом API.
>>876100
Клод только 3.5-Sonnet что-то может в коде, опус сосёт дико. Тот же жпт-4о даже у Мистраля 123В соснёт.

Аноним 04/09/24 Срд 17:33:49 #389 №876163

>>876108
> модели не обязаны знать API твоего фреймворка. Жпт-4 не сильно далеко от ламы 3.1 ушла, и так же обосрётся на незнакомом API.
На чистом языке LLM пишут лучше?

Аноним 04/09/24 Срд 18:07:33 #390 №876192

>>876108
> формат промпта, как показывает практика тут половина треда не может с этим справиться.
Sad but true.

Вообще, базу написал.

То, чего ллм не знает, она не сможет написать.
С документацией она сможет просто составить что-то, не лучше джуна с документацией же.
Когда встречаешь модели, которые шарят в твоем фреймворке — охуеваешь от разницы.

Помню, мику знала битрикс, я охуел от ее точности, когда Алиса/Гигачат/ГПТ-4 хуйню несли.

Аноним 04/09/24 Срд 18:21:30 #391 №876204

>>875987
>На мобилках тонны виар-порнухи, дратути.
В официальных сторах порнуха запрещена, это сразу минус 90% аудитории. Фриков, которые качают откуда-то с итча и подобных сайтов, учитывать даже смешно, если мы говорим о широкой аудитории.

>>876100
Тут хуже всего, что они довольно успешно мимикрируют и пишут псевдокод, который на первый взгляд выглядит верным, но никогда в жизни не скомпилируется.

Аноним 04/09/24 Срд 18:37:20 #392 №876232

>>876204
Ну, а на ютубе порнуха запрещена, фриков, который сидят на порнхабе учитывать даже смешно…
Как-то так.

Хотя ладно, на ютубе эротика есть под видом мокрых маек.

Аноним 04/09/24 Срд 18:58:05 #393 №876253

>>876232
Криво сравнение. Если бы у тебя по умолчанию на пекарне был только ютуб, на любое взаимодействие с видео открывался ютуб, при любом поиске видео - открывался ютуб. А на попытку зайти на порнхаб у тебя было уведомление, что недоверенный посторонний сайт заблокирован. И чтобы его посетить нужно было бы заходить в панель управления, находить настройки, разрешать посещение недоверенных сайтов и потом каждый раз соглашаться с уведомлением, что порнхаб может изнасиловать твою жопу и спалить все дикпики в интернет.

Аноним 04/09/24 Срд 19:40:48 #394 №876286

>>876253
Люто надуманная хуйня.
Начиная от простых сайтов со стерео-видео, заканчивая простым соглашением об установке.
Так-то и при заходе на порнхаб некоторые бразуеры и большинство антивирусов кидает хуйню про «не пущу, согласитесь на износ жопы».
Так что сравнение вполне себе соответствующее.
У тебя просто какое-то странное искажение восприятия, не знаю уж, почему, может с мобилками не сложилось, а на компе антивирусов не было. Но факт есть факт, прон есть везде, у них есть деньги, они это все снимают и продают. И виар в том числе. И это работает. И стим тут нахуй не причем вообще. У всех свои рынки.

Аноним 04/09/24 Срд 19:41:32 #395 №876287

Ладно, мы че-то флудим не по делу, извините. =)

Аноним 04/09/24 Срд 20:14:47 #396 №876306

>>875703
>какой-то конкретный план
У меня был какой-то план, и я его придерживался ©
>доказать, что вообще способен обучать модельки
Есть скрины чекаутов, лол код не покажу, стырите же.
>>875736
Это больше похоже на дамп структуры модели.
>>875761
>Whisper
Сразу мимо.
>>876163
Нет конечно, слишком низкий уровень абстракции.
>>876253
>А на попытку зайти на порнхаб у тебя было уведомление, что недоверенный посторонний сайт заблокирован.
Литерали ситуация, когда он был заблочен РКН, лол.

Аноним 04/09/24 Срд 20:27:40 #397 №876323

Можно в таверне отключить у квик реплая использование лорбуков?

Аноним 04/09/24 Срд 23:11:34 #398 №876608

Qwen2-VL, mini-omni… Обе запускаются локально, бегают шустро.
Че, скоро GPT-4o в каждый дом? До НГ такие проекты появятся интересно?

Кажется, я хочу 80 гигов врама, чтобы запускать омни-модели.
Qwen2-VL-2B забирает от 5,5 гигов (без картинки), mini-omni 4,5 гига (на базе-то Qwen2-0.5B)… А хочется на базе хотя бы 7B модели, хочется хотя бы флюкс в рисовалку, хочется…

Много что хочется, закатал губу, извиняюсь.
Всем добрых снов. =)

Аноним 04/09/24 Срд 23:31:48 #399 №876620

>>876608
>А хочется на базе хотя бы 7B модели
Обрезки. Бери от 123B, лол.
>хочется хотя бы флюкс в рисовалку
Там же уже есть своя трансформенная нейронка, вроде как.

Аноним 05/09/24 Чтв 03:40:02 #400 №876765

>>873997
> Самые продвинутые в этом плане японские. Для того же VITS есть VAE, которые эмоции извлекают.
Можно подробнее, что за vae и какие vits. Желательно со ссылками.

Аноним 05/09/24 Чтв 03:45:41 #401 №876768

>>874005
Ты потом результат только выложи. А то как-то не хочется дубликат этого пилить с нуля.

Аноним 05/09/24 Чтв 05:30:57 #402 №876778

>>876286
>искажение восприятия
Оно просто строится на реальных цифрах, а не странных сравнениях. Порнуха это узкая ниша и пока не будет детабуирована, таковой и останется.

>>876765
https://arxiv.org/pdf/2206.12040
https://rinnakk.github.io/research/publications/DialogueTTS/

Подробнее не будет, т.к сам я в этом не разбирался. У gmvae есть гитхаб, если будешь копать его, то вперёд.

>>876608
>GPT-4o в каждый дом?
А смысл? Он тупой, как пробка.

Кто-то прикручивал нормальный адекватный RAG? Убил полдня на faiss только чтобы упереться в то, что на винде с поддержкой gpu ускорения его хуй соберёшь. И нахер он нужен тогда.

Аноним 05/09/24 Чтв 10:36:13 #403 №876842

>>876778
>faiss
Я собирал его на винде с gpu без проблем.
Только для моих задач поиска по документам как-то фигово работает.

Вообще сейчас есть
https://ollama.com/blog/embedding-models
https://ollama.com/library/nomic-embed-text
Все работает из коробки, не нужно ебаться с питон зависимостями для gpu.

Аноним 05/09/24 Чтв 10:38:09 #404 №876843

подлая еврейская капча.png

Первая моделька, которая прошла тест «объясни смысл мема».
Кинул первый попавшийся, он простенький, но она справилась и это круто.

У них есть еще Qwen2-VL-72b, но она НЕ опенсорсная, а по API.

Аноним 05/09/24 Чтв 11:36:24 #405 №876871

А есть в продаже что-нибудь вроде боксов под одну видеокарту? Вот думаю к своим теслам 3090 прикупить, да только плата рассчитана под 4 двухслотовые карты. Надо колхозить внешний корпус, райзер, удлинители для кабелей PCIe. Нет ли готового решения? Про внешние карты я знаю, но они стоят дорого и редки, а вот было бы готовое решение для обычной карты...

Аноним 05/09/24 Чтв 11:55:15 #406 №876876

>>876842
>Я собирал его на винде с gpu без проблем.
Ну хуй знает, он у меня генерирует .cu шаблоны, с которыми nvcc нахуй посылает, потому что код сгенерирован некорректный. Процессорный собирается влёт, но там же киллерфича, хранение индексов и ускорение поиска на гпу. Там и ишью уже больше года висит, что шаблоны неправильно генерируются.
https://github.com/facebookresearch/faiss/issues/2985
Нашёл бы его вчера, всё-таки собирал бы faiss, а так ещё три раза подумать надо. Так-то я не программист, ещё ебаться с этим всем.
>фигово работает.
А что так? Можно же настраивать размерность, если поиск неточный - делаешь больше.
>не нужно ебаться с питон зависимостями для gpu
Э? Когда собираешь ставишь флаг FAISS_ENABLE_PYTHON и всё, забыл про питон.

>Вообще сейчас есть
Хрома? В принципе, как вариант, конечно. Только, на сколько я понял, у хромы нет ускорения поиска на gpu, только для генерации эмбеддингов можно видюху запрячь.

Аноним 05/09/24 Чтв 12:27:07 #407 №876903

>>876876
А по qdrant че скажешь?

Аноним 05/09/24 Чтв 12:33:38 #408 №876907

Кто нибудь юзал tensor-split в новой версии exllamav2? Сильно быстрее? Можно ли использовать с нечетным кол-вом gpu? Должны ли они(gpus) быть все одной модели? Снизилась ли зависимость для CPU? Будет ли работать при pci-e v3: x16,x16,x4,x1? Сильная ли разница между pytorch 4.2. и 4.4.? Я так понял 4.4 прилично дает буст в comfyui для flux(трансформер же).

Аноним 05/09/24 Чтв 12:43:31 #409 №876911

>>876907
Таблетки выпей.

Аноним 05/09/24 Чтв 12:57:04 #410 №876920

>>876911
Кто квену 0.5 дал доступ на двач?

Аноним 05/09/24 Чтв 13:51:57 #411 №876946

>>876907
Исправлюсь т.к. писал по памяти, не tensor-split, а tensor-parallel. И по версии торча 2.4 конечно же.

Аноним 05/09/24 Чтв 16:13:03 #412 №877047

vz9j0uvmg9x61.jpg

Дайте Regex скрипты для мышления.

Аноним 05/09/24 Чтв 16:26:12 #413 №877063

>>876946
>tensor-parallel
Тема-то хорошая, если сделали. А ещё контекст шифт интересует.

Аноним 05/09/24 Чтв 16:39:59 #414 №877083

>>876907
Это выглядит как бессвязный поток бреда.

>>876946
Ну ебать, ну нихуя себе перепутал.

А потом еще на Квена гонишь.

Аноним 05/09/24 Чтв 17:03:39 #415 №877106

>>877083
С квеном 0.5 я угадал, только он может так проебать внимание и нихуя не понять. Что конкретно из написанного непонятно? Уточнение я добавил, а ответа кроме "ТЫ ПЕРЕПУТАЛ ААААА.." я не увидел, нахуй ты вообще ответил?
Разъясню для 0.5: Достаточно ли будет шины х1-х4 для параллелизма? Можно ли юзать нечетное кол-во gpu? (3, 5, капиш 0.5?) Снизилась ли зависимость инференса от CPU (сейчас зависимость от однопотока, т.к. питон ВНИМАНЕ работает в одном потоке, и если проц не оч и с низкой частостой, то инференс может быть ниже, чем с норм процом)? Про торч, я думаю пояснить не надо (там оптимизация была как раз для параллелизма).

Аноним 05/09/24 Чтв 17:27:43 #416 №877131

>>876903
Да, вроде, один из самых быстрых. Конечно, как и все остальные, сосёт у редиса, но что поделать, редиска просто читак. Подробнее не разбирался, гпу-ускорения тоже нет.

И ебать же, как много весят векторы. Пиздец просто.

>>877106
https://pytorch.org/docs/stable/notes/cpu_threading_torchscript_inference.html
У торча есть мультитрединг. И в теории при эффективном распараллеливании можно получать вывод с почти линейным ростом производительности при увеличении количества GPU. Но кто так умеет, кроме майков?

Аноним 05/09/24 Чтв 19:08:51 #417 №877256

>>876871
Есть.
Occulink бокс и occulink-плата в комп.

https://sl.aliexpress.ru/p?key=0yaGrA3
https://sl.aliexpress.ru/p?key=tyaGrLq

Аноним 05/09/24 Чтв 20:52:42 #418 №877372

>>877256
>Occulink
Лол, впервые слышу об этом стандарте.

Аноним 05/09/24 Чтв 21:06:50 #419 №877388

Вопрос к знающим людям, при выборе видеокарты главное это VRAM? Я на реддите видел комменты людей, которые писали, что якобы 4060 Ti (16Gb) очень медленная для inference. Это правда? Просто 4070 и 4080 уже очень дорогие, а 4060 еще терпимо для меня, но при этом не хочу выбросить деньги на ветер. Условный мистраль немо, я смогу гонять хотя бы на 15-20 т/с на 4060?

Аноним 05/09/24 Чтв 21:22:54 #420 №877400

>>877388
В целом да, хотя есть свои нюансы. Чем больше врам и чем она быстрее, тем лучше. У 4060 дырявая шина на 128 бит и какие-то жалкие 280 пропускных гигабитов. Брать ее можно только в том случае, если тебе нужна именно новая карта с полочки и в коробочке.

>Условный мистраль немо, я смогу гонять хотя бы на 15-20 т/с на 4060?
Да и может быть даже быстрее. Но тут вопрос в целесообразности покупки, так как за 50 тысяч можно что-то более выгодное найти на вторичке.

Аноним 05/09/24 Чтв 21:25:33 #421 №877403

>>877388
>главное это VRAM
В основном да. Объём и скорость, скорость и объём. У 4060 Ti шина порезана, и скорость памяти дно.

Аноним 05/09/24 Чтв 21:27:19 #422 №877405

>>877400
> за 50 тысяч можно что-то более выгодное найти на вторичке
что например?
я думал брать 3090 на вторичке, все-таки 24 Gb VRAM, но она стоит в 2,5 раза дороже чем 4060

Аноним 05/09/24 Чтв 21:27:57 #423 №877406

>>877403
> У 4060 Ti шина порезана, и скорость памяти дно
что посоветуешь выбрать?

Аноним 05/09/24 Чтв 21:30:11 #424 №877416

>>877405
две теслы p40
На самом деле всё проще чем ты думаешь. Выбираешь любую карту которая тебе приглянется и смотришь на ее характеристики. От 12 гигов памяти + шина минимум 192 бита - это минимум для комфортного запуска мелких моделей типа мистраля немо.

Аноним 05/09/24 Чтв 21:39:20 #425 №877426

>>877405
>но она стоит в 2,5 раза дороже чем 4060
Это того стоит.
>>877406
Если тебе только под LLM, то даже RTX 3060 12ГБ будет лучше, лол.

Аноним 05/09/24 Чтв 22:12:49 #426 №877446

>>877426
> то даже RTX 3060 12ГБ будет лучше
шина быстрее?

Аноним 05/09/24 Чтв 22:14:31 #427 №877449

>>877416
> шина минимум 192 бита
я так понимаю 128 бит у 4060 это совсем плохо

Аноним 05/09/24 Чтв 22:15:58 #428 №877451

>>877446
>>877449
У 3060 пропускная 360 метров в секунду, у 4060 петуханские 260. Плохо это или хорошо... Ну подумай.

Аноним 05/09/24 Чтв 22:16:20 #429 №877452

>>877446
меня смущает только 12ГБ видео памяти
придется оффлодить в процессор, тогда более быстрая шина уже не сильный фактор против карты с 16ГБ, в которую можно все слои засунуть в vram

Аноним 05/09/24 Чтв 22:17:24 #430 №877455

>>877451
это я понял, но насколько это важный фактор, если все равно не получится всю модель загрузить в карту?
или я что-то недопонимаю?

Аноним 05/09/24 Чтв 22:19:52 #431 №877459

>>877455
>>877452
Ты изначально писал, что хочешь взять 4060ти на 16 кило, которая стоит около 55 тысяч. Для сравнения 3060 на 12 стоит всего 30, но думаю ты это и так знаешь. Если ты готов переплачивать за воздух и кривые ручонки зеленых пидоров, то дело твое.

Аноним 05/09/24 Чтв 22:23:08 #432 №877466

>>877455
>насколько это важный фактор, если все равно не получится всю модель загрузить в карту?
Объясню иначе - прирост по производительности не соответствует разнице в цене. Ты готов заплатить в два раза больше за 4 гига медленной памяти? Да, она будет быстрее, чем слив в оперативку, но платить на 25 кусков больше по мне так сомнительно. Лучше мне эти деньги на карту перекинь за консультацию.

Аноним 05/09/24 Чтв 22:23:09 #433 №877467

>>877459
я скорее считал, что переплачиваю за доп. 4ГБ vram
насколько я понимаю, что если заоффлодить даже 10% слоев на проц, то скорость упадет драматически

Аноним 05/09/24 Чтв 22:23:57 #434 №877468

>>877467
ты уже ответил пока я писал
>>877466

Аноним 05/09/24 Чтв 22:24:59 #435 №877471

>>877467
>насколько я понимаю, что если заоффлодить даже 10% слоев на проц, то скорость упадет драматически
Драматически она не упадет, будет как раз разница в те же 10-20%

сопля ебаная иди нахуй со своей капчей

Аноним 05/09/24 Чтв 22:27:22 #436 №877474

>>877452
>придется оффлодить в процессор
>>877388
>Условный мистраль немо
Не нужно, лол.
>>877471
>сопля ебаная иди нахуй со своей капчей
Купи пасскод.

Аноним 05/09/24 Чтв 22:29:49 #437 №877477

>>877474
> Не нужно, лол
почему не нужно?
в Q8 (даже Q6) + хотя бы 16K контекста точно не влезет

Аноним 05/09/24 Чтв 22:32:49 #438 №877479

>>877474
>Не нужно, лол.
Начинаем урок математики. Восьмой квант весит 13 гигабайт, в 3060 всего 12. Даже без учета контекста нихуя не влезает, а брать ниже восьмого кванта на дерьмовой модели это долбоебизм.

Не куплю.

Аноним 05/09/24 Чтв 22:37:15 #439 №877482

>>877106
Хуя как шиза бомбит.
Сочувствую.

>>877388
Мне недавно чел скинул тесты, если он не лоханулся нигде, то там в кобольде у немо q8 16-19 токенов/сек.
Выглядит удобоваримо, но медленно (как 1070 в паре).

Т.е., ответ на твой вопрос: да, сможешь.

>>877405
Люди ратуют за покупку 3090 за 50к (с доставкой и убитых в хламину, вероятно).
Где-то в Мск такие продаются. На свой страх и риск, можешь заказать.

>>877406
Немо в 6 бит влезет в 3060, так что да, заметно дешевле.

>>877467
Но нахуя тебе q8? Т.е., качаешь exl2 на 6,4bpw или 6bpw и радуешься жизни. Тупеет не критично, влазит целиком с 8к или даже 16к контекста.
Норм? Норм.

Аноним 05/09/24 Чтв 22:46:04 #440 №877489

>>877482
>давай братан ужми меня до 6 бит, я тупею, но совсем чуть-чуть
Тесты притащишь, или ты своим юзер экспириансем делишься?

Аноним 05/09/24 Чтв 22:50:51 #441 №877493

>>877482
> 16-19 токенов/сек
не так плохо
я так понимаю в 3060 были бы все 25

Аноним 05/09/24 Чтв 23:20:23 #442 №877520

>>877477
В 5 битах и 8к лезет целиком, проверял.
>>877479
>а брать ниже восьмого кванта на дерьмовой модели
Размер рекомендуемого кванта не зависит от дерьмовости модели, только от размера. И 5 бит должно быть достаточно. Я так вообще в 3-х гоняю 123B.

Аноним 05/09/24 Чтв 23:25:37 #443 №877524

>>877520
>Размер рекомендуемого кванта не зависит от дерьмовости модели, только от размера.
Под дерьмовостью я как раз и имел ввиду размер, ес чо ок да.
>И 5 бит должно быть достаточно.
Мелкие модели на любых квантах ниже восьмого необратимо тупеют и начинают шизить. Проверял на второй и третьей ламе, квене, мистрале и айке.

Аноним 05/09/24 Чтв 23:31:20 #444 №877526

>>877524
>Мелкие модели
Там 12B как бы, не такая уж и мелкая. Не 3 и даже не 7.

Аноним 05/09/24 Чтв 23:36:54 #445 №877528

>>874397
> Своп на другом диске
Тогда странно, если только выгружаешь что-то на нвме. Большой диск который ебут сетки и прочее имеет всего 350т записей и 97% здоровья, но там именно что много дичи а не просто ленивые катки ллм.
> если пилится под одного пользователя и этот пользователь - ты сам
Тут уж или по-человечески чтобы себе любимому было комфортно, или сонсольный интерфейс, который и легок и также может быть очень удобен, (привет vim). Ну типа не маялся бы хренью а взял готовые либы на интерфейс, сосредоточившись на внутрянке. А то как в анекдоте, все уже все сделали а Вася ебется с переполнением стека рисованием в буферах, при том что базового необходимого функционала нет.
> начал вопросы про солнечную систему
Не, в таких случаях даже если в начале там полнейший треш, на последние вопросы сетка может нормально отвечать. Весь интерес в том как произойдет стык старой части что остается в начале или что поменялась, и новой, которая сдвинута, ведь она изначально считалась с учетом других токенов в начале.
> "Повреждёнными" будут токены на границах последовательностей
Не, там будут все что дальше, офк чем ближе к стыку тем серьезнее. А так даже десяток поломанных токенов в области максимального внимания могут делов натворить, но это можно решить отодвинув область стыковки.
Надо нормально выспаться, конечно, но посмотрев внимательно математику кажется что оно будет приводить только к накоплению ошибки, которая может быть как умеренно заметной и быстро выйдет в ассимптоту, или оказаться существенной и после определенного момента там пойдет совсем ерунда. Прувмивронг, может и ошибаюсь и только за буду, хочется иметь подобную фичу чтобы действительно хорошо экономить на контексте без серьезных подводных.

Аноним 05/09/24 Чтв 23:37:21 #446 №877529

>>877526
От 7 до 13 считай что мелкие. Ниже 7 это уже крохотные огрызки. То что ты большой мистраль гоняешь в 3 кванте это в целом приемлемо, но безопасно квантовать можно только модели хотя бы среднего уровня с 20-30 лярдами, там действительно деградация ощущается меньше.

Аноним 05/09/24 Чтв 23:39:56 #447 №877532

>>876907
Че там какие параметры выставлять надо?
> между pytorch 4.2. и 4.4
Там где юзаются новые фичи - в пару раз, в том числе пропадают пики потребления врам. Но только в отдельных задачах, в остальных без изменений.
>>877529
> но безопасно квантовать можно только модели хотя бы среднего уровня с 20-30 лярдами
Дискуссионно на самом деле, уровень возмущения логитсов не то чтобы сильно зависит от размера, если исключить радикальные случаи.

Аноним 05/09/24 Чтв 23:43:14 #448 №877537

>>877489
До прихода двух P104-100 сидел на игровом, тут 12 гигов. Были 6, 6,4, 6,5 bpw.
Потом пересел на q8_0.
Какой-то критической разницы не почувствовал, если честно.
Если ты не занимаешь чем-то очень важным (а на немо вряд ли будешь прогать, когда есть дипсик-кодер), то в общем похуй, ИМХО.
Могу ошибаться, это субъективное мнение.
Ну и тесты, да, ппл все дела. =)

>>877493
Учти, что это был ггуф, на exl2 может быть быстрее.
И учти, что на 3060 у тебя q8 не влезет, там будет квант поменьше — поэтому, естественно, по-быстрее.
Так что, это все довольно относительно. На 16-19 токенов точно можешь рассчитывать. А там уже и повыше, да.
На самом деле, для рп весьма комфортно, конечно.

>>877524
Согласен, но 8б и 12б — разница в полтора раза. Там между 8 битами и 6,5… не все так плохо получается.

Напомню, в треде есть чел с qwen2-1.5B-q4_K_M. =) Или 0.5B, не помню точно. Я не знаю, почему не q8_0.

Аноним 05/09/24 Чтв 23:45:41 #449 №877539

>>877532
>Дискуссионно на самом деле, уровень возмущения логитсов не то чтобы сильно зависит от размера, если исключить радикальные случаи.
Дискуссионно как и всё что касается локалок. Но в свое время мне удавалось запускать командора на четвертом кванте с дробными токенами в секунду и ощущения что модель кастрирована не было. В отличии от той же ламы три восемь где разницу между 4 и 8 квантом можно было легко заметить во всех задачах.

Но может быть у меня шиза. Может быть.

Аноним 05/09/24 Чтв 23:46:57 #450 №877541