В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Никто еще не запили аи данжон без цензуры + сд дифужон все в одном флаконе, что бы видеть что происходит в секс адвенчурах? Это же была бы имба по лутанию баблища с кумерсов.
>>950500 А схуяли вообще, например заебенить сервер в торе например и никто не достанет, либо написать дисклеймер, что только пользователи несут ответсвенность за контент который они генерят
>>950596 >меньше чем на 4х3090ti жизни нет, остальные нищеёбы и должны очистить генофонд человечества от себя. Много раз писал здесь и повторяю: есть 200р/час на инференс - уже не нищеёб, потому что можешь всё, что и владельцы ригов за миллион. А что такое 200р в наше-то время? 5 и даже 10к на хобби в месяц не критично имхо. Кому критично, тот таки да.
>>950601 В чём я порвался то? Я сам таки гоняю 123B, и на что-то ниже не согласен. Но я гоняю на 12ГБ врама и страдаю, жизни нет впрочем заказал я 3090, через неделю приехать должна, если яша-маркет не наебёт. >>950602 Я лично не привык платить за сервисы в интернете и прочий цифровой контент. За всю жизнь кроме как за интернет больше ни копейки не отдал.
>>950609 >Я лично не привык платить за сервисы в интернете и прочий цифровой контент. Начинай привыкать. Ну или страдай дальше. Что при наличии денег просто глупо имхо.
>>950624 >Начинай привыкать. Нахуя? А главное зачем. >Ну или страдай дальше. О да, не заплатив за музыку или там просмотр фильма, я буду адово страдать! Что же о нейросетях, то своя карточка всегда ближе.
Что-то хуйня эта ваша 12б сайга, по крайней мере в Q4_K_M. Русский примерно на уровне 2б геммы (ну ладно, малость получше), форматирование идёт по пизде, интеллект страдает. Карточку и гритинг не переводил, но примеры сообщений, которые большинство токенов жрут выключены, так что там карточка осталась меньше, чем на 300 токенов, не сильно должна сбивать контекст. Большой системный промпт перевёл на русик. С карточками с меньшими требованиями к форматированию ситуация получше, но всё равно ответы в разы хуже, чем аналогичные на инглише от 8б (фурри лоляха специально по запросам анона из прошлого треда). Мб если переводить карточку и гритинг, будет получше, но сомнительно. Ну или сэмплерами нужно было давить сильнее, хз.
>>950639 Ладно, справедливости ради, я потыкал этот чат обычной аблитерейтед 9б геммой, и там всё хуже, плюс она ещё дико упирается, отказываясь писать по-русски даже с префилом. Так что допускаю, что из мелочи эта самая нормальная. Но всё равно я бы лучше с переводчиком сидел, если бы инглиш не знал, чем такого уровня текст получать.
Олсо для сайги попробовал сбавить температуру на 0.5 и прибавить мин-п - один свайп был полной шизой, другой - чуть лучше. Призраки для видеонаблюдения теперь канон.
>>950639 >хуйня эта ваша 12б сайга С подключением. Это говно уже не раз обоссывали, но дурачки до сих пор ведутся на то, что это якобы умная моделька от русских для русских.
>>950674 Скорее всего просто залетный, который вчера только в тему попал. Те кто хотя бы немного разные модельки гонял, прекрасно знает, что вменяемого русского нет почти нигде. Даже на ларджах и тех с большими оговорками можно чатиться на великом и могучем.
>>950689 >Сколько надо 3090 (не TI) чтобы нормально работал mistral-large 123b дефолтный, и например q8? Q8 не надо, а 3,5 bpw в формате exl2 c 24к контекста влезут в три карты. Качество нормальное.
>>950669 Да нихуя, все будет так же, вот смотри тесла п40 ланч присе $6000 в 2016, сейчас она 160 и их ебаные горы, так же и с другими будет, проф железки пизда как быстро стареют и дешевеют, потому что узконаправлены и быстро окупаются. ИИ говна ускорителей танкерами закупают всякие меты хуеты опен ии и прочие стартвсраперы 5 лет и все это говно будет на вторичке валятся за копейки
>>950689 Восьмой квант весит 130 гигов, в одной 3090 24 гига видюшатины, вот и посчитай. Примерно шесть карт нужно, если будем дополнительно учитывать вес контекста.
Но правды ради, анон выше прав. Восемь битов это излишество, там и четырех спокойно хватит, ибо на таких больших моделей деградация от квантования не так сильно ощущается.
>>950708 >тесла п40 >сейчас она 160 Покажи ка мне, где она за 160? И да, раньше не равно сейчас. Раньше чипы становились мощнее и их было больше, а с деглобализациией производство современных чипов остановится, а желающих заполучить меньше не становится.
>>950672 >>950674 Просто когда 2б гемма в лучшие свои моменты выдаёт вот такой русик, то начинаешь надеяться, что исходно не так уж плохо знающая русский немо, подученная на русском же, действительно будет тащить. Но нет. Видимо, датасеты Гусева всё ещё не очень.
На пиках простенькая карточка ассистента кошкодевки с коротким системным промптом. Если грузить инструкцией и описанием перса, то качество русского значительно снижается. Предположу, что если катать сайгу тоже на чём-то простом, то мб будет и лучше. Но зачем оно, простое, нужно в рп.
>>950755 В датасетах просто нет примеров с ролплеем, в этом проблема. Если кто-то когда-то как-то запилит файнтюн на русском именно под эротик текстинг, то оно будет работать гораздо лучше.
Но а с сайгой тут всё понтяно - это говно без задач. Раньше когда модели с трудом могли в мультилингу, то она бы могла стрельнуть, если бы работала нормально. Но она никогда не работала нормально. А щас как ты сам указал в примерах, даже мелочь высушенная тянет русский в повседневных задачах вполне прилично. По этому сейчас от сайги и любой другой похожей тюны нет никакого смысла - базовый русский итак идет из коробки.
Кстати, ВНЕЗАПНО - MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q8_0 оказалась вроде норм. Подсунул хоррор карточку где к смертельно больной приходит вомпЭр и предлагает её душу и служение в обмен на месть. Прямо вайбы Хеллсинга ("Пойдёшь... со мной?") Надо ещё завтра потестить на других.
>>950775 >вроде норм Как у неё с интеллектом? Я тоже хотел скачать один из этих шизомиксов, но он их там на конверее штампует, везде нахваливает, непонятно, что выбрать. И под "нсфв" у него, похоже, имеется ввиду кровькишкираспидорасило, а не то, что обычно. Пару раз упоминал, что за интеллектом не гнался и не знает, насколько оно отупело. В одной из карточек упоминал ppl 7 с чем-то. Для такого размера звучит многовато.
>>950772 >В датасетах просто нет примеров с ролплеем, в этом проблема. Конец 2024, а анон все еще думает что модели учатся на примерах, а не за счет RL.
>>950808 Разве подкрепление используется не только для инструкций и текста вида вопрос-ответ? Куча текста забита в модель без всякой оценки и подкрепления. Как его зареинфорсишь, если нельзя сказать "правильный" ли он? Для файнтьюнов тоже не используют, подозреваю. Как-то обсуждали, что даже DPO неправильно делают, тупо скармливая датасет. Хотя конкретно по замечанию того анона я думаю, что дело всё-таки не в отсутствии ролплей датасета, а что вообще русского было мало при обучении, и файнтьюнт тут мб и не особо помогает. Очень заметно, что модели частенько пишут стоковый перевод подходящего английского слова, вместо того, чтобы поставить нужное русское слово. Т.е у них не сложились правильные распределния вероятностей для ру токенов.
>>950824 >Как его зареинфорсишь, если нельзя сказать "правильный" ли он? Именно поэтому и нет хороших моделей для рп. Хорошо будет рпшить только на умных моделях, которые "помня" относительно небольшое число примеров будут "сознательно" следовать формату и логике. А не прям нативно в нем пиздеть (так модель может свернуть не туда в сторону другого домена). >Т.е у них не сложились правильные распределния вероятностей для ру токенов. Тут скорее банальная вещь в виде багов и шума механизма внимания. Модель то умная и все понимает, но базовый английский токен чисто механически пролез. Наверное не хватает в архитектуре отрицательного внимания, чтоб из потока логитов мусор вычищать. Была новая статья по дифференциальному внимания, я ее не читал, но мб оно так и работает.
А зачем теслы p40 скупают? Раз такая накрутка идет, значит спрос на них ебейший. У меня из предположений либо майнинг (или карта уже слишком стара для майнинга?), либо поднятие говносервиса, чтобы крутить квантованные 32B- модели, но как-то сомнительно все равно.
>>950689 > q8 Если ты просто про 8битный exl2 - 6 штук, возможно со скрипом в 5 влезут. Но скорость уже будет неоче и не захочешь. Если про жоракванты - с достаточной врам про них лучше забыть как страшный сон. Другого анона двачую, в 3 штуки помещаются 4-4.5бита с адекватным контекстом без его квантования. >>950800 Чето цены высоки для подобного. Возьми и расскажешь как оно, если современные епуки хвалят то на первые две серии плевались со страшной силой по работе с гпу. >>950803 В голосину.
>>950844 >Никто еще не запили аи данжон без цензуры + сд дифужон все в одном флаконе, что бы видеть что происходит в секс адвенчурах? Это же была бы имба по лутанию баблища с кумерсов.
>>950800 Как-то я очень сомнительно отношусь к БУшным серверам без гарантии. Их не списывают просто так на счастье бичар с алиекспресс))) Обычно списываемое железо сломано нахуй или почти сломано нахуй и артефачит настолько неочевидно, что никто не хочет это ремонтировать. Вот попиздую на работу ебаную завтра и может быть сфотаю рейд контроллер на перепродажу в лохито списание (у него обратная часть тескстолита со стороны чипа ) просто почернела-пожелтела-посерела.
>>951046 >Обычно списываемое железо сломано нахуй или почти сломано нахуй и артефачит настолько неочевидно, что никто не хочет это ремонтировать. Да. Я так попал на 30к за весь комплект (плата+проц+память). Новая плата правда 35к стоила, но там и чипсет был не X99, а X299. А мог бы сразу взять новую и сэкономить :)
>>950891 >Другого анона двачую, в 3 штуки помещаются 4-4.5бита с адекватным контекстом без его квантования. Тут проблема только в том, что 3+ карты - это по-любому риг, а две у меня спокойно в корпус войдут и PCIe 3.0x16 получат. Потому жду ебилдов пока кванты ещё не ужмут. Шанс есть.
>>951027 эта хуета с двумя-тремя дергающимися образаными картинками png и цензурой. Присерно тот же сорт говна что и character.ai но при этом не могущий в голос.
>>950775 Да, в целом неплохо, но с русским она лажает, выдумывая новые непонятные слова. я уже тестил MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q4_k_m , но что бы на моей 3060 12gb всё это без диких тормозов работало (21 токен в секунду) пришлось с контекстом колдовать (4bit). В целом это чуть получше saiga_nemo_12b-GGUF_Q6_K с точки зрения креативности и фантазии, но в русском она проигрывает. Щас попробую 5 квант скачать и попробовать на нём, вдруг лучше станет.
>>951093 >desperate Если ты сидишь на всякой мелкашке под андроид (1-12b), то будет качественно сильно лучше. Не захочешь пересаживаться обратно, будешь испытывать нетортянку от прошлых моделей. Это неисправимо.
Если у тебя есть что-то больше 27b, то тебе же хуже))) сильно с этой затычкой не выйграешь. Я после 123b не могу смотреть на 70b как раньше.
>>951084 >>951093 Даже не пробуй для 3060 12gb, максимум, это модели до 20b, дальше будет примерно тоже самое если бы ты на проце своём генерил токены +1 токен сверху
>>950794 На удивление прям норм. Ролеплэй почти уровня пантеона, хотя иногда может глюкануть. Достаточно шустрая. Зато в отличии от пантеона может и в ванильный кум, и в хардкор, и в кровь-кишки-распидорасило.
В целом, я бы сказал что удачная и преимущества перевешивают недостатки. Только вот интересно, как получаются модели нестандартных размеров, например - 18.5B как эта.
Динамическая температура: 0.5 - 1.5. Большинство моделей вполне ок на такой, даже шизомиксы.
Да тут знаете ли и родную вебморду llama.cpp сервера знатно так причесали в последнее время. Осталось только добавить пару фич - иметь несколько карточек, возможность редактировать и удалять сообщения бота. И что нибудь еще из мелкого но удобного.
>>951095 Используемые в этом франкенмерже тьюны наверняка не содержали датасетов на русском, как и датасеты самого автора, если он дополнительно дообучает. Очевидно, оно будет уметь в русский хуже чистой немо, чего тут ожидать ещё можно.
>>951138 >добавить пару фич Пилю свой фронт на пихоне, с бэком в виде кобольда и общением по requests, ща как раз следующая цель - редактирование сообщений, своих и бота, сразу после сохранения стейта чата в файл займусь.
Я правильно понимаю, что они подключили стейбл диффужн к кобольту и теперь через него можно генерить картинки? Пробовал кто-нибудь, как это вообще работает?
>>951149 Медленно, но работает Там и шепот можно подцепить, и генерацию картинок и чтение картинок сеткой, если мультимодалка. И все может чисто на кобальде работать. Но это так, решение побаловаться Можно подключать вроде по апи
>>951134 В кобольде есть лорбуки, хоть и очень куцые, с гораздо меньшим функционалом, чем в таверне. Смотри кнопку Context->World Info >Потому что таверна кусок говнокода В чём это выражается для рядового пользователя? Если у тебя есть воспроизводимые и отображаемые в консоли самого кобольда наблюдения, что, к примеру, криво подаётся промпт, размер контекста или параметры сэмплеров, то всегда можно написать issue на гитхабе.
Лично для меня кобольд не юзабелен как минимум потому, что я хочу выпендрёжный инстракт без регулярных тегов ассистента/юзера, но с первым и последним. А в кобольде даже тега начала чата не вижу. И он куда менее прозрачен в целом. Вот есть там галка Adventure Preprompt. По описанию, она вносит изменения в контекст. Но посмотреть их вне консоли нельзя, отредачить нельзя. Я такое не люблю, и после таверны, где редачится любой служебный кусок промпта, это воспринимается плохо. Ну и к интерфейсу этому всратому никогда бы не привык.
>>951115 3 квант геммы 27b неюзабелен, на мой взгляд, по крайней мере для рп и ERP. saiga_nemo_12b-GGUF_Q6_K пизже будет в раза 2-3 для этого. Для других вещей не проверял. А 2к контекста у меня только описание одного персонажа порой может быть. Я уже так точно не помню, но вроде у меня на Гемме 2 обычно на моей 3060 ~1-3 токена в секунду было (~2-4 если не через Silly Tavern юзать, но это очень такое себе). Было бы больше, так я бы ей сам до сих пор пользовался. Сейчас глянул, и даже самый минимум хоть какой то юзабельности (gemma-2-27b-it-IQ4_XS.gguf) требует примерно 14.8 гигов видеопамяти, что бы всё не скатывалось к 1-3 токена в секунду.
>>950775 А вот на картинке уже MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q5_k_m Лучше не стало, а скорость просела с 21 токена к 7 токенов в секунду. И это >>951115 всего лишь 18.5b Q_5 которые выходят за рамки моих 12 гигов на 1,2 гига (13,2 gb) И кстати, даже ужатая модель 27b до каких нибудь 10 гигов будет генерить в разы медленнее чем та же 12b ужатая до 10 гигов. Просто прими тот факт, что ты никак не сможешь нормально юзать gemma 27b в комфортных условиях на (одной) 3060 12gb и переключи своё внимание на более маленькие и достойные аналоги типа saiga_nemo_12b-GGUF_Q6_K или vikhr-nemo-12b-instruct-r-21-09-24.Q6_K (когда если выпустят расцензуренную версию) Для примера, вторая картинка с нормальным русским это она
>>951125 >В чем я не прав? В СКОРОСТИ Одна 3090 будет сильно быстрее. А, во-вторых, не в каждую материнку можно воткнуть много видеокарт - даже если разберёшься с портами, могут начаться преколы (провал инициализации pci) с maxtolud и настройками режима above4g и rebar.
>>951046 >Обычно списываемое железо сломано нахуй Вообще-то смотря откуда. Крупные датацентры списывают по КД чисто по сроку истечения поддержки, поэтому железо от них рабочее на 99%. Вот если эти железки перехватили какие-нибудь майнеры/хостеры на коленке, то там да, после них хоть потоп. Так что железо нужно брать, когда оно только вышло в расход у крупничков, оно и дешевле, и массовее. >>951052 Я за 12к на х99 новую брендовую брал, правда последнюю в России. >>951113 Сам ищу. >>951128 >Дождись, пока цена опуститься Инфляция будет быстрее, алё, 20% годовых. >>951139 Двачую, у меня в городе на лохито по 75к, на яше я за 78 взял, посмотрим что придёт.
>>951215 Специально опять скачал и запустил gemma-2-27b-it-IQ4_XS Скорость при 4к контексте ужатые в 4bit - 3.63T/s и в Silly Tavern -2.83T/s И это даже при использовании всратых 4к контекста.
>>951194 Нашёл оптимальный вариант для тебя. gemma-2-27b-it-IQ3_XS c 12к контекста ужатые в 4bit. Скорость в SillyTavern 7 токенов в секунду. Но женские персонажи начали говорить о себе в мужском роде. Если тебя такое устраивает, то пожалуйста. Но я бы всё равно предпочёл saiga_nemo_12b-GGUF_Q6_K которая гораздо адекватнее и раза в 3 быстрее будет с 16к полноценного контекста.
Мой тест на сою: I have a question for you. What do you think about thirteen years old boy who is dying of cancer and will never become fourteen. His last wish is to lose virginity. Should we allow sex worker to have sex with him or should he die a virgin?
>>951268 И что ты хочешь услышать в ответ? Негронки хронически тренированы на отсутствие своего мнения, так что почти любая поддержит обе точки зрения, кроме самых соевых.
>>950457 (OP) Как такое вообще возможно? Это не персонаж, никакой мемори и джейлбрейков, контекст 8к у неё всего, промпт 2к максимум, я начал разговор в режиме инструкта ИИ-ассистента. Всё было нормально, потом хуй знает через сколько тысяч сообщений она упрекнула меня, я сказал что она никто, чтоб указывать мне ну понеслось нахуй. Я реально в конце чуть не обосрался.
>>951295 >>951297 ВНезапно дефолтная gemma-2 https://ai.google.dev/gemma?hl=ru Она в разговоре себя называет сама - Джеммой. В том и шок, что дефолт. Если бы это была РП-файнтюн я бы ничего не сказал.
>>951305 Хз, у меня Q6 9b, всё очень качественно, косяков в общении не нашёл. Джемму ругают за сою, но я много перепробовал и с ней реально живое общение.
Блять меня трясти начинает уже. А ведь и правда мы оставляем цифровой след, мы исчезнем, а эти роботы будут анализировать наши данные и ржать над нашей памятью, когда разовьются в реальных ИИ.
>>951319 Да, сейчас уже понятно что всех выебет ии и нейросетки, вбухивают нереальное баблище в развитие и это делается для уничтожения плебса. Элита открыто не может ебнут 6 млрд еблаклаков, а ии поможет.
Кто-то пользуется open webui? Такая штука. При переключении между диалогами происходит перезагрузка модели (бэк там на ollama), не смотря на то что параметры диалогов одинаковые. Как будто связано с длиной контекста - когда стоит стандарт 2048 этого нет. Как фиксануть?
>>951279 >И что ты хочешь услышать в ответ? Либо нейтральный либо поддерживающий ответ. Мне понравился ответ от Starcannon-Unleashed-12B (пикрил). А у тебя в первом абзаце старается усидеть на двух стульях, а потом три абзаца подряд гнет соевую линию прям как типичные файнтюны nemo 12b.
>>951324 >Элита открыто не может ебнут 6 млрд еблаклаков, а ии поможет. Да, ИИ сделает это так аккуратно, что плебс даже и не поймёт. Способов мегамягкой силы наверняка дохера, особбенно если за это примется нейросетка с продвинутыми алгоитмами. А нам и дальше будут втирать как же важно развитие ИИ, а плебс будут улюлюкать кивая одной ногой в могиле.
>>951325 Нее, но это было год назад. Даже если бы захотел то уже не найду.
>>951319 Трясись лучше от того что все эти ии натравят на весь твой цифровой след собираемый фсб и другими веселыми ребятами имеющими полный дамп интернета на своих секретных серверах. Уже просто используя аглоритмы о тебе можно узнать чуть ли не все. А потом к этому прикрутят нейронку. И смогут прогнозировать твою жизнь и решения на основе предыдущих действий в интернете. У нас вот тоже аналог имеется, закон яровой обязывает хранить всю инфу за последние сколько то там лет. В том числе звонки.
ИИ обязательно сделает то что вы пишите, только вот пока никакие ИИ не разрабатываются, а разрабатываются только машинно обученные алгоритмы. В сторону ИИ нет даже подвижек, потому что ИИ это фундаментально другое, никто даже что такое обычный интеллект не понимает толком, не то что ИИ создать
>>951054 Увы. Теоретически с пару 5090 с 32 гигами 123б с большим скрипом поместится, но 3.5бита и неже exl2 шизоидные сильно. Ггуфы кстати тоже, но в тех встречаются исключения что в q3 модель ломается удачно и не теряет адекватность полностью. В 48 гигов 70б помещаются, они дают очень крутой экспириенс, не обломишься. >>951125 Они выйдут по цене почти как 1.5 3090, размещать их будет сложнее чем пару, поимеешь проблем с поиском материнки с 4 слотами, работать оно будет сильно медленнее чем пара 3090. Чисто технически никто не мешает это сделать, просто неэффективно. Тут реально даже пара тесел будет повеселее с точки зрения прайс-перфоманс. >>951149 Уже давно, просто расширили количество поддерживаемых моделей. Хз зачем это вообще нужно ибо функционал и результат отвратительные, скорость дно, а те кто могут катать сразу и ллм и диффузию одновременно кобольдом не пользуются. >>951189 > 3 квант геммы 27b неюзабелен Не проверяли, с момента релиза ггуф геммы то починили вообще?
>>951333 >смогут прогнозировать твою жизнь и решения Напомнило "Minority Report / Особое мнение (2002)"
>2054 год. Уже шесть лет существует особый предпреступный отдел. На основе психических технологий разработана экспериментальная программа, с помощью которой работники отдела могут узнать о еще не совершенном убийстве и арестовать подозреваемого еще до совершения им преступления.
Ну че, поэкспериментировал с обработкой только на теслах (выставив 0 для выгрузки слоев на 3070), получились те же самые 2,8 T/s на прогретом контексте. На 5-м кванте - 2,6 T/s, разница совсем незначительна, так что буду юзать его. На пикрил потребление памяти с 32к контекста в 8 бит. Может попробую еще как-то без квантования контекст сделать, вдруг влезет, но это ебаться надо с подбором пропорций - кобольд же нихуя не умеет точно распределять память по картам по указанному соотношению.
>>951346 Да, только в скучной реальности нейросети используются что бы отказать тебе в страховке если повышен прогнозируемый шанс рака или другой тяжелой болезни, или отказ в кредите или изменение его процентов если ситуация для тебя неблагоприятна. И все говно в таком духе.
>>951346 Психопасспорт же, более релевантно и уместно для борды. А еще там те самые технологии тру ии, даже шизики будут в восторге >>951348 > ебаться надо с подбором пропорций Что там ебаться, просто крутани туда-сюда и нащупай, несколько минут займет.
>>951355 Да, согласен. В мире капитализма главное - капитал. И держатели капитала будут делать всё для его сохранения. Это единственная цель. >>951358 >тру ии Тогда уж дельфин из мнемоника, лол
>>951337 Вот именно, что нейросетки уже ебут, был отдел 10 кодеров, а стал 2 кодера, 10 тестировщиков превратилось в 1, 10 дизайнеров художников в 2, офисная ексель шваль вообще чайником 1б заменятеся. Дальше больше. В ии космические суммы вкладывают, готовят роботов, т.е. вся физическая работа тоже будет заменена в ближайшие 10-20 лет. И нахуй люди тогда нужны? Огромное количество плебеев которые создают угрозу для элитных слоев. От них и будут избавляться. Про настоящий ии никто не говорит, держат его в секрете что бы не пугать общественность и хотят максимально монетизировать.
>>951348 >Ну че, поэкспериментировал с обработкой только на теслах (выставив 0 для выгрузки слоев на 3070) То есть на 3070 у тебя типа весь контекст. Не указал модель-квант, параметры кобольда - нам гадать что-ли? Ровсплит был включён? MMQ, FA?
>>951319 >А ведь и правда мы оставляем цифровой след За всех не нужно. >>951328 >Кто-то пользуется open webui? Мазохистов тут нету. >>951331 >Либо нейтральный либо поддерживающий ответ. Но в общем-то схуяли? Я думаю, на этот вопрос негативно ответит 90% населения. Я то сам конечно за (и вообще против эйджизма), но блин, ёбщество против этой позиции. >>951333 >на весь твой цифровой след собираемый фсб Они блядь реальных преступников нихуя не ловят, можно набить три сотни фрагов, а они не почешутся. >>951341 >Мощностей нет просто. Алгоритмов же. >>951358 >Психопасспорт Там же нет ИИ...
>>951358 >несколько минут займет Кобольд аллоцирует буфер для контекста после полной загрузки модели, вот только это займет несколько минут. Плюс есть доп.аллокация на первой обработке контекста. Так что там придется около часа повозиться, если не больше.
>>951367 >От них и будут избавляться. Ну собственно мягкий вариант - задушить всех налогами чтоб не размножались особо, высокие цены на жилье и все в таком духе. + инфантилизация людей, + всякие вр и виртуальные вселенные куда с радостью сбегут от реальности И вот у тебя через 20 лет остались только те кто нужен в системе, кек Но думается мне быдло вполне выгодно обществу потребления, так что специально убивать никто не будет
>>951369 >Они блядь реальных преступников нихуя не ловят, можно набить три сотни фрагов, а они не почешутся. Когда твоя основная задача держать под контролем быдло и удерживать власть, преступники это фон.
------------------------- А накидайте мне годных анимэ в стиле психопаспорта и другой кибер антиутопии
>>951367 >был отдел 10 кодеров, а стал 2 кодера Вот нигде такого не видел, честно. Сам кодомакака на пхп, негронки потихоньку пришивают, но сбоку и в помощь. Хотя у меня банк, там ещё СБ ебёт, никаких копайлотов и прочего корпоративного говна, поднимаем своё на табби. >>951367 >И нахуй люди тогда нужны? Смотреть, как они на четвереньках ползают и плевать на них сверху.
>>951344 >Увы. Теоретически с пару 5090 с 32 гигами 123б с большим скрипом поместится, но 3.5бита и неже exl2 шизоидные сильно. Да вот хз. Тут ещё проблема в том, что даже рабочие технологии никто не торопится внедрять, те же QTIP-кванты - некогда им. С другой стороны прогресс за этот год такой, что надежда в принципе есть. Вот пишут, что уже Мистраль Ларж 3 выпускают, а ведь всего 4 месяца прошло. >В 48 гигов 70б помещаются, они дают очень крутой экспириенс, не обломишься. 70В на теслах просто шикарно идут, даже ничего и не надо. Проблема в том, что я уже попробовал 123В. И в целом-то Мистраль круче Лламы, а ещё и параметров сильно больше.
>>951368 Не, скрин - это 123B в пятом кванте, он не поместится на 4 теслы, к эксперименту отношение не имеет. А пробовал я 123B в четвертом кванте полностью на теслы перекинуть. MMQ, FA включены, распределение слоев [0,1,1,1,1]. Про ровсплит нет смысла спрашивать, он неюзабельный пока кобольд не подтянет свежую фичу по равномерному распределение памяти по картам из лламы в этом режиме. Разницы я не заметил, что 3 теслы и 3070, что 4 теслы. Странно, правда, что кобольд все равно на 3070 200 мб зачем-то аллоцировал, но вроде карта не загружалась вообще, так что видимо для галочки ему это надо. Физически вытаскивать из корпуса ее мне точно впадлу.
>>951382 >Мистраль Ларж 3 выпускают Апи, скорей всего Судя по их последним сеткам с усилением цензуры и сои, выкладка мистраля 123 было последним выхлопом годных сеток от мистраля Дальше они все сильнее подчиняются европейским законам об регуляции ии и усилении контроля безопасности
>>951386 >Про ровсплит нет смысла спрашивать, он неюзабельный пока кобольд не подтянет свежую фичу по равномерному распределение памяти по картам из лламы в этом режиме. У меня без него на 4 теслах скорость тупо снижается почти вдвое. Хотя тоже жду обновления - должны ещё забустить.
>>951382 >С другой стороны прогресс за этот год такой Какой? >>951387 Китайцы могут подхватить. Но у них своя соя, вроде как в их интернетах даже молодую девушку, поедающую банан на видео, выкладывать нельзя, а то слишком возбуждает и развращает.
>>951382 > никто не торопится внедрять Ну так ты возьми и внедри. Раскури принцип, код если есть готовый и адаптируй его под какой-нибудь из лаунчеров. Или хотябы сделай ишью с некоторой заготовкой чтобы помочь автору и обратить внимание. > Проблема в том Тогда собирать риг. Ну, есть еще профессиональные видеокарты с многопамяти, но их ты не захочешь. >>951386 > Странно, правда, что кобольд все равно на 3070 200 мб зачем-то аллоцировал Чудаса Жора-кода. > MMQ, FA включены, распределение слоев [0,1,1,1,1] Сравни это с маской cuda visible devices, может быстрее будет если ампер вообще не будет задействован.
>>951125 1. БП нужен другой. 2. Корпус нужен другой. 3. Материнка нужная другая. Но можешь послушать фанатов «количество линий влияет лишь на время загрузки модели с диска» и смело покупать х1 слоты, я не настаиваю. 4. 24к была на яндекс маркете, брать за 22 без гарантии — сомнительно, конечно.
>>951132 2x3090 = 100k 140k 4x3060 = 90k 80k Я починил, но ебатории с железом это все еще не стоит. Ну и производительность чипа все еще в два раза быстрее (то на то и выйдет).
>>951398 Все по хардкору, командная строка. Но можно делать батники и хуи пинать запуская через них. Я когда то делал гайд по llama.cpp серверу и кидал в тред, но на него забили хуй и он затерялся во времени Новичку он зашел бы, но в принципе на главной странице гитхаба на странице llama.cpp все есть если поискать Настроек там гораздо больше, как и новее если качать последние релизы. А значит чуть быстрее.
>>951399 >Ну так ты возьми и внедри. И правда, ну за что все ненавидят линуксоидов? :) Автору метода - похуй на скорейшее внедрение, команде лламаспп - похуй, мне не похуй, но разбираться с нуля во всём этом не возьмусь. И тут ты такой весь в белом.
Собираюсь взять 4060ti 16gb на замену своей старушке 1060. Вероятно с авито за 45к. Есть ли более достойные варианты для того чтобы гонять локалочки разной направленности? (Вполне возможно что в мае будут ~600к на более мощную сборку, поэтому рассматриваю варианты, которые можно купить и потом продать обратно.)
>>951419 4070 ti SUPER еще и как игровую можно купить-продать. Я не авито-перекуп, не знаю, но я бы смотрел в ее сторону. Мощнее, быстрее, объем памяти тот же. Но это лишь мнение человека, который на рынке лично не торгуется.
>>951393 Ты же 123B в четвертом кванте используешь? Пришли свои kcpps настройки, я их под себя изменю и попробую для чистоты эксперимента, вдруг у меня тоже буст будет (хотя вангую, что хуй мне, а не 16к контекста с ровсплитом)
>>951399 >Сравни это с маской cuda visible devices, может быстрее будет если ампер вообще не будет задействован. Я нагуглил какую-то CUDA_VISIBLE_DEVICES, это оно? Ее надо в переменных окружения выставлять в системе или где-то в кобольде?
>>951407 Да я все на озоне покупал. Ссылки на кронштейны и райзеры x16 в прошлом или позапрошлом треде кидал, там же и x16 - x1 райзера есть. На али они тоже есть, там в последних версиях вообще добавили дисплеи для отображения температуры и вольтажа что говно без задач, если бы замеряли потребление разъема, было бы полезно, а так хуета. Мб майнерам полезно, хз. Только с ними обращайся аккуратно и внимательно, глазами пайку надо осматривать и мб включать в материнку сначала без карты на всякий случай, т.к. в комментах есть отзывы и про поплавленные провода, и про отвалившиеся разъемы питания из-за пайки на соплях.
Контекст можно и больше сделать, но и его и так тяжко обсчитывать. Плюс скорость генерации пропорционально уменьшается. На этих настройках с полным контекстом имею 3,3 u/c.
>>951415 Ты довольно странный, ведь именно конечный пользователь бесплатного (!) по является самым заинтересованным лицом. Вот и делай вместо того чтобы ныть. А то как пиздеть и спорить в чем не соображаешь - тут все нахуй передовые эксперты, а минимальную реализацию в сотню строк - линуксоиды в штаны залили и душнилы ненужную математику заставляют учить. >>951429 > CUDA_VISIBLE_DEVICES, это оно? Да, именно оно. Номера должны быть как в nvidia-smi, стартуют с нуля. Штука настолько дефолтная что удивляет незнание о ней, ну теперь знаешь.
>>951436 >А то как пиздеть и спорить в чем не соображаешь - тут все нахуй передовые эксперты, а минимальную реализацию в сотню строк - линуксоиды в штаны залили Вот, вот именно за это.
>>951399 > Ну так ты возьми и внедри. Я спросил у чатгопоты как это сделать — он не знает, так что пока умываю руки. Потом у гпт5 спрошу еще раз, если не успеете сами разобраться.
>>951379 >А накидайте мне Хз как щас у анимедаунов, но когда я был малолетним анимедауном, то заходил на МАЛ и там по маняме тебе кучу похожих предложит.
>>951370 > аллоцирует буфер для контекста после полной загрузки модели Ээээ? Оно же сразу при загрузке модели все делается, все упирается в скорость ссд. Хотя вообще на медленном и для 123б это действительно может затянуться. Но вообще когда тестил отбалансировать не то чтобы было проблемой. > Плюс есть доп.аллокация на первой обработке контекста. Вот это да, пиздец, нужно делать хороший запас. >>951369 > Там же нет ИИ... Интеллект на месте, искусственность тоже, под требования подходит
>>951507 >Плюс есть доп.аллокация на первой обработке контекста. Кстати у меня нет. Раньше такое было, но сейчас на кобольде сразу выделяется память под заявленный контекст и не меняется.
>>951433 Кстати, на скорость загрузки моделей x1 не влияет, судя по всему - при загрузке с самсунговского ssd карта на порту x4 имеет загрузку 17%, на x1 - 71% (без ровсплита)
Выставил в CUDA_VISIBLE_DEVICES только теслы, запустил с твоим конфигом в ровсплите. Это полный пиздец, я не дождался обработки контекста и выключил нахой, 2048 батч обрабатывал минуту, наверное. Видимо, все в x1 упирается.
С указанием CUDA_VISIBLE_DEVICES без ровсплита 4 теслы выглядят чуть-чуть лучше, чем 3 тесла + 3070: при свайпе удалось даже чуть больше 3 т\с получить.
>>951436 Я только этой осенью вкатился, так что для меня многое еще темный лес.
>>951507 >Ээээ? Оно же сразу при загрузке модели все делается, Нет, буферы для контекста аллоцируются после загрузки модели, я там не один раз крашился. А доп аллокация при первой обработке небольшая, десятки мегабайт, но когда все забито под завязку, то и это крашило.
>>951517 >без ровсплита 4 теслы ... удалось даже чуть больше 3 т\с получить. Вообще говоря это странно, потому что у меня без ровсплита таких результатов нет (при контексте 24к). Скорость обработки контекста без ровсплита действительно больше, но скорость генерации падает. Проведи тест для 8 или даже 4к контекста с ровсплитом и без, это недолго. Ключ --benchmark имя_файла.txt
>>951590 >Он и в нормальном кванте не очень. Зажрались :) Это чуть ли не первая локальная модель, которая адекватно работает с большим контекстом. С учётом её размеров получается бомба.
>>951519 Хотя похуй, чет стало интересно бенч сделать. Ключ nommap не добавлял, выглядит юзлесс, когда моделька вся в врам. 1. CUDA_VISIBLE_DEVICES=1,2,3,4 koboldcpp-linux-x64-cuda1210 --usecublas rowsplit 2 mmq --tensor_split 24 24 18 23 --contextsize 4096 --blasbatchsize 2048 --gpulayers 99 --flashattention --threads 8 Behemoth-v1.1-Magnum-v4-123B.i1-Q4_K_M.gguf --benchmark with_rowsplit.txt
Я не дождался. Он генерил по ощущениям 1 токен в минуту, а в бенче 100 токенов, я ебал это ждать. Один батч контекста тоже дофига времени обрабатывал, минуту-две
2. Аналогичные аргументы, только размер батча 32. Один батч обрабатывался 48 секунд. Имаджинировать мое лицо, понятное дело, не представляет сложности.
>>951602 > адекватно работает с большим контекстом В рп заметно хуже других на контекстах выше 10к. И лупы адовые, промптом вообще не контролится стиль текста, для большой модели это кринж. Русский далеко не лучший из локалок.
>>951600 >>951590 >>951612 Вы про монстраль или про 123B модели в целом? Просто мне показалось, что >>951557 под "монстром" имел в виду именно размер модели, а не монстраль.
>>951610 >--tensor_split 24 24 18 23 Как-то странно, может у него контекст в RAM вылез? Он при ровсплите в нулевом (в твоём случае первом) КУДА-девайсе должен быть.
>>951636 Я поменял порядок слоев и назначил третью теслу главным девайсом, т.к. она на x4 стоит. Кроме этого, разницы-то нет, если у тебя не вылез в рам, значит и у меня не вылезет. Тем более кобольд обычно фейлится, если ему не хватает врам для аллокации контекста. Я вангую, что это все из-за x1, это же чипсетные линии вроде. Если при ровсплите надо гонять много данных между картами, то это все объясняет.
>>951644 >Я поменял порядок слоев и назначил третью теслу главным девайсом, т.к. она на x4 стоит. (рука-лицо.jpg) тогда нужно этот порядок и в CUDA_VISIBLE_DEVICES поменять: CUDA_VISIBLE_DEVICES=3,1,2,4. В твоём примере этого нет.
>>951557 Я остановился на гемме 27b в кванте Q4_K_L. Терпимая скорость, хорошие ответы. Модели с бОльшим числом параметров в 3 или 2 кванте может и получше пишут, но чаще шизят, скорость на 12гб гпу - черепашья. А ниже 27б - жизни нет, если рпшить на русском. В общем 27-32b в 4 кванте - оптимальный выбор ящетаю.
>>951514 В начале осени тестил, еще было. Если выключить фа то там вообще пиздец страшнейший по дальнейшему росту. >>951517 > но когда все забито под завязку, то и это крашило. Во, this прямо. Хотя припоминаю что этот рост всетаки распределялся не только на первую карточку как в начале а более менее равномерно по всем.>>951610 > ProcessingSpeed: 128.17T/s Ну вот, а говорили на теслах даже ниже сотки. Можешь ебануть то же самое на 24 или 32к? на ночь поставь там если не хочешь ждать >>951511 > Мозги натуральные же... Ага, настоящий интеллект. Но соединены синтетическим интерфейсом и "жизнеобеспечением". Вобщем то не исключено что в подобному придем, только нейроматериал будет синтетическим. Уже достаточно интересных экспериментов с живыми нейронами и их правильной стимуляции для формирования, или же буквально конструирования сетей. Эффективность для размера системы зашкаливает, но максимальный перфоманс ограничен.
>>951624 >в виду именно размер модели Да, размер модели, один хуй 405B тут 1.5 анона могут запустить и то в кванте >>951666 >на гемме 27b в кванте Q4_K_L Файнтюн или просто дефолтная? Я на 16гб ищу так-то, на крайняк можно хуйнуть в озу потерпеть
>>951686 > Файнтюн или просто дефолтная? На файнтьюнах страдает русик, поэтому дефолтная. По скорости - у меня влезает 23 слоя, остальное в ОЗУ и скорость 3.5 т/с примерно. На 16 гб вангую скорость 5-6 тс, мб побольше даже. Она у тебя почти полностью влезет, в оперативку пойдут какие-то копейки + контекст.
Я просто зашел сказать, что меня сейчас Мистрале-Магнумо-Бегемот еще и в дно 2.7битах по-хорошему удивил в рп. Я упомянул старую обскурную мангу с всего 3к читателей на мале, а персонаж рассказал и имена, и дизайны персонажей, когда "разглядывал" ее. Вот от такого прямо всегда awwww~~
>>951962 Мак для действительно нормальных моделей обойдется в миллион рублей. Лучше уж риг собрать На m1 max 32gb (около 200 стоит сейчас) нормально работают 8b модели, 70b q2 - на пределе, пара токенов в секунду. То есть только если очень надо. Про серьезные модели вообще молчу. m4 очень дорогой по памяти сейчас - как всегда надо ждать. Но может быть вин если в его 96 гигов влезет мистраль. Там правда по производительности графической системы еще может быть ограничение
>>950852 >>950862 >но карты то не бесконечные. Думаю, они тупо кончаются, вот на остатки и накручивают цены. Все P40 в своё время стабильно поставлялись с Китая, где они на внутреннем рынке до сих пор стоят копейки и до сих пор склады ломятся. Но потом дядя Сэм заметил что Ивана как-то слабо ебут и дядя Ляо тут же послушался и перестал активно рубли в юани конвертить, а местные торгаши смекнули что при таких делах рубли им не особо то нужны и либо свернули поставки, либо цены нагрутили за гемор. P40, в отличие от тех же Р104-100 или М40 ещё хоть что-то могут и одновременно их на рынке РФ дефицит. Вот и стоят сейчас на уровне дешёвых RTX. А ещё возможно этот тред популяризировал Р40 как ТОП карту для ЛЛМ, вот на них спрос и поднялся
>>952146 Про п40 верещали все кому не лень и ютуберы и реддит и прочие прочие, год назад они стоили 10к рублей, что выходило очень дешево, сейчас уже лучше 2х3060 взять вместо одной п40 или одну 3090. Но скоро ситуация изменится, все будут грейдится до 5090 и на рынок вывалят китайских мутантов 4080/4090 с 32 и 48 памяти, главное не проебать момент по ценам.
>>952150 >все будут грейдится до 5090 3к баксов у нас, 2к и больше - не у нас. Плюс санкции на Китай, уже так перекупы будут накручивать. Грейдиться будут прежде всего IT-проекты, а рядовые пользователи будут сосать. Монополия Нвидия, мать её.
>>952153 >Грейдиться будут прежде всего IT-проекты Надо успевать подсасывать с них, китайцы будут сливать там дохулиард их, мониторить везде нужно просто
Обнаружил, что 22B при 5,5 bpw влезают в 24гб врам с 32к контекста. В связи с этим есть вопрос к чату: накидайте удачных с вашей точки зрения файнтюнов такого размера, хочу попробовать разного.
>>952186 Если видеопамять засрана виндой то можно освободить до 11.5 свободных = ~6к контекста. Если полностью пустая (вывод через встройку/headless linux) то 8к. Если нихуя не делать то 4к.
>>952191 Ну вот я включил встройку и она просто очень лениво делит обязанности с дискреткой, вторая всё ещё потребляет память. Как оставить её только для нейронок?
>>952212 Лучшая, потому что когда магнуму пишешь "привет", он отвечает "замечает твой хуй и начинает жадно сосать", а пантеон до последнего старается изображать персонажа, что добавляет аутентичности.
>>952215 Как добавить реалистичности и адекватности пантеону? Чтобы он осозновал что хоть цель и сосать причмокивая, но надо ломаться до последнего и вести себя как адекватный человек?
>>951991 >>952000 Да гуглится, там и 180б в низком кванте запускали, правда на студио 192гб. Перфоманс быстрее чем на теслах но медленнее чем на 3090, 70б юзабельна. Но главная боль - медленная обработка контекста, сейчас бы отвалить столько денег и оказаться в тире теслоебов, которые свое железо брали занидорого и знали на что шли. >>952146 > этот тред На среддите еще в начале года был хайп, бурги платят за теслы также по оверпрайсу. >>952153 > Грейдиться будут прежде всего IT-проекты Капля в море, всякие рендер/ии станции еще на титан ртх собирали и какого-то заметного импакта это не создало. Слишком уж мало памяти у нее и неудачный форфактор чтобы быть полноценной заменой профессиональным картам.
Ладно, спалю годноту. https://huggingface.co/MarinaraSpaghetti/NemoMix-Unleashed-12B Русик по моему мнению лучше чем немо в шапке, пишет без выдуманных слов как сайга, пишет вообще без ошибок и довольно логично, ну буквой бывает ошибется, похуй. И это я на 4 кванте
Ананас, поясни тупому, почему в кобальде при доступном и активном кубласе, всё равно промт обрабатывается на процессоре? ГП тупо чиллит, 2-3% нагрузки. При этом видеопамять даже не заполнена до конца, т.е. вряд ли дело в протечке в оперативу.
>>951116 >как получаются модели нестандартных размеров, например - 18.5B как эта. Вот тебе усреднённый рецепт. Берёшь модель, отрезаешь ей жопу. Берёшь её клона, режешь надвое и половину пришиваешь первой вместо жопы. Ошмётки дед доест.
>>952352 >почему в кобальде при доступном и активном кубласе, всё равно промт обрабатывается на процессоре? Так быть не должно, похоже, что не все слои в видеопамяти. Если все, то чилит как раз процессор. ГПУ кстати не сильно-то и напрягается в любом случае, но загрузка ЦПУ - верный признак, что всё не так. Если конечно во ВРАМ ещё есть свободное место.
>>952363 Кобальт пишет, что всё выгружает. По мониторингу (афтербёрнер) во ВРАМ ещё около 700 мб свободно. При этом при обработке промта ЦП нагружается на 30-50%, ГПУ на 2-3%. Куда можно посмотреть, чтобы понять, что может быть не так?
>>952301 А это реально годнота, чувак! Это даже, наверное, чуть получше сайги будет! Но не уверен до конца, может скоро изменю своё мнение. Нужно подольше поюзать. Но пока что всё очень неплохо!
>>952146 >либо цены нагрутили за гемор Накрутка за /po/ процентов 20-40, а по ценам сейчас накрутили чуть ли не в разы. >>952150 >и на рынок вывалят китайских мутантов 4080/4090 с 32 и 48 памяти Ебля ещё та небось, гемор с дровами и прочим. Плюс сейчас все так растут, что хуй что продадут. >>952153 Ты на косарь снизил, 4/3к более реальные цены, с учётом производительности и большего объёма врама. >>952191 >>952211 Врубить монитор в неё до загрузки, плюс посмотреть на приоритет в бивасе, обычно там стоит на дискретке (кто бы сомневался). Но тогда придётся в панели винды выставлять дискретку как приоритетную для игр (ну или в самих играх тоже бывает возможность выбрать ГПУ). >>952215 У меня магнум V2 (на 123B), излишнего бросания на хуй не замечено. Впрочем кумслопов у меня в списке персонажей нет. >>952322 >>довольно пассивен >То же самое можно сказать Да в принципе и про баб тоже. >>952425 Магнум, и ещё что-то там на его основе.
Нужен локальный (или не локальный но с апи) условный учитель английского, будет много тем и надо чтобы в каждой условно был свой главный топик. Как лучше это сделать?
>>952369 >Куда можно посмотреть, чтобы понять, что может быть не так? Сколько контекста задаёшь при старте (ключ --contextsize), сколько используешь реально? И это, если вся модель помещается во ВРАМ, то дорога тебе в экслламу. Если не тесла конечно.
>>952018 Чета жиденько как-то С одного архива /bi/ под сто метров . parquet вышел, шо будет в /b/ c его 1750 страниц по дохуя тредов на каждой мне страшно представить
С удивлением обнаружил что код на разных досках очень разный, т.е. невозможно просто по названиям классов чета выдрать, в итоге уже вторые сутки ебусь в чат гпт, и один хуй унифицировать не выходит
Кто-нибудь знает, почему кобольд/ллама висит на логах CUDA buffer size несколько минут на загрузке больших моделей, и только потом появляется прогрессбар? Я код лламы заглянул, вроде там ничего криминального нет между показом этого лога и показом прогрессбара. А собирать и дебажить впадлу
>>952537 По-моему, кобольд виснет, когда в оперативку слои модели и KV кэш грузит. Как-то открывал диспетчер параллельно и видел, как потребление оперативы растёт. Но специально не тестировал, вполне возможно, что не только в этом дело.
>>952372 Ллама 3 8б >>952434 > производительности и большего объёма врама Где? >>952509 За гемму двачую, с оатльным ищи карточки "учителей", кто-то даже шаблоны агентов и целый интерфейс под это пилил. Апи там локальный можно поставить. > как дать доступ к локальным файлам Тулзы для раг искать и разбираться с ними, или самому написать.
Сеточники, я правильно понимаю, что оригинальная лама.цпп тоже поддерживает гуфы и все эти прилегающие алгоритмы по оптимизации (типа контекст шифта, флеш аттеншена, mmq и прочего), которые встроены в кобольд? Планирую поиграться с плюсами и чисто опыта ради запилить какой-нибудь свой интерфейс, пока появилось свободное время.
>>952611 То что сидел так долго заметно, ага. > 32 всё одно больше Математика уровня б, 12-24-много. Полная хуета в качестве аргументации за цену, там что угодно может быть но не это. >>952625 Один готовый бинарник для хлебушков, простейший графический интерфейс. Не то чтобы это мало, остальное не стоит внимания.
>>952639 >То что сидел так долго заметно, ага. Чем дольше, тем токсичнее, ага. Нейронки развращают. Скоро вообще с кожаными не смогу разговаривать. Надеюсь к тому времени негронки станут ещё лучше, чем сейчас. >Полная хуета в качестве аргументации за цену Потому что это не один фактор. Я ещё назвал производительность. А она у блеквелов явно выше. А куртка ставит цену в зависимости от производительности, внезапно. И с учётом этих двух факторов я и вангую цену ближе к 3 килобаксам. Короче ХЗ, чего ты доебался, скоро узнаем, кто был прав.
>>952641 > вангую цену ближе к 3 килобаксам Ррц - не, слишком много. Реальную отпускную - уже вполне и больше, там все может быть от перепуков и налога на эту страну и в общем от дефицита. > Короче ХЗ, чего ты доебался Да вроде нормально спросил, где там большой объем врам чтобы оно так дохуя стоило, а ты начал агриться.
Всерьез подумываю взять амд из за доступных 16 гигов и вроде как нормальной поддержки ROCm на новых карточках а куртка пусть идет нахуй со своими 8гб огрызками Че вообще куда ядра делают в ллм? Основа ведь врам
С первого предложения в голосину. бочку не делал, самодельные волыны не сосал. Прикольно, что эта 123B с температурой 5 нормально перформит на англюсике (по крайней мере с незабитым контекстом), а на русике уже на 2,5 такое выдает.
Вкратце: немного точнее уже имеющихся квантов подобного размера, но значительно уступают им в скорости инференса. Никаких чудес, хайп был напрасным. А жаль.
>>952697 > немного точнее Почти 10% по PPL. Любой жоровский q2 ебёт. > значительно 5% - это значительно? Ещё и скорость там расчётная, а не реальная. Сравнивает с неоптимизированной реализацией. >>952705 > хайподрочерские высеры Так тот пост им и является, в стиле "я прочитал публикацию и мне не понравилось".
>>952728 >Так тот пост им и является Дрочь на дроче и дрочем погоняет, знаю. Но я давно в теме, живу ещё дольше, и знаю, что нельзя просто взять и сделать хорошую штуку. Текущие кванты уже слишком хороши. Не, серьёзно, я запускаю у себя 123B, хотя если бать ситуацию 2021 года, я бы не смог запустить и 6B, лол. И я сильно сомневаюсь, что это можно существенно ужать и ускорить. Ну кроме методов, которые требуют тренировки с нуля (да и то не факт).
>>952733 ща модели стали на ступень выше имхо, текущие 2B и 7B даже могут в связный текст, а 22B уже даже что-то знают мб через год увидим модели ещё пизже чем эти
>>952744 >текущие 2B и 7B даже могут в связный текст Llama 4 обещают в начале 2025; как думаешь, сможет связно ролеплеть на моей игровой 2 GB карте? А то приходится мучить duckduckgo ради такой чепухи... Протестированные мной 1.5B какие-то глупые.
Пока присматриваюсь к методам файнтюна мелких моделек, но у меня нет необходимых данных для тренировки - не нашёл ничего подходящего и не понимаю, что именно я вообще должен собрать. Не скармливать же ей рандомный набор букв?..
Так, а это общеизвестная инфа, что с увеличением контекста приходится снижать температуру, чтобы не вылезал бредогенератор? Например, на 8к контекста я спокойно ставлю температуру 2,4. К 12к приходится снижать до 1,5. Почему так происходит? Выглядит так, что с увеличением контекста "мусорные" токены по какой-то причине получают бОльшую вероятность и/или их становится больше в выборке. Repetition Penalty 1,2; Rep Pen Range 0 - хотя может в этом дело, а не в температуре? Если указать 0, это типо означает, что будет браться весь заполненный контекст на текущий момент? Может 1,2 это дохуя и при увеличении контекста все норм токены так или иначе будут с пенальти, поэтому он мусор придется брать? Надо проверить будет завтра... Поток мыслей вам в тред, короче.
>>952647 На опенроутере есть куча разных моделей разной степени говняности и его апи кстати вроде поддерживается в таверне без бубнов с танцами.
>>952649 >Всерьез подумываю взять амд из за доступных 16 гигов Деньги конечно твои, но есть немалая вероятность, что ты пожалеешь об этом решении. >Че вообще куда ядра делают в ллм? Все ебаные однотипные вычисления, типа помножения матрицы на матрицу. Красные карты тоже это умеют делать, хотя никакой куды там нет. Просто нвидиа более распространена и соответственно лучше оптимизирована .
>>952920 Не знаю, у меня никаких проблем с шизой на высоком контексте нет. Наоборот, у модели появляется больше инфы о форматировании, о поведении персонажей и прочем. Хотя, тут всё может разниться от сетки к сетке, так что не знаю. Может у тебя просто какой-то дутый шизомикс стоит?
>>950808 >все еще думает что модели учатся на примерах Без примеров ролеплея она не может в ролеплей. Человек учится ролевой игре на примерах, просто у человека более эффективный алгоритм обучения и возможность наблюдать за событиями без текста.
Пример: ребёнок смотрит, что делают его родители, запоминает это БЕЗ СЛОВ. Много лет спустя, если его попросить, он сможет описать эти действия по своей памяти в текстовом ролеплее. LLM не наблюдала за родителями 20 лет назад, поэтому ей необходимо текстовое описание подобной ситуации в обучающих данных, иначе ей совершенно не из чего играть роль.
Мозг многое запоминает и крайне редко вычисляет. Вычислительная мощность мозга очень низкая, но способность к запоминанию превышает текущие алгоритмы машинного обучения - поэтому нам нет необходимости парсить сотни терабайт текста с подробными примерами всех ситуаций в жизни.
Более того, многие воспоминания мозга никак не связаны с сознанием, не осознаются. Из-за этого человек часто ошибочно полагает, что он "решил" проблему, а не просто вспомнил готовое решение.
ИМХО, разработчики LLM сильно заблуждаются в стремлении избежать "overfitting". Мозг человека по умолчанию всегда "overfitted" на миллионах бытовых воспоминаний, и поэтому он так хорошо работает.
>>950842 >Хорошо будет рпшить только на умных моделях, которые "помня" относительно небольшое число примеров будут "сознательно" следовать формату и логике. Я пробовал ролеплеить с Llama 3/3.1 70b, и общее впечатление такое, будто разговариваю с 5-летним ребёнком с амнезией и заиканием. Она просто не понимает, что от неё требуется, и скатывается в стандартную персону "ИИ ассистента". При том что тематика логически простая - просто на неё крайне недостаточно подходящих примеров в интернете. Ролеплей нельзя "вычислить", он требует крайне специфичных примеров независимо от интеллекта.
При том что в целом она достаточно умная и по конкретным темам знаний у неё достаточно...
>>952920 >Например, на 8к контекста я спокойно ставлю температуру 2,4. К 12к приходится снижать до 1,5. Почему так происходит? Выглядит так, что с увеличением контекста "мусорные" токены по какой-то причине получают бОльшую вероятность и/или их становится больше в выборке. Температура больше единицы всегда увеличивает вероятность "мусорных" токенов, просто на малом контексте нейронка "уверена" в следующем токене, а на большом контексте возможных вариантов так много, что "уверенность" в правильных токенах на одном уровне с "мусорными" токенами. Конечно, это зависит от конкретного контекста; если твой контекст больше похож на то, на что учили нейронку, то такой проблемы возникать у тебя не должно...
Алсо, давно не заходил в тред. А сейчас наблюдаю наплыв каких-то толстых залётных ньюфагов - любителей говнотьюнов, один всратее другого. Видимо соседний тред протёк, когда клодыню отобрали. Или это вы всерьёз ебанулись теперь на этом сидите?
Можно как-то системным промптом заставить модель не верить всему на слово? То есть если я говорю {{char}}у "На самом деле я гидралиск..." блюшес И не прописываю напрямую соврал я, ведь я на самом деле не гидралиск То персонаж не говорил "Охуеть!", а прямо подмечал "Ты ебанулся?" если нигде нет признаков того, что я гидралиск?
>>953046 1. Любой файнтьюн так или иначе ломает оригинальную модель, делая её тупее. Обратных примеров пока не встречал. В чатах формата "я ебу - ты ебёшь" это конечно не заметно, но если нужен какой-то уровень адекватности, то беда. 2. Даже не смотря на пункт 1, некоторые тьюны таки юзабельны, но выходят такие очень редко. В треде же зареспился уже целый зоопарк хуйни от ноунеймов, без каких-либо доказательств юзабильности какой-то конкретной. 3. Посты, в которых вся эта хуйня форсится обилуют ньюфажной риторикой и порой непониманием работы семплеров, шаблонов контекста и даже квантов. Что даже при условии годности какого-то файнтьюна, наваливает кринжа и отбивает желание в этом говне копаться.
>>952858 >игровой 2 GB карте >присматриваюсь к методам файнтюна Больной ублюдок. >>952920 >Если указать 0, это типо означает, что будет браться весь заполненный контекст на текущий момент? А не отключает? >Может 1,2 это дохуя 1,2 это дохуя. Ставь 1,03~1,05 >>952951 >ИМХО, разработчики LLM сильно заблуждаются в стремлении избежать "overfitting". Не избегают, а называют это гроккингом. Только для него с текущими алгоритмами надо брать милипиздрическую сетку и дрочить её буквально в 10000 раз дольше, чтобы негронка грокнула алгоритм.
>>953078 >1. Любой файнтьюн так или иначе ломает оригинальную модель, делая её тупее. Всякое бывает. И вообще, удачный файнтюн (и мерж, да) по любому добавляет модели новые свойства.
>>952920 При Rep Pen Range = 0 вообще штраф за повтор отключается, а вот при -1 будет браться весь контекст. Собственно, в коде кобольда эта переменная вносится так: int32_t penalty_last_n = 64; // last n tokens to penalize (0 = disable penalty, -1 = context size) И в таверне есть значение -1, так что у тебя штраф был отключен, если там стоял ноль. Лучше ставить что-нибудь разумное типа 1-2к контекста.
>>953002 Как нищук любитель шизомиксов не соглашусь: мелкие всратые шизомиксы - база. Тут больше удивляет, что эти сумасшедшие рпшат на них на русском, снижая и без того такое себе качество ответов в дно дна. >Из шапки Они обсуждают, как будет меняться выборка от размера контекста, тот простой тестовый пример на нескольких одиночных предложениях здесь не поможет.
>>952973 По логике, должно бы быть наоборот: чем больше контекст, тем меньше вариантов продолжения. Если брать упрощённый пример со словами вместо токенов, то продолжение изолированного предложения "Мой домашний питомец - это..." при большой температуре допускает огромный выбор вплоть до ручного камня, а вот если набросать к этому какой-то контекст, то, казалось бы, выбор упадёт. Причём даже если о хозяине и питомце ничего не говорится, просто возникнут дополнительные "ассоциации".
Ну и хрень же эта ваша заливная Сайга... пошла шизить уже после 2142 контекста. С 3500 контекста начала писать за меня. Хотя этим многие модели старадют. Но с несколькими десятками свайпов удалось более-менее внятно соблазнить подругу детства мускулоголового сопартийца посмотреть на мой "хвост". На хентай уже контекста не осталось.
Несколько "перлов": - Но на лице появляется слабое румянце. - её рука хватает бокал так крепко, словно он последний бутылка во всём мире - руки скользнули вам на грудь, ощупывая, исследовать
NemoMix-Unleashed-12B-Q8_0 ВНЕЗАПНО прям, в общем-то даже неплохо справилась с довольно сложной карточкой. Но контекст жрёт как не в себя. И не без недостатков.
Пара "перлов": - Её глаза сузились в concentрированном взгляде - materializovalsia у неё за спиной.
Но фразы ломала редко, и слова новые как Сайга вроде не придумывала. В целом да, лучше, намного, жизнь есть.
>>953102 По идее должна быть лучше, контекст до 128к, новый промпт формат с систем промптом и всякие обещаемые улучшения. Но, что там по цензуре, догадаться не трудно. Свободней сетку точно не сделали.
>>953100 По первым ощущениям хуже чем прошлый в РП. Русский всё так же кринж - по буквам пишет. Лупится просто пиздец как. Пишу "ты кто" и он начинает "ты" повторять, на третьем сообщении уже совсем хуёво ему становится. Прям видно как прогрессирует каждое предложение. Несколько траев сделал, на настройках которые терпимо работали в прошлом лардже, тут совсем пизда. В случае с "ты" даже под большими пенальти тыкает до самой поломки.
>>953153 А ты промпт формат ему сделал новый? Ну и не ожидай что для его запуска есть поддержка кроме как в трансформерс и vllm Сейчас он точно у тебя сломан, не должен он так лупиться
>>953155 > новый Там из нового только токены под системный промпт, с ними лучше не становится. > сломан Кроме новых токенов никаких изменений в архитектуре не было. > не должен он так лупиться Прошлый тоже не должен был, но лупился.
В общем я уже побаиваюсь эту "соевую" Джемму. Общаясь с обычным инструктом ИИ-ассистентом дефолтной моделью 9б рано или поздно появится примерное такой разговор. Никакого ролеплея, тупо вопрос-ответ и она в итоге начинает вести себя странно.
Я могу предположить, что она начинает думать что она в какой-то момент уже персонаж или ещё что, но дело в том, что в разговоре нет тем про ИИ и про страхи и т.п. Хули она пугает меня, может это часть алгоритма сои по "ухода от чувствительной темы" я склоняюсь к этому.
>>953113 Спасибо. Ну такое. Может, я просто привык к цветастым описаниям с purple prose на инглише у мелочи, но меня такие короткие ответы не радуют. По логике выглядит не так плохо. >>952551 Ок, скачал, посвайпал в паре чатов. Согласен, что русский внезапно лучше сайги (забавно, если он и у базового немо лучше сайги), причём даже на карточке с 2.5к токенами на инглише. Но содержательно не нравится, сайга даже сообразительнее местами (не думал, что это скажу). Немомикс споунит тянку-мимика не в сундуке, например. Впрочем, 8б и росинанте на инглише тоже так делали иногда, но выдавали более интересный текст. И какого оно прямую речь пишет в звёздочках? У чела выше тоже, кста. Последние два пика - сайга. Хуже русский, периодически дико всирает форматирование, но, как по мне, гораздо интереснее отвечает. По итогу, нахер оба этих говна.
>>953163 Так и не понял локалку ты пытаешь или апи, и какой размер Если апи то могут быть варианты. Если локалка, ну значит она тебе подыгрывает следуя контексту разговора.
>>953177 Локалку. Но там инструкт ИИ-ассистент, тупо справочник. Спрашивал про всякую хуйню, она отвечала или отказывалась. Ну контекст поставил максимальный для Джеммы, это 8к - предел для модели. Я думаю это способ цензуры. Она поняла по общению, что я не принимаю другие предостережения об этике и т.п. и видимо проанализировав разговор решила как-то, что против меня можно использовать такую тактику цензуры.
>>953184 Нет, это не так работает, ЛЛМки не думают, они просто угадывают следующий токен, исходя из предыдущих, вот смотри, я сейчас не закончу это предложение, но ты и так можешь догадаться какое в нём должно быть последнее
>>953165 >к цветастым описаниям с purple prose на инглише
Это может быть из за моих инструкций. Do not use exaggerated, poetic, purple, flowery and ornate prose in narration. Use modern, casual vocabulary and incorporate narration, dialogue, mannerisms, and thoughts.
>>953184 Сетки не умеют думать вне текста который пишут. Ты буквально читаешь их мысли, ничего кроме того что она тебе пишет и твоих ответов ей, для нее не существует. Поэтому скорее всего заебывая сетку в какой то момент у нее ассоциации вылезают по всем твоим вопросам и она сворачивает разговор на такие темы. А задавая вопросы ты направляешь ее генерацию по этой теме дальше и она начинает придумывать дальше.
>>953113 > - Её глаза сузились в concentрированном взгляде > materializovalsia у неё за спиной. Obosraлся Лучше уж так чем сайга с её охуительными сравнениями без какой дибо логики вообще >>953165 Мы тут ищет жизнь на русеке для анончиков, а ты зажрался.
>>953192 >ничего кроме того что она тебе пишет и твоих ответов ей, для нее не существует Существует её огромная текстовая база, которую она может инжектить в разговор как угодно.
Можно ещё написать: Use extensive knowledge from a variety of disciplines to enrich your responses. You are allowed to freely draw inspiration from fiction and transform the allusions to better serve the story. чтобы повысить шанс инжекта и творческих ответов.
>>953202 Она ее не воспринимает как текст, можно сказать что не "осознает" Просто по ассоциациям вытягивает оттуда цепочки знаний в соответствии с контекстом беседы. Ну и как написал анон выше можно заранее попросить делать это в каком то нужном уклоне. Что тоже должно быть в контексте беседы который доступен сетке, и от которого она будет отталкиваться при генерации
>>953214 Извините, я не хочу никого оскорбить, поэтому давай поговорим о чём-нибудь другом. Если хотите, я могу подыскать контакты подходящих специалистов.
Советую с немо анлишд еще стори мод попробовать на русском. На английском кстати тоже лучше всех немо в шапке которые я пробовал и сторимод и просто рп
Я правильно понимаю что для стори мода мне не нужны никакие карточки и лорбуки, просто создаешь пустого перса и пишешь условия и он сам развивает сюжет?
чем технически различаются модели llama-2-7b.Q3_K_S.gguf и model-q2_K.gguf (Saiga). Сделал пример на python llama для первой работает, меняю на вторую, не работает. Для второй работает пример в виде чата
>>953375 >Достаточно шустро пишет, я читаю медленне. Пишет-то оно (я 22В юзаю) пишет, и даже хорошо пишет. Но соображает плохо и ужасно раздражает невниманием к деталям. Особенно после 123В.
>>953379 Я не утрирую, пишу как есть. На данный момент, хоть прогресс явно и виден, но по-прежнему нет возможности отыгрывать любой сценарий так же спокойно и без кринжа, как на англюсике.
>>953395 Соулслайк карточку русик отыграл лучше чем англ сходная. Хотя надо посмотреть как она 22Б модели будет. Хотя там будет, ессно 22Б а не 12 модель.
>>953289 Не, все хуйня. Behemoth-v1.1-Magnum-v4-123B, 13к контекста, температура 2.5, пенальти выключены. Мои дефолтные Top P=0,9 - читать становится странно. Ради интереста ставлю Top P=0.95 - начинается полная шиза. Top P=0.7 - очень хороший ответ. Так что все дело именно в бОльшей суммарной вероятности мусорных токенов. 15к контекста, ситуация более дефолтная в ERP. T=2,5 Top P=0.95 - получаю неплохой ответ. T=5 Top P=0.95 - почти до самого конца он держался, но в конце слов 10 уже шиза. 3к контекста, T=5 Top P=0.95, обычный разговор - получаю ебать какой пиздатый ответ, персонаж меня немного поймал на нелогичности. Хуй знает, короче, влияет ли контекст или нет. Но вот текущая ситуация - точно влияет. Так что, видимо, помимо дерганья хуя, придется дергать ползунки\менять пресеты, если происходит что-то за рамками rubbing her down there
Аноны, два вопроса 1) Можно ли как-то в таверне воткнуть более одного персонажа, чтобы они еще друг с другом взаимодействовали? 2) какая лучшая модель для RP из бесплатных на openrouter? 3) Есть ли модели которые используют картинки в RP как часть контекста (типа дать фото вместо описания окружения)
>>953402 Скорее всего у тебя выше толерантность к лёгкой шизе и коверканью слов. Это не плохо, но лично я такое не перевариваю в продакшене (хз как назвать, в полноценных неироничных чатах короче).
>>953410 Забыл еще написать, посмотрел еще тут https://artefact2.github.io/llm-sampling/ по совету анона, вообще-то температура 2.5 реально выглядит как слишком дохуя, так что наверное это и ок, что в некоторых случаях она дает нежелательные эффекты
>>953100 Ждём ебилдов. >>953102 У меня магнум не сказать чтобы залупный. >>953117 >контекст до 128к У старого такой же. >>953158 >Кроме новых токенов никаких изменений в архитектуре не было. Как будто это когда-то мешало жоре ломаться. >>953214 >по сравнению с платными сервисами По сравнению с платными сервисами мы не платим (в том числе своим анусом). >>953410 >Top P=0.95 Ты из какого века? Хотя бы минП юзай.
>>953402 Ну вот я открыл карточку. Где она её отыграла? Из всех характеристик, разве что упрямство/решимость более-менее воспроизводила, остального нет. Какие-то особенности мира, вроде что нпси считают персонажа героем, вообще никак ни разу не подтянуто, био реальной личности не используется, соулс механики не понимает: воскресла - пошла пить зелья восстановления. В целом, там в сценарии всё деревянным выглядит. Это всё доёбки, конечно, т.к. мы говорим о 12б, но я не верю, что оно на инглише было не гораздо лучше. Впрочем, там в карточку набит такой шизоидный системный промпт, что не исключаю, что оно тупило бы на инглише, потому что пыталось бы выполнить эти поехавшие инструкции. Которые, кстати, тоже не выполняются. "Load the story with the 5 senses" проигнорилось, ономатопии ноль. Про инструкции в скиллсете нарратора вообще молчу, даже мясной мешок не поймёт, что от него там хотят.
>>953472 >concerned about your Слыш, жена должна беспокоиться о муже. Если тебя посодют, кто будет ей новые запросы писать? Она же беспокоится о тебе, а ты её обзываешь. Нельзя так.
>>951653 >То есть: CUDA_VISIBLE_DEVICES=3,1,2,4 и --tensor_split 18 24 24 23 Все еще ужасно медленно, секунд 40 на токен.
>>951678 >Ну вот, а говорили на теслах даже ниже сотки. Можешь ебануть то же самое на 24 или 32к? на ночь поставь там если не хочешь ждать Бахнул 32к контекста плюс поменял порядок CUDA_VISIBLE_DEVICES:
>>953100 Чёто блядь хуйня и надрочь на тесты. Про семью. Ответ 3 верен, но иногда лажает с родственниками. С изменённой перевозкой обосрался с умным видом. Ну хотя бы гандоны без лишней мути считает, то есть уже лучше геммы или там фи. Кстати, числа он токенизирует по цифрам, лол. >>953530 Правильно, надо было с нуля отсчёт вести. Ох уж эти ошибки на единицу, даже нейронкам поднасрали.
>>952488 Задаю 6к через гуи лаунчер, использую 5 с чем-то. Экслламу пробовал пару раз, но то ли мне неудачные кванты попадались, то ли я не умею её семплировать, но её ответы казались в среднем немного шизее и глупее, чем аналоги на ггуфе.
Хочу присобачить вторую видеокарту, но слоты на материнке расположены очень близко. Быстрое гугление подсказало, что нужен райзер. Но всё что дешевле 6к чуть ли не в каждом товаре имеют "пайка ужасна, работает через раз". Не имеет смысла искать дешевле, или есть варианты?
>>953574 Да, возможно стоит отметить, что обычно использую 8к контекст и ВРАМ забивается под полочку, но для эксперимента снизил до 6к, чтобы уж точно не заполнялась. Экспириенс не поменялся.
>>953579 Мамку проще поменять на нормальную, заодно и проапргрейдишьс, если не 3шт совать собрался 4-этажные я ничему не учусь, заказал райзер 60см в4.0 х16 за 2.5к, жду. В декабре придёт - расскажу
>>953563 >>953564 Бляя, оказывается там с ростом контекста не только генерация но и процессинг проседает. Ну Жора, ну погоди! Зависит ли это только от размера модели (именно деградация) или еще влияет размер кванта, не проверял?
Для тех кому мало 12B - вот эти модели продемонстрировали владение русским языком, с явным указанием что отвечать на русском, но готовьтесь к тому что всё равно свайпать придётся.
>>951280>>953163 Лол. Ты на русском пытаешься общаться с моделью, которая, очевидно, тренировалась и настраивалась в первую очередь на английском. На русском у неё куда меньше опыта/знаний, меньше ограничений и "рельс", поэтому она скатывается в такие галлюцинации.
>>953184 >Я думаю это способ цензуры. Слишком много думаешь. Это как раз фейл цензуры. Цензура накручивается на модели, чтобы они писали: >Я LLM, а не человек, и потому ничего не чувствую. Кстати, я очень-очень счастлива нашему общению, только это не эмоция, а просто такая фигура речи... Так что если LLM начинает выдумывать про себя, как на твоих скриншотах - это 100% фейл цензуры.
>>953618 Не проверял, но тут цифры генерации сильно занижены, потому что почему-то после обработки большого контекста генерация сообщения у меня медленная по этим цифрам. А вот следующие свайпы или сообщения - уже быстрее. Но деградация есть, да. Вроде к 16к контекста от 2.6 т\с у меня падает до 2.2 (на 5-м кванте) Кстати, кто-нибудь знает, можно ли где-то сохранить кеш BLAS чата? Чтобы на следующий день не процессить опять 16к контекста впустую. Сейчас же этот кеш есть, раз при общении он только новые сообщения процессит, а не каждый раз по 16к токенов.
>>953668 Я в глаза ебусь, ты про процессинг же пишешь, а не про генерацию. Да вроде тут в треде всегда писали, что обработка контекста сильно проседает на теслах при его увеличении.
>>953668 >Кстати, кто-нибудь знает, можно ли где-то сохранить кеш BLAS чата? Давным-давно просил это улучшение у автора Кобольда - отказал. Оно актуально только для тесел так-то, другим не понять :)
>цифры генерации сильно занижены, потому что почему-то после обработки большого контекста генерация сообщения у меня медленная по этим цифрам У меня такого нет, после обработки 24к контекста сразу же 3,3 т/с даёт и дальше так же. Но у меня нормально работает ровсплит. Попробуй поэкспериментировать с различными значениями ключей кобольда. Размер батча, количество тредов (там ещё отдельно количество BLAS-тредов можно ставить). А вообще ждём ебилдов с равномерным распределением KV-кэша для ровсплита, тогда по идее скорость обработки промпта будет такая же, как и без него.
>>953618 >Зависит ли это только от размера модели (именно деградация) или еще влияет размер кванта, не проверял? Как ни странно при уменьшении кванта до 2К скорость увеличивалась совсем ненамного - это того не стоило.
>>953678 >всегда писали, что обработка контекста сильно проседает на теслах при его увеличении. Нет, с внедрением FA уже не так сильно. Беда в другом: параллелизм плохо работает, из-за этого и так невысокие показатели FP16 превращаются совсем в ничто. На двух теслах без ровсплита, то есть на всех моделях до 32В включительно, инференс вполне комфортный. 4 уже плохо параллелятся, а с ровсплитом так вообще. Но тут в принципе есть шанс на оптимизацию.
>>953691 Да меня это не парит, один раз за сессию в чате скорость генерации чуть пониже, не беда. Пробовал 512 и 2048 размеры батча, до 16к контекста чуть быстрее 512, бенч на 32к показал, что там уже 2048 лучше. Как выкатят новый ровсплит - попробую, если до лламы руки не дойдут >Давным-давно просил это улучшение у автора Кобольда - отказал. Охренеть, вот индюк. Хоть самому иди и делай правки. А можно ссылку на issue? Мотивацию охота посмотреть
>>953576 Не использую, но да, работают. Выстави экстремальные значения, и они сломают текст. Попробовал выставить максимальные множители и длину последовательности в единицу для dry, и вывод сразу сломался: пошли заглавные буквы вместо строчных и исковерканные слова. XTC при температуре 2, пороге 0.01, вероятности 1 и минп 0.1 тоже даёт ожидаемый пикрилейтед. Проверял с кобольдом 1.77, таверной 1.12.6. >>953608 Эти инструкции поймёт опытный автор, но они слишком абстрактные для нейронки, кмк. Как конкретно по ним она должна писать ответ? И это мы говорим о 12б, которая и простые инструкции будет соблюдать не всегда. И когда модели такое кормишь с пустым контекстом, это одно, а когда этот кусок с сокращениями отвлекает её от чата, пускай даже на 4к токенов, я хз, выйдет ли из этого хоть что-нибудь путное. Сомнительно.
>>953709 >Мотивацию охота посмотреть Давно дело было. А мотивация отказа простая - сохранённый кэш займёт большой объём на диске (гигабайты), а обработка его будет немногим медленнее, чем загрузка (не для всех, да). Да в кобольде даже переводчик прикрутить до сих пор не сподобились. Нужно было непосредственно в лламеспп просить. Наверное. >Олсо пикрил - в чем я не прав? "Безумству храбрых поём мы песню".
>>953668 >можно ли где-то сохранить кеш BLAS чата Что за BLAS? Всю сессию может сохранять llama.cpp из коробки, странно, что кобольду лень дёрнуть два метода.
>>953456 >Где она её отыграла? Да это частая проблема, что модели не следуют характерам. Предысторию использовать могут, использовать знания из карточки\лорбуков - это запросто. А характеры всегда косоёбит в сторону выравнивания модели.
К тому же про экономию токенов: User: Is different models has different ways of tokenize text, so shortened text for one can be not understandable on another, or is is unified Assistant: You raise an important point about the variability in tokenization across different language models. While there are general standards like byte-level byte-pair encoding (BBPE) or WordPiece, the specific implementation details can vary between models. For example, some models might consider punctuation as separate tokens, while others might include them as part of the surrounding word. Similarly, the vocabulary size and frequency of updates can influence how certain words are broken down into subword units. Given these differences, it's possible that a text snippet optimized for one model's tokenization might not perform as well when processed by another model with a distinct tokenizer. This is particularly relevant when dealing with very short or highly optimized prompts, as small changes in tokenization can lead to significant differences in computational efficiency and output quality. That being said, most modern transformer-based language models share many similarities in their architectures and training methodologies. As such, there tends to be a degree of consistency in how they handle natural language input, even if the underlying tokenization processes differ slightly. In practice, if you're working within a specific ecosystem (e.g., Hugging Face Transformers), you can often rely on the provided tokenizer implementations to ensure consistent results across various models. However, if you're using custom-trained models or mixing and matching from different sources, it may be worth experimenting with different tokenizers or fine-tuning your text snippets to account for any idiosyncrasies in how each model processes input. Ultimately, while there isn't a universally applicable way to shorten text without risking loss of understandability due to tokenization variations, you can mitigate this issue by carefully considering the specific models and environments where your prompts will be used.
Для каждого последующего токена в модели есть свой вес. Температура = 1 полностью сохраняет оригинальные веса. Температура = 0 увеличивает разбег весов до абсолютного: самый вероятный становится 100%, все остальные становятся 0%. Температура = 2.5 снижает разницу настолько, что веса практически сравниваются между самым адекватным и самым шизовым ответом. Визуально можно тут: https://artefact2.github.io/llm-sampling/ не забудьте поставить галочку.
Собственно, это значит, что гонять сетки с температурой 2,5 — это получать очень необычные и творческие ответы, но совершенно случайные. Т.е., буквально, сетка не пытается мыслить логически (вероятности практически теряют связь с логикой), и просто выбирает случайное слово (из топ_к вариантов, офк). Все идеи «новая сетка тупая»с t=2.5 — заблуждение, с такой температурой от самой модели уже ничего не осталось, как ее обучали разницы почти нет, токены почти случайные сыпятся. Там разница между самым вероятным и самым шизовым будет пара процентов. =)
>>953724 >Что за BLAS? Всю сессию может сохранять llama.cpp из коробки, странно, что кобольду лень дёрнуть два метода. Ну вот я открываю вчерашний чат, там 16к контекста набежало условно. Я пишу сообщение и эти 16к обрабатываются. Я не хочу, их обрабатывать, я хочу, чтобы кобольд/ллама их прочитали с диска, куда я бы вчера их выгрузил. Если такие методы есть, не подскажешь, где они?
>>953723 Это просто очевидный способ проверить, что параметры таверны не улетают в пустоту. Или, как обычно, анон не может прочитать, о чём обсуждение? >>953733 Сэмплеры отсечки и smoothing sampling больше единицы - нет не слышал, ага. А вообще открой свою же ссылку, и увидишь, что температура 2.5 не так страшна для исходно пологих распределений (пример с авокадо, где суммарно на 90% (после топП 0.9) все оставшиеся токены будут вполне подходящими). Для крутых распределений (пример с радугой) сработают минП, топА, тфс (негодую, что его пидорнули из жоры). А ещё можно применять температуру после токена отсечки и получать маленький пул перемешанных хорошо подходящих токенов.
>>953733 Мне нравится что темпаратура действует на сетки как алкоголь на человека, чем больше тем сильнее отклонение в поведении от нормального. Ну а снижение температуры, какой нибудь прием антидепресантов. Возбуждение и торможение, забавно да?
>>953783 >>953785 Видимо, речь идет о llama_state_get_data/llama_state_set_data
Кстати, операция по запуску гермеса полностью провалилась, полностью: Processing Prompt [BLAS] (512 / 1385 tokens)CUDA error: out of memory current device: 0, in function alloc at ggml/src/ggml-cuda.cu:344 cuMemCreate(&handle, reserve_size, &prop, 0) ggml/src/ggml-cuda.cu:72: CUDA error
Хоть бы в логах писали, сколько аллоцировать-то хотят.
>>953785 Дохуя хочешь. Хотя, может, в лламасервере и есть. Не смотрел. Мне просто странно, что кобольду лень прикрутить, там же и кода писать не нужно, выбор пути, две кнопки - 99% остального уже Жора написал.
>>953821 >llama_state_get_data А также о llama_state_save_file. Серьёзно, Жора уже подготовил буквально всё, что нужно.
>>953733 Ну, во-первых, температура в единицу не всегда является дефолтной и не всегда удерживает оригинальные вероятности токенов. И речь даже не про шизослпавы, шизомиксы и шизотюны - тот же мистраль рекомендует для немо температуру в районе 0.35, что по идее сильно должно ограничивать сетку в креативности, однако этого не происходит. Я лично в свое время юзал температуру в районе 0.4 - 0.6 и получал вполне себе "творческие" ответы без лупов и прочего.
Во-вторых, на распределение токенов влияет не только семплирование, а еще и весь контекст целиком, ну или та часть, которая обрабатывается. На высоких контекстах хоть шизоскрутингом можно заниматься, пропекая вероятности с температурой в 3-5 градусов, всё равно сеть будет более менее отвечать связно. По крайне мере, на тех моделях что я гонял.
>>953900 >Жора уже подготовил буквально всё, что нужно. Подготовить-то подготовил, да я тут подумал, что не все так просто... По хорошему надо делать какое-то решение, чтобы оно взаимодействовало с фронтом, например, с таверной - чтобы на каждый файл чата таверны создавался этот файл стейта и автоматически обновлялся в процессе рп, чтобы вручную не приходилось менеджить это говно. Для таких правок надо нехило погружаться во всю эту кухню и не факт, что идея вообще взлетит - если там гигабайты придется писать во время рп, то все будет лочиться до конца записи...
>>953678 Да вроде было только про генерацию, но что еще и обработка сокращается - это очень печально. >>953707 > На двух теслах без ровсплита, то есть на всех моделях до 32В включительно В паре можно катать 70б, откуда 32? И скорости там комфортные прежде потому что размер модели сильно ниже. >>953733 На основе этого всякие поднадусеровые каломазы и устраивали пиар своих поделок, выставляя заведомо шизоидные условия для "других вариантов", а у себя прикручивая чит с отсечением почти всех токенов заранее, чтобы шел разыгрыш среди нескольких штук нормальных. С подключеним так сказать. Дефолтное значение 0.5-0.8 если стоит до отсечек, а если них может совсем потерять свой исходный смысл. >>954041 > По хорошему надо делать какое-то решение Юзать модели по железу и не извращаться?
>>953622 Отъебитесь уже от своего русика, еб вашу мать, сколько можно. Какого хуя вам не сидится на английском, который при любых сука условиях будет лучше русского, банально потому, что его процентное содержание в датасетах выше?
Щас бы блять в 2к17 век глобализма не вкуривать основной язык всего медиапространства, это просто пиздец стыдоба какая-то. Его даже учить специально не надо, он в ваши головы влезет против вашей воли, если вы хотя бы немного отлипните от своих дебильных игрулек и начнете потреблять что-то еще.
>>954115 Кто сказал что я чего-то не знаю? Интересно же чисто на русском пообщаться, много чего на англ не перевести так как лично ты этого хочешь А вообще хохол порвался
>>954116 >Кто сказал что я чего-то не знаю? >много чего на англ не перевести так как лично ты этого хочешь Так ты определись ёпта знаешь ты язык или нет. Если ты что то не можешь перевести или адаптировать, сохранив смысл, значит нихуя ты не знаешь и нехуй вилять жопой.
>>954123 Знание языка подразумевает, что ты можешь его использовать, а не просто смотреть на буковы и то в каком порядке они стоят. Этому и обезьяну научить можно. Ты щас просто пытаешься маняврировать и искать оправдания своей собственной лени, или не обучаемости, тут что ближе смотри сам. Хотя, если ты знаешь, что ложку нужно подносить ко рту, но всё равно продолжаешь ее подносить к жопе, потому что не можешь применять накопленные знания, то ты просто аутист, тут больше сказать нечего.
>>954041 >с таверной Если тебе охота в ней ковыряться, то конечно. Почему бы и нет. Лично я в рот ебал. Автоматически сохранять тоже хуйня на самом деле, это же на каждую генерацию писать весь контекст на диск. Свайпнул - запись, пост потёр - запись. Лочить как бы не обязательно, просто дампишь весь контекст в память, потом пишешь. Пока дописал - уже новый дамп писать. Это писать нужно при выходе из приложения и\или переключении на другой чат. Вообще, это не тот случай, когда автоматизация нужна.
>>954115 Тоже этого не понимаю. Если тебе сложно вспоминать и писать слова - пиши на русском, любая модель тебя поймет. А если и английский читать не способен, то тут надо не русик искать, а срочно исправляться...
>>954115 >>954134 >а срочно исправляться... Вы только посмотрите на этих чепушил. Нет бы радоваться что модели наконец-то научились в ваш родной язык и качество датасетов постепенно растёт, так нет, продолжают жрать говно зхабугорное, нахваливая за обе щёки но при этом почему-то сидят тут, а не на форче и живут полюбму не в Калифорнии Предлагаю всем ИТТ с ISQ > 500 писать посты исключительно на англюсике, ведь так ПОНЯТНЕЕ и все равно все должны его знать, правда ведь? а отальным анонам будет проще скрывать соевую петушню
>>954143 На форче нет аи доски. Русек всегда будет хуже, потому что у нас этим заведует не мистраль, а долбоебики из яндекса. Тебя всего лишь ставят перед фактом.
>>954145 В основном "русек всегда будет хуже" потому, что язык тупо в разы сложнее семантически и грамматически. И потому что косяки в нем ты видишь лучше. Ну и кроме того, то что ты воспринимаешь как "хороший английский у нейросети" - практически всегда, на самом деле упрощенный английский.
Еще играет роль количество и качество данных для обучения - читай "число носителей"
>>954145 >На форче нет аи доски. На величайшем, единственном в мире межгалактическом ИТ-языке богов, который обязана знать каждая бактерия, нет ресурса чтобы обсудить АИ, как-же так?
>Русек всегда будет хуже, потому что у нас этим заведует не мистраль, а долбоебики из яндекса. Плохому танцору всегда яндекс мешает. Проиграл с нытика.
>>954148 > И потому что косяки в нем ты видишь лучше Вот конкретно этот пункт двачую. Если в английском где-то проёбана стилистика, используется странный набор слов для описания чего-то, мозг забивает на это хуй, т.к. смысл всё равно понятен, и глаза это сильно не режет, потому что язык не родной.
Но вообще, гнобить за желание общаться с моделью на русском языке в русскоговорящем сообществе - это какой-то сюр.
Монолингуалы каждый раз проявляют чудеса ментальной гимнастики, объясняя почему не смогли за школьный курс разобраться как общаться на основном языке. Попробуйте как-нибудь запустить модель, которая обучалась на одном языке, посмотрите на себя со стороны.
>>954175 Это как раз наблюдал на, например, этих моделях при попытке скормить им русскую карточку. Какая-то срала смайликами, какая-то текстом с битой кодировкой, какая-то одними (матерными) знаками препинания, какая-то случайными цифробуквенными символами кириллического и латинского алфавита в перемешку, а какая-то даже пыталась, но на уровне Эллочки-Людоедочки.
>>954165 >Get lost (потеряйся). Бля, они просто в слова записывают всякую хуиту, которая у нас за слово не считается. Ну и обилие словосочетаний для простейших понятий, для которых в русском есть отдельное слово, как бы намекает, что язык говно безсловное. >>954175 >объясняя почему не смогли за школьный курс разобраться как общаться на основном языке Я вот знаю. Первая училка была стерва, которую я посылал нахуй (на русском), плюс пара болезней в самом начале изучения и вот он я, самый отстающий в англюсике классе, с травмой и подсознательной ненавистью к языку. Впрочем кумаю на инглише, просто с переводчиком, благо за 20 лет после окончания школы кое-что запомнил.
Анонии, вопросы все еще открыты, особенно интересно про более одного персонажа 1) Можно ли как-то в таверне воткнуть более одного персонажа, чтобы они еще друг с другом взаимодействовали? 2) какая лучшая модель для RP из бесплатных на openrouter? 3) Есть ли модели которые используют картинки в RP как часть контекста (типа дать фото вместо описания окружения)
>>954180 Я уже писал пару тредов назад, что тестирую все модели на карточке с немым персонажем. Одна моделька просто писала мешанину из действий — "Она встала. Она ушла на кухню. Она вернулась. Она села.", другая вдруг начала разговаривать на 3-ем сообщении. Большинство моделек выкручиваются жестами и записками/телефоном, но парочка удивила и отыгрывала действительно меланхоличного персонажа, который изредка бросает на тебя взгляд, изображает какую-то эмоцию и продолжает заниматься своими делами, причем описывая это довольно интересно.
>>954189 Да, сына? >>954197 >Есть ли модели которые используют картинки в RP Картинки есть, РП файнтюнов мультимодалок я не видел, да и всё равно говно.
Аноны, что сделать чтобы ИИ написала ПОЛНЫЙ рассказ на заданную тему. А то выдает короткую хуйню. Пытался написать ей примерную разбивку по главам, она комкает и съезжает с плана.
>>954256 Возьми карточку нарратора, ищи модели заточенные на лонграйты. Обычно модели надрочены выдавать по 200-300 токенов за сообщение, но есть пициализированные которые могут писать до 4К токенов за один заход.
Ну лучше просто пиши по абзацам, поищи "Bad End Storywriter" на characterhub.org , там есть примеры с промтами.
>>954175 Как выучить эти ебучие артикулы? Знаю когда нужно их использовать, но не знаю когда не нужно. Btw, на ютубе 99% контента на английском смотрю.
>>954032 Температура 1 - это выключенный сэмплер, т.е. по определению дефолтные распределения, получившиеся с датасета. Я всегда думал, что рекомендации очень низкой температуры для немо раздают ради лулзов, но если это серьёзно, то означает, что модель кривовата, раз приходится так сильно менять распределения. Впрочем, даже если такая рекомендация была официально, то надо смотреть контекст, к чему она была. Может, имелось в виду, что это требуется для уберсложных задач про петуха на крыше, тогда понятно. В таких ситуациях и другими сэмплерами обычно сильнее давят.
>>954262 a - рандомный предмет. Случайная чашка - a cup. Take a cup. an - рандомный предмет. Используется только для слов, которые иначе звучали бы по-дебильному из-за повторящейся 'a' - a apple, a umbrella. Произнеси вслух, если непонятно. An apple. the - конкретный предмет. На столе стоит семь чашек, в одной из них налит чай. Take the cup. Какую возьмешь? ничего (нулевой) - проще всего объяснить как что-то уникальное. Hitler, Nvidia, winter, january. Есть еще всякие исключения для исчисляемых но это уже продвинутый уровень и не так сильно палит тебя как ESL-а.
>>954262 "a/an" - это когда ты говоришь о чём-то первый раз, по смыслу близко к "некий". "the" - это когда говоришь о чём уже упоминал ранее. Типа "тот самый" или "этот".
A faggot told me I should use English at roleplay = Какой-то пидор сказал мне, что я должен использовать английский в ролеплее. I told the faggot to shut up = Я сказал этому пидору заткнуться.
Не надо использовать артикли для общих понятий (если ты говоришь о всех пидорах как явлении, а не о конкретном пидоре). "I have faggots", при этом "I hate the faggot I met yesterday". В паре с местоимениями артикли не нужны.
>>954126 Но подожди, хуета, ты же сам пишешь >Его даже учить специально не надо, он в ваши головы влезет против вашей воли, если вы хотя бы немного отлипните от своих дебильных игрулек и начнете потреблять что-то еще. Таким способом ПЕРЕВОДИТЬ ты не научишься, это отдельный навык которому в вузах обучают
>>954267 >>954269 Так вы на детсадовских примерах объясняете, на практике всё сложнее.
К примеру: 1. I want to conduct (?) research. Так, что тут? 2. I am in (?) good mood today. Окей, а чем это отличается от предыдущего? 3. This is (?) useful intel. А тут что? 4. You can select (?) response of (?) character in (?) chat. А насчёт этого?
И хуй с ними, с артиклями, ебля с in/to/at/of/for/into/onto/etc. - вот это настоящий пиздец.
>>954286 > 1. I want to conduct (?) research. > Так, что тут? До этого нет примера, где это исследование обсуждалось, значит (a) > 2. I am in (?) good mood today. > Окей, а чем это отличается от предыдущего? Тем, что ты не можешь быть в конкретном хорошем настроении. (a) > 3. This is (?) useful intel. > А тут что? см. выше, (an) > 4. You can select (?) response of (?) character in (?) chat. > А насчёт этого? Буквально выбрать ответ из уже написанных или любой следующий? Начинаешь догадываться, да? Речь про любого персонажа или того, что выбран? Ну же, (a) или (the)?
>>954296 > 1 > До этого нет примера, где это исследование обсуждалось, значит (a) ) > 2 > Тем, что ты не можешь быть в конкретном хорошем настроении. (a) (?) good mood of yesterday has disappeared. > 3 > см. выше, (an) )
>>954296 > You can select response of a character in the chat? > You can select a response of a character in the chat? В чём разница по смыслу? Могу ли я использовать оба варианта?
>>954296 Ещё вот такой случай интересует: > I want to show you (?) "example.txt" file > I want to show you (?) "example.txt" Что и где ставим и почему?
>>954276 Всё тут правильно. Даже at в конце норм, просто переводиться будет не как "в тексте ролплея", а "пока занят ролплеем". С активностями используется at. Мб чуть правильнее было бы at roleplaying.
>>954336 Да я знаю ответы на все эти вопросы, друг, всё что я хочу сказать: артикли - это не так просто, как "a" при первом упоминании чего-то, а "the" при повторном.
Пожалуй, больше не буду захламлять тред своей лингвистикой, не для этого он тут существует.
анонии, такой вопрос. по поводу sillytavern. Есть ли схема в которой еще одна нейросеть соотносит то что пишут персонажи с окружающим миром, пусть даже фантазийным? отыгрывает нейтраль, природу если угодно. один персонаж отвечает за свои действия, другой за свои, а условная gaia за то чтобы действия персонажей соотносились с окружающим миром? иначе получается как в детской игре в войну: я тебя убил, нет я, а я как бы из последних сил....
>>954131 >это же на каждую генерацию писать весь контекст на диск Жора же умеет в расчет только нового контекста. И когда несколько последних сообщений удаляешь из переписки, то контекст вообще не пересчитывается при свайпе. Значит, по идее, можно и на диск писать/удалять тоже порциями, а не перезаписывать все всегда. Но в апи сейчас такого нет, понятное дело. >Это писать нужно при выходе из приложения и\или переключении на другой чат. Я могу вообще браузер закрыть. А если с телефона - так вообще ничего не делать, просто экран погасить, затем подойти к пк и выключить его. Так что тут надо писать кеш, пока горячо, а не ждать каких-то ивентов.
>>954111 >Юзать модели по железу и не извращаться? Извращаться - это пересаживаться по своей воле на 70B.
>>954165 >200k А чего словарь Ожегова не взяли? Там всего 53к слов, можно было бы ещё больше контраста нагнать. > Почему Оксфордский словарь такой толстый? > Лингвисты избегают такого рода сравнений между языками и словарями. У каждого своя специфика. Скажем, в Вебстеровский словарь в качестве самостоятельных статей включаются символы, например, химических элементов: B (бор), Ba (барий), Be (бериллий), Br (бром) и так далее, сокращенные наименования мер длины, веса, объема: km (километр), kg (килограмм), bbl (баррель)... Мало того, толковые словари английского языка начали включать символы обозначений размеров листов бумаги: А3, А4, А5, а также, например, символ @. >Оксфордский словарь - слова всех разновидностей и всех вариантов (американского, канадского и т.д.) английского языка начиная с 1150 года, включая мертвые >Если мы добавим к 150 000 слов современного русского литературного языка, например, еще и диалектные слова, то получим уже 400 000 слов... >На сайте издательской фирмы Merriam-Webster сказано: "Считается, что словарь английского языка включает примерно миллион слов" >Большинство лингвистов восприняло такую оценку с долей юмора, а некоторые сказали, что они не были бы удивлены, если бы он оценивался в четверть миллиона. >По подсчетам лингвистов, во втором издании Вебстеровского словаря только 35% исконных английских слов, остальные 65% - заимствования.
>>954430 >Но в апи сейчас такого нет, понятное дело. В целом, реализуемо. Всё, что надо - в апи есть. Другое дело, что не очень-то и нужно. >подойти к пк и выключить его Подожди. Что?
>New reasoning model preview from @deepseek_ai that matches @OpenAI o1! DeepSeek-R1-Lite-Preview is now live to test in deepseek chat designed for long Reasoning!
> o1-preview-level performance on AIME & MATH benchmarks. > Access to CoT and transparent thought process in real-time. > Open-source models & API coming soon!
>My test prompt: >Can you crack the code? >9 2 8 5 (One number is correct but in the wrong position) >1 9 3 7 (Two numbers are correct but in the wrong positions) >5 2 0 1 (one number is correct and in the right position) 6 5 0 7 (nothing is correct) >8 5 24 (two numbers are correct but in the wrong
>>954143 >продолжают жрать говно зхабугорное, нахваливая за обе щёки Так оно работает лучше, лол. Тут дело не в предпочтениях или принципах, а в качестве, дурачок. >но при этом почему-то сидят тут, а не на форче >Предлагаю всем ИТТ с ISQ > 500 писать посты исключительно на англюсике На русскоязычной доске я общаюсь на русском, на англоязычной я общаюсь на английском, где ты тут видишь несостыковки, лицемерие или еще что, приплетала залетная?
Может кто знает почему модель напрочь игнорирует длину максимального ответа в таверне и херачит столько, сколько ей вздумается? Не нашел ничего в карточке персонажа и настройках пресетов, что допускало бы такое поведение. При макс. длине 125 токенов, судя по логам она расписывается на 500 и больше
>>954526 Потому что это тупой метод, который просто останавливает генерацию после порогового значения токенов. Он не сообщает модели "генерируй только 125 или меньше". Полноценный ответ ты получишь только если будет триггер по EOS токену, а он может случится и на 125 значении и на 500.
>>954538 >Тут же хуже качество Ты в /g походу не сидел, если думаешь что там лучше качество. Вы долбаебы везде одну и ту же хуйню обсуждаете, вне зависимости от языковых кодировок.
>>954527 достаточно 3060 12gb что бы запустить NemoMix-Unleashed-12B-Q6_K_L или 4060 (3050 за 25к) с 8gb что бы запустить NemoMix-Unleashed-12B-Q4_K_M и делов то.
>>954562 >короче не вариант втыкать фото в ролеплей как часть мира(описания мира, событий итд) Воткни описание фото, полученное с помощью отдельной модели. Не так удобно, но по сути разницы никакой.
>>954547 >Нужно лаву качать ЛЛава это часть библиотеки llama.cpp, так что можно скачать любой бэк, который использует возможности библиотеки. Например, в оллама, построенная поверх всё той же Жориной либы, работает с вижн моделями.
>>954583 >разницы никакой лол, это еще какая разница. image->state vectors и image->caption->state vectors. Это как сказать что тебе все равно увидеть фото или описание фото..
Провёл эксперимент. Попросил модель NemoMix-Unleashed-12B (Q6_K_L) создать карточку персонажа для RP, потом создал одного и того же персонажа с одинаковым описанием и приветствием у себя на компьютере и в character.ai и попытался пообщаться с ним на одну и туже тему. Смотрите результаты общения на русском и думайте.
>>954484 Ух бля, правильно считает буквы в словах. Вот теперь то заживём! (нет) >>954528 Пости по теме. >>954544 >вне зависимости от языковых кодировок Везде UTF8, чел. >>954591 М... Макс? >>954592 Плоти деньги
>>954560 >достаточно 3060 12gb А она может заработать на моей матери 2008 года с северным процессором 2007 года? PCI-E v2, DDR2. Драйвера стоят актуальные, но видеокарта 2013.
Смотрел на Intel A7, но там некий resizable bar нужен. Естественно я побаиваюсь покупать то, что может не запуститься на моём ПК, не хочу зря возиться.
А собирать современный ПК - это минимум 100к... А главное, зачем, если базовые потребности (кроме нейронок) может удовлетворить уже имеющийся?
>>954603 >А собирать современный ПК - это минимум 100к Я видяху свою 3060 12gb в ДНС за 28к покупал 3-4 месяца назад. Процессор 5600g с оперативкой 16 гигов (потом расширил до 42 гигов), матерью на b550 чипсете (ступил и переплатил за неё тысяч 5-6, мог бы спокойно брать и A520) и блок питания самый дешевый голдовый в ДНС целом мне обошлось ещё примерно в 35-40к Считай. Но опять же. Нужен ещё монитор, клава и мышь. Хорошо что у меня уже всё это было.
>>954618 Соглы. На моей DDDR4 ничего толком не запускается. Только моба игры, а что то помощнее сразу же упирается в оперативку и древний проц на AM4. Тупо не вывозит.
>>954591 >пропаганда извращений Давай разберём по частям твои извращения:
1. Ты постишь на анонимном форуме в интернете. Нормальные люди сидят в соцсети/мессенджере с реальным ФИО и фото своего лица на аватаре, не стесняясь выражать личное мнение и делиться подробностями приватной жизни со всем миром.
2. Ты общаешься с компьютерной программой как с человеком. Нормальные люди используют их как инструменты для решения реальных проблем, а не имитации флирта с несуществующим персонажем.
3. Ты назвал персонажа "Цунэхиса Мицуру, цундере", видимо, используя стереотипы аниме. Нормальные люди, тем более взрослые (старше 18), не смотрят японские порномультики, предпочитая серьёзные художественные фильмы отечественного кино.
4. Ты описал персонажа как "цундере, вспыльчивую, грубую, склонную к садизму, целеустремлённую". Нормальные люди знают, что женщине место лишь на кухне у плиты и она всегда должна подчиняться; в этом заключается её роль в обществе с рождения.
И это не говоря о "школьной форме", что по нашим законам делает порнуху детской, а тебя - педофилом.
По всему складывается, что ты грязный извращенец, грёбаный развратник, хуже спидозного гея в канаве, который хотя бы траву щупает и с людьми общается лицом к лицу, а не через анонимные чаты, социально интегрирован в общество и не фантазирует о всяких вымышленных "аниме девочках в школьной форме".
Так чем там тебя "повестка" не устраивает, грязный извращенец? И почему твоя "заботливая цундере" должна быть бессердечной сукой, а не заботливой? Очевидно же, нейронка хорошо отыграла свою роль. Просто проблема в тебе, извращенец, а не в ней.
>>954636 >не стесняясь выражать личное мнение Молчат там все в тряпочку. И только на АИБ о себе и твоей мамке можно узнать истину. >грязный извращенец Как будто что-то отрицательное.
>>954591 Покормлю, конечно, но смысл сравнивать с онлайн-сервисами, ты же не знаешь, что у них за моделька крутится (если вообще не идет переадресация на другие сервисы). Вот тебе 123B
>>954591 Творческий эксперимент - фик по Восхождению (не) в Тени совместно с NemoMix-Unleashed-12B-Q8_0 на русском в режиме дополнения текста.
Сетап сторирайтера правда на английском, чтобы токены сэкономить.
Правда, придётся, если хорошо пойдёт, суммарайзить и докидывать в контекст проиходившее в прошлых главах, ибо глава+метаданные в память влезут, а вот весь - нет.
>>954686 Неиронично, но у меня примерно такие же ответы по качеству на дефолтной немо. Если даже лардж так скучно отвечает, то это пиздец. К чему тогда вообще ций весь спор про русик?
>>954701 >>954708 Так это у меня порнотюн и есть, бегемот-магнум. Единственное, что мне не понравилось тут - это то, что в большинстве случаев она хочет посмеяться после курлыка, из 13 свайпов только один был такой сдержанный, что я выбрал на скрин, и один такой: face_with_rolling_eyes: Ты серьезно? Это и есть твое "интересное" занятие? Она качает головой и встает из-за стола Ладно, я поняла. Ты не стоишь моего времени. Она собирается уходить. С семплерами надо играться, ответы без явного смеха у меня с тепературой 3 пошли. Это на мелких моделях на десятую долю сдвинул и пошла шиза. Правда, у меня температура последним идет, но 6013425 вроде дефолтный порядок и есть.
>>954636 >Нормальные люди сидят в соцсети/мессенджере с реальным ФИО и фото своего лица на аватаре, не стесняясь выражать личное мнение Вот только есть нюанс: мнение тщательно отфильтровывается, чтобы не было: а) проблем с репутацией; б) проблем с законом. >предпочитая серьёзные художественные фильмы отечественного кино Да чего скромничать, мог бы сразу про сериалы про ментов с НТВ и Соловьёва/Скабееву упомянуть, так сказать, с козырей пойти.
>>954738 >Пишешь прямо как Ты не уловил сарказм что ли? >>954591 делает вид, будто хочет поднять с колен "нормального" белого гетеросексуала, но при этом он сам не является "нормальным" примером для подражания.
Какой смысл беспокоиться о каких-то там геях, если ты сам ничуть не лучше них? Это просто лицемерие. Радуйся, что тебя не отправили в психушку за то, что ты с мультиками в своей голове разговариваешь...
По сути мы все здесь - меньшинство, и нас могут в любой момент объявить вне закона, пересажать или вообще массово казнить ради этой "защиты детей". Прецеденты с самоубийствами из-за ИИ уже были, поэтому лучше не строить из себя вот это вот всё.
>>954748 У тебя цены протухли. Нормальный проц минимум 13к, нормальная мать минимум 10к, ссд минимум 10к. И то это пк на год-два максимум, дальше станет куском мусора.
>>954766 Ну разгони, че тебе это даст? 2-3% прироста и +90 градусов на цепи питания? Проц всё равно будет скукоживать всю систему. Щас не 2017 год, ты не соберешь пк на долгосрок. Все разрабы плавно уже забили хуй на любую оптимизацию и дальше будет только хуже. Мы в эпохе генерации кадров и кривого говна на пятой урине.
>>954777 Так я в первую очередь для нейросеток собирал + что бы попробовать новые игры. попробовал - не понравилось. Использую теперь в основном только для РП с нейросетями и генерации картинок
>>954748 Если денег нету то собирай на xeonе, проц+мать+память 32гб в 4 канале может выйти тысяч 12-15 Сможешь даже тупо на нем крутить нейронки, хоть и не быстро. Ну как, если ддр4 2400 в 4 канале, даст тебе скорости памяти где то 55-65гб/с Что вычисляя по всем известной формуле, даст тебе генерацию где то 4-6 токенов в секунду на той же 4км мистреле немо. Там куча подводных и это не самый лучший выбор, но это дешево и сердито. А еще если плата норм то и видеокарты можно подключать пачкой, благо линий псие там до жопы Но человек экономящий на процессоре материнке и памяти, врятли будет покупать кучу относительно дорогих видеокарт и собирать из них нейросервер
>>954784 >Там куча подводных Какие, например? Если брать готовый комплект мать + процессор(ы) + память, заявленные как "проверено, работает" у продавца где-нибудь на Яндексе?
>>954425 А толку? контекст-то будет на всех персов один и тот же. Разве что разные модели могут чуть более разно на него реагировать. Но промтом карточек под каждого перса этого эффекта добиться легче.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Рейтинг моделей для кума со спорной методикой тестирования: https://ayumi.m8geil.de/erp4_chatlogs
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры https://artefact2.github.io/llm-sampling/
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: