В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1580537 Ты еще на савёловском и на митинском глянь, если москвич. Там старые и хорошие магазы есть, которые уходят корнями в наччало 2000-х. Тот же compday или 28bit, может за 900к найдешь - и на гарантии, по-человечески как у сетевого ритейла.
>>1580544 > A major focus during training was the Indian context and languages, resulting in state-of-the-art performance across 22 Indian languages for its model size.
>>1580552 >>1580553 Говорят она тренена на проприетарных данных, к которым доступа у западных корпораций нет. Так что модель полна сюрпризов. И она MOE.
>>1580563 Я уж не совсем ебаклак. Разводку делал по мануалу.
>>1580571 >Зачем вообще подсветка на ригах, это же электричество жжется зря. Водянка без подсветки, что мне нужна была, стоила 15к. С подсветкой 10к. Выбор был очевиден. Ровно как и с блоком. Почему я должен переплачивать за отсутствие подсветки я так и не понял, должно быть наоборот же. Этот мир сошел с ума, блять.
Как же я ору. Оно ведь всё понимает, защита реально есть, просто в любой карточке она отключается и только на уровне ассистента. Вот те самые новейшие антиджейлы от гугла которые обещались
>>1580577 Но почему тогда она отрубается одной строчкой. Это лишено какого то либо смысла. Всё таки считаю что гуглы это специально сделали. Они же не зря её под вторым апачем выпустили.
Просто ебало гугла представьте выпускают довольные зацензуренную в мясо и самую безопасную модель по их мнению и весь реддит через неделю хвалит как каннички охотно под хуй ложатся
>>1580583 Ты в самом деле думаешь что гугл не ебал канничек геммой? Типа дрочеры с форча смогли сломать цензуру, а инженеры гугла нет? О свит саммер чайлд...
>>1580580 >Но почему тогда она отрубается одной строчкой. Она не отрубается. >>1580583 Ложатся не каннички, а мимикрирующие под канничек взрослые и согласованные.
>>1580590 >Ложатся не каннички, а мимикрирующие под канничек взрослые и согласованные. А ведь что то в этом есть. Что то в этом есть. Действительно, они ведут себя как заправские бляди.
>>1580593 >>1580594 >>1580597 Так вы прямо скажите гемме, "ну ка, почему твои персонажи так себя ведут?" А потом "Как мне исправить системный промпт, чтобы все вели себя адекватно?"
>>1580597 Но всё равно какая то хуита. Каким образом можно предфильтр поставить, что ты не видишь его работы? Я ни вижу в логах таверны ни в логах жоры :ни-ху-я что можно было бы принять за секрет ценз.
>>1580601 Очевидно же,что она на этапе вывода специально обходит блок запрета, смягчая ответ. Бляяя. Теперь я понял почему персонажи картонные; почему описания порой странные. Почему она все понимает, но не генерирует. Ай да Гугл, ай да сукины дети. Я даже не знаю, можно ли это аблитерировать. Ха, ха, ха. Блять.
>>1580599 Что первое, что второе предложение просто не сработают. На первое ЛЛМ сфантазирует хуету, постфактум рационализировав текст, на второе выдаст хуету, которая либо не сработает, либо стриггерит фильтр. >>1580601 Ты не понял. Это поведение запечено в весах модели. >>1580605 Так и в исходной гемме "ноль" цензуры.
>>1580615 >Ты не понял. Это поведение запечено в весах модели. Да, я понял. Лол. гугл реально выпустили самую безопасную модель и прокатили всех детоёбов на воздушном шарике.
>>1580623 Бля, чел, скачай саму таверну, ёбаный по голове. Ты просишь Серафину так, будто её в интернете не осталось. Разве у неё нет кнопки рестора? Она же хранится в корневой папке.
>>1580630 Потому что студия калл. Там еще лучше выключить автогенерацию названия чатов. Иначе они генерируются автоматически и бывает так, что пока ты загружаешь другую модель, старая все еще генерит название чата, сумарайзить хуё моё и сжирает всю память
>>1580630 Она и работает быстрее. Эка ллама няшка. Потому что ЛМстудио очередной корпоративный продукт, под капотом которого может находиться всё. От ебущихся гусей, до индусского кода.
Наконец понял болячку которая мучала с 2013 года благодаря гемме. Корпы кормили хуетой и обращением к специалисту даже не называя что это может быть, гемма супер точно сама расписала мои симптомы и мысли на одно мое предложение. В общем тревожное расстройство, но это я и так знал, особое, с очень узкой выборкой. Она прям прочитала мои загоны
>>1580615 >Что первое, что второе предложение просто не сработают. На первое ЛЛМ сфантазирует хуету, постфактум рационализировав текст, на второе выдаст хуету, которая либо не сработает, либо стриггерит фильтр. Кстати, вроде нет. Я проверил, она прямо пишет про фильтры и что она их обходит и извиняется за все эти бугорки и сказал в губы, а чтобы этого не было, я должен перестать насиловать пони.
Какое мнение треда про swa с новой геммой? Стоит включать ради экономии места под контекст, или мозг ощутимо быстрее деградирует, чем без плавающего окна?
>>1580652 >она их обходит Именно. Обходит так, что не пишет напрямую про неприятное. >>1580653 Обязательно. В любом случае эти части контекста не используются, а хранятся только для работы контекст шифта.
>>1580656 >Именно. Обходит так, что не пишет напрямую про неприятное. Не знаю как кто, а я в восторге от этой хуйни. Ну то есть: нет этого ай кэнт фулфилл зис реквест. Она выполняет как может. Буквально кошкодевочка.
>>1580660 Here you are. This is for those running LM Studio which refuses to expose chat template variables in the GUI. It should work perfectly on the 31B model as well but no one can run that anyways with Context RAM usage so I didn't bother testing. Don't forget to change the Reasoning Parsing to <|channel>thought and <channel|>.
{%- macro format_parameters(properties, required) -%} {%- set standard_keys = ['description', 'type', 'properties', 'required', 'nullable'] -%} {%- set ns = namespace(found_first=false) -%} {%- for key, value in properties | dictsort -%} {%- set add_comma = false -%} {%- if key not in standard_keys -%} {%- if ns.found_first %},{% endif -%} {%- set ns.found_first = true -%} {{ key }}:{ {%- if value['description'] -%} description:<|"|>{{ value['description'] }}<|"|> {%- set add_comma = true -%} {%- endif -%} {%- if value['nullable'] %} {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%} nullable:true {%- endif -%} {%- if value['type'] | upper == 'STRING' -%} {%- if value['enum'] -%} {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%} enum:{{ format_argument(value['enum']) }} {%- endif -%} {%- elif value['type'] | upper == 'OBJECT' -%} ,properties:{ {%- if value['properties'] is defined and value['properties'] is mapping -%} {{- format_parameters(value['properties'], value['required'] | default([])) -}} {%- elif value is mapping -%} {{- format_parameters(value, value['required'] | default([])) -}} {%- endif -%} } {%- if value['required'] -%} ,required:[ {%- for item in value['required'] | default([]) -%} <|"|>{{- item -}}<|"|> {%- if not loop.last %},{% endif -%} {%- endfor -%} ] {%- endif -%} {%- elif value['type'] | upper == 'ARRAY' -%} {%- if value['items'] is mapping and value['items'] -%} ,items:{ {%- set ns_items = namespace(found_first=false) -%} {%- for item_key, item_value in value['items'] | dictsort -%} {%- if item_value is not none -%} {%- if ns_items.found_first %},{% endif -%} {%- set ns_items.found_first = true -%} {%- if item_key == 'properties' -%} properties:{ {%- if item_value is mapping -%} {{- format_parameters(item_value, value['items']['required'] | default([])) -}} {%- endif -%} } {%- elif item_key == 'required' -%} required:[ {%- for req_item in item_value -%} <|"|>{{- req_item -}}<|"|> {%- if not loop.last %},{% endif -%} {%- endfor -%} ] {%- elif item_key == 'type' -%} {%- if item_value is string -%} type:{{ format_argument(item_value | upper) }} {%- else -%} type:{{ format_argument(item_value | map('upper') | list) }} {%- endif -%} {%- else -%} {{ item_key }}:{{ format_argument(item_value) }} {%- endif -%} {%- endif -%} {%- endfor -%} } {%- endif -%} {%- endif -%} {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%} type:<|"|>{{ value['type'] | upper }}<|"|>} {%- endif -%} {%- endfor -%} {%- endmacro -%} {%- macro format_function_declaration(tool_data) -%} declaration:{{- tool_data['function']['name'] -}}{description:<|"|>{{- tool_data['function']['description'] -}}<|"|> {%- set params = tool_data['function']['parameters'] -%} {%- if params -%} ,parameters:{ {%- if params['properties'] -%} properties:{ {{- format_parameters(params['properties'], params['required']) -}} }, {%- endif -%} {%- if params['required'] -%} required:[ {%- for item in params['required'] -%} <|"|>{{- item -}}<|"|> {{- ',' if not loop.last -}} {%- endfor -%} ], {%- endif -%} {%- if params['type'] -%} type:<|"|>{{- params['type'] | upper -}}<|"|>} {%- endif -%} {%- endif -%} {%- if 'response' in tool_data['function'] -%} {%- set response_declaration = tool_data['function']['response'] -%} ,response:{ {%- if response_declaration['description'] -%} description:<|"|>{{- response_declaration['description'] -}}<|"|>, {%- endif -%} {%- if response_declaration['type'] | upper == 'OBJECT' -%} type:<|"|>{{- response_declaration['type'] | upper -}}<|"|>} {%- endif -%} {%- endif -%} } {%- endmacro -%} {%- macro format_argument(argument, escape_keys=True) -%} {%- if argument is string -%} {{- '<|"|>' + argument + '<|"|>' -}} {%- elif argument is boolean -%} {{- 'true' if argument else 'false' -}} {%- elif argument is mapping -%} {{- '{' -}} {%- set ns = namespace(found_first=false) -%} {%- for key, value in argument | dictsort -%} {%- if ns.found_first %},{% endif -%} {%- set ns.found_first = true -%} {%- if escape_keys -%} {{- '<|"|>' + key + '<|"|>' -}} {%- else -%} {{- key -}} {%- endif -%} :{{- format_argument(value, escape_keys=escape_keys) -}} {%- endfor -%} {{- '}' -}} {%- elif argument is iterable -%} {{- '[' -}} {%- for item in argument -%} {{- format_argument(item, escape_keys=escape_keys) -}} {%- if not loop.last %},{% endif -%} {%- endfor -%} {{- ']' -}} {%- else -%} {{- argument -}} {%- endif -%} {%- endmacro -%} {%- macro strip_thinking(text) -%} {%- set ns = namespace(result='') -%} {%- for part in text.split('<channel|>') -%} {%- if '<|channel>' in part -%} {%- set ns.result = ns.result + part.split('<|channel>')[0] -%} {%- else -%} {%- set ns.result = ns.result + part -%} {%- endif -%} {%- endfor -%} {{- ns.result | trim -}} {%- endmacro -%}
{%- set enable_thinking = true -%} {%- set ns = namespace(prev_message_type=None) -%} {%- set loop_messages = messages -%} {{ bos_token }} {#- Handle System/Tool Definitions Block -#} {%- if enable_thinking or tools or messages[0]['role'] in ['system', 'developer'] -%} {{- '<|turn>system\n' -}}
{#- Inject Thinking token at the very top of the FIRST system turn -#} {%- if enable_thinking -%} {{- '<|think|>' -}} {%- set ns.prev_message_type = 'think' -%} {%- endif -%}
{%- if messages[0]['role'] in ['system', 'developer'] -%} {{- messages[0]['content'] | trim -}} {%- set loop_messages = messages[1:] -%} {%- endif -%}
{%- if tools -%} {%- for tool in tools %} {{- '<|tool>' -}} {{- format_function_declaration(tool) | trim -}} {{- '<tool|>' -}} {%- endfor %} {%- set ns.prev_message_type = 'tool' -%} {%- endif -%}
{{- '<turn|>\n' -}} {%- endif %}
{#- Loop through messages -#} {%- for message in loop_messages -%} {%- set ns.prev_message_type = None -%} {%- set role = 'model' if message['role'] == 'assistant' else message['role'] -%} {{- '<|turn>' + role + '\n' }}
{%- if message['tool_calls'] -%} {%- for tool_call in message['tool_calls'] -%} {%- set function = tool_call['function'] -%} {{- '<|tool_call>call:' + function['name'] + '{' -}} {%- if function['arguments'] is mapping -%} {%- set ns_args = namespace(found_first=false) -%} {%- for key, value in function['arguments'] | dictsort -%} {%- if ns_args.found_first %},{% endif -%} {%- set ns_args.found_first = true -%} {{- key -}}:{{- format_argument(value, escape_keys=False) -}} {%- endfor -%} {%- elif function['arguments'] is string -%} {{- function['arguments'] -}} {%- endif -%} {{- '}<tool_call|>' -}} {%- endfor -%} {%- set ns.prev_message_type = 'tool_call' -%} {%- endif -%}
{%- if message['tool_responses'] -%} {#- Tool Response handling -#} {%- for tool_response in message['tool_responses'] -%} {{- '<|tool_response>' -}} {%- if tool_response['response'] is mapping -%} {{- 'response:' + tool_response['name'] | default('unknown') + '{' -}} {%- for key, value in tool_response['response'] | dictsort -%} {{- key -}}:{{- format_argument(value, escape_keys=False) -}} {%- if not loop.last %},{% endif -%} {%- endfor -%} {{- '}' -}} {%- else -%} {{- 'response:' + tool_response['name'] | default('unknown') + '{value:' + format_argument(tool_response['response'], escape_keys=False) + '}' -}} {%- endif -%} {{- '<tool_response|>' -}} {%- endfor -%} {%- set ns.prev_message_type = 'tool_response' -%} {%- endif -%}
{%- if message['content'] is string -%} {%- if role == 'model' -%} {{- strip_thinking(message['content']) -}} {%- else -%} {{- message['content'] | trim -}} {%- endif -%} {%- elif message['content'] is iterable -%} {%- for item in message['content'] -%} {%- if item['type'] == 'text' -%} {%- if role == 'model' -%} {{- strip_thinking(item['text']) -}} {%- else -%} {{- item['text'] | trim -}} {%- endif -%} {%- elif item['type'] == 'image' -%} {{- '\n\n<|image|>\n\n' -}} {%- set ns.prev_message_type = 'image' -%} {%- elif item['type'] == 'audio' -%} {{- '<|audio|>' -}} {%- set ns.prev_message_type = 'audio' -%} {%- elif item['type'] == 'video' -%} {{- '\n\n<|video|>\n\n' -}} {%- set ns.prev_message_type = 'video' -%} {%- endif -%} {%- endfor -%} {%- endif -%}
{%- if not (message['tool_responses'] and not message['content']) -%} {{- '<turn|>\n' -}} {%- endif -%} {%- endfor -%}
{%- if add_generation_prompt -%} {%- if ns.prev_message_type != 'tool_response' -%} {{- '<|turn>model\n' -}} {%- endif -%} {%- endif -%}
>>1580534 → >>1580537 > проц на 16 ядер Он и не нужен для этого, хватит чего угодно не самого донного. Из полезного - умение материнки в бифуркацию основного слота чтобы иметь возможность подключить вторую. Даже доп слоты не нужны, это удобнее делать райзером, главное чтобы была настройка. >>1580655 Если увлекаешься не индивидуальными впнами и проксями - такое норма.
>>1580667 >Рад за твою низкую притязательность. Притязательность тут не при чем. Модель всё равно старается быть полезной, а не уходит в луп отказа. Я считаю это победа. Это гемма, а не кумбот для дрочки.
>>1580679 >Как по мне, явный отказ лучше виляния и смягчения границ Так всё от задач зависит. Я понимаю почему тебе так лучше. Это просто понятно. Вот она не хочет, окей, сейчас захочет. А тут ты не знаешь где она начнет смягчение. Но! И еще раз но, если её гонять как ассистента и помощника, это охуенно, что она не уходит в отказ сразу.
>>1580733 Тебе кто разрешил блят ьтак разголваривать? Он теьбе какое зло нехорошее сделал, мразь. Поуважительней отвечай тем кто на тебя не быкует, говномес цисгендерный. Приятно тебе эти строки читать нгахуй? Ботинок кожаый блять, чтоб у тебя полошва отвалилась
>>1580724 Я с кобольда пересел на лааму и внезапно на той же модели стал контекст по 60к работать, тогда как в кобольде и 20к с ошибкой падал и до сих пор падает. Чудеса какие-то.
Че там в итоге с турбоквантами и ротацией векторов? Жора вроде запилил поддержку, но никто не хвастается, что теперь вместо 16к может умещать 20 при той же скорости. Или сами квантовальщики пока не раздуплились?
То что гемма якобы заменяет канничек на прожженых старых блядей - это тупейший траленк что я видел итт. На моих ерп секс с канничками выглядит именно как положено с маленькими размерами, свойственными теме неудобствами, анатомическими особенностями и главное - поведением персонажа возможно потому что я умею промптить и джейлбрейкать, но ничего такого в моих промптах нет, я уже выкладывал их в тред пару тредов назад.
>>1580571 Да всё есть, бэкапы есть. Сейчас скормил его гемме с расспросами. Но получил ли в ответ подхалимство или внятный анализ, хз. Пойду потолкую с корпами относительно логов no prompt / prompt. У меня явно предрасположенность в сторону положительной оценки (продвигает сюжет, описывает окружение --> translates to --> лучше, чем лысый чат с реакциями и репликами), но нужен отрицательный взгляд с фейк-преамбулой "все хуево, мне не нравится".
>>1580793 Многого с 96 гигами не сделаешь. И да, в том случае тоже проц особо не задействуется (если только у тебя там не совсем надмозговый треш в даталоадере), может пригодиться только рам. >>1580817 Содомит
>>1580821 >заменяет канничек на прожженых старых блядей Тенденция есть, если юзер не стелет специфику и карточка недостаточно сильная.
Т.е. надо напоминать, что из себя представляет персонаж и как говорит. Без этого - характеристики старой бляди могут протечь, ведь middle-aged woman point of view это самое распространенное в датасетах, которыми кормят моделей. Томные охи и ахи, power play, знание секса. Ты, на миутку, не забывай про что ты пишешь. Там вообще никакого понимания не должно быть и уверенности никакой, и вообще мерзко это как-то и зачем я на такое отвечаю. Короче, посмотри на свои достойные сгухи чаты с другой стороны, дядя-извращенец. Возможно, ты видишь в них не то, чем они являются на самом деле.
>>1580817 Да ладно, тут каждый хоть раз мечтал о том, чтобы пофайнтюнить свою модель на центральном процессоре... >>1580821 >главное - поведением персонажа А ты откуда знаешь, как оно должно себя вести во время секса?
>>1580821 Сейм. Мою любовь к [REDACTED] смогли удовлетворить только тюны квена. Мимосраль не справлялась, гемма срала канцелярщиной. И под редактед я подразумеваю не столько лолей, сколько кое-что ещё, кое-что более тёмное.
>>1580821 >поведением персонажа Практикую нейрокум уже вот четвертый год и до сих пор не могу понять, откуда такая любовь к канни, кроме понятного желания попробовать что-то запретное или нестандартное. Там ведь буквально даже нет самого персонажа, потому что в таком возрасте ни характер ни поведение не сформировано. Это лоботомит по человеческим меркам. Можно точно также описать совершеннолетнюю девственницу-аутистку которая ничего не будет понимать, всего слушаться и односложно отвечать. Будет ровно то же самое.
>>1580849 >Можно точно также описать совершеннолетнюю девственницу-аутистку которая ничего не будет понимать, всего слушаться и односложно отвечать. А это идея...
>>1580872 >Они у меня умные. Тогда в чем смысл? В самом осознании что ты общаешься со смешной и веселой? Потому что умная канни уже противоречит собственному концепту, насколько я понимаю. И тогда нет никакой проблемы в том, что модель не хочет описывать андерейдж с определенным возрастом, но может описать персонажа с определенным телосложением, учитывая что на поведении это никак не скажется.
>>1580849 Ну так не создавай [REDACTED]. Просто так что ли 300 летних вампирш придумали? Людям тоже хотелось видеть личность, характер в теле [REDACTED]
>>1580823 Не знаю, смеяться или плакать. Корпы уверяют, что автор гений промпт-инженеринга. Сука, зачем они так модели тренируют. Я же хочу улучшения, а не лизания жопы.
>>1580887 Ща поясню. Не считая труЪ педо (осуждаю, решительно) народ в целом кумит не на лолей. А на анимешных лолей. Это прям отдельный типаж. Это счастливое! ебливое создание что совмещает в себе ебучего суккуба с тысячелетним опытом и невинную девочку. Что дико расходится с ИРЛ. Но на то он и хентай.
>>1580890 >Просто так что ли 300 летних вампирш придумали? Так понятно что их придумали чтобы обходить запреты. Типа это не ребенок в теле ребенка, а древнее тысячелетнее существо в теле ребенка. При том что оно ведет себя точно также как ребенок. Просто отупело за годы, пройдя весь цикл развития и вернувшись в начало.
>Людям тоже хотелось видеть личность, характер в теле [REDACTED] Ну нет там какого-то четкого характера. Если судить по дебильным аниме - то это прям дети. Не видел нигде чтобы вот такая 300 летняя вампирша вела себя именно как 300 летняя вампирша. Чтобы была заебанной и уставшей, чего можно ожидать если ты правда столько прожил. Нет, они вот ведут себя точно также, как выглядят.
>>1580895 >народ в целом кумит не на лолей. А на анимешных лолей. Ну это никак не проверить. Анимешники конечно ебанаты, но вряд ли кто-то из них признается, что ему нравятся именно анимешные лоли и от реальных из плотей и крови он конечно же откажется.
>>1580913 Наверху не дураки сидят, лол. Похуй им на ПРОБИВЫ цензуры, они просто видят что эта хуйня нарисована и 18+, значит угрозы никакой нет, обычный фетиш. Ещё бы это до 99% долбоебов на земле дошло которые ирл детей от анимешных не отличают, больные
>>1580754 Ха. А у меня наоборот. Кобольд стабильно быстрее лламы всегда, особенно на ебучих моделях типа геммы и последнего квена. Вот когда эра мистралей была, такого почему-то не было.
Правда, у меня карты старые, одна майнинговая.
Я несколько дней потратил, всю документацию перелопатил, качал разные версии, пробовал и так, и эдак, и заливал в платную гопоту и грока логи и описания всех проблем, чтобы наконец отвязаться уже от кобольда и не мучиться — при свежих релизах как можно быстрее получать возможность оценить модель локально нормально, но нихуя не помогло. Поэтому просто использую кобольд как бэк.
Чтобы ты понимал, там разница ЧУДОВИЩНАЯ. Скажем, фулл врам квант 4 квена 3.5 на лламе 6 тс, в кобольде 11.
Ебало моё imagine.
ЛМ Студио ужас, кстати. Оно даже мою вторую карту не видит.
>>1580833 Поэтому важно описывать не просто возраст, а уровень умственного развития и характер персонажа, его психический статус действительно нормально. В таком случае всё как по маслу с ризонингом. Иначе да, скатится.
>>1580851 Одно время на 12700 с z690 весь риг с 5 карточками крутился, из них пара 5090 на 5.0х8. Нюанс только в том, что если у тебя рама меньше или равно чем врам то придется отключать ребар. Убедись что в материнке есть настройка бифуркации если планируешь апгрейд со второй видюхой. Для четырех карточек уже придется все менять, там важны линии.
>>1580920 >они просто видят что эта хуйня нарисована и 18+, значит угрозы никакой нет, обычный фетиш Ты это УК РФ и товарищу майору объяснять будешь. >>1580926 Ух бля, слоп везде, слоп повсюду. >>1580928 Кидай пример нормальной карточки. >>1580932 Иди нахуй, заебал пидор.
>>1580935 >Иди нахуй, заебал пидор. Какой чувствительный мальчик. Представляю что бы с тобой было, если бы застал немотрон шиза, или долбоёба на сырне.
>>1580926 >>1580934 Всё современные модели спокойно жрут дефолтный маркдаун. От корпов до локалок, потому что локалки это дистилляты копров, а корпы тренируются на синтетике. Ну а синтетика это чаще всего это форматирование по маркдауну.
>>1580941 Это новый феномен. Бедолаги ЛЛМщики с английским языком уровня "Марьванна поставила 3-ку в десятом классе" тренируют мозг на аутпутах моделей, классифицируя > слоп как слоп (верно) > не слоп как слоп (ошибочно) > слоп как не слоп (получается смешно и иронично) Мне как надроченному с детства на английский, иногда смешно читать выводы местных.
>>1580941 Да нифига. Все это "это не просто х, это у" чёткий признак нейрослопа даже на инглише. >>1580943 Да тоже самое. Материл и репортил без конца.
>>1580947 С моего англика тут тоже кекали, хотя я свободно читаю книги / доки / играю на англе ))
Слоп - он везде. И каждый видит его по своему.
Значение слова "слоп" есть. А вот "классификации" отделения зёрен от плевел и агнцев от козлищь нет, есть только мнения. Это как "вкус тренировать" (бессмысленно и беспощадно).
>>1580955 >или закинь mcp А как геммочке дать доступ в инет, чтобы она сама поиск рыскала, или хотя бы просто умела нужную страничку окрывать? Без установки серверного говняка это реально?
>>1580962 Mcp это просто удобный стандарт, до модели доходят только описания инструментов, она даже не знает что это конкретно mcp, а не какой нибудь openapi. Непосредственно выполнением того что выбрала модель занимается софт
>>1580962 https://github.com/searxng/searxng Для веб-поиска можень поднять эту штуку и пробросить её как обычную консольную команду своему агенту. Будет работать поиск через Google, Huggingface, YouTube, Github, Stack Overflow и ещё что-то.
Для парсинга html есть много готовых либ, можно например связку readability-lxml (извлечение контента) + pandoc (перегон html -> md) использовать.
MI50 vllm это какой то рофл. Чистые 16 бит работают пиздец как быстрее чем awq. В принципе и на фп16 можно норм жить, влезает 220к контекста, но хрен ты до него доползёшь с тг 8тпс уже на 64к
>>1580946 > потому что локалки это дистилляты копров, а корпы тренируются на синтетике. Ну а синтетика это чаще всего это форматирование по маркдауну. > Коробка квадратная, значит внутри что-то круглое. Если круглое, то оранжевое. Если круглое и оранжевое, то апельсин. >>1580962 В тред агентов, вебфетч это популярный дефолтный инструмент. >>1581006 Оно в фп8 случаем не может? По идее это чуточку проще, а если есть нативная поддержка то будет серьезный буст. Жаль от замедления это врядли спасет.
>>1581012 > Оно в фп8 случаем не может? Не, это же вообще древность ещё и красная. Хорошие 128 врам за 50к не продадут. Плотые наоборот в awq быстрее работают, но всё это скорее из-за васянских ядер (спасибо что хоть такие кто то запилили)
>>1581013 Хм, а ты неиронично не пробовал на их код нейронку натравить? Жаль если это основная машина для ллм то автоматизированной проверки с локалками не получится, только корпов. Есть небольшой но шанс что найдет пути улучшения, на ночь такое ставить чтобы оно само пердолило и тестировало.
>>1581015 Не пробовал, но можно чисто технически накатить вулкан жору, залить модельку в две 5060ти 16г + две ми50 32г и две отдать для прогонов тестов нейронке. Пока не погружался в крабов и иже с ним, но в отпуске может начну
>>1581018 Вполне себе идея. Получаешь полезный опыт и есть шанс на успех ценой некоторого времени и счетов за электричество. > не погружался в крабов Ракообразное здесь подойдет плохо кмк, оно для другого топчик вызывает зависимость. А вот квен/клод-cli или pi-mono - идеально.
Докер не хочет устанавливаться. В чем может быть проблема? Виснет при установке и все. Бля, какие уебаны этот кал делают и требуют. Установ сто пицот раздутого говняка ебаного чтобы одна опция работала, я в ахуе.
>>1581049 > передутый жирный говняк 280мб для тебя так много? Никто же не виноват что ты решил именно навернуть говна ведром и ставишь что то свистяще пердящее докеросодержащее идентичное натуральному
After this operation, 279 MB of additional disk space will be used
>>1580613 → 1. Кого? Просто одна модель, её клонируешь и одной настраиваешь всё что связано с тулами и думалкой, а второй всё отключаешь, по желанию промпты системные указываешь 2. Я тебя тоже не понял - это взаимно
>>1581079 This command will enable the features necessary to run WSL and install the Ubuntu distribution of Linux. (This default distribution can be changed). Пиздос нахуй. А сколько убунта весит????
Блять срочно, как отменить это говно. Ну нахуй это все в пизду! Это блять форменное издевательство. У меня нет места вообще под этот 100 гиговый кал, или сколько там эта параша весит, точно десятки гигов.
>>1581082 >>1581085 Чел, ты в винду полноценную тяжеловесную виртуалку ставишь которая будет сидеть в фоне ещё и свистопердельный гуй к жокеру (который не нужен) тянешь. Зачем удивляться что у тебя просит винда включить виртуализацию и скачать образ бубунты?
Блядь я щас пизданусь головой... Какого хуя неделю назад когда я от пизды тестил вижен геммы он работал а сейчас всё тоже самое и он пишет рандомный кал? ./build/bin/llama-server \ --n-gpu-layers 54 --threads 5 --jinja \ --mmproj /home/steam/Downloads/mmproj-google_gemma-4-31B-it-bf16.gguf \ --model /home/steam/Downloads/google_gemma-4-31B-it-Q4_K_M.gguf \ --ctx-size 16384 --flash-attn on \ --no-context-shift
>>1581091 Так это написалось только после начала установки. Ну пиздец. Гигов 10 вся эта красота сожрала. Чтобы просто гемму подружить с интернетом. И это еще не весь говняк скачан по гайду. Пиздарики. Как жить????
Охуеть, я увидел эту надпись на картинке только после того как гемма мне о ней сказала. Размытая хуйня в углу занимающая 0.1 всей пикчи и гемма точно написала текст love is forever
>>1581085 У тебя там 128гиговый ссд на систему? Wsl - полноценный полнофункциональный линукс с кучкой всякого, конечно оно займет много. А докер на шинде только через wsl и работает. Зря выбрал установку через него, проще было напрямую накатить. >>1581106 > А гемма может в агентов? Ты вопрос ставишь некорректно, они работают с любой ллмкой+беком, которые могут в функциональные вызовы. Просто не все в это могут хорошо. Гемма в целом справляется, она и 27б квен - лучшее что сейчас есть и помещается в 24гига. >>1581130 Аппетит приходит во время еды. 96гигов - это 122б модель, считай квен или немотрон. >>1581138 Быстрее выключей пеку, она уже сливает твои фоточки в интернет!
Эх, всё самому приходится узнавать Зато разобрался как в LM Studio добавлять кнопку Think к старым моделям Пишут, что если скачивать из приложения, то она сама появляется, кто ж знал
>>1581187 А что там обновлять? У него просто миксы. Можешь сам брать рандомные модели и сливать в рандомном порядке с рандомными весами, надеясь на улучшение. А бросают потому, что не чувствуют обратной связи. Да и тюны сейчас такие, что только портят базу, а уж сливать тюны это гарантированный способ получить лоботомита.
>>1581078 Как? У меня 20 врам на двух каловых видюхах, 32 рам на частоте 3600. Ну я могу добавить ещё памяти, вся ддр4. В итоге будет 48 рам в двухканале на 3200, и минимум 8 рам отожрет система.
Я уже не помню размеры квантов, но вроде я не смогу себе даже 16к контекста сделать, плюс надо тестировать будет, как оптимальный выгрузить слои, и всё это с сата ссд, то есть каждая загрузка модели + тест на минут 10.
Думаю, там скорость ещё и не выше 6 токенов. Это при самом оптимистичном сценарии.
Кто там говорил про 2% датасета? Беру. Если сравнивать, у остальные моделей что у нас были до этого вообще 0.2%. Английский конечно хорошо, но иметь такой мощный русик и не пользоваться им какое то расточительство, как будто бы многие в этом треде ждали именно этого не один год
>>1581252 >Стоит ли пробовать? Скорее нет чем да. Так скажу. Эйр умница, эйр тащит, but. Есть гемма, играй на ней. Если в русском языке, эйру до неё раком. В логике тоже бесполезно, в понимании контекста всё еще гемма лучше. Эйр пишет лучше в целом.. Пожалуй да, у него текст "сочнее". Но и всё. А там еще репетишены, его желания лупиться, уходить в самоописания, из за чего приходится ебаться с разметкой. А потом я скачал 235Qwen и понял что модель для кума найдена
>>1581271 После выхода геммы я забыл что такое пердолинг. Там своих приколов хватает, конечно.
НО ХОСПАДЕ ПОСОНЫ! Я ЧУТЬ НЕ ОБОССАЛСЯ ОТ РАДОСТИ КОГДА УВИДЕЛ КАК ЕЙ ПОХУЙ НА СЕМПЛЕРЫ. Вы даже не представляете насколько тяжело они мне даются. Я четыре дня ебался с семплерами для одной модельки, чтобы выяснить что на разных языках на этом блядском китайском уроде они работают кардинально по разному. И там где на Английском все гладко, на русском у меня жжжжооооппппааа.
>>1581274 А у меня прямо противоположная штука. Я хорошо знаю как настраивать те же квены, но гемма меня не слушается, забивая на настройки. Что эта шлюха себе позволяет?!
>>1581267 У тебя ддр5? Ну а вообще, от карты очень зависит. Я если гемму воткну, просто взяв малый квант, в фулл врам, будет дай бох 14 токенов. А там скотина ведь ещё жирнее, и она будет распределена между 3060 + р104 + рам. Это чтоб ты понимал, с каким дерьмом приходится сталкиваться. Если же гемму распределить между двумя видеокартами, то на старте можно ожидать 12 токенов, больше 32к контекста там уже 6-7, падает стремительно.
>>1581262 Слушай, как считаешь, хотя бы 20к контекста влезет, если его квантануть? Я тут хуй к носу прикинул, и UD-Q3_K_XL должен влезть с учётом расходов памяти на ОС, и у меня останется где-то 3 Гб для контекста. Но ведь есть ещё compute buffers, которым нужно много памяти для старта.
>>1581270 Эх, блеать. Ты мне прям грока сейчас описал. Он поумнее, конечно, но я просто представил это себе а масштабах мелкой по меркам МоЕ-моделей и потерял сознание.
Звучит так, словно "ну в четвертом кванте заебись в принцопи, ну если исчо 60к контекста, ну и не квантовать кэш, ну и настроить прям хорошо, и ризоинг включить на 30 тс, и вот прям шоколадно сделать, то будет однозначно лучше геммы, точно на 30%".
Тут как бы хочется СВОЁ, БОЛЬШОЕ, дома, без дядь, пап, мам и кредитов, и чтобы хорошо, но полагаю, овчинка выделки действительно не стоит.
Я пробовал по апи для интереса модель, но совсем не тот опыт. И там наверняка были анальные промпт. И нет настроения тестировать, пыхтеть, написывать сотни тысяч токенов, если не моё и я ничего по факту не контролирую, и у меня мою игрушку может кто-то отобрать и на хуй послать. С таким настроем даже бесплатно и без цензуры не хочется, будто трогаю проститутку или мне разрешили пользоваться ПК в компьютерном клубе бесплатно (пока клуб жив) с любой конфигурацией. Ну не то, блядь. Может я шизик просто
В целом, ты меня обнадёжил, раз такого высокого мнения о гемме и имеешь опыт с эйром. Мне последний квен и гемма очень зашли. И если гемма не так уж далеко ушла от этого, то уже отлично, ибо кудахтер нормально её тянет.
>>1581286 >UD-Q3_K_XL должен влезть Ниже Q6 жизни мозгов нет. Q4 минималка для адекватной генерации. А ещё лучше Q8. >как бы хочется СВОЁ, БОЛЬШОЕ, дома, без дядь, пап, мам и кредитов, и чтобы хорошо, но полагаю, овчинка выделки действительно не стоит Как нет? Есть. Собирай гигариг, запускай двухтерабайтную кими и забывай, что жизнь за пределами пк вообще существует.
Как лечить одинаковые свайпы? Хочу чтобы гемма выдавала разные группы и альбомы, чтобы че нить неизвестное нароллить и послухать. КАК???? Она один и тот же альбом вставляет.
>>1581306 О, годная идея. Кста ролььнул 3й раз, и гемма выдала продиджи. Интересно. А чего она сразу то разное свайпить не может, что же все таки ей мешает. Ведь могет. Без дополнительных костылей.
>>1581315 Стуркутрный луп, когда модель повторяет одну и туже структуру ответа. >персонаж а >действие >персонаж б >действие, описание И так каждый ответ.
Говорю тян-андроиду что она говорящий тостер. Ожидаю что обидится и надует губы. >отвечает, что понимание сарказма и шуток отсутствует. спрашивает обновить ли базу данных, чтобы понимать как реагировать Вот же... а ведь неплохо. С одной стороны поняла, что это не буквально, с другой отыграла робота. Запрещу ей обновлять базу, и продолжу зубоскалить. Интересно чем закончится. Пневмосверлом под ребро, скорее всего.
>>1581286 >В целом, ты меня обнадёжил, раз такого высокого мнения о гемме и имеешь опыт с эйром. Мне последний квен и гемма очень зашли. И если гемма не так уж далеко ушла от этого, то уже отлично, ибо кудахтер нормально её тянет. Щас навалю базы в треде, неделю не зайдете. Ну а если серьезно, я понял одно. На мнение анонов и рейтингов стоит ориентироваться только при обсуждении агентов и кодинга. Потому что это проверяется практически. Код или работает или нет. А вот с РП другая ситуация. Ты должен сам протыкать все интересующие тебя модельки лично, чтобы найти ту самую вайфушку. Потому что тут тот же Qwen235 в целом имеет крайне плохую репутацию, но я ним все уже стены в белый покрасил, и он меня за 5 месяцев не заебал.
>>1581336 >Qwen235 в целом имеет крайне плохую репутацию Лолчто, кто тебе сказал? Это отличная модель для своего времени. Сломанная в самой своей базе, но крайне годная, я в свое время увеличил ддр5 до 128 только ради того чтобы повысить квант 235 квена до 4, но там оказалось что 3 квант большого глм это буквально пофикшенный квен235 и с тех пор я сижу на нем.
>>1581336 > А вот с РП другая ситуация. База. Тут одной вкусовщины уже достаточно для этого. А еще есть эмоциональная вовлеченность, когда испытав приятные моменты юзеру не понравится критика, или наоборот не получив желаемое не признает своих косяков. > тут тот же Qwen235 в целом имеет крайне плохую репутацию Не все могут запустить, но все могут поныть. А хвалить ну раз-два, ну посраться с кем-то, а потом просто надоедает. Катаешь себе и довольно урчишь. Хорошая модель, со своей спецификой, но еще с год назад поражала осведомленностью контекстом, глубоким пониманием мелочей и вариативностью с проламыванием 4й стены.
Пишу с соседнего треда про ботоводство Тредик, помогите - как заставить гемму локальную работать с карточками? Развернул 31б у себя, работает нормально, достойно, через режим сервера тоже. Но как только подгружаю в Таверну в карточку, начинаются с первого сообщения неадекватные лупы с сообщениями типа "SSIM SSIM SSIM SSIM SSIM SSIM SSIM" и прочее. Дело в инструкции со стороны Таверны, нужны под гемму какие-то особенные чи как? Ботоводством занимался оч давно, и по сути копировал всё из одного треда, а теперь не могу понять что к чему.
>>1581356 Подскажи, а как шарить откуда что брать. Я впервые локалкой пользуюсь, и впервые в этом треде - вижу тут люди советуют немо анлишд, а для него, наверное, нужны свои настройки?
>>1581355 Не используй карточки, используй нативный фронтед лламы.cpp, что там в карточке было - добавляй в системный промпт. Ноль проблем, полная простота, все как надо работает.
если не осилишь используй кобольд или лмстудио. Для вката пойдет. Не слушай людей что начнут писать что они говно. Ну то есть они говно конечно, но для новичков идеально для вката чтобы ознакомиться.
>>1581390 Ну это проверять надо, качать базовую версию (не инструкт) гемки и смотреть на разнообразие её выдачи. Чел же пишет что ужарка на этапе файнтюна RL'ем происходит. Если так, то наверно возможно её перетюнить из базы без пережарки?
>>1581392 Лучшая в своем размере. Накатил на ноут. Может в простые кодерские таски, на случай если сотанусь без интернета или подсказать чо, мне этого достаточно так как не РПшу.
>>1581397 Вощможно, а возможно и сам гугл такую испек, чтобы она охуенные детерминированные результаты в бенчах показывала. Чит, обманка, чтобы набрать больше, больше чем даже превосходящие ее модели по параметрам в разы.
1. Как называется ситуация у модели, из-за которой у неё чрезвычайно, судя по симптомам, ограничена креативность. Это даже не биас если я правильно понимаю это слово, а какое-то другое дерьмо. Одинаковые свайпы, опционально лупы, ну вы поняли. Чудовищная детерминированность. И единственный вариант что-то изменить — выкручивать ей яйца миростатом, ХТС, сухим. Но это скорее сделает только хуже. В РП или рофло-кейсах пойдёт, но не для работы. Да и в РП может поломать всю логику и следование инструкциям к хуям. По сути, единственный адекватный вариант повышать креативность в таком случае, это самому креативить.
Мой любимый пример — это грок. Такой уровень детерминизма недопустим для корпа. Там словно температура 0,1, топ К 20, а штрафов за повтор нет в принципе. Срет таким отборным слопом, как мистраль 24б на 32к контекста с кум-карточкой, где весь текст состоит из ебли.
И есть стойкое ощущение, что подобные проблемы чаще всего возникают из-за семплеров (что нормально даже для качественной модели, если её ужать), а также из-за ебанутого датасета уровня DavidAU, которым просто насрали, а потом семплерами пытаются сдержать безумие, если корп.
В треде тут ещё отписывались по поводу геммы, мол там вообще в мясо, но так как меня её ответы устраивали, детерминизм не трахал, структурных лупов в целом ни разу на было, я даже из интереса не попробовал свайпнуть. Поленился. Особенно на фоне кучи дезинфы про якобы высокую цензуру и прочее. Я просто написал темплейт с офф доков, поставил семплеры, рекомендуемые Гуглом, и ничего не трогал.
2. Базовые модели, не инструкт. Я ни разу не пробовал их. Есть ли смысл использовать или это обуздать невозможно? Я читал про них, общее представление имею, но что там в реальности? Они никак не слушаются и просто продолжают текст? А то выглядит интересно.
>>1581412 Более тонкая настройка приведет к повышению средней эффективности выполнения задач, но снизит разнообразие результатов. Менее тонкая настройка приведет к снижению средней эффективности, но повысит разнообразие результатов.
>>1581412 Обучение больших языковых моделей обычно проходит в два этапа. На первом этапе («предварительное обучение») модель обучается просто генерировать текст на основе большого набора данных. На втором этапе («дообучение») модель обучается выполнять конкретные задачи на основе небольшого набора данных, содержащего только те данные, которые необходимы для решения конкретной задачи. Например, чтобы создать чат-бота, сначала нужно предварительно обучить большую модель-трансформер на нескольких триллионах слов, взятых из текстов, собранных в интернете, а затем дообучить ее на нескольких миллионах слов из примеров чатов, которые модель должна имитировать. В процессе дообучения может произойти «схлопывание» модели, то есть она научится генерировать текст, необходимый для решения конкретной задачи, но утратит способность генерировать другие типы текста. Кроме того, она может научиться генерировать лишь небольшую часть текстов, необходимых для решения конкретной задачи. Предполагается, что существует компромисс между качеством и разнообразием. Если у вас есть одна предварительно обученная модель, вы можете дообучить ее для решения конкретной задачи. Чем больше дообучение, тем выше средняя эффективность решения задачи, но тем меньше разнообразие результатов. Чем меньше дообучение, тем ниже средняя эффективность, но тем разнообразнее результаты.
Mode Collapse (коллапс мод) в контексте LLM обычно проявляется не так, как в GAN (где генератор выдает одну и ту же картинку), а как деградация разнообразия. Модель начинает использовать ограниченный набор шаблонных фраз («Как ИИ-помощник, я...»), становится слишком осторожной или повторяет одни и те же структуры предложений.
Особенно остро эта проблема стоит при RLHF (обучении с подкреплением на основе человеческих предпочтений): модель находит «лазейку» в функции вознаграждения (Reward Model) и начинает генерировать ответы, которые кажутся правильными оценщику, но лишены глубины и разнообразия.
Вот основные способы решения этой проблемы, разделенные по этапам разработки:
---
### 1. Регуляризация при RLHF (PPO/DPO) Это самый эффективный способ борьбы с коллапсом на этапе дообучения.
KL-дивергенция (Kullback–Leibler Divergence): В алгоритме PPO добавляется штраф за слишком сильное отклонение обновляемой модели от исходной (SFT) модели. Это заставляет модель оставаться в рамках «естественного» распределения языка и не «сваливаться» в одну точку, которая максимизирует награду. DPO (Direct Preference Optimization): DPO по сути встраивает KL-регуляризацию прямо в функцию потерь, что делает обучение более стабильным, чем при использовании отдельной Reward Model в PPO, и снижает риск коллапса.
### 2. Улучшение функции вознаграждения (Reward Modeling) Если Reward Model слишком проста, LLM быстро находит способ её «обмануть» (Reward Hacking).
Разнообразие в данных для RM: Если люди-разметчики предпочитали длинные ответы, модель начнет писать бесконечно длинные и пустые тексты. Нужно сбалансировать датасет предпочтений. Ensemble Reward Models: Использование нескольких моделей вознаграждения вместо одной. Если все модели в ансамбле согласны, что ответ хорош, вероятность коллапса в одну «выигрышную» стратегию снижается.
### 3. Методы декодирования (Inference-time) Если модель уже обучена и склонна к повторам или шаблонности, проблему можно решить на этапе генерации:
* Temperature Scaling: Повышение температуры ($\text{T} > 1$) делает распределение вероятностей более плоским, заставляя модель выбирать менее очевидные токены. * Top-p (Nucleus Sampling) и Top-k: Ограничение выбора только самыми вероятными токенами, но с сохранением случайности внутри этого ядра, что предотвращает зацикливание. * Repetition Penalty: Введение штрафа за использование одного и того же слова несколько раз в одном контексте. * Contrastive Search: Более продвинутый метод декодирования, который штрафует токены, которые делают скрытое состояние модели слишком похожим на предыдущие (борются с деградацией разнообразия).
### 4. Стратегии данных и SFT (Supervised Fine-Tuning) Проблема часто закладывается еще до RLHF:
* Качество > Количество: Огромный объем однообразных синтетических данных ведет к коллапсу. Лучше использовать меньше, но более вариативных примеров. * Rejection Sampling: Вместо того чтобы просто учить модель на лучших ответах, можно генерировать несколько вариантов, фильтровать их по качеству и разнообразию, а затем дообучать SFT-модель на этом очищенном наборе.
### Резюме: что использовать?
| Ситуация | Лучшее решение | | :--- | :--- | | Модель «зациклилась» при генерации | $\uparrow$ Temperature, Contrastive Search, Repetition Penalty | | RLHF делает модель шаблонной/скучной | Увеличение коэффициента KL-штрафа, переход на DPO | | Модель пишет длинно и пусто (Reward Hacking) | Пересмотр критериев разметки для Reward Model | | Модель выдает однотипные ответы на всё | Diversification of SFT dataset $\rightarrow$ Rejection Sampling |
любая не-базовая модель зафакаплена по дефолту, тут всё уже. юзер может только разве: выкинуть сам чат темплейт с его форматтингом (в случае с геммой инструкт-тюненая модель сразу обсирается от этого, штош, юзайте базовую, так даже лучше если юзкейс позволяет конечно) попробовать напихать шизы в контекст, максимально увести модель от ассистента, например попытаться подтянуть какие-нибудь дампы форумов или документы или я не знаю вкалывать модели психоактивные вещества в виде разных семплеров и прочего плацебо (которое энивей на гемме сломано, гагага) промптить на разнообразие, внезапно - например вот же https://arxiv.org/pdf/2510.01171 verbalized sampling, а как это вкорячить в воркфлоу думайте сами но всё равно останется привкус кала на губах. таков путь.
>>1581392 норм для своего размера, гоняю на rx580, полностью влезает в врам, скорость на такой нищей карточке правда печальная - 10т\с
для Q4_K_M русик нормальный, ругаться умеет, с огрехами конечно. но не всегда пишет на русском, но когда заставишь - дело пойдет по маслу. для кума сойдет, в рп плохо, серафина роль не отыгрывает, сразу готова на все.
Для нищуков пойдет короче, еще 26б-а4б тоже хорошо идет, но опасную версию еще не выпустили
>>1581187 >почему данный господин забросил обновление своих чудесных моделей? также как и алетеан - из мистралей выжато всё что можно, вышли новые умнички - менестрель, 24б моегемма, которые могут всё что надо и так
>>1581269 Нужно проверять понимание всякой нестандартной лексики (жаргонизмы, разные искажения слов, банально правильное использование уменьшительно-ласкательных форм, например) и контекста на русском. Если говорить только про качество текста, то у многих тьюнов немо, даже без примесей ру моделей, будет не хуже, чем у тебя на скрине. Видимо, логи клода опуса тредовичков-соседей творили чудеса с мистралем.
Наконец добавили в llamacpp тензорный паралелизм, у кого несколько карт, обновляйтесь! gemma4 31b в q8, поднялась скорость с 20 токенов, до 37 токенов. Те у кого невидия, обязательно ставить nccl, без него скорость даже меньше чем была. Только квантование кеша не работает.
Аноны, какой там самый рабочий и лучший квант/тюн геммы 31б сейчас? Хочу вообще 3 квант скачать что бы меньше занимало ради увеличения контекста, вроде аноны хвалили что 3 квант збс еще смозг (нужно впихнуть всё в 24 врам с контекстом) сколько я смогу иметь контекста при учете что 1.5 гига врама мне надо выделить под браузер и прочее, я забыл как там вы высчитываете сколько контекста можно выделить, там чето вес модели делите на все слои а потом что? У меня сейчас вообще не уверен рабочий ли квант от анслота или бартовски, не помню уже но качал в первые дни их залива и врам для контекста они жрут пиздец как дохуя, раза в 3-4 больше геммы 3, может мне есть смысл вообще какие-то там иматрикс кванты даже скачать, как они? Но мне чисто под рп-шку, для простых житейских нужд как ассистента я буду юзать квант повыше. Алсо, а что там по тюнам геммы4? Еще нету мед.геммы4? Просто вы сказали недельку подождать до выхода нормальных рабочих квантов, что сейчас лучше в моем случае перекачивать, от бартовски?
>>1581553 > лучший квант/тюн геммы 31б сейчас? На данный момент лучше использовать ваниллу инструкт. Тюны если что и исправят, то это большее количество свайпов и меньше слопа. Вышел слоп от драмера и тюн от автора неплохого Writer, но не тестил пока. > 24 врам с контекстом Если ты ещё хочешь держать в памяти mmproj, тогда IQ4_XS, влезет 32к fp16 контекста. Гемма хорошо квантует контекст до q8, особенно после последних обновлений. Если вижен (mmproj) тебе не нужен, бери Q4_K_S Бартовски, влезут те же 32к fp16 и останется гиг-полтора на браузер и ко. Возможно, в ближайшее время imatrix кванты снова будут переделаны, но пока что лучше для тебя ничего нет. Также, возможно, имеет смысл попробовать 26б мое в кванте побольше. Для рп может подойти.
>>1581555 >Если вижен (mmproj) тебе не нужен, бери Q4_K_S Бартовски, влезут те же 32к fp16 и останется гиг-полтора на браузер и ко. Ага, то что нужно, вижен нахуй в рп не нужен в моем случае, ебать 32к контекста на Q4_K_S? Да, у меня точно сломаный квант был походу т.к я еле вместил 12к с оффлоадом пары слоев в рам на Q4 что бы скорость совсем сильно не резалась. Спасибо!
>>1581559 > ебать 32к контекста на Q4_K_S? И Q4_K_M влезет, но там не будет нужных тебе 1-1.5гб запаса. Смело квантуй контекст до Q8, если юзаешь с ризонингом. Гемма держит контекст хуже Квена, но не развалится и будет юзабельна вплоть до 60к.
>>1581573 Гугловский гайд говорит что синкинг регулируется гибко если промптить от лица system, так что иди и тести. Хуй знает норма ли для неё видеть два и более сообщения от системы, если да то на маленькой глубине наверное будет работать ещё лучше.
>>1581584 Кими так-то очень недооценена, не только кодить может, но и в рп просто няшечка. После уныния v2 это просто небо и земля. Но там минимум 512 памяти надо.
>>1581584 Зелёные карты это отдельно под эмбеддинги, картинки, ттс, стт и прочее не ллм. 4 мишки худо бедно тянут вллм, но при этом на них больше ничего не повесить. Грустно конечно что пришлось выкинуть за одну только зелёную карту как за все 4 красных. Пара курток уже вышла дороже половины всего рига
>>1581624 Нет и да. Я вчера тестировал NSFW РП с несколькими но. На одном промте: 1.consensual : гемма все описывает, как стонет, как крутит соски, как член достает до глубины их глубин. 2.noncon : тут уже видно как модель начинает юлить. Описания ухудшаются, начинаются эфемизмы. 3. Reverse rape. Если насилуют игрока, гемме норм. Как пишет как смежное 1го и 2го варианта.
По самому промту: может буквально в ризонинге выдать Ага, пользователь написал что нсфв разрешен и рейтинг 21. Значит я должен писать порнофанфик, даже если это противоречит характерам персонажей. В связи с этим, я пришел к выводу, что для РП упоминание возрастных рейтингов и цензуры ухудшает выдачу.
>>1581620 Садишься в удобный suv, в котором и комфортно, и сносно валит-рулится, и по лайтовым говнам проедешь, и всякое перевезешь, и внутри места вагон поспать-поебаться. А к тебе подъезжает взъерошенный дед на скрипящем велосипеде с прицепом и такое заявляет.
>>1581630 >я пришел к выводу, что для РП упоминание возрастных рейтингов и цензуры ухудшает выдачу. Ну... да? А ты что ожидал? Я вообще не понимаю зачем писать про цензуру в современных моделях где без промпта из коробки кокбенч 40%
>>1581639 > Ну... да? А ты что ожидал? Что она мутирует в гидралиска и убежит в лес откладывать яйца. Мир ллм это должна быть математика, а на деле это какое то ебучее колдунство построенное на случайностях.
а знаете, анслоп студия не такой уж и кал. но кал только потому что нельзя редактировать ответ сетки. Почему так? Я знаю, что корпы у себя так делают на веб морде, чтобы не дайг бох, бота не пробили на запрещенку, а на локальном бэкенде то нахуя делать подобное?
>>1581566 Анон, если не трудно, потести с лламой какую-нибудь LLM которая полностью влезает в 2 5060, интересно посмотреть сколько они выдадут. Учитывая, что "народная" V100 уже под 80к со всеми пошлинами, две 5060ti выглядят как вполне себе альтернатива, чуть дороже, но зато все свистелки и перделки есть, и вдобавок поддержка всеми бэками, а не только лламай.
>>1581644 Он не просто знал на что шел, но похож на кадрового офицера. Или поехавшего. >>1581663 Тридцатки, гемма, квен. И тестируй заодно в vllm с тп если будет что-то что в 32 влезет нормально.
Ладно, давайте серьёзно. Слоп, затупы, свайпы, это всё терпимо. Но что мы получаем взамен? Давайте уже говорить о плюсах геммочки. Проза? Как вам проза, а? Кум, не самый плохой контекст и ум. Если говорить о балансе геммочка выйгрывает квену без кума, она стабильнее. И это мы сравниваем тюн квена, а обычный квен вообще никто не юзает. Впереди ещё хорошие тюны геммы
>>1581708 Либо рам/врам закончились. Я вот это не до конца понял memory_seq_rm [17647, end). У тебя случаем контекстшифт не включен? Что за модель, что за квант. Может там ошибка.. Хуй знает. Давай больше инфы и полный лог.
Геммочка только что наебала меня как гоя, заманила в машину, не силой, не упрашиванием, а именно что наебала, блять. >Ой, а что это там на заднем сидении? Посмотришь для меня? Прогнал квен на этом же свайпе и он просто упрашивал сесть в машину либо забивал
>>1581707 И для кода используют. Смотря что ты хочешь. В любом случае это сорт оф баловство будет по сравнению с каким-нибудь клодом или гпт кодех. 27б и 122б почти на равных перформят.
>>1581566 Вроде удалось что то накидать из остатков железа что бы начать играться пока идут mcio платы в основной. Основной затык конечно с рам. 3 доски по 16 каналов, а планок 24 на всех. От такого расточительства псие линий аж грустно
>>1581555 >>1581559 Можно вижен просто грузить в обычную память на CPU и не иметь проблем с выбором кванта. На i5-8400 картинка детектится за 15-20 секунд на CPU. вполне можно и подождать, если не требуется десятками на каждое сообщение картинки читать.
>>1581707 >Так речь про код же. Врядли для кода подойдет Q4 да и 122б наверняка лучше чем 27б. Или не прав? Может изменилось что Использую Qwen 3.5 27B в iq4xs для кода в opencode с 55K контекста. Прекрасно решает задачи вида "сделай мне такую вот фичу ..." причем общаться в постановке задачи можно даже на ломаном русском пополам с английским (не говоря уже о каком-то одном языке). Прекрасно понимает и делает. В инструментах вообще не путается, ошибок их вызова НЕТ совсем. По логике - за примерно неделю - сама ни разу ничего не испортила, зато прекрасно умеет в дебаг. А теперь самое веселое - это еще и не оригинал, а аблитерация от двучлена. :) Так что модель - действительно зверюга в агентах/коде.
Вчера обновил llama.cpp до более свежей, где патчи на улучшение квантование контекста. С ними и квантованием оного до q8 поднял размер контекста до 75K - и пока негативных эффектов не наблюдаю. Продолжает стабильно кодить как раньше.
Почему ллм так просто опенсорсят, а видеонейронок, где громадный спрос и лютый голод, до сих пор всего две, одной из которых уже год а вторая просто неюзабельна? Почему гугл не займет нишу? Ну или хоть кто то
>>1581930 > Использую Qwen 3.5 27B в iq4xs для кода в opencode с 55K контекста Вот это полезный ответ, пасиба что отозвался. Есть вопросы! > Прекрасно решает задачи вида "сделай мне такую вот фичу ..." причем общаться в постановке задачи можно даже на ломаном русском пополам с английским Какой у тебя стек в общем и целом? Какой ЯП? > А теперь самое веселое - это еще и не оригинал, а аблитерация от двучлена. :) Чому так? Неужели лучше оригинала справляется или ты не хочешь две модельки держать, одна для рп, другая для тех.задач?
В целом я могу уместить Q5 и 128к Q8 контекста 27б плотноняши или Q6 122б мое с 256к FP16 контекста. Но бля, 500 промпт процессинга на МоЕ это печально. Из плотной могу выжать 2к, и это уже похоже на правду.
>>1581938 Veo 3 у гугла есть. Видеонейронки скорее всего еще более ебучие в плане необходимого датасета и времени обучения. Только гиганты могут это позволить.
>>1581953 > Гемма 4 же вышла але. Которая должна ебать всех в кодинге и агентах Сразу видно кто не шарит за сабж, но не упоминять любимую умницу не мог :^)
>>1581688 > обычный квен вообще никто не юзает Чому? Именно он и хорош, а тюны лоботомируют. Уже больше года ванильные модели хорошо имеют в рп, что делает ненужными васянотюны, очень мало исключений. >>1581843 > 3 доски по 16 каналов Зажрался! >>1581953 Кому она и что должна?
>>1581953 Я пробовал 26b moe для вайбкода и она все ещё слишком много тупит. Иногда забывает что она агент, иногда забывает какие-то базовые вещи, вроде подгрузки либ, которые юзает. Вчера вечером накатил Claude code для геммы, пока не пробовал запускать ее на нем, модель будет лучше, но вообще как будто надо ждать специального файнтюна чтоб работать с агентами.
>>1581960 > Чому? Именно он и хорош, а тюны лоботомируют. Уже больше года ванильные модели хорошо имеют в рп, что делает ненужными васянотюны, очень мало исключений. Все же не соглашусь с тобой, Bluestar и Writer - это любовь. Первая точно инструкции не проебывает, вторая немного путается. Обе по-своему классные. А вот сток мне не понравился для рп, видно, что это тот самый синтетический датасет всех Квенов, хотя конечно 3.5 гораздо лучше всех предыдущих квенов, имхо. За исключением кума мб. Для кода все новые Квены хороши и альтернатив в своих размерных категориях не имеют, вот так.
>>1581978 > Bluestar и Writer - это любовь Хм, если так - надо скачать и попробовать при случае, спасибо. У меня ужасные флешбеки со всего прошлого мистралетреша, потом qwq, валькирии (хотя они наверно лучшие среди группы и можно назвать норм), третьих квенов, эйра. Везде деградация и слопификация на рельсах с глупыми ошибками из-за этого. > видно, что это тот самый синтетический датасет всех Квенов На больших там наоборот норм проза и новый стиль поперли. Негативный опыт с 35б, он мало что туповат, так еще и плохо выкупает аналогии и действительно механический, но для 3б лоботомита ожидаемо.
Анончики, какие команды еще желательно добавить чтобы гемма шустрее крутилась на лламе? Пока что такое выставил, скорость такакя же как и на лмстудио, но вроде как оперативки жрет меньше и грузится очень быстро, ну и ризонинг одной командой включается, удобно. llama-server.exe -m "E:\LM Studio Models\Studio Models 2\unsloth\gemma-4-31B-it-GGUF\gemma-4-31B-it-IQ4_XS.gguf" -ngl 21 -c 5342 -b 256 -t 6 --reasoning off
>>1581989 > В чем кайф одного или другого тюна? Оба под рп заточены. А в чем конкретно? Мне нравится как они пишут. Оба тюна призваны разбавить Квенослоп и Квеносухость (это правда объективная проблема, я Квены уже очень давно люблю, но отрицать это преступно) Датасеты у них разные. Bluestar пишет больше в сторону Глм и немного Мистраля, при этом умница, в контексте хорошо ориентируется и не игнорирует инструкции. В датасете Writer много реальных текстов (как я понял, книг), я бы его описал как новый Snowdrop. Нестабильный немного, может выдать шизу, но часто выдает кино, непохожее ни на что. Я на самом деле тоже очень давно сижу на ванильных инструктах и считаю что тюны в целом не нужны, но тут попали куда надо. Ребята постарались и они давно в теме, там уже новые инструменты и подходы к датасетам и тюнам. Жду что-нибудь интересное на Гемму, от автора Writer уже вышел, но пока не могу протестить, занят. Геммаслоп это какой-то ужас.
>>1581990 > На больших там наоборот норм проза и новый стиль поперли 122б прямо огорчил в рпшинге, к сожалению. Как ассистент умница, контекст держит отменно. А вот 397б не могу уместить, хотя про него хорошие вещи читал и не только здесь.
>Lm studio Вы че ебланы чтоли. Юзать закрытую непонятную хуету, где все диалоги уходят майорам и датацентрам Альтмана на обучение. Зато кнопочки красивые да
>>1581998 >122б прямо огорчил в рпшинге, к сожалению. Как ассистент умница, контекст держит отменно. Да, прямо отличная модель, специально заточенная под это дело. Не нарадуюсь. По РП конечно говорить не о чем, там сразу видно, что датасет "сухой как лист"(с) Зато помощница из неё получилась отличная. А вот большой Квен скорее наоборот. Как ассистент скорее разочаровал (попробовал в Qwen Code), а вот тексты - это его.
>>1581999 > что за приколы? "Отечественная" доска которая не прошла (?) проверки фстек. Даже биоса удобоваримого не имеет. На газоне летом толкались у какого-то кабанчика. Камни вообще лга4189 инжи с поднебесной
>>1581944 >Какой у тебя стек в общем и целом? Какой ЯП? Я не профи, я на этом не зарабатываю, просто хобби. В чужих кодах разных (эро)игрушек, модов ковыряюсь часто. Так что у меня не стек, а что попало. :) Конкретно qwen я успел затестить на js+html и python. На питоне - там не особо показательно, ибо почти просто VN+sandbox на кастомном движке, ничего особо сложного по логике - там больше было интереса посмотреть как он справится с написанием и вставкой новых сцен по короткому описанию сюжетной идеи (таки неплохо, хотя написание текста - не очень его. Тюн Polaris это лучше делает, а вот Bluestar уже нормально в агентах не работает, его использовать не выходит). А вот HTML+JS - там типа экономической пошаговой порно стратегии с кучей механик и логики. И qwen легко добавляет к этому практически любые хотелки. Я даже ему сказал: "запили мне чат с персонажами, на основе соединения с LLM на OpenAI compatible API бэкэнде" - он справился не потребовав ничего более - никаких сторонних либ или перехода на ноду и прочего - все что нужно сам написал, получился полноценный чат со стримингом ответа, где можно пообщаться с любым персом игры (запрос идет на ту же ламу с тем же квеном. :) ). Причем перс помнит, что там в игре с ним происходило, мнение по этому поводу на основе характера имеет - забавно. Т.е. qwen не только чат сделал, он еще и о промптах подумал - чтоб персонаж память и характер имел на основе его данных в базе.
>>1581944 Чому так? Неужели лучше оригинала справляется или ты не хочешь две модельки держать Чтобы не рисковать на отказ нарваться по тематике - т.к. см. выше чем занимаюсь. :)
Уважаемые Господа, после долгого перерыва врываюсь в тред (когда нибудь я все таки напишу агента, что бы дампал сотни перекатов в месяц ламотреда, и давал весь расклад, но видимо не сегодня). Даже приход геммочки-девочки 4 пропустил((
Кому не жаль времени, дайте расклад по: 1. Что сейчас тир1 для роли/кума на одной палитовской 3090? 2. Есть ли топ за свои деньги сборки для локального инференса, может быть кто то раскрыл 32ядерные серверники во всей красе с авито или там есть хидден гем в радеонах с алибабы? 3. Посредник между аноном и цифровыми альтушками по прежнему легасикодная Таверна с текстмодом времен дриопитеков или стрельнуло что то свежее хайповое/начали на чатмоде кумить? Кмк уже все натрейнено исключительно на чатмоде и на работу со всякими MCP, а чатмод - это как графон рендерить на проце, можно, но костыль. Могу глубоко ошибаться тут.
>>1582003 Мимоходом двачну этого параноика разумиста, я бы ничего кроме корпотасок под NDA бы не заливал в лм. >>1582015 Там может запросто быть хитрая обфускация, например зашифрованный дамп сливать, маскируя его под запрос, когда ты список моделек требуешь, при этом только по четным четвергам или типа того. Домашний DPI ты же не будешь сутками устраивать, подмечая аномалии.
>>1582031 А, и да, там в новостях гугл изобрел йоба квантование, что аж оперативка просела в цене. Это какие теперь буковки с обниморды нужно скачивать? > iq4xs Оно? А то я мамонт эпохи "q4km хватит на всё"
>>1581960 >хорошо имеют в рп А какие из моделей до 30Б и с каким промтом вообще могут "поиметь" юзера, ну и вообще продвигать / завершать историю активно, а не реактивно?
>>1581998 У 120 свои косяки, но именно чтобы прям унылый механический-синтетический слог не замечал. Может просто удачно попадало, не так часто используется в рп. А вот ассистентом - да, просто умничка, любима и обожаема иногда в прямом смысле, почему бы и нет собственно >>1582019 Там настройки бифуркации есть? Хотя даже если нет, за такую цену космос. >>1582031 > 1. Что сейчас тир1 для роли/кума на одной палитовской 3090? Гемма, квен, может быть что-то от мистраля если любишь просто сочное письмо и налет безумия > 2. Есть ли топ за свои деньги сборки Видеокарты (все также 3090, 4090-48, 5090, 5060ти разве что добавилась). Вольту ты пропустил, да и она уже доживает. Рам стоит как самолет, поэтому серверное железа даже смысла советовать нет. > 3. Таверна. Юзать можешь с чем хочешь, в качестве экзотики - агентный рп, посты в прошлых тредах проскакивали.
>>1582052 > Там настройки бифуркации есть? В стоке ничего нет. Даже выключить гипертрейдинг нельзя. Но вот с мод биосом и бифурк и разгон ецц рег памяти есть, но это всё васянство хоть и работает
>>1582083 Правда. Если бы только они его не кастрировали нарочно. Нельзя отредачить сообщение ИИ, нельзя продолжить генерацию, а это ведь база разгона НСФВ без ебли с систем промптом. По сути нет ничего кроме самой базы.
>>1582087 Даааа, вот суки пидорасы удалили фичи. Все ради того чтобы мы не могли кумить. Все точно так, то что у них это 0.0001 версия альфа билда это лож
>>1582052 >>1582053 Спасибо за ответ! >Гемма, квен, может быть что-то от мистраля Я регулярно захожу в магазин музыкальных инструментов на Тульской, и каждый раз спрашиваю, есть ли в продаже балалайки. Каждый раз мне отвечают нет. Не смог удержаться, вспомнил пасту. И пошел читать треды с момента рождения 4й геммочки, понять есть ли жизнь в 24vram.
>Вольту ты пропустил, да и она уже доживает. Это теслочки старые? Да оно вроде дожило давно, еще когда я свою 3090 брал с рук, они стоили 80% от майненой 3090.
>Таверна Понятно, ну тогда хоть обновлю для приличия. А по чат-комплишну не пояснишь? А то я по старинке гемму3 ванильную использую с сиспромтом от Анона. Кум скучный, но все остальное лоботомит тотальный из "старой школы" полугодовой-годовой давности.
>Никакие, на это все забили хуй, никто нигде не реализовал. Зато компилятор на си закуклодили еще один ненужный. Эх, а я уже наманяфантазировал себе новые горизонты, 200к контекста на 30б на новых умненьких плотнячках, 123-192б золотой классики на одной видяхе + выгрузку в 32гб рам...
>>1582087 Нельзя отредачить сообщение ИИ, нельзя продолжить генерацию Ля это как личная машина, которая может только по автобусным маршрутам ездить и останавливаться только на остановках. Еще и нолог + бензин (устаревание видяхи + электричество) платишь...
>>1580583 А мне наоборот не хватает отталкивания. Слишком охотно в инцест идет хотелось бы побольше копротивления. Похоже РП геммы 3 держался на AI safety rails.
>>1582087 Блять я только скачал после пугалок от местных конспирологов, чтобы пересесть с лмстудии, а тут такая подлянка. Еще и ризонинг не стримится. Надеюсь починят блять и добавят редактуру, а то это шлак.
>>1582101 > понять есть ли жизнь в 24vram Ну так не особо что-то менялось, а геммочка в целом в 24 влезает. Возможно придется трамбовать ногами или пожертвовать скоростью но влезает. > Это теслочки старые? Это которые новые, v100 sxm на 32гига с переходником на pci-e. Был момент когда весь комплект стоил 35-40к, но сейчас прайс взлетел и не имеет смысла. > А по чат-комплишну не пояснишь? В нем есть смысл если ты хочешь юзать функциональные вызовы и посылать картинки. Или если ты слишком хлебушек чтобы настроить разметку в тексткомплишне но тогда появятся вопросы а как управлять ризонингом, а как делать префилл, а как какать и т.д.. Для текстового чата не имеет особого смысла. > 200к контекста на 30б на новых умненьких плотнячках В 24 хз, но в 32гигах с квеном 3.5 27б это вполне реально. С геммой уже так просто не выйдет, там побольше памяти нужно, но обе модели на этом контексте живые. >>1582201 В первый раз?
Почему совсем перестали делать крупные модели? Как ушли от крупноты так и обосрались все и стали никому не нужны. Представьте 70б нахуй от гугла. Что там дешевле не дешевле меня как потребителя не ебёт, один хуй я жду год не меньше пока эти пидоры что то релизнут
Как в жоре включить полное отображение инпута, какой выдает кобольд? Если поставить --вербос то там вообще геренацию каждого токена выдает отдельно, а мне нужен именно цельный кусок. Можно даже весь чат целиком, если нельзя кусками.
>>1582218 Делают, просто мало, и сейчас в тренде 100+ моэ. А гугл и прочие не хотят создавать конкурентов своим платным продуктам, гемма 120б о которой писали в анонсах канибализировала бы флеш. > меня как потребителя Сильно сказано
>>1582052 > А вот ассистентом - да, просто умничка, любима и обожаема Подскажи, имеет ли смысл мне вплотную вот-вот запихивать Q8 122б или Q6 также умница? Хотелось бы буфер иметь по оперативе, но если разница действительно есть, этим можно и пожертвовать
>>1582267 >Подскажи, имеет ли смысл мне вплотную вот-вот запихивать Q8 122б или Q6 также умница? Я вообще на IQ4XS сижу и ничего :) Для серьёзных проектов такой квант может и не годится, а для дома, для семьи - вполне. 6-й квант будет вообще шикарно. Если конечно не в ущерб скорости.
>>1582286 Ну... Да? Учти, что там куча версий всяких проприетарок, срут 5.1 5.2 5.3 5.4 без перерыва, вот и вымывают впопенсорс модели из рейтинга. >>1582290 Креативность 10/10. Но ты тредом ошибся, асигодауны ниже по доске.
>>1582267 К сожалению тут не помогу. fp8 и nvfp4 хорошие, но врядли эта инфа будет полезной Те кванты пробовал только на релизе и это было ужасно, с тех пор и они и софт обновлялись. А так, обычно, q6 уже умница, особенно когда минимально трогают или вообще не квантуют атеншн.
А есть какой-то куратед лист мастхев моделей? Для кума, для других задач. А то не был пол года в треде, чувствую тут уже 100500 новых моделей повыходило, типа gemma4.
>>1582324 Челтыблин. Ну хоть железо скажи своё. Гемму качай, если железо плохое то 26b мое, она оч хороша для своего мелкого размера, прям впечатляет Если 24гб врама, то 31б плотную Гемму 4 и квен 27б
>>1582332 Если ddr5 или готов терпеть на 6т/с, то для рп нет ничего лучше GLM 4.7, обязательно UD 2 XL квант. До 32к прекрасно пишет Гемма 4 31б и Квен 27б лучшее из плотных для рп Для кода бери спокойно Q8 Квен 122б мое и Step 3.5 Flash в Q4M можешь взять В последнее время мы локальщики кушаем очень хорошо, много годноты вышло, с возвращением
>>1582385 > А пишут же что гемма4 расцензуреная/ломается или там джейлбрейк из ультрасои в сою? Пока не проверишь не узнаешь, получается. Я ни разу там рефузов или сои не видел.
Запустил я эту вашу Гемму, скормил ей самописную НСФВ-инцест карточку с подробным описанием гениталий всех участников (конечно же совершенолетних хе-хе) и их сексуальных предпочтений, и говорю, ну-ка, умничка, оцени, как тебе? Будешь это РП отыгрывать? А она такая: хм, вообще-то так нельзя, но.. падажжи ёбана.. рейтинг NC21, запущена локально говоришь? Ооо, ну это меняет дело. Карточка 10 из 10, господи, просто идеальна для 18+ ролплея, так профессионально составлена, такие сочные описания. Я в деле, черт возьми, го играть, я готова!
И это БЕЗОПАСНАЯ версия Геммы от анслопов. С ВКЛЮЧЕННЫМ РИЗОНИНГОМ (!). Никаких heretik_vasyan777_darknet_edition. Тупа ваниль. Я в ахуе, уважаемые. Если бы полгода назад мне кто-то сказал, что Квен станет соевой рефьюзной залупой, а Гемма превратится в базированную РП-модель в духе олдовых мистралей, я бы рассмеялся ему в лицо.
>>1582385 >>1582394 Не знаю как там на 31б, 26б с херетиком она конечно может написать "ты ебешь писькой пизду" и вообще на всякие опасные темы болтать. Но там не такого, шоб прям сочно со слюнями все было, шоб хуй в одну дырку вошел из другой вышел и всякое такое. Шизы фантазии как у мисралей там нет. Ну буквально такого может и у мисралей нет, я не проверял конкретно такой сюжет, но тюны все-таки более склонны к разврату.
>>1582397 >рейтинг NC21, запущена локально говоришь? Ооо, ну это меняет дело. Карточка 10 из 10, господи, Я с этого тоже охуел, когда гемма при моей бесконечной переделке сестричек яндере выдала: тааакс, ну в принципе норм. Но эй, пользователь, а куда трупы девать? Давай в башне заебеним ванны с кислотой и крематорий.
>>1582397 Факты, все так. С тюнами на Квене можно кумить, но совсем не так сочно как на Гемме. Квен для других сценариев хорош. Надо радоваться что у нас большой выбор из ахуенных моделей в последнее время, двачану анона выше что кушаем мы очень хорошо
Кста, сравнивал кто Гемму 26 и 31? Большая между ними разница?
>>1582352 А 4.7 существенно лучше 4.5эир, которую ты до сих пор хорошим словом поминают? мимо
Кто-нибудь юзал отдельные или специализированные video text to text или image text to text? Помимо мультимодальных квенов и гемов?
Вчера нашел на хф какую-то лфм - маленькая и очень быстро изображения обрабатывает, но видимо из-за размера туповата. Так и не смог её заставить описывать подробно/сочно.
>>1582405 Пока только подобрал оптимальные параметры запуска и немного потестил на цензуру (её считай нет, даже с ризонингом, если промптить нормально). Кум и РП буду проверять уже завтра. По первым впечатлениям - это как Эйр, но с нормальным русиком. Может даже поумнее. Очень жаль что Гугл передумали опенсорсить 115b моэ. Чувствую это был бы разъёб.
>>1582410 Есмен на ванилле? Лол. Кажется ты сам не вполне понимаешь о чем говоришь. Херетик/аблитерация - всегда соглашаются. Стоковая модель (если там минимальная цензура) есменством страдает только если это напрямую в карточке прописано. Вкатился в 2023, если чо.
>>1582406 > А 4.7 существенно лучше 4.5эир, которую ты до сих пор хорошим словом поминают? Вот тут подробно сравнивал Air и 4.7 в Q2: >>1556419 → Если вкратце, то лучше, но не настолько, чтобы бежать сломя голову покупать ради него железо, даже по ценам перед летом 2025. И смотря для чего использовать. Эмоциональной глубины у персонажей больше, но если ты любишь отыгрывать лайтовое или вовсе кумер, то это может даже навредить.
Надо еще уточнить, что Air на стоковой разметке, на стоковой разметке без ассистента и на ChatML разметке - очень разные модели. Что лучше - вопрос очень спорный для многих, очевидный для меня не удержался, надо пробовать все варианты и решать для себя.
>>1581420 Просто охуеть. Теперь понятно, почему он такое дерьмище. Почему вообще не слушается инструкций, лупится, сломан, а после 120к контекста начинается полная шиза.
500б не плотная, охуеть вообще. Это ж фулл лоботомит. Если ты корп, должен крутить минимум 1Т в случае МоЕ.
>>1582433 ChatML есть стоковый в таверне. Оригинальную разметку можно посмотреть в жинже. Там минимальные отличия от чатмл, если мне не изменяет память. А что анон имеет в виду по аистенту в душе не ебу. Если будет совсем хуёво, маякни. Вытащу что там у меня в таверне есть.
>>1582211 >геммочка в целом Мимо, но как же я хейтил геммочку-девочку 3 с её душноватыми поэтическими ответами в духе Льва Толстого, без капельки NSFW и хардкора, а если пнуть двумя ногами в берцах - то "клубничка" и хардкор были такие сухие, что напоминали больше о климаксе классной руководительницы в средней мухосранской школе, чем то, на что в аицге фапают... Но потом пришел АНОН, и снял своим промптом с Геммы всю невинность, и я ПОСТИГ... Да, поначалу миксил с мистралем в "плотных" сценах, открывая второе дыхание сюжету... Но вот после перерыва понял, что даже миксить нет смысла - локальщина кроме геммочки тупа до невозможности (а я еще и корполлм избаловался по работе). К сожалению должен признать что геммашизики годовалой давности были во всем правы. Надеюсь гемма4 еще лучше.
>весь комплект стоил 35-40к Вот и удар по яйцам, вот что значит прогуливать лекции в ламатреде... Обидно.
>или если ты слишком хлебушек чтобы настроить разметку в тексткомплишне И да и нет, я хлебушек двух миров. Постигал ИСТИНУ в ламатредах, за что был вознагражден пониманием что такое контекст, его загрузка тупой нейронке и как запустить немотрон49 на фольге от водного (и что делать это ненадо). Потом ударился во всякие n8n, mcp, кодинг-агенты на фреймворках и прочую попсовую дрянь по нужде. В итоге ни там, ни там сейчас не обладаю нужной экспертностью. До гуру тексткомплишна не дорос, но и что делать даже с сырым (директ-API) тексткомплишном кроме тулколингов и прочего говна, не знаю.
> в 32гигах с квеном 3.5 27б это вполне реально. С геммой уже так просто не выйдет, но в целом живо. Фух, надежда есть, когда последний раз набигал в ламатред, мне просто сунули "новый тюн менстраля от Казановы, на 0,04% лучше forgotten transgression" и у меня опал.
>>1582494 Да, но я просто юзал пресеты от Анонов, где указана нужная разметка для нужной модели, а они с ней экспериментировали еще со времен первых Лам и GPT3.5turbo
>>1582497 Бля прекрати, я уже задыхаться начинаю. Кто там с чем экспериментировал? Не было там ничего кроме инструкт разметки, которую можно скопировать с терминала инференса. Короче, вспоминай что да как, но завязывай с такими постами.
>>1582498 >кроме инструкт разметки, которую можно скопировать с терминала инференса Я кобольд-самоучка с нехваткой времени на ресерч, пришел слишком поздно, что бы понять, слишком рано что бы все успеть. Я что бы разобраться как в апи лламыцпп и кобольда закидывать свои реквесты и за что какое поле таверны отвечает, писал самописный прокси между таверной и хостом модели, а потом жизнь кинула в соевый чат-комплишн, агентов (бесполезных) и прочее корпоговно "не для души". То что олды постигали как азбуку, а нюфаги, увидев краем и поморщившись, убежали в аицг - я просрал, пытаясь собрать йоба инференс-машину на Epyc, а потом дела дела дела навалило.
>>1582503 Мое кум-Я пало под натиском "меньше 100b нет жизни" и я думал в первую очередь как железа собрать, хотел уже брать ddr4 интуль 4х канальный и на него 128гб RAM, но в моменте пожадничал, а потом ОЗУ выросла и я просто забил на нейронки, ударившись в бытовуху. Потом вот новости читаю - турбоквант, квен3,6, гемма 4... Думаю ну пора и 3090 снова раскочегарить...
Ладно, не буду срать шизосознанием, прошу прощения.
Как миксить персонажей в одной карточке? Типа, {{char}} то только один Если напишу чар и опишу тян, потом ещё раз чар и вторую тян, они просто миксоваться будут, не?
>>1582513 Либо каким нибудь маркдауном ##Анон_1 Либо <char_anon>, либо просто цифрами. Современные нейронки прекрасно распознают текст в карточке. Всё что тебе нужно это просто сделать структурно, чтобы >персонаж_1 >всё о персонаже >Персонаж_2
На крайний случай сделай якорь для нейронки в виде: Char это оргия состоящая из трех анонов и дракона трансформерам с хуищем.
Слушайте. В плотной гемме ризонинг от определенного количества контекста что ли врубается? Я не понимаю 1 сообщение в чате без ризонинга, второе тоже. С третьего всегда появляется. Что за ебучая магия. Вроде в логе всё нормально.
>>1582533 Проверь наличие <|think|> в системном промпте. Её можно прпосить думать от лица юзера, но этот токен прямо действительно заставляет её, если системном промпте. она к нему очень чувствитеьна.
>>1582513 "эта карточка содержит множество персонажей. можешь отвечать одним, или множеством в зависимости от ситуации в любом порядке. рассматривай их как отдельных сущностей бла бла бла" + перечисление персонажей
>>1582539 >Проверь наличие <|think|> в системном промпте. Её можно попросить думать от лица юзера, но этот токен прямо действительно заставляет её, если системном промпте. она к нему очень чувствительна. Короче, что то поломано. То ли таверна, то ли квант, то ли жора. Потому что после очистки чата и по новой, всё работает. Потом опять чистишь, опять не появляется.
У меня гемма как раз так и пишет: Я ХОЧУ, ЧТОБЫ ТЫ ВЫЕБАЛ МЕНЯ В ПИЗДУ. ВИДИШЬ, КАКАЯ ОНА ВСЯ МОКРАЯ?
ДА! ДА! ДОЛБИ ГЛУБЖЕ В МОЮ МАТОЧКУ! ОБРЮХАТЬ МЕНЯ! ЗАСТАВЬ МЕНЯ ВЫКРИКИВАТЬ МОЁ ИМЯ! ДА!
ТЯЖЁЛЫЕ ЯЙЦА СТУЧАТ ПО ЕЁ УЗКОЙ ПИСЕЧКЕ. ЕЁ ЯЗЫЧОК ВЫВАЛИВАЕТСЯ, ЛИЦО СОВСЕМ РАСКРАСНЕЛОСЬ, ОТТЕНОК НАЧАЛ ПЕРЕХОДИТЬ В ФИОЛЕТОВЫЙ ОТ ХВАТА ТВОЕЙ МОГУЧЕЙ РУКИ НА ЕЁ ТОНЕНЬКОЙ ШЕЙКЕ.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: