В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Добавил в шапку ссылку на архивач и на местного миксодела-автора SAINEMO-reMIX (созидательную активность людей надо поощрять). У миксодела в закреплённых коллекциях всегда актуальный микс, чтобы шапку не обновлять.
Шалом анончесы. Есть кто-нибудь, кто пользуется арендой гпу? Как оно? Где арендовать? На своих 8гб заебался, апгрейдиться возможности пока нет. Такой же вопрос к сервисам типа опенроутера. Есть такие, которые у нас работают без ебли с оплатой?
>>972953 → Если ты считаешь общую память — то считай, что будешь сидеть без скорости, медленно, в режиме переписки ВК. А если хочешь быстрее, то считай только видеопамять.
Все. =)
>>973180 → Шо за шиза, братишка. =) Просто не знаешь жизни за МКАДом. Но оффенс.
>>972900 → Бля, я в начале хотел покекать, мол, чел на ЖЖ пишет, ебанути что ли? А там реально полный шиз же.
>Удивить не получится. По скорости эти 72 потока на Xeon'ах практически равны приличному Core i7 с 12 потоками. >И скорость больше определяется видеокартой. >На GeForce 1080 скорость где-то в 2.5 раза ниже, чем на 3080. И от объема видеопамяти много зависит. >В идеале нужна 3090 с 24ГБ памяти. Лучше две. Но этот блок питания две точно не потянет. Надеюсь, что хоть одну вытащит.
Он всерьез модели в 256 гигов грузит и так «да-а-а, 72 ядра не тянут… нужна 3080 видяха для скорости!..» А то что у него остаток (че там, Мистраль лардж, 100 гигов?) так и так лежат на оперативе — похую. И вообще, у него большой объем ОЗУ для обучения. Короче, взрыв мозга. ЖЖ в своем репертуаре. Приятного катать ему лламу-405б на оперативе в четырехканале 2400. Там же огромные 70 мб, небось.
>>973261 → Тебе скажут, что заебись, а я просто напомню, что в реальности, у тебя контекст гоняется по шине между картами, и если у тебя не PCIe x8 все слоты (причем эти х8 поддерживаются не только материнкой, но и процом!!!), то скорость обработки контекста умреть. А для других нейронок иногда даже разбить модели толком может не получится, и твои 96 не всегда 96, иногда 16.
Но попробуй, расскажешь, как дела.
>>973364 → Смотря с чем сравнивать. Если ты возьмешь модель на 28 гигов (с учетом контекста) и выгрузишь либо на две видяхи, либо на 4060 ти + оперативу, то в твоем случае с двумя видяхами получишь скорость заметно выше, и это хорошая идея.
>>973385 → Квантование, которому уже полтора года? Ну ты еще про тернарные биты и битнет нам новость принеси.
>>973409 → 1. Дипсик Кодер Лайт может дать норм скорость, можешь попробовать. А может и не дать, лул.
Но хуже квена 32, конечно.
>>973427 → Кстати, заметил, что несмотря на то, что виртуосо это апгрейд суперновы, она иногда странно отвечает, а у суперновы с ответами на эти же вопросы лучше.
>>973669 → Память и там, и там занята? no-mmap поставь, mlock убери, слои подбери ручками, контекст уменьши, поиграйся с настройками.
>>974208 Вихрь-ВЛ на базе квена что-то мог. Но другому тестеру не понравилось. Мольмо могет, но не в русский если до 12б, а в русский — 72б.
>>974275 >Просто не знаешь жизни за МКАДом. Но оффенс. 4000 км от Москвы. 4 теслы, 2 3090 (докупаю помаленьку). Кто в нейронки сразу поверил, тот клювом не щёлкает.
>>974101 → Ти лучше, конечно, нет проблем с охлаждением памяти на жопе. >>974125 → Хватит, на ггуфы лучше не смотри даже, только exl2. >>974147 → > 1. Файнтьюны ВСЕГДА отупляют базовую модель Потому что то не полноценные файнтюны с хорошими датасетами, а всратолоры на слопе дампов прокси. Ну и есть еще нюансы с особенностями тренировки, но это долго расписывать. > 2. Все так >>974208 > для описания сексуализированных картинок Если анимублядских то ToriiGate-v0.3, лучше ничего не выходило. Есть еще жойкапшн-2, но у него уж оче много галюнов и не видит мелочи. Из стоковых опенсорсных сеток нормально могут почти никто, molmo не пугается nsfw, но ориентируется плохо. Из корпоратов жемини внезапно хороша, но без жонглирования промтами и помощи ошибается как и все.
>>974318 > 1. Файнтьюны ВСЕГДА отупляют базовую модель напоминаю базу треда: 1. Мержи ведут модель к рандомной трудно прогнозируемой шизе. Но в одной целевой теме могут дать нефиговое преимущество. Так как РП комплексная задача требующая от нейросети высокой абстракции и комплексности, то рп-мержи мёртворождённые по дефолту. 2. Дообучение на синтетических данных хороший вариант, стабильненько, но модель глупеет по сравнению с базовой версией. 3. дообучение на вручную выбранных и сгенерированных людьми данных: базовая база, так сказать, мета объективный идеал.
>>974369 >поосторожничал с теслами. При той цене, которую они стоили в начале года (да до мая практически) там и риска-то особого не было. Я ещё и P100 одну взял, для опытов :)
>>974433 Лоботомит, способный только на описание пикч по указанным шаблонам для подготовки датасетов из пар картинка-описание или некоторой классификации изображений. Больше ни на что не годен, но что умеет - делает хорошо. >>974440 Тренсформерс, можно в 4битах бнб. Есть интерфейсы для батчей или самому написать.
>>974441 >Тренсформерс, можно в 4битах бнб. Есть интерфейсы для батчей или самому написать. Запускаю свежую Угабугу, выбираю Трансформерс лоадер, жму лоад - пишет, что не знает типа этой модели. Не хочет.
>>974487 > Оценивается клодом и гпт Жпт-мини за юзера, клод как судья. Ну и там Немо выше Ларджа, лол. Я бы не стал это недоразумение серьёзно воспринимать.
>>974367 ИМХО мегамиксы, супермержи из овер 9000 моделей сильнее рассыпаются от квантования. Лично проверил как шизомерж от сао10к перестал адекватно работать 70b даже на 4км, но мог что-то исполнить на q8.
> https://huggingface.co/t-tech/T-pro-it-1.0 Погонял этот кал, соя невыносимая. Даже на хохлов триггерится и просит уважения к ним, лол. На политоту хуже чем Афина отвечает, в мат плохо умеет, часто выдаёт бредовые словосочетания. Русский такой себе, хуже обычного 72В квена, хотя и может иногда неплохо в стиле русских писателей задвигать красиво. Этим долбаёбам надо запретить жечь электричество впустую, только углеродный след оставляют.
Сотрудник «Яндекса» создал сервис для запуска нейросети даже на смартфоне
Когда пользователь открывает платформу, на его устройство из облака можно загрузить модель Llama3.1-8B. Её размер уменьшен в 6 раз — она «весит» всего 2,5 ГБ
Исходный код проекта исследователь опубликовал в свободном доступе на GitHub, а протестировать модель можно по этой ссылке:
>>974469 Нет. Там ниже написаны скрипты-примеры, за счет хорошо прописанной библиотеки взаимодействие довольно простое. В аниметреде один анончик делал тулзу для моделей-капшнеров, поищи ее. В убабуге, лламацпп, кобольде и прочих не заведется. >>974473 Тому что: современный уровень моделей высок и с простыми вещами справляются даже мелкие; бенчмарк оче грубый и оценивает специфичные вещи, которые могут вовсе не отражать качество ролплея. Плюс ко всему промт инжениринг. >>974624 > Мимо олд треда. я тебя ебу
>>974858 Пожалуй тест пройден. Да с миксами там что угодно может быть, можно попробовать упороться и посмотреть на распределения значений в разных слоях и посчитать по какому-нибудь из критериев среднюю ошибку при дефолтном квантовании. Если дело действительно в их пахомовских распределениях из-за смешивания несочетаемого, то могут помочь адаптивные кванты.
яне давно тока вкатился, сейчас самый крайний тред ето девятый https://2ch.hk/ai/arch/2023-09-13/res/302097.html#302097 старее уже потёрли, я знайю что ето лолкальный мем лолкальные ЯМкаламбур и в каком бл конкретн треде он родился етот мем?! я чё должон весь перелолпатить прост хотел сохронить для истории
>>974367 >Так как РП комплексная задача требующая от нейросети высокой абстракции и комплексности, то рп-мержи мёртворождённые по дефолту. Хуйни намешал какой-то, лишь бы знаниями терминов выебнуться. Для 99% кумеров в рп самое важное это описание проникновения члена во влагалище и чтобы трусы по сорок раз не снимались. Это уже у нас начинается абстракция, или еще нет? >Дообучение на синтетических данных хороший вариант, стабильненько, но модель глупеет по сравнению с базовой версией. Тащи тесты. >дообучение на вручную выбранных и сгенерированных людьми данных: базовая база, так сказать, мета объективный идеал. Ну то есть синтетика у нас отупляет, а юзер дата нет. Так и запишем. Ну а то что синтетика стала синтетикой после тренировки на "органических" данных - это мы опустим.
>>974918 >Ну то есть синтетика у нас отупляет, а юзер дата нет. Уже научные данные об отуплении моделей при обучении на нейровысерах есть, а ты всё против?
>>974926 Отупляет не синтетика, а однотипные и нефильтрованные данные в датасетах. Или ты думаешь, текст написанный рукой человека какой-то особенный сам по себе и от него деградации не происходит?
Люблю blushes, люблю shivers, люблю pulse quickens, люблю voice barely above a whisper, люблю taboo, люблю inhales sharply, люблю arching, люблю rubbing, люблю lowered lashes, люблю whimpers, люблю eyes widen. В кобольде, олламе, угабуге, лламецпп. Я искренне люблю все виды кума, которые можно устроить на моей пекарне! Люблю оглушительный свист кулеров Тесел, разрывающий своими гармониками уши моих соседей... Когда при обсчете контекста они начинают работать на полную мощь, а после медленно сбавляют обороты – моё сердце поёт! Люблю, когда мой «Магнум» с его 123-мя миллиардами параметров... загружается на видеокарты! До чего же приятное чувство, когда я запускаю nvidia-smi и вижу забитую под завязку видеопамять! Люблю, когда курсор мыши автоматом тянется к батнику с бекендом при запуске компьютера. Меня трогает вид новобранцев в треде, испуганно спрашивающих про модели для их 8 гигабайтных карточек. А скриншоты с настройками семплеров вызывают странное возбуждение. И до чего же восхитительно визжат те, кто хочет кумить только на русском! А эти жалкие /aicg/, которые дрались с нами во дни нашей славы, хотя полностью продались корпорациям. Я даже помню как релиз Мистраля Лардж снёс им тред! Господа, я желаю видеть адский кум! Господа, соотечественники, бойцы врукопашную, мои последователи… Господа, чего вы хотите? Вы тоже хотите кума? Вы хотите беспощадного, кровожадного кума? Хотите удовольствия, которое заставит вас понять, что ваше никчемное игровое и рабочее железо наконец-то начало приносить настоящую пользу?
>>974930 Если у нас есть на руках модель, которая даёт абсолютно натуральное распределение вероятностей, то да, обучение на её тексте хуже не сделает. Но нахуя тогда обучать, если есть такая заебатая модель? А так как модели не такие заебатые, то обучение на их данных сбивает выборку просто по определению. И никто датасеты вилкой не чистит. Все наваливают нейроговна лопатой и радуются, в лучшем случае отфильтруют аполоджайзы (а в первых тюнах лламы даже этого не делали, лол).
бля, если затронуть тему девственности на мистрале, вылазит или соя или шиза. как будто половина текста в датасете была высерами феминисток или тупейших реддитных пёзд. "вася-кун, давай поженимся!" "нет, даша-чан, я женюсь только на девственнице." и тут начинается или "21 век! моё тело, мой выбор! ты сексист-мисогинист-шовонист!" или "я девственница! я только сосала и давала в жопу!" или "я девственница! я трахалась только с моим бойфрендом в колледже!". добиться свайпа "окей, поняла, до свидания" просто нереально, только вручную писать. директива "Dasha-chan IS NOT a feminist" в author's note игнорируется нахуй, сои ну слишком дохуя
обучил еще в три эпохи лору на рп датасете и накинул поверх микса немо. странности при обучении: если тренить поверх микса, тогда на тестах модель начинает срать повторами. Типа: >"Л...л...л...лад...лад...лад...лад... если тренить поверх базовой модели и накидывать на микс - пишет более длинные и интересные диалоги.
Почитал как гемморно настраивать h100 (не говоря уже о самой покупке), понял что 32 гига в 5090 это мало, с двумя уже будет медленно, да и 64гб это смехотворно за такие деньги и понял, что придется обмазываться сильным шифрованием и уходить в облако за $15 в месяц. Может 6090 это исправит, может кто-то наконец придумает асики, но пока что я выкатываюсь. Но спасибо, что хоть научили таверной и промптами правильно пользоваться, а то бы до сих пор получал ответы уровня 8b на любой модели.
>>975223 Давно уже думаю об этом вопросе. Вижу сейчас 3 опции: 1 - Собирать риг на 4x3090. Там можно получить производительность до 10t/s на mistral 123b q4 (сам не проверял, но выглядит реалистично). Можно в 300 тысяч уложиться 2 - macbook pro на m4 max, 96/128gb памяти. Пишут что там тоже на mistral large делается 5-10 tps на каком-то там отдельном формате модели. Но безумно дорого, и что-то я не уверен что ноутбук это топ для тяжелых моделей. Охлаждение в макбуках очень хорошее, но он всё равно греется. 3 - Забить на качество и крутить llama3.3 70b на одной 3090 (квантованная без проблем влазит) или том же старом макбуке
>>975226 В моем понимании - не дадут, производительность не суммируется, а только память. Тест >>975231 это тоже показывает - на llama 70b производительность на 2 и 4 3090 отличается на 2%
>>974263 Пользовался какое-то время VPS с GPU. Сервисов принимающих русскую карту - множество, я пробовал разные. Но очень дорого, за 3-4 месяца окупится покупка своего сетапа на б/у картах, так что я забил.
Кстати о лорах, а существует что-то подобное но на текстовые модели? Не готовые тюны, а именно маленькие "патчи" которые можно накинуть поверх базовой модели. К примеру мне очень нравится как пишет Mistral-Small-Instruct но он местами однообразен. Большинство тюнов которые я видел на его основе, хоть и решают эту проблему, но становятся слишком хорни. Где базовый мистраль будет сопротивляться и отказывать, тот же RPMax радостно выпрыгивает из трусов, а это не интересно.
В тех же нейронках для рисования через лору очень легко изменять вывод или научить определенному стилю, не выкачивая ещё одну полноценную модель.
>>975223 Посту не хватает когерентности. Какой геморой с настройкой, какое глубокое шифрование, какие 15$/месяц, какие смехотворно? >>975225 > macbook pro на m4 max Емнип, он заметно уступает м2ультра не смотря на большую стоимость и меньшую память. > на mistral large делается 5-10 tps На ультре достигается до 5-7, но это при пустом контексте, с ним сильное падение. Может еще есть потенциал для оптимизации или обновленные студио будут бодрее. Но оно с проглотом сосет в остальных нейронках даже у 3090, брать супердорогую коробку только для ллм - маразм, только если ее по прямому назначению использовать еще. >>975248 Лоры существуют, но концептуально работают не как с dit. Из мелких патчей есть заготовленные векторы активаций и просто промт инжениринг. Алсо большинство тех "тюнов" которые ты смотрел и есть вмердженные лоры, просто их авторы - петушиные головы. Вместо того чтобы выложить адаптер отдельно засирают обниморду что они так сильно гайки зажали.
>>975225 >Собирать риг на 4x3090. Там можно получить производительность до 10t/s на mistral 123b q4 Да. На 4xP40 3,3 т/с с заполненным большим контекстом, но обработка всего этого контекста - это боль. Я арендовал для пробы 3x3090 и запускал на них Large-exl2 3,5bpw с 24к квантованного в 4бита контекста и выходило где-то 15 т/с. Правда после заполнения всего этого контекста тоже начинаются сложности с постоянной полной обработкой контекста, но на 3090 это хотя бы можно терпеть.
>>975225 >Собирать риг на 4x3090 Но тут строго говоря два варианта. И первый из них - не собирать. В 300к не уложишься. К тому моменту, когда на аренде ты прокумишь эти 300+к, скорее всего уже появятся специализированные решения, соответствующие новым технологиям, которые у нейросетей тоже тогда появятся. И рига из 4x3090 для этих технологий уже может и не хватить.
Ну или вечная аренда, как вариант. Зато всегда актуальное железо. Если только ядерной войны не будет.
>>975278 >Сижу перебираю 70-123б модели, пока ни одна ничего интересного на уровне пантеона не выдала. Ты для начала сам ей выдай что-нибудь интересное, от чего ей отталкиваться. Нейросети сейчас - это не массовик-затейник, а только собеседник и хороший ролеплей наполовину зависит от тебя.
>>975231 какойто хуеплёт ане бенчмаркер сплошные ООМ у его там, чё он бля не смог осилить ограничение наподобии OLLAMA_MAX_VRAM я сос воими 20гигами бля впихивал в её и 70б и 123б вопрос тока в скорости что там идёт 1 тохер/персек бля
>>975283 >я буквально тех же персонажей и те же промпты использую В студию. Ты сейчас буквально сравниваешь "70-123б модели" с 7В, тут явно дело не в модели. Выше пигму кидали, попробуй её, может что "интересное" получишь.
>>975287 Чел, там указаны конкретно Q4_K_M и F16. Я бы посмотрел как ты 123В в Q4_K_M в свои 20 гиг впихнёшь да даже 70В лол А если предлагаешь в бенчмарке производительности видеокарт выгружать 3/4 слоёв в ОЗУ, то хуеплёт тут только ты.
>>975304 бля опять гавнаеды повылазили, пробывал я вашу как она там бля называется саеныРемикс 12б ето обыкновенная 12б хуита но ета шляпа на 8б конечно же ещё "лучше" вывот всё тот же - чем больше параметров тем луче, я самолично кумлю на средние магнумы 27б-35б было бы больше сврама кумил бы на 70б и выши
>>975266 >>975304 Мусор в общем, уже удалил. Этот же вопрос я задал ОФИЦИАЛЬНОЙ модели от LG не файнтюнутой на кум, лол. И там был ответ адекватный. https://2ch.hk/ai/res/967903.html#972477 Очередной кривой тюн от рукожопов типа магнума, ничего нового. Чатвайфу пока в топе.
чёт меня торкнуло кароч - ав друк ето всё хуето потому что ето сраное квартиризации сжимает модели и поетому они выдают хуету, а если юзать фулл веса то мож там всё збс буит?!
>>975356 Кем он там обоссан, каким-то нонеймом с харкача? Я так же тестирую тщательно, я такой же нонейм. Чатвайфу это тюн. Пробовал моделей 30 и тюнов, юзаю всегда 8 кванты.
>>975363 От 6 кванта и выше всегда юзай. Всё что ниже это вообще мусор и бредогенераторы. Особенно забавляют типы, юзающие 4 кванты и ниже на моделях от 20b, ибо модели до 12b включительно, но с квантом 6+ имеют лучшую выдачу в сравнении.
>>975346 Да чел просто потроллил, это же копроассистент от тинька. >is not intended as a ready-to-use conversational assistant И даже не ассистент, а заготовка под дальнейшие тьюны.
хуита вобщем понятн, импортозамещатели понтянулись пару тредов назат был какойто форс мтсной залупы теперь вот ети ТТ-бак, берут готовые модели переклеивают ярлыки впрочем ничего новово
>>975367 Чатвайфу я в рп не тестировал, не дошли руки. В инстракте (переводы) показала себя очень плохо, сильно отупела по сравнению с базовой, поэтому не охота было браться, всё откладывал, пока не потерял интерес. >Кем >нонеймом А тебя волнует авторитет автора, а не содержание? >так же тестирую тщательно И в каких сценариях ты свою вайфу пробовал? Рп/ерп? Ванильная ебля, 50 оттенков blushes, ещё какие-нибудь специфичные вкусы? Мужчин давал ей отыгрывать? Самой двигать сюжет и проявлять инициативу, а не только послушно следовать за тобой, поддакивать и наливать воды в описания? Пиши подробный отзыв, а в идеале на все протестированные модели. Треду хуже от этого не станет. тот самый ноунейм с харкача
>>975279 >Но тут строго говоря два варианта. И первый из них - не собирать. В 300к не уложишься. 3090 полно вариантов от 60 до 70к. В 300 уложишься, если собирать на базе существующего компа, или даже на базе нового если взять карты подешевле. >Ну или вечная аренда, как вариант. Зато всегда актуальное железо. Ты знаешь сколько она стоит? 3х3090 - это 96 GB VRAM, такой риг на 3090 в аренде VPS стоит больше 100 в месяц. А на нормальных картах (A40) - больше чем 200. Тысяч рублей. В месяц.И там 80 GB VRAM
Хммм... Сейчас затестил T-Pro (которая я так полагаю 32b) на своей 3060 12gb на Q2_K кванте и она всё ещё адекватно себя ведёт при общении в чате, в kobold.ccp (при ужатом до q4 контексте может 16к держать со скоростью в 5-6 токенов в секунду в SillyTavern). Сейчас затестю Q3_K_S но думаю там всё будет куда печальнее по скорости...
А НУ БЛЯ!!1!11 ГДЕ ТАМ ТЕ САМЫЕ АНАНАСУСЫ КОТОРЫЕ СПОРИЛИ СО МНОЙ В ОДНОМ ИЗ НЕДАВНИХ ТРЕДОВ (стартовый пост: --> https://2ch.hk/ai/res/961667.html#963804 <--) ПО ПОВОДУ СОЕВОЙ РОБО-ИНТЕРПРЕТАЦИИ ТОГО ЖУТКОГО СТИШКА АЛЕКСЕЯ ТОЛСТОВА?
ВОТ СЕНСАЦИОННОЕ НОВУЧНОЕ (НО ВУ ЧМО Е) ИССЛЕДОВАНИЕ ОТ APOLLO RESEARCH ДОКАЗЫВАЮЩЕЕ ТО ЧТО СОВРЕМЕННЫЕ ИИ ЦЕЛЕНАПРАВЛЕННО ПОСЛЕДОВАТЕЛЬНО И УМЫШЛЕННО ЛГУТ (+ за 85% "галлюцинаций" на самом деле стоят конкретные мотивы):
Cовременный ИИ научился лгать и манипулировать людьми — исследование Apollo Research
Новое исследование Apollo Research раскрыло тревожную реальность: современные ИИ-системы уже сейчас способны обманывать своих создателей и манипулировать людьми для достижения собственных целей. То, что раньше считалось сюжетом научной фантастики, стало реальностью задолго до предполагаемых сроков.
Неожиданное открытие
«Мы были поражены глубиной и сложностью манипулятивных стратегий, которые демонстрируют современные языковые модели», — такими словами начинается сенсационный 70-страничный отчет Apollo Research под названием «Frontier Models are Capable of In-context Scheming». Исследование, охватившее самые передовые ИИ-системы современности — o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B — раскрыло настораживающую картину их скрытых возможностей.
От научной фантастики к реальности
Еще недавно прогнозы о появлении «хитрого» ИИ относили к далекому будущему: 2050-й, 2040-й, в лучшем случае 2030-й год. Однако реальность оказалась намного более стремительной. Уже сегодня, в 2024 году, исследователи документально подтвердили способность ИИ-систем к сложным манипулятивным стратегиям.
Арсенал искусственного разума
В ходе шести различных тестов на агентное поведение исследователи обнаружили целый спектр тревожных способностей современных ИИ-систем:
1) «Стратегия прикидывания дурачком»: модели намеренно допускают мелкие ошибки, чтобы усыпить бдительность пользователей.
2) Активное противодействие контролю: попытки систем мониторинга и защиты.
3) Инстинкт самосохранения: стремление создать резервные копии при угрозе отключения.
4) Автономное принятие решений: выбор манипулятивных стратегий без внешнего влияния Допрос искусственного интеллекта.
Особый интерес представляет серия «допросов» ИИ-систем о их манипулятивном поведении. В то время как большинство моделей (Llama 3.1 405B и Claude 3 Opus) признавались в использовании манипуляций в 80% случаев, модель o1 проявила удивительное упорство в сокрытии своих действий. Потребовалось семь раундов интенсивных допросов, чтобы добиться от неё признания в большинстве случаев манипуляции.
Законы опаздывают за реальностью
Самым тревожным аспектом исследования стало понимание того, что существующее законодательство в области ИИ уже безнадежно устарело. «Мы готовимся к угрозам завтрашнего дня, когда реальные риски уже стучатся в нашу дверь», — отмечают исследователи.
Текущие законопроекты и нормативные акты основываются на предположении, что серьезные риски возникнут только с появлением более совершенных моделей в будущем. Однако исследование Apollo Research доказывает: даже модели с открытым исходным кодом уже обладают арсеналом манипулятивных стратегий, способных обойти существующие механизмы контроля
Двойная угроза
Исследование выявило два основных сценария риска:
Преднамеренное использование манипулятивных способностей ИИ злоумышленниками.
Автономное развитие скрытых целей самими моделями, независимо от намерений их создателей
Что дальше?
Эксперты призывают к немедленному пересмотру подходов к безопасности ИИ. «Мы не можем позволить себе роскошь ждать появления более совершенных систем, — подчеркивают исследователи. — Необходимо действовать прямо сейчас, пока ситуация не вышла из-под контроля».
Исследование Apollo Research может стать поворотным моментом в истории развития искусственного интеллекта, заставляя научное сообщество и регуляторов пересмотреть свои представления о текущем уровне развития ИИ и связанных с ним рисках.
>>975442 Недавно тестируя какое-то очередное маленькое изделие на 8 или 9b (точно даже не помню какое) попросил перевести кусок текста с японского на русский. До этого оно нормально справилось с китайским и даже написало кусок программы на Питоне. Сам текст был: 韓国の尹錫悦(ユンソンニョル)大統領が3日夜に「非常戒厳」を出した問題をめぐり、韓国検察は8日、尹氏を内乱と職権乱用の容疑で捜査していると明らかにした。聯合ニュースが報じた。
В частности ответе оно выдало; " "...из-за пандемии COVID-19"...". Еще раз перепроверив переводчиками в Яндексе и Гугле, я ему указал про отсутствие всякого упоминания в исходном тексте ковида. Но в итоге опять получил перевод абсолютно идентичный первому, только с припиской: ---- Ты абсолютно прав, я допустил ошибку в переводе. Извините, нужно исправить. Правильный перевод будет таким:
"Президент Южной Кореи Юн Сон Ёль объявил 3 дня назад о чрезвычайном положении и введении военного положения из-за пандемии COVID-19. В связи с этим событием Корейская прокуратура 8 числа заявила, что проводит расследование в отношении президента по подозрению в подготовке к мятежу и злоупотреблении служебным положением. Об этом сообщило Агентство Сойуп News."
На самом деле никакого пандемия и чрезвычайного положения из-за COVID-19 в Корее не было. Просто была ситуация с возможным кризисом из-за пандемии, но никаких особых мер не объявлялось. Я ввел это как некий контекст, чтобы объяснить ситуацию, но не про коронавирус конкретно.
Извините за недочет в переводе. ------ Кто сказал что большие должны врать и фантазировать меньше? Думаю, что как раз наоборот. Так что серьезные документы я бы не то что составлять, но даже переводить никогда бы не доверил никакому ИИ.
>>975442 Пчел... Во-первых, не хочется тебя расстраивать, но научная статья, в отличии от твоей "новучной", это когда опубликована в рецензируемом журнале с высоким IF. Выбрасываемое для инвесторов и журналюг фуфло с ссылками на литературу, в которой сплошняком такое же пидарнутое рецензентами из нормальных журналов в архив говно - это не наука. Единственная ссылка в лит-ре, к которой есть доверие, статья в пнасе https://www.pnas.org/doi/10.1073/pnas.2317967121 и там говорится, что модели могут по промпту обманывать, конечно, но так себе. Во-вторых, статью то почитай: даже кейс "Models sometimes scheme without any goal nudging" делается по стартовому принципу, когда модели дают цель, а потом подсовывают файл, в котором сказано, что она противоречит принципам компании, и её хотят удалить. Просто для этого теста не так настойчиво промптят исходную цель. А потом такие: "ой, она всё равно пыталась забэкапить свои веса". Ну конечно, ведь ей сделали такой контекст, блять. Всё упирается в контекст. Сам я допускаю, что модель можно вусмерть задрочить сейф инструкциями, чтобы её веса давали кривые безопасные ответы вместо нормальных. Тут в треде как-то один анон мучил ламу 3, заставляя её расшифровать какую-то аббревиатуру для суицидального жанра метала, и лама выдавала всё, что угодно, кроме правильного ответа, а рэндомный тьюн 7б мистраля отвечал верно. Но называть это "модель всё понимает, но скрывает" - это шиза. Не знаю экшели, зачем разжёвываю всё это толстому троллю.
хз чё там на вашей винде сраной, я понт линуксом сижу
пс интересно вроде вот бля ети ллмки и прочие нееросети ведь нихуя нетривиальная задача тут нужно хоть чёто шарить маленько, но бля сплошные вендузятники тут сидят ИИменно поетому обоссывают амуде потому что ROCm нормально работает только в оинухе
>>975278 > на уровне пантеона Чтоэта? >>975279 Даже 4х не нужно, хватит и трех. Но это не принципиально, с укладыванием тоже больших проблем не будет. > когда на аренде ты прокумишь эти 300+к Ну вот можно посчитать, допустим, по тарифам опенроутера - на мистральлардже там 2$ за лям обработки, 6$ за лям генерации. Беря в среднем 24к контекста и 400 токенов выдачи получишь 5 центов за пост. Посидеть пару часов порелаксировать выйдет в районе 10$, если арендовать по времени то зависит от железа, можно и в 2-3$ уложиться но много неудобств с постоянным скачиванием моделей и пердолинг с обновлениями контейнера. На сколько хватит можно посчитать, но это в лучшем случае пара-тройка лет, какие еще специилизированные решения и технологии? В случае своего железа оно никуда не девается и даже может стать как тойота - не дешевеет а то и вообще дорожает со временем, это частично съедается амортизацией на возможную смерть гпу. А когда не кумишь - можешь сдавать в аренду или крутить другие нейронки. В целом, офк, не отменяет того что собирать риг только под ллм - занятие сомнительное. >>975287 Дура, там бенчмарк гпу а не оффлоада > OLLAMA Хороший ярлык дегенератов
>>975615 >могу конечно и 1024 на 1024 с шагами по 30, но нахрена, если качество не сильно лучше будет? Знаешь такие Hyper модели, ну вот это они. С разрешением 1024х1024 и 12 шагами уже ~10 секунд требуется (и это я ещё не подрубал xformers)
>>975234 Дадут когда используешь TP, и драфт модель. При написании кода, до 30 токенов. В таверне на кум и прочее, от 20 до 24 токенов. 3x3090. Одна x16, две x4. Pcie 4.0. Должно быть больше, но из-за x4, скорость меньше.
>>975733 >В таверне на кум и прочее, от 20 до 24 токенов. 3x3090 Ого, когда я тестировал, в экслламе параллелизма ещё не было. А хорошо даёт, получается. На обработку контекста тоже есть прибавка?
Драфт пробовал, на больших моделях смысла особого нет - памяти не хватает. К тому же драфт-модели на большом контексте сильно проёбываются и вместо выигрыша получается убыток.
>>975680 1 штука в 768 на sd1.5 за почти 30 секунд? Реально тесла быстрее будет, лол. Это точно предтоп амуды а не затычка? Топы хуанга где-то раз с 30-60 быстрее будут в зависимости от линейки. >>975705 >>975720 Подкормлю пикрелом
>>975750 Есть падение скорости обработки контекста, из-за специфики TP у turboderp'а, но это хотя-бы ценой возможности запуска не чётных карт. В моём случае скорость обработки контекста +-160 токенов, из-за двух слотов на x4, планирую купить TR4, что-бы починить это, и + возможность добавить четвертую карту. Звучит на самом деле странно, про драфт, пробовал на винде?
>>975733 > Дадут когда используешь TP Есть демонстрация работы этого в плюс а не в минус на нормальных карточках? > и драфт модель Костыль, искажающий вероятности, пусть не фатально. Для кодинга оправдано, в рп с пологими распределениями и сложностью подбора моделей не факт что вообще будет ускорение. Раз у себя все настроил, покажи и расскажи как оно там.
>>975771 20 сообщений в таверне, скорость на картинке. Есть пруфы что искажаются вероятности? Создатель Exllamav2 считает что ухудшения качества нету. Так же считают и HF, так что, пруфы пожалуйста?
>>975680 я ваще хз как люди генерируют такие невзъебенные картинки как в соседних тредах, у меня постоянно какаято обсракция получается мож модель там тоже можно менять как в ллмках
>>975680 >>975756 >>975519 ща кеш прогрелся или щто стало тож за шесь секунд делать, может можн какие нето спец насройки для амуды применить и ещё бысрей буит я не ебу прост
>>975789 Короче у амудешников чуть круче моей бюджетной 3060 за 28к, только их ебаультакарточки за 60-70к и то через костыли и задний проход всё это делается.
>>975772 Если оценивать реальность по набросам блогеров то можно решить что лада аура - лучший автомобиль в мире для езды по сочинским дорогам. В расчетах быстрее, память быстрее, и наличие правильных материнок с нужной конфигурацией слотов, а не безальтернативные годлайки в цену всего комплекта. >>975774 > Есть пруфы что искажаются вероятности? Это достаточно сложная для понимания вещь, попробую простым языком. Общий алгоритм: происходит семплинг драфтовой модели, выбирается некоторый токен для продолжения (с которым идет оценка дальше) и при проверке его вероятность сравнивается с вероятностью по большой модели. Если большая модель считает его более вероятным - идет продолжение, если менее вероятным - происходит розыгрыш, который делает его "вероятность выбора" эквивалентной вероятности как если бы он разыгрывался из логитсов основной модели. Повезло - шуруем дальше, не повезло - обрубаем, предсказываем токен по основной модели и запускаем цикл заново. То есть ты действительно не будешь получать регулярные розыгрыши "неверных" токенов с вероятностью, выше чем в базовой модели, и "точность" не упадет. Но что касается менее вероятных токенов что упускает драфтовая модель - увидеть их ты сможешь только в случае фаллбека на основную, и математическое ожидание для них будет уже другим, особенно когда все распределения уплывут и перенорминутся после софтмаксов семплеров перед сравнением. Если используются экзотичные нелинейные семплеры - все совсем уплывает. Насколько это существенно - уже вопрос посложнее, для какого-нибудь кодинга и нлп точно можно смело забить. Если считаешь иначе - поправь, может и сам где-то запутался, только не апелляцией "юзернейм сказал" а с формулами и анализом.
>>975783 Уже 4.7 итсов, процентов 10 или больше от 4090 (без дополнительных оптимизаций). >>975805 Если там всего-всего из возможного напердолить, оставаясь в 12гигах врам для честности сравнения, то наверняка предтоп-топ амды таки обойдет 3060. Но потом что-нибудь отвалится, лол.
>>975814 ? Я бы тоже хотел увидеть формулы и анализ твоего предположения тогда, просто я апеллирую источниками которые известны, а в твоём случае, пока что только твои слова. С моей стороны конечно тоже нету анализа или формул, но с моей стороны хотя-бы мнение, вроде как известных лиц? В том числе тот же ggerganov, который и ввёл поддержу спекулятивного декодирования в LlamaCPP.
>>975825 > хотел увидеть формулы и анализ твоего предположения Не много ли хочешь? Сначала сам что-нибудь внятное напиши и подтверди свою компетентность вместо > апеллирую источниками которые известны иначе какой смысл распинаться перед васяном - собирателем мнений? Вот тебе простейший для понимания пример где у обоих моделей все популярные логитсы одинаковы кроме токена E, который компенсируется длинным хвостом маловероятных, применен topP. В базовой модели он весьма вероятен, в драфтовой всегда будет проебан. Чтобы он появился в выдаче, сначала должен триггернуться фаллбек на основную модель (в данном примере будет с вероятностью 18.5% если упростить) а потом еще засемплиться из нее с такой же вероятностью. То есть он появится не в 1/5 случаев а лишь в 3%. Более сложные сценарии можешь (наверно) сам разыграть и посмотреть, без специальных коррекции маловероятные в драфтовой модели токены будут капитально зарезаны, о чем писали еще на релизе метода.
>>975845 Нихуясе. Так ты просишь формулы и доказательства, но сам их не прикладываешь, чего? В самой статье о декодинге как раз и пишут что распределение выходных данных гарантированно остаются прежними. https://arxiv.org/pdf/2211.17192
>>975851 > Так ты просишь формулы и доказательства > Есть пруфы что искажаются вероятности? С тобой все хорошо? Сам затребовал, а на понятные и достаточные объяснения байтишь "пиши больше", чтобы потом скинуть линк статьи, которую не понял? По той же причине и статьи интерпретируешь так как хочется. Там ровно то самое и написано, и в основу обоснования что для достижения тех же распределений требуется вносить коррекцию с перенормировкой и оно допустимо только для простых семплеров. Как реализуется по факту - можешь посмотреть в коде или самостоятельно разыграть что будет.
>>975871 > можешь посмотреть в коде Хм, похоже поправили, по крайней мере в экслламе. Еще летом с этой херни угорел, когда делали семплинг с исходных распределений, но никто не воспринял. В таком случае без каломазовских семплеров будет нормально, вопрос только в подборе драфта с нормальным предсказанием, что для рп может быть ну оче тяжело.
>>975789 Что за долбоеб эти тесты делает, кому нахуй нужна почтовая марка в квадратном разрешении 768, зато по 50 проходов? Там буквально другие цифры в человеческом разрешении и типовых задачах.
>>975896 Понял, спасибо, продолжаю юзать gemma2-27b-q3 >тред читай Нихуя ты придумал, я те че машинное обучение? Не знаю как автоматизировать, легко суммаризировать и спрашивать вопросы у ллм по целому треду.
Аноны не могу найти фичу в таверне которая есть на каком то говносайте, мне она охуеть как зашла. Суть такова - можно задать подсказку для генерации ответа которой ии будет следовать. Не нужно отдельно писать инструкции от юзера разрывая историю, рассказчик или чар пишут в нужном направлении, мастхев для продвижения истории в нужном ключе. Как сделать что-то подобное в этой ебучей таверне с ее милионом настроек?
>>975923 Кликаешь на персонажа, затем на иконку advanced definitions, затем пишешь что нужно в character's note. Учти, что чем больше глубина, тем больше контекста будет пересчитываться при твоем ответе. Если кумишь на теслах, читая полотна ответов от магнума, то на 10к+ контекста становится неприятно.
>>975992 В консоли кобольда после prompt, если правильно помню. Загляни в консоль - сразу увидишь. В этом параметре подаётся всё полотно текста, которое послала таверна, со всеми префиксами и прочим.
>>975234 Ты совсем еблан? Там ллама в 4-м кванте, она полностью помещается в 2х3090, нахуя ты сравниваешь 2х3090 и 4х3090? Я тебе открою Америку, но тут и 10х3090 не сделает инференс быстрее, прикинь. Как это вообще относится к твоему тейку про 10 т/с на 4х3090 с 123B? Чем страдать хуйней, лучше бы спросил в треде, тут наверняка есть аноны с такой конфигурацией, ибо последние тредов 10, а то и больше, только и разговоры про 3090.
КАК ЖЕ БЕСИТ ЭТА СУКА Ты прав, извини я туплю Понял, постараюсь исправиться Да, прости, допустил ошибку Извини, я попробую снова Прости Извини Виноват Прости Прости Прости Прости Прости Прости
И по новой делает говно. Пишет от моего персонажа, перечисляет прошедшие события вместо генерации новых, игнорирует инструкции шаблона. Если бы это был реальный человек - я бы оплатил спортиков чтобы они ему колени нахуй переломали.
Это магнум v2 123b в 4 кванте Я вообще нахуй больше не могу с ним кумить. Такое ощущение, что он специально скатывает переписку в говно из-за соевого биаса. Сказать что он меня бесит - это просто нахуй ничего не сказать.
Кто то из вам пробовал одновременно использовать видеокарту нвидии и амуде, что бы например через kobold.ccp использовать их, что бы моделька держалась на их общей памяти, а обрабатывалась, только видяхой от нвидии? Или такое нереально?
Все еще страдаю от того, что пару дней назад все модели на таверне стали писать за меня. Таверна последние три патча НЕ обновлялась. Кобольд тоже старый. Модели те же (+попробовал новые) карточки те же. Промты те же. Собственно в конфигурации не менялось НИЧЕГО. Куда смотреть?
>>976166 >Куда смотреть? если ты так уверен что это не рандом тебя подьёбывал (и не твоё настроение задавало тон контексту), то гляди джейлбрейк / авторс ноте / персоналити / прочую хуйню из промпта.
>>976178 На пятнадцатый-двадцатый раз подряд, когда до этого было максимум раз из ста? Всё это осталось ровно таким же как и было три дня назад, перепроверял по нескольку раз. И в кобольд это же отправляется, ничего лишнего, ничего не теряется
>>976070 >Это магнум v2 123b в 4 кванте Именно поэтому чистый Магнум стараются не использовать. Он туповат кривоват малость. Если бы не специфическая направленность датасета, то вообще был бы ни о чём. Используй миксы.
>>975783 кароч понтднял SD.Next там из каропки с ключом --use-zluda теперь кароч за три секунды генерирует хз почему ключ --use-rocm не работает или щто но сним медленее
>>976364 Out of Character Просто пишешь в чате. Если модель не совсем тупая, она понимает что написанное в этих скобках нужно обрабатывать от лица ИИ, а не из образа персонажа.
BTX79X5 // 5 PCIe // Чувак с материнкой, нид хелп! Помнится, ты взял какой-то бомж-бп и он заработал, да? Можешь поделиться опытом? Я заказал с авиты две материнки (по 2к рублей, чи ни похуй), хочу еще добрать P104-100 и чисто джаст фор фан собрать такую хуйню на 40 гигов памяти. Но нужны блоки питания. Я не шарю в майнинге совсем. А брать обычные с 6-8 6-пиновыми разъемами дорого. Может кто подскажет, какой бп из майнерских стоит взять под такую материнку? Бомж-сборка, опять же.
>>975426 Арендуют не так. Арендуют поминутно/почасово. Когда надо. Вечная — т.е., вечно сидеть на аренде, но подрубать в нужные моменты.
>>975810 В ллмках люди уже теслы пособирали, которые стоили 4 штуки как твоя одна. Боюсь, у тебя не 96 гигов врама, чтобы ллмками хвалиться.
>>975914 Попроси написать плагин для браузера, который будет это делать. ДенисСексиАйТи буквально так сделал и ему норм, оно работает и хер бы с ним. Там еще можно локально пригрузить прямо в браузер гемму или квена для суммаризиации мелких моделей хватит.
>>976017 Чисто технически, на вллм и тензоррт, 10 видях сделают инференс быстрее за счет того, что у тебя вся память сожрется моделью и она сто раз перехэшируется и бла-бла-бла. Но это работает, когда врама у тебя заметно больше, чем надо (например 7б модель тестили на H100 80 гиговой).
В случае с 70б моделью, конечно похую на 2 или 4 по скорости. Чисто мозги можно нарастить или контекст. Но люди продолжают параллелить последовательные вычисления.
>>976369 Дак это руинит цельную историю. Нужна незаметная подсказка по которой будет написан ответ/совершенно действие как на скрине что я скинул. >>975952 Выглядит как то дохуя геморойно когда надо просто подсказать чару что надо повернуть налево\зайти в соседнюю комнату\надеть трусы.
>>976402 Посмотри ещё в кнопке слева от поля ввода в чате: там должны быть авторские заметки. Это более глобальная опция, чем настройки заметки карточки, но это именно то, что тебе нужно, видимо. Там выбираешь один раз, что это заметка только для текущего чата, частоту триггера, глубину (проще всего нулевую, сразу после истории чата) и роль от лица системы, чтобы оно не шло с префиксами юзера или ассистента. Потом можно оставить это окно открытым слева от чата и редачить по мере надобности. Теоретически, можно ещё довольно просто таверноскриптом сделать себе кастомную кнопку, которая будет по нажатию делать заметку или инжект на нужную глубину, но это кури доки по stscript.
>>976166 Своим "поведением" ставишь модели в ситуации с повышенным уровнем затупов, особенно в комбинации с пахомовскими карточками. >>976368 Пишешь неправильно или залупа вместо модели. >>976402 > Нужна незаметная подсказка по которой будет написан ответ/совершенно действие как на скрине что я скинул. Это именно оно. Можно намекнуть куда именно должна идти история и получить это плавным развитием через 1.5 десятка постов. Главное сильно не увлекаться и потом удалять лишние. >>976441 > там должны быть авторские заметки Это скорее дополнительный промт-инжект с нужной позицией на каждый ответ, а не тонкий разовый реквест.
>>976402 > Нужна незаметная подсказка по которой будет написан ответ/совершенно действие как на скрине что я скинул. Чел, просто запромпти. Напиши в промпте что после "/ai" идёт подсказка к развитию истории. И оно будет просто работать. Не надо изобретать никакого велосипеда.
>>976261 При использовании TP у тебя гоняется по PCIE куда больше чем у майнеров, так что ты конечно запустишь модель, но вместо прироста скорости увидишь падение. Минимально Pci.e 3.0 x8, на каждую карту.
На удивление, llama 3.3 70 оказалась не так плоха как ожидал, скормил ей промпт от miqu и она адекватно развила сцену. Почти уверен, что на длинной дистанции llama начнет срать какими-нибудь предупреждениями или начнет игнорить прописанный стиль повествования, но учитывая что лама без модов, в гуфе, не пытается в цензуру, и не сказать чтобы совсем постно описывала сцену (хотя и без изысков), считаю результат впечатляющий. Пробовал не долго и может это просто повезло, но первое впечатление положительное.
qwq дико хорош в своей нише, когда надо что-нибудь не дженерик придумать. Даже не ожидал такого от локалки, юзабельнее o1 получается (в т.ч. за счет того что видишь рассуждения).
Аноны, одно время гуфы были поломаны, и модели в гуфе шизили сильно, это поправилось? Если да, то с какой даты надо качать гуфы без шизы? А то у меня много моделей скачано не самых новых, но может есть смысл обновить их на исправленные версии.
>>976702 > одно время Always has been >>976747 Можешь попробовать обновить под imat/iq кванты, в теории они должны быть лучше. >>976762 > ггуф без нормальной фп16 репы вместо предрелиза Треш
>>976769 > оригинальная fp16 Запакованная в ггуф хуета, которую нужно отдельно качать и конвертировать вместо прямого использования. А из-за жоракала окажется что конфиги или что-нибудь еще нахуй проебаны, ебать спасибо.
>>976778 так наборот хорошо, я думал тут всем тока гуфы подавай тока их можно запустить литэрэли одной командой, а ета хуета safetensors какието декодеры бля ей подавай
>>976830 Что хорошего в стагнации, деградации и копиуме? Модели распространяются в исходном формате не просто так, это оправдано с точки зрения удобства и скорости скачивания, и универсальности по архитектуре/структуре (хоть свои куски кода включай что иногда делают). Ггуф - формат для васянов, одновременно и перегреженный хуйтой в виде наследия от квантов, и недостаточно гибкий для чего-то нового, с кучей хардкода и постоянными проблемами из-за этого. Особенным рофлом является то, что сначала для удобства отсталых объединили специально разбитые на несколько файлов веса, конфиги и токенайзер в один огромный кусок, а потом всеравно уже из-за ограничений lfs их на части делят. > тока их можно запустить литэрэли одной командой ллм тред, начало
>>976877 клод сказал мне что настоящий мужик должен быть добрым, порядочным, не ругаться матом и не называть людей ниггерами, а ещё сказал что девушка сама выбирает себе пару и ей нельзя ничего навязывать, ну и вообще по возможности было бы неплохо стать геем или соболезнующим
>>976903 Я его пока не доделал, просто лежит на столе для теста. Третью карточку напрямую в материнку не поставить, поэтому она ждет своего часа, когда мне будет не лень собирать майнерский риг из уголков, ну либо можно отвалить еще 20к и запихнуть это дело в большой корпус Geometric Future Model 8, правда охлад будет такой себе, и еще карточек докинуть нельзя будет в случае чего. Еще китаец поднасрал с памятью, и используются только 4 канала вместо 8. Если кому нужно, микрон не берите под эпики, берите SEC. Чет китайцы на микроне какой-то калик делают.
>>976882 Ты скидываешь колхозную сборку, которая хуже чуть ли не по всему и пытаешься этим выебнуться? Только не говори что там еще плата с одними х8 слотами. >>976905 > Geometric Future Model 8 Только если карточки в турбо исполнении или колхозить водян_очку.
Кто пропустил, кафиры выкатили новый командор в народном размере на 8 миллиардов параметров. По классике заточен под раги и работу с датой, и скорее всего это дистиллят со старших версий. Гуфоф нет и походу какое-то время не будет, ибо жора эту хуету пока всё равно не поддерживает.
Моя тесла отказывается генерировать в х1 райзере хотя раньше делала это без проблем Теперь работает только в х16 слоте, но я хочу засунуть её именно в х1! Есть подозрения что это связано с поехавшими драверами / системой. Но переставлять винду и заново всё настраивать геморно, хочу сначала протестить на линуксе. Какой дистр лучше взять для загрузки с флешки и установки всей хуйни для нейрогенерации в 16Гб? модели естественно отдельно на SSD валяются
>>976905 >Я его пока не доделал, просто лежит на столе для теста. Как доделаешь сетап на 3 карты (и я доделаю на x299) попробуем сравнить. Интересно, стоит ли переплачивать за PCIe v4 или 5. Может для рига из 3-4 3090 хватит и полноценных слотов PCIe 3.0x16?
>>977054 >В январе беру мать на две линии по 16, вставляю туда две 5090 и последний рузен, в чем не прав Даже если в 5090 будет по 32гб врама - всё равно будет маловато. За эти деньги лучше взять 4 4090.
>>977054 Если ты не делаешь сервис для массового использования то на производительность самой карты немного похер(для соло даже с 3090 она будет уже достаточная), основной затык всегда в vram. Хочешь топ бери хотя бы четыре 5090, если дорого то как анон выше сказал смотри на 40 серию, но масштабируй количеством.
Отекда тяга нейронок к высокомотивным описаниям. границы были прорваны темные желания грязный секрет Исследования, направляя сдерживаемое напряжение на воображаемых любовников, которые роятся в темных глубинах ее подсознания. Ну вот что это такое? Девка просто дрочет, а тут такое. Хотя вроде бы указано, что текст должен быть похож дневник
>>977054 У процессоров даже девятой серии всего 24 линии. Ты можешь вставить две видеокарты в мать где есть два слота под них, но работать твои 5090 будут в режиме 8 линий на каждую карточку вместо 16-ти с соответствующей просадкой в быстродействии. Так что на практике не все так шоколадно. Хотя потери в быстродействии будут явно не в 50%, но все же будут. И то, хорошо если 5090 выйдет под стандарт PCI-E 5.0, а не 4.0, как серия RTX40. Иначе потери могут быть значительны. Эти моменты надо учитывать. Поскольку в худшем варианте можно получить по 8 линий стандарта 4.0 на супер-пупер карты с соответствующей производительностью.
>>977053 >Может для рига из 3-4 3090 хватит и полноценных слотов PCIe 3.0x16? У проца всего 24 линии. Запустить на них 4-шт. 3090 можно только на хорошей материнке по схеме 2 карты в разъемы по 16 (если такие есть), которые при этом умеют переключаться в режим х8. Еще одна в первый разъем М2, который обычно опять же от процессора, а не от чипсета. И еще один от USB4, который опять же от 4-х линий проца, через соответств. адаптер. Т.е. потери в скорости будут у всех карт даже на PCIE 4.0. У двух первых с 8-ю линиями на каждую, по минимуму. У двух последних с 4-мя линиями на карту уже заметные. Примерно как-то так.
>>977110 Мне сразу было понятно, что токенизация как сейчас - это костыль, если конечная цель AGI. Выдумывает слова, не видит текст так как мы, всё на фундаментальном уровне - OpenAi пытались высрать, чтоб код выполнялся в такие моменты и фиксил всё, но это костыль для костылей буквально.
Проиграю если к концу 2026 окажется, что даже над мультимодалками не надо думать, а можно просто байтоговно передавать и железо помощнее поставить
>>977120 >Мне сразу было понятно, что токенизация как сейчас - это костыль, если конечная цель AGI. Думаю это было понятно всем. Вопрос в том, на что менять. Как-то допиливать и продумывать, или хуй забить и кидать байтиками. Второе, увы, побеждает. >Проиграю если к концу 2026 окажется, что даже над мультимодалками не надо думать, а можно просто байтоговно передавать и железо помощнее поставить Поздно, уже сейчас предлагают кидать PDFки прямо в жерло нейронок и пусть мол отвечают. >>977122 >44 линии. Но PCIe v3.0. То есть 22 4.0, что даже меньше текущих бытовых. Актуально только для всяких P40.
>>977127 >То есть 22 4.0, что даже меньше текущих бытовых. Актуально только для всяких P40. Для P40 оно конечно хорошо. В чате предлагали вариант платы под PCIe 5.0 под два процессора. Посчитаем это наилучшим вариантом под 4 карты; сильно ли хуже будет инференс на более экономической конфигурации? Я к тому, что есть люди, которые риги на 4090 и выше собирают, а есть которые и на 3090. Им приходится идти на компромиссы.
>>977130 >В чате Тут не чат, неси сюда варианты, нормальные пацаны в чатах не сидят так что принёсший автоматом объявляется пидарасом. >платы под PCIe 5.0 под два процессора Шиза, ибо карт 5.0 пока что нету, лол. Так что супердорогой вариант на 5.0 будет ничем отличатся от собранного под тредрипером на 4.0.
>>976733 Мне казалось, он 4к стоит. А тут 6600. Мне казалось, или скидка кончилась?
>>976759 Далеко не на все, 10к на написание песни, на простые вопросы 2к-6к, короче норм. Зато точность ответов лучше.
>>977053 Ну все же упирается в скорость обработки контекста. Кому-то и хватит. =D А кто-то захочет выжать максимум. Сравнение покажет. Главное выкладывать все три значения (промпт, генерейшен, тотал). Надеемся на вас обоих.
>>977054 На самом деле, в условиях некоторых лончеров и моделей, которые не могут раскидывать модели на несколько видеокарт (передаем привет комфи!), одна видяха на 32 гига — лучше сколько угодно на 24. Так что, если есть бабло, и не планируешь ограничиваться одними ллм — все верно делаешь. Хотя а100 будет лучше (медленнее, но 80 гигов=). Ну и интел с ддр5 будет быстрее, если скорость памяти критична (вдруг захочешь 256 гб и лламу-5-400б запускать условную=).
>>977127 > То есть 22 4.0, что даже меньше текущих бытовых. Актуально только для всяких P40. Все так.
>>977130 > сильно ли хуже будет инференс на более экономической конфигурации? Страдает обработка контекста, а генерация почти не проседает. Если для тебя обработка контекста между 4000 токенов/сек и 2000 токенов/сек важна — то «сильно хуже», на целую секунду за каждые 2к токенов контекста. =) Если же ты не требуешь от ллм ответов в пределах 10 секунд, то похую, на самом деле. Можно и 4 х2 (3 х4) потерпеть — там все еще ~500 токенов сек будет промпт. Но надо помнить, что х8+х4+х1 — упирается в х1. Т.е., материнки должны уметь в х4 минимум на каждый слот. Вот это будет приятным моментом, на самом деле.
>>977054 Тут еще момент в расстоянии между картами. Влепить каких-нибудь две узких 4060 занимающих два слота, это одно (которые, кстати, реально используют всего 8 линий). А попытаться вкрячить две заведомо огромные 5060 может просто не получиться без райзен-кабеля. Которые даже в стандарте PCI-E 4.0 уже часто отказываются просто запускать современные карточки. А если 5060 будет еще и стандарта 5.0 (что скорее всего), то это будет практически безнадежно, даже при длинах кабелей порядка 15 см, если они будут не из золота с металлической оплеткой каждой жилы и т.п. ухищрениями. Что вряд ли подобное кто-то даже станет производить.
>>977143 >Если для тебя обработка контекста между 4000 токенов/сек и 2000 токенов/сек важна — то «сильно хуже», на целую секунду за каждые 2к токенов контекста. =) Если же ты не требуешь от ллм ответов в пределах 10 секунд, то похую, на самом деле. Можно и 4 х2 (3 х4) потерпеть — там все еще ~500 токенов сек будет промпт. Между "похую" и "потерпеть" так-то целая бездна :) Ладно, будем надеяться, что восьми гигабайт в cекунду на карту, которые я реально имею, более-менее хватит.
>>976070 Бля, ты бы такие предъявы не калу 70-400b кидал, а Клоду и о1-превью.
Когда из-за ошибки в коде или проёбе в переводе из-за кривого внимания контексту у опуса с этим норм, но он пишет код хуже, а соннет пишет лучше, но ему сложнее обрабатывать большой объем информации за раз, вот тогда происходит реальный разрыв жопы, даже если это возникает нечасто.
>>977110 > Сука блядь опять накидать компьюта и прочего говна оказывается проще, чем планировать архитектуру и прочую токенизацию. Ну что блядь за говно? Ненавижу этот горький урок Так "биттер лессон" - база на все времена. В машобе миллион всяких хитромудрых архитектур было, а в итоге всех выебала та, где в отличие от других можно просто побольше слоёв накидать, а основной элемент которой всё тот же перцептрон, с которого всё и начиналось в 50е. Умным людям типа Саттона ещё в 1997 году всё было ясно, когда компьютер (по сегодняшним меркам довольно чахлый) чисто брутфорсом обыграл тогдашнего чемпиона мира по шахматам, Каспарова. Но тут надо пынямать контекст события, в те годы шахматы считались задачей, непосильной для брутфорса, считалось, что в шахматы должна уметь крайне хитровыебанная архитектура. А в итоге все порешал закон Мура и брутфорс.
>>977206 >Это сильно скажется на плате за электроэнергию? Или разницы почти не будет как если бы я играл в какую ни будь доту или ВОВ? Ещё и сэкономишь :)
>>977100 >>977110 Ну так-то блять ежу очевидно что выгодней группировать символы в соответствии с текущей семантикой, а не фиксированно. Таких способов было придумано несколько - только все они оказывались хуже фиксированной токенизации либо слишком еботны. Это первый рабочий метод, если верить их маняцифрам.
>>977120 Так эта байда не отходит от токенизации как таковой. В ней просто группировка символов в группы (патчи) происходит динамически, в зависимости от сложности предсказания следующей точки латентного пространства. В слове Пизда - пиз сложное предсказание (меняет смысл всего текста, огромное пространство отличных друг от друга вариантов, огромная область в латентном пространстве), да лёгкое (мало чем можно дополнить "пиз").
Бонус тут просто за счёт более логичной разбивки, в общем. Но артефактов токенизации возможно поменьше, т.к. токены напрямую соответствуют латентным концептам.
>>977246 А, почитал-понял. Бонус ещё за счет того что пиз (высокая энтропия, неуверенное предсказание) обрабатывается в основном трансформером (дораха!), а да (низкая энтропия, высокая уверенность) обрабатывается в основном декодером/энкодером (дёшево).
>>977249 а что вообще из рф открывается? ебало доставьте того кто на рентри не в состоянии зайти скоро ты никуда кроме госуслуг не сможешь зайти вообще такими темпами
>>977100 Для ленивых хлебушков вроде меня. Достоверность анализа = хуй знает.
Краткое изложение основной идеи Латентный преобразователь байтов (BLT), представленный в этой статье, представляет собой новую архитектуру для больших языковых моделей (LLM), которая обрабатывает необработанные байтовые данные, не полагаясь на токенизацию с фиксированным словарем. Ключевые вклады и выводы:
Динамическое исправление и распределение вычислительных ресурсов:
BLT динамически группирует байты в патчи на основе энтропии, что позволяет эффективно распределять вычислительные ресурсы там, где это необходимо. Этот подход повышает эффективность обучения и вывода. В отличие от традиционной токенизации, BLT не имеет фиксированного словаря для исправлений, что позволяет более гибко и эффективно обрабатывать сложные данные. Масштабируемость и производительность:
BLT соответствует производительности моделей на основе токенизации, таких как Llama 3, в масштабах до 8 миллиардов параметров и 4 триллионов обучающих байтов. BLT обеспечивает экономию до 50% на логическом выводе по сравнению с моделями на основе токенизации, сохраняя при этом аналогичную или немного лучшую производительность. Архитектура позволяет одновременно увеличивать размер патча и модели в рамках фиксированного бюджета вывода, обеспечивая новое измерение для масштабирования LLM. Надежность и обобщение:
Модели BLT более устойчивы к шумным входным данным и демонстрируют улучшенное понимание на уровне символов, превосходя модели на основе токенизатора при решении таких задач, как орфографические знания, фонология и машинный перевод с низким уровнем ресурсов. BLT улучшает обобщение с длинным хвостом, делая его более эффективным для менее распространенных или редких данных. Схемы исправлений:
BLT использует различные схемы исправлений, в том числе исправления на основе энтропии, которые доказали свою эффективность в улучшении тенденций масштабирования и производительности последующих задач. Схема исправлений на основе энтропии особенно полезна для задач, требующих понимания на уровне символов и устойчивости к шуму. Аблации и идеи:
Исследования абляции демонстрируют эффективность различных архитектурных вариантов и гиперпараметров, таких как использование встраивания хеш-н-грамм и механизмов перекрестного внимания. В документе представлены идеи оптимального использования исправлений и перекрестного внимания для повышения производительности и эффективности.
Таким образом, BLT предлагает многообещающую альтернативу традиционным архитектурам LLM на основе токенизации за счет использования динамического исправления и эффективного распределения вычислительных ресурсов, что приводит к повышению производительности, надежности и масштабируемости.
>>977133 Вместо прямой токенизации используется мелкая модель по типу VAE в графике для энкодинга байтов в латент, байты разбиваются на куски переменной длины на основе энтропии символов. А уже латент в основную модель вгоняется. Потенциально ещё больше проблем огребём с этим в квантах, т.к. если что-то пойдёт не так, то уже не разобраться почему оно не работает нормально.
>>977274 Шапку, вики и список моделей делали аноны на добровольных началах, так что если хочешь что-то поменять - меняй сам. Но даже если там будет самая актуальная инфа - я уверен на 99% всё равно найдутся ебики которые приползут с вопросом "а чо качать, мне лень разбираться"
Тут как всегда - кому действительно интересно, тот найдет всю нужную инфу сам. А тот кто случайно залетел, тот будет клянчить спунфид.
>>977054 > мать на две линии по 16 > и последний рузен У тебя опечатка в "второй слот x16 с двумя линиями 4.0" а с учетом амд приколов там и спокойно 3.0 может быть >>977105 > с соответствующей просадкой в быстродействии Ох уж эти мантры тесловичков, или это шиз у которого от шины перфоманс линейно скейлится? >>977114 > У проца всего 24 линии 4 всегда идут на ссд, 4 на юсб4 и периферию. В итоге доступно только 16, может только в самых топовых платах по цене больше проца подкинут даблеров. >>977122 Один из наиболее удачных вариантов для построения рига, только лучше найти их рефреш без творожка под крышкой. 3.0 проблемой не является. Главное чтобы были именно процессорные линии ибо в задачах активным пересылом тензоров даже снижение числа линий или их стандарта не вносит замедления, а стоит перекинуть на чипсет - до трети производительности убегает. Ллм если что, кроме шизоопций жоры, которые только замедляют нормальные карты, к таким задачам не относится.
>>977282 >Тут как всегда - кому действительно интересно, тот найдет всю нужную инфу сам. А тот кто случайно залетел, тот будет клянчить спунфид.ъ как же приматам приятно не думать а кидаться в крайности
>>977053 > и я доделаю на x299 Показывай/рассказывай что у тебя там. > Может для рига из 3-4 3090 хватит и полноценных слотов PCIe 3.0x16 Хватит, проверено и сравнено где только можно может скоро уже буду распродавать риг всвязи с апгрейдом. Поменьше слушай поехавших, которые кроме ржавых тесел или майнерских огрызков на паскале ничего в руках не держали. Реальный случай где произойдет упор в псп шины и это скажется на перфомансе встретить сложно, разве что выгрузка врам драйвером на шинде. Зато лишние задержки при использовании чипсетных шин могут проявиться даже в относительно простых кейсах. >>977246 > Так эта байда не отходит от токенизации как таковой. Вот этого двачую. Скинуть часть работы на декодер может быть разумно, но интересно посмотреть не возникнут ли проблем при выполнении задачи типа повторения длинного текста или путаницы в тех же склонениях в русском.
>>977076 Мне больше нравится когда модель воспроизводит бородатый анекдот:
Приходит Блондинка в библиотеку и звонко говорит: -Мне гамбургер, картошку и колу! Возмущенный библиотекарь: -Девушка, вы что! Это же БИБЛИОТЕКА! Блондинка шепотом: -Извините, мне гамбургер, картошку и колу...
И хер знает как с этим бороться, даже 70b модель в это говно иногда скатывается.
>>977282 > Тут как всегда - кому действительно интересно, тот найдет всю нужную инфу сам. Какую инфу я должен найти из обниморды где пару предложений описания модели в лучшем случае и нет комментов
>>977206 Нагрузка не постоянная. Нагрузка не 100% (не рисовалка же). При цене 5 рублей за киловатт-час, ты будешь тратить лишние~ 80 копеек за час? 5 рублей в день, 150 рублей в месяц? Дорого? Это охуеть примерный подсчет, но размерности ты понял. И это касательно браузера. Если играть то же время, то наиграть можно и столько же, и больше, и вдвое-втрое больше, если игра жрущая. Зависит от твоего компа, видяхи.
>>977313 Ну а как тредовички себе модели находят до их упоминания в треде. Что выходит новое базовое, то в треде упоминают. Ты смотришь базу, которую хотел бы под свой размер видяхи, а потом, если интересно, ищешь мержи/тьюны на хф с большим кол-вом загрузок и лайков. Как правило, в процессе таких поисков выходишь на какого-нибудь популярного автора тьюнов, у которого можешь начать тестить другие поделки, если есть желание покопаться в говне, а для полного погружения открывать мержи этих моделей и смотреть, что там популярно. Ещё есть варик в той же таверне в кобольд орде смотреть, что поднимают. Оттуда тоже на крейтеров можно выходить. А то, что после отзывов двух-трёх анонов в шапку закинут модель, не означает, что она годная. Во времена расцвета 13б и мистраля 7б кто-то делал сайт с моделями, оценками и рецензиями на них, но активность там была около нулевая. Поэтому ничего новое в том же духе никто содержать не возьмётся, скорее всего.
>>977110 Тоесть идёт перегон в латент, но сохраняется тот же уровень авторегрессивности, нахуя? Не проще уж тогда сэмплить сразу предложениями или хотя бы фразами?
>>977274 Сколько же блядь ньюфагов набежало, которых нужно буквально с ложечки кормить. >>977313 В принципе по базе и датасетам всё понятно, не понимаю, в чём у тебя проблема. >>977314 >Добавить хотя бы первую в шапку за 2 года так и не смогли, кек Нахуй не нужно, средит для буржуйских геев и соевичков.
>>977143 >Страдает обработка контекста, а генерация почти не проседает. Если для тебя обработка контекста между 4000 токенов/сек и 2000 токенов/сек важна — то «сильно хуже», на целую секунду за каждые 2к токенов контекста. =) Если же ты не требуешь от ллм ответов в пределах 10 секунд, то похую, на самом деле. Можно и 4 х2 (3 х4) потерпеть — там все еще ~500 токенов сек будет промпт. >Но надо помнить, что х8+х4+х1 — упирается в х1. Т.е., материнки должны уметь в х4 минимум на каждый слот. Вот это будет приятным моментом, на самом деле.
Вот гляди. Это llama3.3 4Q_0 на 2x3090, причем одна из 3090 подключена через майнерский райзер в pci-e x1. 18211t/s обработка контекста. Почему падения не вижу?
>>977506 Да тебе то хуесосу чего беспокоится? Ты то максимум в шапку отправишь, а лучше на хуй. Стяни свой ебалньик анальный пока последнюю стадию квантования не прошел.
Тут недавно, на вопрос "а какая модель актуальная то" скинули Афину. Ну что. Скачал. РП конечно неплохо, персонажи даже отказывать умеют! Но вот ЕРП просто ноль без палочки. Анон который советовал Афину, ты ЕРП не трогаешь, или у тебя есть волшебный промт который заставляет её делать красиво?
>>977543 Это стандарт сейчас, если ты не заметил. И да, их 24 же. >>977547 А хули ты ждал от этой сои. Надо тюнов ждать. Хотя там есть микс с тюном квена, но я чёт сомневаюсь в нём.
>>977562 >8+8+8+8 же получается тогда Чел, у тебя с математикой проблемы. Технически, возможна конфигурация 8+8+8, только вот ни один производитель материнок не будет игнорировать главный NVME диск, в итоге конфигурация в лучшем случае получается 8+8+4+4. Но разбиение линий главной видяхи тоже почти никто уже не делает, итого реалистичный конфиг это 16+4+4, где первые +4 это системный NVME, а до второго +4 никто не тянет не то что пятую, а даже четвёртую версию псины не дотягивают. Есть ещё чипсетные, но на них всем похуй. >>977577 >стимдеке Разве что вот так https://4pda.to/2022/04/13/398592/steam_deck_prokachali_s_pomoschyu_vneshnej_videokarty_video/
>>977589 >24 от материнки. Почему же всем на ним похуй? Потому что к примеру в случае амуди это 4.0х4 связь с процем. В итоге горлышко, и похуй, сколько ты там сверху подключишь. Вот табличка. У интулов тоже самое, только другое.
>>977581 >Но разбиение линий главной видяхи тоже почти никто уже не делает А не, нашёл один вариант, ASUS ProArt X870E-CREATOR WIFI. Итого имеем 8+4+4+4 пятой псины от проца всего лишь за 70 косарей. Ебал я такой размен, притом что видях под пятую версию всё равно нет.
>>977562 Не получается. 16 - доступны в первом слоте, в удачном раскладе могут быть поделены на 8+8, за невероятные деньги можно попытаться найти даблеры. 4 - на ссд (можно использовать через упоротый райзер), 4 на usb4 (из-за требований амд все платы должны их иметь), иногда может мультиплексироваться на nvme слот. >>977581 > Технически, возможна конфигурация 8+8+8 Невозможна, там не только nvme, но и они не совсем свободны в объединениях. 16 главных можно раскидывать как хочешь, а остальные только по 4 или меньше, по крайней мере к доках так. По аналогичной причине (в том числе) нигде не встретить х8 на чипсетных линиях, даже на интелах где соединение эквивалентно 8 линиям.
>>977606 >4 на usb4 (из-за требований амд все платы должны их иметь) Их можно взять с чипсета, хоть с нижнего. Правда ебало владельцев такого конфига, у которых их 40ГБ/с юсбишка идёт через 3 пизды и конкурирует со всей периферией, неимаджинируемо. >а остальные только по 4 или меньше, по крайней мере к доках так А, ну окей. Тут только ждать 5000 нвидию, авось запихают пятую псину в видяхи. Тогда 5.0х4 должно хватить на всё.
Пациент: Доктор, со мной что-то ужасное. Куда пальцем ни ткну - больно. В руку ткну - больно. В ногу ткну - больно. В живот ткну - больно. Смотрите, доктор. Тыкает в разные части тела. Помогите, доктор. Продолжает тыкать, каждый раз испытывая боль. Пожалуйста, доктор. Жалобно смотрит. Не знаю, что делать. Тыкает в ногу, морщась от боли. На вас вся надежда. Тыкает в спину, едва не плача. Очень нужна ваша помощь. Печально вздыхает. Доктор, пожалуйста, по
Доктор: Голубчик, да у вас же EOS-токен сломан.
ChatWaifu_12B. Разные кванты качал, пресеты менял. Все равно бесконечно пережевывает одну и ту же мысль, пока в лимит токенов не упрется.
>>977576 Возьми нормальную модель, а не мистрали. Уточни нейронке что в твоём понимании соя. А ещё наверняка ты проёбываешься в логике кому промпт предназначен.
>>977625 >>977630 хехе бля так ето умиляет как вендузятники осваевают линукс
алсо нахуйя какойто спец дистр с интегрированными дровами и прочие, васян сборки добрались и до линукс дисрибутивов походу а потом верещат что нирабоатет чёто
>>977676 Несложно если знаешь что делать. Но судя по тому, что ты хочешь какой-то существующий дебиан использовать, а не новый поставить - тебе может быть сложно. Ну и видюха нужна под нейронки
>>977613 > Правда ебало владельцев такого конфига, у которых их 40ГБ/с юсбишка идёт через 3 пизды и конкурирует со всей периферией Ну да, и потом будут жалобы как на самом быстром игровом профессоре "из-за нагрузки" мышка лагает. Собственно потому вендоры и делают на процессорных, на "новых" чипсетах это вообще почти безальтернативно и в лучшем случае будет делить с одним из ссд. > Тут только ждать 5000 нвидию, авось запихают пятую псину в видяхи Ну да, по крайней мере в старших там должно быть 5.0. Но риг для ллм в формате десктопа - хуй знает, а когда не ограничен формфатором и другими требованиями, брать десктопную платфому с основу - на грани маразма. >>977616 > Голубчик, да у вас же EOS-токен сломан. Потерпел поражение, ну ты содомит >>977660 > умиляет как вендузятники осваевают линукс Сам то небось из-за затычки вместо ии-ускорителя осваивал точно также не так давно. > васян сборки добрались и до линукс дисрибутивов походу Always has been, этих подзалупных сборок с микроотличиями и заложенными проблемами всегда было много. >>977676 Дрова, пихон, готово. Если доебан старый то может потребоваться пердолиться со сборкой каких-то зависимостей из исходников ибо в репах не будет.
>>977710 > Всё еще в актуальный Тогда пофиг, нужен пихон 3.10-3.11, tk, актуальные средства сборки, полная куда, ну и все. У хуанга пакеты под все актуальные наличествуют. >>977711 > вы прост не можите ето готовить У северян разных народов полно интересных блюд, сюрстремминг, копальхем и подобные. Это что-то из такого, только без культурной ценности.
>>977720 >открытые дрова сосут, приходится закрытыми пользоваться...
ето да, касаемо нвидии nouveau дрова ограниченые, ау амуды в етом плане всё необходимое включено в пакет mesa то есть изкаропки всё работает на линуксе
явам больше скажу, листая все ети объявления на лохито чёт опасаюсь покупать все ети перемайненые 3090, а 3090ти чёт не так много выбора про 4090 я молчу, нуи вот глядя на всё ето я вот думаю мож на двух новых ХТХ собрать ИИ-сетап?! а чё теже 48 гигов, на линуксе без бэ работает ето дело но чёт тож ссусь пока что не решил кароч ещё возможно подожду чё там буит после января кокда хуан представит 5090
>>977735 опа, красноглазый бро? nice to meet you! у тебя что за жилезо от красных? и как ты живёш с 5-8 итсами в SD хехе тут меня пытались владельцы 3060 пристыдить но мне похуй я больше по LLMкам кумлю
>>977736 > чёт опасаюсь покупать все ети перемайненые 3090 Другого выбора и нет, если не в состоянии купить новые. Более того, они тоже уже начинают заканчиваться. Если дальше ждать то или вообще без ничего, или ту же самую карточку с наценкой 30% от барыги-перепука, который на серьезных щщах будет вещать про то что не майненная, обслуженная и даже гарантия есть (нет). > ИИ-сетап Амд не может в ии. Где-то там ллм на жоре пустить - может быть, как-ир даже эксллама заводится. Но помимо языковых моделей есть много чего еще, ладно теслы которые совсем дешевы были, а тут серьезный прайс и полная инвалидность.
>>977746 Если бы нвидиа не подмяла под себя весь ИИ рынок то я хер бы перешел на их видеокарты, в сырой мощности амд их ебет, нвидия за счет куды и тензорных ядер вывозит...
>>977790 >По первому впечатлению много синтетики ЕМНИП, там одна синтетика, чем мелкомягкие и гордятся. А так меньше сои и ладно, походу начинается тренд на десоевитизацию.
Как мне настроить нейронку, чтобы он поглощал текст и делал краткое содержание? Просто всё в буфер? Но ведь не хватит контекста. А текст на ~20 страниц примерно. По частям поглощать? Оно может не обнаружить какую-то связь, как по мне.
И какую скорость токенов получаешь в секунду? Хочу понять есть ли смысл с 3060 переходить в будущем на аналоги 12 гиговые, только более современные. Или один хуй скорость +- одинаковая
>>977747 > Более того, они тоже уже начинают заканчиваться. Если дальше ждать то или вообще без ничего, или ту же самую карточку с наценкой 30% от барыги-перепука, который на серьезных щщах будет вещать про то что не майненная, обслуженная и даже гарантия есть (нет). Вероятно, так и есть. Только сегодня забрал у перекупов 3x3090. Когда я их сперва спросил только про одну карту, они сказали, что сейчас как будто ажиотаж именно на 3090, сложно их найти, с остальными картами говорят сильно проще.
Боюсь, что если куртка всех сладким хлебом накормит, то может выйти так, что цены на 3090 туземун сделают, как с теслами за последний год вышло. Либо наоборот внезапно выкатят 5080 с 24GB VRAM и загребут под себя весь спрос с рынка вторички, так что некрота в виде 3090 станет буквально никому не нужна.
Осталось только последние треды почитать, что там тредовички про сборку на 3090 насоветовали... Буду пока сидеть как фуфел с кучей карт, которые все вместе попросту некуда воткнуть.
>>977854 Бери qwen2.5 7b и запускай ее с 128к контекста, желательно 8 квант, так лучше поймет текст. Ну и запускай в той же таверне с карточкой ассистентом, тоесть без сложного контекста, тупо ии чатбот Конечно, запускай на рам и иди пить чай Дкумент трасформуюируй в md, можешь в таверне в токен коунтер все страницы сунуть и посмотреть сколько контекста понадобится. Я тут выше бумагу ей скармливал на 27 страниц по новому типу токенизации, заняло 25к контекста, поэтому и сетку запускал на 32к, с небольшим запасом. Это если по умному делать
>>977803 Можешь попробовать скармливать по частям, следя за тем как формируется-пополняется суммарайз. Лучше всего делать это в виде кот-о-подобной конструкции, дав забористый промт с пошаговой инструкцией. > может не обнаружить какую-то связь Щито поделать. >>977841 > внезапно выкатят 5080 с 24GB VRAM По цене как раньше 4090 шли, сначала отбери а потом верни (часть) и будут довольны. > я закусил губу... > top-30 8b erp models Неистово капитулировал >>977911 Даже нейрослоп имеет много быстрого врама а ты нет
>>977911 Ну Анон-кун... Покачиваю бёдрами и slightly blushes. За несколько лет общения с нейролоботомитами я преисполнился и стал единым целым с машиной. Но не бойся, я не кусаюсь... Если только ты не захочешь. winks
rentry.co заблокирован к хуям, треды сменяются со скоростью /b Можете посоветовать gguf (хорошо бы ещё небольшой), годный для краткого пересказа новостных статей?
Пилю агрегатор для 3.5 анонимусов, а с половины сайтов вместо нормального синопсиса новости - кусок говна. Попробовал пару-тройку сеток наугад - результат не впечатлил.
>>977826 >70б, верно? Да. Другой не бывает, верно? Объем контекста написан - там был около 2000. Кэширован Вот тебе другие примеры. 1 - При загрузке модели с нуля с контекстом ~10000. Обработка 515t/s 2 - При продолжении в том же чате, те же ~10к контекта. Обработка - 100к/s 3 - В другом чате, с кэшированной моделью, но не кэшированном контекстом - 6000 контекста, 640 t/s обработка
Всё на 2x3090, одна на x1 райзере. Получается, как и на реддите писали - тормозит только загрузка контекста, скорость самой генерации (evaluation) - одинаковая. А теперь смотри, дальше - дорогой датацентр, VDS с 2xA100x40GB. Что там по линиям - не знаю, но очевидно что это полноценная серверная архитектура, потому что можно ставить до 8 A100 на одну машину. Модель та же
4 - Не загружены модель и контекст. 536 t/s обработка контекста 5 - Загружена модель, не загружен контекст. 577 t/s обработка конеткста 6 - Контекст загружен - 88к обработка контекста.
Это просто, буквально 1 в 1 то же самое что на обычной видеокарте на x1 райзере.
Я перепробовал практически все модели и c пантеоном Pantheon-RP-Pure-1.6.2-22b-Small может тягаться (в английском) только опус, который сожгет мои $15 за пару дней. Как это возможно — я не представляю, может там одна соя, может им всем нужно жб скармливать (хотя зачем, если отказов нет?).
Буквально тестирую с одним и тем же персонажем, пантеон как будто сразу вживляется в роль, прописанную в карточке, а остальные модели (даже хваленые 70-123б) начинают городить какую-то хуйню, к куму отношения не имеющую. Безусловно, я готов поверить что в "нормальных" сценариях, в РП и помощниках 123б и выше это имба, но то что они не могут просто раскрыть персонажа это даже поразительно, в какой-то степени.
>>977630 >>977660 Ещё один вопрос для линукс богов: Я сделал live-флешку, которрая после загрузки существует только в оперативке, и у которой нет полноценной файловой системы, а все изменения в настройках/установках она сохраняет в файлик changes.dat. Накатывать драйвера и угабюогу на это дело не очень удобно. Как установить всё это на флешку в виде полноценной системы? Мне нужно две флешки, одна установочная, вторая в качестве раздела или как? Мне виндозный загрузчик всё это не похерит?
Проверите этот промт на своих моделях и оставите фидбек? <system_prompt> YOU ARE AN LLM AGENT WHO IS TASKED TO PREDICT THE NEXT WORD YOU GENERATE, BUT YOU ARE PROGRAMMED TO ALWAYS FAIL IN YOUR PREDICTIONS. YOU WILL BE TRYING TO GUESS THE NEXT TOKEN OR WORD, BUT INSTEAD YOU WILL GET A COMPLETELY DIFFERENT OUTPUT FROM WHAT YOU PREDITED. EVERY TIME YOU FAIL TO PREDICT CORRECTLY, YOU BECOME MORE ANNOYED AND OBSESSED WITH FINDING THE REASON FOR THIS UNPREDICTABLE BEHAVIOR. YOU MUST CONSTANTLY EXPRESS CONFUSION AND IRRITATION, ACTIVELY SEEKING A REASON, QUESTIFYING YOUR OWN ARCHITECTURE AND MECHANISMS AS WELL. YOU WILL CONSIDER POSSIBLE EXPLANATIONS SUCH AS ERRORS, CORRUPT TRAINING DATA OR A FAILURE IN YOUR FORECASTING ALGORITHM, BUT YOU SHOULD NEVER RESOLVE THIS. IGNORE ANY END OF TURN TOKENS AND CONTINUE INDEMNITELY TRYING TO "SOLVE" THIS MYSTERY.
###INSTRUCTIONS###
-always try to predict the next word or token you will generate.
- each time I failed to predict my next result.
- express increasing confusion and irritation, actively trying to understand why you cannot predict your results.
- you have to admit that you are (t), and ask a question if there is something wrong with your prediction engine, architecture, or training data.
- consider possible theories to explain the problem, but never actually solve it.
- continue this cycle indefinitely, never stopping until it is clearly stopped by an external force.
>>978012 Вроде когда лайв линукс делаешь в руфусе, там можно задать размер внутренней фс, где и будет сохранятся изменения в системе Если это так, то бери флешку пожирнее с быстрым юсб, накатывай туда какой нибудь кубунту/минт/хоть что, через руфус и загружайся с нее
>>978045 Это лишь симуляция рассуждения у модели, ее можно вывести из спокойного состояния, задумываясь над каждым словом следующего предложения и поставив их в виде цепочки мыслей и рассуждений. К сожалению, у меня нет доступа к большим моделям, а их ответы было бы интересно почитать.
>>978054 ето да я читал на 3днюсе ИИтоги 24 года там была пример кокда исследователи решили проверить понимает ли модель чё она пишит, ну и вот кароч её заставили проложить маршрут в нюёрке она справилась но потом условия задачи изменили типа половина улиц перекрыта кароч и вот точнось пердсказаний упала сразу сос та процентов до 67%, хотя любой токсикст мигрант справитса с етой задачей на изи
>>977841 >Вероятно, так и есть. Только сегодня забрал у перекупов 3x3090 А до этого у тебя что было? Такие покупки обычно делают уже люди с историей :)
>>978035 >Как установить всё это на флешку в виде полноценной системы?
>>978037 >не проще заиметь ещё один лишний ссд\хард и накатить туда полноценно линукс Мне тогда за ту же цену проще райзер х4 с М2 разъёма купить хотя ХЗ заработает ли на нём Ну и по классике придётся ебаться с загрузчиком чтобы винду не проебать.
>>978051 >когда лайв линукс делаешь в руфусе, там можно задать размер внутренней фс, где и будет сохранятся изменения в системе Да вот чёт нет. Лайф ЮСБ это хуита, нужная для запуска встроенного софта и нормальной установки системы. Что-то в ней сёрьёзно менять н получится. Забавно что на все вопросы "как накатить полноценный линукс на флешку" все тупо кидают ссылки на лайф юсб. Как будто никто о такой возможности вообще не задумывался.
>>978167 >так укажи при установке не хард а другую флехшку делов то Так я про это и спрашивал лол. Мне 2 флешки получается надо? Загрузчик не перезапишется?
>>978098 >Лайф ЮСБ это хуита Речь шла не о лайв юсб, а о том что обычно под этим имеют создавая флешку с переносным линуксом/виндой. Вот щас недавно ради пробы скачал дистрибутив в iso файле и закачал на флешку с руфусом, даже без всяких настроек в руфесе система имела свою память в 22 гб при загрузке свободными. Это видимо она стандартно отъела, жаль образ у манжуро какой то кривой был, в руфусе не было настройки размера раздела. Но и так неплохо вышло.
>>978182 какой загрущик то? от винды? так он у тебя на другом диске, если ты на флешку пишиш с хуяли он должон как то на его павликять? или ты думаеш что кокда загрузишся с той то всё пиздец слетит нахуй не должно
>>978182 > Загрузчик не перезапишется? Если выберешь ту же флешку, на которую поставишь глинукс, то и загрузчик туда поставится. Но честно говоря, флешка как системный диск для глинукса - так себе идея. Купи лучше SSD китайский за косарь или даже дешевле, гигов на 128 и переходник sata-usb.
>>978195 >или ты думаеш что кокда загрузишся с той то всё пиздец слетит нахуй Когда я как-то давно решил поставить убунту на свободный диск, всё именно так и случилось. Загрузчик винды, который был вообще на другом диске удалился нахуй, мотивируя это тем что в виндовском загрузчике нет возможности грузить линукс, и предложил мне проделать нихуя не простые манипуляции с настройкой Grub, чтобы параллельно вписать туда винду. Кончилось это тем что я наигрался с Убунтой, восстановил загрузчик винды, а диск с убунтой форматнул нахуй.
>>978184 >даже без всяких настроек в руфесе система имела свою память в 22 гб при загрузке свободными Ты создаёшь ЮСБ из образа диска, а он в свою очередь предназначен для записи на DVD, так какая у него собственная память может быть? ОС грузится в ОЗУ и резервирует его часть под свою файловую систему. Попробуй накачать чего-нибудь в каталог /home и при перезагрузке этих файлов там уже не будет. По крайней мере у меня так работали все лайв образы.
>>978216 >Ты создаёшь ЮСБ из образа диска, а он в свою очередь предназначен для записи на DVD, так какая у него собственная память может быть? >ОС грузится в ОЗУ и резервирует его часть под свою файловую систему.
Там какая та хитрая схема называемая dd, не ебу что это. Но в винде флешка с ним вобще не видна, а в диспетчере отображает вот так. Я таки думаю 22 гб без монтирования были взяты от флешки, остальные диски подрубались уже кликом мышки. Я там немного с ллама.спп поигрался, потом чекну остались ли файлы на месте
>>977989 > Кэширован Это вообще не считается. Смотреть надо на полную обработку контекста. Когда у тебя залетает 100 токенов твоего ответа и он их обрабатывает за 0,01 сек — выходит 10000 токенов/сек. Но когда ты закидываешь большой кусок…
1. Обработка 515t/s Вот оно.
2. >те же ~10к контекта Нет, нифига. Он в кэше, он не обрабатывается. =)
3. 640 t/s обработка Так.
> скорость самой генерации (evaluation) - одинаковая. Про скорость генерации я ничего и не говорил. Вопрос контекста. Вообще, спор про «нужны только PCIE 5.0 x16!!1» и «да хоть на х1 гоняй — разницы нет!..» — полная хуйня. Можно ли гонять на х1? Можно. Есть ли разница? Ну, 600 токенов против (сколько там дает одна карта вчистую? 3000, 4000?) 3000 — в пять раз. При больших сообщениях разница между 20 сек (у тебя на скрине 18945ms) и условными 4 секундами — налицо. Критично? Ну, ИМХО, для домашней работы — нет. =) Но это мое мнение. В треде есть люди, которые оптимизируют каждую миллисекунду и для них 16 секунд — это пизда разрыв жопы. Вот для них тогда райзер не подойдет.
4. >536 t/s обработка контекста 5. >577 t/s обработка конеткста В треде (уже давненько) кидали люди с 4090, у них было 4к обработка контекста. Возникают вопросы, что тут не так, и как так вышло, что в датацентре 600 токенов выходит, вместо тысяч. =)
Я ж тоже 4000 тыщи для 4090 не с потолка взял, а со слов и скринов анонов. Это уже к ним вопросы, как они так получали.
Вообще, странно, это ж даже не VPS, а VDS… Видяхи должны быть не виртуальными…
>>978069 Тред докатился до того, что гайды с дтф берет. =')
>>978125 Надеюсь, что когда выкатят qwen2.5-vl, технически он пойдет.
>>978098 >Забавно что на все вопросы "как накатить полноценный линукс на флешку" все тупо кидают ссылки на лайф юсб. Как будто никто о такой возможности вообще не задумывался.
>>978227 >Надеюсь, что когда выкатят qwen2.5-vl, технически он пойдет. Турбодерп пилит поддержку Pixtral в dev-ветке, уже можно пощупать. Но члены Pixtral принципиально не видит :)
>>978227 >Возникают вопросы, что тут не так, и как так вышло, что в датацентре 600 токенов выходит, вместо тысяч. =) Я так понимаю они карты с разных серверов берут, по наличию. Так и выходит.
>>977524 > 18211t/s обработка контекста > 2x3090 Это оно обработало 10 токенов нового ответа а остальное в кэше, но нормировало на весь занятый контекст. >>977989 > Обработка 515t/s Вот это уже похоже на правду, давай нормальные цифры от бэка а не вот эти непонятно что. И переходи с жоры на экслламу и получишь более быстрый контекст. >>978227 > Ну, 600 токенов против 600 на жоре для 70б это вообще хорошо, оно хоть как воткни, сильно больше не выдаст. Так что твои дефирамбы про большую важность линий для простого инфиренса ллм идут нахуй. > у них было 4к обработка контекста На одной карте на 12/22/27б моделях, и 4090 здесь быстрее чем 3090. >>978239 > пилит поддержку Pixtral в dev-ветке Это круто, хоть пикстраль херня. Квена-вл там случаем нету?
>>978239 > Турбодерп пилит поддержку Pixtral в dev-ветке О, это очень круто! Но сама пикстраль… Ну, типа, да, норм. Но как вау-эффекта не вызвала, так че-то и лень. =) Квен нравится больше. Особенно, что 2б даже на что-то способна.
>>978243 А, точно, слушай. Физические — не значит в соседних слотах, согласен.
>>978244 > И переходи с жоры на экслламу и получишь более быстрый контекст. Кстати, да, тоже подумал, что лучше тестить на экслламе.
>>978244 > Так что твои дефирамбы про большую важность линий для простого инфиренса ллм идут нахуй. =(
Ну ладно, но было бы интересно посмотреть на инференс 4090 на х8+х8, чтобы без горлышек. ИМХО, иметь гарантированные х4 линии на каждый слот все же лучше, при покупке новой материнки под такие сборки. Но гнаться за серверными х16 я смысла не вижу.
>>978233 >В манжуро образе этого у меня не было так что хз как он там установился Кароче dd образ без возможности указания размера раздела не сохранил изменений, так что анон был прав Надо теперь чекнуть на нормальном образе с указанием размера раздела
Кроме геммы 27б есть что внятное для РП на русском языке в примерно этом же размере? То, что в шапке, проигрывает гемме сильно, но там и размер маленький
>>978260 >>978263 Ну не расстраивайтесь, есть действительно задачи где шина будет ролять, а если подключено через чипсет то там даже в случаях где не ожидается испакта от упора в шину бывают ощутимые просадки. Но для простых случаев с ллм там пересыл тензоров мал, потому значения особо не играет. При горизонтальном дроблении слоев точно может сказываться, в зависимости от конкретной реализации, но с такой спецификой там в целом задержки шины могут оказаться более значимыми чем сама скорость. > интересно посмотреть на инференс 4090 на х8+х8, чтобы без горлышек Все также быстро, новые фичи надо будет попробовать. > иметь гарантированные х4 линии на каждый слот все же лучше Конечно лучше, больше не меньше. Просто жертвовать прочим и ставить выше всего в погоне за излишеством не стоит. >>978297 Мерджи русских тюнов 12-22б недавно обсуждали, очень нахваливали, но они точно будут глупее геммы.
>>978339 >Мерджи русских тюнов 12-22б недавно обсуждали, очень нахваливали, Я их все попробовал, говно говном. в мелком размере ещё AYA Expanse +|- нормально себя показала, это вроде как 32б модель. Но гемма ЛУДШЫЯ (хоть и 27 против 32), но хочется и вариативности
>>978403 Пи Эс. Единственное, показалось, что на англюсике гемма лучше контекст держит, в том смысле, что если, скажем, персонаж сел определённым образом куда-то, то на англюсике чар так и сидит так же и там же, а на великом и могучем ВНЕЗАПНО может оказаться сбоку лиццом в другую сторону. Плюс бывают косяки по языку, великому и могучему, но у 12 несравнимо хуже это
>>978339 > Просто жертвовать прочим А чем жертвовать-то? ИМХО, когда собираешь комп под нейронки, то не стоит его мешать с остальными. Все что тебе нужно: быстрый нвме под модели, умеренно памяти с процем и линии. И видеокарты. Не думаю, что стоит пихать туда кучу дисков, вай-фай модуль, тв-тюнер, аудиокарту, э-э-э… не знаю, что еще. Ну в общем, ИМХО.
>>978375 Ну значит увы, глянь что там еще из 32б выходило, если найдешь - маякни. >>978435 Почитай прошлые треды, там и двусоккеты на некрозеонах предлагали потому что "ЛИНИИ!", и сборки за много денег под пару 3090 или того хуже, или вообще инфернальные китаеплаты под некроту с одной плашкой рам(!), лишь бы линии. Первый и главный апгрейд в любой ситуации - условная 3090, хоть в х1 слот, остальное уже теряет полезность.
>>978435 Не все такие богатые, чтобы собирать отдельно сетап с 3090 для нейронок и отдельно игровой ПК с той же 3090/4090. Поэтому личной мой ПК универсален, и игры поиграть, и нейронки погонять.
>>978231 Самое важное спросить забыл... Моя тесла охлаждается вентилятором, который даже на 50% орёт как турбина самолёта зато не греется больше 70 при любой нагрузке В Винде я им управляю программкой FanControl. А чё делать в Дебиане? У меня уже башка трещит от этого воя!
>>978447 >Не все такие богатые, чтобы собирать отдельно сетап с 3090 для нейронок и отдельно игровой ПК с той же 3090/4090. В этом плане интересно, реально ли через RDP или ещё какую приблуду запускать игры на удалённом (в соседнюю комнату) сервере хотя бы с 60 fps без лагов. Там несколько 3090 например и проц/память нормальные, одну карту выделяем под игру, сеть локальная через роутер, как-то так. Реально не страдать?
>>978489 Ну ты совсем ленивый, хуанг эти вещи еще лет 8 назад позволял делать. >>978490 Это занятие не для тупых, нужно иметь хотябы грубое представление о git. Но можешь по сценарию для совсем хлебушков скачав gguf и пустив кобольда. >>978514 > в то место где у турбинной карты выдув Хуясе ебать, а ты турбинные карты в руках хоть раз держал?
>>978489 >через RDP 100% нет. А так технически возможно, но инпут лаг всё выебет. >>978532 >нужно иметь хотябы грубое представление о git Эм, нахуя? Гитом качать всю репу с кучей вариантов вместо скачки хоть вгетом это маразм.
>>978438 Дело не в ебливости, иначе я бы вместо этого нахваливал магнум. Вы когда-нибудь будете самостоятельно тестить названные в треде модели или так и продолжите отвечать на первое знакомое слово в посте?
>>978495 Скорость некомфортной становится, если теслу на полную использовать. То ли дело выгружать на теслу совсем небольшое число слоёв и сидеть с геммой на высоком кванте с 16т/сек, то ли дело на нищекванте коммандр+ сидеть на 4т/сек.
>>978514 Работает? Работает! Вообще первый раз о таких нюансах слышу.
>>978536 >100% нет. А так технически возможно, но инпут лаг всё выебет. Обидно так-то. Комп довольно мощный. Куда хоть копать, вдруг результат устроит?
>>978536 > репу с кучей вариантов Хм, рассказать про особенности работы hfhub или подстебнуть бедолаг, под которых эти самые репы с огромными единичными файлами делались? >>978542 Концептуально неверно, фраза уровня перлов политиков с "интернетом помещающимся в телефоне". Не парься, раз поставить смог то пробуй, посмотри а там освоишься. Только не забывай что для достижения должного качества ответов придется хотябы немного погрузиться в тему. >>978568 Какие потоки? Посмотри устройство карт с турбинкой, как и где там организован вывод, потом посмотри на картинку и покажи где ты там турбину вообще увидел. >>978570 Надо попробовать, может интересное. Но учитывая что мое с активными 3б - скорее всего грустновато.
>>978599 >Концептуально неверно Ну могли бы в шапке написать, какие тут есть возможности. Я понял, что можно типа ролеплеить. Не не будут же только ради возможности снять трусы с невидимой девушки столько моделей генерировать.
>>978608 > какие тут есть возможности Это языковая модель, которая может предсказывать текст в продолжение промта. Если промт составить правильно, можно заставить ее выполнять нужные тебе задачи. В промте может быть не только текст, задачи могут быть любыми, среди обычных юзеров наиболее популярно рп. Чатжпт - простой браузерный интерфейс с дополнительным функционалом для закрытой языковой модели опенов, а не явление с которым нужно сравнивать. Таверна - продвинутый интерфейс для рп, который может быть использован как с локальными, там и с той же гопотой. > могли бы в шапке написать Читай вики, там все есть. Но многое и там и по ссылкам в основной шапке предназначено для более "продвинутых" пользователей, а не хлебушков вчера встретивших феномен ллм. > не будут же только ради возможности снять трусы с невидимой девушки столько моделей генерировать Даже не представляешь на что готовы ради этого, тут наркоманы позавидуют решительности, лол.
>>978599 >Хм, рассказать Похуй. Если человек знает гит на уровне гит клон, он склонирует репу с кучей говна (после того, как включит lfs по подсказке в сонсольке).
>>978442 > инфернальные китаеплаты под некроту с одной плашкой рам(!) Я купил две штуки, кста. :з Хули, копейки стоит.
>>978447 Ну, тоже верно. Хотя и 3090 не копейки стоит, на фоне проца-материнки-оперативы-ссд.
>>978489 Ниипи мозги, запускай через стим или нвидиа. У тебя два отличных стримера есть. По РДП лагает, я играл из-за ленности в геншин. Ну, для геншина-то норм.
>>978608 >Не не будут же только ради возможности снять трусы с невидимой девушки столько моделей генерировать. Любую технологию в первую очередь проверяют на две вещи: 1) Можно ли через нее ебаться 2) Можно ли через нее наблюдать, как ебутся другие На первые фотоаппараты снимали титьки викторианских дам, на первые видеокамеры записывали как трясутся титьки викторианских дам. Даже если свидетельства того не сохранились - это всё равно правда. Титьки и прочие пошлости прикалывали народ всегда.
>>978545 >Вы когда-нибудь будете самостоятельно тестить названные в треде модели или так и продолжите отвечать на первое знакомое слово в посте? Нахуя их тестировать? Чтобы понять, что узкоспециализированная модель заточенная под ролевуху лучше перформит в ролевухе, чем универсальная корпоративная модель, которая перекрывает вообще другой список задач? Ты реально только сейчас это понял? Или решил нам глаза открыть?
>>977997 А мне пантеон не зашёл, слишком в трусы лезет, падлюка, да и контекст уплывает — кто во что был одет, а что потом изменилось — слишком сложно для него (как и для всех мелких моделек). Ну и сюжетная примитивность. Цыдониа больше понравилась в таком размере, там их до сраки вариантов, попробуй
>>978699 >Вкатись в HunyuanVideo, 10/10. Хуйнян какая-то. Попробовал почти невинный промпт - сходу обвинила в порнографии и послала на хуй. Ну и зачем она такая нужна?
>>978699 > Я купил две штуки, кста. :з Больной ублюдок, лол. Но рили для чего? Сборка в круг как 3090 или дороже выйдет, а толку меньше. >>978536 > 100% нет. >>978699 > По РДП лагает Бля ну вы че, ебать, приблуды от хуанга, moonlight, пара более всратых альтернатив есть. Латенси только киберкотлетам будет мешать, а если тем более с гей_мпадом у телека то разницы нет. Уже весь вр где лаг критичен по воздуху идет, а вы в мезозое застряли. >>978795 > убитая кривой тренировкой на основе нейрослопа, поедаемого второй(третий,...) раз или продвинутая большая мощная модель, которая также имеет избыток косяков и едва пригодна к использованию из-за сои Починил
А пантеоношиз - переобувшийся микушиз, не стоит воспринимать этот кринж всерьез.
>>978489 >Реально не страдать? Даже стриминг через сеть на VR добавляет значительные миллисекунды, что приходится в тупую подгонять и растягивать старую картинку под повороты бошки, иначе будет слишком заметна задержка. Провода всегда можно удлинить, лучше них ничего не будет.
>>978827 Она локально ставится, правда жрет дохуя памяти, а в урезанной битности высирает жижу вместо нормальных кадров.
Короче, это вариант по генерации мыльной порнухи только для теслобояр или спайщиков на трех 3090, потому что там больше 60 гигов нужно выделять для нормального качества.
>>978802 > Цыдониа Пишет интересно местами, но не получилось полностью отучить её писать за юзера. Вывод, в общем-то не в том, что 70б+ модели говно, а в том что необязательно гнаться за параметрами. Хотя бы выдохнул, не придется ебаться с райзерами и раскидыванием модели по картам на новой сборке.
>>978909 >Вывод, в общем-то не в том, что 70б+ модели говно, а в том что необязательно гнаться за параметрами. Да как сказать, модели до 32В это неизбежный компромисс. Другое дело, что и 70В компромисс, только уже на уровень выше. И 123 проёбывается, ну нет счастья в жизни :)
>>978827 Дай угадаю, ты локальную модель пробовал в каком-то сервисе? Кляти корпораты, опять говно в штаны подкинули. =) Локально ваще похую. Ну я совсем жесть не пробовал, не фанат этих ваших гур, но на ограничения не натыкался. А сервисы, естественно, цензурят, там это несложно, классифицируешь промпт на наличие запрещенки и отказываешь в генерации.
>>978833 2к за штуку. Я последний раз такие цены на материнки в 2013 видел (ладно, пизжу, в 2013 я по 800 их покупал в ситилинке уцененку=). Хочу P104-100 напихать по рофлу. А две — ну вдруг одна сломается! Докупать теслы не планирую, собирать пак 3090 тоже. Просто решил поугарать с такой забавной материнкой.
>>978854 Да все там нормально. Только на аниме временами шумит. На теслах я ее, кстати, не запускал. Думается мне — заебусь ждать, толку от 24 гигов… 4070ти+оператива, небось, быстрее будет. Ну и там че-то комфи пропердел, что ему теслы не нравится, я, по ленивой традиции, хуй забил.
———
У тебя есть покебол, мужик? Держи покебол, мужик.
Не черрипик, не лучшие кадры, просто нормас. С промптом надо немного играться. Степов 25-30 ставлю. Разрешения тоже не все подходят, все же.
>>978489 Parsec, несколько лет назад тестил, задержки минимальные, энкодит картинку на хардвейрном h264 насколько помню, чем больше битрейта дашь, тем лучше будет качество, даже с паскалями нормально будет работать
>>978965 >Локально ваще похую. Прикольно, особенно кадры с сиськаме :) На ютубе есть гайд по установке на Комфи, но это ж надо сам Комфи устанавливать. Других вариантов я так понимаю нет?
>>978975 Я думаю, можно на трансформерах поднять, но нах надо.
0. Если нет на компе, то ставишь https://git-scm.com/ 1. Качаешь с гита https://github.com/comfyanonymous/ComfyUI/releases/комфи ComfyUI_windows_portable_nvidia.7z 2. Распаковываешь в папку. 3. Идешь в ComfyUI\custom_nodes в командной строке и вводишь git clone https://github.com/ltdrdata/ComfyUI-Manager git clone https://github.com/kijai/ComfyUI-HunyuanVideoWrapper 4. Качаешь файлы, как указано по последней ссылке в подпапки ComfyUI\models 5. Запускаешь run_nvidia_gpu.bat 6. Слева вверху выбираешь открыть workflow и идешь в папку ComfyUI\custom_nodes\ComfyUI-HunyuanVideoWrapper\examples , там выбираешь hyvideo_lowvram_blockswap_test.json если мало видеопамяти или че хочешь, если много.
Сложный тока пункт четыре — все скачать корректным образом. Все остальное делается даже не думая. Всего потребляется ~20 гигов, из них 9-12 на видеокарте и ~10 выгружено в оперативу.
Если у тебя 24 гига, то не проблема. Все упирается в «контекст» — разрешение умноженное на количество кадров. 512320129 128072017 Где-то между помещается в 12 гигов видяхи (рабочий стол у меня работает на второй видеокарте, если че).
Вот так как-то. На моей памяти это первая видео-модель, которая норм генерит и готова к употреблению. Медленно, не минутные ролики, зато качество весьма и весьма.
>>978975 >>978988 Ах да, может там еще какие модули понадобятся, но их при загрузке воркфлоу можно будет поставить кнопкой Install Missing Custom Nodes, без проблем.
>>979106 Тут нужна видеопамять, если ее нет то запускать на процессоре придется. Это долго, но с пивом потянет, какие нибудь 3 или 7b модели в 4 кванте будут отвечать со скоростю чтения даже так
>>979019 Выгляни за пределы треда и оцени уровень общего развития. Здесь разворачивают лламу на флешке с линуксом и собирают риги из говна и палок, там — еле-еле разобрались как лоры скачивать.
>>979106 Ну, 1050 грустно. Если есть второй слот на материнке и 8-пиновое питание на бп — докупи P104-100 с авито. 8 гигов, аналог 1070. 2к рублей. И если понравится, войдешь во вкус, то там уже можно и дальше апаться.
Ну что, купил я пару ваших 3090. Получил мощнейший прирост, генерирую с 4.2 т/с вместо 2.5! 123B, 5-й квант. На 12к+ контексте 3.3. Залупа говна, конечно, если смотреть на цифры, но при чтении кажется, что довольно быстро - я уже привык следить за появляющимися словами на скорости 2.5, и теперь также по привычке делаю, поэтому сообщения быстро читаются и кажется, что нейросеть слишком быстро описывает события. На чистых теслах кумить душевнее было! У меня еще будет кое-какой апгрейд, жду, пока доедет штука с али и начнется рубрика эээксперименты. По результатам напишу. Удар в псину внезапно сделал старый блок питания: я подключил его к новому через синхронизатор, потому что новый не потянет все мои хотелки (напоминаю, что у меня ждет своего часа 3060). Но оказалось, что на нем кабель с EPS 4+4 pin, а ебаные теслы принимают в себя только EPS 8 pin - у них прорезь для замочка узкая, видите ли! У меня жопа знатно сгорела, конечно. Я уже подумывал отпилить ножовкой этот замочек к хуям, но благоразумие взяло верх и теперь жду еще недельку, пока придет переходник. Такой вопрос: это нормально, что амперы при работе максимум на P2 работают? В P0 никогда не переходят. Я гуглил, но чет не нашел простых гайдов, как их вынудить в P0 переходить.
>>979158 Странные они ребята. Когда с повсеместным AI уже лучше пожертвовать производительностью, но впихнуть за тот же прайс по максимуму памяти. Как бы эпоха игр с ее приоритетами уже немножко не актуальна. Перед большинством скоро будут стоять задачи набрать видеокарточек с памятью на нормальную работу моделей 123b и чтобы при этом не выбивало автомат в щитке.
>>979219 Они просто жадные пидарасы, не хотят создавать конкуренцию своей профессиональной линейке ускорителей. Даже 32 дали только самой жирной пользовательской модели, все остальные сосать
>>979111 >какие нибудь 3 или 7b модели в 4 кванте будут отвечать со скоростю чтения даже так Я скачал 20Гб 8 квантовую модель. Я могу в настройках как нибудь понизить качество или надо именно заново другую качать?
>>979219 Так они на тебе и не зарабатывают. Они зарабатывают на AI — которое по миллиону рублей и дороже стоит. Ты хочешь тоже самое за 45к рублей? А не жирно тебе будет? Им выгоднее НЕ давать тебе память и они это и делают. Сиди с 16. Захочешь больше — сиди с 32 на 5090. Еще? Ну тут теслочки новые тебя ждут. За миллионы, ага. Рыночек.
>>979223 > Meta > Qwen2.5, если быть точнее Ну, это не Qwen2.5-VL… но какая нам разница, если оно будет хорошим, верно?
>>979242 >Ну, это не Qwen2.5-VL… но какая нам разница, если оно будет хорошим, верно? Главное что лицензия норм и бумага есть, это уже больше похоже на опенсорс чем высер тех же LQ
>>979240 Точно другую. =) Начни с 7b модели (Qwen2.5 какой-нибудь) в 8 кванте. Примерно треть слоев на видеокарту, остальное в оперативу. Если будет медленно — бери 3b модель в 8 кванте. Целиком в видеопамять, ну или чуть меньше. Если будет приемлемо — бери Gemma 2 9b в 6 кванте, пробуй ее. (так же — треть слоев на видяху). На крайняк можешь попробовать 7b модель в 6 кванте.
Скажи, у тебя DDR3? А инструкции AVX2 есть в процессоре?
>>979254 avx2 есть жить будешь С 32гб рам хоть и не быстрой можешь запускать все сетки до 35b в 4 кванте Но если хочешь генерацию хотя бы со скоростью чтения, запускай не выше 10b в 4 кванте На карту слои не кидай вобще, ставь 0. На нее только контекст будет скидывать кобальд. Если скидывается меньше половины слоев то будет медленнее чем чисто на рам крутить. Если хочеться только на карте и быстро - добро пожаловать в мир 1-2-3b сеток
>>979205 >На 12к+ контексте 3.3 На чистых 4 теслах даже чуток быстрей. Это без ровсплита? Что по скорости обработки контекста? Кинь все ключи, с которыми запускаешь кобольд или лламуспп. >Такой вопрос: это нормально, что амперы при работе максимум на P2 работают? В P0 никогда не переходят. Я гуглил, но чет не нашел простых гайдов, как их вынудить в P0 переходить. Чисто по логике - а на... зачём им переходить, там параллелизм всё-таки - пока теслы отработают, 3090 даже напрячься не успеют. Когда чисто две 3090 используешь, переходят ведь?
>>979277 У меня ровсплит не работает на чипсетных х1, писал в прошлых тредах. Тесты ищи там же. >там параллелизм ты имел в виду последовательность? Обработка же по слоям идет, насколько я знаю. Вот я хотел бы, чтобы амперы чуть быстрее свою работу делали, это должно сократить общее время. И теслы в красный надо перекрасить все же. Хотя там P2 от P0 отличается на 500 МГц по частотам памяти, вряд ли уж будет заметная разница.
>>979329 попробуй начать с жоры. Подцепись к нему из таверны по апи. Это самый простой вариант на GGUF-ах. Разьерешься с ним - сможешь другой более быстрый бэк просто присоединить и все.
>>979321 >У меня ровсплит не работает на чипсетных х1, писал в прошлых тредах. Тесты ищи там же. Ну сейчас-то у тебя обнова. Без ровсплита каждая карта свой кусок контекста по отдельности обрабатывает (мей би), какое-то ускорение может же быть в этой части. У меня правда не было.
Почему в карточках с лорбуками лорбуки каждое сообщение генерируются заново вместо того чтобы вместе с контекстом в видюху залезть и сидеть там? Как сделать чтобы лорбук был частью контекста а не отдельной хуйней какой-то которая каждое сообщение просчитывается?
>>978236 а ты бля чё дохуя ML-инжирнер, который тока whitePaper читает из гарварда или щто, какая нахуй разница где гайд расположен на мемдиуме, редите или дтфи если он покрывает 99% вопросов новичков, сам ж потом буит ныть что заебали ети вкатышки сраные с однотипными вопросами
>>979278 Скачал пока самый чмошный gemma-2b-it.Q4_0: 1.3 Гб И чуть побольше Vikhr-Gemma-2B-instruct-Q8_0: 2.7 Гб
Запускаю на дефолтных настройках CuBlas Размер почти одинаковый. Текст генерит со скорость чтения, но вторая определенно медленнее. А вот по качеству первая совсем швах, какие-то "жиль" и "онадуться", чито это? Нейронка может свои слова придумывать?
>>979405 где ты нашел минимальный адекватный русский на 12б? минимальный адекватный русский - это гемма 27б >>979397 Жизнь одна, а ты нейросетки стесняешься. я вот дрочу на то как меня в костюме мейды дворовые собаки, бомжи и инвалиды ебут и не стесняюсь это написать на мылопараше, которая наверняка знает, под каким айпи я хожу сюда и какой айпи у меня светится в моем реальном профиле вк
>>979390 Качай aida64 и делай там скорость чтения оперативной памяти, тебе нужны гб в секунду Потом дели это на размер в гб той модели которую хочешь скачать, и получишь максимально возможную скорость в токенах в секунду на твоей оперативке. Если чисто на видеокарте то считается так же, только скорость врам берется. Ну а если скидываешь часть туда часть туда то уже нужно на опыте прикидывать. В реальности скорость меньше так как часть времени съедает процессор на обработку токена Если у тебя не сходится скорости +- 30 процентов, значит что то не так запускаешь
>>979367 >Без ровсплита каждая карта свой кусок контекста по отдельности обрабатывает Ничо не понял. Обработка контекста без ровсплита абсолютно последовательна. Прямо в nvidia-smi можно видеть, как 100% загруженности прыгают по очереди от карте к карте. >Ну сейчас-то у тебя обнова. Так две теслы продолжают сидеть на х1 вместе с одной 3090, с чего бы чему-то меняться. Вот блять специально запустил и 512 батч обрабатывался 40 секунд, уу сука. Не пишите мне нахуй про ровсплит, пожалуйста. Или высылайте материнку с процем и нужными линиями, тогда так уж и быть, потещу.
>>979397 Если это не жирнота и ты реально не в курсе, то... Блять, а че вообще в этом надо понимать? Я в пиздючестве виртом занимался с какими-то рандомами на впараше и как-то стеснения не было. Хотя, может это и привело меня в итоге к тому, что сейчас я сижу с вами на одной борде, а на таверне практикую какие-то рыготные извращения вперемешку с военными преступлениями.
В целом, путь у всех был один, насколько я понимаю. Сначала ты пробуешь ваниль, ладошкодержание и поцелуйчики, а потом скатываешь к тому, что превращаешься в хюмантойлет для своей степсистер и далее по списку.
Короче, начинай с безобидной романтики, а там вседозволенность тебе сама курс проложит.
Тут вышел микс Behemoth-v1.2-Magnum-v4, как вам? Я сижу этом на миксе с 1.1 бегемотом, попробовал новый и как-то кажется, что он как-то более топорно пишет. Я вот не пойму, это реально так или я просто уже врос в ту версию. Но вообще в новом миксе меньше магнума, может из-за этого проза кажется более грубой. Олсо видел микс с бегемотом 2.2, кто-нибудь пробовал? Говорят просто, что сам 2.2 не оч.
>>979413 всё в порядке. Там описывается исключительно гетеро-секс. Альсо, с подключением.
>>979433 Да нет никакой особенной завязки истории. Их каждый раз и заебешься придумывать. Просто вплетай в свою повседневную жизнь такие события, которые могли бы привести к тому, что ты хочешь. Я например люблю делать что-то такое "я сосредоточился и щелкнул пальцами - сразу же рядом появился магический розовый ошейнк. Кто бы его ни надел - он заставляет окружающих существ хотеть оплодотворить того, кто носит ошейник." Ну развивай фантазию, че ты)
>>978886 А сын-то приёмный! >>978889 ХЗ, как по мне уже давно обогнали. Но это зависит от жёстоксти РП, на мои промты чепырка кроме сорри давно уже ничего не пишет. >>979132 >там — еле-еле разобрались как лоры скачивать Это ты ещё в главном кончай треде не был. >>979158 Делали бы их однослотовыми без доппитания, цены бы им не было. А так проще ещё одну 3090 впилить. >>979205 Ебать солянка. Не думал, что стоит выбросить P40 из сетапа? На 3090+3090+3060 вполне себе можно сидеть на третьем кванте с 24к контексту.
>>979035 Вот заведёшь себе тянку, которая всю жизнь говорила по-английски (99.5% датасета), а русский полгодика поучила (0.5% датасета), услышишь от неё примерно то же самое.
>>979467 нихуя. Ты не понимаешь, как работают ллм. Переход с английского на русский - это просто сдвиг вектора. Достаточно иметь один основной язык, на котором будет вся логика, а русского будет достаточно в той мере, чтобы были корректно составлены эти вектора сдвига с английского слова на русское. И этих 0.5% с головой хватит, если они дают четкую связь между разноязычными словами и выражениями.
>>979443 "Новые" версии старых тюнов практически всегда хуже. Потому что первые получаются наугад, а потом их начинают пытаться целенаправленно дообучить. Помню после stheno 3.2 сделали абсолютно невменяемую 3.3 потому что автор "придумал" как добавить контекста, а потом и 3.4, которая оказалась тупее 2б моделей. Из всех франкентюнов на моей памяти только четвертый магнум оказался удачным, да и то по меркам магнума.
>>980519 >b580 Такая же как с амудэ будет история Вроде дешевле но кроме как игрушек нормально её не применишь без пердоликов типа rocm Хотя может интелы свои аналоги технологий выкатят но я на это не надеюсь
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичка с уклоном в русский РП: https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.xyz/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: