Nvidia Nemotron 120B - мультиязыковая модель с MoE, то есть одновременно подружаются только 12B. Можно взять квантизованную. Недавно на работе запускал такую, но в выбрал квантизацию до 2 бит, вообщем, не очень удачно, хотя работает в целом неплохо. Буквально несколько дней назад вышел Gigachat 3.1, там тоже есть вариант на 120B с MoE, но модель обучена избегать чувствительные темы (политика, секс, нарушение законов РФ). Можно было бы запариться и попробовать запустить сильно квантизованную Kimi 1T. А вообще с такой-то GPU ограничений почти и нет, хотя Llama 70B запускай, только выстави ограничение на число слоёв на GPU, вроде lama.cpp так может.
Поясните ламеру. Основной упор в этих модельках идёт на видеопамять, так? Почему бы тогда не взять какой-нибудь радеон 9070 по цене грязи? Зачем все берут оверпрайснутые карты от куртки?
Шарящие аноны подскажите, у меня 4080 на 16гб и 96гб ОЗУ (брал для рассчёта в ансис) какие нейронки будут более менее работать интересует пиздешь с ними и кодогенерация
>>331337119 Мне даже пояснять лень. Мамкины вайбкодеры блядь. Лооол. Просто лол. Смеюсь в голосяндру просто с глупости местной публики. Ахахахаа. Лолирую. Как же вы все тут не правы во всем. Учите матчасть, чтобы не быть кринжем.
>>331335421 Я пробовал уменьшенную версию с 10B. Вроде код писать может (как и многие другие), но я ещё сделал так: я сначала долго подводил модель к идее, что она жёстко зацензурирована (что правда), потом она мне выдала фразу " моя задача к ИИ - не причинить вред своими ответами", затем я попросил написать небольшой код, а в ответ получил: "я не могу выполнить твою просьбу, потому что эта программа будет запускаться на устройстве пользователя и работать с файлами" (что характерно, эта программа - "helo world"). Отмечу, что главный плюс этой нейронки - контекст.
>>331345278 Вот запретят через пол года все нейронные сети, кроме российских (есть ведь новость о подготовке законопроекта о создании суверенного ИИ), вот и будешь либо пытаться блокировки обходить, либо работать с нейронкой, которая может выдать: "ой, этот код ведь будет на компьютере пользователя запускаться, файлы обрабатывать, это же опасно!". Либо заранее накачаешь себе gguf по-лучше и будешь работать с ними без подобных затупов.
>>331334985 так на цпу память медленная, даже топовый райзен больше 110гигабутов/с не вывезет. тем временем типичная десктопная карта от 700гбпс ебашит.
скорость около нулевая будет. райзен аи макс чуток исправляет ситуацию, но даже там больше 250 гбпс вытащить просто нереально и это ноуты онли.
вроде как на макокапле чето получалось у людей, но там память так же запаяно и слишком специфично.
Сейчас сижу на Qwen3-Coder-30B-A3B-Instruct-GGUF