Стартап Taalas (Торонто, Канада) представил чип HC1, который выдает невероятные 17 000 токенов в секунду на модели Llama 3.1 8B. Для сравнения, топовый Nvidia H200 выдает около 230-300 токенов в тех же условиях.
«Модель в кремнии»: В отличие от видеокарт, HC1 не «запускает» модель, а буквально содержит её веса, «вытравленные» прямо в транзисторах (hardwired). Это устраняет главную проблему современных вычислений — задержку при передаче данных между памятью и процессором.
Экономика: Заявлено, что чип в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии, чем решения от Nvidia. Стоимость генерации 1 млн токенов на HC1 оценивается всего в 0.75 цента.
Доступность: Компания уже запустила демо-чат на базе этого чипа (chatjimmy.ai), где пользователи могут лично убедиться в мгновенном ответе нейросети.
Комментарии экспертов и аналитиков:
1. Проблема гибкости vs Эффективность
Эксперты (например, с Hacker News и Reddit) отмечают, что главный минус — нулевая гибкость. Если вы захотите запустить другую модель, вам придется покупать новый чип. Однако Taalas утверждает, что их процесс проектирования позволяет создать чип под новую модель всего за 2 месяца, что сопоставимо с циклом обновления ПО в крупных корпорациях.
2. Технологический прорыв в архитектуре
Аналитики из EE Times подчеркивают, что Taalas вернулся к принципам «структурированных ASIC». Они объединили логику и хранение данных на одном кристалле с плотностью DRAM. Это позволяет обходиться без дорогой и дефицитной памяти HBM, жидкостного охлаждения и сложных систем межсоединений.
3. Будущее «разумных» агентов
Саймон Уиллисон (известный разработчик и эксперт) отмечает, что такая скорость (17k токенов/сек) делает бессмысленными привычные чат-интерфейсы, так как текст генерируется быстрее, чем человек успевает моргнуть. Это открывает путь к ИИ-агентам, которые «думают» и действуют в реальном времени, не заставляя пользователя ждать.
4. Скепсис по поводу масштабирования
Некоторые специалисты указывают на сложность упаковки больших моделей (например, Llama 400B или DeepSeek 671B) в такую архитектуру. Для модели на 671 млрд параметров потребуется синхронная работа около 30 чипов HC1, что может частично нивелировать преимущество в энергопотреблении и простоте.
>>330523979 (OP) Это не новая хуйня, асикам много лет уже, и меняют часто. Просто эти достаточно мощные, чтобы выебнуться и в комментарии "специалистов" нагнать. Никто не перестанет использовать видяхи для ии из-за них, особенно для разных моделей.
>>330523979 (OP) Эта хуйня будут рисовать голых баб ВСЕГДА с 5-ю пальцами по-умолчанию? Нет? На хуй пшла тогда, говнина ёбаная. Хоть 17К хоть 17гига-хуёкенов, а как было говно с 6-ю пальцами и диспропорциями, так и есть.
>>330523979 (OP) - Хочу выкрутить контекст размером в шестизнак icq, ты ведь такая мощная. - Пошел нахуй. Занавес. Гул. Свист. Аплодисменты. Публика требует на бис...
>на модели Llama 3.1 8B АХАХАХАХАХА сразу видно пидараса, который модельки локально не крутил максимально тупорылая модель, которую на дешёвом китайском смарте можно запускать сам 3Б тоже не крутил, мне хватило непроходимой тупости 7Б, чтоб понять что ниже копать даже не стоит
>>330523979 (OP) > В отличие от видеокарт, HC1 не «запускает» модель, а буквально содержит её веса, «вытравленные» прямо в транзисторах (hardwired) Ок, задумка неплохая, но пусть запилят аналоги с более аткуальными моделями, и не 8B, а хотя бы 30B.
>>330533519 Ты не шаришь. Нвидиа должна будет выпускать такае же чипы по той же цене, а это сверхгигант со своими сверхрасходами. Это как перевести армию империи с мяса на овёс, ожидая тех же результатов...
>>330523979 (OP) Пизда встроят ее в беспилотник и ему нахуй интернет не нужен будет, он тупо сам будет сбивать другие беспилотники без оператора, или робособака которая будет хуярить всех сама, привет скайнет.
Всякие Моргенштерны не доказывают твой тезис. Их жизнь - везение и ошибка выжившего, паразитирование на изначальном событии "Повезло с распространённостью". И подчивание на том факте, что популярность в миллионы раз легче поддерживать, чем получить в первый раз. А iq - статистически подтвержденная, работающая на массах вещь, которая положительно кореллирует со многим, слишком абстрактно сложным, что принято относить к результатам высокого интеллекта. Например, с достатком. На самом деле, высокий достаток, как у меня, представителя масс - лучшее подтверждение изначальной концепции баллов, поскольку в тестах этого нет, а абстрактность понятия "интеллект" в вопросах измерения равна абстрактности понятия "богатство".
Статистика не опровергается одним (или жалкой тысячей) контрпримеров. Более того, тупая статистика - это ты, а умная - это я.
>только слабоумный будет думать, что можно изменить реальный уровень интеллекта с помощью каких-то ссаных тестов. Слабоумный будет скорее как раз думать, что iq ничего не значит, потому что обратный тезис для него неприятен, как в целом любая концепция измерения интеллекта. Это называется коуп слабоумного.
>>330523979 (OP) НУ НИХУЯ СЕБЕ, Я ПРОСТО АУХЕЛ ОТ СКОРОСТИ и того какой объём инфы оно отдаёт в секунду.. А ведь действительно можно вообще любую нейронку вытрвить на кремнии или стекле.
>>330523979 (OP) Под любую задачу можно сделать асик, но смысл появляется, когда она становится достаточно конкретной и стандартизированной. Пока с нейронками зоопарк ебаный и всё меняется каждый месяц смысла в этом нет.
>>330524323 Ну нет, это не хуета, для некоторых задач это топ, допустим теперь можно пролопатить бд с милионами записей, и найти что не подчиняется строгим правилам, отработать чаты пользователей майору, антифрод защита.
>>330536401 Как раз нейрозалупа уже очень даже стандартизирована, все провайдеры конечных продуктов юзают API конкретных моделей и набор промтов. Cursor, meshy3d, photoshop и т.д.
То есть какому-нибудь cursor с его объёмами лучше каждый раз заказывать кастомные asic под конкретную модель чем держать ебаные датацентры универсальных тесел...
>>330536439 Эта модель юзается повсеместно для декомпозиции и снижения расхода токенов на более тяжёлых моделей. На деле демонстрационный вариант для вендоров коммерческих тяжёлых моделей. Вполне вероятно что с таким поворотом вся отрасль вообще уйдёт от API и начнёт торговать готовыми железкам хардварно-зашитыми моделями.
>>330523979 (OP) Это ты больше не нужен производителям видеокарт. Они хотят сделать hardware as a service нормой, первый прогрев с облачным гоймингом не удался, наблюдаем заход номер 2. Так вижу, в течении пары лет с консьюмер рынка вытянут мощный картон полностью, будут только энтерпрайзу продавать. Для самых упертых степах останутся нераспроданные остатки 5050 за 1500уе штука. В качестве альтернативы гоям сунут подписку на реалтайм генератор интерактивного слопа по типу genie и гои сожрут ибо хули ты ещё сделаешь.
>>330523979 (OP) Hardwired-нейросети будут актуальны для «зрелых» классов нейросетей. То есть когда в определённом классе будет достигнута идеальная производительность (в рамках заданного количества параметров) без какого-либо дальнейшенго прогресса, то можно будет переводить такие сети в хард для экономии питания.
>>330539900 Так они же не руками техпроцесс отрисовывали... Скорее всего любую нейросеть можно отрисовать в автоматическом режиме и выпускать мелкой серией в пределах одной подложки.
«Модель в кремнии»: В отличие от видеокарт, HC1 не «запускает» модель, а буквально содержит её веса, «вытравленные» прямо в транзисторах (hardwired). Это устраняет главную проблему современных вычислений — задержку при передаче данных между памятью и процессором.
Экономика: Заявлено, что чип в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии, чем решения от Nvidia. Стоимость генерации 1 млн токенов на HC1 оценивается всего в 0.75 цента.
Доступность: Компания уже запустила демо-чат на базе этого чипа (chatjimmy.ai), где пользователи могут лично убедиться в мгновенном ответе нейросети.
Комментарии экспертов и аналитиков:
1. Проблема гибкости vs Эффективность
Эксперты (например, с Hacker News и Reddit) отмечают, что главный минус — нулевая гибкость. Если вы захотите запустить другую модель, вам придется покупать новый чип. Однако Taalas утверждает, что их процесс проектирования позволяет создать чип под новую модель всего за 2 месяца, что сопоставимо с циклом обновления ПО в крупных корпорациях.
2. Технологический прорыв в архитектуре
Аналитики из EE Times подчеркивают, что Taalas вернулся к принципам «структурированных ASIC». Они объединили логику и хранение данных на одном кристалле с плотностью DRAM. Это позволяет обходиться без дорогой и дефицитной памяти HBM, жидкостного охлаждения и сложных систем межсоединений.
3. Будущее «разумных» агентов
Саймон Уиллисон (известный разработчик и эксперт) отмечает, что такая скорость (17k токенов/сек) делает бессмысленными привычные чат-интерфейсы, так как текст генерируется быстрее, чем человек успевает моргнуть. Это открывает путь к ИИ-агентам, которые «думают» и действуют в реальном времени, не заставляя пользователя ждать.
4. Скепсис по поводу масштабирования
Некоторые специалисты указывают на сложность упаковки больших моделей (например, Llama 400B или DeepSeek 671B) в такую архитектуру. Для модели на 671 млрд параметров потребуется синхронная работа около 30 чипов HC1, что может частично нивелировать преимущество в энергопотреблении и простоте.