Инженеры Skymizer разместили на одной PCIe-карте до 384 ГБ памяти, распределив их между шестью специализированными процессорами HyperThought. При потреблении всего 240 Вт устройство выдает до 30 токенов в секунду для сверхкрупных моделей и ускоряет работу компактных решений, таких как Llama2 7B, до 240 токенов в секунду. Столь высокая производительность достигается за счет фирменных алгоритмов сжатия, которые превосходят возможности open-source движка llama.cpp почти на 18%.
Основная идея проекта заключается в упрощении корпоративной инфраструктуры. Использование HTX301 позволяет компаниям разворачивать ИИ-решения локально, избегая затрат на облачные сервисы и минимизируя риски утечки данных. В отличие от решений AMD или Nvidia, требующих сложного охлаждения и огромных энергозатрат, тайваньская разработка адаптирована под стандартные серверные стойки.



Комментарии (0)
Пока нет комментариев. Будьте первым!