Лаборатория Xiaomi AI Labs представила OmniVoice — систему синтеза и клонирования речи, работающую с 646 языками. Разработчики выложили в открытый доступ исходный код, веса модели и обучающие данные, позволяя любому желающему использовать технологию, которая по результатам тестов уже конкурирует с ведущими коммерческими аналогами по естественности звучания.
Xiaomi открыла исходный код OmniVoice для клонирования голоса
Лаборатория Xiaomi AI Labs представила OmniVoice — систему синтеза и клонирования речи, работающую с 646 языками. Разработчики выложили в открытый доступ исходный код, веса модели и обучающие данные, позволяя любому желающему использовать технологию, которая по результатам тестов уже конкурирует с ведущими коммерческими аналогами по естественности звучания.

Система умеет не только точно копировать голос по короткому аудиофрагменту, но и переносить его на другие языки, сохраняя уникальные характеристики диктора. Дополнительно реализованы функции управления интонациями, включая добавление смеха или вздохов, а также настройка параметров через текстовые описания. В ходе сравнительных испытаний на 24 языках OmniVoice продемонстрировала превосходство над существующими платными решениями, а на выборке из 102 языков показатели качества приблизились к уровню профессиональных студийных записей.



Комментарии (0)
Пока нет комментариев. Будьте первым!