ГлавнаяТехнологииXiaomi открыла исходный код OmniVoice для клонирования голос
Технологии

Xiaomi открыла исходный код OmniVoice для клонирования голоса

Лаборатория Xiaomi AI Labs представила OmniVoice — систему синтеза и клонирования речи, работающую с 646 языками. Разработчики выложили в открытый доступ исходный код, веса модели и обучающие данные, позволяя любому желающему использовать технологию, которая по результатам тестов уже конкурирует с ведущими коммерческими аналогами по естественности звучания.

Xiaomi открыла исходный код OmniVoice для клонирования голоса

Лаборатория Xiaomi AI Labs представила OmniVoice — систему синтеза и клонирования речи, работающую с 646 языками. Разработчики выложили в открытый доступ исходный код, веса модели и обучающие данные, позволяя любому желающему использовать технологию, которая по результатам тестов уже конкурирует с ведущими коммерческими аналогами по естественности звучания.

Архитектура модели спроектирована с прицелом на скорость: генерация речи происходит в 40 раз быстрее реального времени без дополнительной оптимизации. Столь высокая производительность достигнута за счет использования предобученных параметров больших языковых моделей и упрощенной структуры нейросети. Обучение системы проходило на 50 наборах данных общим объемом 580 тысяч часов после тщательной очистки от шумов.

Система умеет не только точно копировать голос по короткому аудиофрагменту, но и переносить его на другие языки, сохраняя уникальные характеристики диктора. Дополнительно реализованы функции управления интонациями, включая добавление смеха или вздохов, а также настройка параметров через текстовые описания. В ходе сравнительных испытаний на 24 языках OmniVoice продемонстрировала превосходство над существующими платными решениями, а на выборке из 102 языков показатели качества приблизились к уровню профессиональных студийных записей.

Комментарии (0)

Оставить комментарий

Пока нет комментариев. Будьте первым!