голосовые ассистенты

Nvidia сократила час аудио до секунды: открытая модель speech-to-text бросила вызов GPT-4o

Nvidia продолжает расширять линейку открытых нейросетевых моделей. Её новая разработка — система автоматического распознавания речи (ASR) Parakeet-TDT-0.6B-v2 — способна расшифровывать час аудио всего за секунду, приближаясь по точности к платным аналогам, таким как GPT-4o и ElevenLabs Scribe. Модель доступна под свободной лицензией CC-BY-4.0, что позволяет коммерческое использование без ограничений. Parakeet-TDT-0.6B-v2, представленная 1 мая, возглавила рейтинг […]

Nvidia реализовала расшифровку часа аудио за секунду: открытая модель speech-to-text бросила вызов GPT-4o

Anthropic готовит конкурента голосовому режиму ChatGPT

Компания Anthropic, основанная бывшими сотрудниками OpenAI, готовится представить новую функцию voice mode, которая может составить конкуренцию аналогичной опции в ChatGPT от OpenAI, сообщает Bloomberg. Помощник с искусственным интеллектом будет встроен в чат-бот Claude и может начать распространяться уже в этом месяце. Иллюстрация: Anthropic Чат-бот Claude от Anthropic может иметь три варианта голосового режима на английском […]

Groq и PlayAI представили голосовую модель Dialog с поддержкой арабского языка и рекордной скоростью обработки

Компании Groq и PlayAI объявили о стратегическом партнёрстве, направленном на вывод на рынок модели преобразования текста в речь Dialog. Решение, доступное через платформу GroqCloud, сочетает голосовые технологии PlayAI и специализированные LPU-чипы Groq, которые обеспечивают скорость обработки до 140 символов в секунду — на 63% выше, чем при использовании GPU. Как заявили разработчики, система не только […]