ElevenLabs anuncia financiamento de US$ 19 milhões para acelerar a pesquisa de IA de fala generativa

Posted On: Junho 22, 2023

Embora a start-up Elevenlabs tenha sido fundada há apenas um ano, ela já está construindo uma posição de liderança no campo da IA generativa vocal. Prova disso é o sucesso de sua plataforma text-to-speech e clonagem lançada em beta em janeiro passado: conta com mais de um milhão de usuários cadastrados que geraram mais de 10 anos de conteúdo de áudio. A start-up já desenvolveu novos produtos, cuja implementação poderá acelerar graças a esta angariação de fundos.

Fundada em abril de 2022 por dois amigos de infância Mati Staniszewski, que trabalhou anteriormente na Palantir, e Piotr Dabkowski, ex-engenheiro de software do Google, a ElevenLabs é uma empresa de pesquisa de tecnologia de fala. Tendo desenvolvido modelos de IA de áudio em 2022 que ela acredita que podem criar as vozes de IA mais versáteis e contextualmente relevantes, ela revelou sua plataforma que foi rapidamente adotada por criadores e desenvolvedores nas indústrias de mídia, jogos e criação de conteúdo.

As ferramentas do ElevenLabs podem transformar qualquer texto em fala usando vozes sintéticas, vozes clonadas ou criando vozes artificiais totalmente novas que podem ser personalizadas com base nas preferências de gênero, idade e sotaque. Graças ao VoiceLab também é possível fazer um clone de sua própria voz a partir de um clipe de 30 segundos.

As vozes geradas soam incrivelmente humanas, incluindo a pausa e a entonação corretas.

Arrecadação de US$ 19 milhões

Depois de arrecadar $ 2 milhões em uma rodada de financiamento pré-semente em janeiro passado, a ElevenLabs anuncia uma rodada de financiamento da Série A de $ 19 milhões co-liderada por Andreessen Horowitz (fundo de capital de risco a16z), Nat Friedman (ex-CEO do Github) e Daniel Gross (que trabalhou em IA e pesquisa na Apple) com a participação da Credo Ventures, Concept Ventures e uma série de investidores estratégicos, incluindo o cofundador do Instagram Mike Krieger, cofundador da Oculus VR, Brendan Iribe, cofundador da OculusVR.

Após esse investimento, Andreessen Horowitz se juntará ao conselho de administração da start-up.

Isso permitirá que este último desenvolva ainda mais seu centro de pesquisa de IA de fala e lance uma gama de produtos adicionais para dar suporte a setores específicos, como publicação, jogos, entretenimento e aplicativos de conversação.

Já está a anunciar uma série de novos produtos “para qualquer pessoa criar um audiolivro inteiro na plataforma em minutos”bem como um modelo de detecção de fala AI.

Mati Staniszewski, CEO e cofundador da ElevenLabs, diz:

“Nos últimos cinco meses, vimos nossa tecnologia ser adotada por milhões de criadores, empresas e mentes curiosas. Estamos apenas no início desta jornada e com Nat, Daniel e Andreessen Horowitz se juntando a nós, temos os melhores parceiros enquanto continuamos no ambicioso caminho do futuro.”.

O desenvolvimento de uma ferramenta de dublagem de vídeo em vista

A ElevenLabs anunciou, portanto, o Projects, que será lançado no próximo mês e está agora disponível em acesso antecipado. Destina-se a simplificar o fluxo de trabalho ao criar conteúdo de fala de formato longo, como audiolivros.

Os projetos darão aos criadores de conteúdo, como editores e escritores freelance, um nível sem precedentes de controle sobre seu conteúdo de áudio gerado por IA. Com base na pesquisa da empresa sobre conversão de texto em fala longa e “enchimento” de áudio, ele permite que os usuários gerem segmentos inteiros de diálogos, artigos de notícias e até mesmo audiolivros sem sair da plataforma. De acordo com o Eleven Labs, “Projects visa fornecer simplicidade e usabilidade semelhantes ao Google Docs para criação de áudio”.

Esta nova ferramenta junta-se ao conjunto de produtos ElevenLabs, que inclui Speech Synthesis, uma plataforma de síntese de fala que utiliza vozes sintéticas pré-existentes, e VoiceLab, um fluxo de trabalho para criar uma voz única ou versão digital de uma voz existente. A ElevenLabs também liberou recentemente o acesso ao Eleven Multilingual, um modelo text-to-speech, compatível com os principais idiomas europeus (francês, alemão, italiano, polonês, português e espanhol). A plataforma está disponível para todos em: elflabs.io.

Esses desenvolvimentos recentes de produtos são um trampolim para o desenvolvimento de uma ferramenta de dublagem de IA, que será lançada ainda este ano. Isso permite que qualquer vídeo seja dublado em qualquer idioma de maneira envolvente, eficiente e escalável, preservando a voz do locutor original. A empresa já está realizando vários testes com parceiros do setor para permitir a dublagem de IA em larga escala.

Esses desenvolvimentos recentes de produtos são passos para a criação de uma ferramenta de dublagem de IA que deve ser lançada ainda este ano. Ele permite que qualquer vídeo seja dublado em qualquer idioma de forma envolvente, eficiente e escalável, preservando a voz original do locutor. A empresa já está testando com parceiros do setor para permitir dublagem de IA em larga escala.

AI Speech Classifier para mais transparência

ElevenLabs também revelou sua classificação de voz AI. Esta ferramenta permite que qualquer pessoa carregue um clipe de áudio e determine se o clipe contém áudio gerado pelo ElevenLabs AI.

De acordo com a start-up, este produto é o primeiro do gênero em áudio generativo. Agora está disponível para o público e parceiros selecionados como uma API.

O lançamento do AI Voice Classifier é o último passo no compromisso da empresa com a transparência e é a base de seu compromisso com a criação de um cenário de mídia generativa seguro. Ele também fornece um “guia de clonagem de votos” em seu site para usuários de sua plataforma.

Fernão Teixeira

“Criador. Totalmente nerd de comida. Aspirante a entusiasta de mídia social. Especialista em Twitter. Guru de TV certificado. Propenso a ataques de apatia.”