Röstmotor: OpenAI:s AI kan exakt replikera röster från korta ljudklipp

Röstmotor: OpenAI:s AI kan exakt replikera röster från korta ljudklipp

OpenAI har introducerat Voice Engine, en ny artificiell intelligens (AI)-modell som kan klona människors röster med bara ett 15-sekunders ljudsampling. Denna modell kan också läsa textinstruktioner på flera språk med naturligt klingande resultat. Det amerikanska teknikföretaget är dedikerat till att utveckla nya AI-verktyg och -modeller för att tänja på gränserna för vad som är möjligt med AI, och Voice Engine är ett steg i den riktningen, specifikt inom området syntetiska röster.

Voice Engine utvecklades av OpenAI i slutet av 2022 och är för närvarande en småskalig modell som används för att förbättra förinställda röster tillgängliga i text-till-tal API och andra plattformar. Modellen är designad för att skapa anpassade röster med hjälp av textinmatning och ett kort ljudprov, vilket genererar realistiska och känslomässiga röster som liknar den ursprungliga högtalaren.

Förhandsvisningen av Voice Engine har gjorts tillgänglig för utvalda partners, som har testat modellen i olika applikationer. Dessa applikationer inkluderar att ge läshjälp, översätta innehåll till flera språk samtidigt som den ursprungliga talarens accent bibehålls, skapa personliga svar för akademiska interaktioner och hjälpa användare med talrelaterade tillstånd inom hälsovårdsområdet.

OpenAI har betonat vikten av ansvarsfull distribution av syntetiska röster och har implementerat säkerhetsåtgärder för att skydda mot missbruk. Partner som får åtkomst till Voice Engine-förhandsvisningen måste följa användningspolicyer som förbjuder obehörig identitetsstöld och måste tydligt avslöja att rösterna genereras av AI. Dessutom krävs uttryckligt samtycke från den ursprungliga talaren för att använda deras röst.

När OpenAI fortsätter att förfina Voice Engine-modellen, samarbetar de med internationella partners, mediaproffs och utbildare för att samla feedback och fatta välgrundade beslut om att skala upp tekniken i framtiden. Företaget strävar efter att främja en dialog om den etiska användningen av syntetiska röster och hur samhället kan anpassa sig till dessa nya förmågor på ett ansvarsfullt sätt.

Lämna ett svar