OpenAI is dinsdag begonnen met het uitrollen van de geavanceerde audiomodus van ChatGPT, waardoor gebruikers voor het eerst toegang krijgen tot de ultrarealistische audioreacties van GPT-4o. De bèta zal vandaag beschikbaar zijn voor een kleine groep ChatGPT Plus-gebruikers, en OpenAI zegt dat de functie in het najaar van 2024 geleidelijk zal worden uitgerold naar alle Plus-gebruikers.
Toen OpenAI in mei voor het eerst GPT-4o-audio demonstreerde, schokte de functie het publiek met snelle reacties en een griezelige gelijkenis met een echte menselijke stem – één stem in het bijzonder. De stem, Sky, is vergelijkbaar met die van Scarlett Johansson, de actrice achter de prothese-assistent in de film ‘Her’. Kort na de OpenAI-demo zei Johansson dat ze meerdere verzoeken van CEO Sam Altman om haar stem te gebruiken had afgewezen, en nadat ze de GPT-4o-demo had gezien, huurde ze een juridisch adviseur in om haar gelijkenis te verdedigen. OpenAI ontkende het gebruik van de stem van Johansson, maar verwijderde later de audio die in de demo werd getoond. In juni zei OpenAI dat het de release van Advanced Voice Mode zou uitstellen om de veiligheidsmaatregelen te verbeteren.
Een maand later is het wachten (soort van) voorbij. OpenAI zegt dat de mogelijkheden voor het delen van video’s en schermen die tijdens de voorjaarsupdate werden getoond, geen deel zullen uitmaken van deze bèta, en op een “latere datum” zullen worden vrijgegeven. Voorlopig is de GPT-4o-demo die iedereen verbaasde nog steeds slechts een demo, maar sommige ervaren gebruikers zullen nu toegang hebben tot de ChatGPT-audiofunctie die daar wordt aangeboden.
ChatGPT kan nu praten en luisteren
Mogelijk heb je de audiomodus die momenteel beschikbaar is in ChatGPT al geprobeerd, maar OpenAI zegt dat de geavanceerde audiomodus anders is. De oude ChatGPT-oplossing voor audio gebruikte drie afzonderlijke modellen: één om uw stem naar tekst om te zetten, een GPT-4 om uw claim te verwerken en een derde om ChatGPT-tekst naar audio te converteren. Maar GPT-4o is multimodaal en kan deze taken uitvoeren zonder de hulp van hulpmodellen, waardoor gesprekken met een veel lagere latentie ontstaan. OpenAI beweert ook dat GPT-4o emotionele tonen in je stem kan waarnemen, waaronder verdriet, opwinding of zingen.
In deze bèta kunnen ChatGPT Plus-gebruikers zien hoe realistisch de geavanceerde audiomodus van OpenAI is. TechCrunch kon de functie niet testen voordat dit artikel werd gepubliceerd, maar we zullen het beoordelen zodra we toestemming krijgen.
OpenAI zegt dat het de nieuwe ChatGPT-spraakfunctie geleidelijk zal uitrollen om het gebruik ervan nauwlettend in de gaten te houden. Mensen in de proefgroep ontvangen een waarschuwing in de ChatGPT-app, gevolgd door een e-mail met instructies over het gebruik ervan.
In de maanden sinds de OpenAI-demo zegt het bedrijf dat het de stemmogelijkheden van GPT-4o heeft getest met meer dan 100 externe red-teamleden die 45 verschillende talen spreken. OpenAI zegt dat er begin augustus een rapport over deze veiligheidsinspanningen zal verschijnen.
Het bedrijf zegt dat de geavanceerde stemmodus beperkt zal zijn tot de vier vooraf gedefinieerde stemmen in ChatGPT – Juniper, Breeze, Cove en Ember – die zijn gemaakt in samenwerking met betaalde stemacteurs. De Sky-audio die verscheen in de OpenAI-demo van mei is niet langer beschikbaar in ChatGPT. “ChatGPT kan de stemmen van andere mensen niet imiteren, of het nu individuen of publieke figuren zijn, en zal de output blokkeren die afwijkt van een van deze vooraf gedefinieerde stemmen”, zegt OpenAI-woordvoerster Lindsay McCallum.
OpenAI probeert de controverse rond deepfake-technologie te vermijden. In januari lanceerde AI-startup ElevenLabs technologie voor het klonen van stemmen Wordt gebruikt om president Biden te imiterenwaardoor kiezers tijdens de voorverkiezingen in New Hampshire werden misleid.
OpenAI zegt ook dat het nieuwe filters heeft geïntroduceerd om bepaalde verzoeken om muziek of andere auteursrechtelijk beschermde audiobestanden te genereren te blokkeren. Vorig jaar kwamen AI-bedrijven in juridische problemen vanwege schending van het auteursrecht, en audiomodellen zoals GPT-4o brachten een hele nieuwe klasse bedrijven op de been die een klacht konden indienen. Met name platenlabels, die een geschiedenis van rechtszaken hebben, hebben al rechtszaken aangespannen tegen de AI-liedgeneratiebedrijven Suno en Udio.
‘Reader. Furious humble travel enthusiast. Extreme food scientist. Writer. Communicator.’