OpenAI hoort je fluisteren | hakkaday

Als je spraakherkenning van hoge kwaliteit wilt proberen zonder iets te kopen, veel succes. Natuurlijk kun je spraakherkenning op je telefoon lenen of een paar virtuele assistenten op je Raspberry Pi dwingen om de verwerking voor je af te handelen, maar die zijn niet zo goed voor groot werk dat je niet beperkt wilt worden tot een of andere closed-source oplossing. Ik ging naar OpenAI fluiten, waarvan ze beweren dat het een open source neuraal netwerk is dat “dicht bij de kracht en nauwkeurigheid op menselijk niveau ligt in Engelse spraakherkenning.” Het lijkt ook op ten minste enkele andere talen te werken.

Als je demo’s probeert, zul je zien dat snel of met een mooi accent spreken geen invloed lijkt te hebben op de resultaten. In de post staat dat hij werd getraind op 680.000 uur aan gesuperviseerde gegevens. Als je veel met AI praat, zou het 77 jaar duren zonder slaap!

Intern wordt spraak verdeeld in segmenten van 30 seconden die in een spectrogram worden opgenomen. De encoders verwerken het spectrogram en de decoders verwerken de resultaten met behulp van een voorspelling en andere gevolgtrekkingen. Ongeveer een derde van de gegevens was afkomstig uit niet-Engelstalige bronnen en werd vervolgens vertaald. U kunt een bestand lezen papier Over het uitvoeren van algemene training zonder een aantal speciaal getrainde modellen op standaardcriteria uit te voeren, maar ze geloven dat Whisper beter werkt bij willekeurige spraak dan bepaalde normen.

De modelgrootte bij de “kleine” variantie is nog steeds 39 MB en de “grote” variant is nog steeds meer dan de helft. Dus dit zal waarschijnlijk niet snel op een Arduino draaien. Als je wilt coderen, staat alles aan github.

er is meer Oplossing, maar niet zo sterk. Als je de op assistent gebaseerde route wilt gaan, hier is het wat inspiratie.

Pages

Categories

OpenAI hoort je fluisteren | hakkaday

About the Author: Ebert Brink

Geef een reactie Reactie annuleren

You May Also Like

Apple kondigt uitbreiding van Vision Pro naar nog twee landen aan

Nintendo lanceert een muziekapp met thema’s uit Mario en Zelda, en nog belangrijker: een Wii Shop-kanaal

Dit is het artikel dat niemand las voordat de ondergang van de moderne cryptografie werd aangekondigd

Sony sluit Neon Koi en Firewalk Studios

Google zegt dat de AI-agenten van de volgende generatie op zijn vroegst in 2025 zullen verschijnen

Er wordt gezegd dat de Pixel 9a een veel grotere batterij krijgt

About the Author: Ebert Brink

Geef een reactie Reactie annuleren