Als je spraakherkenning van hoge kwaliteit wilt proberen zonder iets te kopen, veel succes. Natuurlijk kun je spraakherkenning op je telefoon lenen of een paar virtuele assistenten op je Raspberry Pi dwingen om de verwerking voor je af te handelen, maar die zijn niet zo goed voor groot werk dat je niet beperkt wilt worden tot een of andere closed-source oplossing. Ik ging naar OpenAI fluiten, waarvan ze beweren dat het een open source neuraal netwerk is dat “dicht bij de kracht en nauwkeurigheid op menselijk niveau ligt in Engelse spraakherkenning.” Het lijkt ook op ten minste enkele andere talen te werken.
Als je demo’s probeert, zul je zien dat snel of met een mooi accent spreken geen invloed lijkt te hebben op de resultaten. In de post staat dat hij werd getraind op 680.000 uur aan gesuperviseerde gegevens. Als je veel met AI praat, zou het 77 jaar duren zonder slaap!
Intern wordt spraak verdeeld in segmenten van 30 seconden die in een spectrogram worden opgenomen. De encoders verwerken het spectrogram en de decoders verwerken de resultaten met behulp van een voorspelling en andere gevolgtrekkingen. Ongeveer een derde van de gegevens was afkomstig uit niet-Engelstalige bronnen en werd vervolgens vertaald. U kunt een bestand lezen papier Over het uitvoeren van algemene training zonder een aantal speciaal getrainde modellen op standaardcriteria uit te voeren, maar ze geloven dat Whisper beter werkt bij willekeurige spraak dan bepaalde normen.
De modelgrootte bij de “kleine” variantie is nog steeds 39 MB en de “grote” variant is nog steeds meer dan de helft. Dus dit zal waarschijnlijk niet snel op een Arduino draaien. Als je wilt coderen, staat alles aan github.
er is meer Oplossing, maar niet zo sterk. Als je de op assistent gebaseerde route wilt gaan, hier is het wat inspiratie.
‘Reader. Furious humble travel enthusiast. Extreme food scientist. Writer. Communicator.’