De lancering van StepAudio 2.5 Realtime door het Shanghai-gebaseerde AI-lab StepFun markeert een significante vooruitgang in de real-time spraakherkenning. Dit eind-tot-eind model maakt het mogelijk om audio in te voeren en direct audio uit te geven, zonder de noodzaak voor tekstconversie. De ondersteuning voor zowel het Chinees als het Engels geeft het model een aanzienlijk bereik. De eerste benchmarks wijzen op indrukwekkende prestaties, wat vragen oproept over de impact op de bredere markt voor spraak-AI, en daarmee ook voor investeerders.
Een veelvoorkomend probleem binnen AI-persoonlijkheidssystemen is dat ze in bepaalde situaties, vaak onder druk, uit hun rol gaan. Dit fenomeen, gekend als OOC (out-of-character), kan gebruikerservaringen sterk beïnvloeden en ondermijnt het vertrouwen in dergelijke systemen. Veel AI-modellen vertonen deze kwetsbaarheid door informatie te vergeten of inconsistent te reageren naarmate de interactie vordert.
StepFun beweert dit probleem te hebben aangepakt met behulp van specifieke RLHF (reinforcement learning from human feedback), gericht op de stabiliteit van de persona. De trainingsdata, die begint met meer dan 10.000 handmatig geschreven persona-zaadjes, is algoritmisch uitgebreid tot een featurematrix van miljoenenschaal. De gedachte erachter is om voldoende variëteit te bieden in de trainingsdata, zodat zelfs in lange en complexe gesprekken de karakterintegriteit behouden blijft.
Een bijzonder aspect van StepAudio is de paralinguïstische begrip, waarbij het model niet alleen de gesproken woorden analyseert, maar ook de niet-verbale akoestische signalen zoals spreektempo, emotionele toon en zelfs de leeftijd van de spreker. Deze innovatieve benadering zorgt voor een dieper begrip tijdens interacties, wat essentieel kan zijn voor een authentieke gebruikerservaring. Op de benchmark voor paralinguïstisch begrip scoorde StepAudio 82.18, wat aanzienlijk beter is dan zijn concurrenten, zoals GPT Realtime 1.5 en Gemini Live. Dit biedt niet alleen een technologische voorsprong, maar toont ook de mogelijkheden voor investeerders om te profiteren van een snelgroeiende sector.
Opgericht in april 2023 door Jiang Daxin, die 16 jaar bij Microsoft werkte aan innovatieve projecten zoals Bing en Cortana, staat StepFun symbool voor de opkomende AI-startups in China, ook wel bekend als de ‘AI Tigers’. Met een geraamde financiering van ongeveer 1,7 miljard dollar, wordt StepFun nu geconfronteerd met de benchmarks van OpenAI, die in 2024 zijn spraakmodellen lanceerde. Het bedrijf heeft ambitieuze plannen en beweert directe overwinningen in zijn vergelijkingen.
Het aanbod omvat de AI-persona Xiao Yue, die gebruikers moet doen voelen alsof ze met een vriend communiceren in plaats van met een softwaretool. Deze benadering, die configuraties mogelijk maakt van meningen tot emotionele grenzen, biedt ontwikkelaars de vrijheid om hun eigen unieke persona’s te creëren via de API van StepFun. Dit opent de deur naar een diversiteit aan toepassingen die niet alleen relevant zijn voor de technologie, maar ook voor de investeringsstrategieën in de toekomst.
Hoe onderscheidt StepAudio zich van andere spraakmodellen?
StepAudio onderscheidt zich door zijn geïntegreerde paralinguïstische begrip, wat het model in staat stelt om emotionele en akoestische signalen te interpreteren en daardoor meer natuurlijke en contextuele reacties te geven.
Wat betekent de ontwikkeling van StepAudio voor investeerders?
De ontwikkelingen in StepAudio wijzen op een toenemende vraag naar geavanceerde spraak-AI-technologieën, wat kan resulteren in nieuwe investeringskansen binnen de snelgroeiende sector van kunstmatige intelligentie.
Hoe heeft StepFun het probleem van OOC opgelost?
StepFun heeft het probleem van OOC aangepakt door specifieke RLHF-technieken te implementeren die gericht zijn op het behouden van persona-stabiliteit, wat leidt tot meer consistente en betrouwbare interacties met gebruikers.
