Met de meeste computerprogramma’s, zelfs complexe, kun je de code traceren en het geheugen nauwkeurig gebruiken om erachter te komen Waarom Dit programma creëert elk specifiek gedrag of output. Dit is over het algemeen niet het geval bij generatieve AI, waar de onverklaarbare neurale netwerken die ten grondslag liggen aan deze modellen het zelfs voor experts moeilijk maken om precies te weten waarom ze bijvoorbeeld vaak informatie combineren.
nu, Nieuw onderzoek van Anthropic Biedt een nieuw venster op wat er gebeurt in de “zwarte doos” van Claude LLM. Bedrijf Nieuw papier In “Extracting Interpretable Features from Claude’s 3 Sonnet” beschrijft hij een krachtige nieuwe manier om op zijn minst gedeeltelijk uit te leggen hoe miljoenen kunstmatige neuronen in het model vuren om verrassend realistische antwoorden op algemene vragen te creëren.
Open de motorkap
Bij het analyseren van LLM is het gemakkelijk om te zien welke specifieke kunstmatige neuronen worden geactiveerd als reactie op een bepaalde vraag. Maar een MBA slaat niet simpelweg verschillende woorden of concepten op in één enkel neuron. In plaats daarvan, zoals de Anthropic-onderzoekers uitleggen, “blijkt het dat elk concept wordt vertegenwoordigd door veel neuronen, en dat elk neuron betrokken is bij de representatie van veel concepten.”
Om deze chaos van één naar velen en van velen naar één te sorteren, moet u orde aanbrengen Schaarse auto-encoders Complexe wiskunde kan worden gebruikt om te opereren Woordenboekleeralgoritme. via formulier. Dit proces benadrukt welke groepen neuronen de neiging hebben om consistenter te activeren voor specifieke woorden die in verschillende tekstprompts verschijnen.
Deze multidimensionale neuronale patronen worden vervolgens gesorteerd in zogenaamde ‘kenmerken’ die verband houden met bepaalde woorden of concepten. Deze functies kunnen alles omvatten, van eenvoudige eigennamen zoals de Golden Gatebrug Naar meer abstracte concepten zoals Programmeerfouten of Optelling functie In computercode vertegenwoordigt het vaak hetzelfde concept in meerdere talen en communicatiemodi (bijvoorbeeld tekst, afbeeldingen).
Dat Oktober 2023 Antropologische studie Laat zien hoe dit basisproces kan werken op zeer kleine speelgoedmodellen met één laag. Het nieuwe papierformaat van het bedrijf wordt dramatisch uitgebreid en specificeert tientallen miljoenen actieve functies in het Claude 3.0 Sonnet-model uit het middensegment. De resulterende feature map – die u kunt maken Gedeeltelijk verkend– Creëert een “ruwe conceptuele kaart van [Claude’s] “Interne toestanden zijn halverwege hun berekening” en vertonen “een diepte, breedte en abstractie die de geavanceerde mogelijkheden van Sonnet weerspiegelt”, schrijven de onderzoekers. Tegelijkertijd waarschuwen de onderzoekers dat dit een “onvolledige beschrijving is van de interne representaties van het model” die waarschijnlijk “in significante aantallen” kleiner is dan een volledige mapping van Claude 3.
Zelfs op een oppervlakkig niveau laat het bladeren door deze kaart met kenmerken zien hoe Claude bepaalde trefwoorden, zinsneden en concepten associeert met iets dat in de buurt komt van kennis. A Functie genaamd “Hoofdletters” Ze worden bijvoorbeeld sterk geactiveerd bij het gebruik van de uitdrukking ‘hoofdstad’, maar ook bij het gebruik van specifieke stadsnamen zoals Riga, Berlijn, Azerbeidzjan, Islamabad en Montpelier, Vermont, om er maar een paar te noemen.
De studie berekent ook een wiskundige maatstaf voor de “afstand” tussen verschillende kenmerken op basis van hun neurale gelijkenis. De ‘onderscheidende buurten’ die uit dit proces voortkomen ‘zijn vaak georganiseerd in geometrisch verwante groepen die een semantische relatie delen’, schreven de onderzoekers, waarmee ze aantoonden dat ‘de interne organisatie van concepten in het AI-model, althans tot op zekere hoogte, overeenkomt met aan onze menselijke concepten.” Concepten van gelijkenis.” De Golden Gate Bridge-functie ligt bijvoorbeeld relatief “dicht” bij de kenmerken die “Alcatraz Island, Ghirardelli Square, de Golden State Warriors, de gouverneur van Californië Gavin Newsom, de aardbeving van 1906 en een filmset van Alfred Hitchcock beschrijven.” in San Francisco”. hoogtevrees“.
Het identificeren van specifieke LLM-kenmerken kan onderzoekers ook helpen de gevolgtrekkingsketen in kaart te brengen die het model gebruikt om complexe vragen te beantwoorden. Een prompt over ‘Hoofdstad van de staat waar Kobe Bryant basketbal speelde’ toont bijvoorbeeld activiteit in een reeks functies die verband houden met ‘Kobe Bryant’, ‘Los Angeles Lakers’, ‘Californië’, ‘Hoofdsteden’ en ‘Sacramento’. ”, om er maar een paar te noemen, waarvan is berekend dat ze de grootste impact op de resultaten hebben.
‘Reader. Furious humble travel enthusiast. Extreme food scientist. Writer. Communicator.’