Quantifying Attention Flow

Here’s a nice video explainer on our paper on interpreting attention patterns in Transformers.

  • Samira Abnar and Willem Zuidema. 2020. Quantifying Attention Flow in Transformers. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4190–4197, Online. Association for Computational Linguistics.

Video explainer of Abnar & Zuidema, 2020

Inspiring Research (about books and papers that inspired research)

In: ILLC Magazine (13 december 2009)

Jelle Zuidema
Sometimes it is research that you completely disagree with that inspires you the most, especially if it is close to what you worked on yourself. In 2001, the journal Science published a paper titled “Evolution of Universal Grammar”, by mathematical biologists Martin Nowak and Natalia Komarova, together with computer scientist and linguist Partha Niyogi. The paper concerned mathematical models of language learning and evolution and showed, the authors claimed, that there must be quite detailed, innate knowledge of language for successful communication to be possible at all in a population. It strongly supported the nativist camp in the big debate in linguistics about whether and to what extent language is innate.

The math in the paper is very elegant – and it was a lot of fun to play around again with differential equations and bifurcations – but the problem with it, I found, is that the model is completely wrong. In the year following its publication, I spent a lot of time and energy in understanding where exactly it went awry. It is interesting to see how many people uncritically accept conclusions from papers with lots of math and the right rhetoric, even if very few of them, I am convinced, have actually bothered to go through the derivations.

For me, two earlier inspirations were crucial to discover the error in the Science paper. The first was the research of my MSc advisor, theoretical biologist Paulien Hogeweg. She always emphasized that in every model, implicit assumptions are made, and advocated a “multi-modelling” approach where one tries to design multiple models of the same empirical phenomenon. By comparing the behaviour of these different models, you often find surprising differences and discover hidden assumptions that you might want to reconsider. I think this is still an important message in cognitive science and linguistics, where too often researchers are too much in love with their own little models and fail to see the problematic assumptions hidden behind fancy notation.

The second inspiration was the work of my later PhD advisor, linguist Simon Kirby. He studied the first “iterated learning” models. His work helped me realize that language learning is a very special kind of learning problem, because the target of learning is not God-given, so to speak, but the result of the learning that occurred in earlier generations. That implies that the language that children need to learn reflects the learning biases of earlier generations of learners. This point may seem quite trivial, but it turns out that much of the formal work in learnability theory and many of the verbal arguments for the “poverty of stimulus” or “critical period” are put on their heads when you realize what it really means. By building a computational iterated learning model that closely resembled the mathematical model from the Science paper, and closely analyzing the quite different outcomes, I figured out that the error in the original paper was that it assumed a wrong upper bound.

I have moved on, of course – after spending perhaps a bit too much time on the nitty-gritty details of computational and mathematical models that few people really care about. One inspiration in the last few years stands out as a motivation for me to sometimes look up from such obscure modelling and consider the big questions instead, and that is Jared Diamond’s book Guns, Germs, and Steel , in which he describes how the enormous differences in power and technology between people on earth have come about since Homo Sapiens emerged in Africa. I have tried to make everybody I know read this book. It might be wrong in many details, but the overarching story is totally convincing to me; it showed me that sometimes it is research that you completely agree with that inspires you the most – but only if it is far beyond what you have worked on yourself.

References:
[1] J. Diamond. Guns, Germs, and Steel: The Fates of Human Societies , W.W. Norton & Company, 1997.
[2] S. Kirby. “Spontaneous Evolution of Linguistic Structure: An Iterated Learning Model of The Emergence of Regularity and Irregularity”, IEEE Transactions on Evolutionary Computation 5 (2): 102–110, 2001.
[3] J.D. van der Laan, L. Lhotka, and P. Hogeweg. “Sequential Predation: A Multi-Model Study”, Journal of Theoretical Biology 174 : 149-167, 1995.
[4] M.A. Nowak, N. Komarova, and P. Niyogi. “Evolution of Universal Grammar”, Science 291 : 114-118, 2001. Science 291: 114-118, 2001.

De waarom-fase

In: Nederland in Ideeën, 2019

Jelle Zuidema, Taaltechnoloog, cognitiewetenschapper, Universiteit van Amsterdam

Mijn zoon van 6 zit stevig in de waarom-fase. Waarom eten we we vanavond wéér sperziebonen? Maar waaróm moeten we ook af en toe groente eten? Maar waaróm zijn groente gezond? Waarom heeft mijn lijf vitamines nodig? Waarom is dat gewoon zo? Zo’n lawine van waarom-vragen leidt steevast terug naar waar hij begon: Maar pappa, waarom eten we vanavond sperziebonen?

 

Als ouder kan ik daar soms wanhopig van worden, maar voor mij als wetenschapper is ‘waarom’ waar het allemaal om draait. En voor mij als betrokken burger is de nieuwsgierigheid naar het waarom achter het waarom achter het waarom de sleutel tot het oplossen van de problemen van onze tijd.

 

De kranten staan bijvoorbeeld bol van berichten over het fenomeen “nepnieuws”, waarbij de wereld van de algoritmes – waarin ook ik mijn onderzoek doe – vaak als grote boosdoener en soms als redder in nood wordt gezien. Bij de stroom van berichten over nepnieuws denk ik vooral: er mogen wel wat meer vragen worden gesteld over de achterliggende redenen, en de redenen die daar weer achterliggen. Dus niet alleen: Waarom verspreiden en delen mensen nepnieuws, en waarom geloven mensen nepnieuws? Maar ook: Waarom vertrouwen mensen überhaupt op informatie uit de media? Waarom zijn journalisten over het algemeen betrouwbaar? Waarom is het van belang voor nieuwsorganisaties om betrouwbaar gevonden te worden?

 

Uiteindelijk leidt deze lawine van waarom-vragen tot reflectie op fundamentele vragen over de diersoort mens. Over waarom de mens in de evolutie op grote schaal is gaan communiceren via taal, waarom wij in ons dagelijks leven meestal gewoon de waarheid spreken, en waarom wij ook vrijwel altijd geloofd worden. Dat zijn vragen die op het eerste gezicht nogal academisch zijn, maar bij nadere beschouwing heel relevant voor het nadenken over oplossingen voor het nepnieuws-probleem.

 

In de antwoorden van de wetenschap op die vragen vind je namelijk steeds een paar elementen terug. Element 1: vertrouwen ontstaat makkelijker in de evolutie als gesprekspartners niet anoniem zijn, maar elkaar kunnen herkennen en leugenaars dus risico lopen op reputatieschade. Element 2: vertrouwen ontstaat als de interacties tussen gesprekspartners niet eenmalig zijn, maar er een gerede kans is om dezelfde partner opnieuw tegen te komen. Element 3: vertrouwen ontstaat makkelijker als communiceren niet gratis is, maar als communiceren ook echt wat kost voor de spreker (en dan het liefst een beetje kostbaarder is voor de leugenaars).

 

Als je met die inzichten in het achterhoofd kijkt naar de moderne sociale media en massamedia, is het wat minder verrassend dat de betrouwbaarheid onderuit gaat, want juist deze drie elementen zijn in de massacommunicatie en sociale media onder druk komen te staan: gesprekspartners op sociale media zijn vaak anoniem, nieuwsconsumenten hoppen vrijelijk heen en weer tussen verschillende media, en het creëren en verspreiden van teksten en beelden kost vrijwel niets. En ik vermoed dan ook dat belangrijke stappen in het terugdringen van nepnieuws bestaan uit het, zoveel als mogelijk, terugdringen van anonimiteit en het bevorderen van herhaalde interacties tussen journalist en lezer, en tussen lezers onderling, en zorgen dat de financiële prikkels het nieuws de goede kant op duwen. Een journalistiek platform als ‘De Correspondent’, net als vergelijkbare initiatieven in andere landen, is een prachtig voorbeeld van hoe je dat kunt organiseren in de huidige tijd.

 

Mijn zoontje gaat intussen gewoon door met zijn vragen. Waarom moet ìk als eerste onder de douche? Waarom is het kinderbedtijd? Waarom ga jij nog niet slapen? Waarom moeten kinderen vroeger gaan slapen dan grote mensen? Soms vraag ik wel eens af waarom hij zoveel vragen stelt, en dan realiseer ik me snel dat hij erfelijk belast is. Op mijn schoolrapport uit 1988 staat een extra opmerking van mijn klasseleraar: “De leraren vragen of je wat minder wilt vragen!”. Ik hoop dat mijn zoon in zijn schoolloopbaan vooral docenten gaat treffen die het vragen stellen van harte aanmoedigen.

 

 

Zwarte inktvlekjes op een witte achtergrond

 

Uit: Mark Geels, Tim van Opijnen (Eds.), Nederland in ideeën – Dit is het mooiste ooit. Amsterdam: Maven

Jelle Zuidema

 

Zien doe je een klein beetje met je ogen, maar vooral toch met je hersenen. Doordat je ogen aan de lopende band heen en weer springen, je hoofd en lichaam steeds in beweging zijn en je tientallen keren per minuut je ogen even sluit bij het knipperen, verandert het beeld dat op je netvlies valt voortdurend, zelfs als de wereld om je heen even stil staat. Als je dat allemaal zou merken zou zelfs het wijdse, stabiele uitzicht vanaf een hoge bergtop aandoen als een psychedelisch art-house film.

 

Gelukkig verwerken onze hersenen de inkomende signalen door voornamelijk op zoek te gaan naar informatie in het beeld die niet te voorspellen was op basis van wat je al wist over je omgeving en je eigen bewegingen. De hersenen ontvangen dus niet een objectieve weergave van de buitenwereld, maar construeren een eigen wereld die min of meer consistent is met de maalstroom aan waarnemingen. Zien is hard werken!

 

Een van de consequenties van die actieve rol is dat de hersenen ook dingen kunnen zien die er helemaal niet zijn. En dat geldt net zo zeer op het basale niveau van waarneming van kleuren (denk aan the dress), hoeken en vormen, als op het niveau van complete gebeurtenissen, dromen en verhalen.  Die onwerkelijke, grenzeloze maar toch zichtbare wereld is soms mooier dan de echte maar begrensde wereld.

 

Voor wie mooie beelden wil creeeren schept dat natuurlijk mogelijkheden. Dat geldt allereerst voor de beeldende kunst, maar de meest fascinerende kunstvorm, voor mij als taalwetenschapper, is literatuur, waar lettertjes op papier bij de lezer een oneindige rijke beleving op kunnen roepen, inclusief prachtige vergezichten, intense emoties en diepe inzichten. Literatuur is een kunstvorm die met een minimale interface — in essentie zwarte inktvlekjes op een witte achtergrond — de lezer toegang geeft tot een virtuele wereld waarin verbijsterend veel van de ervaringen uit de echte wereld mogelijk zijn, en meer. Het oude, vertrouwde boek is, wel beschouwd, hightech van de bovenste plank!

 

Literatuur heeft die kracht doordat het vernuftig gebruik maakt van een aantal complexe systemen in de mens die in de evolutie voor heel andere doeleinden zijn ontstaan. Allereerst is daar het visuele systeem, dat de mens in grote lijnen deelt met andere dieren. De inktvlekjes in een boek zijn georganiseerd in letters of karakters. Het schrift is waarschijnlijk een paar keer uitgevonden, voor het eerst zo’n 5.000 jaar geleden in het midden oosten, en daarna geevolueerd tot de verschillende alfabetten en karaktersystemen die de wereld nu rijk is. Die schriftsystemen verschillen, maar ze hebben ook belangrijke overeenkomsten in hun gebruik van basale vormen (lijntjes, hoeken, bochten, kruisjes) waar ons visueel systeem, om heel andere redenen, in gespecialiseerd is. Door die bijna-optimale aanpassing aan het visueel systeem, kun je, als je eenmaal hebt leren lezen, een woord in minder dan 200 milliseconden herkennen en met je ogen doorspringen naar het volgende woord in een zin.

 

Vervolgens is er het taalsysteem dat, eenmaal verworven, ons in staat stelt om van tienduizenden verschillende woorden razendsnel een betekenis te vinden, en die woordbetekenissen te combineren om de betekenis van zinnen en hele teksten te bepalen. Dat taalvermogen bestaat minstens al een paar honderdduizend jaar en mogelijk, in een of andere vorm, al een paar miljoen jaar, maar is uniek voor de mens. De vraag hoe taal is ontstaan in evolutie, en met welke functie, is nog een groot mysterie.

 

Tenslotte maakt literatuur gebruik van onze redeneervermogens om de wereld om ons heen te begrijpen, en in het bijzonder onze sociale cognitie en ons vermogen na te denken over de gedachten van anderen. Veel van die redeneervermogens delen we met andere diersoorten. Vooral in het redeneren over de gedachten van anderen lijken we echt te excelleren in het dierenrijk. Lezers van boeken (en kijkers van films) kunnen prima snappen dat personage 1 niet weet dat personage 2 heeft meegeluisterd toen personage 3 aan personage 4 vertelde over wat A heeft gedaan. De lezer heeft daarmee 5e orde gedachten-over-gedachten (en de auteur van het boek zelfs 6e orde!); chimpansees lijken in experimenten niet verder te komen dan 3e orde.

 

Literatuur is dus een parasitair systeem, dat op oneigenlijke wijze gebruik maakt van die nuttige systemen van waarneming, taal en redeneren, en in het proces de lezer onvergetelijke ervaringen kan bezorgen. Soms zijn die ervaringen mooier, treuriger of spannender dan wat je in het echte leven mee maakt. Sommige van mijn levendigste jeugdherinneringen zijn van ervaringen in de werelden gecreeerd door Roald Dahl, Thea Beckman, Tonke Dragt, J.R. Tolkien en Karl May. Allemaal zogen ze hun verhalen volledig uit de duim, al was het vaak weer op basis van de boeken van anderen. Karl May, zo leerde ik later, was zelfs nooit in Amerika geweest. Zijn gedetailleerde beschrijvingen van de landschappen in het wilde westen waren voor mij zo gaan leven dat ik lange tijd heb gedacht dat dat het mooiste was wat ik ooit had gezien. Dat duurde tot ik zelf in de Rocky Mountains was. Toen bleken de uitzichten nog mooier dan ik me had voorgesteld.

 

Relax – Taalfouten bestaan niet

Uit: M. Geels & T. van Opijnen (Eds.), Nederland in ideeën – Dit wil je weten (pp. 256–258). Maven. 2014.

Jelle Zuidema

Cognitiewetenschapper aan de Universiteit van Amsterdam

 

Ik kom uit een familie van taalpuristen. Zo’n familie waar de gesprekken op familiefeestjes niet gaan over de teloorgang van het Nederlandse voetbal, de economie of het weer, maar over de teloorgang van het Nederlands. Waar men elkaar ooit Kuitenbrouwer’s Turbotaal kado deed (of soms zelfs cadeau), en meer recentelijk de boekjes van Paulien Cornelissen. Het bezoek komt op zo’n feestje binnen (niet langs), de kadootjes worden meegebracht (niet meegenomen), en hoewel we steeds iets ouder zijn dan (niet als) de vorige keer, is het weer net zo gezellig als (niet dan) toen. Onderwijl of intussen (maar niet ondertussen) geniet iedereen van een hapje en een drankje, totdat alle gasten wordt (niet worden) verzocht huiswaarts te keren. Een bijzonder nest dus.

 

Met zo’n achtergrond was het even schrikken toen ik als student kennis maakte met het wetenschappelijk perspectief op taalfouten. Kort door de bocht: ze bestaan niet. Voor taalwetenschappers is taal een systeem van conventies, van regels en van uitzonderingen, dat voortdurend in beweging is. Spelling, grammatica, uitspraak – het zijn allemaal razend interessante fenomenen in het hoofd van de taalgebruiker (en we willen graag weten hoe ze werken), maar er bestaat geen objectieve norm waar taal aan zou moeten voldoen. Uit beleefdheid voor de collega’s van de afdeling Taalbeheersing – en studenten die tot leraar Nederlands worden opgeleid – maken we soms een onderscheid tussen het prescriptieve en het descriptieve perspectief op taalregels. Maar als je een klein beetje dieper graaft, dan is snel duidelijk dat er geen sprake is van een gelijkwaardige taakverdeling tussen prescriptivisten en descriptivisten: de normen van de taalpurist zijn in de beschrijving van de taalwetenschapper slechts subjectieve oordelen van een zelfbenoemde elite, arbitraire conventies zonder objectieve rechtvaardiging. En dan zijn ze vaak ook nog eens inconsistent met elkaar.

 

Op het populaire blog voor taalwetenschappers, LanguageLog, zijn met regelmaat vermakelijke stukjes te lezen over de bizarre regels die in handboeken voor correct taalgebruik worden geformuleerd, en vaak door de auteurs van de handboeken zelf vervolgens op grote schaal worden geschonden. Taalpuristen, zo lijkt het, veronderstellen impliciet een daadwerkelijk bestaande Ware Taal, een systeem van exacte regels die helaas, helaas, niet bij iedereen bekend zijn. Wat dat betreft heeft de taalpurist wel iets weg van een kind met een onzichtbaar vriendje, of een fundamentalistisch gelovige die een direct lijntje naar het opperwezen meent te hebben. De werkelijkheid is namelijk dat talen slechts bestaan in de ontelbare interacties tussen miljoenen taalgebruikers, waar kennis van die talen overgedragen wordt van generatie op generatie terwijl er voortdurend en door iedereen stukjes bij worden gemaakt, veranderd of vergeten. In die wirwar van taaluitingen kunnen we heel duidelijk systemen herkennen – de talen Nederlands, Frans, en Swahili bijvoorbeeld – maar die systemen zijn ’emergent’ en hebben geen keiharde grenzen en keiharde regels. Taal is wat dat betreft vergelijkbaar met een hogedrukgebied of een tropische storm: ook die ontstaan in de interactie tussen talloze delen, hebben geen ontwerper, baas of scherpe grenzen, maar hebben niettemin heel reëele gevolgen. En je kunt ze prima een naam geven, herkennen op een luchtfoto en vervolgens weer zien veranderen en oplossen in iets anders.

 

Dat er überhaupt taalregels zijn – en dat staat niet ter discussie – en dat taalgebruikers zo’n sterk gevoel hebben voor het correct of incorrect toepassen daarvan is op zich weer een fascinerend onderzoeksonderwerp voor de taalwetenschap. Het wijst ons er nog eens op dat taal meer functies heeft dan alleen voor het uitwisselen van informatie. Taal markeert ook groepsidentiteit, en doet dat juist in de diepste krochten van het taalsysteem, waar buitenstaanders de grootste moeite hebben om alle details goed te krijgen. Door net het verkeerde woord te kiezen uit een reeks bijna-synoniemen (gaaf, cool, vet, dope), door een miniem accent in je uitspraak, een tussen-n te weinig of een d in plaats van een dt in de spelling waar het voor de uitspraak of het begrip niets uitmaakt, plaats je jezelf buiten de groep. Studies met baby’s van maar een paar maanden oud laten zien dat ook zij al onbekenden met een bekend accent meer vertouwen dan onbekenden met een vreemd accent. Vanuit evolutionair perspectief is dat eigenlijk niet heel verrassend: het doet denken aan studies naar zangvogels, waar het mannetje met zijn complexe liedje een vrouwtje moet overtuigen dat hij in een goed nest is opgegroeid.

 

De les voor het dagelijks leven van dit perspectief op taalfouten hangt af van je positie. Zit je in een sollicitatiecommissie, dan kun je je voornemen de kandidaat met de beste relevante vaardigheden aan te nemen, en niet iemand die op het gymnasium en de tennisclub zich de taal van de elite heeft eigen gemaakt. Ben je zelf de sollicitant, dan kun je je maar beter knarsetandend (of knarsentandend) onderwerpen aan de terreur van de taalregels die gelden in de groep waar je bij wilt horen. Daarbij is het misschien prettig dat je de taalpuristen stilletjes een beetje uit kan lachen om hun afwijking en onzichtbare vriendjes. Misschien zegt taalpurisme nog het meeste over de taalpuristen zelf: in ieder geval weet je alvast hoe hun familiefeestjes eruit zien.

 

Niet explainable by design, maar explainable by hard work

Dieuwke Hupkes en ik zijn onlangs geinterviewd door Willem Schoonen van Trouw. Het resultaat verscheen afgelopen zaterdag in de krant (met een kop waar ik niet zo blij mee was):

2020 – Laat kunstmatige intelligentie vooral haar eigen gang gaan (Willem Schoonen)

trouw

Ik ben trouwens lang geleden ook al twee keer geinterviewd door Trouw over mijn onderzoek naar de Evolutie van Taal (adhv computermodellen):

2014 – Ooit kunnen we zeggen wat taal is (Marieke Kolkman; ook hier)

2010 – Theorieen over taal ontkracht ()

De evolutie van taal

In 2007 schreef ik een populair-wetenschappelijk artikel voor Blind over De evolutie van taal.

De evolutie van taal

De geboorte van een kind is natuurlijk elke keer een wondertje – menig toekomstig ouder zal zich bij het bekijken van de echo’s verontrust hebben afgevraagd of zo’n wormvormige foetus inderdaad tot een echt mens zal uitgroeien. Als het mormeltje eenmaal ter wereld is gekomen zijn de ouders al een stukje gerustgesteld. De ooms en tantes zien de overduidelijke gelijkenis met vader, of de moeder, of allebei, en het gehuil klinkt al wel half menselijk. Maar ja, de grijpreflex in de handjes en voetjes maakt ‘m toch weer meer een klein aapje. Eigenlijk ga je pas een poosje na de eerste verjaardag de echt fundamentele verschillen zien tussen mens en dier: het kindje stopt met kruipen op vier poten en gaat lopen op twee benen, stopt met brabbelen en begint met praten. Niet voor niets zijn beide eerste keren een magisch moment voor de ouders – door te praten krijgen zij eindelijk een inkijkje in de rijke innerlijke wereld van het kind en door te lopen wordt de leefwereld van het kind met grote stappen groter.

Chimpanseepappa’s en mamma’s moeten het stellen zonder deze bijzondere ervaringen. Even wil een chimpanseekind wel op zijn achterste benen staan, maar zijn anatomie – net als die van andere mensapen – maakt het een onprettige houding en tot het einde van zijn leven loopt een aap daarom met handen en voeten. Ook de communicatie blijft beperkt; weliswaar kennen chimpansees in het wild en in gevangenschap een scala aan betekenisvolle gebaren, gezichtsuitdrukkingen en kreten, het combineren van signalen om complexere boodschappen mee over te brengen ligt, voor zover we nu weten, buiten hun bereik. Zelfs adoptiechimpanseetjes die worden opgevoed door menselijke pleegouders met een batterij van trucs om ze taal bij te brengen, komen niet veel verder dan het leren gebruiken van enkele tientallen symbolen.

Wat is er zo bijzonder aan mensenkinderen dat zij wel en chimpansees en andere dieren niet een communicatiesysteem kunnen leren met de complexe combinatoriek van taal? En hoe is dat verschil ontstaan? Die vragen staan in de cognitiewetenschappen, biologie en taalkunde de laatste jaren weer volop in de belangstelling. Door genetisch en archeologisch onderzoek is het duidelijk dat de gemeenschappelijke voorouder van mensen en chimpansees, de ons nauwst verwante mensaap, zo’n 5 of 6 miljoen jaar geleden leefde. Omdat van alle apensoorten de mens de enige is met een complexe, combinatorische taal, is het ook vrij algemeen aanvaard dat die voorouder geen taalvermogen had. Ergens in de laatste 5 miljoen jaar – in de periode dat er allerlei mensachtigen ontstonden zoals AustralopithecusNeanderthalerHomo Ergaster en ten slotte, zo’n 200.000 jaar geleden, Homo Sapiens – is er dus iets belangwekkends gebeurd met de voorouders van de mens. Was dat een langzame evolutie met heel veel kleine stapjes, of een revolutie, een Big Bang?

Revolutie

Volgens een hoop invloedrijke wetenschappers is het antwoord simpel – maar helaas zijn hun simpele antwoorden telkens weer anders. Philip Lieberman lanceerde in 1984 de theorie dat de lage positie van de menselijke adamsappel het grote verschil maakt; daardoor zouden wij veel meer verschillende klanken kunnen maken, en alle complexiteit van taal volgt dan vanzelf. Taalkundige Derek Bickerton beweerde in 1990 dat er één radicale mutatie in de genen van de proto-mens het grote verschil heeft gemaakt en de mens in een klap van een simpele proto-taal naar een aangeboren vermogen voor complexe grammatica heeft gebracht. Neurowetenschapper Terrence Deacon zag in zijn bestseller van 1997 het vermogen om woorden een abstracte, ‘symbolische’ betekenis te geven – los van concrete ervaringen, maar meer in relatie tot andere woorden – als de cruciale stap. Apenonderzoeker Michael Tomasello beargumenteerde in 2000 dat het essentiële verschil tussen apen en mensen ligt in de coöperatieve basishouding van de mens en het vermogen om de gemeenschappelijke aandacht op een object of gebeurtenis te vestigen, bijvoorbeeld door met je vinger te wijzen en de wijzende vinger of de blik van de ander te volgen (iets waar chimpansees, opvallend genoeg, heel slecht in zijn).

Langzamerhand dringt het besef door dat we er met zulke Big Bang-theorieën niet gaan komen. Menselijke taal verschilt op talloze, subtiele manieren van communicatie bij dieren, en het menselijk vermogen voor het leren van taal hangt op allerlei subtiele manieren samen met andere leervermogens, die we bijvoorbeeld inzetten bij het leren van muziek, rekenen, navigeren, en, wie weet, ook lopen. Theorievorming over de evolutie van taal moet beginnen met een grondige analyse van die verschillen en overeenkomsten, met een studie van wat er aangeboren en aangeleerd is, en met een analyse van de rol die biologische en culturele evolutie daarin kunnen hebben gespeeld.

In 2002 schreef ‘s werelds bekendste taalkundige, Noam Chomsky, samen met twee bekende biologen, Marc Hauser en Tecumseh Fitch, een artikel voor het tijdschrift Science, waarin zij probeerden wat helderheid te scheppen over hoe het onderzoek naar de evolutie van taal vorm zou moeten krijgen. Daarin besteedden ze veel aandacht aan wat eigenlijk dooddoeners zouden moeten zijn: bij het onderzoek naar de cognitieve mechanismen voor taalverwerving en -gebruik is het interessant vast te stellen welke mechanismen uniek voor mensen en uniek voor taal zijn (en dus geen rol spelen in andere dieren of in andere cognitieve taken van mensen); zulke ‘comparatieve’ beweringen – dit of dat aspect is uniek voor de mens – moeten gebaseerd zijn op grondig, empirisch en comparatief onderzoek. Het drietal noemde die nader te bepalen dubbel unieke verzameling mechanismen de Faculty of Language in the Narrow sense (FLN).

Ook Chomsky en consorten konden vervolgens de verleiding niet weerstaan om alweer een Big Bang-hypothese voor te stellen: de FLN, speculeren zij, zou wel eens alleen kunnen bestaan uit het vermogen tot recursie. Dat is de kunst om zinsdelen van een bepaald type, onderdeel te maken van een groter zinsdeel van hetzelfde type. Dus, de man en de hond zijn allebei van het type ‘naamwoordelijk deel’, maar de man die de hond bijt is dat ook, en alle drie kunnen ze gecombineerd worden met het ‘werkwoordelijk deel’ wil een blokje om. Recursie stelt ons in staat om lange, complexe zinnen te maken zoals de man die de hond die de kat bijt slaat wil een blokje om.

Kleine stapjes

Het artikel in Science en de recursiehypothese maakten een storm van reacties los, waaronder zeer persoonlijke aanvallen op Chomsky van zijn voormalige studenten en bewonderaars Ray Jackendoff en Steven Pinker. Jackendoff en Pinker geloven in een geleidelijke evolutie van het menselijk taalvermogen. Het tweetal verdedigt het andere uiterste van een Big Bang – zij denken dat er in talloze kleine stapjes genetische veranderingen hebben plaats gehad die de mens hebben geperfectioneerd voor het verstaan, begrijpen, analyseren, leren, produceren en uitspreken van taal. De drijvende kracht, in hun theorie, was de efficiënte communicatiemogelijkheden die taal ons biedt, waardoor onze overlevings- en voortplantingskansen vergroot worden. Zulke genetische veranderingen die verbeteringen brengen heten ‘adaptaties’. Eigenlijk weet de wetenschapper Chomsky ook wel beter, suggereerden zij verder nog, maar de aanname van heel veel genen voor taal laat ook ruimte voor genetisch bepaalde verschillen in taalvermogen tussen mensen, en dat kan de ultralinkse politicus Chomsky niet over zijn hart verkrijgen.

Jackendoff en Pinker stelden een lange lijst op met onderzoeksresultaten die hun theorie zouden moeten onderbouwen, maar eigenlijk gaan die allemaal over verschillen tussen mens en dier, en niet direct over genen of evolutionaire veranderingen. Evolutiebiologen zijn sowieso niet zo enthousiast over theorieën die ieder gevonden verschil meteen gelijkstellen aan een evolutionaire adaptatie – verschillen kunnen immers ook toevallig of als neveneffect van een echte adaptatie ontstaan – maar in het geval van taal zijn er extra redenen om daar heel voorzichtig mee te zijn. De reden is dat we onze taal leren van anderen, bijvoorbeeld onze ouders, die hun taal weer van anderen hebben geleerd enzovoort. Dat heet ‘culturele overdracht’ en het opent de theoretische mogelijkheid voor de taal zelf om zich aan te passen aan de taalleerder en taalgebruiker, in plaats van andersom, zoals onder meer onderzocht door de Schotse taalkundige Simon Kirby. Talen veranderen voortdurend, maar aspecten van taal die moeilijk te leren of te gebruiken zijn – complexe verbuigingen, moeilijk onderscheidbare klanken – zullen sneller weer verloren gaan dan aspecten die juist makkelijk overgedragen worden. Zo kunnen toevallige gevoeligheden van de mens, bijvoorbeeld voor bepaalde klanken, door de cultureel overgedragen taal ‘ontdekt’ worden en behouden blijven. Het eindresultaat is dat het lijkt alsof het menselijke gehoor bijzonder goed aangepast is aan zijn taal, terwijl oorzaak en gevolg eigenlijk andersom liggen en er geen enkele reden is om dit te classificeren als een adaptatie.

Jackendoff en Pinker geven geen bewijzen die zulke alternatieve verklaringen uitsluiten en genetisch onderzoek heeft tot op heden slechts één gen opgeleverd dat een rol speelt in het menselijk taalvermogen. Dat gen heet FOXP2 en is in 2001 ontdekt door een team van genetici waaronder Cecilia Lai en Simon Fisher uit Oxford. Zij publiceerden in het tijdschrift Nature hun analyse van het DNA van een Engelse familie, waarvan alles al wees op een genetische aandoening van het taalvermogen. Uit stamboomonderzoek was al gebleken dat leden van minstens drie generaties de verschijnselen hadden, volgens een typisch patroon van overerving van een gen met een dominanteen een recessieve versie – net als Mendel dat in de negentiende eeuw in zijn experimenten met erwtenplanten had vastgesteld. De familieleden met de aandoening hebben moeite met grammatica, vervoegingen en verbuigingen, maar ook met gecontroleerde bewegingen van hun lippen en tong, die nodig zijn voor spraak maar slechts indirect met taal te maken hebben. Door die variatie van symptomen geldt ook FOXP2 niet als een hard bewijs voor evolutionaire adaptatie voor taal.

Al met al is er veel af te dingen op zowel de stapsgewijze scenario’s van Jackendoff en Pinker als op de Big Bang-theorieën van Chomsky en anderen – er zijn simpelweg te weinig harde bewijzen. Wat deze wetenschappers gemeen hebben is dat ze op basis van hun zeer respectabele onderzoek naar taal met grote stappen ook meteen een theorie over taalevolutie willen poneren. Maar de studie van evolutie is een serieus veld en net als andere wetenschapsgebieden vereist onderzoek naar de evolutie van taal een combinatie van zorgvuldige experimenten om hypotheses te toetsen, wiskundig modelleren om de samenhang van een theorie te evalueren en hard nadenken over de relatie met resultaten uit gerelateerde vakgebieden. Dat is slecht nieuws voor mensen die onmiddellijk antwoorden willen hebben op hun intrigerende vragen, maar goed nieuws voor ambitieuze wetenschappers in dit vakgebied omdat er nog veel te ontdekken valt.

Honderdduizend jaar nuttig geklets

In 2013 schreef ik dit optimistische stukje voor “Nederland in Ideeen“.

Honderdduizend jaar nuttig geklets

Aan geschiedenis ontsnap je maar moeilijk. Geschiedenis is een verplicht vak op lagere en middelbare scholen, er zijn mooie geschiedenisprogramma’s op televisie en radio, mooie tijdschriften en eindeloos veel historische fictie- en non-fictieboeken in de boekwinkels. We hadden zelfs bijna een Nationaal Historisch Museum gehad om de veronderstelde achteruitgang van het historisch besef een halt toe te roepen. De pleitbezorgers van geschiedenis denken vaak in eerste instantie aan de geschiedenis van de Europese staten – hun oorlogen, hun koningen, hun politici van de afgelopen paar duizend jaar.

Steeds vaker gaat het gelukkig ook over ideeën en cultuur: de wetenschappelijke revolutie, de burgerrechten, het feminisme, de islam. Maar zelden heeft de geschiedenislobby het over het echt grote verhaal – de geschiedenis van de mensheid, het ontstaan van taal, cultuur, beschaving en staten. En dat terwijl in die Big History misschien wel de belangrijkste les voor onze toekomst ligt.

Want wie is opgegroeid in een van de naoorlogse Europese welvaartsstaten, is opgegroeid met het bizarre idee dat vrede, welvaart, recht, democratie en vooruitgang de norm zijn. En wie met dat verwachtingspatroon de wereld in gaat is een gemakkelijk slachtoffer voor een cultuurpessimisme dat leidt tot een passiviteit die het wereld-verbeteren in de weg staat. Een beetje meer kennis van wat de mensheid bereikt heeft in de laatste paar honderdduizend jaar is een fantastisch tegengif tegen dat pessimisme.

Honderd jaar geleden was de democratie, inclusief vrouwenkiesrecht, nog niet ingevoerd. Duizend jaar geleden leefde het gros van de mensen in bittere armoede, onderhevig aan frequente oorlogen, rechteloos en ondergeschikt aan een kleine elite. Tienduizend jaar geleden leefden we allemaal nog als jagers-verzamelaars in stateloze samenlevingen, zonder land-bouw, zonder koningen, zonder schrift. En ruim honderdduizend jaar geleden onderscheidde de mens zich nog maar nauwelijks van andere apen: geen kunst, geen complexere technologie en mogelijk zelfs nog geen taal. En bedenk, in die honderdduizend jaren leefden er maar zo’n vijfduizend generaties. Er zouden maar een paar extra bladzijden nodig zijn in de Bijbel om de opsommingen van voorvaderen van Jezus uit te breiden tot de biologische stamvader van alle mensen!

Wetenschappelijk onderzoek in de laatste decennia heeft een hoop duidelijk gemaakt over wat er in de afgelopen paar honderdduizend jaar gebeurd is, en hoe de mensheid zich zo razendsnel heeft kunnen ontwikkelen. Bijna maandelijks worden er nieuwe ontdekkingen gemeld. Het beeld dat er oprijst uit archeologisch en genetisch onderzoek is dat mensachtigen zich tot één miljoen jaar geleden duidelijk, maar slechts in beperkte mate onderscheidden van andere apen. Pas vanaf ruim honderdduizend jaar geleden gaat Homo sapiens zich opvallend afwijkend gedragen. De oudste vondsten van kralen en kettingen zijn van rond die tijd. De schitterende rotstekeningen van Lascaux dateren van zo’n veertigduizend jaar geleden. Tienduizend jaar geleden werd de landbouw uitgevonden en werd Amerika bevolkt, zesduizend jaar geleden ontstonden de eerste vormen van geschreven taal, vijfduizend jaar geleden bouwde de mens de piramides, en de rest is, tja…, geschiedenis.

Wat zit er achter die enorme versnelling van de ontwikkelingen? Veel wetenschappers denken dat het ontstaan van taal een centrale rol heeft gespeeld, in combinatie met het mechanisme van culturele evolutie. Taal is zo’n belangrijk ingrediënt in de verklaring omdat taal een medium biedt om kennis en afspraken te delen en door te geven aan volgende generaties. En taal biedt ons brein een medium om gedachten te vormen en te onthouden die zonder taal letterlijk niet denkbaar zijn.

De sociale innovaties (handel, recht, staatsvorming) en technologische innovaties (landbouw, gereedschap, kleding) van de afgelopen honderdduizend jaar waren nooit mogelijk geweest zonder dat er eerst talen in de populaties waren ontstaan waarmee informatie over grote afstanden en tijdspannes gedeeld en gecombineerd kon worden.

Taal is bovendien zelf onderhevig aan culturele evolutie: net als met evolutie in de biologie, is het zinnig om over taal na te denken in termen van overerving (elke generatie leert taal van de vorige), variatie en natuurlijke selectie (de best aangepaste woorden, klanken en regels overleven). Het vermogen van taal om zich via het mechanisme van culturele evolutie aan te passen aan de eigenaardigheden van de mens lijkt een belangrijke rol te spelen in de verklaring voor hoe taal in relatief korte tijd, en met maar weinig biologische aanpassingen, zo complex heeft kunnen worden en zo’n centrale rol heeft kunnen spelen in de geschiedenis van de mensheid.

De wetenschap begint dus te doorgronden waar de mens vandaan komt, en hoe we het zover hebben weten te schoppen. Cruciaal zijn taal als communicatiemiddel en de voortdurende verandering van taal (inclusief de dag die je wist dat zou komen). En cruciaal is de uitwisseling van ideeën om te komen tot grote technologische innovaties, die altijd het resultaat zijn van vele kleine innovaties. En cruciaal is ten slotte communicatie voor het vinden van win-winsituaties in hoe we de samenleving organiseren, zodat we niet allemaal voortdurend in strijd leven en ieder apart op de savanne op zoek moeten naar bessen, wortels of prooien om op te eten, maar samenwerken, de taken verdelen en de ander wat gunnen.

Zo bekeken is er best reden voor cultuuroptimisme. De wereld is nog steeds grondig aan het veranderen. Sommige veranderingen zijn ten goede, sommige ten kwade. Maar de mechanismen die de afgelopen honderdduizend jaar een enorme netto verandering ten goede hebben veroorzaakt – informatieoverdracht en communicatie via taal – zijn juist in onze tijd weer enorm versterkt door de opkomst van het internet. Eigenlijk is de grootste bedreiging voor de toekomst de onverschilligheid van de westerse mens ten aanzien van de verworvenheden van honderdduizend jaar culturele evolutie. De burgerrechten, vrouwen- en homo-emancipatie, het recht op privacy, het internationaal recht, het open internet, de ontwikkelingssamenwerking, de nivellering, de milieubescherming en het vrije onderzoek verdienen bewondering én bescherming waar nodig, en niet het moedeloze schouderophalen van de cultuurpessimist. Voor wie het geluk heeft gehad met al die verworvenheden op te groeien, is het noodzakelijk een beetje meer te weten van het grotere verhaal achter de geschiedenis om dat weer in te zien.

Recurrent network learning AnBn

On an old laptop, I found back my little paper “Rule learning in recurrent networks“, which I wrote in 1999 for my “Connectionism” course at Utrecht University.

I trained an SRN on the contextfree language AnBn, with 2<n<14, and checked what solutions it learned. Results might have seemed o.k. at first glance, but I quickly realized that average next symbol prediction is a terrible performance metric here — which made me skeptical for many years of connectionist papers that only reported this metric. My SRN really had only learned to predict its input (say A when you receive A), but that is correct some 85% of the time.

In a simple experiment where I trained a network on a single string, A4B4, I did learn that implementing a counter is quite simple in SRNs. And that convinced me that a real solution should really be in the SRN’s hypothesis space, which made me quite skeptical for many years (and until today) about claims that neural networks were fundamentally unable to learn symbolic structure. Rodriguez (2001, Neural Computation) later published a paper that showed that quite convincingly.

zuidema99fig3-srn

 

Nice (but slightly scary) to see how much I agree with 24 year old me…

 

 

Word & Sentence Representations and Responsible AI

There currently is much discussion (finally!) about the need to study the social consequences of the widespread adoption of natural language processing technology, and to pay much more attention to ethics in our education. One important issue there is the effects of racial, sexist and other biases present in the data that we train our NLP algorithms on. Are the AI systems we build as biased as humans are? Or even worse? Does that lead to real world consequences?

These are difficult questions, in turns out. But if identifying bias is hard, fixing it is even harder. Simple fixes trying to balance the dataset often don’t well, because the accuracy of our systems drops when data are rmoved or artificial data is added.

There is an interesting parallel between the need to both identify and correct bias (w.r.t. ethnicity, gender, sexual orientation, religion, class, education), and the quest to try to identify and influence how modern deep learning systems represent linguistic category information (number, gender, determinacy, animacy, case etc). In this post I would like to explore the extent to which the approach we have been developing for the latter, can be applied to also achieve the former.

Diagnostic classification

Let’s start with that prior work. The approach we have developed to answer linguistic questions about deep learning system is called ‘Diagnostic classification’. The idea that we train a deep learning model — henceforth the ‘target model’ — for some natural language task, for instance, for predicting the next word in a sentence. With current techniques (e.g., two layer LSTMs, a clever training regime, and enormous datasets) we have become really good at that task. But what linguistic information is the deep learning model using to make its excellent predictions?

To figure that out we have tried all the visualization and ‘ablation’ tricks (i.e., systematically damaging the trained network and see what happens) from the literature, but found that they are only of limited use. LSTMs and other deep learning models are (i) high dimensional, and (ii) highly nonlinear. This means that visualization is of little use, because the solutions the LSTM finds have information distributed over hundreds or thousands of dimensions, which our eyes cannot track all at once. Moreover, the solutions often involve interactions between parts, such that the function of a part typically is a different one for each configurations of the other parts; knocking out components one by one is therefore not likely to reveal what is really going on.

The solution we found (inspired by lots of earlier work from other groups, and in parallel to other groups) is to develop a series of meta-models to help figure out the inner workings of the target model. The function of the meta-models is in the first place to diagnose what is going on, and often these models are classifiers (although sometime they are regressors or models producing complex, structured output); hence, we refer to them as diagnostic classifiers.

We published the first paper on diagnostic classifiers in 2016 (introducing the term), where we focused on networks trained to perform simple arithmetics — with only addition, substraction and brackets. In 2017 we published a paper on the same task that used diagnostic classifiers on the same task, but went on to use the insights gained to change the training regime. By adding closeness to the nearest symbolic solution to the loss function, we managed to ‘guide’ the target network to even better performance (“symbolic guidance“).

Our latest paper, to be presented at the upcoming BlackboxNLP workshop, applies the whole framework to language modelling. We build on the work of Linzen et al (2016) and Gulordava et al. (2018), who studied the ability of LSTM-based language models to learn about number agreement and other syntactic dependencies between words in a sentence.

 

References

Tal Linzen, Emmanuel Dupoux, and Yoav Goldberg. 2016. Assessing the ability of lstms to learn syntax-sensitive dependencies. Transactions of the Association for Computational Linguistics, 4:521–535.
Kristina Gulordava, Piotr Bojanowski, Edouard Grave, Tal Linzen, and Marco Baroni. 2018. Colorless green recurrent networks dream hierarchically. In Proceedings of the 2018 Conference of the North
American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), volume 1, pages 1195–
1205.

Hupkes et al. 2016, 2017, 2018

Other resources

The Mexican restaurant example is mentioned here:
https://blog.conceptnet.io/posts/2017/conceptnet-numberbatch-17-04-better-less-stereotyped-word-vectors/

The Science paper on gender and other biases is discussed and link to here:
https://joanna-bryson.blogspot.com/2017/04/we-didnt-prove-prejudice-is-true-role.html

And here are some general resources on ethics & AI (in particular week 6: Fairness) https://github.com/sblodgett/ai-ethics

Outnumbered (https://www.amazon.com/Outnumbered-Exploring-Algorithms-Control-Lives/dp/147294741X)