Research

How anyone can say something about the world as it flows into the eye has intrigued me from the beginning. Hence I am in computer vision where it soon became clear general vision is a terribly complicated process. Approximately one third of our brain is engaged in processing the image which comes in. Hence it is the most demanding cognitive process, underestimated in its complexity only because we are so good at it we master it already before kindergarten.

In the beginning I was in medical, more specifically microscopical image processing. This is an interesting yet specialized field where part of the attraction is in the multidisciplinary action of the field. In 1990, I turned to informatics and general vision never guessing the field would make so much progress we are now indeed able to learn to recognize objects in many different appearances, and even to learn scene characteristics when learned from different scenes. Especially when the scene and is described by text - as in video - access to the content will be possible in the next five years. We contribute to that disclosure of pictorial content by tracking, object recognition and object class recognition.

That brings the debate back to the question: what sentence will describe an image? How can that be learned? What does it tells us about the nature of objects and pictures, and what does it tells us about the nature of language about the space around us?

Onderzoek

Mijn onderzoek lag aanvankelijk op het gebied van de medische beeldbewerking, met name van microscopische cellen om vast te stellen of de benoeming daarvan objectiever kon geschieden. Sinds 1990 werk ik aan de algemene beeldbewerking met name van video omdat daar het beeld beweegt (en dat is makkelijker te ontleden) en omdat er een beschrijving van taal beschikbaar is (en dat helpt in het begrijpen van het beeld).

De grote vraag waaraan ik werk is: hoe is het nou toch mogelijk iets te zeggen over een beeld zoals dat de camera of het oog binnenstroomt. Dat bleek in de loop van mijn wetenschappelijke leven een door vele filosofen bestudeerde kwestie te zijn, en dat had een waarschuwing moeten zijn dat het wel eens heel ingewikkeld kon zijn. En dat klopt: een derde van onze hersenen besteden we aan zien, zo ingewikkeld is het. Het enige waarom we het eenvoudig vinden is dat we het voor de kleuterschool al kunnen maar daarom hoeft het nog niet eenvoudig te zijn.

Het veld maakt pas de laatste jaren goede vorderingen in de herkenning van voorwerpen op afbeeldingen. Ik had eigenlijk niet meer gedacht dat nog mee te maken, maar zie daar: in 2010 zal een computer een nieuw onbekend voorwerp wel kunnen herkennen. Ik ben blij dat ik daaraan mee mag helpen.