next up previous
Next: College 3 Up: College 2 Previous: Hoorcollege

Practicum 1 (e'e'n week)

Schrijf een programma dat als input een natuurlijk getal $ n$ en een grote text bestand (een corpus) inleest. De output moet zijn een tabel van alle sequenties van lengte n woorden met het aantal keer (frequentie) dat de sequentie voorkomt in het corpus (let op: de sequentie van n woorden moet letterlijk in het corpus voorkomen). Maak gebruik van AUSTEN TRAIN hieronder als invoer corpus voor jouw programma.

In te leveren:

A.
Voor n=1, n=2 en n=3 lever je in de tabel van de 10 meest voorkomende sequenties.
B.
De som van de frequenties van alle sequenties van lengte n=1, n=2 en n=3.
C.
Programma met uitleg zoals aangegeven in de algemene regels voor practica.
Training-set AUSTEN TRAIN: http://www-nlp.stanford.edu/fsnlp/statest/austen.txt



Khalil Sima'an 2006-05-02