Next: College 3
Up: College 2
Previous: Hoorcollege
Schrijf een programma dat als input een natuurlijk getal en een grote text bestand
(een corpus) inleest. De output moet zijn een tabel van alle sequenties van
lengte n woorden met het aantal keer (frequentie) dat de sequentie voorkomt in het
corpus (let op: de sequentie van n woorden moet letterlijk in het corpus voorkomen).
Maak gebruik van AUSTEN TRAIN hieronder als invoer corpus voor jouw programma.
In te leveren:
- A.
- Voor n=1, n=2 en n=3 lever je in de tabel van de 10 meest voorkomende sequenties.
- B.
- De som van de frequenties van alle sequenties van lengte n=1, n=2 en n=3.
- C.
- Programma met uitleg zoals aangegeven in de algemene regels voor practica.
Training-set AUSTEN TRAIN: http://www-nlp.stanford.edu/fsnlp/statest/austen.txt
Khalil Sima'an
2006-05-02