Lecture Notes Week 6

Topics

Topic Modelling, theory and practice
Assignment
Slides

Literature

Ted Underwood, 2012, Topic modeling made just simple enough
- Great introduction
D. Blei. Probabilistic topic models. Communications of the ACM, 55(4):77–84, 2012.
- Clear exposition by one of the inventors of LDA
- Local copy with highlights
- Great Video of David Blei on topic models
Radim Řehůřek, 2014. Topic Modeling for Fun and Profit EuroPython tutorial
- Excellent tutorial with notebooks introducing topic modelling, and dealing with all the preprocessing and computational technicalities involved before you can even start.

Video

David Mimno with the slides At _ workshop on topic modeling and the humanities_ 2012.

Furter reading

http://programminghistorian.org/lessons/topic-modeling-and-mallet If you want to use the Mallet program instead of Python
http://tedunderwood.com/category/methodology/topic-modeling/ Topic modelling applied to large historical text collections.
Newman, Block, 2004 Topic modelling applied to large historical collection.

Notebook

We have a slightly modified version of Radim Řehůřek, 2014. Topic Modeling for Fun and Profit EuroPython tutorial in our own notebook folder.
- Local copy of topic_modeling_tutorial

Notes on the tutorial

Assignment

Warm up

Doe alle 4 de delen uit Local copy of topic_modeling_tutorial
Herhaal de stappen met een eigen corpus.
- Bijvoorbeeld NLTK Reuters,
- iets anders van je zelf,
- of
- neem hiervoor 1 van deze 2 corpora (haal de data zelf op)
- NL debatten
- UK debatten Neem als document alles binnen 1 topic. In de NL proceedings heb je 1 debat (topic genaamd, ja lekker vewarrend in deze context ;-) per file. In de UK proceedings zitten meerdere debatten per file.

De opgave die je moet inleveren

Notes

Ons model van het schrijven van een stuk

Stel je wit een artikel gaan schrijven.
- Dan (1) bepaal je waarover het zal gaan, en in welke verhouding (de topic distribution)
- En (2), als je gaat schrijven, laat je dat model bepalen welke woorden je gebruikt. Elk woord komt voort uit een topic.
Dit noemen we een generatief model.
We nemen aan dat onze documenten zo gemaakt zijn.
De computer gaat nu dit “latente” generatieve model proberen te leren.
- Het is eigenlijk een proces van reverse engineering.
- We leren een instantie van het model dat het beste past bij de collectie waarover we leren.

Goal of topic modeling

The goal of topic modeling is to automatically discover the topics from a collection of documents.
The documents themselves are observed, while the topic structure—the topics, per-document topic distributions, and the per-document per-word topic assignments—is hidden structure.
The central computational problem for topic modeling is to use the observed documents to infer the hidden topic structure.
This can be thought of as “reversing” the generative process— what is the hidden structure that likely generated the observed collection?

Topic modeling = unsupervised learning

Het enige wat we vertellen aan het algorithme is
- het aantal topics
- de woord frequenties in een verzameling documenten.
Bag of documents, and bag of words model.

Wat leren we dan?

Uitgelegd met behulp van het voorbeeld:

De topics:
1. De gekleurde lijsten van woorden links
2. Elk topic is een taalmodel (Prob. dist. over woorden)
3. De $\beta$ parameter
De verdeling van topics over elk document.
1. Het histogram rechts
2. de $\theta$ parameter
De verdeling van de topics over de woorden in elk document.
1. "Welke kleurstift we gebruiken"

Het model anders gezegd:

P(Z|W,D) is, de kans dat je een woord W in document D de kleur Z geeft.
wordt bepaald door het product van
P(Z|D) de kans dat Z een kleur is in document D
en
P(W|Z) het model van kleur (= topic) Z.
- de kans dat een Z-gekleurd woord woord W is.

De taak anders gezien:

We willen P(W|Z) en P(Z|D) bepalen.
We hebben alleen maar P(W|D)
- namelijk gewoon met woordjes tellen

Topic model = soort samenvatting

Voor topic modelling:
- Elk document is een bag of words
- dus een |V| dimensionale vector voor V het vocabulair van de collectie.
- V is meestal heel groot (25K - 100K of meer)
- we kunnen dat ook zien als een taalmodel = P(W|D)
Daarna:
- Elke document is een bag of topics
- een topic model P(Z|D)
- Vele malen kleiner
- aantal topics is meestal tussen 10 en 100
Dimensionality reduction
- In matrix algebra heet dit principal component analysis

Wat kunnen we met een topic model?

Enorme text collecties beter behappen.
Semantisch zoeken.
- Bijvoorbeeld, zoeken met een voorbeeld document
- "Give me more like this"
Patronen in grote collecties ontdekken
- vaak diachronisch

Software

Malet, veel gebruikt door sociale wetenschappers en historici. Makkelijk te gebruiken.
Gensim, Python pakket. Wat lastiger.

Data die wij kunnen gebruiken

Deze data is beschikbaar op de UvA. Vraag Maarten Marx. Bij een paar datasets hebben we wat voorbeeld onderzoeksvragen gezet.

60 jaar Telegraaf.
1. Waar gaan de mini-advertenties over?
2. Hoe verandert dat door de tijd?
3. Bijv. Kunnen we sex advertenties zien opkomen?
Politieke debatten en toespraken.
1. Wie blijft er "on topic" en wie niet?
2. Hebben partijen hun eigen topics?
Nog veel meer
1. AirBnB
2. NY Times
3. Wikipedia
4. ....

Notes on the tutorial

Het maken van een model uit een verzameling text documenten gaat in een aantal stappen. Het is belangrijk die stappen goed te snappen, want je moet ze steeds doorlopen.

Die stappen zijn zo om stromende applicaties te kunnen maken, applicaties die werken op heel veel documenten, zonder ze allemaal tegelijk in geheugen te hebben.

Hieronder leg ik niet de stromende stappen uit. Zie daarvoor de tutorial.

stappen

Maak van je documenten lijsten van woorden.
1. Sla die op in een lijst of een generator.
Maak daarmee een id2word dictionary
1. Dit is een dict die woorden naar integer ids mapped.
2. En voor elk woord telt hoe vaak het voorkomt.
Met de id2word.doc2bow methode kan je nu je documenten in "bag of words" veranderen.
Maak daarmee een corpus:
1. politics_corpus = [id2word_politics.doc2bow(d[0]) for d in dutch_docs]
Sla dat desgewenst op
1. gensim.corpora.MmCorpus.serialize(filename, politics_corpus)
Haal desgewenst op
- mm_corpus = gensim.corpora.MmCorpus(filename)
Train een model op basis van dit corpus.
1. lda_model = gensim.models.LdaModel(mm_corpus, num_topics=13, id2word=id2word_politics, passes=4)
2. Dit zijn de topics dus de prob dists over woorden.
Doe de dimensionality reduction. Map elk document naar een prob dist over de lda topics.
1. - politics_lda_mm=lda_model[mm_corpus]
Maak nu bijvoorbeeld een index over het "nieuwe corpus" en ga semantische zoeken.
- Vergeet natuurlijk niet ook steeds je query net zo te transformeren als je met de documenten hebt gedaan!