Data Science

Themas van vandaag

  1. Omzetten van informatie
  2. Impliciete informatie expliciet maken

Daarom kijken we naar

  1. Datastructuren
  2. Data inlezen en omzetten in Python

Themas

Heel veel informatie verwerking is

  • simpelweg omzetten van ene formaat naar het andere
  • het duurste/meest tijdrovende onderdeel daarbij is $\ldots$
* uitvogelen wat er nou bedoeld is

Impliciete informatie expliciet maken

  • $\equiv$ leesbaar maken voor een computer
  • in een formaat dat
    • computationeel snel is
    • aansluit bij beeld/model dat een mens heeft van die informatie

Impliciete informatie expliciet maken

We laten dit zien met 4 voorbeelden:

  1. datums
  2. notulen
  3. word document
  4. lemma uit een woordenboek

Voorbeeld 1 : datums

Model is theoretisch duidelijk:

  • "tijd is een rechte lijn"
  • alle tijdstippen zijn lineair geordend (eerder/later)
    • $\ldots$ moet je wel de tijdzone weten

Representatie van datums

  • mooi
  • leesbaar
  • conventies
  • lekker kort
  • handig om mee te werken

Wat zijn de verschillen tussen

9 februari 2015

  • 9-2-2015
  • 2015-02-09
  1. Free format vs fixed format
  2. Natuurlijke ordening $\ldots$
  • alfabetisch $\equiv$ chronologisch

  • Geef me alle hits uit deze eeuw:

  • datum >= 2
  • Geef me alle hits uit deze maand:
  • datum >= 2015-02

Voorbeeld 2: notulen van een vergadering

Document zit tsjokvol impliciete informatie.

Voorbeeld 3: word document

  1. Een docx bestand is in feite een zipfile
  2. boordevol machine leesbare informatie.
  3. Zie http://nbviewer.ipython.org/url/maartenmarx.nl/teaching/DataScience/Data/OpenOfficeDoc/OpenOffice.ipynb

Voorbeeld 4: Lemma uit een woordenboek

Jullie beurt:

  • neem dit lemma uit een woordenboek
  • maak alle impliciete informatie expliciet
  • gebruik een datastructuur die je prettig vindt om mee te werken
    • iets uit Python
    • of iets uit de "echte wereld": spreadsheet, database, json, xml, pdf, html,....
Lemma


(o.; lemmata of -s) [me. Lat. (thema, gedachte, idee) ,Gr. Lemma (veronderstelling)], 
het lemma zelfst.naamw.Uitspraak:   ['lɛma] Verbuigingen:   lemma|'s, lemma|ta (meerv.)   
Voorbeeld:   `een beknopt woordenboek met 12.000 lemma's`
Synoniem:   trefwoord
1 hulpstelling waarvan de juistheid in afwahting van nader bewijs wordt aangenomen; 
2 leus, lijfspreuk, motto, devies; 
3 titelwoord in een woordenboek of encyclopedie, hoofd van een artikel, syn. trefwoord.
In [1]:
!ipython nbconvert week2-slides.ipynb  --to slides --reveal-prefix "http://maartenmarx.nl/reveal.js"
[NbConvertApp] Converting notebook week2-slides.ipynb to slides
[NbConvertApp] Writing 202656 bytes to week2-slides.slides.html
In [2]:
from IPython.display import HTML
HTML('<iframe width="850" height="700" scrolling="no" frameborder="no" src="week2-slides.slides.html"></iframe>')
 
Out[2]: