5. toukokuuta 2013

Reaaliaikainen Suomi-Twitter-laskuri, kuinka se toimii?



Rakensin helmikuussa 2013 pitkään suunnittelemani Suomi-Twitter-laskurin, jonka tarkoituksena on etsiä suomen kielellä twiittaavia käyttäjiä. Eniten minua kiinnostaa mihin suuntaan tämän ryhmän koko on menossa ja kuinka nopeasti.

Varsinainen laskuri rakentui noin kolmessa illassa ja muutamiin muutoksiin meni suurin piirtein sama aika lisää. Tässä purettuna hieman tarkemmin periaatteet, joilla laskuri toimii.

Suomi-Twitter-laskurin toimintaperiaate on seuraava:
  1. Hae Twitteristä kaikki twiitit viimeisen minuutin ajalta, jotka Twitter on luokitellut suomenkielisiksi.
  2. Hae twiittaajien profiilitiedot.
  3. Analysoi profiilitiedot.
  4. Mikäli twiittaajan profiilissa on viittauksia Suomeen tai suomen kieleen, luokittele käyttäjä suomenkieliseksi.
  5. Toista.

Mitä tietoja käyttäjän profiilista analysoidaan:
  • Sijainti (vapaateksti)
    Tiedot täsmätään suomeksi ja ruotsiksi Suomen kuntiin, maakuntiin ja vanhoihin lääneihin erilaisine kirjoitusasuineen. Myös pelkkä Suomi tai Finland riittää erilaisine variaatioineen.
  • Kuvaus (Bio/Description)
    Kuvauksesta haetaan kertooko käyttäjä olevansa Suomesta tai suomalainen. Tietoja haetaan ruotsin kielellä, englannin kielellä tai suomen kielellä riippuen vähän tekstiesiintymästä. Suomalaiset luokitellaan myös käyttäjät, jotka kertovat suomeksi olevansa joidenkin ammattikuntien edustajia.
  • URL-osoite (*.fi)
  • Käyttöliittymän kieli (fi)
  • Aikavyöhyke (Helsinki)

Tietoja analysoidaan säännöllisillä lausekkeilla (regular expressions) eikä sinne päästetä tietoja vääristäviä lipsahduksia, kuten bit.ly-osoitteita joissa olisi mainittu pelkkä fi-kirjainyhdistelmä.

Laskurin haittapuolia:
  • Twitter ei luokittele kaikkia suomenkielisiä twiittejä suomenkielisiksi
    Twitterin kielitunnistus ei osu lähellekään oikein. Suurin osa twiiteistä on aivan muuta kieltä kuin suomea. Tämän vuoksi turvaudun 2. ja 3. -kohdissa profiilitietoihin.
  • Luultavasti iso osa suomenkielisistäkään twiiteistä ei päädy koskaan haaviini, koska Twitter luokittelee twiitin välillä vaikkapa eestinkielisiksi. Tämä ei kuitenkaan haittaa, sillä tavoitteena on löytää suomenkieliset twiittaajat, ei pelkästään twiittejä. Osa käyttäjän twiiteistä tulkitaan välillä suomenkielisiksi ja näistä yhdenkin löytäminen riittää minulle.
  • Ihmiset eivät kerro itsestään mitään tai ainakaan suomalaisuuttaan. Tätä puutetta paikatakseni analysoin myös Twitter-käyttäjän käyttöliittymän kielen sekä aikavyöhykkeen.
  • Väärin valittu aikavyöhyke
    Osa käyttäjistä on valinnut aikavyöhykkeekseen Helsingin vaikka eivät selkeästi ole Suomesta. Nämä käyttäjät on tarkoitus saada purettua myöhemmässä vaiheessa pois kokonaan. Kannassa on näitä muutamia satoja.

Tässäpä hieman purettuna auki Twitter-laskurin toimintalogiikkaa. Kysele ihmeessä lisää, jos jokin asia jäi askarruttamaan. Muista tsekata myös varsinaisen laskurin tämän hetkinen tilanne.


0 comments:

Lähetä kommentti