Eesmärk

Miljonite teismeliste jaoks on sotsiaalvõrgustikud peamiseks suhtluskanaliks. Mis oleks, kui saaksime kasutada nende profiiliandmeid, et jaotada nad sarnaste maitse-eelistuste baasil gruppidesse. Info oleks äärmiselt kasulik turundusotsuste tegemisel, kuna võimaldaks reklaami paremini suunata ning vältida pakkumiste saatmist nendele, kes sellest huvitatud pole. Probleem seisneb selles, et me ei tea, milliste tunnuste abil oleks kõige õigem neid jaotada. Seega andsime selle ülesande arvutile.

Andmed

Analüüsi sisendandmetena kasutasime 30 000 USA teismelise sotsiaalvõrgustiku profiili andmeid, mis tehtud kättesaadavaks Brett Lantz-i poolt 2013 aastal (Lantz 2013, p.279). Kõigist sõnadest, mis profiilidel ilmusid, valiti välja 36, mis võiksid viidata viiele valdkonnale: 1.Vaba aja tegevused, 2. Mood, 3.Religioon, 4.Romantika, 5.Sotsiaalne käitumine. Näiteks kuulusid nende sõnade hulka: jalgpall, purjus, surm, rock, suudelnud, ujumine, juuksed jne.

Andmetes oli loomulikult palju puudusi (puuduvad väärtused jne), kuid nende eemaldamisele siin hetkel ei keskendu.

Analüüs

Analüüsi teostamise käigus jagas arvuti teismelised viide gruppi, mille suurused olid järgnevad:

  1. 1021 inimest
  2. 551 inimest
  3. 5997 inimest
  4. 21563 inimest
  5. 868 inimest

See esimene kokkuvõttev statistika annab meile juba üsna huvitava pildi. Nimelt kõige väiksem grupp sisaldab vaid 2% kõigist teismelistest, samas kui suurim grupp võttis enda alla koguni 72% inimestest. Edasi läksime sügavamale ning vaatasime, milliseid sõnu olid erinevate gruppide liikmed kõige enam kasutanud. Toon siinkohal näiteks sõna “jalgpall”, mille väärtused gruppide lõikes olid järgnevad (NB: suur väärtus viitab sellele, et sõna kasutati sageli):

  1. 0.37
  2. 0.02
  3. 0.50
  4. -0.17
  5. 0.24

Siit on selgelt näha, et huvi jalgpalli vastu on suurim gruppides 3 ja 1, samas kui grupis 4 erilisi jalgpallihuvilisi ei ole.

Tulemuste tõlgendamine

Nagu eelnevalt näha, võib arvuti küll läbi viia analüüsi ning printida meile välja ka soovitud tulemusi, kuid ta pole selles eriti osav. Seega jääb tulemuste tõlgendamine ning hästiloetaval kujul esitamine alati inimese teha. Pikemalt keerutamata on järgnevas tabelis esitatud analüüsi koondtulemus:

socialcluster

Tulemustest loeme välja, et suurim grupp (Grupp 4) on moodustunud tegelastest, kes ei paista ühegi tunnuse osas eriliselt silma. Võttes arvesse, et selle grupi liikmetel on ka madalaim sõprade arv, võib põhjus olla selles, et nad ei ole eriti aktiivsed sotsiaalmeedia kasutajad. Grupp 5 võib koondada aga sildi alla „printsessid“, kuna neile meeldib rääkida palju juustest, riietest ja shoppamisest. Grupp 3 eristub teistest oma spordihuvi poolest, mille tõttu sildistasime nad kui „sportlased“. Ka Grupp 1 ehk „mässajad“ huvituvad spordist, kuid lisaks sellele meeldib neile sageli mainida ka karmimat kraami nagu seks ja narkootikumid. Ning viimaseks väikseim grupp (Grupp 2), mis on moodustunud tugevalt usklikest teismelistest.

Kokkuvõtlikult võimaldab klasterdamine leida mustreid, mida inimsilm tuvastada ei suuda ning loob seeläbi võimaluse juhtimis- ja turundusotsuste efektiivistamiseks. Sarnaselt eelnevale analüüsile, võib metoodikat rakendada klientide, toodete või nähtuste jaotamisel gruppidesse.