Andmeteadus

Andmeteadus (Data Science) on valdkond, mis kasutab tehisintelligentseid mudeleid ja masinõppimist, et leida seoseid ja mustreid, mida lihtne statistika tuvastada ei suuda.

Digitaalsete andmete maht on viimase kümne aastaga hüppeliselt kasvanud: ettevõtete andmebaasid on muutunud üha mahukamateks, sotsiaalmeedia toodab nii tekstilist kui ka visuaalset infot ning iga päevaga toodetakse üha rohkem andmeid läbi erinevate kanalite. 99% nendest andmetes on aga struktureerimata segadus ning ettevõtetel on parimal juhul oma andmetest teada vaid kirjeldav statistika (keskmised väärtused, miinimumid, maksimumid, trendijooned). Konkurentsieelise saavutamiseks või säilitamiseks on ettevõtetel aga üha suurem surve viia andmeanalüüs ning läbi selle juhtimis- turundus- ja tootmisotsused uuele tasemele.

Seejuures on oluline tähele panna, et kui lihtsa statistika kogumist on võimalik automatiseerida (IT – firmad loovad vastava programmi), siis andmeteaduses tuleb iga konkreetse ülesande puhul metoodikat muuta või täiendada ning võtmeteguriks on arvuti poolt õpitud tulemuste tõlgendamine ning esitamine arusaadavas keeles.

Masinõppimine

Masinõppimine võib tunduda ulmevaldkonda kuuluva terminiga, kuid olemuslikult on asi lihtne. Sisuliselt ütleme me arvutile: „Siin on sulle andmed ja algoritmid ehk reeglid, mida sa peaksid kasutama nende andmete analüüsil – õpi asi selgeks ning anna mulle tulemused!“

Masinõppimine jaotub kaheks: suunatud ja mittesuunatud. Esimesel juhul ütleme me arvutile ette, millise tulemuseni ta peab jõudma (näiteks tahame, et arvuti jaotaks potentsiaalsed kliendid ostjateks ja mitteostjateks). Mittesuunatud õppimise korral üritab arvuti aga huvitavad mustrid iseseisvalt leida ning andmeteadlase ülesandeks jääb neid mustreid tõlgendada (näiteks tahame kliendid jaotada gruppidesse, kuid ei tea, kuidas seda parimal viisil teha. Seega anname arvutile ülesandeks leida klientide vahel seosed ja mustrid).

Andmeteaduse meeskonna tööriistakasti kuuluvad masinõppimise absoluutsed tippmetoodikad, alustades regressioonanalüüsist ning lõpetades digitaalsete närvivõrkudega.

(loe lähemalt metoodikate kohta).

Andmetadus