Data science för en dotter del 2

Här följer fortsättningen i min beskrivning av data science och de begrepp som är kopplat till det.

Big data
Råvaran i data science är inte helt otippat data och det gäller att förstå var råvaran kommer ifrån. Big data är data-set som är för stora eller för komplexa föra att kunna fånga och behandla med hjälp av standardverktyg som exempelvis relationsdatabaser. Därför kommer du springa på plattformar som Hadoop och NoSQL.

Finns en strålande dokumentär om Big data, trailern kan du se nedan och hela dokumentären HÄR. Se den!

Big data har några olika karakteristika

  • Volym – Mängden data som ett företag tar emot på en dag
  • Velocity – datan måste vara tillgänglig så snabbt som möjligt. Gärna i realtid
  • Variety – data kan komma från massor av olika områden. Se nedan.

Man kan också tala om olika typer av data

  • Strukturerad – har en förutbestämd längd och kan sorteras och grupperas på ett enkelt sätt. Denna typ av data hittar du i rader och kolumner i databaser som din gamle fattige far har jobbat med. Typisk information som ligger i affärssystem och liknande.
  • Ostrukturerad – här finns inget färdigt format. Det här kan vara dokument, mail, kommentarer på Internet, videos, foton
  • Semistrukturerad – det här är data som passar i databasernas rader och kolumner, men har ytterligare attribut kopplat till sig. Strukturen finns liksom inbäddad i datan. JAVA script tror jag är ett exempel på detta.

Data mining
Året du föddes började jag jobba på ett företag i Stockholm där ”vi” bland annat jobbade med data mining.  Man kan säga att data mining är ett automatiserat sätt att finna mönster i data. Man kan hitta mönster i klassificering av data. Exempelvis; vilka kommer svara på ett erbjudande och vilka kommer inte. Det skulle också kunna dela data i olika kluster. ”De som brukar köpa det här, brukar också köpa det här..”. Jag vet inte, men kanske börjar data mining att bli omodernt….?

Machine Learning
Det här området är superhett. Mina kollegor har jobbat med detta inom energibranschen i allmänhet och fjärrvärme i synnerhet. Regel 1a är att lära sig och förstå algoritmer. Algoritmer är som instruktioner i hur man skall göra en uppgift. Som ett recept! En oberoende sekvens som har till uppgift att nå ett mål. Som att baka en kaka.

Kolla in

Linjära regressionsalgoritmer

K  nearest neighbour och K Means i videorna nedan.

Typer av analys
Descriptive analytics – Beskriver vad som har hänt. Här analyserar man historisk data. Din gamle far är inte så förtjust i denna typ av analys. Allt går för fort för att titta i backspegeln. Data kan vara från igår, från ett år sedan eller när företaget startade.

Predictive analytics – Det här handlar om att använda data för att förstå vad som kommer att hända i framtiden. Det finns olika sätt att jobba med predictive analytics.

  • Predictive models bygger såvitt jag förstår mycket på sannolikhetslära.
  • Descriptive models – I dessa clustrar man data och analyserar ofta relationer.
  • Decision models – Den här bygger på ”If X then do”

Oavsett är det viktigast att förstå regressionstekniker när man jobbar med Predictive analytics. Men det kan du redan mer om än jag…..

About Patrick Gilbert

Jag hjälper företag och människor att lyckas skapa exceptionella kundupplevelser, lönsamhet och effektivitet genom att utnyttja digitaliseringens möjligheter.

Leave a Reply

Your email address will not be published. Required fields are marked *