Slik utnytter du dataene dine og skaper verdi

01/08/23

Lars Meinich Andersen, partner for data og analyse i PwC

– Kompetanse handler ikke bare om å kunne lage noen figurer eller tabeller i Excel, men krever en helhetlig forståelse for hvordan data skal velges ut og behandles for analyse. Åtte av ti norske bedrifter moderniserer dataplattformen sin for å få tilgang til maskinlæring, sier Lars Meinich Andersen, partner for data og analyse i PwC.

– For å utnytte maskinlæring og kunstig intelligens til det fulle er du avhengig av gode data som er strukturerte og tilgjengelige. Da kan du lettere finne de gode investeringsmulighetene, sier partner for data og analyse i PwC, Lars Meinich Andersen. 

Hva er data governance? 

Det handler om å ha ansvar for og kontroll over forvaltningen av data. God data governance sikrer at data av ønsket kvalitet kan brukes effektivt for å oppnå virksomhetens mål. Dette gjøres bl.a. ved å etablere prinsipper og retningslinjer for tilgang og bruk av data, standarder for datakvalitet, samt å etablere tydelig ansvar og eierskap. Avhengig av virksomhetens størrelse, datamengde og modenhet innen data og analyse vil det være ulike behov for innretning av en data governance funksjon. 

Kontakt meg for hjelp med data governance

Kunne tapt milliarder grunnet dårlig data governance

Et eksempel: I starten av 2023 måtte både Spanias samferdselsminister og sjefen for det statlige jernbaneselskapet gå av etter at det ble klart at det ble bestilt tog som er for brede for tunnelene. Tabben ble heldigvis oppdaget før noen av togene ble bygget, men kunne resultert i enorme økonomiske konsekvenser på flere milliarder kroner. Dette kunne vært unngått ved å ha god datastyring.

PwCs dataplattformundersøkelse viser at:

  • Halvparten (53%) av de 102 bedriftene i undersøkelsen har en tydelig datastrategi
  • Microsoft Azure er markedsledende når det kommer til valg av skyleverandør, mens Google Cloud Platform og Amazon Web Services står omtrent likt blant norske virksomheter
  • Over halvparten (57%) ønsket å modernisere dataplattformen sin blant annet for å få tilgang til maskinlæringsplattformer.
Mars Climate Orbiter under en test

Her blir Mars Climate Orbiter testet. Romsonden skulle nå Mars i september 1999, men det skjedde aldri. Foto: NASA

Et annet eksempel på hvor viktig data governance er, er da NASA i 1998 skjøt opp romfartøyet Mars Climate Orbiter. De skulle undersøke klima, atmosfære og overflateendringer på Mars, men romfartøyet forsvant på mystisk vis. Feilen viste seg å være en enkel, men kritisk misforståelse i bruk av måleenheter. Et eksternt team brukte nemlig pund per sekund, mens NASAs team brukte newton per sekund. Dette resulterte i at beregnet posisjon på satellitten ble feil, og den krasjet sannsynligvis i atmosfæren eller ble slynget tilbake i rommet. I ettertid viste havariundersøkelsen at minst to navigatører hadde uttrykt bekymring om avviket, men at disse ikke hadde blitt fulgt opp.

Kræsjet kunne vært unngått med data governance 

Data governance tar tak i behovet for å vite hvor data kommer fra, hva de betyr og hvordan de skal tolkes. Data governance innebærer også prosesser og rutiner for å jobbe med strukturerte tiltak for å løpende korrigere feil i viktige data. Hadde NASA hatt kontroll på dette, ville sannsynligvis romfartøyet ikke ha kræsjet.

Dette må på plass for en sunn data governance i din bedrift

1. Kompetanse og analysemiljø

Analysekompetanse er helt sentralt for å kunne skape verdi av store datamengder. Kompetanse handler ikke bare om å kunne lage noen figurer eller tabeller i Excel, men krever en helhetlig forståelse for hvordan data skal velges ut og behandles for analyse. I mange virksomheter lages analyser av den personen som har tid og mulighet til å gjøre det. Selv om analysene gjøres etter beste evne, risikerer virksomheten å få analyser av svært ulik kvalitet. 

Det kan derfor være lurt å etablere et analysemiljø i virksomheten. Dette kan både være en dedikert avdeling eller et nettverk av analytikere på tvers av virksomheten. Viktig er at alle som bruker data til analyse har tilgang til samme informasjon om hvordan data skal håndteres og mulighet til sparring med andre analytikere. Analysekompetanse er svært ettertraktet i dagens arbeidsmarked. Et analysemiljø er derfor også viktig for å skape trivsel og faglig utvikling for analytikerne, noe som er sentralt hvis man ønsker å beholde faglig dyktige folk i virksomheten. 

2. Skap datadrevet kultur

En egenskap som kjennetegner virksomhetene som lykkes best med å bruke data, er at de har en datadrevet kultur. Det vil si at data er en naturlig del av enhver beslutning som tas i virksomheten. For å oppnå dette er det viktig å øke bevisstheten og synligheten av data og analyse i hele virksomheten, samt å sikre god forankring i ledelsen som må prioritere arbeid med data og analyse. 

3. Start med en modenhetsanalyse

Det finnes ikke én vei til mål som er gyldig for alle. Først må vi forstå hvilke utfordringer virksomheten har i dag. Hva slags visjon og ambisjonsnivå har  virksomheten for bruk av dataene sine? PwC har utviklet en modenhetsmodell med flere dimensjoner: Data, organisasjon, ledelse, teknologi og agilitet. Basert på resultatet kan vi prioritere fokusområder som gir mest effekt for kunden og anbefale relevante tiltak for å øke verdiskapingen av data i virksomheten. 

Et eksempel er valg av tiltak innen data governance som vil variere avhengig av virksomhetens modenhet. Ved lav modenhet er det sentralt å etablere grunnleggende governance som sørger for at datasikkerhet og personvern ivaretas samt at det etableres en oversikt over dataene. Om dette allerede er på plass, kan det jobbes med opplæring i organisasjonen samt fordeling av ansvar og eierskap for å forankre data governance prosesser på tvers av virksomheten. For de mest modne kundene jobber vi med å desentralisere eierskapet samt å gi kundene virkemidlene for å kunne redusere “time-to-market” for nye analyser og skalere data governance funksjonen i takt med økt modenhet innen data og analyse.

Modenhetsmodell for data governance

Hva er big data?

Utfordringer med datakvalitet er ikke et nytt fenomen, og med store og varierte datasett («Big Data»), vil omfanget av utfordringene øke i minst like stor grad som datavolumet. Big data har de siste årene gått fra å være en hype til å bli en permanent komponent i virksomhetsarkitekturen hos svært mange organisasjoner.

Big data lagres i en data lake. En data lake er systemer som lagrer data uten en predefinert struktur. Eksempler på slike systemer er lagringstjenester som Apache Hadoop, Microsoft Azure Data Lake, Amazon S3 og Google Cloud Storage. En data lake lagrer som regel virksomhetens rådata, men kan også lagre de samme datasettene i bearbeidet form. 

Dårlige data oppdages ikke alltid før analysene utarbeides

Lagringen av big data i seg selv gir ingen verdi. Det er først når man klarer å analysere dataene og lage ny innsikt at verdien genereres. Analyse, modellering, datavask og strukturering foregår først når data skal brukes til et bestemt formål. Tilnærmingen med å lagre data uten at de er bearbeidet gir muligheter for å oppbevare data uten stor innsats i forkant, og uten at bruksområdet for datasettet er tydelig analysert. I etterkant kan Data Scientists analysere datasettene for å utvikle nye og verdiskapende bruksområder.

Dårlige data oppdages dermed ikke nødvendigvis før analysene skal utarbeides. Men man kan også oppdage at det man trodde var dårlige data faktisk inneholder signaler som er nyttige eller verdifulle. Når analysene utarbeides kan ulike analytikere i forskjellige prosjekter utvikle ulike måter å behandle samme datasett på til samme formål. Det er derfor nødvendig å ha verktøyer som sentraliserer håndteringen av metadata så man unngår dobbeltarbeid og overflødige datasett.

Illustrasjon av servere

Lagring av data i seg selv gir ingen verdi. Verdiene genereres først når dataene analyseres. Illustrasjon: Adobe Stock

Hva er gode data, og hvordan oppstår dårlig datakvalitet? 

Et eksempel på god data er ansattes kontonummer som registreres i lønnssystemet. De færreste er registrert med feil kontonummer, både fordi det er lett å oppdage feilen når lønnsutbetalingen uteblir, men også fordi man har gode insentiver til å legge inn riktig verdi. Når man skal sammenstille data fra ulike kilder og bruke disse i analyser, er ikke nødvendigvis dataene registrert og kvalitetssikret for bruk i de ulike analysene som skal utarbeides. Et eksempel på dette er arbeidstakers postadresse. Adressen er høyst sannsynlig riktig i en periode like etter at den blir registrert, men ikke nødvendigvis senere.

Datakvalitet vurderes langs et sett dimensjoner. En vanlig inndeling av dimensjonene er:

  • Kompletthet: All delene av dataene er samlet inn. Uten tilstrekkelig kompletthet, vil de andre dimensjonene ikke nødvendigvis være relevante.

  • Tilgjengelighet: Data er tilgjengelig i den formen som forventes. Uten riktig format vil data ikke være gyldig eller ikke relatere seg til andre data som forventet.

  • Validitet: Verdiene er innenfor de lovlige verdiene som forventes i datasettet. Uten validitet vil dataene per definisjon ikke være riktig.

  • Integritet: Ulike deler av datasettet forholder seg til hverandre på måter som er forventet. Uten integritet så kan dataene ikke brukes på forutsatt måte.

  • Konsistens: Data følger forventede mønstre. Uten konsistens, må det følges opp hvorfor mønsteret ikke følges. Skyldes det feil forventninger til mønsteret eller feil i dataene?

Det er hovedsaklig 3 årsaker til dårlige data: 

  • Prosesser som henter inn data fra eksterne kilder.

  • Prosesser som medfører avtakende kvalitet.

  • Prosesser som endrer data.

Eksterne kilder

Oppkjøp og fusjoner med etterfølgende systemkonsolideringer, manuell inntasting av data, og datautveksling i grensesnitt mellom systemer er alle eksempler på manuelle eller automatiske prosesser som kan forårsake dårlig datakvalitet når man henter inn data fra eksterne kilder. 

Avtakende kvalitet

Data kan bli upresise over tid også uten at det skjer noen fysiske endringer. Dette kan skje når kompetente medarbeidere slutter, når systemer oppgraderes og når endringer som skjer i virkeligheten ikke blir registrert i dataene. Verdiene forblir altså uendret, men presisjonen går likevel ned. Dette kan for eksempel skje i dagligvarehandelen når ulike strekkoder gjenbrukes for ulike fysiske varer eller ulike distribusjonspakker. Strekkoden vil kunne være unik i en butikk eller i et avgrenset geografisk område, men ikke globalt. Når data analyseres globalt blir det vanskelig eller umulig å skille mellom unike varer. 

Endring av data

Datavaskejobber, sletting av data og berikelse av data kan forårsake dårlig datakvalitet. Men hvordan? Her er svarene mange og ulike, men en fellesnevner er menneskelig involvering. Prosessering av data utføres med verktøyer som kan ha feil i sin kode, eller feil kan introduseres i koden for prosesseringen av data. 

Et eksempel på en aktuell feilkilde for berikelse av sensordata, som strømmer hurtig inn i en data lake eller til et datavarehus, er timingproblematikk. Datastrømmer i sanntid eller nær-sanntid krever små mengder og hyppig frekvens og overføres gjerne i form av en identifikator, et tidsstempel og en verdi. Verdien er målingen fra sensoren, mens identifikatoren brukes til å slå opp informasjon om konteksten, altså om verdien er en temperatur, en hastighet eller en tilstand, og hvor målingen fysisk er gjort. Konteksten er helt nødvendig informasjon for å kunne utføre analyse av dataene. Siden datamengden som gir informasjon om konteksten er langt større enn måleverdien og mindre skiftende over tid, overføres disse dataene sjeldnere fra kildesystemet. Informasjon om konteksten må slås opp og legges til målingen i etterkant. Tidspunktet for når dette gjøres vil kunne påvirke datakvaliteten. Dess tidligere oppslaget mellom måleverdien og konteksten gjøres, dess høyere risiko for at konteksten inneholder feil. Slike feil kan oppstå som følge av midlertidig feil kontekstinformasjon i kildesystemet, tekniske feil i dataoverføringen, eller forsinkelser i dataoverføringen. Verdien av tidlig tilgang til informasjon må altså balanseres med risikoen for og konsekvensen av feil.

Illustrasjon av datavisualisering

Hvor man før måtte bruke manuelle prosesser, kan man nå bruke maskinlæring for å scanne, profilere og katalogisere datasett. Illustrasjon: Adobe Stock

Grunnkomponentene i data governance er roller og ansvarsfordeling, prosesser og regelsett for data, hvor aktiviteter kan være å:

  • Bygge en sentralisert driftsmodell, skalerbar plattform og organisasjonsmessig rammeverk for utvikling og bruk av data som kritisk eiendel.

  • Etablere eierskap og ansvarsfordeling for datarelaterte beslutninger.

  • Definere og implementere regler for håndtering av livssyklusen for data på virksomhetsnivå, forretningsområdenivå og forretningsprosessnivå.

  • Etablere standardiserte definisjoner, regler og prosedyrer for behandling av data på tvers av virksomhetens forretningsområder.

  • Opprette en data governance-organisasjon som en integrert del av virksomhetens digitaliseringsprogram.

  • Utvikle standarder og regler og sikre at disse etterleves i virksomheten.

  • Styring av virksomhetens dataarkitektur ved å etablere standarder for innhenting, arkivering og prosessering av data.

Historisk ble Data Governance kun for et tiår siden ansett som en ny og fremvoksende disiplin. Ifølge Dataversity er det økende forståelse for verdien av å kvalitetssikre data. 90 % av selskapene i undersøkelsen Trends in Data Governance and Data Stewardship rapporterte om at data governance har større betydning i dag enn for 10 år siden.

Innføring og vedlikehold av datakatalogen

Med store datavolum er det utfordrende å overvåke og forvalte alle datakilder. En datakatalog kan hjelpe til med dette. En datakatalog er et verktøy som katalogiserer alle data som eksisterer i virksomheten. Liksom bibliotekarens register over alle bøker i et bibliotek. Datakatalogen viser hva som finnes, hvor data ligger lagret, hvilke systemer de kom fra, hvordan de er strukturert, hvordan de har blitt prosessert og foredlet, når de sist ble endret, hvem som har brukt dataene, hvilken kvalitet de har, hvilken sikkerhetsgradering de har, hva dataene betyr, med mer. Informasjonen blir hentet automatisk inn via metadata fra verktøyene som brukes i databehandlingen.

Hvor man før måtte bruke manuelle prosesser, kan man nå bruke maskinlæring for å scanne, profilere og katalogisere nye datasett som skal inn i katalogen. Det gjør det langt enklere å forvalte store datamengder i en Data Lake uten modellering i forkant. 

Selve katalogiseringen og søkefunksjonalitet i katalogen er likevel kun ett av flere bruksområder. I tillegg vil en datakatalog kunne støtte samarbeid og kunnskapsdeling om datasett gjennom funksjoner som bygger på de samme prinsippene som sosiale medier. Opprettholdelsen av datakvaliteten kan håndheves gjennom scoring og kommentarfunksjoner i verktøyet. Dette gjør det mulig å dele data, forretningsregler og -logikk, og ikke minst finne data som ligger lagret på ulike steder. Dette gir igjen nye brukere oversikt over, og tillit til datasettene.

Flere plattformer kan gjøre arkitekturen uoversiktlig

Også fra et arkitekturperspektiv vil big data kunne skape utfordringer som påvirker evnen til å utføre data governance. Med oppstart av nye prosjekter vil virksomheter etter behov få flere plattformer som kan benyttes for analytisk bruk av data. Dess flere nye prosjekter, og dess flere applikasjoner som er avhengig av data fra de ulike plattformene: Jo større risiko for at det utvikler seg en uoversiktlig arkitektur som blir gradvis tyngre å videreutvikle over tid.

Begrepsforklaring

Big Data

Begrep som brukes om datasett som er for store og for komplekse til å håndtere ved hjelp av tradisjonelle teknologier for databehandling. Gartner (2012) definerte big data som: Informasjon som kjennetegnes ved høyt volum, høy hastighet og/eller høy grad av variasjon, og som krever nye metoder for prosessering og tilrettelegging for å kunne fungere som grunnlag for forbedrede beslutninger, økt innsikt og optimalisering av prosesser. I dagligtale brukes ofte begrepet noe unøyaktig for å omtale både datasett, teknologiene som brukes for å behandle datasettene, og hele økosystemet knyttet til hvordan datasettene brukes for å skape nye tjenester.

De opprinnelige V-ene brukt for å definere Big Data (Gartner, 2012):

  • Volume: Big data kjennetegnes av data i størrelsesorden terra- og petabyte, med tidsserier som har flere hundre milliarder observasjoner
  • Variety: Data kommer i ulike strukturer, fra strukturerte data (databaser), til semi-strukturerte (XML, JSON) og ustrukturerte data (multimedia, tekst)
  • Velocity: Hastigheten på innkommende data er i nær sanntid eller sanntid, i motsetning til tradisjonelle batch-overføringer av data med tidsintervaller fra minutter til døgn

Data lake

Lagringssted for strukturert, ustrukturert og semi-strukturerte data som lagres i et distribuert filsystem. Det distribuerte filsystemet gjør det mulig å skalere behandlingen av data for lagring og prosessering av ekstremt store datamengder, i tillegg til at det sørger for redundans som sikrer dataene mot feil i maskinvare. Eksempler på teknologier som faller inn under begrepet er Apache Hadoop (HDFS), Microsoft Azure Data Lake, Amazon S3 og Google Cloud Storage. 

Data Governance

 

Definerer menneskene, prosessene, rammeverket og organisasjonen som er nødvendig for å sikre at en organisasjons informasjonseiendeler (data og metadata) blir håndtert på en proaktiv, formell og effektiv måte gjennom hele virksomheten, slik at informasjonseiendelene blir pålitelige, meningsfylte, nøyaktige og underlagt et klart definert forvaltningsansvar.

 

Metadata

Strukturert informasjon som beskriver, forklarer, gjenfinner eller på annen måte gjør det enklere å hente, bruke eller forvalte data. Metadata gir oss informasjon som gjør det mulig å forstå data (eksempelvis dokumenter, bilder, strukturerte datasett), konsepter (klassifiseringsskjema), og virkelige objekter (mennesker, organisasjoner, steder, produkter). 

 

 

Kunstig intelligens

 

En robot, maskin eller et program som gjør ting som man oppfatter som intelligent.

 

Maskinlæring

 

Teknikker som gjenkjenner mønster i data som kan gi innsikt som kan brukes til å gjøre prediksjoner. Maskinlæring er en metode for å få maskiner eller applikasjoner til å gjøre smarte ting.

Data lineage

 

Beskrivelser av hvor data har sin opprinnelse, hvordan de har flyttet på seg, karakteristika og kvalitet. Data lineage er mer enn teknisk sporing av data i databaser. Det inneholder også en referanse til hvilke forretningsprosesser som har påvirket dataene, og svarer på spørsmål som hvem, hva, hvor, hvorfor og hvordan data har blitt påvirket. 

Master data management

En disiplin der forretningsressurser og tekniske ressurser jobber sammen for å sikre konformitet, presisjon, forvaltning, semantisk konsistens og ansvarsfordeling av virksomhetens offisielle, delte master data-eiendeler. Er en underdisiplin av data governance.

Hadoop

En open source-programvareplattform som fordeler lagring og prosessering av svært store datasett på mange datamaskiner for å skalere lagring, prosessering og tilgang til data. Hadoop benyttes av flere av de største datadrevne selskapene i verden som Facebook, LinkedIn, eBay, Spotify og Yahoo. 

Grafdatabase

En generisk datastruktur som er fundamentalt forskjellig fra relasjonsdatabaser. Består av en grafstruktur som angir relasjoner mellom objekter (noder) med relasjoner og attributter. En graf lagrer data om objekter i noder og knytter nodene sammen med relasjoner. Styrken med grafdatabaser er at de har overlegen ytelse når man utfører spørringer om relasjoner mellom noder.

 

Lars Meinich Andersen

Partner | Data & Analytics, Oslo, PwC Norway

916 62 243

Kontakt meg