Elementer av Big Data finnes overalt. Det kan være når transportselskaper ønsker dynamiske prisningsmodeller, når forsikringsselskaper beregner forsikringspremie, når strømselskaper ønsker å estimere sannsynligheten for at du bytter strømleverandør (customer churn) eller når medieselskaper ønsker datadrevne beslutningsunderlag.
Hjemme i sofaen opplever vi også Big Data i praksis når Netflix foreslår vår neste film – eller når Google leverer oss skreddersydde annonser og Amazonrelaterte produkter.
Big Data kan forklares som et sett metoder og verktøy som hjelper oss å analysere, visualisere og forstå store datasett. I Norge samarbeider Knowit med store aktører innen transport, bank, finans og media når det gjelder store data, prediksjon og maskinlæring.
Hvordan få kontroll på prisingen?
Du har nok selv erfart hvordan flyselskapene opererer med dynamisk prising. I et samarbeid med NSB opplevde vi nylig at dynamisk prising for tog, er langt mer utfordrende enn i flybransjen. Når du tar tog, kan du gå av underveis. Derfor genererer prognose-arbeidet enorme datamengder. Prognosene involverer flere tusen kombinasjoner av reisestrekninger og gjerne flere hundre millioner observasjoner.
– Bruk av alle tilgjengelige datakilder og godt prognosearbeid rundt kapasitetsberegninger og prising, er rett vei å gå, sier forretningsrådgiver Bjørn Inge Stalsberg i NSB.
– Vår ambisjon er å kunne prise reiser dynamisk, og å oppnå en inntektsøkning med samme materiell og fremføring som i dag. En god prediksjon og algoritme for prising vil selvsagt være et betydelig konkurransefortrinn.
NSB hadde allerede en lovende prototype, som de sammen med Knowit har foredlet for å utvikle en algoritme de kan gå i markedet med. Foreløpig foreligger teoretiske modeller som ikke er testet i virkeligheten, men tilgjengelige data indikerer et godt resultat. Prediksjonsmodellen er gjort mer presis og gjennomarbeidet, og tilfører blant annet stor grad av nøyaktighet på de mest trafikkerte strekningene. Den kan også gjenspeile sesongvariasjoner og ulike kjøpsmønstre.
– Algoritmen Knowit har utviklet er et så spennende teknologisk nybrottsarbeid at Amazon ønsker å se på dette som et mulig referansecase. Vi stiller høye krav til både nøyaktighet, og Knowit har ved bruk av ledende maskinlærings-algoritmer levert et svært grundig stykke arbeid i forbindelse med prognosene. Vi opplever risikoen forbundet med investeringen som lav i øyeblikket, og planlegger nå å lansere dynamisk prising i forhold til etterspørsel i markedet i løpet av 2019, sier Stalsberg.
Algoritmen Knowit har utviklet er et så spennende teknologisk nybrottsarbeid at Amazon ønsker å benytte det som et mulig referanse-case.
Bjørn Inge Stalsberg, NSB
Tilpasser seg nye brukermønstre
Mediebedrifter bruker både kvalitative og kvantitative metoder for å skaffe innsikt fra interne og eksterne datakilder. En av de største kommersielle TV-kanalene i Norden samarbeidet med Knowit for å kunne basere sine valg på datadrevne beslutninger.
Mediekonsernet erfarte at seerne beveget seg bort fra lineært TV til strømming. Reduserte inntekter og økt risiko i forbindelse med innholdsproduksjon som ikke var tilpasset seernes behov, var utløsende for satsningen. Det meste av innholdet ble frem til da utviklet basert på historiske seertall, erfaring og magefølelse, og man etterlyste i større grad beslutninger basert på fakta og reell kundeinnsikt.
– Vi satte sammen et team med bransjeerfaring, data scientists og utviklere som sammen genererte eksakte problemformuleringer og deretter designet relevante algoritmer, sier Ingvar Larsson, CEO i Knowit Decision.
– Etter hvert fikk vår kunde dashboards som presenterte løpende hva både seerne så på, og gjennom hvilke kanaler de gjorde det. I tillegg eksponerte dashboardet andre parametere som kunne legges til grunn, for å produsere relevant innhold i relevant format.
Det nordiske tv-selskapet fikk nå oversikt og forståelse for hvordan forholdet mellom valg i produksjon påvirket kundelojalitet og valg av plattform. Prediksjoner viste også hvor mange seere de ville få på ulike konsepter, og hvilket innhold de skulle utvikle og lansere for å opprettholde høye seertall. Prediksjonene ga besparelser på mellom femti og hundre millioner kroner, samt økte inntekter som resultat av å optimalisere reklameplasseringene.
Prediksjon av kunde-churn
Mange tjenesteleverandører innen finans, energi og transport benytter konseptet kunde-churn. Det er en sannsynlighetsberegning om hvorvidt en kunde kommer til å forlate leverandøren eller ikke. For en bank kan det se slik ut når vi benytter Big Data og maskinlæring:
- Et stort datasett som inneholder detaljer per kunde. Dette kan være transaksjonshyppighet basert på tid, kjønn, alder, sivilstatus, lån og nedbetalingsdetaljer og tracking av klikk i nett- og mobilbank. Her setter kun fantasien grenser.
- Analytikere går gjennom datasettet, vasker det og danner en forståelse av hvilke korrelasjoner man bør være på utkikk etter og ikke.
- Algoritme velges med omhu og brukes til å konstruere en modell. Denne modellen vil være ansvarlig for å danne prediksjoner.
Ved hjelp av forholdsvis enkle grep kan en bank på denne måten beregne alle kunders sannsynlighet for å forlate banken på et gitt tidspunkt. Dette er kritisk informasjon som kan brukes for å kommunisere preventivt overfor disse kundene. Erfaring viser at churn-prediksjon kan gi betydelige besparelser; spesielt for selskaper hvor kostnader vedrørende ervervelse vekter tungt.
Big Data – for helt vanlige virksomheter
Big Data, AI, maskinlæring, autonomi, nevrale nettverk og churn-prediksjon er alle begreper som frister, men er fortsatt i stor grad begrenset til bruk på fancy PowerPoint-slides. Derfor har vi sett på hvordan vanlige nordiske virksomheter kan oppnå forretningsverdi. Med et overkommelig investeringsnivå.
... og her kommer den tekniske beskrivelsen
En metrikk er en enhet for å definere kvalitative og kvantitative mål, for eksempel rangering av hvor tiltrekkende et tilbud er på en skala fra en til ti. Her kan skalaen kalles en metrikk for hvor attraktive tilbudene er. For å konstruere Big Data-modeller involverer algoritmene store mengder matematikk og statistikk. En av de største utfordringene i dette fagfeltet er hvordan man oversetter tekniske metrikker av algoritmeytelse til gode mål og metrikker av business-verdi. Dette krever solid domenekunnskap, kombinert med god forståelse av datasettets potensiale, sammenlignet med dets genererte modell. Dette er den vanskelige biten; brobyggingen mellom to separate felt. Skal modellen ha høy treffsikkerhet på de utvalgte kundene, eller sørge for å treffe flest mulig kunder som sannsynligvis vil forlate banken? Altså, høyest presisjon, eller andel kunder som det er sannsynlig vil forlate banken? Dette er metrikker som er avhengige av hverandre – øker du den ene, minker den andre. Begge er populære innen ytelsesvurdering av maskinlæringsalgoritmer, men hvordan oversetter man dette til økonomiske målsetninger?
Vi fikk nylig bryne oss på en slik problemstilling da vi hjalp en bank med å predikere om en kunde ønsker å forlate banken eller ikke, for så å bruke målrettede tiltak mot de kundesegmentene som ble avdekket.
Tverrfaglig samarbeid nødvendig
Ofte går målrettede tiltak ut på å ringe kunden eller sende tilpassede tilbud. I ovennevnte eksempel vil det kanskje oppfattes å være bedre å gå for høy presisjon.
Hva hvis selskapet i realiteten tjener mer på å fokusere på et kundesegment som har lavere sannsynlighet for kundefrafall? Dette viste seg også å være tilfelle i eksempelet over, men det tok lang tid før det ble avdekket.
Et avgjørende aspekt i en pipeline (prosedyre eller protokoll) er å bevare den menneskelige dimensjonen; aldri før har kundeopplevelse og verdi for brukeren stått så høyt som i dag. Domeneinnsikt må kartlegges både hos forbruker og tilbyder, og gjennom et samarbeid må det utarbeides en felles forståelse for behov og ønsker. Dette er et sentralt steg i enhver pipeline.
For det er ikke modellen alene, eller algoritmen, eller datasettet, som utgjør verdi for et selskap. Det er pipelinen, metoden, strategien. Med en god gjennomtenkt pipeline satt sammen i et tverrfaglig samarbeid mellom data scientists, forretningsutviklere og kundens kunnskap om økonomiske mål og KPI’er, kan verdiskapingen bli betydelig.
Den uslepne diamanten
Ikke sjelden avdekker man stort potensiale av data som har hopet seg opp på bakrommet. Gode prosesser i slike prosjekter kan gi gode resultater. I noen tilfeller vil ikke datasettene ha potensiale til å føre til store inntjeninger, men selv i slike tilfeller vil man gjennom en god ‘pipeline’ avdekke behov og muligheter for å sette opp systemer som passivt utarbeider gode datasett over tid. Dette er en lavkostnads-investering vi ser stadig flere kunder finner verdifullt.
En god pipeline øker sjansene for at sluttproduktet harmonerer med ambisjonen. Ideelt sett vil man konstruere en modell som optimaliseres mot metrikker som tar i betraktning hvilket domene og hvilken verdi man er ute etter. Og i en god pipeline er det helt sentralt at kunden står i sentrum. Behandler man bare kundedata som tall på et papir, mister man empatien og relevansen som kreves i et vellykket Big Data-prosjekt.