Fem enkle tips for bedre datavisualiseringer

Etter hvert som antallet observasjoner i et datasett øker, blir det raskt overveldende å forstå essensen av dataene ved å inspisere dem i et tabellformat. I slike tilfeller er det ofte effektivt å anvende teknikker for datavisualisering.

Datavisualisering handler om å formidle informasjon og innsikt fra data, typisk ved hjelp av grafer, kart og diagrammer. Det er vanlig å skille mellom utforskende- og beskrivende datavisualisering, hvor den utforskende datavisualiseringen typisk finner sted i innledende faser av et analyseprosjekt.

Her søker databehandleren selv å identifisere interessante mønster og opparbeide seg innsikt i dataene. Når denne innsikten omsider skal kommuniseres til et publikum, er det hensiktsmessig å benytte seg av god praksis for beskrivende datavisualisering. Gode visualiseringer gjør det mindre kognitivt krevende å prosessere innsikten fra dataene, og ved hjelp av smart design kan man legge til rette for at innsikten kan formidles svært effektivt. På den annen side er det mange fallgruver som kan føre til at visualiseringer blir misvisende, tunge å prosessere, eller simpelthen ser rotete og uprofesjonelle ut. I det følgende vil vi presentere fem tips som vil gjøre deg til en bedre data-kommunikator. Tipsene retter seg i hovedsak mot den beskrivende datavisualiseringen.

Alle tipsene illustreres ved hjelp av før-etter-eksempler, som har til hensikt å tydeliggjøre effekten av de relevante inngrepene under hvert gjeldende tema.

1. Se etter visuelle elementer som kan fjernes

Standardinnstillingene i visualiseringsverktøy som Excel etterlater oss ofte med flere unødvendige visuelle elementer som gjør det vanskeligere for publikum å fordøye det egentlige budskapet i visualiseringen. For eksempel kan dette være framtredende marger, rutenett, og data- og akseetiketter som får visualiseringen til å fremstå mer komplisert enn den egentlig er. Videre kan de virke forstyrrende, og trekke publikumets fokus mot feil aspekter av visualiseringen. En annen vanlig standardinnstilling er farge-/symbolforklaringen som forteller hvordan man skal skille mellom ulike kategorier i visualiseringen. Denne er ofte posisjonert i bunn av grafen, noe som medfører at man hele tiden må flytte blikket mellom forklaringsetikettene og selve grafen. Dette tar opp kognitiv kapasitet, og gjør det vanskeligere å nå gjennom med det faktiske budskapet.

Disse første tipsene illustreres ved hjelp av et før-og-etter eksempel, vist i figur 1 og 2. Grafene viser befolkningsveksten i Skandinavia, i perioden 1960-2020.

Før:

Figur 1: Før eliminering av unødvendige visuelle elementer

Etter:

Figur 2: Etter eliminering av unødvendige visuelle elementer

Datakilde: The World Bank, 2020

I dette før-og-etter-eksempelet er det flere unødvendige visuelle elementer som er strippet bort, som med ett gjør det enklere å fordøye budskapet i grafen. For det første er fargen på linjene fjernet, ettersom man enkelt klarer å skille mellom de ulike linjene uten hjelp av fargekoding. I tillegg er fargeforklaringen fjernet, og linjene er i stedet merket direkte med hvilket land de representerer. Dette gjør at man ikke lenger behøver å flytte blikket mellom fargeforklaringen og linjene for å se hva som representerer hvilket land. Videre er det fjernet mye støy fra diagramaksene. På X-aksen er intervallet mellom akseetikettene økt fra 2 til 10 år, i tillegg til at aksetittelen er fjernet, da det fremstår intuitivt nok at dette er en tidsserie. På Y-aksen er populasjonen endret fra å være oppgitt i absolutte tall, til å være oppgitt i antall millioner. Med dette eliminerer man mye repetitiv informasjon, samt at man unngår å måtte «telle» nuller for å se verdien på Y-aksen. Videre er bakgrunnslinjene gjort mindre distinkte ved hjelp av en lysere gråfarge. Til slutt er diagramtittelen skjøvet til venstre, og Y-aksetittelen skjøvet oppover, noe som gir en ryddigere innramming av diagrammet.

2. Gjennomtenkt bruk av farger

Fargebruk er en av de viktigste faktorene å tenke gjennom når det gjelder design av grafer og diagrammer. Farger kan på en effektiv måte brukes til å rette publikums oppmerksomhet mot de aspektene man ønsker å sette søkelyset på. Samtidig kan overdreven fargebruk gjøre at signaleffekten drukner i fargehavet. Det er derfor viktig å være selektiv i bruken av farger, og ha i bakhodet at «grey is your friend». De mindre viktige aspektene av visualiseringen kan altså farges i grått for å ta mindre oppmerksomhet. Eventuelt kan de tones ned ved å legge inn et hvitskjær i fargen, noe som gjør at disse datapunktene får en mindre distinkt fremtoning. Farge kan også benyttes som et virkemiddel for å skape en assosiasjon til dataens karakteristikk. For eksempel kan man benytte en fargeskala som går fra blå til rød for å visualisere temperaturendringer, eller fra brun til grønn for å visualisere forskjeller i ulike nasjoner sin energimiks. Til slutt er det viktig å huske at omtrent 10% av verdens befolkning har en eller annen form for fargeblindhet, noe som særlig påvirker hvordan samspillet mellom rød- og grønnfarger oppleves i datavisualiseringer.

Et før-og-etter eksempel for gjennomtenkt fargebruk er illustrert i figur 3 og 4. Grafene viser vannstanden ved en målestasjon i Akerselva i perioden 11.mars 2022–11.mai 2022, samt referansemålinger fra samme periode i årene 1987-2016.

Før:

Figur 3: Før gjennomtenkt bruk av farger

Etter:

Figur 4: Etter gjennomtenkt bruk av farger

Datakilde: NVE, 2022

Her ser vi et eksempel på hvordan farger er benyttet på en mer gjennomtenkt og selektiv måte enn det standardinnstillingene i Excel etterlater oss med. I før-eksempelet har alle linjene omtrent like sterke farger, og det er derfor ingen som skiller seg ut i noe større grad enn andre. Dette er uheldig, da de tre øverste linjene representerer medianen og spredningsmål (25. og 75. persentil) fra referanseperioden, som kun har til hensikt å tilføre en kontekst å se de nyeste observasjonene i lys av. I etter-eksempelet er de historiske dataene fra referanseperioden farget i en mer subtil gråfarge. Dette skaper en intuitiv forståelse av at disse linjene er inkludert for å danne et sammenligningsgrunnlag. At linjene har en felles gråfarge underbygger at de til sammen utgjør en «trendkanal».

I etter-eksempelet har de nyeste observasjonene en distinkt rødfarge, som med ett gjør at primærfokuset rettes mot dette aspektet av visualiseringen. Dette forsterkes av at den røde linjen har en litt tykkere strek enn referanseperioden. Rødfargen signaliserer også at de nyeste observasjonene er av negativ art, noe som fremkommer av det markante negative avviket fra trendkanalen. Budskapet i etter-eksempelet er også gjort enklere å fordøye ved hjelp av å strippe bort unødvendige visuelle elementer, som forklart i del 1 av artikkelen.

3. Bruk av tekst

Når man skal kommunisere ved bruk av datavisualisering kan man fort ta det for gitt at dataene selv forteller alt som er verdt å fortelle. Det kan være lett å glemme at publikum ofte ikke har den samme dybdeinnsikten som du som databehandler selv har, og det kan derfor være lurt å assistere publikum ved bruk av tekst. Gode overskrifter og aksetitler kan enkelt gi publikum en bedre forståelse av kontekst, og hva det er de ser på. Selektiv bruk av dataetiketter kan brukes til å sette søkelys på viktige datapunkter, og tekstbokser (gjerne i kombinasjon med bruk av farger) kan benyttes til å sørge for at hovedpoengene i grafen ikke blir oversett, eller for å unngå at publikum sitter igjen med masse spørsmål.

I før-etter-eksempelet i figur 5 og 6 illustreres bruken av tekstbokser for å forklare de mest markante svingningene i linjediagrammet. Grafene viser utviklingen i antall permitteringer i Norge i perioden januar 2019 – april 2022.

Før:

Figur 5: Før bruk av tekst.

Etter:

Figur 6: Etter bruk av tekst

Datakilde: NAV, 2022 og Regjeringen, 2022

I før-eksempelet etterlates publikum til å selv reflektere rundt hva som har skjedd i periodene med de mest markante svingningene i grafen. I etter-eksempelet assisteres publikum med tekstbokser som tidfester noen av tiltakene den norske regjeringen innførte gjennom koronapandemien.

Tekstboksene er fargekodet med oransje og blått, for tiltak som henholdsvis er nærliggende å tro at kan ha bidratt til en økning/reduksjon i antall permitteringer. Ofte benyttes rødt og grønt for å fargekode positive og negative hendelser, men dette kommer med den ulempe at det blir vanskelig å skille for de som er fargeblinde. Med dette i bakhodet er oransje og blått et godt substitutt, som også kan sies å ha en relativt intuitiv tolkning. Til slutt skal det nevnes at i dette etter-eksempelet er det relativt mange tekstbokser, som gjør at det kan være noe vanskelig å fordøye all informasjonen. Dersom man skulle vist denne visualiseringen i en PowerPoint-presentasjon hadde det vært hensiktsmessig å benytte animasjonseffekter for å presentere én og én tekstboks, og slik få stykket opp narrativet.

4. Call-to-action

Når man kommuniserer noe ved bruk av data bør man alltid prøve å sette fingeren på hva som er det praktiske formålet med visualiseringen. Det er lett å tenke at visualiseringen i seg selv vil få publikum til å agere slik du håper, eller at den automatisk vil få de til å trekke de samme konklusjonene som det du gjør. Dog er det ofte slik at publikum ikke har den samme dybdekunnskapen som det du som databehandler har. For å sikre at budskapet når frem kan det være hensiktsmessig å formulere en «call-to-action»-setning, som enten oppfordrer til å ta grep på bakgrunn av det visualiseringen illustrerer, eller som understreker visualiseringens hovedbudskap.

For å eksemplifisere dette tipset kan vi foreta en kjapp endring med utgangspunkt i figur 4, visualiseringen omhandlende vannstanden i Akerselva.

Figur 7: Oppdatert versjon av figur 4, med diagramtittel som understreker hovedbudskapet og gir en ”call-to-action”.

Datakilde: NVE, 2022

I stedet for at diagramtittelen kun benyttes til å redegjøre for hva som vises i diagrammet, benyttes den nå på en mer engasjerende måte til å understreke hovedbudskapet, samt å inkludere en ”call-to-action” i undertittelen. Den deskriptive tittelen fra tidligere er i stedet lagt som en figurtekst som gir publikum den nødvendige bakgrunnsinformasjonen. Det er viktig å huske på at en engasjerende tittel ikke skal gå på bekostning av nødvendig kontekst og bakgrunnsinformasjon. For å aktivt koble hovedbudskapet til riktig aspekt av visualiseringen, er ordene ”svært lav” satt til samme farge som linjen i diagrammet som belyser dette.

5. Det intuitive budskapet

Data kan visualiseres på flerfoldige måter, og valget av hvilken type graf som er mest hensiktsmessig avhenger av hva man ønsker å formidle. En vanlig fallgruve er å overkomplisere visualiseringer i et forsøk på å inkludere alle interessante aspekter i en og samme graf. Dette vil ofte komplisere budskapet, og kan resultere i at publikum ikke klarer å fordøye noe som helst av det. Det kan derfor være hensiktsmessig å dekomponere budskapet ved å benytte flere visualiseringer til å kommunisere hver sin side av saken.

Hvordan grafer designes med hensyn til fargebruk og andre signaleffekter bør også tenkes gjennom i lys av budskapet man ønsker å formidle.

Et første eksempel på hvordan valg av visualiseringstype og design kan bestemmes for å gjøre budskapet mer tilgjengelig er vist i figur 8 og 9. Diagrammet viser svarfordelingen blant et utvalg norske bedrifter spurt om hvor enkelt de synes det er å vurdere om leverandørene sine opererer hvitt.

Før:

Figur 8: Diagram som ikke aktivt assisterer publikum i å prosessere budskapet.

Etter:

Figur 9: Diagram som aktivt bruker visuelle virkemidler til å spisse budskapet.

Datakilde: Skatteetaten, 2020

I dette før-etter-eksempelet er det først byttet om på hvilken variabel som er representert ved hjelp av farger, og hvilken som er plassert langs X-aksen. Årsaken til dette er at årstall gjerne er mer intuitivt å lese av langs en akse enn ved hjelp av fargekoding. Svaralternativene i dette eksempelet er derimot godt egnet for fargekoding, da eksempelvis kategorien «Enkelt» kan kodes til en positiv farge som grønn. I tillegg er visualiseringen endret fra et søylediagram til et stablet søylediagram, siden svarfrekvensene for hvert år uansett summerer til 100%. Slik blir det enklere å prosessere at dette er de svaralternativene man hadde å velge blant, og hvordan svarfrekvensen fordeler seg per år. I etter-eksempelet er det valgt å rette fokuset mot hvordan svarfrekvensen for alternativet «Enkelt» har økt fra år til år. Dette underbygges av at de øvrige kategoriene er farget i grått, samtidig som nøkkelordet «enkelt» i diagramtittelen kobles direkte til dette aspektet av visualiseringen ved hjelp av fargebruk.

Et siste før-etter-eksempel som illustrerer hvordan effektivt graf-design avhenger av innfallsvinkel og budskap er vist i figur 10, 11a og 11b.

Før:

Figur 10: Diagram som ikke aktivt assisterer publikum i å prosessere budskapet.

Etter:

Figur 11a: Diagram som aktivt bruker visuelle virkemidler til å spisse budskapet.

Etter - alternativ B:

Figur 11b: Diagram som aktivt bruker visuelle virkemidler til å spisse budskapet.

Datakilde: Nordiske Mediedager, 2022

I før-eksempelet mottar publikum lite assistanse i å dekode budskapet, og siden alle kategorier har like fremtredende farger kan det oppleves kognitivt krevende å fordøye informasjonen. I etter-eksemplene serveres publikum i større grad et narrativ, hvor budskapet er mer spisset ved at fokuset kun rettes mot ett utvalgt aspekt av dataene. Begge eksemplene viser de samme dataene, men det intuitive budskapet fremstår vidt forskjellig på grunn av de ulike innfallsvinklene, som underbygges ved hjelp av fargebruk og kobling til diagramtittelen. Alternativ A retter fokuset mot at journalistene har høyere tillit til informasjonen de får presentert enn de andre respondentgruppene. Her er alternativene i den positive enden av skalaen fremhevet, mens svaralternativene i den andre enden av skalaen er tonet ned med grått.

I tillegg er de andre respondentgruppene tonet ned ved at de har et hvitskjær over seg, og ved at de ikke har dataetiketter. I Alternativ B rettes derimot fokuset mot at publikum har lavere tillit til informasjonen de får presentert, ved hjelp av tilsvarende virkemidler. Det er også verdt å merke seg at rekkefølgen på svaralternativ-skalaen er speilvendt fra alternativ A til B. Dette gjøres for at svaralternativene som er i hovedfokus skal ha et felles utgangspunkt for avlesing ved 0%-punktet på X-aksen. I tillegg underbygger det hovedbudskapet, ettersom man (i vesten) leser informasjon fra venstre til høyre, som gjør at dette er de alternativene man typisk ser først.

Vi håper at du med disse fem tipsene i bakhodet vil føle deg bedre rustet til å kommunisere effektivt med data!

Vil du få aktuelle artikler rett i innboksen? Meld deg på vårt nyhetsbrev.