Fagfellevurdert artikkel

Nordisk tidsskrift for pedagogikk og kritikk
Volum 9 | 2023 | s. 160–173

Om å «måle» det som ikke kan måles

Thor Arnfinn Kleven

Universitetet i Oslo, Norge

SAMMENDRAG

Det er viktig å være oppmerksom på at det som kalles måling i pedagogisk forskning er noe annet enn det man vanligvis kaller måling. Det er fordi de begrepene som studeres (kunnskaper, motivasjon, trivsel osv.) er abstrakte begreper som ikke kan observeres direkte. For å kunne foreta empiriske studier av slike begreper må man samle informasjon om indikatorer på begrepene, og det gjøres vanligvis gjennom direkte observasjon og/eller spørsmål. Slike «målinger» er nødvendigvis usikre, og derfor er det viktig å vurdere resultatene kritisk. Har vi «målt» det vi sier at vi har målt? Begrepsvaliditet kan defineres som samsvar mellom begrepet slik det er definert og begrepet slik det er «målt». Men samsvar mellom noe som er kjent og noe som ikke kan måles, kan heller ikke måles. Derfor må valideringsprosessen bestå i å samle evidens gjennom rasjonal argumentasjon støttet av empiriske data.

Som følge av usikkerheten i målingen, og av andre validitetstrusler som kort nevnes i artikkelen, bør forskningsresultater regnes som konstruksjoner. Det er vanligvis riktigere å si «forskning tyder på at» enn «forskning har vist at». Dette er i samsvar med kritisk realisme, definert som kombinasjon av ontologisk realisme og epistemologisk konstruktivisme.

Nøkkelord: måling; begrepsvaliditet; kritisk realisme

ABSTRACT

On “Measuring” What Cannot be Measured

It is important to note that what is called measurement in educational research is something different from what is usually called measurement. This is because the concepts studied (knowledge, motivation, well-being, etc.) are abstract concepts that cannot be observed directly. In order to do empirical studies of such concepts, one must collect information from indicators of the concepts, and this is usually done through direct observation and/or questions. Such “measurements” are unsure, and it is important to assess the results critically. Have we “measured” what we say we have measured? Construct validity can be defined as correspondence between the concept as it is defined and the concept as it is “measured.” However, correspondence between something that is known and something that cannot be measured cannot be measured either. Therefore, validation can only take place by collecting evidence through rational argumentation supported by empirical data.

As a result of the measurement uncertainty and of other validity threats that are briefly mentioned in the article, research results should be considered constructions. It is usually more correct to say that “research suggests that” than to say “research has shown that.” This is in accordance with critical realism, defined as a combination of ontological realism and epistemological constructivism.

Keywords: measurement; construct validity; critical realism

Mottatt: Mai, 2023; Antatt: Mai, 2023; Publisert: August, 2023

Korrespondanse: Thor Arnfinn Kleven, e-post: t.a.kleven@iped.uio.no

© 2023 Thor Arnfinn Kleven. This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/BY/4.0/), allowing third parties to copy and redistribute the material in any medium or format and to remix, transform, and build upon the material for any purpose, even commercially, provided the original work is properly cited and states its license.

Citation: Kleven, T. A. (2023). Om å «måle» det som ikke kan måles. Nordisk tidsskrift for pedagogikk og kritikk, 9, 160–173. http://doi.org/10.23865/ntpk.v9.5659

Innledning

Måling i pedagogisk forskning er kontroversielt. Ofte går kritikken ut på at pedagogikken går for langt i retning av å etterligne naturvitenskapen, og at det fokuseres for mye på såkalt målbare egenskaper på bekostning av mer sentrale pedagogiske spørsmål som ikke kan måles. En annen kritikk som har økt i omfang de senere årene, gjelder at man i pedagogikk og psykologi foretar såkalte målinger uten å bekymre seg for om egenskap-ene egentlig er målbare. Det hevdes at hvis ikke det først undersøkes om det virkelig er kvantiteter man studerer, vil en slik målingspraksis føre til vitenskapelige tankefeil. Høgheims artikkel i dette nummeret av tidsskriftet står i denne tradisjonen.

Min artikkel er skrevet ut fra et syn som ligger et sted mellom de to nevnte. Etter min oppfatning er det ikke mulig å undersøke empirisk om evner, motivasjon, interesser, skoletrivsel og så videre er kvantiteter. Likevel er det som kalles måling nødvendig for å kunne drive empirisk forskning på slike variabler. Men dersom slik forskning presenteres og brukes uten de forbehold og begrensninger som følger av de metodene som er benyttet, kan det begås tankefeil som resulterer i feilkonklusjoner.

I det følgende skal vi først se på hva som kalles måling i den metodologiske litteraturen i pedagogikk og psykologi, og hva som menes med validitet i slike målinger. Deretter argumenteres for at dette ligger innenfor den posisjonen som i metodologisk litteratur kalles kritisk realisme, og til slutt drøftes i hvilken grad vi bør ha tillit til forskningsresultater som bygger på slike målinger.

Hva vil det si å «måle» et begrep?

I pedagogisk forskning kan man være interessert i å studere kunnskaper, evner og andre personlighetsvariabler, motivasjon, skoletrivsel, angst, holdninger, interesser og så videre. Man antar at dette er reelle fenomener som eksisterer i individene uavhengig av forskeren og undersøkelsen, og som påvirker atferd. Men selv om dette er begreper som har blitt dannet for å kategorisere observert atferd og som både fagpersoner og menigmann har en viss forståelse av, er det abstrakte begreper som ikke er direkte observerbare. Vi kan observere tegn på motivasjon og trivsel, men vi kan ikke observere selve begrepene. Som Judd et al. (1991) uttrykker det: «The problem a social scientist has trying to capture the shape or size of abstract concepts is like the problem a seamstress would have trying to measure an invisible, intangible piece of cloth» (s. 42). Det er med andre ord umulig å måle slike begreper direkte. Hvis vi ønsker å studere empirisk for eksempel om det er sammenheng mellom skoletrivsel og skoleprestasjoner, blir vi nødt til å studere det ved hjelp av observerbare indikatorer på trivsel og prestasjoner.

Sosiologen Hubert M. Blalock (1968) gir en god beskrivelse av hvilke trinn som inngår i måling i samfunnsvitenskapelig forskning: (1) definere begrepet, (2) velge indikatorer som kan gi empiriske representasjoner av begrepet, (3) samle empirisk informasjon om disse indikatorene, og (4) evaluere i hvilken grad disse indikatorene gir en valid representasjon av begrepet (s. 12).

Å velge indikatorer som kan gi empiriske representasjoner av begrepet kalles gjerne for å definere begrepet operasjonelt. Legg merke til at her brukes operasjonelle definisjoner i en helt annen betydning enn Bridgman (1927) la i uttrykket, hvor begrepet ble definert gjennom operasjonene. Her er det motsatt; det er det ikke-observerbare begrepet som utgjør «fasiten», mens utvalget av indikatorer som brukes for å «måle» begrepet vil kunne være mer eller mindre inadekvat. Indikatorene kan ha med komponenter som ikke hører hjemme i begrepet, og samtidig mangle viktige komponenter ved det begrepet som man ønsker å måle (Judd et al., 1991, s. 53). Vi får altså et mer eller mindre skjevt bilde av det begrepet vi skal «måle» fordi operasjonaliseringen ikke får med seg hele fylden i begrepet, og dessuten kan det snike seg inn noe som ikke hører til begrepet i det hele tatt. Det er dette som Messick (1995) kaller «construct underrepresentation» og «construct irrelevance» (s. 742). Hvis vi for eksempel skal måle kunnskaper i et skolefag gjennom en prøve, kan vi ikke regne med at oppgaven(e) dekker et helt representativt utsnitt av den kunnskapen vi er ute etter, og prøveresultatet kan være påvirket av for eksempel formuleringsevne også i tilfeller hvor det ikke er meningen at det skal påvirke resultatet. I tillegg kommer en del såkalte tilfeldige feilkilder, som for eksempel svingninger i dagsform, om eleven tilfeldigvis får spørsmål fra det stoffet hen kan best, og så videre. Alt dette er feilkilder som påvirker resultatet uansett om det uttrykkes i tall eller ikke. Fordi vi må regne med at operasjonaliseringen medfører både construct underrepresentation og construct irrelevance, er det nødvendig å gjennomføre punkt (4) i Blalocks beskrivelse av måling, å evaluere i hvilken grad de indikatorene som er benyttet gir en valid representasjon av begrepet.

Operasjonaliseringen knytter altså indikatorer til begrepet. Men det er nettopp slik Zeller (1997) definerer måling: «Measurement is the process of linking concepts to indicants» (s. 823). Å gjennomføre måling blir etter denne definisjonen akkurat det samme som å gjennomføre operasjonalisering. Det sies altså ingenting om at resultatet av «målingen» skal presenteres med tall. Dette stemmer for øvrig med hvordan Messick (1995) bruker uttrykket skår, når han inkluderer «any coding or summarization of observed consistencies or performance regularities on a test, questionnaire, observation procedure, or other assessment devices such as work samples, portfolios, and realistic problem situations» (s. 741). Ut fra omtalen av feilkilder ovenfor er det dermed klart at det kan forekomme alvorlige «målingsproblemer» som ikke har noe med en eventuell tallfesting å gjøre.

Men måleresultatet oppgis ofte i tall, og her kommer den gamle definisjonen til Stevens (1946) inn i bildet, hvor måling defineres som «the assignment of numerals to objects or events according to rules» (s. 677). Denne definisjonen stiller ingen krav til de reglene som benyttes, så hvis man heller ikke stiller krav til at målingen skal være meningsfylt, kan man si som Høgheim (2023): at måling i pedagogisk forskning er med dagens praksis en metode med hundre prosent suksessrate. Men dersom en slik «måling» skal kunne tillegges noen som helst mening, må den følges opp med punkt 4 i Blalocks beskrivelse av måling, evaluering av i hvilken grad de brukte indikatorene gir en valid representasjon av begrepet. Det som Høgheim (2023) kaller «måling som tallfesting» og «måling som validitet» er derfor ikke to komplementære syn på måling. Validering er en nødvendig forlengelse av Stevens’ perspektiv, hvis man i det hele tatt skal kunne si noe om hva som måles.

Når Stevens’ definisjon fortsatt presenteres i innføringsbøker i forskningsmetode, er det først og fremst for å understreke at det som kalles måling i pedagogisk og psykologisk forskning er noe helt annet enn det som kalles måling i dagligtale og i naturvitenskap. Dermed blir det også tydeliggjort at alle slike «målinger» må vurderes kritisk. Og når Kleven og Hjardemaal (2018) erstatter tall med verdi i definisjonen og sier at «måling er å tilordne en person en verdi på en variabel, ifølge en eller annen regel» (s. 33), er det for å understreke at også når indikatorene presenteres uten bruk av tall, må validiteten vurderes kritisk. Verbale beskrivelser av observerbare indikatorer for abstrakte begrep kan også ha usikker validitet. Construct underrepresentation og construct irrelevance er ikke noe som oppstår under tallfestingen.

Dersom man antar at egenskaper og tilstander som for eksempel intelligens, angst og trivsel eksisterer som realiteter som påvirker individer (ontologisk realisme, se nedenfor), er det imidlertid rimelig å anta at de er kvantitative i den forstand at noen personer er mer intelligente eller har mer angst eller bedre trivsel enn andre. Det er også mer rimelig å anta at de er kontinuerlige variabler enn at de er diskrete, det vil si at slike variabler ikke har et endelig antall klart adskilte verdier, men kan anta et uendelig antall verdier hvor avstanden mellom dem kan gå mot null. Ettersom det dreier seg om størrelser som ikke er direkte observerbare, er det imidlertid umulig å bevise hva disse attributtene måtte oppfylle og ikke av kriteriene på kvantiteter. Og fordi den kvantitative strukturen av abstrakte begrep ikke kan testes, er det ikke grunnlag for å måle slike begrep i den klassiske betydningen av måling. Men det er heller ikke det man gjør når man «måler». De fire skalanivåene som Stevens (1946) definerte, nominal-, ordinal-, intervall- og ratioskala (s. 678), skal nettopp bidra til å understreke at de tallene som blir tildelt ved en «måling» etter hans definisjon, ikke nødvendigvis kan brukes som andre tall. Et «måleresultat» på en slik variabel vil ikke kunne svare på hvilken mengde en person har av en attributt, men det vil kunne brukes for å undersøke relasjoner mellom variabler og det vil kunne gi nyttig informasjon om en persons (eller en skoleklasses) relative plassering i forhold til en større normgruppe. Man vil dessuten med for eksempel varianter av faktoranalyse kunne få (feilbarlig) informasjon om dimensjonaliteten av et begrep.

Hva mener vi med validitet?

Shadish et al. (2002) definerer validitet som «the approximate truth of an inference» (s. 33). Deres validitetssystem omfatter fire ulike aspekter ved validitet, knyttet til de fire typene slutninger som er vanlige i empirisk forskning (se Kleven, 2008, s. 223; Lund, 2005, s. 388). Statistisk validitet gjelder slutninger om kovariasjon mellom variabler, om den tendensen man ser i data er triviell eller sterk nok til å være verd en tolkning. Indre validitet gjelder slutninger fra en statistisk sammenheng til en årsakstolkning, det vil si en tolkning om at noe har påvirket noe annet. Ytre validitet gjelder slutning fra den konteksten undersøkelsen har foregått i til en større kontekst eller andre kontekster. Begrepsvaliditet gjelder slutninger fra indikatorer til begrep, med andre ord i hvilken grad «måleresultatet» gir grunnlag for å trekke slutninger om det begrepet man hevder å ha målt. Dette validitetssystemet er et resultat av deres metodologiske arbeid innenfor egen forskningstradisjon, den eksperimental-psykologiske. Derfor bruker de termer som treatment og outcome i sine beskrivelser av validitetstypene (Shadish et al., 2002, s. 38), i stedet for mer generelle termer som variabler og kovarians. Den eksperimentalpsykologiske tradisjonen skiller seg fra den psykometriske tradisjonen ved at individuelle forskjeller opptrer som støy som gjør det vanskelig å få klare svar på hvilken metode eller behandling som er best. For den psykometriske tradisjonen er det derimot studier av individuelle forskjeller som er hovedinteressen (se Cronbach, 1957). Innenfor denne tradisjonen betraktet man inntil rundt 1950 spørsmålet om validitet langt på vei som et spørsmål om testens evne til å predikere (Cronbach, 1971, s. 443). For eksempel ble en intelligenstest regnet for valid hvis den kunne predikere skoleprestasjoner. For tester som skulle måle prestasjoner innenfor et klart definert domene, for eksempel pensum i et skolefag, var man opptatt av innholdsvaliditet. Her var spørsmålet i hvilken grad de oppgavene som ble gitt på prøven, kunne regnes som representative for de oppgavene som det kunne være relevant å gi innenfor pensum.

På starten av 1950-tallet begynte den psykometriske tradisjonen å innse behovet for et alternativt validitetsaspekt, særlig i personlighetstesting (Cronbach, 1971, s. 462–463). Det var vanskelig å finne et godt kriterium for egostyrke, for eksempel, men man hadde teoretiske forestillinger om trekket. Det nye validitetsaspektet ble kalt begrepsvaliditet, og den første fremstillingen av begrepsvaliditet ble presentert av Cronbach og Meehl (1955). De knyttet ideen til et såkalt nomologisk nettverk, og populært sagt er ideen å undersøke om det «målte» begrepet oppfører seg i forhold til andre begrep slik som man antar at det teoretiske begrepet gjør. Hvis ikke, må det stilles spørsmål enten ved målingen eller ved den teoretiske antagelsen.

Spørsmålet om begrepsvaliditet er spørsmålet om hva testen egentlig måler. Måler den det vi sier at den måler? Eller for å si det mer generelt, siden dette spørsmålet slett ikke bare angår tester: «To what extent are the constructs of theoretical interests successfully operationalized in the research?» (Judd et al., 1991, s. 29). Begrepsvaliditet kan altså defineres som grad av samsvar mellom begrepet slik det er definert og begrepet slik det har blitt operasjonalisert. Zeller (1997) formulerer det slik: «A measure is valid if it measures what it is intended to measure. In other words, an indicator of some abstract concept is valid to the extent that it measures what it purports to measure» (s. 822–823).

Men siden begrepet ikke er direkte observerbart, har man ikke mulighet for å måle samsvaret mellom begrep og indikator, og kan dermed heller ikke fastslå hvor god validiteten er. Det man derimot kan gjøre, er å samle evidens gjennom rasjonale vurderinger støttet av empiriske data (Messick, 1995, s. 742). Man må for det første foreta en rasjonal vurdering av i hvilken grad innholdet i det operasjonaliserte begrepet stemmer med innholdet i det teoretiske begrepet. I hvilken grad er det rimelig å anse disse indikatorene som representative for det universet av indikatorer som kunne vært brukt for dette begrepet? Er det sider ved begrepet som er for dårlig representert blant indikatorene, slik at man får construct underrepresentation? Er noen av disse indikatorene smittet av andre begrep enn det man ønsker å måle, slik at man får construct irrelevance? Disse vurderingene kan understøttes av statistiske analyser av indre konsistens i målingene og av dimensjonalitet, samt av korrelasjoner med andre variabler.

Den rasjonale vurderingen av om indikatorene er representative for det begrepet man ønsker å måle, er selvfølgelig viktig allerede ved valget av indikatorer. Jo grundigere arbeid som er gjort med dette, jo større sjanse er det for å oppnå valide målinger. Men det er like fullt behov for validering i ettertid, når empiriske data kan bidra til å vise om måleinstrumentet ser ut til å fungere som planlagt. Valideringsprosessen består i å samle evidens. Selv om man ikke følger de konkrete prosedyrene som i sin tid ble foreslått av Cronbach og Meehl (1955), er grunntanken for den empiriske delen av validitetsvurderingen fortsatt den samme, å undersøke om det «målte» begrepet oppfører seg slik som man antar at det teoretiske begrepet gjør. Messick (1995) og Kane (2006) gir gode råd om valideringsprosessen, men det er forvirrende at de ikke skjelner tydelig mellom validitet og validering. Kane skriver innsiktsfullt om validering som et spørsmål om argumenter, og logisk nok er overskriften over kapitlet hans «Validation». Senere har han imidlertid en deloverskrift som heter «Validity as Argument» (s. 23). Og når Messick (1989) skriver at «validity is an integrated evaluate judgment of the degree to which empirical evidence and theoretical rationales support the adequacy and appropriateness of inferences and actions based on test scores or other modes of assessment» (s. 13), burde det stått validation i stedet for validity.

Er slike «målinger» forenlig med kritisk realisme?

For å kunne svare på dette spørsmålet må vi først ta stilling til hva vi mener med kritisk realisme. I europeisk sammenheng forbindes gjerne kritisk realisme umiddelbart med den engelske filosofen Roy Bhaskar (1978). Kritisk realisme er imidlertid en betegnelse som brukes i mye forskningsmetodisk litteratur, både kvantitativ og kvalitativ (se f.eks. Cook & Campbell, 1979; Jensen, 2002; Maxwell, 1992; Miles & Huberman, 1994; Shadish et al., 2002). Det som vektlegges som kjennetegn på kritisk realisme i denne litteraturen, er kombinasjonen av ontologisk realisme og epistemologisk konstruktivisme. På kvalitativ side vektlegger denne litteraturen at det kan være fruktbart å anta ontologisk realisme også innenfor kvalitativ forskning (Alvesson & Sköldberg, 2009; Maxwell, 2012), mens på kvantitativ side ligger hovedvekten på å poengtere epistemologisk konstruktivisme. Cook og Campbell (1979) sier at deres perspektiv er «realist because it assumes that causal relationships exists outside of the human mind» og «critical-realist because it assumes that these valid causal relationships cannot be perceived with total accuracy by our imperfect sensory and intellective capacities» (s. 28–29). I 2002 hevder de at de fleste forskere, inkludert dem selv, vil karakterisere seg som ontologiske realister og «weak epistemological relativists», og sier at «weak relativists believe that both the ontological world and the worlds of ideology, interests, values, hopes and wishes play a role in the construction of scientific knowledge» (Shadish et al., 2002, s. 29).

Filosofisk realisme defineres av Phillips (1987) som «the view that entities exist independently of being perceived, or independently of our theories about them» (s. 205). Maxwell (2012) sier at «critical realists in the social sciences treat the ideas and meanings held by individuals – their concepts, beliefs, feelings, intentions, and so on – as equally real to physical objects and processes» (s. vii–viii). Når det gjelder pedagogiske og psykologiske målinger, vil dette si at man antar at det er en realitet at personer har evner, egenskaper, holdninger og så videre som eksisterer uavhengig av forskerens teorier og målinger, og som påvirker personenes atferd og deres måleresultat. Men ettersom slike egenskaper og holdninger altså ikke er direkte observerbare, er måleresultatet en feilbarlig konstruksjon som er basert på indikatorer. Vår viten om disse egenskapene og holdningene kan da ikke bli noe annet enn en konstruksjon, altså epistemologisk konstruktivisme.

Hva er hovedproblemet med «målinger» i pedagogisk og psykologisk forskning?

Det fremgår av det foregående at måling er en komplisert prosess som skal bidra til å knytte sammen teori og empiri. I kvantitativ forskning kan vi si at prosessen består av to ledd, der det ene leddet forbinder abstrakte begrep med observerbare indikatorer, mens det andre leddet gjør indikatorene om til tall som kan brukes i statistiske analyser. Det første leddet, der abstrakte begrep forbindes med observerbare indikatorer, er også relevant i kvalitativ forskning.

I en tidligere artikkel har jeg hevdet at «the heart of the measurement problem is not a problem of numbers» (Kleven, 2008, s. 224). Det er sagt i en sammenheng hvor hensikten er å vise at selv om man unngår å presentere et resultat med tall, så kan man like fullt ha problemer med både tilfeldige og systematiske «målingsfeil» som reduserer begrepsvaliditet. Jeg oppfatter altså problemer knyttet til det første leddet i målingsprosessen, hvor godt begrepet er representert gjennom indikatorene, som det alvorligste problemet. Om vi ender opp med et riktig eller feil tall er et spørsmål om nøyaktighet. Nøyaktighet er også viktig, men det er likevel underordnet spørsmålet om hva vi egentlig «måler».

Hva som er gode indikatorer på en egenskap eller et trekk, er selvfølgelig ikke et rent empirisk spørsmål. Før man lager et måleinstrument er det derfor all grunn til å legge arbeid i en grundig rasjonal vurdering av hvilke observerbare indikatorer som best mulig kan representere egenskapen, og danne seg en hypotese om egenskapens struktur og dimensjonalitet, slik Borsboom (2006, s. 429) understreker. Det kan føre helt galt av sted dersom for eksempel spørsmålet om dimensjonalitet overlates til en rent datastyrt analysemetode som for eksempel prinsipal komponentanalyse. Heldigvis har vi i dag bedre analysemetoder, for eksempel konfirmerende faktoranalyse, som kombinerer teoretiske vurderinger og data. Da tvinges man til å tenke teoretisk på forhånd, og dessuten får man en test på om den modellen man har valgt, med de latente variablene og de indikatorene som inngår, passer med data. Det kan betraktes som en test av begrepsvaliditet, men også dette er i prinsippet en validering som gir evidens og som ikke kan påstås å fortelle sannheten om begrepsvaliditet. Når Borsboom i samme forbindelse hevder at forskere som tenker i klassisk testteori ikke ser behovet for å stille slike spørsmål, oppleves det imidlertid som at han slåss mot et spøkelse. Klassisk testteori befatter seg utelukkende med tilfeldige målingsfeil, og i alle fall siden begrepsvaliditet ble satt på dagsorden på 1950-tallet har det vært klart at det som klassisk testteori kaller true score ikke har noe med sannhet eller validitet å gjøre, men bare betyr en skår fri for tilfeldige målingsfeil. Klassisk testteori overlevde en del år som en ren reliabilitetsteori (f.eks. Lord & Novick, 1968) hvor man bare studerer virkningen av tilfeldige målingsfeil, men ingenting i klassisk testteori kan brukes som unnskyldning for å la være å tenke teoretisk i forbindelse med valg av indikatorer.

Borsboom (2006, s. 429) nevner også at man bør vurdere om egenskapen er kontinuerlig eller kategorisk, og om resultater fra instrumentet skal behandles med parametrisk eller ikke-parametrisk statistikk. Jeg er enig når det gjelder spørsmålet om egenskapen er kontinuerlig eller ikke, men mener at spørsmålet om valg av statistikk hører hjemme på et senere tidspunkt i prosessen. Dersom man mener å ha grunnlag for å anta at egenskapen er kontinuerlig, så bør man tilstrebe at egenskapen «måles» på en måte som gir en kontinuerlig variabel. Det kan likevel være fornuftig å bruke en Likert-skala i undersøkelse av holdninger, ikke fordi man tror at holdningene opptrer i diskrete kategorier som svært positiv, positiv, nøytral og så videre, men fordi det ikke er hensiktsmessig å fingradere skalaen mer på enkeltspørsmålene. Dersom enkeltspørsmålene hører hjemme på en felles dimensjon, kan man etterpå lage en sumskår, eventuelt en faktorskår, av dem. Hvis man antar at holdningen er kontinuerlig, er det ønskelig at også måleresultatet fremstår som en kontinuerlig variabel. Man må selvfølgelig ha i minne at enhver måling er feil (Crocker & Algina, s. 6), men hvis man har fått frem et resultat på en fingradert skala, kan man ikke redusere feilmengden ved å gjøre skalaen mer grovgradert igjen (Kleven, 1979). Det er derfor gode grunner for at en fingradert variabel gir en bedre representasjon av en egenskap som antas å være kontinuerlig, enn en grovgradert skala av typen lite/middels/mye ville gjøre.

Man har imidlertid ikke grunnlag for å hevde at slike sumskårer oppfyller kravene til en intervallskala. Det kan likevel være hensiktsmessig å benytte parametriske analyser selv om det ikke er formelt grunnlag for det. Hvis man utelukkende benytter den informasjonen som ligger i rangeringen, kaster man bort både verdifull informasjon og feilinformasjon. Den feilen man gjør ved å behandle data som om de var på intervallnivå kan antas å være liten sammenlignet med andre feil. Ved alle «målinger» av pedagogiske og psykologiske variabler er det et større problem at man må regne med tilfeldige feil (reliabilitetssvikt) som også forstyrrer rangeringen av personene. Forøvrig viser MonteCarlo-studier at de vanligst brukte statistiske metodene er temmelig robuste mot moderate avvik fra statistiske forutsetninger.

Som nevnt tidligere antar man at mange av de egenskapene man studerer er kontinuerlige variabler. Høgheim (2023) kaller det for spekulasjon å anta kvantitet uten empirisk støtte, og slutter seg til Michell (1997) som hevder at den vitenskapelige oppgaven knyttet til måling er å teste de underliggende antagelsene ved måling, slik som at det som måles faktisk er målbart. Dette sies å være en testbar hypotese, og Høgheim (2023) viser ved hjelp av additive conjoint measurement (ACM) hvordan det kan gjøres med en test som skal måle forventning om mestring. Men dersom man vil undersøke om selve begrepet (her: forventning om mestring) er en kvantitet, holder det ikke å teste det på indikatorene. Det er ikke nødvendigvis forbindelse mellom om et sett indikatorer oppfyller kravene til kvantitet og om selve begrepet oppfyller kravet. Så lenge vi snakker om begrep som ikke er direkte observerbare og dermed helle ikke direkte målbare, kan ikke begrepets kvantitative egenskaper testes. Å studere indikatorene, med alle de usikkerheter og feilkilder de er påvirket av, vil aldri kunne gi svar på om de attributtene som studeres er kvantiteter. Man har utelukkende rasjonale argumenter for å godta eller eventuelt forkaste antagelsen. Som Trendler (2009) uttrykker det: «The method of observation is […] suited for the discovery of quantitative structure only if circumstances in nature are such that the influence of systematic disturbances is negligible. This is obviously not the case in psychology» (s. 590).

Et par eksempler

La oss se kort på hvordan det som er beskrevet ovenfor kan gi seg utslag når vi vil «måle» kunnskaper i matematikk og trivsel på skolen. Ønsket kan enten være å kartlegge kunnskaper og trivsel i en større gruppe, eller å få mest mulig presis informasjon om en eller flere enkeltelever.

La oss først tenke oss at vi undersøker trivsel simpelthen ved å stille spørsmålet: «Hvordan trives du på skolen?» Da er vi for det første avhengig av at elevene svarer ærlig. For det andre vil selve formuleringen av spørsmålet påvirke svarene. Jeg har selv erfaring for at man på enkelte klassetrinn ville ha fått ulikt svar på spørsmålet om det er forskjell i trivsel mellom jenter og gutter, avhengig av om man formulerte spørsmålet som ovenfor eller man i stedet spurte: «Hvordan liker du deg på skolen?» Dette illustrerer faren ved å basere tolkningen på enkeltspørsmål. Da er det bedre å starte med en analyse av hva elevene må forholde seg til i skolesituasjonen, så man kan stille mer nyanserte spørsmål. En slik analyse kan baseres på teori, på praktiske erfaringer, eller eventuelt på spørsmål/samtale med elever i forberedelsesarbeidet. Hvordan trives de i timene, i friminuttene, hvordan trives de med fagene, hvordan oppleves forholdet til læreren, hvordan oppleves forholdet til medelevene, opplever de skolen meningsfylt, og så videre. Hvis man stiller delspørsmål om de forskjellige aspektene ved trivsel og lager en sumskår av disse spørsmålene for å kartlegge trivselen ved en skole og sammenligne med andre skoler, gir dette et bedre bilde enn man ville få ved enkeltspørsmål selv om sumskåren ikke tilfredsstiller de klassiske kravene til måling. Ved den enkelte skole vil det imidlertid være interessant også å se på resultatene på enkelte delsummer eller enkeltspørsmål, for å se hvor denne skolen har forbedringspunkter. Og for noen enkeltelever kan sumskåren være et dårlig uttrykk for trivselen, for eksempel hvis en elev som trives godt i timene og med fagene får trivselen ødelagt på grunn av mobbing i friminuttene. Sumskåren gir altså informasjon som er verdifull for noen formål, men skjuler samtidig informasjon som man ville trenge for andre formål.

Så til matematikk. Her bør vi for det første skjelne mellom prestasjoner og kunnskaper. Prestasjoner på en prøve er observerbare, men kunnskapen er ikke direkte observerbar og kan bare studeres gjennom indikatorer. Prestasjonene baserer seg bare på et utvalg av de oppgavene elevene kunne ha blitt prøvd på. Med et annet utvalg av oppgaver ville vi fått andre resultater, og elevene ville ha plassert seg annerledes i forhold til hverandre. Og dersom vi er ute etter å vite hvor mye elevene kan i matematikk, er det ikke prøveresultatet i seg selv man er interessert i, men hva prøveresultatet indikerer om elevens kunnskaper og ferdigheter i faget.

Hvis vi bruker antall riktige svar som skår på prøven, er ti poeng dobbelt så mye som fem poeng, men det betyr ikke at det er et dobbelt så godt resultat på prøven. Null poeng på en prøve betyr ikke null kunnskap, og det er heller ikke sikkert at en forskjell på fem poeng mellom to elever indikerer en like stor forskjell i kunnskap uansett hvor det er på poengskalaen. Det avhenger blant annet av vanskegraden på spørsmålene. Vanskegraden på spørsmålene påvirker dessuten resultatfordelingen. Hvis prøven har overvekt av lette spørsmål, får vi en venstreskjev fordeling, med mange høye skårer og få lave skårer. Hvis de samme elevene får en prøve med overvekt av vanskelige spørsmål, får de fleste elevene lave skårer, mens noen er flinke nok til å klare de vanskelige spørsmålene, og vi får en høyreskjev fordeling. Hvis vanskegraden ligger et sted imellom, blir fordelingen relativt symmetrisk. Uten en klar regel for hvordan vanskegraden på oppgavene skal være, kan vi altså ikke engang finne hvordan kvaliteten av prestasjonene fordeler seg i elevgruppen. Derfor fant man i sin tid på å anta at en del egenskaper er normalfordelt, og å tilpasse målingene slik at resultatene ble tilnærmet normalfordelt. Dersom antagelsen er riktig, blir «målingen» riktigere på den måten, enten tilpassingen skjer ved utvalget av spørsmål eller ved en skalatransformasjon i ettertid. Dersom antagelsen er feil, kan det hende målingen blir galere med en slik transformasjon. Siden målingene ikke tilfredsstiller de klassiske betingelsene for måling, får vi ikke testet antagelsen.

Oppsummerende drøfting

Det er full enighet om at det som kalles måling i pedagogisk og psykologisk forskning er noe annet enn det som kalles måling både i dagligtale og i naturvitenskap, og at det ikke oppfyller de krav som man normalt stiller for å kalle noe for måling. Så er spørsmålet om man bør erstatte uttrykket «måling» med noe annet, og om det fører til vitenskapelige tankefeil å kalle noe for måling når man ikke først har undersøkt om det virkelig er kvantiteter man studerer.

Det fremstår ikke som noen brukbar løsning å erstatte ordet måling med koding eller tallfesting. En slik løsning kunne fungere for den delen av måleprosessen som består i å gå fra respons på spørsmål/oppgaver og til tall, men slik uttrykket måling brukes i pedagogisk og psykologisk forskning omfatter det også den delen av måleprosessen som består i å velge hvilke observerbare indikatorer som skal benyttes. Et viktig argument for at det fortsatt bør være slik, er at tilfeldige og systematiske «målingsfeil» oppstår før det eventuelt er tall inne i bildet, og derfor bør tas på alvor også når «måleresultatet» ikke oppgis med tall.

Jeg har ikke noe bedre forslag til løsning enn å veksle mellom å kalle det «måling» og operasjonalisering, slik vi gjør i vår innføringsbok i pedagogisk forskningsmetode (Kleven & Hjardemaal, 2018). Samtidig er det viktig å understreke tydelig for leserne hvor forskjellig dette «målingsbegrepet» er fra hva vi vanligvis forbinder med måling. Når vi i innføringsboka presenterer Stevens’ definisjon som gjør alt til måling, og attpåtil erstatter ordet tall med verdi, er det nettopp for å redusere faren for at leserne skal oppfatte det som måling i tradisjonell forstand.

Ovenfor er det referert til Crocker og Algina (1986), som i sin bok om testteori slår fast at enhver måling er beheftet med feil (s. 6). Det oppstår feil både i prosessen fra ikke-observerbar egenskap til indikatorer og i det videre arbeidet frem til eventuell presentasjon av resultatet som tall. Når det kritiseres at man kaller det måling uten først å undersøke om det er kvantiteter man studerer, fokuseres det kun på problemer i prosessen fra indikatorer til tall og på den videre statistiske behandling av tallene. Jeg mener fortsatt at det er enda større grunn til bekymring for linken mellom begrep/egenskap og de indikatorene som velges. Det er denne linken som gjelder spørsmålet om vi måler det vi sier at vi måler, mens det som er knyttet til tallene er et spørsmål om hvor mye unøyaktighet det er i resultatet.

Som kritisk realist forholder jeg meg til at vår mulighet til å få sikker viten om de realitetene som eksisterer, er begrenset. For enda en gang å sitere Shadish et al. (2002): «Weak relativists believe that both the ontological world and the worlds of ideology, interests, values, hopes and wishes play a role in the construction of scientific knowledge» (s. 29). Derfor er det prinsipielt riktigere å si at «forskning tyder på at», enn å si «forskning har vist at». Det er også derfor vi har gitt vår innføringsbok (Kleven & Hjardemaal, 2018) undertittelen «En hjelp til kritisk tolking og vurdering» og har kapitteloverskrifter som «Hvordan er begrepene operasjonalisert?», «Hvilke alternative forklaringer er mulige?» og «Hvilken kontekst er resultatene gyldige i?». Dette er kritiske spørsmål som både forskere og brukere av pedagogisk forskningslitteratur bør stille. De tankefeilene jeg er mest bekymret for når det gjelder pedagogisk forskning, er at det trekkes for lettvinte årsakskonklusjoner og at resultater generaliseres mer enn det er grunnlag for. I noen tilfeller er det forskeren selv som trekker slutninger det ikke er grunnlag for, og ofte er det brukeren av resultatene, eventuelt politikere og presse. Når det gjelder nasjonale prøver i skolen og de internasjonale studiene som PISA og PIRLS, er det mye større grunn til å stille kritiske spørsmål til hvordan resultatene brukes i en del tilfeller, enn å kritisere selve målingene. Prøvene er konstruert på grunnlag av grundig forarbeid og basert på moderne item-respons-teori. Slike prøveresultater gir oss kunnskap som har stor nytteverdi, men som dessverre også lett kan misbrukes. Hvis for eksempel forskjeller mellom skoler i faglige resultater uten videre tolkes som forskjeller i kvalitet mellom skoler, bør det ringe minst én varselbjelle. For det første omfatter kvalitet i skolen mye mer enn det faglige, jf. skolens målsetting. Det er derfor et meget grovt tilfelle av det Messick kalte construct underrepresentation hvis man uten videre bruker faglige resultater som mål for skolens kvalitet. For det andre kan forskjeller i faglige resultater skyldes andre ting enn forskjeller i undervisningskvalitet. Om klasse A eller skole A har bedre resultater i matematikk enn klasse B eller skole B, kan det skyldes mange andre ting enn at klasse A har en dyktigere matematikklærer eller at skole A har et bedre læringsmiljø. I mange tilfeller er det god grunn til å rette et kritisk søkelys mot de årsakskonklusjoner som trekkes, selv om de underliggende målingene er valide. Det betyr imidlertid ikke nødvendigvis at løsningen ligger i randomiserte eksperiment, men det bør mane til forsiktighet med årsakskonklusjoner og til presentasjon av mulige alternative forklaringer. Det er ikke alt som kan studeres med randomisert eksperiment, og uansett gjenstår spørsmålet om resultatets gyldighetsområde. Shadish et al. (2002, s. 54) omtaler indre validitet som «local molar causal validity», for å understreke at den årsakskonklusjonen som lar seg trekke av et randomisert eksperiment, ikke uten videre kan overføres til andre personer og situasjoner. Om slike overføringer eller generaliseringer er gyldige, avhenger av ytre validitet. På denne måten viser ledende bøker i kvantitativ metodologi hvor umulig det er å nå frem til en fullstendig evidensbasert undervisningspraksis. Det samme viser Tone Kvernbekk (2016) i sin grundige drøfting av spørsmålet om evidensbasert praksis ut fra et kunnskapsteoretisk utgangspunkt.

Forfatteromtale

Thor Arnfinn Kleven

(f. 1944) er dr.philos. og førsteamanuensis emeritus ved Institutt for pedagogikk, Universitetet i Oslo. Hans forskning har primært handlet om forskningsmetodologiske spørsmål og om lærerdyktighet, og han har lang erfaring med undervisning i forskningsmetode, vitenskapsteori og statistikk.

Referanser

Alvesson, M. & Sköldberg, K. (2009). Reflexive methodology. New vistas for wualitative Research. Sage.
Bhaskar, R. (1978). A realist theory of science. The Harvester Press.
Blalock, H. M. (1968). The measurement problem: A gap between the languages of theory and research. I H. M. Blalock & A. B. Blalock (Red.), Methodology in social research (s. 5–27). McGraw-Hill.
Borsboom, D. (2006). The attack of the psychometricians. Psychometrika, 71(3), 425–440. https://doi.org/10.1007/s11336-006-1447-6
Bridgman, P. W. (1927). The logic of modern physics. MacMillan.
Cook, T. D. & Campbell, D. T. (1979). Quasi-experimentation. Design and analysis issues for field settings. Houghton Mifflin.
Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. Holt, Rinehart, and Winston.
Cronbach, L. J. (1957). The two disciplines of scientific psychology. American Psychologist, 12(11), 671–684. https://doi.org/10.1037/h0043943
Cronbach, L. J. (1971). Test validation. I R. L. Thorndike (Red.), Educational measurement (2. utg., s. 443–507). American Council on Education.
Cronbach, L. J. & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281–302. https://doi.org/10.1037/h0040957
Høgheim, S. (2023). Måling i kvantitativ utdanningsforskning. Et instrumentelt mistak? Nordisk tidsskrift for pedagogikk og kritikk, 9. https://doi.org/10.23865/ntpk.v9.5658
Jensen, K. B. (2002). The complementarity of qualitative and quantitative methodologies in media and communication research. I K. B. Jensen (Red.), A handbook of media and communication research. Qualitative and quantitative methodologies (kap. 15). Routledge.
Judd, C. M., Smith, E. R. & Kidder, L. H. (1991). Research methods in social relations. Holt, Rinehart and Winston.
Kane, M. T. (2006). Validation. I R. L. Brennan (Red.), Educational Measurement (4. utg., s. 17–64). Greenwood Publishing.
Kleven, T. A. (1979). The relation of the scale coarseness to the dependability of marks. Scandinavian Journal of Educational Research, 23(3), 109–130. https://doi.org/10.1080/0031383790230303
Kleven, T. A. (2008). Validity and validation in qualitative and quantitative research. Nordic Studies of Education, 28(3), 219–233. https://doi.org/10.18261/ISSN1891-5949-2008-03-05
Kleven, T. A. & Hjardemaal, F. R. (2018). Innføring i pedagogisk forskningsmetode. En hjelp til kritisk tolking og vurdering (3. utg.). Fagbokforlaget.
Kvernbekk, T. (2016). Evidence-based practice in education. Functions of evidence and causal presuppositions. Routledge.
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Addison-Wesley.
Lund, T. (2005). A metamodel of central inferences in empirical research. Scandinavian Journal of Educational Research, 49(4), 385–398. https://doi.org/10.1080/00313830500202918
Maxwell, J. A. (1992). Understanding and validity in qualitative research. Harvard Educational Review, 62(3), 279–300. https://doi.org/10.17763/haer.62.3.8323320856251826
Maxwell, J. A. (2012). A realist approach for qualitative research. Sage.
Messick, S. (1989). Validity. I R. L. Linn (Red.), Educational measurement (3. utg., s. 13–103). American Council on Education and Macmillan.
Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist, 50(9), 741–749. https://doi.org/10.1037/0003-066X.50.9.741
Michell, J. (1997). Quantitative science and the definition of measurement in psychology. British Journal of Psychology, 88(3), 355–383. https://doi.org/10.1111/j.2044-8295.1997.tb02641.x
Miles, M. B. & Huberman, A. M. (1994). Qualitative data analysis: An expanded sourcebook. Sage.
Phillips, D. C. (1987). Philosophy, science and social inquiry. Contemporary methodological controversies in social science and related applied fields of research. Pergamon Press.
Shadish, W. R., Cook, T. D. & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Houghton Mifflin.
Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103(2684), 677–680. https://doi.org/10.1126/science.103.2684.677
Trendler, G. (2009). Measurement theory, psychology and the revolution that cannot happen. Theory & Psychology, 19(5), 579–599. https://doi.org/10.1177/0959354309341926
Zeller, R. A. (1997). Validity. I J. P. Keeves (Red.), Educational research, methodology, and measurement. An international handbook (s. 822–829). Oxford.