Djupintervju med personlighetstest – träffsäkert eller dyr magkänsla?

Personlighetstester används i stor utsträckning inom rekrytering. Inte sällan kombineras de med en så kallad djupintervju eller personlighetsintervju, där en psykolog eller rekryterare går igenom kandidatens testresultat och ställer fördjupande frågor för att försöka skapa en helhetsbild av personen och dennes matchning mot rollen. Många arbetsgivare och chefer upplever detta som ett sofistikerat och träffsäkert tillvägagångssätt, särskilt vid chefsrekryteringar och andra kvalificerade roller. 

Men hur starkt är egentligen forskningsstödet för den här typen av bedömningar? Vad tillför en djupintervju utöver testerna? Och hur bör personlighetstester användas för att faktiskt bidra till bättre anställningsbeslut? Det handlar den här artikeln om.

Två sätt att använda personlighetstester

För att kunna diskutera värdet av personlighetstester behöver vi först skilja mellan två ganska olika arbetssätt. 

Mekaniskt tillvägagångssätt 

  • Testresultatet genererar en poäng
  • Poängen används enskilt eller tillsammans med poäng från andra urvalsmetoder för att göra urval eller fatta anställningsbeslut

Holistiskt tillvägagångssätt

  • Testresultatet används som underlag för en djupintervju
  • Intervjuaren gör en samlad helhetsbedömning som utgör underlag för urval eller anställningsbeslut

Den holistiska bedömningens dragningskraft

Ett av de vanligaste argumenten för personlighetstest tillsammans med djupintervju och det holistiska tillvägagångssättet är att människor är för komplexa för att reduceras till testpoäng och standardiserade eller mekaniska bedömningar. Särskilt vid chefsrekryteringar är det vanligt med påståenden som:

“Vi måste förstå personen på djupet.”

“Man kan inte fånga ledarskap med siffror.”

“Helheten är viktigare än enskilda testresultat.”

Det här synsättet har en historia som går tillbaka till andra världskriget. I både Tyskland, Storbritannien och USA utvecklade psykologer omfattande bedömningsprogram för att välja ut officerare, specialister och spioner. Syftet var att komma bort från de traditionella intervjuerna, som ansågs ineffektiva, och istället bedöma “hela människan” genom en kombination av tester, observationer och djupintervjuer.

Efter kriget spred sig dessa tillvägagångssätt till industrin, framförallt vid chefsrekryteringar. Under 50- och 60-talet växte en klinisk och holistisk syn på personbedömning fram, där erfarna psykologer ansågs kunna väga samman testresultat, intervjuer och intryck till en övergripande bedömning av kandidatens potential. Detta låg i linje med den tidens humanistiska och relationella ideal inom organisationspsykologi och ledarskap.

Kritiken

Samtidigt började forskare ifrågasätta den här typen av kliniska helhetsbedömningar. Redan på 50-talet argumenterade Paul Meehl för att statistiska modeller och mekaniska kombinationer av testresultat och intervjuer oftast var mer träffsäkra än experters intuitiva bedömningar. Under de följande decennierna visade studier att han hade rätt: enkla statistiska modeller tenderar att prestera lika bra eller bättre än mänskliga experter när komplex information ska vägas samman. 

Trots det fortsatte individuella psykologiska bedömningar att vara populära i praktiken. Det kan delvis bero på att det finns en stark föreställning om att personbedömning är så komplext att det behövs en lika komplex människa på andra sidan för att kunna göra en träffsäker bedömning. Men forskningsstödet för den holistiska bedömningsmodellen har länge varit förvånansvärt svagt i relation till hur vanligt arbetssättet är.

Människor är dåliga på att integrera komplex information

Kritiken mot psykologiska djupintervjuer och holistiska personbedömningar handlar framförallt om hur människor fattar beslut. Forskning på prognostiska bedömningar och beslut (sannolikheten att x kommer att inträffa, exempelvis att en viss person kommer att prestera väl i en given roll) visar konsekvent att enkla statistiska modeller presterar lika bra eller bättre än experter. 

Läs mer: Träffsäkerhet genom mekanisk bedömning

Kuncel och Highhouse (2011) riktar särskilt kritik mot föreställningen att erfarna psykologer eller rekryterare kan väga samman stora mängder information på ett framgångsrikt sätt. De konstaterar att den mänskliga hjärnan har mycket begränsad kapacitet att hantera komplexa interaktioner mellan olika variabler och att “experter” ofta överskattar sin förmåga att identifiera unika mönster hos kandidater. 

Det betyder inte att erfarna intervjuare saknar värde. Men det betyder att bedömningar av kandidatens lämplighet inte automatiskt blir mer träffsäkra för att processen känns avancerad eller psykologiskt djup. 

Reliabilitet – ett underskattat problem

Ett av de största problemen med djupintervjuer är reliabiliteten, alltså hur stabila och konsekventa de är. Om olika psykologer eller rekryterare kommer fram till helt olika slutsatser om samma person är det svårt att hävda att metoden är stabil. 

Ryan, Barbera och Sackett (1990) undersökte just detta genom att låta tre psykologer med lång erfarenhet av individuell bedömning utvärdera och skriva bedömningsrapporter om samma tre kandidater. När 123 andra personer (86 psykologistudenter och 37 chefer) sedan försökte identifiera vilka rapporter som handlade om samma kandidat lyckades ingen göra det korrekt. Majoriteten (88% av studenterna och 92% av cheferna) kunde inte identifiera tre rapporter som hörde till samma kandidat. En förhållandevis stor andel (28 respektive 19%) presterade inte bättre än slumpen. Olika psykologer beskrev alltså samma person på ganska olika sätt.

En psykologisk djupintervju och bedömning utifrån den är en förhållandevis ostrukturerad metod. Visserligen kan det finnas ett strukturerat tillvägagångssätt i grunden, men metoden bygger på att få en djupare förståelse för just den här individen. Därför kan varken frågorna eller bedömningarna vara helt strukturerade. Frågorna anpassas efter det som kommit fram i testet/testerna och dialogen som uppstår under intervjun. 

Det här är viktigt eftersom låg reliabilitet sätter ett tag för validiteten. Om bedömningen varierar kraftigt mellan olika intervjuare kan vi inte lita på precisionen i mätningen.

Djupintervju och träffsäkerhet

Det finns mycket lite forskning på den här typen av djupintervjuer och individuella helhetsbedömningar. En orsak är att det finns inbyggda utmaningar med att studera fenomenet. Ofta anställer organisationen bara en eller några få, vilket medför enorma problem med små urval och beskuren spridning. En annan utmaning är att holistiska bedömningar sällan blir översatta till siffror, utan bygger snarare på en narrativ beskrivning av kandidatens styrkor och begränsningar. Det gör det i sin tur omöjligt att analysera statistiskt, om inte beskrivningarna översätts till siffror först. 

Men den forskning som finns kan ändå ge oss några indikationer. 

Meta-analys på intervjuer med olika typer av innehåll (McDaniel m.fl., 1994) 

Studien jämförde tre olika typer av intervjuer:

  • Framåtblickande beteendeintervjuer: a.k.a. situationsbaserade intervjuer där kandidaten får resonera kring hur hen hade agerat i en potentiell framtida situation. 
  • Jobbrelaterade och bakåtblickande beteendeintervjuer: här slog man ihop intervjuer som fokuserade på tidigare erfarenheter, kunskaper och agerande.
  • Psykologiska intervjuer: intervjuer med fokus på kandidatens personliga egenskaper, ofta konstruerade av en psykolog. 

Starkast samband med arbetsprestation hade de framåtblickande beteendeintervjuerna (p = .35), följt av de jobbrelaterade/bakåtblickande (p = .28) och sist de psykologiska (p = .20). En förklaring är att strukturerade intervjuer är mer träffsäkra (p = .31) än ostrukturerade (p = .23) och att psykologiska intervjuer tenderar att vara mindre strukturerade. 

Metastudien kunde också visa att intervjuer hade högre träffsäkerhet (p = .32) när intervjuaren inte hade tillgång till kandidatens kognitiva testresultat jämfört med när intervjuaren hade tillgång till testresultatet (p = .18), oavsett om intervjun var strukturerad eller ostrukturerad. 

Meta-analys på individuella psykologiska bedömningar (Morris m.fl., 2015)

Här definierar författarna individuella bedömningar som urvalsförfarande där enskilda kandidater får gå igenom flera bedömningsmetoder och en eller flera bedömare gör en övergripande utvärdering (ej mekanisk) av kandidaternas lämplighet för ett jobb (exempelvis tester + djupintervju). 

Meta-analysen rapporterade en övergripande validitet på p = .30 men hittade också en hel del variation och skillnader beroende på hur den individuella bedömningen såg ut:

  • Bedömningar där testerna inkluderade ett kognitivt test var mer valida (p = .32) än bedömningar där testerna inte inkluderade ett kognitivt test (p = .14). Huruvida testbatteriet inkluderade personlighetstest eller biodatatest hade ingen signifikant påverkan på träffsäkerheten. 
  • Bedömningar som inkluderade en intervju tenderade att vara MINDRE valida (p = .27) än bedömningar utan intervju (p = .42). 
  • Samma bedömare för alla kandidater var mer träffsäkert (p = .44) än olika bedömare (p = .27).
  • Högre validitet vid rekrytering till chefspositioner (p = .35) jämfört med icke-chefspositioner (p = .21).

Hur bra är då en validitet på .30? För att sätta siffran i perspektiv kan vi jämföra med andra vanliga urvalsmetoder. Här får vi ha i åtanke att träffsäkerheten varierar beroende på hur relevant innehållet är och hur strukturerat genomförandet är, men för enkelhetens skull kan vi ta genomsnittliga uppskattningar från sammanställningen av Sackett m.fl. (2022):

  • Strukturerade intervjuer: p = .42
  • Kognitiva tester: p = .31
  • Integritetstest (en form av personlighetstest): p = .31
  • Femfaktormodellen (kontextualiserat, d.v.s. utformat för arbetslivet): p = .12-25 för enskilda dimensioner

Sammantaget kan vi konstatera att träffsäkerheten hos de individuella psykologiska bedömningarna ligger ungefär på samma nivå som testerna i sig, men kommer inte upp på nivå med strukturerade intervjuer. En djupintervju adderar med andra ord inte särskilt mycket till träffsäkerheten efter genomförda tester.  

Läs mer: Vilka urvalsmetoder är bäst vid rekrytering?

Meta-analys på inkrementell validitet hos intervjuer utöver tester (Cortina m.fl., 2000)

I den här studien undersökte forskarna inkrementell validitet, det vill säga vilken adderad validitet vi kan få av att lägga till urvalsmetoder. Forskarna meta-analyserade sambanden mellan kognitiv förmåga, målmedvetenhet och intervjuer med olika grad av struktur. Med hjälp av dessa värden och validitetsestimat från tidigare metastudier på de tre metoderna kunde de sedan uppskatta den inkrementella validiteten hos intervjuer utöver test av kognitiv förmåga och målmedvetenhet:

  • Intervjuer med låg grad av struktur (ingen standardisering av varken frågor eller bedömning): 0,9-2,2 procent inkrementell validitet. 
  • Intervjuer med måttlig grad av struktur (viss standardisering av frågor och/eller bedömning): 1,8-6,2 procent inkrementell validitet.
  • Intervjuer med hög grad av struktur (standardisering av frågor och bedömning): 12,3-22,2 procent inkrementell validitet.  

Mer strukturerade intervjuer är med andra ord ett bättre komplement till tester än mindre strukturerade intervjuer. En psykologisk djupintervju skulle i de flesta fall klassas som låg eller måttlig grad av struktur.

Meta-analys på mekaniska vs kliniska bedömningar (Kuncel m.fl., 2013)

Studien undersökte validiteten hos mekaniska respektive kliniska/intuitiva bedömningar i urvals- och antagningssituationer. Klinisk/intuitiv bedömning innebär att en eller flera människor använder sitt omdöme och gör en intuitiv helhetsbedömning. Mekanisk bedömning innebär istället att man kombinerar bedömningar från enskilda moment med hjälp av en regel, formel eller algoritm. 

Mekaniska bedömningar hade genomgående högre träffsäkerhet än kliniska bedömningar. Skillnaden var särskilt stor när det gällde att förutsäga arbetsprestation, i genomsnitt r = .44 för mekanisk bedömning och r = .28 för klinisk bedömning. 

Det är svårt att inte tolka detta som att standardiseringen står för en stor del av träffsäkerheten, inte den fria kliniska tolkningen. 

Hur bör vi använda personlighetstester?

Vad kan vi lära oss av forskningen när det gäller användningen av personlighetstester i rekrytering? Nedan är fyra evidensbaserade råd för dig som vill maximera träffsäkerheten.

1: Gör en ordentlig arbetsanalys

Eventuell personlighetstestning bör vara direkt kopplad till rollens faktiska krav. Resultat från personlighetstester som bygger på en strukturerad arbetsanalys har betydligt högre validitet än generell personlighetstestning (Tett, Jackson & Rothstein, 1991). I praktiken innebär det att:

  • Definiera vilka beteenden som är viktiga för framgång i rollen
  • Koppla dessa till relevanta personlighetsdimensioner
  • Mäta och utvärdera dessa och inga andra 

2: Kvalitetssäkra testerna

Det är stor skillnad på test och test. Därför behöver du säkerställa att testet håller hög kvalitet och lämpar sig för urval. Ett bra personlighetstest ska vara baserat på en solid personlighetsteori och utformat för en arbetskontext. Det ska också kunna uppvisa tillfredsställande reliabilitet och validitet. De normgrupper vi använder ska vara relevanta för målgruppen i rekryteringen. Allt detta ska du kunna få svar och dokumentation på av din testleverantör.

3: Använd strukturerade intervjuer frikopplade från testresultatet

Intervjun bör vara strukturerad och även den tydligt kopplad till arbetsanalysen. Det innebär alltså inte en djupintervju som utgår från testresultatet, utan en fristående intervju som fokuserar på de kompetenser som rollen kräver. Allra helst ska den som intervjuar inte titta på kandidatens testresultat. Då blir intervjun som mest träffsäker och utgör också ett bättre komplement till testresultatet. 

Hur ser en strukturerad intervju ut?

  • Samma frågor till alla
  • Bedömning på dimensions- eller frågenivå
  • Bedömningsstöd 

Läs mer: Strukturerade intervjuer – sju sätt att skapa struktur i anställningsintervjun

4: Kombinera testresultat och intervjuresultat mekaniskt

Bestäm i förväg hur du ska väga samman testresultat och intervjubedömning. Ska de väga lika tungt eller ska någon av dem väga tyngre? Lägg ihop skattningar på samma sätt för alla kandidater.

Vill du sedan göra en mer kvalitativ och intuitiv helhetsbedömning går det bra, men kombinera resultaten mekaniskt först och utgå från det underlaget i den fortsatta diskussionen. Det ger ett bättre beslutsunderlag och minskar risken för att den initiala magkänslan får oproportionerligt stort inflytande över beslutet. 

Psst! Ladda ner Tema HR:s kostnadsfria bedömningsmatris som gör det enklare att göra strukturerade och mekaniska bedömningar i din rekryteringsprocess.

Referenser och lästips

Cortina, J., Goldstein, N., Payne, S., Davison, H., & Gilliland, S. (2000). The incremental validity of interview scores over and above cognitive ability and conscientiousness scores. Personnel Psychology, 53(2), 325-351. 

Highhouse, S. (2002). Assessing the candidate as a whole: A historical and critical analysis of individual psychological assessment for personnel decision making. Personnel Psychology, 55(2), 363-396.

Kuncel. N. R., Klieger, D. M., Connelly, B. S., & Ones, D. S. (2013). Mechanical versus clinical data combination in selection and admissions decisions: a meta-analysis. Journal of Applied Psychology, 98(6), 1060-1072.

Kuncel, N. R., & Highhouse, S. (2011). Complex predictions and assessor mystique. Industrial and Organizational Psychology, 4, 302-306.

McDaniel, M. A., Whetzel, D. L., Schmidt, F. L., & Maurer, S. D. (1994). The validity of employment interviews: A comprehensive review and meta-analysis. Journal of Applied Psychology, 79(4), 599-616. 

Morris, S. B., Daisley, R. L., Wheeler, M., & Boyer, P. (2015). A meta-analysis of the relationship between individual assessments and job performance. Journal of Applied Psychology, 100(1), 5–20.

Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040-2068.  

Tett, R. P., Jackson, D. N., & Rothstein, M. (1991). Personality measures as predictors of job performance: A meta-analytic review. Personnel Psychology, 44(4), 703-742.

Prenumerera

Vill du få HR-forskning direkt i din inkorg? Prenumerera på nya inlägg här:

Kategorier

Integritetspolicy

Här hittar du artiklar om forskningen inom HR, organisation och ledarskap. Vill du veta mer om hur vi förhåller oss till innehållet? Läs vår innehållspolicy.

Senaste artiklarna

Minnesvärda kandidatupplevelser – citat från faktiska kandidater
  “Jag investerade nio veckor i processen och fick ingenting tillbaka.” “Det …
Kandidatupplevelsens affärsvärde
Kandidatupplevelse har på senare år blivit en allt viktigare faktor i rekrytering. …
Bristen på kunskap inom HR
Goda resultat i HR-arbetet kan antas vara konsekvensen av lämpliga beslut om …
Är din organisation en lärande organisation?
För många organisationer är lärande högt upp på agendan. Kunskaper och färdigheter …
Hur träffsäkra är AI-intervjuer? Ett djupdyk i reliabilitet och validitet
Den tekniska utvecklingen har möjliggjort AI-intervjuer, intervjuer som helt eller delvis genomförs …

Publicerat

i

av

Etiketter:

Kommentarer

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *