en abstrakt illustration av AI-intervjuer

Hur träffsäkra är AI-intervjuer? Ett djupdyk i reliabilitet och validitet

Den tekniska utvecklingen har möjliggjort AI-intervjuer, intervjuer som helt eller delvis genomförs och bedöms med hjälp av artificiell intelligens. Men hur stabila och träffsäkra är de egentligen? 

Artikeln är den andra i en serie artiklar om AI i intervjuer. Den första tar upp möjliga effekter på kandidatupplevelse, rättvisa och risken för diskriminering. 

Läs mer: AI i intervjuer – hur påverkas kandidatupplevelse och rättvisa?

Artikeln går igenom: 

Predicera arbetsprestation med AI

Reliabilitet i AI-intervjuer

Validitet i AI-intervjuer

Intrycksstyrning och fusk i AI-intervjuer

Sammanfattning: Möjligheter och risker

Frågor att ställa inför implementering av AI-intervjuer

Predicera arbetsprestation med AI

Syftet med rekrytering är i huvudsak att hitta personer som kommer att göra ett bra jobb. Träffsäkerhet handlar om hur bra en urvalsmetod är på att göra just det. För att förstå hur träffsäkerheten kan se ut och variera mellan AI-verktyg är det bra att känna till hur det går till när man utvecklar dessa modeller. 

Vad ska modellen predicera? 

När man utvecklar en prediktiv modell vill man bestämma kriteriet, det vill säga vad det är vi vill att modellen ska förutsäga. Detta kan variera mellan modeller och påverkar användbarheten. Det kan exempelvis vara:

  • Arbetsprestation: Baserat på chefers bedömningar av arbetsprestation eller objektiva mått på prestation (till exempel försäljningsresultat eller produktivitet). 
  • Specifika kompetenser eller egenskaper: Baserat på tester alternativt mer eller mindre strukturerade bedömningar av dessa kompetenser och egenskaper. 
  • Anställningslängd: Baserat på information om hur länge nyanställda stannar.

Vilka prediktorer ska modellen använda?

För att utveckla modellen behöver vi också bestämma vilken indata vi ska använda. Indatan innehåller information som vi tror kan förutsäga kriteriet, och det är i denna information som modellen hittar mönster som formar algoritmen. I en modell som ska analysera intervjusvar kan det handla om:

  • Innehåll i svar: Vilka ord kandidaten använder, strukturen på svaret, komplexitet i meningar, känslouttryck. 
  • Röst: Tonläge, pauser, tempo. 
  • Icke-verbal data: Ansiktsuttryck eller kroppsspråk. 

Olika verktyg kan använda olika prediktorer i sina modeller, men att använda röst och icke-verbal data är starkt ifrågasatt på grund av risken för bias. 

Träning av modellen

För att bygga en modell samlar man in stora mängder träningsdata från kandidater, anställda eller andra personer:

  1. Deras intervjudata (text, ljud och/eller video).
  2. Information om deras faktiska prestation (det definierade kriteriet, kan exempelvis vara en bedömning av arbetsprestation eller en bedömning av deras intervjusvar gjord av en människa).

När AI-modellen tränas hittar den mönster i intervjusvaren som korrelerar med utfallet. Till exempel kan den lära sig att kandidater som använder fler exempel och har en tydligare struktur i sina svar i högre grad får en bättre bedömning av sina intervjusvar.

I samband med att man tränar modellen kan man även använda olika tekniker för att minimera diskriminering av olika demografiska grupper. Då kan man ta bort vissa prediktorer eller justera hur man viktar prediktorerna för att hitta en optimal balans mellan träffsäkerhet och minimal risk för diskriminering. 

Validering

En modell som bara fungerar på gruppen den tränats på är värdelös i praktiken. Därför måste modellen testas på nya kandidater för att se om den verkligen kan förutsäga kriteriet på ett pålitligt sätt. 

Sammanfattningsvis går det inte att säga något generellt som AI-intervjuers träffsäkerhet eftersom olika modeller är tränade på olika sätt, med olika kriterier och prediktorer. Därför är det viktigt att ta reda på vad som ligger till grund för de AI-verktyg man använder i sin rekryteringsprocess. Med det sagt kommer vi nedan att gå igenom några av de forskningsresultat som finns på reliabilitet och validitet i AI-intervjuer.    

Reliabilitet i AI-intervjuer

Hög reliabilitet är en förutsättning för rättvisa och träffsäkra rekryteringar. Reliabilitet handlar om hur konsekvent och stabil urvalsmetoden är. Ger metoden samma resultat oavsett vem som administrerar den? Blir utfallet detsamma om kandidaten genomför samma metod en vecka eller en månad senare? Om en metod inte är stabil kan vi inte lita på resultatet, och därför sätter reliabiliteten ett tak för träffsäkerheten. Det här är en av de främsta anledningarna till att mer strukturerade metoder tenderar att vara mer träffsäkra. 

När det kommer till användningen av AI i intervjuer är reliabiliteten en styrka. Människor är inte särskilt konsekventa varelser. Vi påverkas av dagsform, humör och personliga preferenser. Vi har begränsad kapacitet att bearbeta stora mängder information och tenderar att förenkla komplexa beslut. En anställningsintervju är en mentalt krävande aktivitet där vi behöver bibehålla uppmärksamhet och fokus för att kunna ta in, bearbeta och bedöma information på ett standardiserat sätt.   

Reliabilitet i mänskliga intervjuer

Forskning på reliabiliteten i anställningsintervjuer (mer specifikt i vilken utsträckning två personer gör liknande bedömning av samma intervju) visar att den är låg till tillfredsställande beroende på graden av struktur (Huffcutt m.fl., 2013). I ostrukturerade intervjuer är reliabiliteten i genomsnitt r = 0.36. Det innebär att bara 13 procent av variationen i bedömningarna är gemensam (R² = r x r). I strukturerade intervjuer (frågeguide och strukturerad bedömning av dimensioner eller frågor) är runt 56 procent av variationen gemensam (r = 0.75). 

Liknande resultat kan vi se i asynkrona intervjuer där en människa bedömer intervjun i efterhand. Brenner (2019) jämförde strukturerade och ostrukturerade bedömningar av inspelade intervjuer. Resultatet visade hög samstämmighet vid strukturerade bedömningar (r = 0.70) och betydligt lägre vid ostrukturerade (r = 0.40-50).

Algoritmer är konsekventa

En AI-bedömning bygger på en algoritm som tillämpar sina bedömningskriterier på samma sätt varje gång. Algoritmer är konsekventa (förutsatt att vi inte ändrar på dem) och därför är interbedömarreliabiliteten inte en faktor. Till skillnad från mänskliga bedömare påverkas den inte av dagsform, humör eller tillfälliga preferenser. Algoritmens ”preferenser” är inbyggda i modellen och tillämpas konsekvent på samtliga kandidater. Dessutom kan den hantera stora mängder information utan att tröttna.

Däremot är det relevant att titta på reliabilitet i form av test-retest, det vill säga: om en kandidat får samma fråga eller genomgår samma intervju vid två olika tillfällen, hur lika blir bedömningen? Ha i åtanke att kandidaten då kommer att ge (delvis) olika svar, och att det är det som bidrar till eventuell variation mellan bedömningarna. Test-retest-reliabiliteten blir därmed ett mått på hur bra metoden är på att samla in och bedöma information som är stabil över tid. 

Test-retest brukar inte rapporteras i studier på intervjuer, men däremot är det vanligt när det kommer till arbetspsykologiska tester. Välgjorda tester har en test-retest-reliabilitet på 0.70-90. Det innebär att kandidater som genomför samma test vid två olika tillfällen tenderar att få liknande resultat. Reliabiliteten brukar vara högre för kognitiva tester än personlighetstester. 

Test-retest-reliabilitet i AI-intervjuer

Det går inte att säga något generellt om test-retest-reliabiliteten för AI-intervjuer. Det beror helt enkelt på modellen som används, hur den är uppbyggd, vilka frågor den ställer och vilka parametrar den bedömer svaren på. Ett flertal studier av olika forskare som har testat AI-modeller illustrerar hur det kan variera. Deltagarna i studierna genomförde intervjuer som var utformade för att mäta personlighet, kognitiv förmåga eller generiska kompetenser. 

För en modell som bedömde dimensionerna i femfaktormodellen var test-retest-reliabiliteten i genomsnitt 0.50 (Hickman m.fl., 2022). Det är betydligt lägre än traditionella personlighetstester. För vissa av dimensionerna var reliabiliteten nära noll.

Modeller som bedömde kognitiv förmåga uppvisade varierande reliabilitet beroende på om de var utformad för att mäta generell kognitiv förmåga (0.34), verbal förmåga (0.51) eller “intellekt” (0.71, Hickman, Tay & Woo, 2025). Även detta är mycket lägre än vad vi kan förvänta av ett kognitivt test. 

Bäst test-retest-reliabilitet gav intervjuer som bedömde olika generiska kompetenser (i genomsnitt 0.72, Liff m.fl., 2024). Dessa intervjuer bestod av bakåtblickande eller framåtblickande beteendefrågor som syftade till att mäta exempelvis anpassningsförmåga, kommunikation, pålitlighet eller resultatorientering. Resultatet var baserat på över 180 000 par av intervjusvar, med en genomsnittlig tid mellan intervjuer på 44 dagar (Liff m.fl., 2024). Vi kan jämföra detta med en av få studier på test-retest-reliabilitet hos intervjuer genomförda och bedömda av människor (Schleicher m.fl., 2010). I studien var sambandet mellan två intervjutillfällen i genomsnitt 0.25-30 beroende på om intervjufrågorna var framåtblickande, bakåtblickande eller berörde erfarenhet och intresse. Här var dock tiden mellan intervjutillfällen längre, ett år, vilket gör det svårt att dra några långtgående slutsatser.

Validitet i AI-intervjuer

Validitet är ett begrepp inom vetenskaplig metod som syftar på huruvida ett mätinstrument mäter det som det är utformat för att mäta. Medan reliabilitet handlar om pålitlighet, handlar validitet om relevans. 

Kriterievaliditet: Kan AI-intervjuer förutsäga prestation?

Det första vi kanske tänker på när vi pratar om validitet hos en urvalsmetod är kriterievaliditet. Kriterievaliditet syftar på metodens samband med ett relevant utfall, till exempel arbetsprestation. Detta kan även kallas för prediktiv validitet, om datan från urvalsmetoden jämförs med utfallsdata vid en senare tidpunkt, eller det mer vardagliga träffsäkerhet

Forskningen på AI-intervjuers träffsäkerhet är mycket begränsad. De få studier som finns är försiktigt positiva: AI-modeller har potential att förutsäga relevanta utfall i arbetet. Däremot är det viktigt att återigen påminna sig om att modeller är utformade på olika sätt och kan vara olika bra på att förutsäga det leverantören påstår att de kan förutsäga. 

Kompetens och arbetsprestation

I studien av Liff m.fl. (2024) använde forskarna en AI-modell för att bedöma generiska kompetenser i en automatiserad videointervju. Modellen bedömde svaren på frågorna utifrån transkriberad text, och tog alltså inte hänsyn till röst, tonläge, ansiktsuttryck eller kroppsspråk. Forskarna tittade sedan på sambanden mellan AI-bedömningarna och olika mått på arbetsprestation hos fem grupper av anställda (totalt 1124 personer). Fyra av grupperna bestod av olika former av callcenter-medarbetare inom kundtjänst och försäljning. En grupp bestod av underhållsarbetare i ett tillverkningsbolag.

Beroende på arbetet använde företagen olika kombinationer av kompetenser i sitt urval (exempelvis resultatorientering och initiativtagande för telefonförsäljare, säkerhetsorientering och efterlevnad för underhållsarbetare). AI-bedömningen av utvalda kompetenser kunde förutsäga arbetsprestation hos alla fem grupper. Det observerade sambandet varierade mellan r = 0.20 och 0.27 (i genomsnitt 0.24). Det är något lägre men inte långt ifrån det genomsnittliga observerade sambandet mellan strukturerade intervjuer och arbetsprestation (r = 0.32) enligt metastudie av Sackett m.fl. (2022).

Personlighet, utbildningsnivå och befattningsnivå

En annan studie av en AI-chatbot, som var utformad för att utvärdera kandidaters personlighet utifrån femfaktormodellen, visade inte lika lovande resultat (Dukanovic & Krpan, 2025). AI-intervjun kunde visserligen urskilja extraversion och målmedvetenhet i deltagarnas svar, egenskaper som tenderar att vara relaterat till arbetsprestation. Däremot hade intervjubedömningen inget samband med de undersökta utfallen, utbildningsnivå och befattningsnivå, till skillnad från det traditionella personlighetstestet som kunde predicera utbildningsnivå. 

Asynkrona intervjuer bedömda av en människa

En AI-intervju kan också innebära att kandidaten genomför en intervju genom ett AI-baserat verktyg, och att en rekryterare sedan bedömer svaren. På den här typen av intervjuer finns det också väldigt lite forskning. För- och nackdelar beror på hur arbetsgivaren administrerar och senare bedömer intervjun. Det kan exempelvis vara en intervju genom chatt, telefon eller video. Den efterföljande bedömningen kan vara baserad på enbart text, ljud och/eller videoinspelning av kandidatens svar.

Förutsatt att intervjun har hög struktur i både genomförande och bedömning tyder det mesta på att vi kan uppnå åtminstone likvärdig reliabilitet och validitet som traditionella fysiska intervjuer (se exempelvis Brenner, 2019 och Schmidt & Rader, 1999, som undersöker olika former av inspelade intervjuer bedömda i efterhand). Om vi dessutom tar bort demografiska variabler och irrelevanta icke-verbala signaler som utseende och kroppsspråk har den här typen av intervjuformat potential att minimera både brus och bias i bedömningen.

Exempel från kundtjänst

Ett konkret exempel på AI-intervjuer bedömda av en människa är Jabarian och Henkel (2025). Här användes AI för att intervjua kandidater till kundtjänstjobb via telefon. Därefter fick rekryterare lyssna på intervjun och läsa igenom transkriberingen, för att sedan göra en bedömning och tillsammans med testresultat fatta beslut om anställning. I studien undersökte man inte kopplingen till arbetsprestation utan hur stor andel av kandidaterna som fick ett erbjudande, påbörjade onboarding och var kvar efter en månad. Detta jämfördes med intervjuer genomförda av rekryterare.

Resultatet var i huvudsak till AI-intervjuernas fördel. AI-intervjuer ledde till fler erbjudanden (9,73% jämfört med 8,7% för mänskliga intervjuer) och fler accepterade erbjudanden (8,99% jämfört med 8,14%). Av de som accepterade erbjudandet var det även fler från AI-gruppen som påbörjade onboarding (73,14% jämfört med 68,75%). 

När det gäller hur många som var kvar efter en månad kan vi tolka resultatet på olika sätt beroende på hur vi räknar. Av de som accepterade jobberbjudandet var det en högre andel av AI-intervjuade som stannade (73,14% jämfört med 56,52%). Om vi däremot räknar på de som faktiskt påbörjade sin onboarding var det ingen skillnad (81,9% för AI-intervjuer och 82% för mänskliga intervjuer). Av de som lämnade inom 30 dagar var det lika stor andel som lämnade frivilligt och ofrivilligt i de båda grupperna (ca 59% frivilligt och 41% ofrivilligt). 

Studien indikerar att AI-intervjuer kan resultera i fler erbjudanden och fler anställningar med likvärdig kvalitet och bibehållen kandidatupplevelse. En analys av intervjuerna visade att AI-intervjuerna var mer omfattande och täckte in fler relevanta områden, vilket rekryterare värderade högt i sin bedömning. Med andra ord kan en väl utformad AI-intervjuare säkerställa att alla kandidater får samma möjlighet att visa vad de kan, vilket kan leda till mer rättvisa bedömningar och minska risken för att kandidater avfärdas på irrelevanta grunder.

Begreppsvaliditet: Vad mäter AI-intervjuer?

Kriterievaliditet är inte det enda måttet på huruvida en metod mäter det den avser att mäta. Relevant i det här sammanhanget är också begreppsvaliditet. Det syftar på om metoden mäter det begrepp (egenskap, förmåga, kompetens) som det är avsett att mäta och inget annat. Vi kan uppskatta begreppsvaliditeten genom att se om det finns ett samband mellan metoden och en annan metod som mäter samma sak. Vi kan också undersöka om metoden är orelaterad till andra begrepp som den inte avser att mäta. 

I praktiken kan det innebära att vi tittar på sambandet mellan resultatet på en AI-intervju som avser att mäta personliga egenskaper, och ett personlighetstest som mäter samma egenskaper. Vi tittar också på hur starka sambanden är mellan bedömningarna av de olika egenskaperna, eftersom vi vill att metoden ska mäta separata egenskaper och inte någon annan, underliggande, egenskap eller irrelevant faktor. 

Begreppsvaliditet i mänskliga intervjuer

Innan vi går igenom några konkreta resultat från studier på AI-intervjuer kan vi konstatera att begreppsvaliditet är ett problem i mänskliga intervjuer. Underliggande egenskaper och förmågor som kognitiv förmåga, extraversion och kommunikation tenderar att ligga bakom positiva resultat på intervjuer – ibland mer än de egenskaper vi faktiskt vill mäta. 

Kan efterlikna mänskliga bedömningar

Flera studier på AI-intervjuer visar att modeller tränade på mänskliga bedömningar kan uppnå relativt god överensstämmelse med hur en människa skulle bedöma intervjun (Hickman m.fl., 2022; Hickman m.fl., 2025; Liff m.fl., 2024). Det finns också undantag, där modellen inte lyckas efterlikna den mänskliga bedömningen (Hickman m.fl., 2019). 

I studien av Liff m.fl. (2024), där AI:n bedömde generiska kompetenser, var sambandet med mänskliga bedömningar i genomsnitt r = 0.66. Det är ungefär vad vi kan förvänta av samstämmighet mellan två mänskliga bedömare av en strukturerad intervju. Majoriteten av kompetenserna hade måttliga samband med varandra, vilket också är ungefär vad vi kan förvänta av en traditionell intervju. 

Personlighet

När det gäller AI-intervjuer som avser att bedöma personliga egenskaper är resultaten mer blygsamma. I vissa studier lyckas AI-modellen inte alls predicera självskattad personlighet (Hickman m.fl., 2022), medan andra uppvisar låga till måttliga samband (Dai m.fl., 2022; Dukanovic & Krpan, 2025). De flesta modeller är även undermåliga på att skilja mellan olika personlighetsdrag. Sammantaget innebär detta att även om modellerna är utformade för att utläsa personlighet ur intervjusvar så är de inte särskilt bra på det. Däremot är resultatet jämförbart med mänskliga intervjuares förmåga att urskilja kandidaters personlighet baserat på en intervju. 

Att bedömningen inte stämmer överens med kandidatens självskattade personlighet betyder inte att den inte är relevant. Den mänskliga eller AI-baserade bedömningen kan fortfarande ha en koppling till ett relevant utfall. Däremot betyder det att vi inte mäter samma sak som ett personlighetstest. 

En studie som gav mer lovande resultat byggde intressant nog på en intervju som inte var utformad för att mäta personlighet (Fan m.fl., 2023). Deltagarna intervjuades av en AI-chatbot som ställde en bredd av allmänna, öppna frågor. AI-modellen gjorde sedan en uppskattning av personlighet baserat på språkliga egenskaper i kandidatens svar. Det kunde exempelvis handla om vilka ord och uttryck kandidaten använde (känslouttryck, sociala ord, kognitiva ord) och hur långa och komplexa meningarna var. Sambandet med resultat på personlighetstest var tillfredsställande (r = 0.40-58 för de olika egenskaperna). Modellen kunde med andra ord identifiera språkliga mönster som var relevanta för att predicera hur kandidaten skattar sig själv på ett personlighetstest. 

Kognitiv förmåga

För kognitiv förmåga finns inte lika många exempel. Ett undantag är Hickman m.fl. (2025) som utvärderade AI-modeller designade för att mäta kognitiv förmåga i en intervju. Modellerna hade tränats för att efterlikna antingen verbal förmåga, generell kognitiv förmåga eller en mänsklig bedömning av intellekt. Bäst överensstämmelse med metoden den tränats mot var modellen som uppskattade intellekt (r = 0.67 med den mänskliga bedömningen). Dock var sambandet mellan AI-bedömningen av intellekt och AI-bedömningen av målmedvetenhet extremt hög (r = 0.90), vilket indikerar att de i princip mätte samma sak. Modellerna som var utformade för att mäta verbal förmåga och generell kognitiv förmåga uppvisade måttliga samband med testet de tränats mot (r = 0.51 för verbal förmåga och 0.41 för generell kognitiv förmåga).  

Intrycksstyrning och fusk i AI-intervjuer

En oro som finns hos de flesta urvalsmetoder är i vilken utsträckning kandidater kan fejka sig till ett bättre resultat. Tidigare forskning konstaterar att många metoder är mottagliga för “fusk” i form av att kandidaterna medvetet förvränger sanningen för att få ett bättre resultat eller framstå som en bättre person. Detta förekommer i CV, personliga brev, intervjuer och personlighetstester. Majoriteten av kandidater gör det, men i varierande grad. Problemet är att vi inte längre kan lita på att vi mäter det vi vill mäta när kandidaterna kan lura sig till ett bättre resultat. 

Läs mer: Hur du hanterar fusk och lögner i intervjun

Risken för faking finns även i AI-intervjuer. Men hur stor är den, jämfört med andra metoder? I en studie ville forskarna undersöka precis det (Hickman, Liff, Willis & Kim, 2025). 152 deltagare fick genomföra personlighetstest och asynkrona intervjuer utifrån två scenarier. De slumpades till ett av scenarierna och gjorde sedan det andra efter 10-14 dagar. Det ena scenariot var ett “ärligt” scenario, där deltagarna fick uppmaningen att svara på ett sätt som motsvarar deras uppriktiga uppfattning av sin personlighet, beteende och tidigare prestation. Det andra scenariot skulle efterlikna en rekryteringssituation. Deltagarna fick information om ett fiktivt jobb och uppmanades att svara som att de ansökte till jobbet. 

Intervjuerna bedömdes på tre olika sätt. En ostrukturerad mänsklig bedömning (bedömarna fick ingen träning och hade inget bedömningsstöd), en strukturerad mänsklig bedömning (bedömarna fick träning och använde beteendeankare som stöd) och en AI-bedömning som var tränad på mänskliga strukturerade bedömningar. 

Mest ”fusk” i personlighetstester

Resultatet visade att deltagarna i genomsnitt fick bättre resultat i rekryteringsscenariot än i det ärliga scenariot oberoende av metod (självskattningstest, ostrukturerad mänsklig bedömning, strukturerad mänsklig bedömning eller AI-bedömning). Däremot var skillnaden störst för självskattningstestet (d = 0.62) och minst för AI-bedömningen (d = 0.14). De mänskliga bedömningarna uppvisade skillnader på ungefär samma nivå som AI-bedömningen (d = 0.17 för ostrukturerad och d = 0.22 för strukturerad). 

Studien visade också att deltagarna använde sig mer av intrycksstyrning, det vill säga att de medvetet försökte styra intrycket sig själva genom att exempelvis framhäva vissa egenskaper och dölja andra, i rekryteringsscenariot. Däremot var det bara ärlig intrycksstyrning, i form av att lyfta fram egenskaper och erfarenheter relevanta för det aktuella jobbet, som kunde förutsäga bättre resultat (dock ej i den strukturerade bedömningen). Verbal förmåga kunde dessutom förutsäga förbättrade resultat på självskattningstestet. Studien indikerar att AI-intervjuer tränade på mänskliga intervjubedömningar är ungefär lika mottagliga för faking som mänskliga intervjuer, vilket är vad vi kan förvänta oss.  

Social önskvärdhet

I en annan studie (Dukanovic & Krpan, 2025) jämförde forskarna traditionella personlighetstest med AI-intervjuer i chatformat. De ville se om social önskvärdhet påverkade kandidaternas resultat på de båda metoderna beroende på om det var en verklig rekryteringssituation eller inte.

Resultatet visade att verkliga kandidater uppvisade högre social önskvärdhet än deltagare som inte sökte jobb. Det innebär att de är mer upptagna av att svara på ett sätt som andra kommer att se positivt på, genom att exempelvis överrapportera positiva beteenden och underrapportera oönskade beteenden.

På personlighetstestet skattade verkliga kandidater sig i genomsnitt högre på “önskvärda” personlighetsdrag, såsom extraversion och målmedvetenhet. För AI-intervjun (som också mätte personlighet) var det däremot ingen skillnad i resultaten mellan arbetssökande och icke-arbetssökande. AI-intervjuerna var alltså mindre mottagliga för socialt önskvärda svar än de traditionella testerna. 

Sammanfattning: Möjligheter och risker

Artificiell intelligens kommer med nya möjligheter inom rekrytering, men det innebär också risker som kräver noggranna överväganden. På plussidan finns framförallt potentialen för ökad reliabilitet. Tekniken tröttnar inte och är konsekvent i sin tillämpning, oavsett om den ställer frågor eller gör en bedömning. Det kan minska den variation som finns i mänskliga intervjuer. När intervjuerna fokuserar på kompetenser och bedömningen görs utifrån transkriberad text kan vi också minska påverkan av icke-verbala signaler, vilket kan ge en mer rättvis bedömning. AI-intervjuer verkar också vara mindre mottagliga för intrycksstyrning och socialt önskvärda svar jämfört med självskattningstester. Dessutom kan de bidra till effektivare och snabbare processer, särskilt vid stora volymer. 

Ingen universallösning

Däremot är AI-intervjuer ingen universallösning. Validiteten varierar kraftigt mellan olika modeller, beroende på vilka data och prediktorer som används och hur modellen är tränad. I bästa fall kan den vara i nivå med strukturerade intervjuer, men det är långt ifrån självklart. Här är det viktigt att ha en dialog med sin leverantör och efterfråga dokumentation eller validera själv. Modeller som bedömer personlighet eller kognitiv förmåga når i dagsläget inte upp till standarden hos välutvecklade arbetspsykologiska tester. På dessa tester finns det dessutom enormt mycket forskning. Att välja ett granskat test med dokumentation på reliabilitet och validitet kan därför vara ett säkrare kort. 

Black-box-problematiken

Ytterligare en risk är bristande transparens kring hur modellerna fungerar – den så kallade black box-problematiken. Det kan göra det svårt att granska metoderna och upptäcka felaktigheter. Dessutom finns en risk för nya former av bias om modellerna tränats på skev eller begränsad data. Black box-problemet finns också i mänskliga intervjuer, särskilt sådana som bedöms på ett ostrukturerat sätt. Människor vet sällan hur de har kommit fram till en bedömning, om den inte bygger på tydliga kriterier och en struktur för sammanvägning av resultat. Det mest transparenta sättet att bedöma kandidater i en intervju är förmodligen att skatta varje enskilt svar mot fördefinierade, tydliga och uttalade kriterier, för att därefter väga ihop skattningarna mekaniskt. 

Lär mer: Evidensbaserad rekrytering – träffsäkerhet genom mekanisk bedömning 

Kandidatupplevelse

Slutligen kan kandidatupplevelsen påverkas både positivt och negativt. Vissa kommer att uppskatta snabbheten, flexibiliteten och den konsekventa bedömningen, medan andra kommer att uppleva AI-intervjun som opersonlig och obehaglig. Tydlig kommunikation till kandidaterna kommer att vara avgörande.

Frågor att ställa inför implementering av AI-intervjuer 

Vad ska AI-intervjun bidra med?

Vilket problem försöker vi lösa, och är AI-intervjuer rätt verktyg för det? Tänk igenom om målet är ökad träffsäkerhet, effektivitet, standardisering eller något annat. Valet av metod och verktyg bör alltid utgå från syftet. 

Vad mäter AI-intervjun – och hur?

Vilka prediktorer använder modellen (text, röst, ansiktsuttryck) och vilket kriterium har den tränats mot? Handlar det om att förutsäga arbetsprestation, kompetenser eller personlighet? Hur tränas modellen och på vilken data? En tydlig förståelse för modellens logik är en förutsättning för att kunna bedöma dess kvalitet. 

Finns dokumentation på reliabilitet och validitet?

Be leverantören om dokumentation och resultat från oberoende valideringsstudier. Hur stabil är bedömningen? Mäter den det den avser att mäta? Vilka utfall har modellen faktiskt visat sig kunna predicera – och i vilken typ av population? Om inte, finns det möjlighet att själva validera verktyget?

Vilka risker behöver vi hantera?

Finns det risker i hur data har samlats in eller hur modellen är uppbyggd som kan påverka bedömningens kvalitet? Hur hanterar vi eventuella skevheter, bristande transparens och andra begränsningar i tekniken? Fundera över hur ni kan säkerställa att ni använder AI på ett rättssäkert, etiskt och begripligt sätt. 

Hur påverkar AI-intervjuer vår nuvarande process?

Vilka steg eller metoder ersätter eller kompletterar vi med AI-intervjuer? På vilket sätt förbättrar det processen för både organisationen och kandidaterna? Definiera nyckeltal som kan följas upp efter implementering.

Referenser och lästips

Brenner, F. S. (2019). Asynchronous video interviews in selection: A systematic review and five empirical investigations. Doktorsavhandling, Freie Universitaet Berlin (Tyskland).

Dai, Y., Jayaratne, M., & Jayatilleke, B. (2022). Explainable personality prediction using answers to open-ended interview questions. Frontiers in Psychology, 13, 865841.

Fan, J., Sun T., Liu, J., Zhao, T., Zhang, B., Chen, Z., Glorioso, M., & Hack, E. (2023). How well can an AI chatbot infer personality? Examining psychometric properties of machine-inferred personality scores. Journal of Applied Psychology, 108(8), 1277-1299.

Hickman, L., Bosch, N., Ng, V., Saef, R., Tay, L. & Woo, S. E. (2022). Automated video interview personality assessments: reliability, validity, and generalizability investigations. Journal of Applied Psychology, 107(8), 1323-1351.

Hickman, L., Liff, J., Willis, C., & Kim, E. (2025). Can interviewees fake out AI? Comparing the susceptibility and mechanisms of faking across self-reports, human interview ratings, and AI interview ratings. International Journal of Selection and Assessment, 33(2), e70014.

Hickman, L., Tay, L., & Woo, S. E. (2019). Validity evidence for off-the-shelf language-based personality assessment using video interviews: convergent and discriminant relationships with self and observer ratings. Personnel Assessment and Decisions, 5(3), 12-20.

Hickman, L., Tay, L., & Woo, S. E. (2025). Are automated video interviews smart enough? Behavioral modes, reliability, validity, and bias of machine learning cognitive ability assessments. Journal of Applied Psychology, 110(3), 314-335.

Huffcutt, A., Culbertson, S., & Weyhrauch, W. (2013). Employment Interview Reliability: New meta‐analytic estimates by structure and format. International Journal of Selection and Assessment, 21(3), 264-276.

Jabarian, B., & Henkel, L. (2025). Voice AI in firms: A natural field experiment on automated job interviews. SSRN Paper. 

Liff, J., N. Mondragon, C. Gardner, C. J. Hartwell, & A. Bradshaw. (2024). Psychometric properties of automated video interview competency assessments. Journal of Applied Psychology, 109(6), 921-948.

Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040-2068.

Schleicher, D. J., Van Iddekinge, C. H., Morgeson, F. P., & Campion, M. A. (2010). If at first you don’t succeed, try, try again: Understanding race, age, and gender differences in retesting score improvement. Journal of Applied Psychology, 95(4), 603–617.

Schmidt, F. L., & Rader, M. (1999). Exploring the boundary conditions for interview validity: Meta-analytic validity findings for a new interview type. Personnel Psychology, 52(2), 445-464.

Prenumerera

Vill du få HR-forskning direkt i din inkorg? Prenumerera på nya inlägg här:

Kategorier

Integritetspolicy

Här hittar du artiklar om forskningen inom HR, organisation och ledarskap. Vill du veta mer om hur vi förhåller oss till innehållet? Läs vår innehållspolicy.

Senaste artiklarna

AI i intervjuer – hur påverkas kandidatupplevelse och rättvisa?
Artificiell intelligens tar allt större plats i rekrytering. I intervjuer kan AI …
Lärandefrämjande ledarskap – hur chefer skapar lärande på arbetsplatsen
Hur ser ett lärandefrämjande ledarskap ut? I en tid där kompetensbrist, omställning …
Udda intervjufrågor – charmigt inslag eller tveksam urvalsmetod?
Udda intervjufrågor är lätta att känna igen – de är knasiga, utan …
Bidrar förarbetet till mångfald och inkludering?
Arbetsanalyser kan användas för att utforma rekryteringsprocesser, bestämma lönenivåer, utvärdera prestationer, bygga …
Hur en expansiv lärmiljö ger organisationen förutsättningar för lärande
De flesta organisationer vill skapa bättre förutsättningar för lärande. Men vad är …

Publicerat

i

av

Kommentarer

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *