Statistical Modeling in International Large-scale Assessments

Publicerad:2017-01-10

Uppdaterad:2017-02-15

Inga Laukaityte har i sin avhandling undersökt hur man ska hantera komplexiteten av storskaliga komparativa studier som Timss och Pisa när man vill använda flernivåanalys.

Författare

Inga Laukaityte

Handledare

Professor Marie Wiberg, Umeå universitet Universitetslektor Kenny Bränberg, Umeå universitet Universitetslektor Ewa Rolfsman, Umeå universitet

Opponent

Professor Bernard Veldkamp,University of Twente, Netherlands

Disputerat vid

Umeå universitet

Disputationsdag

2017-01-12

Titel (se)

Statistisk modellering i internationella komparativa mätningar

Titel (eng)

Statistical Modeling in International Large-scale Assessments

Statistisk modellering i internationella komparativa mätningar

Att testa och jämföra elever, lärare, medborgare, eller liknade i nationellt och internationellt perspektiv har blivit allt vanligare. Den här typen av undersökningar omfattar allt från småbarnsuppfostran till vuxnas kunskaper med varierande fokus från studenter till lärare. I denna avhandling används data från två internationella storskaliga komparativa mätningar: TIMSS (Trends in International Mathematics and Science Study) och PISA (Programme for International Student Assessment). Syftet med TIMSS är att jämföra och beskriva elevers kunskaper inom matematik och naturvetenskap samt deras inställning till dessa ämnen för att förbättra lärandet hos eleverna. Syftet med PISA är att undersöka i vilken utsträckning elever är förberedda på att klara sig i samhället, genom att undersöka effekten av utbildning inom läsning, matematik och naturvetenskap. Både TIMSS och PISA syftar till att beskriva, jämföra och förstå elevers prestationer inom och mellan länder samt över tid. De internationella storskaliga komparativa mätningarna TIMSS och PISA är mycket komplexa i sina designer och analys av sådana data kräver därmed avancerade statistiska analysverktyg. För att ta hänsyn till datas hierarkiska struktur kan exempelvis flernivåanalys användas. Syftet med avhandlingen är att undersöka hur man ska hantera komplexiteten av storskaliga komparativa studier när man vill använda flernivåanalys.

De storskaliga komparativa mätningarna använder en stickprovsdesign i flera steg, vilket innebär att enheter såsom skolor, klassrum eller studenter vid några eller alla steg väljs med olika sannolikheter. För att kunna göra tillförlitliga uppskattningar och dra giltiga slutsatser ska stickprovsvikter användas. Således, i det första pappret, undersöks olika metoder för hantering av stickprovsvikterna i flernivåmodeller vid analys av storskaliga komparativa mätningar och rekommendationer ges.

På grund av begränsningar i tid och antalet studenter, så använder de komplexa mätningarna så kallad matrissampling av uppgifter. Detta innebär att en responsvariabel, dvs. elevernas provresultat, innehåller en stor mängd både ofullständig och avsiktligt saknad information. För att uppskatta elevernas kunskaper så använder TIMSS och PISA en metod som resulterar i fem s.k. plausibla värden, dvs. prestationsvärden beräknade för varje elev. I det andra pappret, så undersöks, med hjälp av både verklig och simulerad data, olika användarstrategier vi användning av plausibla värdena för medelvärden, varianser och när flernivåmodeller används.

Saknad information på grund av användandet av sampling i flera steg, exempelvis som den som används i PISA, kan ordnas i ett icke-monotont datamönster över saknad information, där alla variabler är ofullständiga och högt positivt korrelerade. I det tredje pappret, jämför vi några imputeringsmetoder: en enkel imputation från en betingad fördelning (med och utan stickprovsvikter) och multipel imputation, för data med ett icke-monotont avsaknat mönster (utan fullständiga variabler) och hög positiv korrelation mellan variablerna.

I flera av de senaste internationella komparativa mätningarna, uppvisar elever i Sverige en minskande prestation. Tidigare forskning har visat att förändringar i prestationen beror på elevens prestationsnivå. I det fjärde pappret studeras förhållandet mellan elevernas resultat och mellanskolvariansen och ett försök görs att identifiera faktorer som är förknippade med elevernas matematikresultat på PISA i låg-, medel- och högpresterande skolor i de nordiska länderna.

Statistical Modeling in International Large-scale Assessments

This thesis contributes to the area of research based on large-scale educational assessments, focusing on the application of multilevel models. The role of sampling weights, plausible values (response variable imputed multiple times) and imputation methods are demonstrated by simulations and applications to TIMSS (Trends in International Mathematics and Science Study) and PISA (Programme for International Student Assessment) data.

The large-scale assessments use multistage sampling design, which means that the units such as schools, classrooms, or students at some or all stages are selected with unequal probabilities. In order to make valid estimates and inferences sampling weights should be used. Thus, in the first paper, we examine different approaches and give recommendations concerning handling sampling weights in multilevel models when analyzing large-scale assessments.

Due to limitations in time and the number of students, the complex surveys use matrix sampling of items. This means that a response variable, i.e. students’ performance, contains a large amount of information that is missing by design. Therefore, in order to estimate students’ proficiency, TIMSS and PISA use the plausible values approach, which results in a set of five plausible values – proficiencies, computed for each student. In the second paper, different user strategies concerning plausible values for multilevel models as well as means and variances are examined with both real and simulated data. Missing information that is present because of the matrix sampling design for instance like the one used in PISA, can be arranged into a non-monotone missing data pattern, where all variables are incomplete and highly positively correlated. In the third paper, we compare a few imputation methods: a single imputation from a conditional distribution (with and without weights) and multiple imputation, for data with a non-monotone missing pattern (with no complete variables) and high positive correlation between variables.

In several of the recent international large-scale assessments, students in Sweden demonstrate a decreasing performance. Some previous research has shown that changes in performance depend on students’ performance levels. In the fourth paper, we studied the relationship between student performance and the between-school variance and tried to identify factors associated with student performance in mathematics in PISA in low-, medium-, and high- performing schools in the Nordic countries.

Relaterade länkar

Internationellt Kognition, minne Didaktik Grundskola 7-9 Bedömning

Forskningsbevakningen presenteras i samarbete med

forskningsinstitutet Ifous

Läs mer

Webbkonferens

Höstlovsforum Grundskola

Välkommen till Höstlovsforum – Skolportens fortbildningspaket för v. 44, med fokus på lärande, kollegial utveckling och pedagogisk inspiration! Vi erbjuder digital, forskningsbaserad fortbildning för hela personalgruppen. Välj fritt ur föreläsningsbiblioteket och delta via vår utbildningsplattform, 23 okt–1 nov.

Läs mer och boka