Measuring and correcting staff variability in large-scale OSCEs

Skerdi Haviari; Christian de Tymowski; Nelly Burnichon; Cédric Lemogne; Martin Flamant; Philippe Ruszniewski; Saja Bensaadi; Gregory Mercier; Hasséne Hamaoui; Université Paris Cité OSCE study group; Tristan Mirault; Albert Faye; Donia Bouzid

doi:10.1186/s12909-024-05803-6

Measuring and correcting staff variability in large-scale OSCEs

BMC Med Educ. 2024 Jul 29;24(1):817. doi: 10.1186/s12909-024-05803-6.

Authors

Skerdi Haviari^{1

2

3}, Christian de Tymowski^{1

4

5}, Nelly Burnichon^{1

6

7}, Cédric Lemogne^{1

8

9}, Martin Flamant^{1

4

10}, Philippe Ruszniewski^{1

4

11}, Saja Bensaadi¹, Gregory Mercier¹, Hasséne Hamaoui¹; Université Paris Cité OSCE study group; Tristan Mirault^{1

6

12}, Albert Faye^{1

13

14}, Donia Bouzid^{15

16

17}

Collaborators

Université Paris Cité OSCE study group:
Michael Thy, Anna Pellat, Gilles Soulat, Alexy Tran Dinh, Valentine Ferré, Nathan Peiffer Smadja, Benjamin Deniau, Bénédicte Oules, Yann Nguyen, Lina Khider, Thibaud Soumagne, Augustin Gaudemer, Idir Ouzaid, Sophie Mazar, Jean Marc Liger, Eric Desrentes, Léonore Muller

Affiliations

¹ UFR de médecine, Université Paris Cité, Paris, France.
² Université Paris Cité, INSERM UMR1137, IAME, F-75018, Paris, France.
³ Epidemiology, Biostatistics and Clinical Research Department, Bichat-Claude Bernard Hospital, APHP, Paris, France.
⁴ Université Paris Cité, INSERM UMR1149, CRI, F-75018, Paris, France.
⁵ Anesthesia and Intensive Care Department, Louis Mourier Hospital, APHP, Colombes, France.
⁶ Université Paris Cité, INSERM UMR970, Paris Cardiovascular Research Center (PARCC), Paris, France.
⁷ Oncology Genetics Department, Fédération de Génétique et de Médecine Génomique, Georges-Pompidou European Hospital, APHP, Paris, France.
⁸ Université Paris Cité and Université Sorbonne Paris Nord, Inserm, INRAE, Center for Research in Epidemiology and StatisticS (CRESS), Paris, France.
⁹ Psychiatry Department, Hôtel-Dieu Hospital, APHP, Paris, France.
¹⁰ Renal Physiology Department, Bichat-Claude Bernard Hospital, APHP, Paris, France.
¹¹ Gastroenterology and Pancreatology Department, Beaujon Hospital, APHP, Clichy, France.
¹² Arterial Hypertension Department, Georges-Pompidou European Hospital, APHP, Paris, France.
¹³ Pediatrics Department, Robert Debré Hospital, APHP, Paris, France.
¹⁴ Université Paris Cité, INSERM UMRS1123, ECEVE, F-75010, Paris, France.
¹⁵ UFR de médecine, Université Paris Cité, Paris, France. [email protected].
¹⁶ Université Paris Cité, INSERM UMR1137, IAME, F-75018, Paris, France. [email protected].
¹⁷ Emergency Department, Bichat-Claude Bernard Hospital, APHP, Paris, France. [email protected].

Abstract

Context: Objective Structured Clinical Examinations (OSCEs) are an increasingly popular evaluation modality for medical students. While the face-to-face interaction allows for more in-depth assessment, it may cause standardization problems. Methods to quantify, limit or adjust for examiner effects are needed.

Methods: Data originated from 3 OSCEs undergone by 900-student classes of 5^th- and 6^th-year medical students at Université Paris Cité in the 2022-2023 academic year. Sessions had five stations each, and one of the three sessions was scored by consensus by two raters (rather than one). We report OSCEs' longitudinal consistency for one of the classes and staff-related and student variability by session. We also propose a statistical method to adjust for inter-rater variability by deriving a statistical random student effect that accounts for staff-related and station random effects.

Results: From the four sessions, a total of 16,910 station scores were collected from 2615 student sessions, with two of the sessions undergone by the same students, and 36, 36, 35 and 20 distinct staff teams in each station for each session. Scores had staff-related heterogeneity (p<10^-15), with staff-level standard errors approximately doubled compared to chance. With mixed models, staff-related heterogeneity explained respectively 11.4%, 11.6%, and 4.7% of station score variance (95% confidence intervals, 9.5-13.8, 9.7-14.1, and 3.9-5.8, respectively) with 1, 1 and 2 raters, suggesting a moderating effect of consensus grading. Student random effects explained a small proportion of variance, respectively 8.8%, 11.3%, and 9.6% (8.0-9.7, 10.3-12.4, and 8.7-10.5), and this low amount of signal resulted in student rankings being no more consistent over time with this metric, rather than with average scores (p=0.45).

Conclusion: Staff variability impacts OSCE scores as much as student variability, and the former can be reduced with dual assessment or adjusted for with mixed models. Both are small compared to unmeasured sources of variability, making them difficult to capture consistently.

Keywords: Inter-rater variability; OSCE; Score variability.

MeSH terms

Clinical Competence* / standards
Education, Medical, Undergraduate / standards
Educational Measurement* / methods
Educational Measurement* / standards
Humans
Observer Variation*
Paris
Reproducibility of Results
Students, Medical*