Observational databases provide unprecedented opportunities for secondary use in biomedical research. However, these data can be error-prone and must be validated before use. It is usually unrealistic to validate the whole database because of resource constraints. A cost-effective alternative is a two-phase design that validates a subset of records enriched for information about a particular research question. We consider odds ratio estimation under differential outcome and exposure misclassification and propose optimal designs that minimize the variance of the maximum likelihood estimator. Our adaptive grid search algorithm can locate the optimal design in a computationally feasible manner. Because the optimal design relies on unknown parameters, we introduce a multiwave strategy to approximate the optimal design. We demonstrate the proposed design's efficiency gains through simulations and two large observational studies.
Les bases de données observationnelles ouvrent des opportunités inédites pour la recherche biomédicale en raison de leur potentiel d’utilisation secondaire. Toutefois, les limites de ressources empêchent généralement la validation complète de ce type de base de données. Une méthode en deux phases qui vérifie un sous-ensemble d’enregistrements enrichis en informations pertinentes pour une question de recherche spécifique pourrait être utilisée. Les auteurs de cet article considèrent l’estimation du rapport de cotes en présence de biais de classification du résultat et de l’exposition ; ils proposent des plans optimaux qui minimisent la variance de l’estimateur du maximum de vraisemblance. Leur algorithme de recherche en grille adaptative est capable de trouver le plan optimal de manière efficace en termes de calcul. Sachant que ce plan optimal dépend de paramètres inconnus, ils utilisent une stratégie en plusieurs cycles de calcul pour son approximation. Enfin, ils mettent en évidence les gains d’efficacité du plan proposé grâce à des simulations et deux grandes études observationnelles.
Keywords: Data audit; HIV/AIDS; likelihood estimation; measurement error; two-phase design.