Explorer les échecs d'appariement entre le referentiel des indicateurs et la base des indicateurs
Plusieurs sources de divergences existent entre la base des indicateurs et son référentiel et peuvent expliquer ces échecs d'appariement :
- une différence d'encodage entre le SGBD et le tableur,
- un problème de longueur des noms de variables : 63 caractères max dans le SGBD alors que pas de limite sur R et le tableur,
- une saisie dans le tableur référentiel des indicateurs obsolète.
On peut les identifier dans create_datamart.R au niveau de la ligne 106 :
result_1 <- result_0 %>% # ensembles des données téléchargées sauf indic etalement urbain
# ajout des métadonnées asssociées : libellé, unités, secret, source
full_join(metadata_donnee_0 %>% select(-source) , by = "variable")
# Variables présentes dans le SGBD n'ayant pas de correspondance dans le référentiel (environ 200)
result_2 <- filter(result_1, is.na(libelle_variable)) %>% group_by(variable, source_propre) %>% slice(1)
# Indicateurs présents dans le référentiel mais absents de la base SGBD (environ 160)
result_3 <- filter(result_1, is.na(TypeZone)) %>% group_by(variable, source_propre) %>% slice(1)
La conséquence de ces échecs d'appariement sont l'absence de certaines données de l'application alors qu'elle sont dans la base, ou le maintien/la mise à jour inutile d'indicateurs dans le référentiel.
Edited by Juliette Engelaere-Lefebvre