Resolve "integrer les données INSEE du statut d'occupation par nombre de pièces des résidences principales"
Closes #76
Merge request reports
Activity
8 # librairies ---------- 9 library(tidyverse) 10 library(lubridate) 11 library(datalibaba) 12 # library(googlesheets4) 13 14 rm(list = ls()) 15 16 # chargement data ------- 17 download.file(url = "https://www.insee.fr/fr/statistiques/fichier/7631446/TD_PRINC2_2020_csv.zip", 18 destfile = "extdata/TD_PRINC2_2020_csv.zip") 19 unzip("extdata/TD_PRINC2_2020_csv.zip", overwrite = TRUE, exdir = "extdata") 20 21 22 # chargement data annees precedentes ------- 23 load("extdata/statut_occupation_des_rp.RData") @JulietteEngelaere oui, j'avais vu ça dans ton code, mais j'ai fait comme ça dans un premier temps pour pouvoir rajouter plus facilement des années plus anciennes, qui de plus n'avaient pas exactement le même format (intitués des colonnes et format de fichier), car je ne savais pas combien d'années j'allais intégrer. Je vais rectifier.
Par contre, tu as il me semble un soucis dans ton code du mode de chauffage des RP, car si tu lances plusieurs fois le script sur la même année, tu vas te retrouver avec des lignes en double dans le sgbd. Pour pallier à cela, j'ai utilisé la commande distinct() ligne 76 dans mon script.
je me suis rendu compte que la fonction distinct ne fonctionne pas car en chargeant la donnée dans le sgbd, on arrondit la valeur je pense aux chiffres affichés. Du coup si je recharge 2020 depuis le sgbd et que je recharge 2020, les nouvelles valeurs bien qu'identiques à l'affichage, ne le sont pas en réalité et la fonction distinct ne marche pas.
Afin de ne pas prendre le risque de retrouver les vaeurs en double, je reste donc avec ma solution de créer un fichier rdata que je sauvegarde dans extdata. J'ai copié ce fichier dans x/scte/does/it/extdata.
added En cours label
assigned to @JulietteEngelaere
Je n'ai pas validé cette demande de fusion car pour les données issues du RP INSEE, il faut unifier notre manière de traiter les tableaux complémentaires. Une idée à explorer ensemble serait de faire un schema RP INSEE qq part pour garder trace de nos intégration précédente et ne mettre dans le schéma portraits de territoires que les données à jour (dernier millésime + 2 millésimes antérieurs, espacés de 5 ou 6 ans)
mentioned in issue #79
mentioned in commit 584da295