Skip to content
Snippets Groups Projects
Commit e18d6926 authored by Daniel.Kalioudjoglou's avatar Daniel.Kalioudjoglou
Browse files

script de controle pour detecter les erreurs dans la base

parent a0766fe1
Branches
No related tags found
No related merge requests found
# script de controle et d'analyse de la fiabilité des codes insee
# décompte du nombre de fois ou code insee = code commune
library(readr)
library(tidyr)
library(dplyr)
library(COGiter)
library(stringr)
library(lubridate)
library(sf)
library(forcats)
# paramêtres
millesime = 2023 #millesime du fichier
annee_conservee = 2013 # on supprime les années antérieures
BASE_PTZ_DHUP<- read_delim(paste0("/nfs/data/partage-PTZ-EPTZ/PTZ-EPTZ/BASE_PTZ_DHUP_",millesime,"_DREAL.csv"),
delim = ";", escape_double = FALSE, trim_ws = TRUE)
# suppression des années anciennes
base_intermediaire <- BASE_PTZ_DHUP %>%
filter (an >= annee_conservee)
base_intermediaire2 <- base_intermediaire %>%
select (an,cins,cpfl, cdco,lcom, dept) %>%
mutate(cins_egal_cpfl = case_when(
cins == cpfl ~ "1",
TRUE ~ "0"
),
decompte=1)
# FRANCE ENTIERE
#decompte du nombre de lignes par année
nb_lignes_tot <- base_intermediaire2 %>%
group_by(an) %>%
count() %>%
rename(nb_de_lignes = n)
nb_lignes_erreur <- base_intermediaire2 %>%
group_by(an,cins_egal_cpfl) %>%
summarise(nombre = n()) %>%
mutate(pourcentage = round(nombre / sum(nombre)*100,2)) %>%
filter(cins_egal_cpfl == "1") %>%
rename(nb_erreur = nombre)
erreur_france <- nb_lignes_tot %>%
left_join(nb_lignes_erreur) %>%
select(-cins_egal_cpfl)
# filtre sur region 52
base_intermediaire3 <- base_intermediaire2 %>%
filter(dept %in% c("44","49","53","72","85"))
nb_lignes_tot <- base_intermediaire3 %>%
group_by(an) %>%
count() %>%
rename(nb_de_lignes = n)
nb_lignes_erreur <- base_intermediaire3 %>%
group_by(an,cins_egal_cpfl) %>%
summarise(nombre = n()) %>%
mutate(pourcentage = round(nombre / sum(nombre)*100,2)) %>%
filter(cins_egal_cpfl == "1") %>%
rename(nb_erreur = nombre)
erreur_region <- nb_lignes_tot %>%
left_join(nb_lignes_erreur) %>%
select(-cins_egal_cpfl)
# table des erreurs region
base_erreur_region <- base_intermediaire3 %>%
filter(cins_egal_cpfl == "1") %>%
select(-cins_egal_cpfl,decompte)
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment