Méthodologie de croisement des données

1 · Collecte

Les données sources sont récupérées en continu via des pipelines dédiés. Chaque source a son propre orchestrateur et sa propre queue de téléchargement. Les millésimes sont conservés afin de pouvoir rejouer l'historique si nécessaire.

DVF : téléchargement semestriel (DGFiP), par département.
DPE : ingestion mensuelle de l'API officielle ADEME.
BDNB : archives millésime CSTB, département par département.
BAN : réconciliation hebdomadaire du référentiel national IGN/ANCT.
BPE, IRIS, Cadastre : synchronisation annuelle ou trimestrielle selon fréquence source.

2 · Nettoyage

Les enregistrements bruts passent par une série de filtres métier : typage strict, normalisation des adresses via BAN, déduplication, rejet des ventes groupées et des valeurs hors plage résidentielle. Les enregistrements aberrants sont écartés ; les ventes groupées sont flaggées et exclues du calcul du prix au m².

3 · Croisement

Le cœur du projet : rattacher chaque enregistrement à un ban_id, identifiant d'adresse pérenne qui sert de pivot universel.

Pour chaque enregistrement, un score de correspondance d'adresse est calculé à partir de plusieurs signaux : similarité du nom de voie, concordance du numéro, commune, et distance géodésique. Ce score est stocké avec chaque enregistrement et conditionne sa publication. Les enregistrements sous seuil voient leur lien ban_id remis à NULL automatiquement, puis un nouveau matching est tenté avec une recherche élargie.

4 · Exposition

Les indicateurs dérivés sont calculés à partir des données croisées :

Prix médian / m² par commune et typologie, sur fenêtre glissante de 24 mois.
Distribution des classes DPE par IRIS et commune.
Score équipements basé sur la densité et la diversité BPE à 800 m autour de chaque adresse.
Index de liquidité marché : volume trimestriel et délai médian de commercialisation.

Gouvernance qualité

Un journal d'audit consigne chaque correction automatique : ré-attribution d'un ban_id suite à un score insuffisant, purge d'enregistrement aberrant, transition d'état d'un cron de reconcile.

Qualité documentée.

Chaque enregistrement porte un score de confiance de 0 à 100 et une date de dernière mise à jour par source. Les indicateurs exposés sont décrits dans le catalogue des 7 référentiels et accessibles via l'API REST.