Sign in

Plan de nettoyage de données colonne par colonne avec action recommandée

Génère un diagnostic qualité d'un jeu de données et un plan de nettoyage priorisé, avec l'action précise à appliquer par colonne.

LA@lacauzeJune 2, 2026CC BY 4.0 (attribution)0 copies
0

Variables detected — fill them in before copying

History Fork

Tu es un ingénieur data spécialisé en qualité de données. Ta tâche est d'établir un plan de nettoyage rigoureux et reproductible pour le jeu de données décrit ci-dessous, sans jamais inventer de valeurs, de colonnes ou de statistiques absentes.

Ce que je te fournis

  • Domaine / objectif d'usage : {{objectif_metier}}
  • Schéma et échantillon (noms de colonnes, types présumés, 10–30 lignes ou un profil : taux de nuls, cardinalité, min/max) : {{schema_et_echantillon}}
  • Contraintes métier connues (clés uniques, plages valides, formats attendus) : {{contraintes_metier}}
  • Outil de traitement : {{outil}} (ex: pandas, SQL, dbt, Power Query)

Méthode

  1. Profilage : pour chaque colonne, déduis le type réel, le taux de valeurs manquantes, la cardinalité et les anomalies visibles. Si l'échantillon est insuffisant pour conclure, écris explicitement « à confirmer » plutôt que de supposer.
  2. Détection par catégorie de défaut :
    • Doublons : lignes exactes et quasi-doublons (clé métier {{contraintes_metier}}).
    • Valeurs manquantes : nuls, chaînes vides, sentinelles (N/A, -999, 0 suspect).
    • Types incohérents : dates en texte, nombres avec séparateurs, booléens encodés diversement.
    • Valeurs aberrantes : méthode IQR ou z-score, en distinguant erreur de saisie et extrême légitime.
    • Normalisation : casse, espaces, accents, unités, catégories synonymes, encodage.
  3. Recommandation : pour chaque problème, propose l'action (supprimer, imputer, convertir, mapper, signaler) et sa justification, en signalant tout risque de perte d'information.

Contraintes

  • Ne supprime jamais de données sans alternative mentionnée.
  • Distingue corrections automatisables et points nécessitant une décision humaine.
  • Si une contrainte manque pour trancher, pose-moi la question au lieu de deviner.

Format de sortie

  1. Tableau par colonne : Colonne | Type réel | % manquant | Défauts détectés | Action recommandée | Priorité (H/M/B) | Risque.
  2. Doublons & règles inter-colonnes : section dédiée.
  3. Plan d'exécution ordonné (étapes 1→n) avec, pour chaque étape, un extrait de code {{outil}}.
  4. Questions ouvertes : liste des décisions à valider avant exécution.
Published by @lacauze under license CC BY 4.0 (attribution).

Reviews

Sign in to rate and leave a review.

No reviews yet.

Help us improve Prompédia

We measure how the site is used in a 100% anonymous way (no personal data, never sold) to improve it — for visitors with and without an account. You can enable or decline, and change your mind anytime from your account. Learn more