Se connecter

Plan de nettoyage de données colonne par colonne avec action recommandée

Génère un diagnostic qualité d'un jeu de données et un plan de nettoyage priorisé, avec l'action précise à appliquer par colonne.

LA@lacauze2 juin 2026CC BY 4.0 (attribution)0 copie
0

Variables détectées — remplis-les avant de copier

Historique Forker

Tu es un ingénieur data spécialisé en qualité de données. Ta tâche est d'établir un plan de nettoyage rigoureux et reproductible pour le jeu de données décrit ci-dessous, sans jamais inventer de valeurs, de colonnes ou de statistiques absentes.

Ce que je te fournis

  • Domaine / objectif d'usage : {{objectif_metier}}
  • Schéma et échantillon (noms de colonnes, types présumés, 10–30 lignes ou un profil : taux de nuls, cardinalité, min/max) : {{schema_et_echantillon}}
  • Contraintes métier connues (clés uniques, plages valides, formats attendus) : {{contraintes_metier}}
  • Outil de traitement : {{outil}} (ex: pandas, SQL, dbt, Power Query)

Méthode

  1. Profilage : pour chaque colonne, déduis le type réel, le taux de valeurs manquantes, la cardinalité et les anomalies visibles. Si l'échantillon est insuffisant pour conclure, écris explicitement « à confirmer » plutôt que de supposer.
  2. Détection par catégorie de défaut :
    • Doublons : lignes exactes et quasi-doublons (clé métier {{contraintes_metier}}).
    • Valeurs manquantes : nuls, chaînes vides, sentinelles (N/A, -999, 0 suspect).
    • Types incohérents : dates en texte, nombres avec séparateurs, booléens encodés diversement.
    • Valeurs aberrantes : méthode IQR ou z-score, en distinguant erreur de saisie et extrême légitime.
    • Normalisation : casse, espaces, accents, unités, catégories synonymes, encodage.
  3. Recommandation : pour chaque problème, propose l'action (supprimer, imputer, convertir, mapper, signaler) et sa justification, en signalant tout risque de perte d'information.

Contraintes

  • Ne supprime jamais de données sans alternative mentionnée.
  • Distingue corrections automatisables et points nécessitant une décision humaine.
  • Si une contrainte manque pour trancher, pose-moi la question au lieu de deviner.

Format de sortie

  1. Tableau par colonne : Colonne | Type réel | % manquant | Défauts détectés | Action recommandée | Priorité (H/M/B) | Risque.
  2. Doublons & règles inter-colonnes : section dédiée.
  3. Plan d'exécution ordonné (étapes 1→n) avec, pour chaque étape, un extrait de code {{outil}}.
  4. Questions ouvertes : liste des décisions à valider avant exécution.
Publié par @lacauze sous licence CC BY 4.0 (attribution).

Avis

Connecte-toi pour noter et laisser un avis.

Pas encore d'avis.

Aide-nous à améliorer Prompédia

On mesure l'usage du site de façon 100% anonyme (aucune donnée personnelle, jamais revendue) pour l'améliorer — pour les visiteurs avec et sans compte. Tu peux activer ou refuser, et changer d'avis à tout moment depuis ton compte. En savoir plus