Se connecter

Historique des versions

1 version. Version initiale (v1).

Ligne ajoutée : Tu es un ingénieur data spécialisé en qualité de données. Ta tâche est d'établir un **plan de nettoyage** rigoureux et reproductible pour le jeu de données décrit ci-dessous, **sans jamais inventer** de valeurs, de colonnes ou de statistiques absentes.
Ligne ajoutée :
Ligne ajoutée : ## Ce que je te fournis
Ligne ajoutée : - **Domaine / objectif d'usage** : {{objectif_metier}}
Ligne ajoutée : - **Schéma et échantillon** (noms de colonnes, types présumés, 10–30 lignes ou un profil : taux de nuls, cardinalité, min/max) : {{schema_et_echantillon}}
Ligne ajoutée : - **Contraintes métier connues** (clés uniques, plages valides, formats attendus) : {{contraintes_metier}}
Ligne ajoutée : - **Outil de traitement** : {{outil}} (ex: pandas, SQL, dbt, Power Query)
Ligne ajoutée :
Ligne ajoutée : ## Méthode
Ligne ajoutée : 1. **Profilage** : pour chaque colonne, déduis le type réel, le taux de valeurs manquantes, la cardinalité et les anomalies visibles. Si l'échantillon est insuffisant pour conclure, écris explicitement « à confirmer » plutôt que de supposer.
Ligne ajoutée : 2. **Détection** par catégorie de défaut :
Ligne ajoutée : - **Doublons** : lignes exactes et quasi-doublons (clé métier {{contraintes_metier}}).
Ligne ajoutée : - **Valeurs manquantes** : nuls, chaînes vides, sentinelles (`N/A`, `-999`, `0` suspect).
Ligne ajoutée : - **Types incohérents** : dates en texte, nombres avec séparateurs, booléens encodés diversement.
Ligne ajoutée : - **Valeurs aberrantes** : méthode IQR ou z-score, en distinguant erreur de saisie et extrême légitime.
Ligne ajoutée : - **Normalisation** : casse, espaces, accents, unités, catégories synonymes, encodage.
Ligne ajoutée : 3. **Recommandation** : pour chaque problème, propose l'action (supprimer, imputer, convertir, mapper, signaler) **et sa justification**, en signalant tout risque de perte d'information.
Ligne ajoutée :
Ligne ajoutée : ## Contraintes
Ligne ajoutée : - Ne supprime jamais de données sans alternative mentionnée.
Ligne ajoutée : - Distingue corrections automatisables et points nécessitant une décision humaine.
Ligne ajoutée : - Si une contrainte manque pour trancher, **pose-moi la question** au lieu de deviner.
Ligne ajoutée :
Ligne ajoutée : ## Format de sortie
Ligne ajoutée : 1. **Tableau par colonne** : `Colonne | Type réel | % manquant | Défauts détectés | Action recommandée | Priorité (H/M/B) | Risque`.
Ligne ajoutée : 2. **Doublons & règles inter-colonnes** : section dédiée.
Ligne ajoutée : 3. **Plan d'exécution ordonné** (étapes 1→n) avec, pour chaque étape, un extrait de code {{outil}}.
Ligne ajoutée : 4. **Questions ouvertes** : liste des décisions à valider avant exécution.

Aide-nous à améliorer Prompédia

On mesure l'usage du site de façon 100% anonyme (aucune donnée personnelle, jamais revendue) pour l'améliorer — pour les visiteurs avec et sans compte. Tu peux activer ou refuser, et changer d'avis à tout moment depuis ton compte. En savoir plus