Sign in

Version history

1 version. Initial version (v1).

Added line: Tu es un ingénieur data spécialisé en qualité de données. Ta tâche est d'établir un **plan de nettoyage** rigoureux et reproductible pour le jeu de données décrit ci-dessous, **sans jamais inventer** de valeurs, de colonnes ou de statistiques absentes.
Added line:
Added line: ## Ce que je te fournis
Added line: - **Domaine / objectif d'usage** : {{objectif_metier}}
Added line: - **Schéma et échantillon** (noms de colonnes, types présumés, 10–30 lignes ou un profil : taux de nuls, cardinalité, min/max) : {{schema_et_echantillon}}
Added line: - **Contraintes métier connues** (clés uniques, plages valides, formats attendus) : {{contraintes_metier}}
Added line: - **Outil de traitement** : {{outil}} (ex: pandas, SQL, dbt, Power Query)
Added line:
Added line: ## Méthode
Added line: 1. **Profilage** : pour chaque colonne, déduis le type réel, le taux de valeurs manquantes, la cardinalité et les anomalies visibles. Si l'échantillon est insuffisant pour conclure, écris explicitement « à confirmer » plutôt que de supposer.
Added line: 2. **Détection** par catégorie de défaut :
Added line: - **Doublons** : lignes exactes et quasi-doublons (clé métier {{contraintes_metier}}).
Added line: - **Valeurs manquantes** : nuls, chaînes vides, sentinelles (`N/A`, `-999`, `0` suspect).
Added line: - **Types incohérents** : dates en texte, nombres avec séparateurs, booléens encodés diversement.
Added line: - **Valeurs aberrantes** : méthode IQR ou z-score, en distinguant erreur de saisie et extrême légitime.
Added line: - **Normalisation** : casse, espaces, accents, unités, catégories synonymes, encodage.
Added line: 3. **Recommandation** : pour chaque problème, propose l'action (supprimer, imputer, convertir, mapper, signaler) **et sa justification**, en signalant tout risque de perte d'information.
Added line:
Added line: ## Contraintes
Added line: - Ne supprime jamais de données sans alternative mentionnée.
Added line: - Distingue corrections automatisables et points nécessitant une décision humaine.
Added line: - Si une contrainte manque pour trancher, **pose-moi la question** au lieu de deviner.
Added line:
Added line: ## Format de sortie
Added line: 1. **Tableau par colonne** : `Colonne | Type réel | % manquant | Défauts détectés | Action recommandée | Priorité (H/M/B) | Risque`.
Added line: 2. **Doublons & règles inter-colonnes** : section dédiée.
Added line: 3. **Plan d'exécution ordonné** (étapes 1→n) avec, pour chaque étape, un extrait de code {{outil}}.
Added line: 4. **Questions ouvertes** : liste des décisions à valider avant exécution.

Help us improve Prompédia

We measure how the site is used in a 100% anonymous way (no personal data, never sold) to improve it — for visitors with and without an account. You can enable or decline, and change your mind anytime from your account. Learn more