Titre : Dataset de ventes pour nettoyage SQL - raw_sales_data_56k.csv Auteur : iana-data.org Date de création : 2026-04-11 Version : 1.0 Licence : CC BY-NC 4.0 (attribution, pas d'usage commercial) Description : Ce dataset contient des ventes simulées avec des erreurs volontaires pour illustrer les problèmes récurrents de qualité des données. Il a été généré avec la bibliothèque Python Faker, puis volontairement altéré pour inclure : - Doublons exacts (167 lignes) - Valeurs manquantes (NULL) sur Customer_Email, Product_Category, Quantity, Unit_Price, Payment_Method - Formats de date incohérents (YYYY-MM-DD, YYYY/MM/DD, MM-DD-YYYY, texte) - Casse variable sur Product_Category et Store_Location - Méthodes de paiement non standardisées ("cc", "ppal", "debit", etc.) - Quantités aberrantes (valeurs négatives, 9999) - Prix unitaire à zéro (20 lignes) - Incohérence Total_Amount vs Quantity × Unit_Price (11 059 lignes) Structure (11 colonnes) : | Colonne | Type | Description | |--------------------|-----------|----------------------------------------------| | Transaction_ID | TEXT | Identifiant unique de la transaction | | Sale_Date | TEXT | Date de la vente (formats variés) | | Customer_ID | TEXT | Identifiant client | | Customer_Email | TEXT | Email client (contient des NULL) | | Product_Category | TEXT | Catégorie produit (casse variable) | | Product_Name | TEXT | Nom du produit | | Quantity | TEXT | Quantité achetée (type TEXT, valeurs aberrantes) | | Unit_Price | REAL | Prix unitaire (NULL, 0, valeurs normales) | | Total_Amount | REAL | Montant total (incohérent pour 17% des lignes) | | Store_Location | TEXT | Localisation du magasin (casse variable) | | Payment_Method | TEXT | Moyen de paiement (non standardisé) | Statistiques : - Lignes totales : 63 000 - Taille du fichier : 6,2 Mo - Format : CSV (UTF-8, séparateur virgule, guillemets optionnels) Fichier nettoyé associé : clean_sales_data.csv (5,8 Mo) Base SQLite associée : sales_cleaning.db (4,2 Mo) Cas pratique correspondant : https://www.iana-data.org/cest-a-vous/cas-pratiques/nettoyage-dataset-csv-sql.html Utilisation : Libre pour usage pédagogique et non commercial. Merci de citer iana-data.org comme source. Contact : contact@iana-data.org