CT session 2 – Manipulation de données avec Pandas
Durée : 2 heures
Sujet : Analyse d’un jeu de données RH
Fichier fourni : donnees_RH_pandas_L3.csv
📄 Contexte
Vous êtes analyste de données junior dans une entreprise. Vous recevez un fichier contenant des informations sur les employés : prénom, nom, âge, salaire, genre, catégorie professionnelle et département. Vous devez utiliser pandas pour analyser ces données et en tirer des conclusions utiles pour la direction RH.
Partie 1 – Prise en main du jeu de données
- Charger le fichier CSV dans un DataFrame nommé
df
- Afficher les 5 premières lignes
- Afficher les types de chaque colonne et vérifier s’il manque des données
- Afficher les statistiques descriptives du jeu de données
Partie 2 – Statistiques globales
- Combien y a-t-il d’employés au total ?
- Calculer l’âge moyen des employés
- Calculer le salaire moyen, minimum, maximum et médian
- Répartition du nombre d’employés par catégorie (Employé, Cadre, etc.)
Partie 3 – Agrégations par groupe
- Moyenne des salaires par département
- Moyenne des salaires par catégorie
- Moyenne des salaires par genre
- Moyenne des salaires par département et genre (
groupby
)
- Pour chaque département, quel est le salaire moyen et l’âge moyen ?
Partie 4 – Visualisation
- Tracer un histogramme des âges
- Tracer un camembert des salaires par catégorie
- Tracer un camembert de la répartition des employés par département
(Utilisez matplotlib ou seaborn)
Partie 5 – Analyse approfondie
- Y a-t-il une corrélation visible entre l’âge et le salaire ? Affichez la matrice de corrélation.
- Créez une nouvelle colonne
TrancheAge
avec les tranches suivantes :
- Moins de 30 ans
- 30-45 ans
- Plus de 45 ans
- Afficher le nombre d’employés dans chaque
TrancheAge
- Répartir les employés par
TrancheAge
et Département