CT session 2 – Manipulation de données avec Pandas

Durée : 2 heures
Sujet : Analyse d’un jeu de données RH
Fichier fourni : donnees_RH_pandas_L3.csv


📄 Contexte

Vous êtes analyste de données junior dans une entreprise. Vous recevez un fichier contenant des informations sur les employés : prénom, nom, âge, salaire, genre, catégorie professionnelle et département. Vous devez utiliser pandas pour analyser ces données et en tirer des conclusions utiles pour la direction RH.

Partie 1 – Prise en main du jeu de données

  1. Charger le fichier CSV dans un DataFrame nommé df
  2. Afficher les 5 premières lignes
  3. Afficher les types de chaque colonne et vérifier s’il manque des données
  4. Afficher les statistiques descriptives du jeu de données

Partie 2 – Statistiques globales

  1. Combien y a-t-il d’employés au total ?
  2. Calculer l’âge moyen des employés
  3. Calculer le salaire moyen, minimum, maximum et médian
  4. Répartition du nombre d’employés par catégorie (Employé, Cadre, etc.)

Partie 3 – Agrégations par groupe

  1. Moyenne des salaires par département
  2. Moyenne des salaires par catégorie
  3. Moyenne des salaires par genre
  4. Moyenne des salaires par département et genre (groupby)
  5. Pour chaque département, quel est le salaire moyen et l’âge moyen ?

Partie 4 – Visualisation

  1. Tracer un histogramme des âges
  2. Tracer un camembert des salaires par catégorie
  3. Tracer un camembert de la répartition des employés par département

(Utilisez matplotlib ou seaborn)

Partie 5 – Analyse approfondie

  1. Y a-t-il une corrélation visible entre l’âge et le salaire ? Affichez la matrice de corrélation.
  2. Créez une nouvelle colonne TrancheAge avec les tranches suivantes :
    • Moins de 30 ans
    • 30-45 ans
    • Plus de 45 ans
  3. Afficher le nombre d’employés dans chaque TrancheAge
  4. Répartir les employés par TrancheAge et Département