Pandas#

Documentation officielle : https://pandas.pydata.org/docs/getting_started/overview.html

Pandas (https://pandas.pydata.org/) est une des librairies Python les plus populaires. Cette librairie peut très facilement convertir un dictionnaire en un DataFrame. C’est l’équivalent d’un tableau avec des noms de colonnes, et des numéros de ligne. Bien sûr, son usage n’est pas limité à convetir un dictionnaire en tableau… Repartons de l’exemple utilisé dans le chapitre sur les dictionnaires.

prenoms = ['Christophe', 'Francois', 'Juliette']
ages = [30, 20, 40]
professions = ['Enseignant', 'Directeur', 'Etudiante']

informations = {'Nom':prenoms,
                'Age':ages,
                'Profession':professions}
import pandas 
df = pandas.DataFrame(informations)
df
Nom Age Profession
0 Christophe 30 Enseignant
1 Francois 20 Directeur
2 Juliette 40 Etudiante

A partir de ce DataFrame, on peut facilement manipuler les données et extraire des statistiques.

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Nom         3 non-null      object
 1   Age         3 non-null      int64 
 2   Profession  3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes

Il est très facile de calculer des statistiques descriptives sur base du DataFrame.

Par exemple, pour calculer l’âge moyen des personnes du tableau :

df['Age'].mean()
30.0

Lire des fichiers externes#

  • fichier .txt

  • fichier .csv

  • fichier .xlsx

Fichier .xlsx#

Créez un fichier data.xlsx qui se présente de la façon suivante et stockez le dans le même dossier que votre notebook / script.

References#

https://realpython.com/pandas-read-write-files/