Python For Data Science

Wilson Toussile

ESSFAR ODC

1 Qu’est-ce que Python ?

1.1 Qu’est-ce que Python ?

Un langage de programmation puissant, polyvalent et facile à apprendre.

  • Haut niveau et interprété : Syntaxe proche du langage humain, pas besoin de compiler.
  • Polyvalent : Développement web, scripts, intelligence artificielle, et bien sûr… la Data Science.
  • Philosophie : La lisibilité du code est une priorité.
  • Pourquoi est-il le roi de la Data Science ?
    • Un écosystème de bibliothèques scientifiques exceptionnel (NumPy, Pandas, Matplotlib, Scikit-learn).
    • Une communauté mondiale très active et un grand soutien.

1.2

La distribution incontournable pour la Data Science avec Python.

  • Qu’est-ce que c’est ? Une distribution gratuite qui inclut Python, le gestionnaire de paquets conda, et des centaines de bibliothèques populaires pré-installées.
  • Pourquoi l’utiliser ?
    • Simplicité : Installe tout ce dont vous avez besoin en une seule fois.
    • Gestion d’environnements : conda permet de créer des environnements isolés pour chaque projet, évitant les conflits entre les versions des bibliothèques. C’est une pratique essentielle.

1.3 Environnements de Développement (IDE)

Où vous allez écrire, exécuter et déboguer votre code.

  • Jupyter (Notebook & Lab) :
    • L’outil interactif par excellence pour l’analyse de données.
    • Mélange code, texte, équations et visualisations dans un même document.
  • Visual Studio Code (VS Code) :
    • Un éditeur de code léger, gratuit et extrêmement puissant.
    • Excellent support de Python et des notebooks Jupyter grâce à ses extensions.
  • Positron :
    • Le nouvel IDE de Posit (l’entreprise derrière RStudio).
    • Ambitieux, il vise à offrir une expérience de premier ordre pour Python et R, ensemble. À surveiller de près !

2 Les Fondamentaux du Langage

2.1 Votre Premier Code : print()

En Python, afficher un message est aussi simple que cela :


# Afficher
1print("Hello, Data Science World!")

# Interpolation
nom = 'Alice'
2print(f"Hello {nom}!")
1
La fonction print() est votre premier outil pour voir le résultat de votre code et déboguer.
2
Un exemple d’interpolation.


2.2 Variables et Types Simples

Une Variable

Un nom + une valeur + un type

# Une chaîne de caractères (string)
nom = "Alice"

# Un entier (integer)
age = 30

# Un nombre à virgule flottante (float)
taille = 1.65

# Un booléen (boolean)
est_etudiante = True 

Typage Dynamique

  • Python devine le type de la donnée tout seul.

2.3 Les Structures de Données de Base

Les “boîtes” fondamentales pour stocker et organiser des collections de données.


Liste (list)

  • Ordonnée, modifiable
  • [1, "a", 2.5]

Tuple (tuple)

  • Ordonné, non modifiable
  • (1, "a", 2.5)

Dictionnaire (dict)

  • Paires clé-valeur
  • {"nom": "Bob", "age": 42}

2.4 Les Bibliothèques : Les Super-pouvoirs de Python

Une bibliothèque (ou library) est un ensemble de code pré-écrit que vous pouvez importer pour effectuer des tâches spécifiques.

  • Inutile de réinventer la roue !
  • On les utilise avec le mot-clé import.
# On importe la bibliothèque Pandas pour la manipulation de données
import pandas as pd

# On importe la bibliothèque NumPy pour le calcul numérique
import numpy as np

C’est grâce à des bibliothèques comme Pandas, NumPy et Scikit-learn que Python est si puissant pour la science des données.