View on GitHub

Mickaël Tits - Projects @ CETIC

Introduction au langage Python pour l'analyse de données

Introduction au langage Python pour l’analyse de données

Auteur: Mickaël Tits, CETIC asbl, mickael.tits@cetic.be

Ce cours, à la fois minimaliste et pratique, vous permettra :

  • de découvrir rapidement les concepts essentiels de la programmation en Python,
  • d’apprendre à maîtriser les librairies les plus utilisées pour l’analyse de données (Data Science),
  • et de vous familiariser avec les concepts fondamentaux de l’apprentissage automatique (Machine Learning).

Ce cours s’addresse donc principalement aux personnes désireuses de rapidement mettre le pied à l’étrier dans ce domaine passionnant, ou à toute personne dont l’activité professionnelle, liée de près ou de loin aux sciences des données, nécessite d’avoir un aperçu concret de ce domaine et de ce qu’il permet de faire.

Chapitres dans Google Colab

Chaque chapitre, entièrement contenu dans un notebook iPython (Jupyter), est directement accessible sur la plateforme Google Colab. Google Colab est une plateforme cloud entièrement gratuite, donnant un accès direct et facile à un une interface de programmation en Python (via des notebooks Jupyter) déjà correctement pré-configurée, et disposant de nombreuses librairies pré-installées. Chaque utilisateur (connecté à un compte Google) peut disposer d’une machine virtuelle temporaire en ligne, lui permettant d’exécuter des Notebooks directement à partir d’une page Web, d’enregistrer ces Notebooks dans Google Drive, et de les partager aussi facilement qu’un autre document cloud (cfr Google Docs ou Google Sheet).

  1. Premier notebook iPython dans Google Colab
  2. Introduction au langage de programmation Python
  3. Les collections d’objets Python
  4. Concepts avancés de programmation: exceptions, fonctions, objets
  5. Un exemple concret: analysons quelques biens immobiliers…
  6. Les librairies Python pour l’analyse de données
  7. Introduction au Data Mining et à la visualisation de données
  8. Introduction au Machine Learning
  9. Un exemple concret: estimation du prix d’une maison à Ames (Iowa, USA)

Chapitres en lecture seule

Les notebooks peuvent être visualisés simplement grâce à nbviewer:

Notebooks non-exécutés

  1. Introduction au langage de programmation Python
  2. Les collections d’objets Python
  3. Concepts avancés de programmation: exceptions, fonctions, objets
  4. Un exemple concret: analysons quelques biens immobiliers…
  5. Les librairies Python pour l’analyse de données
  6. Introduction au Data Mining et à la visualisation de données
  7. Introduction au Machine Learning
  8. Un exemple concret: estimation du prix d’une maison à Ames (Iowa, USA)

Notebooks exécutés (avec les résultats des cellules):

  1. Introduction au langage de programmation Python
  2. Les collections d’objets Python
  3. Concepts avancés de programmation: exceptions, fonctions, objets
  4. Un exemple concret: analysons quelques biens immobiliers…
  5. Les librairies Python pour l’analyse de données
  6. Introduction au Data Mining et à la visualisation de données
  7. Introduction au Machine Learning
  8. Un exemple concret: estimation du prix d’une maison à Ames (Iowa, USA)

Solutions des exercices

Solutions des exercices

Ressources supplémentaires

Pour aider l’étudiant au cours de son apprentissage, voici quelques ressources utiles:

Google Colab est un service donnant gratuitement accès à une machine virtuelle, disposant déjà d’un interpréteur Python et de nombreuses librairies préinstallées. Il permet de rapidement apprendre le Python sans s’encombrer de problématiques telles que les performances d’une machine locale et la gestion de l’interpréteur Python et de nombreuses librairies.

Pour installer Python localement, la distribution Anaconda est recommandée, ainsi que l’environnement Jupyter Lab : https://www.anaconda.com/distribution/

Les librairies Python utilisées dans ce cours, et en partitulier Pandas, disposent de très nombreuses méthodes. Bien qu’une requête sur un moteur de recherche permet d’obtenir vite une réponse à une question de programmation, il reste intéressant d’avoir une idée des possibilités et limitations de ces librairies. Pour Pandas, les méthodes les plus souvent utilisées sont les méthodes des objets DataFrame, Series, et GroupBy. Toutes les librairies présentées se basent sur la librairie de calcul scientifique Numpy, et la plupart des opérations mathématiques dépendent de méthodes appliquées sur l’objet N-dimensional Array (ndarray).

Références

Le jeu de données utilisé comme exemple dans le Chapitre 8 et est disponible sur Kaggle.

Copyright: CETIC asbl - 2019