C22.2 : Classification des iris
Présentation du problème
Les iris
L’Iris est un genre de plantes vivaces à rhizomes ou à bulbes de la famille des Iridacées. Le genre Iris contient 210 espèces et d'innombrables variétés horticoles. (d'après l'article Iris sur wikipédia.fr).
Des données pour de l'analyse prédictive
En 1936, Edgar Anderson a collecté des données sur 3 espèces d'iris : "iris setosa", "iris virginica" et "iris versicolor".
Pour chaque iris, quatre mesures on été faites (en cm) :
- la largeur des sépales
- la longueur des sépales
- la largeur des pétales
- la longueur des pétales
Le jeu de données (voir l'article Iris de Fisher sur wikipédia.fr) rassemble 150 enregistrements (50 de chaque espèce) dans un fichier csv : iris.csv.
Le problème posé
Est-il possible de déterminer l'espèce à laquelle appartient un nouvel iris si l'on connait ses caractéristiques ?
Travail à faire
Afin de ne pas surcharger le travail, on n'utilisera que les données sur les pétales.
Récupération des données
• Écrire une fonction qui permet d'extraire les données du fichier csv sous la forme d'une liste de dictionnaires.
Visualisation des données
• Écrire une fonction qui permet de visualiser la répartition des iris suivant les informations sur les pétales, autrement dit en abscisse la longueur des pétales et en ordonnées la largeur des pétales et une couleur différente pour chaque espèce. On utilisera le module Matplotlib.
Prédiction de l'espèce d'une nouvelle fleur
• Écrire une fonction qui permet de visualiser la répartition des iris connus (voir ci-dessus) et y ajoute un nouvel iris dont l'espèce est inconnue, mais pour lequel on dispose de la largueur et de la longueur des pétales.
• Écrire une fonction qui, à partir de la largueur et de la longueur des pétales d'un nouvel iris, prédit l'espèce à laquelle il appartient.