C15.1 : Les fichiers csv

Place des données dans nos sociétés

Présentation

data

Depuis quelques années, la collecte et l'utilisation des données numériques sont devenues omniprésentes dans nos vies.

Certes, elles permettent d'améliorer certains services :

Mais elles nourrissent également toute l'écosphère liée à la consommation (analyse des comportements, publicités ciblées...).

Par ailleurs, la collecte et l'utilisation des données ne sont pas sans poser de nombreuses questions techniques (confidentialité des données, interopérabilité des données, augmentation du volume de données à traiter...).

Elles posent également des questions éthiques :

Les données ouvertes (open data)

Les données ouvertes (en anglais : open data) sont des données numériques dont l'accès et l'usage sont laissés libres aux usagers.

Elle peuvent être d'origine privée mais surtout publique, produites notamment par une collectivité ou un établissement public comme l'INSEE, les collectivités locales...

Elles sont diffusées de manière structurée selon une méthode et une licence ouverte garantissant leur libre accès et leur réutilisation par tous, sans restriction technique, juridique ou financière. Ces droits d'accès et de réutilisation s'inscrivent dans la pensée qui considère l'information publique comme un bien commun.

D'après l'article de Wikipédia "Données ouvertes"

Pour aller plus loin

Lien sur le site de la Cité des Sciences et de l'industrie : Big b@ng data : l'explosion des données

Structure d'un fichier csv

Généralités

Les petites quantités de données peuvent être stockées dans des fichiers texte dans le format csv.

Le sigle CSV signifie Comma-Separated Values et désigne un fichier texte contenant des données dont les valeurs sont séparées par des virgules (ou des point-virgule en France pour ne pas confondre avec le séparateur décimal).

Exemple

A gauche : les données présentées dans un tableau. A droite : le contenu du fichier csv) :

Titre Année Réalisateur
La ligne verte 2000 Frank Darabont
La liste de Schindler 1994 Steven Spielberg
Le voyage de Chihiro 2002 Hayao Miyazaki
Titre;Année;Réalisateur
La ligne verte;2000;Frank Darabont
La liste de Schindler;1994;Steven Spielberg
Le voyage de Chihiro;2002;Hayao Miyazaki

Remarque : la première ligne contient souvent le nom des attributs, mais ce n'est pas obligatoire.

Vocabulaire

Chaque ligne est un enregistrement.

Les colonnes sont les propriétés ou attributs (parfois aussi appelées champ, mais ce terme est plus large).

Travail à faire

🖥️ Récupérer le fichier csv "V'Lille - Disponibilité en temps réel" (téléchargeable ici depuis le site des Données ouvertes de la Métropole Européenne de Lille.

🖥️ Importer ce fichier dans un tableur (par exemple dans LibreOffice Calc).

🖊️ Quels sont les attributs de ces données ?

🖊️ Combien de station de V'Lille existe-t-il ?

🖊️ Quelles sont les noms des trois stations de V'Lille qui contiennent le plus d'emplacements de vélo disponible ?

🖊️ Quelle peut-être l'utilisation de ce fichier de données ?