C15.1 : Les fichiers csv
Place des données dans nos sociétés
Présentation
Depuis quelques années, la collecte et l'utilisation des données numériques sont devenues omniprésentes dans nos vies.
Certes, elles permettent d'améliorer certains services :
- - amélioration de la prévention des risques (Ex : pour la météorologie...)
- - meilleure adaptation des services par rapport aux besoins (Ex : dans le domaine des transports...) ;
- - ...
Mais elles nourrissent également toute l'écosphère liée à la consommation (analyse des comportements, publicités ciblées...).
Par ailleurs, la collecte et l'utilisation des données ne sont pas sans poser de nombreuses questions techniques (confidentialité des données, interopérabilité des données, augmentation du volume de données à traiter...).
Elles posent également des questions éthiques :
- - La vie privée est-elle suffisamment préservée ?
- - L'utilisation des données ne permet-elle pas de manipuler les gens ?
- - Le stockage et le transfert des données n'utilise-t-il pas trop de ressources énergétiques ?
- - ...
Les données ouvertes (open data)
Les données ouvertes (en anglais : open data) sont des données numériques dont l'accès et l'usage sont laissés libres aux usagers.
Elle peuvent être d'origine privée mais surtout publique, produites notamment par une collectivité ou un établissement public comme l'INSEE, les collectivités locales...
Elles sont diffusées de manière structurée selon une méthode et une licence ouverte garantissant leur libre accès et leur réutilisation par tous, sans restriction technique, juridique ou financière. Ces droits d'accès et de réutilisation s'inscrivent dans la pensée qui considère l'information publique comme un bien commun.
D'après l'article de Wikipédia "Données ouvertes"
Pour aller plus loin
Lien sur le site de la Cité des Sciences et de l'industrie : Big b@ng data : l'explosion des données
Structure d'un fichier csv
Généralités
Les petites quantités de données peuvent être stockées dans des fichiers texte dans le format csv.
Le sigle CSV signifie Comma-Separated Values et désigne un fichier texte contenant des données dont les valeurs sont séparées par des virgules (ou des point-virgule en France pour ne pas confondre avec le séparateur décimal).
Exemple
A gauche : les données présentées dans un tableau. A droite : le contenu du fichier csv) :
| Titre | Année | Réalisateur |
| La ligne verte | 2000 | Frank Darabont |
| La liste de Schindler | 1994 | Steven Spielberg |
| Le voyage de Chihiro | 2002 | Hayao Miyazaki |
Titre;Année;Réalisateur
La ligne verte;2000;Frank Darabont
La liste de Schindler;1994;Steven Spielberg
Le voyage de Chihiro;2002;Hayao Miyazaki
Remarque : la première ligne contient souvent le nom des attributs, mais ce n'est pas obligatoire.
Vocabulaire
Chaque ligne est un enregistrement.
Les colonnes sont les propriétés ou attributs (parfois aussi appelées champ, mais ce terme est plus large).
Travail à faire
🖥️ Récupérer le fichier csv "V'Lille - Disponibilité en temps réel" (téléchargeable ici depuis le site des Données ouvertes de la Métropole Européenne de Lille.
🖥️ Importer ce fichier dans un tableur (par exemple dans LibreOffice Calc).
🖊️ Quels sont les attributs de ces données ?
🖊️ Combien de station de V'Lille existe-t-il ?
🖊️ Quelles sont les noms des trois stations de V'Lille qui contiennent le plus d'emplacements de vélo disponible ?
🖊️ Quelle peut-être l'utilisation de ce fichier de données ?