LES DONNEES STRUCTUREES
ET LEUR TRAITEMENT

Introduction

Définitions

Pour rappel, il existe deux sortes de fichiers en informatique : Les fichiers exécutables ou programmes et les fichiers de données. Les programmes peuvent être interprétés, c'est à dire traités par un programme nommé interpréteur, ou compilés, c'est à dire traités directement par l'ordinateur. Les données peuvent se classifier en deux catégories : Les données structurées et les données non structurées.

Une donnée est une suite d'octets traitée par un programme. Elle devient une information lorsqu'elle est interprétée par un humain. Structurer les données consiste à organiser les données selon les informations qu'elles contiennent, de sorte qu'un programme puisse les extraire et les traiter facilement. Retrouver l'information dans des données non structurées requiert de l'intelligence artificielle.

Les données peuvent être :

Collection de données

Une manière classique de structurer les données consiste à les associer à des descripteurs. A chaque descripteur correspond un type (texte, numérique, date...). Une collection est un ensemble de données partageant les mêmes descripteurs. Dans l'exemple ci-dessous présenté sous la forme d'un tableau :

PrénomTaille (m)Age (ans)
Marc 1,8 15
Julie 1,7 25
Pascal 1,9 19

Bref historique

Date Evènement
XVIIe siècle Utilisation des cartes et bandes perforés.
1928 Invention de la bande magnétique, par Fritz Pfleumer.
1956 Invention du disque dur, par Reynold Johnson.
1970 Invention du modèle relationnel des SGBDR, par Edgar Frank Codd.
1979 Création du premier tableur VisiCalc, par Dan Bricklin.
1984 Apparition sur le marché de la mémoire flash, inventée par Fujio Masuoka en 1980.
2013 Charte du G8 pour l'ouverture des données publiques.
2018 GRPD applicable dans l'UE.

Mémoriser les données : Aspect matériel

Types de conservation

Les données sont placées dans des fichiers qu'il convient :

Lieux de conservation

Les données peuvent être mémorisées :

Données stockées sur le réseau local

Plusieurs solutions portent différents sigles :

Données stockées sur internet

On dit aussi qu'elles sont stockées sur le Cloud (le nuage), sur des serveurs distants. Le Cloud peut être public ou privé. Avantages du Cloud public :

Inconvénients :

Stockage DAS NAS SAN Cloud public Cloud privé

Supports de stockage obsolètes

Bandes perforées

Utilisées jusqu'à la fin des années 1980, elles présentaient les avantages d'une grande robustesse, d'une excellente longévité et d'une simplicité sur le plan technique.

Disquettes

Support de stokage magnétique amovible lancé par IBM en 1967.

CD et DVD

Supports de stockage actuels

Bandes magnétiques

RAM (Random Access Memory) ou mémoire vive

ROM (Read Only Memory) ou disque dur HDD (Hard Disk Drive)

Mémoire flash SSD (Solid State Drive)

Mémoriser les données : Aspect logiciel

Les données se sauvegardent :

Formats de fichier

Il est utilisé plusieurs formats de fichier texte lorsqu'une application doit sauvegarder ou communiquer des données à une autre application. Exemples de formats de fichier très classiques :

Exemple

Considérons un groupe de trois élèves :

Format CSV

Sa structure ressemble à celle d'un tableau. Le fichier obtenu est de taille réduite.

Prénom, Age, Loisir
Laura, 12, natation
Marc, 15, musique
Julie, 17, informatique

Format XML

Sa structure ressemble à celle d'un document au format HTML. Les données, encadrées par des balises, sont présentées de manière hiérarchique. Le fichier obtenu est assez volumineux.

<?xml version="1.0" encoding="UTF-8"?>
<groupe>
  <eleve>
    <prenom>Laura</prenom>
    <age>12</age>
    <loisir>natation</loisir>
  </eleve>
  <eleve>
    <prenom>Marc</prenom>
    <age>15</age>
    <loisir>musique</loisir>
  </eleve>
  <eleve>
    <prenom>Julie</prenom>
    <age>17</age>
    <loisir>informatique</loisir>
  </eleve>
</groupe>

Format JSON

Sa structure ressemble à celle d'un objet en JavaScript. Les données sont présentées à l'aide d'objets (entre accolades) ou de tableaux (entre crochets).

[   
  { "Prénom": "Laura",
    "Age": 12,
    "Loisir": "natation"
  },
  { "Prénom": "Marc",
    "Age": 15,
    "Loisir": "musique"
  },
  { "Prénom": "Julie",
    "Age": 17,
    "Loisir": "informatique"
  }
]

Base de données

De nombreux logiciels utilisent de simples fichiers pour les sauvegardes. Une base de données s'impose lorsque le volume d'informations à sauvegarder et à gérer devient important. Une base de données est un ensemble hiérarchisé et structuré permettant de stocker un grand volume d'informations. Elle est représentée physiquement par un ensemble de fichiers stockés en mémoire, exploités et gérés (création, recherche, mise à jour) par un système de gestion de base de données (SGBD). Il existe de nombreux types de bases de données :

Le modèle de base de données le plus répandu est le modèle de base de données relationnelle. Dans ce modèle, les informations sont organisées dans des tables. Une base de données renferme plusieurs tables reliées entre elles. Le langage SQL est communément utilisé pour gérer ce type de base de données.

Schéma relationnel

L'exemple ci-dessous comporte deux tables nommées auteurs et livres. Il montre qu'un auteur peut écrire plusieurs livres, mais que chaque livre n'a qu'un seul auteur. Pour les deux tables, il a été choisi, pour le premier champ, une clé primaire. Elle identifie de manière unique les enregistrements.

auteurs id_auteur nom prenom adresse livres id_livre titre editeur 1 n

Langage SQL

SQL (Structured Query Language) est un langage permettant d'accéder aux systèmes de gestion de bases de données relationnelles. Il permet de consulter des données dans une base de données d'ajouter ou de supprimer des données dans une table de créer ou de supprimer de nouvelles tables.

Exemple de visualisation de données:

SELECT livres.titre FROM livres
WHERE auteurs.nom = "Beaudelaire" OR auteurs.nom = "Vernes";

Exemple d'enregistrement de données :

INSERT INTO livres (titre, editeur) VALUES ("Les oiseaux", "Flamarion");

Exemple de suppression de données:

DELETE livres.titre FROM livres
WHERE id_auteur>2;

Données personnelles

Selon la CNIL, on nomme donnée personnelle toute donnée se rapportant à une personne physique identifiée ou identifiable

Collecte des données par des sociétés privées

Des sociétés privées telles que Google ou FaceBook dévellopent des techniques de collecte des données personnelles, de manière opaque pour l'utilisateur. Ces données sont ensuite traitées et commercialisées, généralement à des fins publicitaires.

Collecte des données par des services gouvernementaux

Affaire Snowden

En 2013, Edward Joseph Snowden a révélé l'existence de plusieurs programmes de surveillance de masse américains et britanniques, basés sur la captation des métadonnées, des appels téléphoniques, des systèmes d’écoute sur internet (courriel, réseaux sociaux).

Ces programmes portent les noms de PRISM, XKeyscore, Boundless Informant et Bullrun pour le gouvernement américain, Tempora, Muscular et Optic Nerve pour le gouvernement britannique.

Système de crédit social

C'est un système chinois de réputation des citoyens. Chacun d'entre eux se voit attribuer une note, échelonnée de 350 à 950 points. Ce système de surveillance utilise l'intelligence artificielle et la reconnaissance faciale.

Avec une note élevée, on a plus de chances de trouver un emploi. Ceux qui ont un faible score peuvent être interdits d’avion ou de train.

Protection des données personnelles

CNIL (Commission Nationale de l'Informatique et des Libertés)

Créée par la loi Informatique et Libertés du 6 janvier 1978, cette AAI (autorité administrative indépendante) est un organisme public qui agit au nom de l'Etat, composée de 18 membres élus ou nommés.

Elle est chargée de veiller à la protection des données personnelles contenues dans les fichiers et traitements informatiques ou papiers, aussi bien publics que privés. Ainsi, elle est chargée de veiller à ce que l'informatique soit au service du citoyen et qu'elle ne porte atteinte ni à l'identité humaine, ni aux droits de l'homme, ni à la vie privée, ni aux libertés individuelles ou publiques.

Elle a un rôle d'alerte, de conseil et d'information vers tous les publics mais dispose également d'un pouvoir de contrôle et de sanction.

RGPD (Règlement général sur la protection des données)

Le RGPD, ou GDPR (General Data Protection Regulation) en anglais, est un règlement de l'UE (Union européenne) qui constitue le texte de référence en matière de protection des données à caractère personnel.

Sa date d'entrée en vigueur est le 25 mai 2018.

Impact environnemental

Diverses organisations étudient l'impact environnemental du numérique et les moyens de le réduire : L'Adème (Agence de l'Environnement et de la Maîtrise de l'Energie), l'INR (Institut du Numérique Responsable), GreenPeace, Negaoctet...

A l'échelle mondiale

Rapport de GreenIT de 2019 : https://www.greenit.fr/empreinte-environnementale-du-numerique-mondial/

Contribution du numérique à la facture environnementale

Bilan énergie primaire

En France

Rapport de négaWatt de 2020 : http://decrypterlenergie.org/la-revolution-numerique-fera-t-elle-exploser-nos-consommations-denergie/