Pour rappel, il existe deux sortes de fichiers en informatique : Les fichiers exécutables ou programmes et les fichiers de données. Les programmes peuvent être interprétés, c'est à dire traités par un programme nommé interpréteur, ou compilés, c'est à dire traités directement par l'ordinateur. Les données peuvent se classifier en deux catégories : Les données structurées et les données non structurées.
Une donnée est une suite d'octets traitée par un programme. Elle devient une information lorsqu'elle est interprétée par un humain. Structurer les données consiste à organiser les données selon les informations qu'elles contiennent, de sorte qu'un programme puisse les extraire et les traiter facilement. Retrouver l'information dans des données non structurées requiert de l'intelligence artificielle.
Les données peuvent être :
métadonnées.
Une manière classique de structurer les données consiste à les associer à des descripteurs. A chaque descripteur correspond un type (texte, numérique, date...). Une collection est un ensemble de données partageant les mêmes descripteurs. Dans l'exemple ci-dessous présenté sous la forme d'un tableau :
Prénom | Taille (m) | Age (ans) |
---|---|---|
Marc | 1,8 | 15 |
Julie | 1,7 | 25 |
Pascal | 1,9 | 19 |
Date | Evènement |
---|---|
XVIIe siècle | Utilisation des cartes et bandes perforés. |
1928 | Invention de la bande magnétique, par Fritz Pfleumer. |
1956 | Invention du disque dur, par Reynold Johnson. |
1970 | Invention du modèle relationnel des SGBDR, par Edgar Frank Codd. |
1979 | Création du premier tableur VisiCalc, par Dan Bricklin. |
1984 | Apparition sur le marché de la mémoire flash, inventée par Fujio Masuoka en 1980. |
2013 | Charte du G8 pour l'ouverture des données publiques. |
2018 | GRPD applicable dans l'UE. |
Les données sont placées dans des fichiers qu'il convient :
Les données peuvent être mémorisées :
Plusieurs solutions portent différents sigles :
On dit aussi qu'elles sont stockées sur le Cloud (le nuage), sur des serveurs distants. Le Cloud peut être public ou privé. Avantages du Cloud public :
Inconvénients :
Utilisées jusqu'à la fin des années 1980, elles présentaient les avantages d'une grande robustesse, d'une excellente longévité et d'une simplicité sur le plan technique.
Support de stokage magnétique amovible lancé par IBM en 1967.
Les données se sauvegardent :
Il est utilisé plusieurs formats de fichier texte lorsqu'une application doit sauvegarder ou communiquer des données à une autre application. Exemples de formats de fichier très classiques :
Considérons un groupe de trois élèves :
Sa structure ressemble à celle d'un tableau. Le fichier obtenu est de taille réduite.
Prénom, Age, Loisir Laura, 12, natation Marc, 15, musique Julie, 17, informatique
Sa structure ressemble à celle d'un document au format HTML. Les données, encadrées par des balises, sont présentées de manière hiérarchique. Le fichier obtenu est assez volumineux.
<?xml version="1.0" encoding="UTF-8"?> <groupe> <eleve> <prenom>Laura</prenom> <age>12</age> <loisir>natation</loisir> </eleve> <eleve> <prenom>Marc</prenom> <age>15</age> <loisir>musique</loisir> </eleve> <eleve> <prenom>Julie</prenom> <age>17</age> <loisir>informatique</loisir> </eleve> </groupe>
Sa structure ressemble à celle d'un objet en JavaScript. Les données sont présentées à l'aide d'objets (entre accolades) ou de tableaux (entre crochets).
[ { "Prénom": "Laura", "Age": 12, "Loisir": "natation" }, { "Prénom": "Marc", "Age": 15, "Loisir": "musique" }, { "Prénom": "Julie", "Age": 17, "Loisir": "informatique" } ]
De nombreux logiciels utilisent de simples fichiers pour les sauvegardes. Une base de données s'impose lorsque le volume d'informations à sauvegarder et à gérer devient important. Une base de données est un ensemble hiérarchisé et structuré permettant de stocker un grand volume d'informations. Elle est représentée physiquement par un ensemble de fichiers stockés en mémoire, exploités et gérés (création, recherche, mise à jour) par un système de gestion de base de données (SGBD). Il existe de nombreux types de bases de données :
Le modèle de base de données le plus répandu est le modèle de base de données relationnelle. Dans ce modèle, les informations sont organisées dans des tables. Une base de données renferme plusieurs tables reliées entre elles. Le langage SQL est communément utilisé pour gérer ce type de base de données.
L'exemple ci-dessous comporte deux tables nommées auteurs et livres. Il montre qu'un auteur peut écrire plusieurs livres, mais que chaque livre n'a qu'un seul auteur. Pour les deux tables, il a été choisi, pour le premier champ, une clé primaire. Elle identifie de manière unique les enregistrements.
SQL (Structured Query Language) est un langage permettant d'accéder aux systèmes de gestion de bases de données relationnelles. Il permet de consulter des données dans une base de données d'ajouter ou de supprimer des données dans une table de créer ou de supprimer de nouvelles tables.
Exemple de visualisation de données:
SELECT livres.titre FROM livres WHERE auteurs.nom = "Beaudelaire" OR auteurs.nom = "Vernes";
Exemple d'enregistrement de données :
INSERT INTO livres (titre, editeur) VALUES ("Les oiseaux", "Flamarion");
Exemple de suppression de données:
DELETE livres.titre FROM livres WHERE id_auteur>2;
Selon la CNIL, on nomme donnée personnelle toute donnée se rapportant à une personne physique identifiée ou identifiable
Des sociétés privées telles que Google ou FaceBook dévellopent des techniques de collecte des données personnelles, de manière opaque pour l'utilisateur. Ces données sont ensuite traitées et commercialisées, généralement à des fins publicitaires.
En 2013, Edward Joseph Snowden a révélé l'existence de plusieurs programmes de surveillance de masse américains et britanniques, basés sur la captation des métadonnées, des appels téléphoniques, des systèmes d’écoute sur internet (courriel, réseaux sociaux).
Ces programmes portent les noms de PRISM, XKeyscore, Boundless Informant et Bullrun pour le gouvernement américain, Tempora, Muscular et Optic Nerve pour le gouvernement britannique.
C'est un système chinois de réputation des citoyens. Chacun d'entre eux se voit attribuer une note, échelonnée de 350 à 950 points. Ce système de surveillance utilise l'intelligence artificielle et la reconnaissance faciale.
Avec une note élevée, on a plus de chances de trouver un emploi. Ceux qui ont un faible score peuvent être interdits d’avion ou de train.
Créée par la loi Informatique et Libertés du 6 janvier 1978, cette AAI (autorité administrative indépendante) est un organisme public qui agit au nom de l'Etat, composée de 18 membres élus ou nommés.
Elle est chargée de veiller à la protection des données personnelles contenues dans les fichiers et traitements informatiques ou papiers, aussi bien publics que privés. Ainsi, elle est chargée de veiller à ce que l'informatique soit au service du citoyen et qu'elle ne porte atteinte ni à l'identité humaine, ni aux droits de l'homme, ni à la vie privée, ni aux libertés individuelles ou publiques.
Elle a un rôle d'alerte, de conseil et d'information vers tous les publics mais dispose également d'un pouvoir de contrôle et de sanction.
Le RGPD, ou GDPR (General Data Protection Regulation) en anglais, est un règlement de l'UE (Union européenne) qui constitue le texte de référence en matière de protection des données à caractère personnel.
Sa date d'entrée en vigueur est le 25 mai 2018.
Diverses organisations étudient l'impact environnemental du numérique et les moyens de le réduire : L'Adème (Agence de l'Environnement et de la Maîtrise de l'Energie), l'INR (Institut du Numérique Responsable), GreenPeace, Negaoctet...
Rapport de GreenIT de 2019 : https://www.greenit.fr/empreinte-environnementale-du-numerique-mondial/
Rapport de négaWatt de 2020 : http://decrypterlenergie.org/la-revolution-numerique-fera-t-elle-exploser-nos-consommations-denergie/