Mémoire Vive Numéro 5


EDITORIAL

Ce numéro ouvre une série de deux dossiers sur le traitement graphique en histoire. Le thème d'aujourd'hui est la représentation graphique des données, le thème du prochain MémoireVive sera la cartographie. A priori, les questions soulevées par l'utilisation de la statistique graphique ne sont pas de nature informatique mais d'ordre méthodologique. En fait l'imbrication de ces deux niveaux est très forte. Avec l'essor de la micro-informatique et la diffusion des logiciels statistiques, les historiens utilisent de plus en plus facilement la statistique graphique tant pour leurs recherches que dans l'enseignement. D'autre part, comme le souligne J. Y. Grenier, ils s'approprient les nouvelles méthodes statistiques élaborées par les statisticiens avec un retard de plus en plus faible. Il nous est donc apparu intéressant de soulever la question dans Mémoire Vive. Le dossier, constitué par Eric Brian et Daniel Letouzey, comprend trois articles :

Les deux premiers se placent sur le terrain de la méthode. La statistique graphique aujourd'hui pour les historiens comme hier pour les administrateurs - qu'il s'agisse de la graphique traditionnelle ou des méthodes analytiques aujourd'hui en vogue - pose le problème de la part de subjectivité qui lui est inhérente. Eric Brian montre que les promoteurs de la statistique graphique administrative au XIXe siècle, qui avaient comme but avoué de " donner à voir " des résultats, n'ont pu établir des critères de construction suffisamment identifiables, des prescriptions généralement applicables. La statistique graphique n'a pu, de ce fait, connaître l'institutionalisation qu'a trouvée dans le même temps la statistique tabulaire. Elle a pu, d'autre part, évoluer relativement librement au détriment parfois de la qualité de l'interprétation. J. Y. Grenier pose aussi le problème de la subjectivité dans les méthodes analytiques nées au XXe siècle. L'intuition subjective s'est ici déplacée, nous dit-il, " écartée au moment du calcul, elle revient lors de l'interprétation des sorties graphiques ".

Le dernier article du dossier est consacré à la représentation graphique dans l'enseignement secondaire. C. Bourges, G. Colotte, R. Durrens, D. Letouzey, L.-P. Jacquemond, à travers leurs réponses à un questionnaire établi par la rédaction présentent le type de travaux qu'ils proposent aux élèves et donnent un large panorama des apports mais aussi des difficultés rencontrées tant par les élèves que du fait des carences des logiciels.

La rubrique " Logiciels " est consacrée, en liaison avec le dossier, à la comparaison de GRAPH IN THE BOX et WORKS - deux logiciels du commerce très utilisés dans l'enseignement - pour représenter graphiquement des données.

André Zysberg poursuit son feuilleton dans la rubrique " Formation ". Vous pourrez d'ailleurs constater qu'il persite à vouloir vous initier sur tout ce que vous voulez savoir... puisqu'il complètera cet enseignement, en compagnie d'Arlette Faugères, lors d'une journée formation cet automne. Une autre journée formation sera consacrée par Jean-Philippe Genet et Philippe Dautrey à l'analyse lexicale.

Caroline Bourlet


LE DOSSIER


Des courbes qui parlent dans un brouhaha de chiffres

Eric Brian Ecole des Hautes Etudes en Sciences Sociales

" Contrairement à M. Jourdain qui faisait de la prose sans le savoir, beaucoup de personnes croient faire de la statistique en accumulant et en combinant des chiffres avec plus ou moins de logique et de bonheur. La méthode statistique se prête, en effet, par son apparente facilité à tous les usages ; elle permet tous les abus, et sert à couvrir plus d'un sophisme sous la rigueur d'une précision trompeuse. De la meilleure foi du monde, les esprits les plus avertis se laissent surprendre et séduire par le réel attrait de ses déductions. Dans les discussions de tous ordres, parlementaires et autres, les chiffres sont autant de projectiles que s'envoient des adversaires acharnés sous l'impulsion des intérêts et des passions. Les chiffres, dans ces débats, se heurtent, se contredisent, sans apporter toujours les démonstrations définitives qu'y cherche en vain le profane ".

Quand en 1904, André Liesse, professeur au C.N.A.M. et à l'Ecole des Sciences politiques, introduisait son cours en des termes si familiers aujourd'hui, il ne faisait qu'emprunter un thème cher aux spécialistes depuis plusieurs décennies déjà. Dénombrer les observations, établir une moyenne, appeler à la comparaison par un tableau, résumer une conclusion par un graphique, ces savoir faire formaient à la fin du XIXe siècle une spécialité accomplie et reconnue . Pourtant l'édification des profanes par de tels moyens, envisagée en confiance dès 1793 , n'a pas découlé naturellement de ce processus. L'automatisation des calculs, la souplesse et l'efficacité des procédures ont-elles radicalement changé la logique sociale par laquelle, aujourd'hui, parle une courbe ? L'intention de ce texte est d'éclairer cette question, de suggérer par l'exemple de la statistique graphique comment quelques-unes des difficultés pratiques rencontrées en informatique peuvent être mises au compte d'une histoire plus ancienne, celle des dénombrements. Par le détour historique, on voudrait éviter de reprendre à zéro un dossier aussi vieux que l'autorité des chiffres, et donc identifier les ressources effectives que procurent les nouveaux outils.

La littérature des sciences politiques et morales des XVIIe et XVIIIe siècles livre, ça et là, quelques exemples de graphiques opportunément fournis à l'appui d'un raisonnement ou d'une conclusion. Ainsi en 1669, Christian Huygens discutait avec son frère Louis les chiffres de mortalité publiés par John Graunt (1662) : ce faisant il vint à construire une représentation graphique qu'il a utilisée à la manière d'une abaque . Joseph Priestley en 1765 a représenté les biographies de grands hommes connus depuis l'antiquité sur une échelle graduée en années, schématisant les calculs usuels de la chronologie . En 1752, Johann Friedrich Unger donnait un tableau des observations du prix du froment dans le Hanovre qui suggère à nos yeux un histogramme . S'il s'agit de chercher des exemples précurseurs des procédés qui triompheront au dernier quart du XIXe siècle, on peut se contenter de ces cas. Ce serait toutefois faire l'amalgame de préoccupations très disparates. Faute d'une enquête systématique sur les usages anciens de ces procédés, chez les ingénieurs, les architectes, les militaires, les mécaniciens, les minéralogistes, les géographes ou bien les calculateurs, on connait encore mal le sens que de tels emprunts techniques ont pu revêtir aux yeux des savants habituellement cités.

Il est cependant un auteur chez qui l'usage de graphiques relève d'une intention méthodologique délibérée : William Playfair (1786) met en évidence les résultats du commerce et des finances par ce moyen, il livre avec clarté des conclusions complexes et veut souligner la puissance heuristique du procédé . La traduction française de 1789 se perd dans ce mouvement de publication qu'ont connu les toutes dernières années de l'Ancien Régime : quiconque pensait détenir un savoir susceptible de contribuer aux nécessaires réformes faisait paraître un ouvrage. Quand, aux premières années du XIXe siècle, la statistique devient en France une science nouvelle, Playfair est traduit par Donnant, parmi d'autres ouvrages spécialisés mais d'origine allemande. Le titre de l'édition française montre à quel point le traducteur partageait la conviction méthodologique initiale " Eléments de statistique, où l'on démontre, d'après un principe entièrement neuf, les ressources de chaque royaume ... orné de cartes coloriées, représentant, d'un coup d'œil, les forces physiques de toutes les nations européennes " . Précisons que l'intention comparative n'est pas neuve, elle avait inspiré la plupart des travaux d'arithmétique politique des deux siècles précédents.

" Les avantages qui résultent du nouveau mode que nous avons adopté sont de faciliter l'acquisition des connaissances statistiques, et d'aider la mémoire à les retenir, deux points forts essentiels dans l'étude de cette science. De tous les sens, c'est la vue qui donne l'idée la plus exacte et la plus prompte de tout ce qui est susceptible de lui être représenté ; et quand il s'agit de reconnaître la proportion qui existe entre diverses quantités ou diverses grandeurs, l'œil a une supériorité étonnante pour la saisir. Par l'habitude constante et presque involontaire de comparer divers objets, il acquiert une facilité étonnante à les juger " (1802).

Peuchet réfutait cet apport. C'était l'autre propagandiste des conceptions statistiques pendant les années 1800, et surtout le compilateur officiel de la statistique préfectorale du Consulat.

" Personne ne croira jamais qu'une semblable méthode puisse en rien servir à l'étude de la statistique. Ce sont des jeux d'esprit, aussi étrangers à cette science que les détails d'histoire naturelle ou de topographie dont d'autres écrivains l'ont mal à propos voulu enrichir " (1805).

Le débat est scellé, il resurgit encore aujourd'hui. Si l'on considère que les graphiques préparent une compréhension immédiate des phénomènes représentés, l'enchantement plaide pour une méthode qui se prête parfaitement aux comparaisons. Elle décharge le lecteur, le plus souvent profane, des lourdeurs de l'élaboration des résultats. Des spécialistes, pour l'heure les plus proches des sphères administratives, s'inquiètent toutefois d'une si prompte compréhension. Mais l'abstraction que constitue l'élaboration d'un graphique depuis l'accumulation de ses matériaux jusqu'au tracé définitif, n'est pas explicitement l'objet du débat. Cette observation que je fais, en m'appuyant sur des travaux récents , n'est pas anachronique pour autant : les tableaux de chiffres ont gagné une autorité scientifique et administrative à la fin de l'Ancien Régime - une autorité moderne si on y tient - une fois que furent dépassées des difficultés de cet ordre parfaitement identifiées . Comme le montre le dédain de Peuchet, les graphiques n'entrent pas dans l'attirail légitime des statisticiens : ils séduisent ou bien sont ignorés.

Ainsi, pendant les premières décennies du XIXe siècle la statistique administrative française s'est écartée délibérément de cette voie ouverte par l'arithmétique politique anglaise, et cette mise à l'index concerne le genre tout entier. Les raisons en sont multiples, leur examen m'écarterait de mon propos . En France, ce sont des ingénieurs qui persisteront dans l'usage des graphiques, principalement ceux du Corps des Ponts et Chaussées pour qui les figures de mécanique, puis les outils de la gestion des Chemins de Fer, préparent de nombreuses analogies matérielles . Les noms de Minard et de Lalanne sont ainsi attachés, pendant les années 1840, à des innovations que les statisticiens et les géographes relaieront. Pendant les décennies précédentes, Ch. Dupin et Guerry mettaient au point des procédés de représentation cartographique des dénombrements . Leurs initiatives n'étaient pas neuves, car dès les années 1780, on voulait établir une carte des naissances et des décès . Tout cela fait partie de la culture administrative d'un grand commis de l'Etat au milieu du XIXe siècle. Mais l'articulation théorique de ces techniques avec les raisonnements statistiques a suivi d'autre voies, certes toujours aux abords de l'Ecole Polytechnique.

Il n'est pas indifférent de remarquer que les dénombrements qu'appelle de ses voeux un Condorcet n'ont rien à voir avec quoi que ce soit de graphique. Le géomètre ne pratiquait pas les figures, ses préoccupations relevaient plutôt de la taxinomie . Au contraire, on sait que la statistique du XIXe siècle a trouvé son fétiche dans la courbe " en cloche ", " en chapeau de gendarme ", ou encore " de Gauss " s'il s'agit de faire montre d'un peu de culture mathématique. C'est Quetelet qui forgea le raisonnement statistique à ces rondeurs . Cela lui était d'autant moins douloureux qu'il n'avait pas subi le moule de l'école de la montagne Sainte-Geneviève, et donc que les courbes ne lui paraissaient pas à tout jamais classées sous la rubrique de la mécanique, les tableaux sous celle de la statistique. La subversion d'un tel schème affranchie de la crainte de voir s'écrouler - symboliquement bien sûr, mais c'est bien là la question - l'édifice de l'organisation des enseignements à Polytechnique, et peut-être même celle des classes de l'Académie des Sciences, était à la portée d'un savant belge frotté à la statistique allemande et familier des travaux d'Outre Manche. 1834, la publication de la Physique sociale de Quetelet ; 1838, celle des Recherches de Cournot , déjà critique mais somme toute peu lu ; les deux dates marquent un tournant : les graphiques sont entrés définitivement dans l'arsenal du raisonnement théorique en sciences sociales.

Quetelet a trouvé quelque encouragement dans les mémoires de Fourier, auprès de qui il s'était formé pendant son séjour à Paris vers 1823. Celui-ci, en effet, avait ponctué ses introductions aux recueils statistiques de la Préfecture de la Seine, 1821-1829, de quelques graphiques toujours éclairants . Ces volumes, publiés quand les dénombrements ne sont plus à la mode, quand ils symbolisent même un pouvoir déchu, sont conçus comme les prototypes d'une statistique administrative renouvelée. Ce sont les premiers recueils réguliers de tableaux peu commentés, conçus comme des publications officielles . Le genre préfigure les volumes ultérieurs des bureaux spécialisés et tranche radicalement avec celui des états départementaux de l'époque napoléonienne. Les tableaux dominent, et les graphiques de Fourier n'occupent qu'une place très marginale, illustrations occasionnelles de ses démonstrations relatives à la mesure de la population, à l'établissement d'indicateurs moyens et à la probabilité de ces résultats. Quetelet lui-même, vingt ans plus tard, s'il raisonne en permanence de manière graphique, n'accorde à ce procédé pas plus d'une mention explicite au sommaire de ses Lettres .

Par une représentation graphique, en 1827, Quetelet avait déjà montré la variabilité mensuelle des taux de naissances et de décès . Si le résultat nous paraît bien banal aujourd'hui, il tranchait à l'époque avec les priorités des calculs sur la population, dominées pendant la seconde moitié du XVIIIe siècle et les premières décennies du XIXe par la nécessité d'établir des coefficients stables entre les nombres de naissance ou de décès et celui de la population. Montrer ces variations, c'est rendre possible une réflexion proprement démographique qui prendra pour objet les fluctuations des coefficients. Le temps n'est plus à la compilation des registres de paroisses au moyen de multiplicateurs de naissances espérés constants, on dispose de recensements et d'enregistrements d'état civil assez systématiques pour que l'ingéniosité d'un savant s'y déploie. En 1846, la préoccupation de Quetelet est la diffusion de la méthode statistique auprès d'un public pas nécessairement porté vers les mathématiques, celui des responsables et peut-être même des commis des bureaux de statistique, ou bien celui des médecins . Les raisonnements sur la dispersion des erreurs d'observation, ceux qui le conduisent à faire l'hypothèse de l'homme moyen, un graphique les résume.

" Je n'ose me flatter d'avoir été suffisamment clair. Si mes explications laissaient encore à désirer, à défaut de la parole, peut-être réussirai-je mieux en cherchant à parler aux yeux [...]. On a beaucoup abusé des constructions graphiques, mais j'espère qu'un semblable reproche ne me sera pas applicable [...]. Un coup d'oeil jeté sur la figure précédente fait saisir la loi de sortie des boules, pour le cas qui nous occupe, bien mieux que tous les raisonnements possibles ".

Quetelet utilise la courbe en cloche pour rendre sensible la loi de dispersion des fréquences. C'est donc bien un procédé d'abstraction, depuis les observations mesurées puis mises en séries jusqu'à la loi générale, qui se trouve escamoté par le jeu de l'illusion graphique. Voici précisément le point où se cristallisaient les doutes d'un d'Alembert et les recherches d'un Condorcet. L'un et l'autre (qui connaissaient parfaitement les travaux de Jacques Bernoulli) auraient questionné la formalisation de la courbe aux extrémités du graphique, les passages à l'infini. Mais Quetelet n'est pas fin métaphysicien, et, de plus, il a à sa disposition de nombreuses séries, qui traduites en graphiques, confortent sa conviction que le temps n'est plus aux subtils justificatifs analytiques, qu'il faut accumuler et systématiser les observations. Sans ce renoncement, point de moyenne quetelésienne, point de statistique administrative triomphante : sur la courbe en cloche, le regard est focalisé sur la partie centrale, quant aux extrémités ....... C'est d'ailleurs par une autre voie, celle du développement de la réflexion probabiliste, depuis Poisson jusqu'à Borel, que les mathématiciens iront vers une axiomatisation radicalement différente des calculs Laplaciens, ceux prolongés par Fourier et simplifiés par Quetelet.

Pour le raisonnement des statisticiens, le graphique suffira, même si, dès les années 1850, on est prompt à critiquer la théorie quetelésienne de l'homme moyen. On peut montrer que trente années après la parution des Lettres de Quetelet, les spécialistes se sont totalement appropriés la moyenne et sa représentation, l'ayant débarrassée au passage des justifications probabilistes. C'est ce qu'exprime, peu de temps après la mort du savant belge, l'article canonique de Louis-Adolphe Bertillon (1876) . On peut penser qu'un tel processus, celui de l'autonomisation de la statistique administrative de sa tutelle scientifique (tout comme de celle des gouvernements) au fil du XIXe siècle, a procédé de plusieurs facteurs au nombre desquels il faut compter le succès du Congrès international de statistique, la multiplication des matériaux empiriques, la routinisation des savoir faire, et le renouvellement d'une génération de statisticiens .

Attardons-nous un peu sur les courbes de l'article " Moyenne " de L.-Ad. Bertillon. Voici la taille des conscrits de France répartie en nombre sur une échelle en pieds et pouces (c'est le trait continu). La figure est parfaitement symétrique. A côté (en traits pointillés) celle des conscrits du Doubs, qui offre à la vue deux sommets, aussi ronds et réguliers que celui de la précédente. La première montre la répartition régulière des tailles des soldats français autour de la moyenne. La seconde présente deux modes. Que le tracé ne puisse en aucun cas coïncider avec celui d'une distribution gaussienne, là n'est pas le problème (les pentes sont en effet un peu abruptes). Ce qui compte aux yeux de Bertillon, c'est de suggérer que la courbe des conscrits du Doubs provient de la superposition de deux courbes analogues à celle des français. La première met en évidence l'homogénéité de la population de jeunes français, la seconde celle de deux races dans le Doubs : " les celtes et les burgondes habitent la Franche-Comté " précise notre docteur, chef du bureau de statistique de la Ville de Paris, membre éminent de la Société d'Anthropologie de Paris et de la Société de Statistique de la même ville . L'homme moyen que Quetelet espérait voir surgir de ces multiples superpositions a disparu... la moyenne caractérise un groupe, en anthropologie : une race . Revenons aux chiffres initiaux. Les deux graphiques suivants, le premier pour les conscrits français, le second pour ceux du Doubs, montrent en lignes continues les chiffres que Bertillon entendait représenter.

Les rondeurs sont perdues, et déjà la comparaison des deux courbes parle moins. Mais ces chiffres ne sont pas ceux des mesures effectives. Les relevés militaires ont été rectifiés car, les règlements imposant des seuils d'admission, on ne connaît pas la répartition des plus petits, seulement leur nombre (c'est la barre d'histogramme que j'ai fait figurer à gauche des deux graphiques). Bertillon, comme c'est l'usage depuis Quetelet , a rectifié les données observées redistribuant ces cas au prix d'une hypothèse de normalité sur la taille. Les mesures effectivement enregistrées sont représentées par les tracés en pointillés . Un ressaut apparaît qui entache la figure des conscrits français. Mais ce n'est pas tout. Bertillon disposait, comme en s'en doute, de données centimétriques. On peut montrer, comme l'a fait Ridolfo Livi en 1896 ou bien en procédant par simulation aujourd'hui, que la conversion de l'échelle centimétrique en pieds induit un artefact de calcul qui fait réduire le nombre de mesures situées entre 5 pieds 1 pouce et 5 pieds 2 pouces, d'où le décrochement sur les deux courbes . Des données brutes aux rondeurs tracées par Louis-Adolphe Bertillon, on observe donc une série de bricolages admis et de circularités de raisonnements qui hypothèquent tout à fait le caractère paradigmatique de l'exemple des conscrits du Doubs. Le graphique cependant parle encore . Jacques Bertillon, fils du précédent et son successeur à beaucoup d'égards, publiera en 1895 un manuel de statistique administrative sur lequel se formeront les spécialistes pendant plusieurs décennies. Il ne renoncera pas à la pétition de principe de son père, bien qu'il ait eu certainement conscience des faiblesses des graphiques de 1876 : il illustre en effet son propos par des diagrammes de fréquences non rectifiées . On le voit, le ressort d'une telle démonstration, l'une des plus efficaces en son temps, n'est pas à chercher uniquement dans la technique statistique, mais dans l'ajustement de celle-ci aux outillages mentaux des spécialistes et des profanes.

La représentation graphique d'une distribution autour de sa moyenne était ainsi devenue, vers 1880, la clé du métier de statisticien. Parallèlement, on observe un véritable succès de la statistique graphique à la fin du siècle. La parution annuelle régulière, en France dès 1879, des Albums de la Direction des Cartes, Plans et Archives et de la Statistique Graphique du Ministère des Travaux Publics le laisse voir. Un dénombrement des procédés utilisés dans les articles du Journal de la Statistique de Paris le confirme : si, jusqu'en 1880, presque aucun article n'en comporte, 3 % des articles parus entre 1881 et 1890 font appels à ce mode d'illustration, 9 % entre 1891 et 1900, 18 % entre 1901 et 1910. Certes, au cours de la seconde moitié du XIXe siècle, des améliorations de la photogravure auront facilité cet essor , mais il faut en chercher ailleurs les causes : dans l'action du Congrès international de Statistique et dans le succès des exhibitions graphiques organisées pendant les Expositions Universelles.

Le Congrès s'est réuni neuf fois de 1853 à 1876 à l'initiative d'un groupe de spécialistes animé par Quetelet. Très vite dominé par les chefs des principaux bureaux européens spécialisés, il a été l'instrument d'une relative homogénéisation des savoir faire pour les pays concernés. La question de la représentation graphique fut effleurée à Vienne en 1857, des spécimens furent montrés à Londres 1860. Les discussions se multiplièrent ensuite à Saint-Pétersbourg en 1872, à Budapest en 1876, à l'Exposition de Paris en 1878 (où plusieurs manifestations statistiques furent organisées), ou encore au cours des réunions internationales organisées en 1885 à Paris et à Londres. Chaque exhibition était le prétexte d'une émulation où se confondait la fièreté nationale et l'innovation technique. Ce sont des moments d'échanges intenses dans lesquels chacun consolide son savoir avec les expériences présentées par les autres . On trace collectivement des programmes bien intentionnés. Leurs applications dans chaque pays est plus difficile. Pour peu qu'une disposition se trouve concrétisée, elle alimente aussitôt les publications nationales. De là les multiples innovations techniques des années 1870-1890, le grand nombre des ouvrages consacrés à la statistique graphique parus pendant la décennie 1870 , puis l'intégration de cet acquis dans les textes de référence des années 1880-1890 , tous rédigés par des habitués des rencontres internationales.

Le but affiché du Congrès, dès 1853, était d'encourager la comparabilité des travaux statistiques entrepris dans les différents pays. La méthode graphique paraissait répondre à cet objectif . Emile Cheysson espérait même, par elle, dépasser les contraintes de la diversité des systèmes nationaux de poids et mesures . Mais surtout, elle trouvait dans la fièvre des réunions internationales des conditions de félicité adéquates. Les Albums français préparés sous l'autorité de Cheysson sont le produit de cet enthousiasme, entériné par le Ministère qui se contente de marquer la priorité des statistiques de transport . La notice introductive du volume de 1880 livre l'essentiel des préoccupations propres au genre. On y trouve, par exemple, l'origine de l'usage des hachures :

" Ainsi que pour l'album de 1879, ces planches se divisent en deux catégories : les unes ont trait aux faits d'un seul exercice (comme les tonnages annuels), et, sous le nom de planches de fondation , doivent se reproduire tous les ans, de manière à permettre la comparaison des faits de même ordre dans la suite des temps ; les autres expriment au contraire la résultante d'une longue série de faits accumulés (comme les frais de premier établissement des chemins de fer), et s'accommodent dès lors d'un renouvellement à plus grand intervalle [...].
Sur chaque feuille de l'album, on a eu soin d'indiquer avec détail les sources des informations qu'elle a mises en œuvre. En outre, des légendes définissent les données conventionnelles admises pour la rédaction du dessin, et des tableaux présentent sous forme numérique les principaux renseignements dont la carte donne la traduction.
Quant au format de l'album, on a pu, à l'aide d'un pliage particulier, le ramener à celui des documents parlementaires [...]. Mais cette réduction de format a naturellement conduit à diminuer les échelles des cartes, et par suite à recourir à des procédés d'exécution soignés. C'est ainsi que la gravure sur pierre a remplacé la lithographie, dont on s'était contenté au début pour quelques spécimens de grande dimension traités à la façon des cartes murales. Les planches y ont gagné en finesse, sans accroissement sensible de la dépense, à cause des économies réalisées sur le papier et l'impression.
Pour en augmenter la clarté, sans multiplier outre mesure les tirages, on a fait appel à divers artifices et notamment à l'emploi des couleurs multiples et des nuances d'une même couleur, qui s'obtiennent par des effets de hachures plus ou moins serrées. Ces procédés se prêtent à une grande variété de combinaisons, et il ne reste plus qu'à les bien adapter aux convenances de chaque cas particulier. [...]
Si la statistique graphique, bien que née d'hier, étend chaque jour son domaine et le cercle de ses applications, s'il n'est presque plus aujourd'hui de branche de l'activité humaine qui ne recoure à ses services, c'est qu'elle remplace avantageusement les longs tableaux de chiffres et qu'elle permet, non seulement d'embrasser d'un seul coup d'œil la série des phénomènes, mais encore d'en signaler les rapports ou les anomalies , d'en trouver les causes, d'en dégager les lois ".

Pourtant la statistique graphique ne remplira pas le programme que lui assigne Cheysson, même si elle va durer comme en témoignent les illustrations qui accompagnent ce texte, tirées d'un album estonien de 1925. Cela vient de ce que, contrairement à la statistique tabulaire des bureaux, les conventions à adopter ne se prêtent pas à des ajustements internationaux, à la construction de la comparabilité. Les chefs de bureaux pouvaient discuter l'organisation de leurs services, celle des enquêtes, ou la définition de nomenclatures de professions ou de causes de décès. Les résolutions prises se traduisaient de manière tangibles dans des critères durables. Les variations nationales auxquelles elles étaient ensuite soumises ne mettaient pas radicalement en échec l'édification internationale. Maurice Block, le plus marginal des français qui participaient régulièrement aux sessions du Congrès, a parfaitement saisi à quel point la machinerie serait impuissante.

" Partout le diagramme et le cartogramme ne sont considérés que comme des accessoires, et tout au plus comme des auxiliaires, mais jamais comme la chose principale. Pour cette raison, il ne saurait être question de rendre les diagrammes comparables. Certains principes généraux s'imposent à tous, mais les détails d'exécution dépendent : 1° du format de la publication ; 2° de la nature des renseignements présentés ; 3° du nombre de renseignements qu'on veut représenter à la fois ; 4° du goût du rédacteur. Et pourquoi défendrions-nous au goût du rédacteur de s'exercer ? Parce qu'un auteur estimé aura employé des carrés ou des triangles, tout le monde sera-t-il condamné à suivre le même procédé ?.
Nous pensons que c'est un peu flatter les représentations graphiques que de les élever au rang d'une méthode ; il serait plus juste de n'en faire qu'un procédé auxiliaire, dont l'utilité est incontestable dans certaines limites. On s'est un peu engoué, ce nous semble, dans ces derniers temps, des diagrammes et des cartogrammes, dont nous sommes loin de médire, puisque nous en avons joint plusieurs à nos ouvrages ; mais nous ne les avons jamais considérés que comme des illustrations . [...] Malgré tout ce qu'on a pu faire de vraiment remarquable, les représentations graphiques n'atteignent peut-être jamais la précision des tableaux de chiffres ".

La statistique graphique, si propre à suggérer des comparaisons, ne peut servir de matière à l'harmonisation internationale de ses procédés et de ses conventions, contrairement à son homologue tabulaire. Le genre pouvait apparaître, pour Cheysson en 1878, comme un renouveau des grands projets des années 1850-1860, alimenté des fruits des progrès déjà accomplis. Mais l'essentiel, l'autonomisation de la statistique administrative était déjà acquis, et la nouvelle méthode ne se prêtait pas aux arbitrages collectifs. Elle aura marqué clairement les limites de l'efficacité d'une institution comme le Congrès.

Trois auteurs français ont livré une synthèse de cette expérience nationale et internationale, un militant, Émile Cheysson ; un sceptique, Maurice Block ; un pédagogue, Émile Levasseur. Jacques Bertillon, pour sa part, n'a fait que combiner sur ces questions les arguments de Cheysson et de Levasseur alors même que l'enthousiasme semblait retombé. On catalogue et on discute les procédés connus : les points, les symboles, les lignes, les surfaces, les cartogrammes, les diagrammes ou même les stéréogrammes, en soulignant les dispositifs habilement agencés. On n'omet pas de vanter, presque rituellement, le potentiel heuristique de la méthode . Les quatre auteurs s'accordent pour prôner la vertu des figures simples, et instruisent leurs lecteurs ou leurs auditeurs par des exemples édifiants.

" Si la légende est longue, si vous êtes obligé de la consulter à chaque instant pour savoir ce que signifie le rouge, le bleu, le jaune, la ligne droite, la ligne brisée, les signes conventionnels, dites hardiment [:] ce n'est pas là une carte graphique, mai[s] une combinaison hybride de plusieurs systèmes, un travail qui n'atteint pas son but ".
" Tout graphique qui n'éclaire pas le sujet est condamné : voilà la règle suprême, qui n'est autre que celle de la clarté [...]. Il faut [...] que l'œil saisisse tout d'abord l'ensemble avec netteté et que l'esprit pénètre ensuite sans effort jusqu'à la notion des détails. Voilà les principales règles applicables à la démonstration , laquelle est l'objet le plus ordinaire qu'on se propose en dressant un graphique ".

Une discussion technique dans laquelle Levasseur prend à témoin son auditoire londonien montre le système de contraintes auquel la lisibilité des graphiques est soumise. L'articulation des conventions et des tracés aux matériaux quantitatifs est capitale, au même titre que les coûts de fabrication des planches, on l'a déjà vu sous la plume de Cheysson. Mais c'est l'ajustement des figures à des schèmes d'interprétation élémentaires supposés partagés par leurs destinataires qui constitue le critère primordial. Le " goût du rédacteur ", c'était la formule de Block, n'est autre que l'habile anticipation des lectures du sens commun. Levasseur décrit une carte. Un fond noir est enrichi de tracés rouges ou bleus d'intensités diverses, les uns marquent les zones géographiques caractérisées par un indice inférieur à la moyenne, les autres celles dont les valeurs sont supérieures à cette frontière.

" [Ce dispositif] présente tout d'abord aux yeux une idée très simple en divisant le pays, relativement au phénomène représenté, en deux catégories de régions [les bleus et les rouges], la catégorie pauvre et la catégorie riche ; c'est une notion facile à retenir [...]. M. Cheysson, dans son rapport sur la statistique graphique à l'exposition de 1878, a fait à notre système une critique judicieuse, à savoir que les régions territoriales qui sont, en réalité, à peu de distance au-dessus ou au-dessous de la moyenne, paraissent ainsi séparées d'une manière trop absolue, tandis qu'il serait intéressant de connaître, et, pour cela, de grouper ensemble les régions voisines de cette moyenne. Il a proposé soit d'ajouter une troisième couleur pour la zone moyenne, soit de laisser cette zone en blanc, et il a fait lui-même un emploi fréquent de ce procédé dans les cartes qu'il a publiées. Nous hésitons, pour notre part, à l'adopter, parce que nous craignons que la troisième couleur n'augmente le prix de l'impression, et que la troisième zone, qu'elle soit en couleur ou en blanc, ne nuise à la simplicité des notions qui conviennent à l'enseignement. Nous préférons marquer de croix ou de points, par l'impression en noir, la catégorie la moins intense du rouge et la plus intense du bleu, et les réunir ainsi par ce signe commun qui en fait une zone moyenne, sans cependant altérer la notion si simple de la région où il y a peu et de la région où il y a beaucoup "

Il arrive parfois que ces critères ne suffisent pas à établir des règles strictes de représentation. Block, on l'a vu, en profite pour mettre en doute le principe de la méthode. Levasseur, pour sa part, se contente de constater la marge laissée lors de la préparation des documents. Ainsi est-il conduit à évoquer la question de l'échelle, topographique le plus souvent, pour laquelle on dispose des informations statistiques : l'évidence du dessin en est tout à fait dépendante. C'est l'occasion pour lui de donner des exemples où l'on reconnaît aujourd'hui une ecological fallacy .

Cette nécessaire simplicité, c'est-à-dire, on l'a vu, cet ajustement à des catégories d'interprétation profanes mais socialement constituées, rend vaines les tentatives où se déploient des analogies trop subtiles. C'est le cas des figures à trois dimensions (en volume ou bien en perspective) qui font appel à un apprentissage de géomètre ou de mécanicien : les stéréogrammes. Tous les rejettent en principe mais sans brutalité, les opinions variant selon le schéma habituel de Cheysson qui rachète l'application du procédé aux données démographiques en notant qu'il met en évidence des cycles trentenaires, à Block toujours sarcastique.

" Quant aux diagrammes à trois dimensions, dont nous avons vu plusieurs essais, notamment ceux de M. Berg, à Stockholm et de M. Perozza [sic, pour Perrozo], à Rome (ce dernier a même très bien exécuté le sien en plâtre), ce sont d'ingénieux tours de force, que nous, les amateurs et les connaisseurs, devons admirer et combler d'éloges... mais non imiter, si nous sommes des gens pratiques. Les tableaux sont plus simples, plus clairs et plus sûrs. Ajoutons que certains auteurs qui sont plus mathématiciens que statisticiens ont pris goût aux diagrammes à trois dimensions, mais nous ne croyons pas que leurs efforts obtiennent dans la statistique autre chose qu'un succès d'estime ".

Parce que la lisibilité des dessins engage d'une manière trop évidente une tension entre la compétence spécialisée des statisticiens et celle stylisée qu'ils attribuent aux profanes, la statistique graphique restera une technique auxiliaire d'illustration, de recherche et de contrôle. Elle ne tiendra pas les promesses d'un Cheysson qui en attendait une autre forme de traduction du cumul des observations statistiques, souvent plus efficace que les tableaux rectangulaires. Levasseur prend acte de cet échec, mais il ne renonce pas à promouvoir les procédés graphiques. Leurs applications didactiques favorisent, en effet, le renouvellement des méthodes et des objets de l'enseignement de l'histoire et de la géographie des classes du secondaire et du primaire. Tout comme un siècle plus tôt, l'analyse mathématique renouvelée par les recherches des académiciens des sciences est passée en quelques décennies des débats les plus spécialisés aux enseignements des écoles créées pendant la Révolution, terme d'un double processus beaucoup plus long de transformation de la pratique et de l'enseignement des sciences au XVIIIe siècle , la statistique graphique discutée dans les congrès pendant les années 1870 a très vite alimenté l'apprentissage scolaire. Levasseur fut le principal artisan de cette application.

" [J']ai souvent employé [les procédés de la statistique graphique] pour faire pénétrer jusque dans l'enseignement secondaire et même primaire quelques notions relatives à la géographie économique ".
" Il est assurément beaucoup plus facile d'apercevoir ces grands mouvements, et surtout de les faire comprendre à des lecteurs ou à des auditeurs avec des figures de ce genre qu'avec des tableaux de chiffres. C'est pourquoi nous recommandons, d'après notre expérience personnelle, l'emploi de figures d'un style mural aux professeurs, surtout lorsqu'ils s'adressent à un auditoire nombreux. Il n'est pas nécessaire, quand on ne dispose que de faibles moyens d'exécution, de les faire élégantes ; il suffit de les faire claires. Souvent même il suffit de les tracer sommairement soi-même, avant ou pendant la leçon, sur un tableau noir quadrillé ".

Aux murs des écoles, dans les albums statistiques 1900, les graphiques édifieront le profane, qu'il soit élève ou maître, citoyen ou parlementaire, visiteur de l'exposition universelle ou encore industriel : ce sont des exempla laïcs et républicains.

En janvier 1927, l'Office National du Commerce Extérieur acquiert le Statistiline Album estonien en deux volumes préparés en 1925. On peut les tenir pour un des accomplissements du genre, au charme provincial cependant . Trente ans plus tôt, Bertillon notait l'apparition des "hiéroglyphes". C'est maintenant une débauche sémiologique. Les histogrammes en perspective se sont enrichis. Rouleaux de papiers, stères de planches, sacs de semences, bidons d'alcool, boîtes de conserve, cartons d'oeufs, paquets d'allumettes, tonneaux de beurre, tissus, machines, chevaux, vaches, porcs, automobiles, tas de houille, blocs de métal, balles de tabac, pains de sucre, peaux roulées, barils de pétrole et bidons de couleurs, tout cela, sur une même page, ne doit pas dépasser l'esquisse de volumes dont les tailles sont proportionnelles aux observations statistiques.

Sur quelques dizaines de pages, les procédés techniques et les habitudes mentales les plus disparates s'enchaînent. Le chiffre officiel de la population estonienne est représenté gravé sur une plaque, magnifique ellipse de l'effet d'officialisation sans lequel depuis longtemps un tel total n'indiquerait rien d'autre que l'accumulation administrative qui l'a produit . Les cartes de flux des transports, à la Minard, montrent que l'Estonie est un des verrous du transit soviétique. Un histogramme wagonoïde, assorti d'un autre plus classique, met en évidence l'ampleur du trafic vers la Russie jusqu'en 1922, puis le basculement complet du flux. La fin de la Guerre Civile et de celle menée par les pays occidentaux contre l'U.R.S.S. en sont les causes. Un peu plus loin, une carte des nationalités par arrondissement qui accorde le bleu ciel à la majorité estonienne, le rouge aux russes, le vert aux allemands, le marron aux suédois, et, avant le noir aux autres, le jaune aux juifs, nous rappelle que le procédé porte avec les résultats de plusieurs décennies de débats spécialisés , de multiples appels à des catégories mentales moins savantes, chez les spécialistes comme chez les profanes, et que ces ressorts ne sont jamais maîtrisés.

" La statistique graphique est à la statistique numérique ce que, dans le drame, l'action est au récit" , la formule d'un Levasseur cherchait à cerner la puissance évocatrice des schémas. Il en livre plus loin la clé : " Plus ces recherches ont coûté de travail, plus [les statisticiens] doivent s'appliquer à en faciliter l'intelligence au public en lui épargnant une partie de la peine qu'ils ont prise eux-mêmes " . Donner à voir ce qui est méconnu en escamotant le processus savant de connaissance sous l'immédiateté de la reconnaissance profane, voici finalement le principe d'efficacité auquel s'est lentement conformé la statistique graphique.

Ses procédés avaient une vertu cependant : on l'a vu au fil des exemples, les figures traduisaient une claire conscience de la variabilité des indices traités isolément ou bien en combinaison. Si on se souvient que l'établissement de critères mathématiques de mesure de cette variabilité des données date des premières décennies du XXe siècle, que la construction de techniques multidimentionnelles a été façonnée à la même époque puis renouvelée entre 1950 et 1970, on est conduit à observer, oubliant les ingénuités de bien des statisticiens contemporains, que la statistique graphique fut, à l'époque triomphante de la moyenne, le savoir faire par lequel les spécialistes rendaient compte de la complexité de leur matière. Ici, comme ailleurs, " les usages précédèrent temporellement de beaucoup leur théorie ".

Quelles nouveautés apporte aujourd'hui l'informatisation de ces procédés ? Ces outils confortent bien des obscurités : les choix des programmateurs de logiciels intégrés devraient faire l'objet d'analyses analogues à celle proposée ici. Un acquis toutefois me paraît capital : les coûts entraînés par la mobilisation et, selon le même principe quand on en a le courage, la production des matériaux chiffrés et figurés, ces coûts sont réduits dans des proportions telles qu'il n'est pas facile d'en garder une claire conscience. Pendant les années 1960, on effectuait " à la main ", ou plus précisément à l'aide de machines électro-mécaniques les diagonalisations nécessaires aux calculs d'analyse factorielle dont des logiciels livrent les résultats en quelques dizaines de secondes. Aujourd'hui, une poignée d'étudiants dotés d'un micro-ordinateur peuvent reprendre en quelques années une bonne part des travaux d'un bureau de statistique du début du siècle alors que celui-ci employait pendant plusieurs décennies une ou deux centaines de fonctionnaires. Il n'y a donc plus de raison, hors la reproduction rituelle de techniques didactiques hérités du siècle précédent, de suivre les conseils pédagogiques de Levasseur. L'attention des élèves et des étudiants peut être focalisée sur le travail d'abstraction, et non plus seulement sur les résultats. Le choix pédagogique se résume à l'alternative suivante : ou bien on entretient des mystères passés en les habillant d'attributs techniques renouvelés, ou bien on joue d'une accumulation pluri-séculaire de chiffres et du bouleversement en cours des techniques de traitement pour fournir aux apprentis des instruments d'examen critique. " Noli me tangere. Ne touchez pas mes définitions, mes méthodes, mes cadres ! " devait être, selon Jacques Bertillon, la devise de la statistique . On peut aujourd'hui enseigner le raisonnement dans les sciences sociales en proclamant : " apprenez à jongler et réfléchissez ! ".

Bibliographie

  • Source des illustrations

    • EESTI [Estonie], Riigi Statistika Keskbüroo, Statistiline Album. - Tallinn, 1925, 2 v.

  • Ouvrages anciens sur la statistique

    • BERTILLON, J., Cours élémentaire de statistique administrative. - Paris, S.E.S., 1895.

    • BERTILLON, L.-Ad., "Moyenne", Dictionnaire encyclopédique des sciences médicales. - Paris, Masson & Asselin, 1876, 2e sér., v. 10, p. 296-324.

    • BLOCK, M., Traité théorique et pratique de statistique. - Paris, Guillaumin, 1886, 2e éd.

    • [LEVASSEUR, E. (dir.)], Conférences sur la statistique et la géographie économique faites en 1889-1890. - Paris, Rozier, 1891.

    • LEVASSEUR, E., La Statistique graphique [Stat. Soc. London, June 23, 1885]. - London, Ed. Stanford, 1885.

    • LEVASSEUR, E., "Note sur la méthode d'enseignement de la géographie", [Ve Cong. Int. Sc. Géo.]. - s.l.n.d., 32 p.

    • LIESSE, A., La Statistique. Ses difficultés - Ses Procédés - Ses Résultats. - Paris, Alcan, 1912, 2e éd. (1e éd. 1905)

    • Ministère des Travaux Publics, Album de statistique graphique. - Paris, Impr. Nat. [série publiée dès 1879].

    • QUETELET, Ad., Lettres [...] sur la théorie des probabilités. - Bruxelles, Hayez, 1846.

  • Travaux récents sur l'histoire des statistiques

    • BOURGUET, M.-N., Déchiffrer la France. La Statistique départementale à l'époque napoléonienne. - Paris, E.A.C., 1989.

    • BRIAN, E., La Mesure de l'Etat, Thèse, EHESS. - Paris, 1990.

    • DASTON, L., Classical Probability in the Enlightenment. Princeton, 1988.

    • DUPAQUIER, J. et M., Histoire de la Démographie. - Paris, Perrin, 1985.

    • FELDMAN, J. et MATALON, B. (éd.), La Moyenne dans les sciences de l'Homme, Paris, Ed. EHESS, sous presse [1991].

    • HACKING, I., The Taming of Chance. - Cambridge, 1990.

    • KANG, Zh., Lieu de savoir social. La Société de Statistique de Paris au XIXe siècle (1860-1910), Thèse, EHESS. - Paris, 1989.

    • PALSKY, G., La Cartographie thématique en France, Thèse, Paris I. - P., 1990.

    • PERROT, J.-Cl., Une histoire intellectuelle de l'économie politique aux XVIIe et XVIIIe siècles. - Paris, Ed. EHESS, sous presse [1991].

    • PORTER, Th. M., The Rise of Statistical Thinking, 1820-1900. - Princeton, 1986.

    • STIGLER, St. M., The History of Statistics. - Cambridge, 1986.


Du rôle du graphique dans l'analyse historique des séries temporelles

Jean-Yves Grenier CNRS

En deux ou trois décennies, les techniques d'analyse des séries temporelles utilisées par l'historien ont considérablement évolué. D'un côté, les statisticiens ont procédé à de multiples innovations qui vont encore aujourd'hui en s'accélérant, et les historiens, de leur côté, grâce à la micro-informatique et à la diffusion des logiciels statistiques, s'approprient ces méthodes nouvelles avec un retard de plus en plus faible. L'effet d'accélération est d'autant plus sensible que les propositions méthodologiques contenues dans ces techniques sont de nature très différentes. Alors que les premières (moyennes ou médianes mobiles...) sont essentiellement descriptives ce qui réserve un rôle à la fois nécessaire et essentiel à l'observateur, les secondes (analyse spectrale, méthode ARMA...) permettent une déconstruction analytique ou une déstructuration des chroniques. La conséquence est importante: quand les premières doivent assumer une forte subjectivité dans leur emploi, les secondes peuvent laisser entrevoir un début d'objectivation de la pratique historico-statistique avec une intervention de l'opérateur limitée au choix des paramètres du modèle. Ces différences considérables se retrouvent en apparence à tous les niveaux et elles définissent deux univers de la pratique statistique historique opposés. Le mode de validation des résultats et les effets de démonstration que l'on peut en attendre sont donc également divergents : un gain de " scientificité " peut être escompté par l'historien du fait du caractère plus neutre, et donc plus expérimental, de l'usage des méthodes analytiques. Pourtant, cette différence est en partie illusoire, ou, plus exactement, si les fondements techniques de ces dernières différent, leur pratique concrète dans son articulation avec le savoir historique affiche de multiples ressemblances. Et au coeur de cette pratique se trouve l'emploi des formes graphiques.

L'historiographie française a connu un débat intense dans les années 1950-1960 autour de l'usage des méthodes statistiques et de leur pertinence. Tous les historiens économistes se réclament alors de E. Labrousse, et sa pratique du chiffre et du graphique détermine quel est leur emploi légitime. La question centrale est de savoir comment prendre en compte son héritage. A la fidélité réductrice de P. Goubert s'opposent le désir de plus grande sophistication de J. Meuvret et la recherche de simplicité poursuivie par R. Baehrel. La confrontation est rude, sévère même. Mais un critère est accepté par tous pour départager chacune des approches, celui de la lisibilité des graphiques. Le choix d'une méthode n'est pas défendu par des arguments internes sur l'optimalité statistique des transformations effectuées mais par sa capacité à " montrer ", à " donner à voir ", à rendre visuels les mouvements de la conjoncture. La quantification est en fait secondaire ; seule compte ce que R. Baehrel appelle la " statistique graphique ". Le contrôle de la validité des transformations n'est cependant pas absent et il est l'enjeu de vives discussions. Il réside dans leur pertinence historique : là encore, la manipulation statistique n'est pas validée par des critères techniques mais par son aptitude à se " rapprocher d'une représentation aussi fidèle que possible des fluctuations telles qu'elles étaient ressenties par les populations " . Cette expression de J. Meuvret, qui veut justifier l'utilisation d'une moyenne géométrique tronquée au lieu d'une moyenne arithmétique, est directement inspirée par les considérations de E. Labrousse qui légitimait de la même façon son choix d'une moyenne mobile de 13 ans. Le graphique se trouve alors doublement enrichi : il est rendu plus lisible et ses mouvements ont une signification historique plus grande. En ce sens, la représentation visuelle réalise l'articulation des deux savoirs, historique et statistique.

L'intuition visuelle est donc centrale. Mais cette intuition doit être formée par un long apprentissage ; c'est l'" œil exercé " de J. Meuvret qui exige la connaissance du métier d'historien. C'est précisément, de manière implicite, au nom de ce métier, que R. Baehrel critique la sophistication statistique, préférant se contenter du seul graphique des données brutes, de la courbe primaire. Les seules transformations acceptées relèvent elles-même de l'impression visuelle comme par exemple des droites d'accroissement "grossièrement crayonnées ". " Il faut se contenter du grossier ", écrit-il, pour laisser l'intuition historique se manifester. Dans le geste qui trace cette épure impressionniste, cependant, c'est la spécificité d'une pratique d'historien qui apparaît, nourrie par la lecture de centaines d'autres courbes, vraie synthèse d'un savoir peu transmissible sous cette forme. Les tests de validité statistique ne sont pas de mise et la confusion entre intuition et présupposition est acceptée. C'est la notion de démonstration graphique, par nature subjective, appelée à jouer un rôle essentiel dans la rhétorique de l'historien. Le meilleur exemple que l'on peut en donner est pourtant chronologiquement antérieur puisqu'il s'agit du célèbre graphique de E.J. Hamilton qui montre l'évolution parallèle des arrivées de métaux précieux et des prix en Espagne au XVIe siècle. Rarement la suggestion graphique a tenu lieu plus efficacement de preuve.

Ces débats, passionnants, ont disparu. La raison en est double. D'abord, on l'a dit, les méthodes analytiques pensent substituer l'objectivité du calcul à la subjectivité, difficile à assumer malgré tout, du graphique. Ensuite, l'analyse des séries temporelles est devenue plus complexe ce qui facilite l'autonomisation des calculs, séquences techniquement déterminées et donc moins contrôlables. De plus, l'opération statistique porte sur des séries transformées (stationnarisées le plus souvent) qui échappent en partie au contrôle direct de l'historien.

L'objectivation est cependant loin d'être totale. Le paradoxe est au contraire que la subjectivité reste essentielle mais l'extension de la réelle scientificité interne, technique, propre à ces méthodes, à l'ensemble de la pratique historico-statistique fait que la façon dont elle est assumée est très différente.

Les techniques analytiques présentent en fait deux aspects : un aspect dur dans les séquences où des règles strictes de calcul sont appliquées; un aspect mou dans les étapes qui articulent ces séquences. Or, ces étapes prennent le plus souvent une forme graphique et l'intuition subjective de l'opérateur retrouve sa place directrice. L'interprétation des sorties graphiques tient en effet un rôle considérable dans l'analyse des séries temporelles. Prenons l'exemple du graphique des autocorrélations et des autocorrélations partielles, déterminant dans l'estimation des modèles ARMA. Des règles d'interprétation existent qui autorisent une lecture en apparence neutre. C'est en effet en fonction de la vitesse et de la forme de l'amortissement des coefficients que l'on estime les paramètres des modèles. Mais ces règles ne sont que des aides : le bon statisticien est celui qui saura les interpréter, qui connaîtra les autres règles, plus intuitives, qui gouvernent leur application. Toute tentative de fonder une interprétation déterministe à partir des seuls coefficients se heurte à une récupération par la pratique qui fonde une légitimité supérieure. Et cette dernière s'appuie sur l'intuition visuelle pour l'observation des graphiques. Ses deux fondements permettent de mettre en évidence combien elle doit être distinguée d'une approche objectivée du réel.

1. La lecture de ces graphiques " secondaires " repose d'abord sur la pratique du statisticien qui s'élabore dans une comparaison essentiellement mentale avec les multiples analyses similaires effectuées antérieurement. Cette approche, proche en somme du diagnostic, par nature subjective et peu transmissible, donc mal objectivable, est la seule possible pour maîtriser les allers-retours entre le graphique et les modèles estimés, allers-retours qui recouvrent une séquence de calcul autonome dont l'anticipation mentale dans la considération des graphiques intermédiaires exige une familiarité avec ce qui est, au sens fort, le métier de statisticien. C'est lui seul qui légitime - légitimité non pas absolue mais bien relative à la seule pratique statistique - le choix entre plusieurs interprétations presque équivalentes.

2. Cette lecture dépend également de ce qui est recherché. L'intuition visuelle est aussi une anticipation de résultats possibles. C'est très net dans l'analyse du graphique des densités spectrales pour laquelle l'identification des pointes significatives, outre qu'elle requiert une habitude certaine, repose autant sur l'observation que sur l'attente des régularités cycliques recherchées. Deux statisticiens ne verront pas de la même manière le même spectre parce qu'ils ne veulent pas lui faire dire la même chose. Le commentaire n'est certes pas libre car des critères solides, éprouvés existent. Mais les tests eux-mêmes sont soumis à une interprétation, elle aussi le plus souvent graphique et toujours subjective : le bruit blanc des résidus ou la symétrie de leur distribution restent affaire de perception et donc d'appréciation, fondée sur une pratique visuelle plus que sur la seule objectivité du chiffre. Le test fourni plus une orientation de lecture qu'une vérification certaine.

Ces constatations sont d'autant plus fondées que l'on parle ici de séries historiques qui, bien souvent, approchent mais ne respectent pas les conditions initiales requises pour valider une analyse statistique (quant à la stationnarité par exemple). Un écart existe donc d'emblée par rapport aux exigences liées à l'emploi de règles d'interprétation, ce qui renforce la double notion de subjectivité et de contrôle par la pratique.

Il est clair que la question de l'articulation des deux savoirs reçoit une réponse très différente dans les deux univers méthodologiques examinés. Avec les méthodes anciennes, on l'a dit, le graphique élaboré et son interprétation constituent une synthèse immédiate qui rend indistinctes les deux approches. Les méthodes analytiques, au contraire, attribuent une autonomie aux graphiques qui donnent à voir non la série ou un dérivé direct mais des caractéristiques, tempolarisées différemment, qui la représentent. La pratique historique est écartée car le retour aux données brutes est difficile et les règles d'interprétation ne font pas appel à un savoir ou à une intuition propre à l'historien. Au lieu d'une représentation auto-validée par la subjectivité assumée de l'historien, une justification autonome apparaît, fondée sur les règles de la pratique statistique.

Les conséquences épistémologiques ne sont pas négligeables. En effet, cette dissociation impose, pour que la démarche de l'historien soit valide, que celui-ci fournisse par ailleurs, indépendamment des séries et des différents graphiques, une explication cohérente possible des propositions du statisticien, sans quoi leur deux intuitions visuelles ne se rejoindraient pas. Pour que la courbe primaire de l'historien et le graphique secondaire du statisticien parlent de la même chose, donnent à voir le même objet, il faut qu'une problématique historique théoriquement fondée propose une cohérence commune.


Les représentations graphiques en histoire-geographie dans l'enseignement secondaire

Louis-Pascal Jacquemond, Gérard Colotte, Rémy Durrens, Daniel Letouzey,Claude Bourges pour le GRAF (Groupe de recherche Action Formation)

Deux constatations justifient le choix d'un tel thème :

Dans un univers où l'image concurrence le texte, l'information statistique est de plus en plus présentée sous une forme imagée. Ainsi à la fin des années 70, la situation économique était représentée sous la forme d'un carré idéal (taux de croissance, taux de chômage, inflation, balance commerciale). Dans l'éducation, l'évolution des manuels illustre ce développement d'une information visualisée : tableaux, caricatures, schémas, graphiques occupent une place croissante, au détriment du texte... Les instructions officielles plaident pour " la maîtrise d'un certain nombre de représentations graphiques de données : courbes, pyramides des âges, graphes de tous types " (géographie de Seconde). Celles de mathématiques rappellent que les graphiques permettent de donner un " contenu intuitif et concret aux objets mathématiques ". Seule l'histoire reste en retrait, mettant davantage l'accent sur le texte ou le document iconographique. Ainsi la maîtrise du langage des graphiques est devenue l'un des objectifs de l'enseignement, et pas seulement pour l'histoire (Cf. annexes 1 et 2).

La représentation graphique est une des voies privilégiées pour introduire à l'usage de l'ordinateur, pour en dédramatiser le maniement, pour convaincre au vu de résultats tangibles les plus réticents de nos collègues. Les derniers textes officiels incitent à utiliser l'informatique dans le traitement des données démographiques et économiques, là où elle apporte un progrès (Histoire). En géographie, il est conseillé de se servir de logiciels d'exploitation de bases de données, ou de logiciels facilitant l'accès aux représentations graphiques. Cet usage de l'ordinateur a longtemps été freiné, tant par la pauvreté de l'affichage graphique (cf Leanord Silz II ; écrans CGA des premiers IBM) que par l'insuffisance des logiciels (graphiques en barres obtenus en alignant des * dans Multiplan). Récemment, l'essor des cartes VGA, la diffusion de logiciels performants (certains affichent les trois dimensions) ont modifié l'approche de la représentation graphique.

Cet article est l'exploitation d'un questionnaire adressé à plusieurs formateurs, membres de l'association. Nous avions prévu de confier à chacun la rédaction d'un thème, mais les conditions matérielles n'ont pas permis de procéder ainsi. Le contenu est donc le produit d'une réflexion collective. Dans la mise en forme nous avons tenté de limiter les redites ou les contradictions. Mais les exemples cités proviennent toujours d'expériences concrètes, menées au collège, au lycée ou encore en formation d'adultes. Il ne faut donc pas chercher un inventaire exhaustif des types de représentations disponibles en informatique, ni un référentiel tenant compte de l'âge ou du niveau des élèves.

Nous avons aussi gardé à l'esprit deux considérations déjà présentes dans le questionnaire :

Tenir compte, autant que possible, de l'apport spécifique de l'ordinateur. La plupart des graphiques peuvent être construits avec du papier et un crayon, soit en travaux dirigés, soit à domicile. Cependant leur réalisation avec un ordinateur évite dans un premier temps de dérouter les adultes et permet de faire mesurer concrètement avantages et limites de cette technologie nouvelle.

Etre conscient des limites d'une approche quantitative : l'enseignement de l'histoire ne se limite pas aux données numériques, mais dans l'immédiat les autres applications profitent moins de l'ordinateur : les bases de données exigent un apprentissage long et pas toujours rentable, l'analyse de texte informatisée n'a pas vraiment prouvé sa supériorité, et le travail sur l'image exige encore un équipement coûteux.

Cette synthèse repose aussi sur des choix : le travail statistique préalable n'est qu'évoqué de façon allusive pour ne pas alourdir l'article ; les liens entre graphisme et cartographie seront évoqués dans le prochain numéro ; les exemples cités concernent souvent la géographie : nous enseignons les deux disciplines, et la frontière entre histoire immédiate et géographie économique est ténue...


LOGICIELS


Comparaison de deux logiciels graphiques

LETOUZEY Daniel

I. Quels types de représentation graphique utilisez-vous ? Quels sont les principaux thèmes concernés ?

a.- Plusieurs collègues ont tenu à replacer leur travail dans un cadre plus général.
Pour le travail avec les élèves, L.P. Jacquemond assigne deux objectifs à la pédagogie par l'informatique :

L'élève ou le groupe-élèves doit être mis en situation de recherche-apprentissage : formuler des hypothèses, opérer des choix, valider ou invalider une démarche, confronter avec un savoir ou une connaissance théorique sa propre production. C'est en cela qu'il apprend à manier un raisonnement historique.
L'élève ou le groupe doit produire une trace écrite ou imprimée de sa démarche, de son analyse, de ses résultats. Cette trace témoigne de ses hypothèses, de son raisonnement, de son appropriation du savoir.
L'enseignant doit concevoir et proposer des activités conciliant la cohérence de ces deux paramètres.

En formation continue, G. Colotte précise les conditions de son travail :
La majorité des collègues viennent de collège, où le nanoréseau reste plus accessible que les compatibles IBM.
La pédagogie générale forme l'axe majeur : l'informatique n'est qu'un outil parmi d'autres. L'objectif est de l'intégrer dans la pratique quotidienne, et pour cela de construire et d'expérimenter des séquences pédagogiques. L'organisation de la classe, la démarche d'apprentissage retenue, le choix des outils complémentaires à utiliser comptent plus que la seule approche informatique.
A quelques exceptions près, les stagiaires sont en majorité des débutants en informatique qui appréhendent le maniement du matériel : méconnaissance du clavier, crainte d'effacer des données, peur de provoquer une panne... Dans un premier temps l'approche technique doit être réduite le plus possible. A l'usage, l'emploi d'un didacticiel comme Chrono 6 (chronologie en classe de 6°) pose moins de problème que l'apprentissage de logiciels graphiques même simples.

Dans tous les cas, l'usage de l'ordinateur est limité dans le temps : 5 à 6 séances par élèves en classe de seconde.

Ce travail sur un savoir-faire gagne en efficacité s'il rejoint des activités complémentaires dans d'autres disciplines ( mathématiques, économie...). Il doit tenir compte du niveau mathématique des élèves. Le recours aux données numériques, à leur représentation graphique est facilitée pour les enseignants formés à l'histoire quantitative. Mais pas plus que celle-ci n'englobe toute la discipline, les chiffres n'épuisent pas l'apprentissage de la méthode historique. L'analyse de textes, de documents iconographiques, de cartes occupent davantage de temps.

b.- Les exemples de thèmes concernent plus souvent le monde contemporain et la géographie. Trois ensembles principaux se dégagent :

  • La mise en évidence d'une évolution
    • Population d'un pays, France depuis 1801, Allemagne depuis 1900.
    • Mariages, naissances, décès dans un village.
    • Croissance comparée de la population de départements voisins.
    • Evolution des taux de natalité/mortalité pour les principales puissances.
    • Valeurs de la Bourse, Paris, septembre 1987 à mars 1988.
    • Production de charbon par pays de 1870 à nos jours.
    • Dette des pays de l'Est 1981-1990.
  • L'étude d'une structure :
    • Comparaison de l'origine des importations pétrolières en France pour 4 dates : 1972 ; 1980 ; 1985 ; 1989.
    • Pyramides des âges : France 1789, 1851, 1962, 1990 ou exemples locaux : Grenoble, Caen...
    • Budget de la France en 1788.
    • Commerce extérieur d'un pays ( USA, Japon...).
  • Des mises en relation de plusieurs facteurs :
    • Diagrammes ombrothermiques ou climogrammes.
    • Comparaison d'indices : pour les mines de Carmaux, salaire journalier des mineurs, profits annuels de la Compagnie entre 1860 et 1913.
    • Comparaison P.I.B par habitant et Mortalité infantile.
    • Description de l'économie française à partir de plusieurs critères.
  • Mise en évidence de typologies :
    • Diversité du Tiers Monde à partir de données économiques et démographiques (ex : PIB, Mortalité infantile...).
    • Etude de la transition démographique.
    • Productivité et développement.

c.- L'ensemble des représentations est sollicitée : barres horizontales ou verticales (appelées improprement histogramme), courbes, graphiques mixtes, nuages de points, graphiques à secteurs (camemberts)...
Les logiciels cités par Grenoble et par Nancy prouvent l'usage du nanoréseau au collège : Chrono 6 (G. Colotte, CRDP de Nancy), Graphique (Fil), Climats ou Population (P. Ginioux) ; Pyramage (Fil) ; Matrix (CNDP), Prétemp ou Tri (P. Debart, CRDP de Caen), Crécarte (R. Gimeno)...
Pour les compatibles PC, Graph in the box (AB soft) et Works (Microsoft) réunissent tous les suffrages. Démobase (Jériko), VP Planner (Softissimo), dans des domaines différents, sont utilisés, et les collègues aimeraient disposer d'Excel (Microsoft), de Quattro Pro (Borland) ou de Chart (Microsoft). Les logiciels en 3 dimensions restent hors de portée : Graph in the box executive (AB soft), Harvard Graphique, Boeing graph...

II. Quels vous semblent être les apports spécifiques de l'informatique dans ce type de travail ?

Aucune expérimentation rigoureuse visant à évaluer cet apport n'est citée dans cette enquête. Mais plusieurs remarques résultant du travail en classe ou de la réflexion menée en formation continue permettent d'esquisser une synthèse :
Tous insistent sur la motivation réelle des élèves : " une motivation certaine, cela n'est pas si courant " note C. Bourgès. La plupart des élèves se plaignent de la durée insuffisante des ateliers informatiques. Leur intérêt provient pour partie de la séduction devant la machine, de l'attrait pour l'image. Mais il intègre sans doute aussi la forme de travail différente : un travail plus individualisé, (" un travail autonome par groupe de 2, ce qui les responsabilise ") une approche plus concrète de l'histoire.
L'ordinateur a sa place dans une quantité de situations pédagogiques : apprentissage de technique ou de savoir-faire, remédiation, recherche documentaire, traitement de l'information, simulation, communication des résultats, contrôle de connaissances... " Il libère l'utilisateur de la construction du graphique. Cet apport ne se mesure pas seulement en gain de temps mais aussi en terme de finalité pédagogique : que cherche-t-on à apprendre aux élèves ? A dessiner ou à analyser correctement un graphique ? " La rapidité d'exécution et la richesse des logiciels (11 types de graphiques dans Graph in the box) permettent de diversifier l'activité des élèves : formulation d'hypothèses, affichage d'un graphique, choix d'un type de représentation, confrontation avec celui des autres élèves, justification de ce choix, validation des hypothèses... L'ordinateur autorise tous les essais, et le tâtonnement peut être le chemin vers un apprentissage efficace.
L'expression graphique prolonge l'approche statistique : l'emploi du tableur élimine le travail répétitif : le tri d'une série est instantané, et la pratique enracine mieux la maîtrise du calcul de pourcentages ou d'indices qu'une simple explication abstraite... La machine permet d'accroître le volume d'informations à analyser, au delà de ce qui est gérable avec un crayon et une calculatrice. De plus, il devient possible de comparer pour une même série des valeurs absolues et des pourcentages. Et les meilleurs élèves prennent plaisir à explorer les solutions inhabituelles, parfois avec un profit réel. De plus, à la différence d'un travail sur papier, l'ordinateur permet de mesurer l'effet d'une variation dans l'échelle retenue, de comparer à la même échelle des données différentes, d'écarter provisoirement des valeurs trop différentes du reste de la série ou dans un graphique en xy de ne retenir que les valeurs que l'on veut isoler... L'ordinateur habitue les élèves à plus de rigueur : les logiciels comportent les options invitant à habiller le graphique (titre, légende, sources) : l'apprentissage de la lisibilité s'appuie sur le choix des couleurs ou du tramage, et l'efficacité visuelle dépend du nombre des valeurs retenues ( 6 courbes au maximum dans Works ). La qualité de l'impression incite à agrandir les productions et à fournir ainsi la matière d'une exposition ou d'un dossier. Enfin de nombreuses techniques sont difficilement gérables avec un crayon et une feuille : traitement matriciel, nuages de points pour un grand nombre de données (graphiques en xy ou à 2 variables).
La formation continue permet d'insister sur ces apports : accord possible sur les règles de base du langage graphique, mais aussi latitude pour des choix individuels ; conception de situations favorisant l'initiative et la créativité des élèves ; mise en valeur des productions de ces élèves ; modification du rôle de l'enseignant.
Notons sur le plan pédagogique la remarque de Mme Hatt à Sophia-Antipolis : le plaisir (et la charge) de travailler avec une demie classe. Et ce plaisir se vérifie quand une classe peut réaliser un travail sans hâte, sans précipitation : l'affichage et l'impression du résultat peuvent alors faire partie de l'appropriation individuelle du savoir.

Les réponses font apparaître deux regrets :
- Des conditions matérielles souvent difficiles : effectifs trop lourds, accès difficile aux salles informatiques, temps trop mesuré dans les travaux dirigés pour permettre l'impression des résultats individuels en direct.
- " Les logiciels imposent une démarche trop guidée, démarche qui n'est pas naturelle ". L'apprentissage dépasse parfois les disponibilités horaires, et il est souhaitable qu'une option informatique rénovée décharge les disciplines de cet apprentissage. A noter cependant que nos collègues comprennent mieux l'intérêt d'un tableur si les exemples sont pris dans leur enseignement habituel.

III. Quelles sont les difficultés les plus fréquentes rencontrées par les élèves dans la construction des graphiques ? Sont-elles différentes de celles concernant le même travail sur papier ?

Le témoignage des formateurs fait apparaître des problèmes communs, tenant aussi bien à l'apprentissage du langage graphique par les jeunes qu'aux logiciels. Ces difficultés sont en général mieux repérables en atelier informatique : les élèves sont tous en situation d'activité, et font appel plus facilement à l'adulte. Celui-ci peut mieux observer les démarches et repérer les sources des problèmes.

La première difficulté n'est pas spécifique au travail sur les graphiques. L'emploi de l'ordinateur impose une initiation préalable : maîtrise du clavier, connaissance du MS-DOS, lecture ou sauvegarde de fichiers. Cet obstacle est souvent définitif chez les adultes : non seulement il faut savoir installer un logiciel, mais il faut en connaître les limites avant de faire travailler les élèves. D'où un débat chez nos voisins économistes : doit-on apprendre à se servir de logiciels-outils ou privilégier des logiciels spécifiques fonctionnant comme une boite noire (exemple de Secos 2 à la fois base de données et logiciel graphique) ? L'informatique suppose un usage fréquent pour ne pas oublier les fonctionnalités d'un logiciel.

D'autres difficultés tiennent aussi à la conception des logiciels :
- Les logiciels ne sont pas conçus par des historiens ou pour des historiens. Ils ne prennent pas en compte les intervalles chronologiques, si bien que la même distance peut séparer un an et un siècle. L'historien doit inventer des subterfuges : imposer des intervalles constants, quitte à négliger des données parfois importantes ; utiliser un graphique en xy pour respecter l'échelle chronologique.
- L'option de " capture " des chiffres à l'écran se comprend aisément, mais sa manipulation ne devient instantanée qu'à l'usage. Les logiciels n'intègrent pas les valeurs absentes et les considèrent comme une valeur nulle. Dans le cas du graphique à secteurs, le 0 est vu comme une valeur négative. La saisie des données pose souvent le problème du format (entier, décimal, pourcentage) ou de la différence de signes entre pays (, ou . pour les valeurs décimales)
- Les graphiques perdent leur intérêt quand une valeur est trop distincte du reste de la série : par ex la densité par départements en France isole Paris, ou la criminalité aux Etats-Unis distingue le district de Columbia. Ils donnent une figuration analytique. Certains économistes préfèrent l'analyse de tableaux à entrées multiples, beaucoup plus riches en information.
- L'impression pose aussi des problèmes : elle est très lente dans la première version de Graph in the box . Le quadrillage proposé remplace difficilement le papier millimétré. Et dans le cas d'un trop grand nombre de séries, les symboles ne permettent pas une distinction suffisante entre elles.
- L'efficacité des logiciels débouche sur deux autres défauts. L'activité est centrée sur la technique et non sur les données à analyser. Il faut contrôler la représentation contrôlée : pour les tableaux à double entrée, le logiciel Works, en option graphique rapide, établit la figuration selon le nombre de lignes et de colonnes. Il faut parfois vérifier dans le tableau les données retenues.

Les dernières difficultés tiennent aux élèves :
- Tous ceux qui découvrent les logiciels graphiques cherchent à utiliser le graphique à secteurs angulaires (camembert), y compris sur une évolution. L'ordinateur affiche le graphique, même si celui-ci n'a aucun sens (Cf. Annexe 3). Et même dans un emploi normal, la lecture de ce graphique est malaisée : une solution consiste à afficher en même temps les chiffres réels. Notons que peu de logiciels proposent le choix d'un diamètre ou d'une surface proportionnels à la somme des valeurs représentées. - La construction des graphiques souligne l'hétérogénéité des élèves : "les plus rapides peuvent produire 3 fois plus de réponses que les plus lents." (C Bourgès). " Les légendes sont imparfaites au début : les fautes d'orthographe ou les oublis se réparent très vite "
- Il semble toutefois que certaines erreurs des travaux à la main disparaissent. Le choix d'échelle qui obligeait à coller des feuilles pour intégrer les valeurs extrêmes. Le temps passé au dessin ou au coloriage. Le manque de soin dans le dessin ou dans la rédaction de la légende. Le choix de figurations inadaptées.
Au total, si l'ordinateur ne résoud pas toutes les difficultés, il incite à mieux réfléchir sur les mécanismes d'apprentissage et il permet de modifier la relation pédagogique.

IV. Quelle place donnez-vous à l'analyse des résultats obtenus ?

Cette étape est tenue pour essentielle par tous : les graphiques ne sont qu'un outil permettant une visualisation instantanée d'un tableau de chiffres, et ne sont pas une fin en soi.
G. Colotte, dans un exemple concernant le commerce extérieur américain, consacre une première heure à la réalisation des graphiques, à " la comparaison et la critique des différents résultats obtenus, au repérage des critères de non pertinence " (Cf. annexe 4). La seconde heure porte sur l'analyse du commerce et des problèmes actuels.
R. Durrens, à propos de l'impact en Europe des lois de 1921 et 1924 instituant des quotas d'immigration aux USA, fait découvrir les enjeux de la politique républicaine.
En combinant taux de natalité, taux de mortalité (Cf. annexe 5), LP Jacquemond demande aux élèves de montrer : 1. les différents stades de la transition démographique dans le temps et dans l'espace ; 2. les évolutions tendancielles de la croissance démographique.
Pour lui, l'analyse consiste à vérifier les hypothèses de départ, à mettre en évidence des modèles sous-jacents, à enrichir une problématique. A terme, une simulation peut définir les mesures démographiques et économiques nécessaires pour accélérer ou freiner une évolution. Un travail équivalent porte sur le calcul d'un indice de productivité.
Un dernier exemple permet de mesurer l'apport de l'ordinateur dans l'analyse de documents : une classe de 1°B devait étudier en géographie la provenance du pétrole consommé en France (1972, 1980, 1985, 1989) (Cf. annexe 6). Un tableau permet de classer les valeurs par ensemble géographique. L'objectif est à la fois de tirer le maximum d'informations, mais aussi d'éviter la paraphrase. L'ordinateur permet de créer un tableau dérivé en pourcentages, de vérifier la place des pays retenus par rapport à l'ensemble, d'isoler plus rapidement les pays majeurs. C'est aussi le moyen de confronter chiffres absolus et pourcentages. Deux graphiques par ensembles géographiques ont évité une étude détaillée, mais ont permis de comparer chacun des pays avec l'ensemble. L'analyse a été poursuivie à domicile par groupe de deux élèves, et les plus dynamiques ont repéré des erreurs contenues dans la source (Images économiques du monde, 1974).
Cet exemple illustre à la fois la motivation et la mise en place d'un esprit critique sans cesse revendiqué par les historiens. En effet, nos collègues anglais regardaient avec scepticisme les chiffres du chômage avancés dans Eurostat : ne dit-on pas que " la statistique est la forme élaborée du mensonge " ?

V. Les logiciels disponibles répondent-ils à vos attentes ? Vous semblent-ils avoir changé la vision des élèves ?

a.- Dans l'ensemble, les logiciels disponibles rendent de grands services. Les collègues émettent cependant des réserves.
C. Bourgès note que la dimension spatiale est plutôt bien prise en compte par la cartographie statistique. Mais il note des lacunes. " Pas de logiciel de chronologie graphique " sur le modèle de Chrono6 à destination des compatibles. Manque de fonctions plus élaborées au lycée : pas de graphique triangulaire pour comparer trois données. Il signale l'existence d'AUTOEVAL qui approche l'évaluation à partir de documents graphiques.
G. Colotte constate que les logiciels sont encore trop contraignants. Il souhaite " des grapheurs de type heuristique où l'apprenant naviguerait à sa guise pour obtenir le résultat recherché ".
L.P. Jacquemond redoute à la fois la " joliesse " des graphiques et la trop grande technicité des logiciels. Il espère des logiciels performants laissant la maîtrise des opérations à l'élève.
Dans l'état actuel, les logiciels disponibles en éducation ne permettent pas de démarche totalement nouvelle (ex. : simulation complète d'évolution, mise en évidence de typologies, aide à l'analyse de tableaux statistiques...). L'ordinateur traite les données avec les méthodes habituelles. Les capacités des élèves, les conditions de travail empêchent souvent d'utiliser à plein les performances de la machine, en particulier la puissance de calcul.

b.- La réponse à la deuxième partie de la question paraît difficile. Pour C. Bourgès " si le logiciel est bon et l'exercice bien conçu, le professeur profite du contact personnel avec ses élèves, ce que le cours magistral ne permet pas ". Il constate que des relations se nouent entre les élèves afin de cumuler leurs compétences. Et il espère que ces méthodes actives peuvent apporter une plus grande efficacité au plan didactique.
L.P. Jacquemond équilibre satisfactions et déceptions. Les élèves comprennent mieux la nature et l'intérêt d'une " modèlisation ". La maîtrise de la sémiologie du graphique est réelle, et fondée sur la volonté de se faire comprendre. Les productions sont très souvent remarquables, et valorisent ainsi l'outil informatique. Mais ce type de travail exige un investissement considérable et les exercices réalisables nécessitent une pratique régulière de l'informatique
Enfin G. Colotte n'est pas persuadé d'un changement significatif à partir du travail graphique comme paramètre isolé. Il ne croit pas que l'ordinateur seul suffise à un changement de vision. Par contre, il attend davantage de meilleures conditions de travail d'une liaison régulière entre concret et abstrait. Il ajoute avec humour " à l'inverse,une démarche d'ensemble axée sur la critique de documents peut fort bien déboucher sur des progrès tangibles le jour où l'élève utilise un logiciel graphique ".

Bibliographie sommaire

GASQUET S., Langage des graphiques, IREM, C.R.D.P. de Grenoble, 1987.

ANDRE A., L'expression graphique ; cartes et diagrammes, Masson, 1980.

GELEDAN A., L'analyse de documents et la dissertation, Belin, 1986 ; Méthode, outils, techniques, Magnard, Ministère de l'Education Nationale, Histoire-géographie, objectifs de référence, 1989.


FORMATION


Le feuilleton de mémoire vive :
tout ce que vous avez toujours voulu savoir sur l'exploitation informatique des corpus par les historiens sans avoir jamais osé le demander
Quatrième épisode : Trier et rechercher les données

André ZYSBERG CNRS

Exploiter son corpus, c'est mener la vie de château

Vous êtes parvenu aux bout de vos peines... Vous avez mangé votre pain noir : les opérations fastidieuses de saisie et surtout de vérification sont achevées. Vous allez enfin commencer l'exploitation de votre corpus.

A partir de cette étape, vous aurez le droit à l'erreur. La mise au point du fichier de données exigeait beaucoup de précautions, car la moindre fausse manoeuvre ou la moindre défaillance de votre système informatique pouvait entraîner la perte totale ou partielle du travail accumulé. Lorsque votre corpus est achevé et "toiletté" à qui mieux mieux, vous commandez une copie, puis vous rangez l'original dans un endroit sûr... C'est sur cette copie que vous travaillerez désormais.

Dès lors, peu importent les erreurs de commande ou de manipulation : vous ne risquez plus d'abîmer vos données. Essayez et recommencez à votre guise. C'est à ce stade là que vous vérifierez l'utilité du travail sur ordinateur, y compris pour des petits corpus. Même sur la machine la plus poussive, compter des d'enregistrements, trier des mots, repérer les individus ou les objets ayant plusieurs caractéristiques communes, ce sont des opérations qui ne mangent que quelques secondes et au plus quelques minutes. Ce n'est pas seulement une question de vitesse : L'usage de l'ordinateur vous permet d'expérimenter vos données et de vérifier constamment le résultat de cette expérimentation.

Exploiter un corpus, c'est en extraire des résultats correspondant aux questions que vous vous posez. Ces questions peuvent se regrouper en quatre catégories :

  • des listes triées par ordre alphabétique ou numérique de telle et/ou telle rubrique ;
  • des recherches d'enregistrements ou de "fiches" répondant à tel et/ou tel critère qualitatif ou quantitatif ;
  • des comptages déterminant la fréquence des informations contenues dans telle et/ou telle rubrique ;
  • des calculs de tests portant sur une rubrique ou une combinaison de rubriques (moyenne arithmétique, écart-type, khi-deux, coefficient de corrélation), voire des analyses statistiques plus poussées (comme les classifications automatiques et les analyses factorielles).

Certains résultats peuvent être obtenus directement en travaillant sur une copie du corpus prêt à l'emploi (ou méta-source). Mais dans la plupart des cas, il vous faudra préparer un ou plusieurs nouveaux fichiers de données, que nous appellerons fichier d'exploitation. Ce ou ces fichiers d'exploitation répondent à plusieurs nécessités. On peut travailler sur un sous-ensemble afin de faciliter ou d'accélérer l'acquisition des résultats. Il est aussi possible de créer et de remplir automatiquement de nouvelles rubriques qui seront déduites des rubriques d'origine. Les recherches, les comptages et les divers calculs demandent souvent des opérations de classification, de codage, bref de préparation des données en vue de l'analyse documentaire et statistique. Soulignons encore une fois que cette préparation des données doit être effectuée postérieurement à la constitution de la méta-source, qui est le fichier le plus proche des données originales, celui-là même qu'on ne devrait plus modifier. Cette stratégie permet de gérer l'a priori, autrement dit de changer les partitions, les classifications et les codages selon les besoins et les résultats sans toucher au contenu du fichier de référence.

Comment obtenir ses résultats ?

  • En exécutant au coup par coup des ordres avec le mode " inter-actif ", celui que vous avez employé jusqu'à présent.
  • En préparant un programme, qui n'est rien d'autre qu'un fichier de commandes. Dans ce cas, il vous faudra procéder en deux temps. D'abord concevoir, enregistrer et mettre au point le programme, puis l'exécuter autant de fois que nécessaire. Avec l'une ou l'autre de ces deux façons de procéder, vous continuez d'utiliser le même logiciel (DBASE ou FOXBASE) qui vous a servi pour la constitution du corpus. Même pour la création de programmes, il sera inutile de recourir à un langage spécifique (par exemple le BASIC), car le logiciel de SGBD est aussi un outil de programmation.

Comment conserver ses résultats ?

Sur du papier, en les imprimant au fur et à mesure. Vous pourrez aussi stocker vos résultats, soit sur des fichiers de données (de type DBF), soit sur des fichiers de "variables" (de type MEM).

Un logiciel de gestion de base de données ne peut pas tout faire. Selon les applications envisagées, vous aurez éventuellement besoin d'un tableur, de logiciels de dépouillement d'enquête, de cartographie automatique, etc. Toutefois, à partir d'un fichier créé avec DBASE ou FOXBASE (c'est à dire des produits standards), il faut savoir que vous pourrez aisément " exporter " vos données vers un autre logiciel, même si vous êtes un débutant, afin de permettre différents traitements. Mieux encore, il est possible de transférer des données d'un compatible PC vers un MAC (et vice versa).

Au cours de ce quatrième épisode, nous verrons tout d'abord la commande de tri, qui est assez simple. Puis nous décortiquerons l'ensemble du mécanisme permettant de sélectionner les enregistrements correspondant à tel/ou tel critère.

Trie-moi tout

Le tri est une opération qui facilite autant la correction des données que l'acquisition de résultats. Exemple : je veux trier les enregistrements du fichier NEGRIERS selon l'ordre du champ NOMNAVIRE.

.USE NEGRIERS
.SORT ON NOMNAVIRE TO TRNOMNAV

On obtient le message :
198 tri terminé

La commande de tri s'appelle SORT. Le nom de la rubrique faisant l'objet du tri est toujours précédé par le mot-clé ON. Par défaut, le tri s'applique à tous les enregistrements. Son ordre dépend d'abord du type de rubrique. S'il s'agit d'un champ de type caractère, le tri s'effectuera nécessairement selon l'ordre alphabétique (de A vers Z). Même principe pour un champ de type numérique (ordre croissant des nombres) et aussi pour un champ de type date (ordre chronologique). Observons qu'on ne peut pas trier un champ de type mémo, et que le tri de champs de type logique est superflu...

Le tri de champs de type caractère pose un problème. Tout d'abord, les lettres majuscules n'ont pas les mêmes codes ASCII que les lettres minuscules. De fait, le logiciel ne considère pas que les formes "BERGERE", " bergere " et " bergère " sont identiques... On peut contourner cette difficulté en changeant le contenu du champ en lettres majuscules à l'aide de la commande REPLACE et de la fonction UPPER :

.REPLACE ALL NOMNAVIRE WITH UPPER(NOMNAVIRE)

Attention : la fonction UPPER ne convertit pas en majuscules les lettres accentuées (qui le resteront).

On peut aussi recourir à l'un des paramètres de la commande SORT :

.SORT ON NOMNAVIRE/C TO TRNOMNAV

Le paramètre C précédé du signe / signifie que l'ordre du tri ne tiendra pas compte, pour une même lettre, de la différence de forme entre majuscule et minuscule; mais ceci ne règle pas la question des lettres accentuées, dont vous devrez tenir compte avant le traitement et même avant la saisie des données.

Un fichier n'est jamais trié sur lui-même et le résultat du tri n'est pas automatiquement affiché ou imprimé.

En exécutant le tri, le logiciel génère automatiquement un nouveau fichier, qui est le jumeau du fichier en cours, au plan de la structure et du nombre d'enregistrements (du moins si la commande SORT porte sur la totalité de la base de données, voir infra), mais les enregistrements du fichier trié seront tous arrangés et renumérotés selon l'argument de tri. Ainsi, la fiche No 1 du fichier TRNOMNAV est désormais celle qui contient la forme "ABEILLE" dans la rubrique NOMNAVIRE, la première dans l'ordre alphabétique des noms de bâtiments.

Pour obtenir la liste triée des noms de bâtiments, nous ouvrons le fichier trié et utilisons ensuite la commande LIST :

.USE TRNOMNAV
.LIST NUMEX,NOMNAVIRE,TONNAGE TO PRINT

L'édition de la liste porte sur n'importe quelle rubrique. Rien ne distingue formellement une liste extraite d'un fichier trié d'une autre liste, sinon que les enregistrements possédant des formes identiques pour telle ou telle rubrique (ici le nom du navire) se trouvent les uns à la suite des autres.

Pour exploiter le résultat d'un tri, il faut toujours abandonner le fichier de départ et travailler sur le fichier trié. Il s'agit d'un fichier de type DBF (comme n'importe quel fichier de données) dont le nom est déclaré par l'utilisateur dans la commande SORT après le mot-clé TO.

Un tri peut s'effectuer par ordre décroissant avec le paramètre D :

.USE NEGRIERS
.SORT ON NOMNAVIRE/C/D TO TRNOMNAV

Si l'on emploie un fichier qui a déjà été créé (ici TRNOMNAV), avant d'exécuter la commande SORT, le logiciel demande une confirmation :
C:TRNOMNAV existe déjà, confirmez-vous son écrasement? (O/N) O
198 tri terminé

On pourra vérifier sur le champ le résultat du tri avec la commande BROWSE :

.USE TRNOMNAV
.BROWSE

Les enregistrements de TRNOMNAV sont maintenant classés selon l'ordre alphabétique décroissant de la rubrique NOMNAVIRE.

Un tri peut s'effectuer par emboîtement successif de plusieurs rubriques. Exemple : je veux d'abord trier selon l'ordre décroissant de la rubrique numérique TONNAGE, puis pour chaque valeur du champ tonnage, classer les enregistrements selon l'ordre alphabétique croissant de la rubrique caractère NOMNAVIRE.

.USE NEGRIERS
.SORT ON TONNAGE/D,NOMNAVIRE TO TRITON

On pourrait encore affiner ce résultat et trier selon trois arguments : le tonnage, le nom du navire et la date de départ :

.SET DATE FRENCH
.SET CENTURY ON
.USE NEGRIERS
.SORT ON TONNAGE/D,NOMNAVIRE,DATEDEPART TO TRTONDAT

Le troisième argument du tri est une rubrique de type date. Les tris par ordre chronologique s'effectuent aussi rapidement et aisément que les autres. Il est superflu d'insister sur leur utilité pour les bases de données à caractère factuel, du moins si les dates en question concernent des événements postérieurs à la mi-octobre 1582 (sur les rubriques de type date, voir Mémoire Vive, 2, Premier épisode p. 11). Avant de travailler sur un champ de type date quelle que soit la commande que l'on appliquera, il faut prendre deux précautions. Déclarer obligatoirement qu'il s'agit de dates en format français: SET DATE FRENCH. Déclarer éventuellement que l'on emploiera des dates antérieures au XXe siècle : avec SET CENTURY ON, le format de l'année prend quatre chiffres.

Le résultat permet de contrôler si les navires portant le même nom possèdent un tonnage identique d'une expédition négrière à l'autre (pour un même port d'armement, celui de Nantes, et ce durant la même période, à savoir les années 1784-1789).

Par défaut, la commande SORT s'applique à tous les enregistrements d'un fichier. Comme pour d'autres commandes (LIST par exemple), on peut en restreindre la portée à l'aide des paramètres d'étendue : soit NEXT, soit REST (sur les paramètres d'étendue, voir Mémoire Vive, 4, Troisième épisode, pp. 34-35.)

.USE NEGRIERS
.GOTO 1
.SORT ON NOMCAPIT TO TRICAP1 NEXT 50

Le tri portera sur 50 enregistrements du fichier NEGRIERS, à partir du No 1.

.GOTO 132
.SORT ON NOMCAPIT TO TRICAP2 REST

Le tri sera limité aux enregistrements compris entre le No 132 (inclus) et la fin du fichier.

On pourrait aussi vouloir que la commande de tri s'applique exclusivement à un sous-ensemble du fichier possédant telle et/ou telle caractéristique autre que le numéro d'enregistrement. Le logiciel peut le faire, non seulement avec SORT, mais aussi avec toutes les autres commandes de traitement et d'exploitation de données.

Dis-moi ce que tu cherches

Nous allons prendre plusieurs exemples avec la commande LIST, dont nous avons déjà étudié la manipulation.

Je souhaiterais obtenir la liste des capitaines qui ont commandé un bâtiment négrier nommé le " Bailli de Suffren " :

.USE NEGRIERS
.LIST NOMCAPIT FOR NOMNAVIRE="BAILLI DE SUFFREN" TO PRINT

Puis la liste des armateurs et des navires jaugeant 300 tonneaux et plus, à partir de l'enregistrement No 50, en écartant les non réponses de la rubrique tonnage (qui ont pour valeur 9999) :

.GOTO 50
.LIST REST NOMNAVIRE,TRIM(ARMATEURS) FOR TONNAGE >=300 .AND. TONNAGE <>9999 TO PRINT

Puis la liste des navires dont les capitaines sont morts durant l'expédition :
.LIST NOMCAPIT FOR DECESCAP TO PRINT

Et encore la liste des navires avec le taux de mortalité de leur équipage, si celui-ci est égal ou supérieur à 20 %, lorsque les rubriques NBEQUIPAGE (nombre d'hommes d'équipage) et NBDCEQUIP (nombre de décès parmi l'équipage), à partir desquelles s'effectuera le calcul du taux de mortalité, ne contiennent pas, l'une et l'autre, la valeur de non réponse :

.LIST NUMEX,NOMNAVIRE,NBDCEQUIP*100/NBEQUIPAGE FOR NBDCEQUIP*100/NBEQUIPAGE>=20 .AND. NBDCEQUIP<>999 .AND. NBEQUIPAGE <>999 TO PRINT

Et enfin, la liste des numéros d'expédition et des bâtiments commandés par un capitaine nommé JEAN DESMARAIS ou JEAN DESMARETS :
.LIST NUMEX,NOMNAVIRE FOR NOMCAPIT="DESMARAIS" .OR. NOMCAPIT="DESMARETS" TO PRINT

Toutes ces ordres ont le même air de famille : la commande LIST (mais on aurait pu prendre COPY, REPLACE ou SORT) avec ses paramètres ordinaires, suivie par le mot clé FOR et une expression plus ou moins complexe que nous appellerons un bloc condition, qui définit le sous-ensemble sur lequel portera la commande.

Ce bloc condition n'est pas une commande, ni une fonction du logiciel. Il sert uniquement à délimiter l'action d'une commande ou d'une fonction au sein de la base de données. Il obéit à des règles d'écriture (non explicitées dans les manuels de DBASE ou FOXBASE) qui sont en fait celles des expressions mathématiques et logiques, telles qu'elles ont été formalisées dans l'algèbre de Boole.

Les mots " mathématiques ", " logique " et le nom de Georges BOOLE (1815-1864) ne doivent intimider personne. Il est possible de comprendre les règles élémentaires permettant d'écrire correctement une expression logique, même si vous estimez être " nul "en maths... C'est une affaire de bons sens, de réflexion. Il faut aussi un exposé, celui d'un ex-nul en mathématiques, qui n'a pas l'objectif caché et pervers de vous larguer et de vous dégoûter à jamais de la chose... De toute façon, ce que je vais tenter de vous expliquer dans la langue de tous les jours est du niveau de la 5e...

Histoire de bloc

On supposera que toute la ligne de commande a été correctement écrite d'un point de vue syntaxique. Si le bloc condition est vérifié ou vrai pour le premier enregistrement auquel la commande devrait s'appliquer (il peut s'agir effectivement du premier enregistrement de la base de données ou de l'enregistrement No X si l'on a spécifié un paramètre d'étendue), le travail correspondant (liste-moi telle et telle chose) est exécuté. Puis le logiciel passe à l'enregistrement suivant, évalue à nouveau le bloc condition, exécute ou n'exécute pas le travail, et ainsi de suite jusqu'à la fin du fichier

On considère le bloc condition introduit par le mot clé FOR comme une expression logique, car sa traduction en langage ordinaire est : fais-moi ceci si telle et/ou telle chose est vraie. Une expression logique ne peut prendre que deux valeurs : vrai ou faux.

Un bloc condition se compose de divers éléments qui s'associent ou s'imbriquent selon la volonté de celui qui le compose. Un bloc condition peut comprendre toutes les opérations que l'on peut réaliser ordinairement sur les données : des opérations de type logique, mais aussi des calculs, des comparaisons portant sur des dates ou des chaînes de caractères, etc. il serait fastidieux de dresser la liste des combinaisons possibles. En fait, il n'y a pas de limite, sinon celle de la longueur de la ligne de commande, qui ne doit pas dépasser 254 caractères.

Un bloc condition peut donc tout contenir, y compris des fonctions. La seule chose à exclure ou à prohiber, à l'intérieur d'un bloc condition, c'est une commande. Une ligne de commande ne contient qu'une commande qui est toujours placée en tête de ligne : fais-moi ceci quand telle ou/et telle chose est vraie... Et l'application de cette commande ne peut être délimitée que par un seul bloc condition, simple ou très complexe. Il est donc essentiel de bien distinguer ce qui relève de la commande au sens strict et ce qui relève du bloc condition. Quelle que soit la commande, c'est toujours le mot FOR qui introduit le bloc condition. Ainsi la commande LIST peut contenir aussi des expressions arithmétiques si l'on veut éditer le résultat d'un calcul.

.LIST NUMEX,NOMNAVIRE,NBDCEQUIP*100/NBEQUIPAGE FOR NBDCEQUIP*100/NBEQUIPAGE>=20 .AND. NBDCEQUIP<>999 .AND. NBEQUIPAGE <>999 TO PRINT

Dans l'exemple ci-dessus, la partie bloc condition figure en gras. Le calcul du taux de mortalité de l'équipage sera effectué deux fois : la première fois, comme élément de la commande LIST, la seconde fois comme expression arithmétique contenue dans le bloc condition.

Si vous avez compris la règle du jeu, il faut maintenant connaître les conventions d'écriture d'un bloc condition.

Chaque élément d'un bloc condition représente une opération, qui comprend nécessairement un opérateur et des opérandes. Ces termes ne doivent pas vous inquiéter, car ils désignent des objets très familiers ou triviaux, que vous manipulez quotidiennement.

Dans l'expression arithmétique 3+6, les nombres 3 et 6 sont les opérandes, le signe + est l'opérateur.
Dans l'expression logique 5>9, 5 et 9 sont les opérandes et le signe > est l'opérateur... Les concepteurs du logiciel ont adopté des règles pour l'écriture des opérations, qui suivent exactement celles mises au point par les mathématiciens. Le choix de certains symboles et des signes servant de délimiteur est particulier au logiciel, mais se retrouve en fait dans le vocabulaire ordinaire du langage informatique.

Es-tu constante ou variable ?

Les opérandes, ce sont les données, de type numérique, chaîne de caractère, date ou logique. Quel que soit leur statut, on distingue deux catégories d'opérande : les constantes et les variables.
Dans l'expression logique : TONNAGE>=300 : TONNAGE est une variable correspondant au champ numérique appelé TONNAGE et 300 une constante de type numérique.
Dans l'expression logique NOMCAPIT="DESMARAIS" : NOMCAPIT est une variable correspondant au champ caractère appelé NOMCAPIT et "DESMARAIS" est une constante de type caractère.
Dans l'expression logique : DECESCAP=.F. : DECESCAP est une variable logique correspondant au champ logique du même nom, et .F. est une constante de type logique.

Les constantes, ce sont des données qui ne bougent pas, qui demeurent identiques d'un bout à l'autre de l'exécution de la commande. Inversement, les variables sont des données dont la valeur peut changer à chaque fois qu'une commande s'exécute.
Les constantes sont désignées par leur valeur. Pour que le logiciel puisse distinguer une constante de type chaîne de caractère d'une constante de type numérique, toutes les constantes de type caractère doivent être encadrées par des guillemets, qui leur servent de délimiteur : ainsi la constante "3456" est une chaîne de caractère....
Les variables sont désignées par leur nom symbolique. S'il s'agit de rubriques, le nom de la variable est celui de la rubrique. Nous verrons dans le prochain épisode que l'utilisateur peut créer des variables autres que les rubriques d'un fichier de données, afin de stocker des résultats.
Les variables et les constantes de type logique sont un peu particulières. Elles ne peuvent prendre que deux valeurs : vrai ou T (true) et faux ou F. Comme il faut distinguer les constantes de type logique, celles-ci seront toujours encadrées par le signe point. Avec DBASE ou FOXBASE, on écrira donc .T. ou .F.
Si je veux tester la valeur faux de la variable DECESCAP, je dois écrire : LIST NOMNAVIRE FOR DECESCAP=.F.
Mais si je veux tester la valeur vrai pour DECESCAP, il suffira d'écrire : LIST NOMNAVIRE FOR DECESCAP car implicitement cela revient à tester la valeur vrai. On réservera pour le prochain épisode le cas des constantes et des variables de type date.

Les opérateurs sont les signes ou les symboles qui désignent la nature de l'opération à effectuer.
Les opérateurs arithmétiques
sont : +, -, * (pour la multiplication) et / (pour la division).
Les opérations s'effectuent de la gauche vers la droite. Les règles de priorité des opérateurs arithmétiques sont les mêmes qu'en mathématiques : la multiplication et la division l'emportent sur l'addition et la soustraction.
On peut changer l'ordre des opérations à l'aide de parenthèses
L'expression : 15+9/3 ne donne pas le même résultat que l'expression : (15+9)/3, car dans le premier cas (résultat=18), c'est d'abord la division 9/3 qui s'exécute (à cause de l'opérateur de poids fort) et dans le second cas, à cause des parenthèses (résultat=8), c'est l'addition qui est effectuée en premier.
Les opérateurs de comparaison sont représentés par les symboles suivants :
= égalité
> supérieur à
< inférieur à
>= supérieur ou égal à
<= inférieur ou égal à
<> différent de
Tous les types de données ou toutes les sortes d'opérandes peuvent être soumis à des opérateurs de comparaison : des variables et des constantes de type numérique, mais aussi des chaînes de caractères, des dates ou des valeurs logiques. Le résultat d'une opération effectuée avec un opérateur de comparaison est nécessairement une valeur logique : vrai ou faux. L'opération 5>78 donne comme résultat la valeur .F.

Cas de la comparaison des chaînes de caractères
L'opération "MAURICE"<"MICHEL" donne comme résultat la valeur .T. (vrai). En effet, on peut comparer entre elles deux chaînes de caractères (sous la forme de constantes ou de variables). Dans ce cas, la comparaison porte sur la valeur des codes numériques (codage ASCII) associés à chaque caractère, dont la valeur est croissante du code de "A" vers le code de "Z". A noter que le blanc est le caractère dont le code est le plus petit. Se souvenir aussi, comme nous l'avons déjà souligné au sujet du tri, que pour une même lettre le code d'une minuscule est toujours différent du code de sa majuscule. Ne pas oublier enfin, que par caractère, on entend tous les caractères, y compris les chiffres et les divers signes.
La comparaison entre deux chaînes de caractères s'effectue toujours par rapport à la chaîne située à la gauche de l'opérateur et elle débute par le premier caractère à gauche de la chaîne de référence. Ces règles peuvent entraîner des effets pervers.

Voici une liste de noms, chacun correspondant à un enregistrement :
NOM
1. DUBOIS
2. DUBOIST
3. DUBOIS DE LA MOTTE
4. DUBOISJOLI
5. DUBOIST DE CHAUFFE
Si j'exécute la commande LIST FOR NOM="DUBOIS", le bloc condition sera vrai pour tous les enregistrements.
La comparaison a porté sur les 6 caractères de la constante "DUBOIS". Il a donc suffi que les 6 premiers caractères du contenu de la rubrique NOM soient identiques à ceux de la chaîne recherchée pour que le bloc condition soit vérifié. Et pourtant, "DUBOIS" est bien différent de "DUBOIST" ou de "DUBOISJOLI"...
La seule façon de vérifier une égalité parfaite entre deux chaînes (même longueur et mêmes caractères de la gauche vers la droite) est d'exécuter au préalable la commande : SET EXACT ON. Si l'on veut revenir à l'état antérieur (qui est l'état par défaut) : SET EXACT OFF.
Il faut aussi se méfier des caractères blancs, placés en tête ou en queue d'une chaîne de caractères, qui peuvent causer quelques surprises. Ainsi, avec ou sans exécution préalable de la commande SET EXACT, la chaîne " PAUL" n'est pas la même que la chaîne "PAUL" ou la chaîne "PAUL ". On peut éviter de prendre en compte les blancs situés à gauche (ce sont les pires!) avec la fonction LTRIM; et de même pour les blancs situés à droite avec la fonction TRIM
L'expression " PAUL"="PAUL " donne la valeur .F.
L'expression LTRIM(" PAUL")=TRIM("PAUL ") donne la valeur .T.

Si nous revenons à l'exemple du fichier des NOMS, la seule façon d'obtenir "DUBOIS" sera la suivante :
.SET EXACT ON
.LIST FOR TRIM(NOM)="DUBOIS"

Les opérateurs logiques ou booléens sont :
.AND.
.NOT.
.OR.
Ce sont ces opérateurs qui permettent de relier entre elles des opérations de même type ou de type différent, afin de constituer un bloc condition complexe. Les point encadrant le NOT, le AND et le OR sont indispensables, car ils servent de délimiteurs.
.LIST REST NOMNAVIRE,TRIM(ARMATEURS) FOR TONNAGE >=300 .AND. TONNAGE <>9999 TO PRINT

Dans cet exemple, le bloc condition se compose de deux opérations logiques reliées entre elles par l'opérateur ET. La commande LIST s'exécutera seulement si les deux opérations donnent pour chaque enregistrement la valeur VRAI.

.LIST NUMEX,NOMNAVIRE FOR NOMCAPIT="DESMARAIS" .OR. NOMCAPIT="DESMARETS" TO PRINT

Cette fois, avec ces deux opérations logiques reliées par l'opérateur OR, la commande LIST s'appliquera dans les cas suivants :
- Si la première opération est vraie et la seconde fausse.
- Si la seconde opération est vraie et la première fausse.
- Si les deux opérations sont vraies.

Il suffit donc que l'une des deux opérations soit vérifiée pour que le bloc condition donne le résultat : vrai.
A chaque fois que vous introduisez une opération dans un bloc condition, vous êtes obligés de répéter les noms des variables, même si l'opération suivante porte sur les mêmes rubriques.

Autrement dit, on ne peut pas écrire : FOR TONNAGE>=300 .AND. <>9999 ou FOR NOMCAPIT="DESMARAIS" .OR. "DESMARETS"

Cela se complique un petit peu quand un bloc condition comprend à la fois des ET et des OU. Les opérations logiques sont évaluées de la gauche vers la droite, mais il faut savoir que les opérateurs.AND. et .NOT. l'emportent sur l'opérateur .OR. Un exemple alimentaire vous permettra de mieux comprendre les pièges à éviter.

Voici un menu :
Hors d'œuvre
Plat garni
Fromage ou dessert
Café

Le client le plus obtus de ce restaurant comprendra que ce menu lui propose un hors d'oeuvre ET un plat garni, puisqu'il a le choix entre un fromage OU un dessert, et qu'enfin la maison lui sert le café. S'il pouvait lire ce menu, notre ordinateur ne comprendrait pas tout à fait la même chose. En considérant comme une opération logique la présentation de chaque élément du menu, nous pourrions écrire :
hors d'œuvre .AND. plat garni .AND. formage .OR. dessert .AND. café
L'ordinateur supposera donc, en suivant les convention énoncées ci-dessus, que le menu nous donne deux possibilités :
- Hors d'oeuvre et plat garni et fromage OU
- dessert et café...

Pour rétablir le vrai choix, il faudrait écrire en langage booléen :
hors d'œuvre .AND. plat garni .AND. fromage .AND. café .OR.
hors d'œuvre .AND. plat garni .AND. dessert .AND. café

Une autre façon, plus légère, consiste à écrire le menu en employant des parenthèses :
hors d'œuvre .AND. plat garni .AND. (fromage .OR. dessert) .AND. café

Par le biais des parenthèses, l'expression fromage .OR. dessert sera évaluée la première.

Un dernier point à préciser concerne la syntaxe d'une commande. Quand faut-il mettre un blanc ou un espace ? Lorsqu'il n'y a pas de délimiteurs ou de signes qui séparent deux mots sans ambiguité.
.LIST NOMNAVIRE FOR TONNAGE>200.AND.NOMCAPIT="CONRAD"

Dans cet exemple, il faut nécessairement un blanc entre LIST, NOMNAVIRE, FOR et TONNAGE, mais ensuite il est superflu de mettre des espaces car les signes >,.,= et " jouent le rôle de délimiteurs. Enfin, rappelons qu'il est indifférent de taper tout ou partie d'une commande en majuscules ou en minuscules, à l'exception, bien sûr des constantes chaînes de caractères...

Le bloc condition introduit par FOR représente un outil essentiel pour le contrôle et l'exploitation des données. Ce mécanisme, qui fonctionne comme une sorte de moteur avec des rouages logiques, s'applique à un grand nombre de commandes et à tous les types de rubrique. C'est au fond le "langage" (avec une syntaxe et une sémantique) d'interrogation de votre base de données, que vous devrez maîtriser afin d'obtenir toutes les catégories de résultats.

Le prochain épisode recensera les commandes qui peuvent comporter un bloc condition. Nous verrons aussi les fonctions les plus utiles et la façon de gérer des résultats avec les variables " mémoire ".

André ZYSBERG