Que se passe-t-il lorsque les scientifiques de trois ans de Robinson Crusoé?

Anonim

Depuis la première publication du récit de naufrage "Robinson Crusoé" de Daniel Defoe, il y a près de 300 ans, des milliers d'éditions et de versions dérivées ont été publiées, dans des centaines de langues.

Une équipe de recherche dirigée par Grant Glass, un doctorat Étudiant en anglais et en littérature comparée à l'Université de Caroline du Nord à Chapel Hill, il voulait savoir comment l'histoire évoluait dans diverses éditions, imitations et traductions, et voir quelles parties avaient résisté à l'épreuve du temps.

Les lire tous à un rythme d’un jour par jour prendrait des années. Au lieu de cela, les chercheurs forment des ordinateurs pour le faire pour eux.

Cet été, l'équipe de Glass dans le programme de recherche d'été Data + a utilisé des algorithmes informatiques et des techniques d'apprentissage automatique pour examiner 1 482 versions en texte intégral de Robinson Crusoe, compilées à partir d'archives en ligne.

"Souvent, nous pensons à un livre comme figé", a déclaré Glass. "Mais un projet comme celui-ci vous montre que c'est désordonné. Il y a beaucoup de divergence à ce sujet."

"Lorsque vous prenez un livre, il est important de savoir de quel exemplaire il s'agit, car cela peut avoir une incidence sur votre façon de penser", a déclaré Glass.

Orgil Batzaya, membre du Duke en mathématiques et en informatique, a déclaré que le simple fait de mettre les textes sous une forme qu'un ordinateur pouvait traiter était la moitié de la bataille.

Les livres ont déjà été scannés et affichés en ligne, de sorte que les étudiants ont utilisé un logiciel pour télécharger les scans à partir d'Internet, via un processus appelé "scraping". Mais le traitement des pages numérisées d'anciens livres imprimés, dont certains avaient des taches, des taches ou des caractères usés, et leur conversion en un format lisible par machine s'est avéré plus délicat que prévu.

Le logiciel a eu du mal à décoder les orthographes étranges ("livrer", "souhaiter", "perswasions", "rivage" contre "shoar"), différentes polices de caractères entre les éditions et autres bizarreries.

Des caractères spéciaux propres aux polices du XVIIIe siècle, comme la curieuse version en forme de f de la lettre "s", incitent même les humains à lire "diftance" et "poffible" avec un éclat mental.

Leurs premières tentatives ont abouti à gobbledygook. "La reconnaissance optique des personnages qui en a résulté était complètement inutilisable", a déclaré Gabriel Guedes, membre de l'équipe et senior de Duke.

Lors d’une session d’affiche Data + en août, Lucien Li, double major de l’histoire et de l’informatique, a présenté ses premiers résultats: une collection de diagrammes de dispersion colorés, de cartes, d’organigrammes et de graphiques linéaires.

Guedes a indiqué des groupes de points sur un graphique de réseau. "Ici, les éditions rouges sont américaines, les éditions bleues viennent du Royaume-Uni", a déclaré Guedes. "Le graphique de réseau reconnaît la similitude entre toutes ces éditions et les regroupe."

Une fois les pages numérisées transformées en textes lisibles par une machine, l'équipe les a incorporés dans un algorithme d'apprentissage automatique qui mesure la similarité entre les documents.

L'algorithme prend des morceaux de textes (phrases, paragraphes, même des romans entiers) et les convertit en vecteurs de grande dimension.

La création de cette représentation numérique de chaque livre, a déclaré Guedes, a permis d’effectuer des opérations mathématiques sur ces livres. Ils ont additionné les vecteurs pour chaque livre afin de trouver leur somme, ont calculé la moyenne et ont cherché à voir quelle édition était la plus proche de l'édition «moyenne». Il s’est avéré être une version de Robinson Crusoe publiée à Glasgow en 1875.

Ils ont également analysé l’importance des points précis de l’intrigue pour déterminer la proximité de l’édition par rapport à l’édition «moyenne»: qu’en est-il du moment où Crusoe détecte une empreinte dans le sable et se rend compte qu’il n’est pas seul? Ou le moment où Crusoé et vendredi, après avoir quitté l'île, luttent contre des loups affamés dans les Pyrénées?

Les résultats de l'équipe pourraient choquer ceux qui ne sont pas habitués à voir 300 années de publication réduites à un graphique à barres. Mais en utilisant des ordinateurs pour comparer des milliers de livres à la fois, les spécialistes des «humanités numériques» affirment qu'il est possible de retracer les tendances et les modèles à grande échelle que les humains ne peuvent étudier avec des livres individuels.

«C’est vraiment quelque chose que seul un ordinateur peut faire», a déclaré Guedes, indiquant une carte en accéléré montrant l’histoire de Crusoe à travers le monde, construite à partir de données sur le lieu et la date de publication de 15 000 éditions.

"C'est une forme de" lecture à distance "", a déclaré Guedes. "Vous utilisez cette énorme quantité d'informations pour vous aider à tirer des conclusions sur l'historique des publications, le mouvement des idées et les connaissances en général au fil du temps."

menu
menu