Projet Open Book Genome

L’Open Library, projet compagnon de la plateforme Internet Archive, cherche à cataloguer tous les livres édités, dans une base de données librement accessible. Sous le nom de code « Open Book Genome », l’OL recourt désormais à un robot pour lire des millions de textes et en extraire des informations basiques.

Comme le nom du projet l’indique, l’Open Library souhaite automatiser la « lecture » des textes présents au sein de la bibliothèque Internet Archive, pour extraire le « génome » de chaque titre, autrement dit son matériel génétique, ce qui le rend unique.

L’équipe derrière l’« Open Book Genome Project » se pose une question simple : comment caractériser de la manière la plus précise possible un livre ? Titre, auteur, date de parution font bien entendu partie des métadonnées de base, mais ces éléments seuls ne permettent pas de saisir la nature d’un ouvrage. Elles constituent en quelque sorte sa carte d’identité, mais sa personnalité intime reste inconnue.

Pour analyser précisément un ouvrage, une lecture reste indispensable, pour en extraire les thématiques, les sujets abordés, les lieux ou encore les personnages cités dans le texte. Or, tout lecteur sait que, malheureusement, il est impossible de lire tous les livres de la planète…

Sauf peut-être si le lecteur est une entité technologique : la première partie du projet Open Book Genome Project s’appuie ainsi sur la technologie, par l’intermédiaire d’un robot qui « lira » tous les livres de la bibliothèque Internet Archive. Soit 32 millions d’ouvrages, tout de même. Cette machine définira quelques critères de classification, à partir de son analyse.

La seconde partie du projet fera cette fois appel aux humains, en leur proposant de classer de manière plus fine les ouvrages déjà repérés par le robot.

Via https://actualitte.com/article/102060/technologie/projet-open-book-genome-et-si-un-robot-lisait-tous-les-livres-du-monde