Lettre ouverte à Jean-Noël Janneney Retour à la page précédente Retour au sommaire de KaFkaïens Magazine
 

En décembre 2004, le moteur de recherche préféré dans le monde entier, Google, annonce qu'il va numériser à ses frais, quinze millions de livres issus des cinq plus grandes bibliothèques américaines.
Après plusieurs apparitions dans les media, J-N Jeanneney, le directeur de la Bibliothèque Nationale de France, publie Quand Google défie l'Europe en mars 2005. Dans ce petit livre, il prône une réponse européenne au projet de Google qu'il voit comme une menace.

Je suis entièrement d'accord avec lui lorsqu'il craint que la culture anglo-saxonne (et surtout états-unienne) ne se trouve renforcée par le projet de Google. Je vous renvoie à la lecture de son livre pour ne pas paraphraser ses brillants arguments.
Je suis en revanche en totale opposition quant aux moyens et aux méthodes à mettre en œuvre.

Pour commencer, il sous-estime Google.
Depuis que le moteur a pointé ses robots indexeurs sur la toile, Google a constamment réussi des performances technologiques que l'on croyait impossibles jusqu'alors. Je ne m'attarderai pas sur le fait que Google a été rentable dès les premières années, ce qui constitue aussi une performance de gestion rarissime dans l'Internet.
Ce moteur est rapidement devenu le plus gros (en nombre de pages indexées), le plus rapide et le plus pertinent (voir le désormais célèbre article de PmM http://www.kafkaiens.org/08kaf/perti8.htm). Le site Google.com n'était qu'une vitrine de leur puissance, et la petite mention " Résultats 1 à 10 sur environ 1 000 000 en 0,3 secondes) constituait certainement le véritable message que Google souhaitait faire passer : nous sommes super forts.
Le calcul de la pertinence des pages, trait de génie initial, fait intervenir les liens entre les pages. En théorie, cette méthode qui augmente considérablement la complexité de l'algorithme, n'aurait pas du fonctionner sur un aussi grand nombre de pages. Les temps de calcul auraient du augmenter exponentiellement à mesure que le nombre de pages indexées augmentait. Mais ils ont réussi à rendre ce problème calculable, et qui plus est, sur une architecture machine révolutionnaire (du moins à cette échelle : 30 000, 50 000, 100 000 ordinateurs ?) qui leur garantit des coûts supportables.
Lorsque J-N Jeanneney mentionne Gallica dans ce contexte, je ne peux que remarquer que l'on compare des choux et des carottes. Les 70 000 livres numérisés de Gallica n'offrent pas de recherche dans le texte, mais uniquement sur quelques champs (auteur, titre, une description de deux lignes…). Soit au total, disons, une centaine de mots utiles par livre. Dans le cas de Google, si l'on compte 5 mots utiles par ligne, sur 40 lignes, pour 200 pages au moins, on arrive à 40 000 mots par livre, soit, pour 15 millions de livre, 600 milliards ! C'est ce nombre qu'il faut comparer aux 7 millions de mots de Gallica. On a donc un ratio de 85 000 entre les deux projets.
Avec une telle disproportion, on ne peut plus s'appuyer sur l'expérience Gallica pour penser le nouveau système. Il faut radicalement changer le paradigme, penser autrement, créer une approche nouvelle.

J'ai aussi très peur quand je lis quelle méthode J-N Jeanneney propose pour le choix des livres à numériser. Premièrement, il faudra classifier les livres par thème, et choisir un aréopage de spécialistes dudit thème. La commission sera chargée de décider d'un ordre de priorité pour numériser d'abord les œuvres les plus importantes.
Mon cœur de start-uper ne fait qu'un bond. Arggh ! Combien de temps faudra-t-il avant même que la numérisation ne commence ? Il y a autant de catégories que de catégorisateurs, autant de priorités que de spécialistes. Je prends le pari que Google aura fini son travail avant même que la première commission aura désigné le premier livre. Ce fera les grands titres des journaux : Le Cid de Corneille sera le premier livre français numérisé. Les proustiens appellent à manifester devant la BNF, pendant que les hugoliens déposent un recours devant la haute cour de justice européenne !
Sérieusement, il y a 10 000 façons de choisir dans quel ordre numériser les livres. A l'extrême, l'ordre alphabétique me paraît même plus efficace, car plus simple à mettre en œuvre ! Le temps presse, en effet, car toute année de retard par rapport à Google aura les effets sur la culture non US que J-N Jeanneney dénonce !
Un autre mode de classification me paraît plus pertinent. Multiplier les initiatives de labos de recherche, de bibliothèques, de fan-club qui apporteraient leur contribution à la numérisation. Ainsi seront numérisés en premier les livres pour lesquels il y aura eu le plus de volonté. Bon, d'accord, Le Da Vinci Code sera numérisé, avant, disons Vous foutez-vous de nous ?, petit bijou écrit par un sans-culotte à la convention nationale en 1792. Mais je gage qu'il se trouvera bien un groupe de fans des sans-culotte pour y remédier. Parce que, ne nous y trompons pas, c'est exactement ce qui se passe à grande échelle : les livres anglo-saxons seront numérisés avant les nôtres parce qu'il y a plus de motivation de l'autre côté de l'atlantique que du nôtre !

Le projet de J-N Jeanneney a reçu le soutien du Président Jacques Chirac et de plusieurs directeurs de bibliothèques européennes. Il a même un nom, Quaero, et des partenaires choisis parmi les grands groupes informatiques européens. On ne parle pas encore de budget : J-N Jeanneney se base sur les 150 millions de dollars annoncés par Google. Il oublie juste que la plateforme et les algorithmes de Google existent déjà alors que l'Europe ne dispose aujourd'hui de rien de comparable. J'ai aussi très peur que les prestigieux partenaires n'aient pour but que de prendre une part du gâteau et se contrefichent de la réussite ou de l'échec du projet.
Mon expérience dans une start-up m'a appris ceci. La contrainte stimule la créativité. Contraindre énormément stimule énormément. Les solutions de ces intégrateurs de système n'auront pas suffisamment de contrainte budgétaire, de pression sur les délais, pour faire preuve de l'imagination nécessaire. Le modèle des grands projets sur fonds publics, avec des prestataires choisis selon leur capacité à infiltrer les corps de l'état, ce modèle n'a aucune chance de rivaliser avec l'efficacité d'une start-up du type de Google. Même Microsoft n'y parvient pas.

Aujourd'hui, Google propose aux éditeurs et aux bibliothèques français de numériser leurs livres (aux frais de Google, transport en Californie compris !). La temporisation par Google de la numérisation des livres soumis à copyright ne durera, je pense, que le temps de se mettre d'accord sur la longueur des extraits présentés. Nos chercheurs auront avec Google accès à une masse d'information gigantesque avant même que Quaero ne traite sa première requête.
Faut-il abandonner le projet de J-N Jeanneney ? Non ! Mais il existe d'autres alternatives, collaboratives par exemple (J-N Jeanneney en parle dans son livre) qui, je crois, peuvent répondre à ce grand défi.

Google défie l'Europe ? Non, Google fonce tout droit, sans se poser de question. Mais oui, J-N Jeanneney défie la capacité de l'Europe à proposer une alternative.

 
LN
Oh Oui ! vos réactions Ah Non !
Voir les autres textes de cet auteur - Envoyer ce texte à un ami
KaFkaïens Magazine - Tous droits réservés