|
En décembre
2004, le moteur de recherche préféré dans le
monde entier, Google, annonce qu'il va numériser à
ses frais, quinze millions de livres issus des cinq plus grandes
bibliothèques américaines.
Après plusieurs apparitions dans les media, J-N Jeanneney,
le directeur de la Bibliothèque Nationale de France, publie
Quand Google défie l'Europe en mars 2005. Dans ce
petit livre, il prône une réponse européenne
au projet de Google qu'il voit comme une menace.
Je suis entièrement
d'accord avec lui lorsqu'il craint que la culture anglo-saxonne
(et surtout états-unienne) ne se trouve renforcée
par le projet de Google. Je vous renvoie à la lecture de
son livre pour ne pas paraphraser ses brillants arguments.
Je suis en revanche en totale opposition quant aux moyens et aux
méthodes à mettre en uvre.
Pour commencer,
il sous-estime Google.
Depuis que le moteur a pointé ses robots indexeurs sur la
toile, Google a constamment réussi des performances technologiques
que l'on croyait impossibles jusqu'alors. Je ne m'attarderai pas
sur le fait que Google a été rentable dès les
premières années, ce qui constitue aussi une performance
de gestion rarissime dans l'Internet.
Ce moteur est rapidement devenu le plus gros (en nombre de pages
indexées), le plus rapide et le plus pertinent (voir le désormais
célèbre article de PmM http://www.kafkaiens.org/08kaf/perti8.htm).
Le site Google.com n'était qu'une vitrine de leur puissance,
et la petite mention " Résultats 1 à 10 sur environ
1 000 000 en 0,3 secondes) constituait certainement le véritable
message que Google souhaitait faire passer : nous sommes super forts.
Le calcul de la pertinence des pages, trait de génie initial,
fait intervenir les liens entre les pages. En théorie, cette
méthode qui augmente considérablement la complexité
de l'algorithme, n'aurait pas du fonctionner sur un aussi grand
nombre de pages. Les temps de calcul auraient du augmenter exponentiellement
à mesure que le nombre de pages indexées augmentait.
Mais ils ont réussi à rendre ce problème calculable,
et qui plus est, sur une architecture machine révolutionnaire
(du moins à cette échelle : 30 000, 50 000, 100 000
ordinateurs ?) qui leur garantit des coûts supportables.
Lorsque J-N Jeanneney mentionne Gallica dans ce contexte, je ne
peux que remarquer que l'on compare des choux et des carottes. Les
70 000 livres numérisés de Gallica n'offrent pas de
recherche dans le texte, mais uniquement sur quelques champs (auteur,
titre, une description de deux lignes
). Soit au total, disons,
une centaine de mots utiles par livre. Dans le cas de Google, si
l'on compte 5 mots utiles par ligne, sur 40 lignes, pour 200 pages
au moins, on arrive à 40 000 mots par livre, soit, pour 15
millions de livre, 600 milliards ! C'est ce nombre qu'il faut comparer
aux 7 millions de mots de Gallica. On a donc un ratio de 85 000
entre les deux projets.
Avec une telle disproportion, on ne peut plus s'appuyer sur l'expérience
Gallica pour penser le nouveau système. Il faut radicalement
changer le paradigme, penser autrement, créer une approche
nouvelle.
J'ai aussi très
peur quand je lis quelle méthode J-N Jeanneney propose pour
le choix des livres à numériser. Premièrement,
il faudra classifier les livres par thème, et choisir un
aréopage de spécialistes dudit thème. La commission
sera chargée de décider d'un ordre de priorité
pour numériser d'abord les uvres les plus importantes.
Mon cur de start-uper ne fait qu'un bond. Arggh ! Combien
de temps faudra-t-il avant même que la numérisation
ne commence ? Il y a autant de catégories que de catégorisateurs,
autant de priorités que de spécialistes. Je prends
le pari que Google aura fini son travail avant même que la
première commission aura désigné le premier
livre. Ce fera les grands titres des journaux : Le Cid de
Corneille sera le premier livre français numérisé.
Les proustiens appellent à manifester devant la BNF, pendant
que les hugoliens déposent un recours devant la haute cour
de justice européenne !
Sérieusement, il y a 10 000 façons de choisir dans
quel ordre numériser les livres. A l'extrême, l'ordre
alphabétique me paraît même plus efficace, car
plus simple à mettre en uvre ! Le temps presse, en
effet, car toute année de retard par rapport à Google
aura les effets sur la culture non US que J-N Jeanneney dénonce
!
Un autre mode de classification me paraît plus pertinent.
Multiplier les initiatives de labos de recherche, de bibliothèques,
de fan-club qui apporteraient leur contribution à la numérisation.
Ainsi seront numérisés en premier les livres pour
lesquels il y aura eu le plus de volonté. Bon, d'accord,
Le Da Vinci Code sera numérisé, avant, disons
Vous foutez-vous de nous ?, petit bijou écrit par un sans-culotte
à la convention nationale en 1792. Mais je gage qu'il se
trouvera bien un groupe de fans des sans-culotte pour y remédier.
Parce que, ne nous y trompons pas, c'est exactement ce qui se passe
à grande échelle : les livres anglo-saxons seront
numérisés avant les nôtres parce qu'il y a plus
de motivation de l'autre côté de l'atlantique que du
nôtre !
Le projet de
J-N Jeanneney a reçu le soutien du Président Jacques
Chirac et de plusieurs directeurs de bibliothèques européennes.
Il a même un nom, Quaero, et des partenaires choisis parmi
les grands groupes informatiques européens. On ne parle pas
encore de budget : J-N Jeanneney se base sur les 150 millions de
dollars annoncés par Google. Il oublie juste que la plateforme
et les algorithmes de Google existent déjà alors que
l'Europe ne dispose aujourd'hui de rien de comparable. J'ai aussi
très peur que les prestigieux partenaires n'aient pour but
que de prendre une part du gâteau et se contrefichent de la
réussite ou de l'échec du projet.
Mon expérience dans une start-up m'a appris ceci. La contrainte
stimule la créativité. Contraindre énormément
stimule énormément. Les solutions de ces intégrateurs
de système n'auront pas suffisamment de contrainte budgétaire,
de pression sur les délais, pour faire preuve de l'imagination
nécessaire. Le modèle des grands projets sur fonds
publics, avec des prestataires choisis selon leur capacité
à infiltrer les corps de l'état, ce modèle
n'a aucune chance de rivaliser avec l'efficacité d'une start-up
du type de Google. Même Microsoft n'y parvient pas.
Aujourd'hui,
Google propose aux éditeurs et aux bibliothèques français
de numériser leurs livres (aux frais de Google, transport
en Californie compris !). La temporisation par Google de la numérisation
des livres soumis à copyright ne durera, je pense, que le
temps de se mettre d'accord sur la longueur des extraits présentés.
Nos chercheurs auront avec Google accès à une masse
d'information gigantesque avant même que Quaero ne traite
sa première requête.
Faut-il abandonner le projet de J-N Jeanneney ? Non ! Mais il existe
d'autres alternatives, collaboratives par exemple (J-N Jeanneney
en parle dans son livre) qui, je crois, peuvent répondre
à ce grand défi.
Google défie
l'Europe ? Non, Google fonce tout droit, sans se poser de question.
Mais oui, J-N Jeanneney défie la capacité de l'Europe
à proposer une alternative.
|