Le livre, de l'imprimé au numérique

UNE INFORMATION MULTILINGUE

[Résumé] De pratiquement anglophone à ses débuts, le web, devenu multilingue, permet une large diffusion des textes électroniques sans contrainte de frontières. Mais la barrière de la langue est loin d'avoir disparu. Comme l'écrit si bien en août 1999 Maria Victoria Marinetti, professeur d'espagnol en entreprise et traductrice, «il est très important de pouvoir communiquer en différentes langues. Je dirais même que c'est obligatoire, car l'information donnée sur l'internet est à destination du monde entier, alors pourquoi ne l'aurions-nous pas dans notre propre langue ou dans la langue que nous souhaitons utiliser? Information mondiale, mais pas de vaste choix dans les langues, ce serait contradictoire, pas vrai?»

= De l'ASCII à l'Unicode

Communiquer dans plusieurs langues implique d'avoir des systèmes de codage adaptés à nos alphabets ou idéogrammes respectifs.

Le premier système d'encodage informatique est l'ASCII (American Standard Code for Information Interchange). Publié en 1968 aux États- Unis par l'ANSI (American National Standards Institute), avec actualisation en 1977 et 1986, l'ASCII est un code standard de 128 caractères traduits en langage binaire sur sept bits (A est traduit par «1000001», B est traduit par «1000010», etc.). Les 128 caractères comprennent 33 caractères de contrôle (qui ne représentent donc pas de symbole écrit) et 95 caractères imprimables: les 26 lettres sans accent en majuscules (A-Z) et minuscules (a-z), les chiffres, les signes de ponctuation et quelques symboles, le tout correspondant aux touches du clavier anglophone.

L'ASCII permet uniquement la lecture de l'anglais et du latin. Il ne permet pas de prendre en compte les lettres accentuées présentes dans bon nombre de langues européennes, et à plus forte raison les langues non alphabétiques (chinois, japonais, coréen, etc.). Ceci ne pose pas de problème majeur les premières années, tant que l'échange de fichiers électroniques se limite essentiellement à l'Amérique du Nord. Mais le multilinguisme devient bientôt une nécessité vitale. Des variantes de l'ASCII (norme ISO-8859 ou ISO-Latin) sur huit bits prennent en compte les caractères accentués de quelques langues européennes. Par exemple, la variante pour le français est définie par la norme ISO-8859-1 (ISO- Latin-1).

Cependant le passage de l'ASCII original à ses différentes extensions devient vite un véritable casse-tête, y compris au sein de l'Union européenne, les problèmes étant entre autres la multiplication des variantes, la corruption des données dans les échanges informatiques ou encore l'incompatibilité des systèmes, les pages ne pouvant être affichées que dans une seule langue à la fois.

Avec le développement du web, l'échange des données s'internationalise de plus en plus. On ne peut plus se limiter à l'utilisation de l'anglais, du latin et de quelques langues européennes «traduites» par un système d'encodage datant de 1968.

Publié pour la première fois en janvier 1991, l'Unicode est un système d'encodage «universel» sur 16 bits spécifiant un nombre unique pour chaque caractère. Ce nombre est lisible quels que soient la plateforme, le logiciel et la langue utilisés. L'Unicode peut traiter 65.000 caractères uniques et prendre en compte tous les systèmes d'écriture de la planète. À la grande satisfaction des linguistes, il remplace progressivement l'ASCII, avec des variantes UTF-8, UTF-16 et UTF-32 (UTF: Unicode Transformation Format) en fonction du nombre de bits utilisés. Il devient une composante des spécifications du W3C (World Wide Web Consortium), l'organisme international chargé du développement du web.

L'utilisation de l'Unicode se généralise à partir de 1998, par exemple pour les fichiers texte sous plateforme Windows (Windows NT, Windows 2000, Windows XP et versions suivantes), qui étaient jusque-là en ASCII.

Mais l'Unicode ne peut résoudre tous les problèmes, comme le souligne en juin 2000 Luc Dall'Armellina, co-auteur et webmestre d'oVosite, un espace d'écriture hypermédia: «Les systèmes d'exploitation se dotent peu à peu des kits de langues et bientôt peut-être de polices de caractères Unicode à même de représenter toutes les langues du monde; reste que chaque application, du traitement de texte au navigateur web, emboîte ce pas. Les difficultés sont immenses: notre clavier avec ses ± 250 touches avoue ses manques dès lors qu'il faille saisir des Katakana ou Hiragana japonais, pire encore avec la langue chinoise. La grande variété des systèmes d'écriture de par le monde et le nombre de leurs signes font barrage. Mais les écueils culturels ne sont pas moins importants, liés aux codes et modalités de représentation propres à chaque culture ou ethnie.»

Que préconise Olivier Gainon, fondateur de CyLibris et pionnier de l'édition électronique littéraire? «Première étape: le respect des particularismes au niveau technique», explique-t-il en décembre 2000. «Il faut que le réseau respecte les lettres accentuées, les lettres spécifiques, etc. Je crois très important que les futurs protocoles permettent une transmission parfaite de ces aspects - ce qui n'est pas forcément simple (dans les futures évolutions de l'HTML ou des protocoles IP, etc.). Donc il faut que chacun puisse se sentir à l'aise avec l'internet et que ce ne soit pas simplement réservé à des (plus ou moins) anglophones. Il est anormal aujourd'hui que la transmission d'accents puisse poser problème dans les courriers électroniques. La première démarche me semble donc une démarche technique. Si on arrive à faire cela, le reste en découle: la représentation des langues se fera en fonction du nombre de connectés, et il faudra envisager à terme des moteurs de recherche multilingues.»

= De l'anglais au plurilinguisme

Après avoir été anglophone à pratiquement 100%, l'internet est encore anglophone à plus de 80% en 1998, un pourcentage qui s'explique par trois facteurs: (a) la création d'un grand nombre de sites web émanant des États-Unis, du Canada et du Royaume-Uni; (b) une proportion d'usagers particulièrement forte en Amérique du Nord par rapport au reste du monde; (c) l'usage de l'anglais en tant que principale langue d'échange internationale.

L'anglais reste en effet prépondérant et ceci n'est pas près de disparaître. Comme indiqué en janvier 1999 par Marcel Grangier, responsable de la section française des services linguistiques centraux de l'Administration fédérale suisse, «cette suprématie n'est pas un mal en soi, dans la mesure où elle résulte de réalités essentiellement statistiques (plus de PC par habitant, plus de locuteurs de cette langue, etc.). La riposte n'est pas de "lutter contre l'anglais" et encore moins de s'en tenir à des jérémiades, mais de multiplier les sites en d'autres langues. Notons qu'en qualité de service de traduction, nous préconisons également le multilinguisme des sites eux- mêmes. La multiplication des langues présentes sur internet est inévitable, et ne peut que bénéficier aux échanges multiculturels.»

Yoshi Mikami est informaticien à Fujisawa, au Japon. En décembre 1995, il lance le site «The Languages of the World by Computers and the Internet» (Les langues du monde par les ordinateurs et l'internet), communément appelé Logos Home Page ou Kotoba Home Page. Son site donne un bref historique de chaque langue, ses caractéristiques, son système d'écriture, son jeu de caractères et enfin la configuration du clavier dans la langue donnée. Yoshi Mikami est également co-auteur (avec Kenji Sekine et Nobutoshi Kohara) de Pour un web multilingue, publié en août 1997 en japonais par les éditions O'Reilly avant d'être traduit en anglais, en allemand et en français en 1998.

Yoshi explique en décembre 1998: «Ma langue maternelle est le japonais. Comme j'ai suivi mes études de troisième cycle aux États-Unis et que j'ai travaillé dans l'informatique, je suis devenu bilingue japonais/anglais américain. J'ai toujours été intéressé par différentes langues et cultures, aussi j'ai appris le russe, le français et le chinois dans la foulée. A la fin de 1995, j'ai créé sur le web le site "The Languages of the World by Computers and the Internet" et j'ai tenté de donner - en anglais et en japonais - un bref historique de toutes ces langues, ainsi que les caractéristiques propres à chaque langue et à sa phonétique. Suite à l'expérience acquise, j'ai invité mes deux associés à écrire un livre sur la conception, la création et la présentation de pages web multilingues, livre qui fut publié en août 1997 [en japonais] sous le titre Pour un web multilingue, le premier livre au monde sur un tel sujet.»

Comment Yoshi voit-il l'évolution vers un web multilingue? «Il y a des milliers d'années de cela, en Égypte, en Chine et ailleurs, les gens étaient plus sensibles au fait de communiquer leurs lois et leurs réflexions non seulement dans une langue mais dans plusieurs. Dans notre monde moderne, chaque État a adopté plus ou moins une seule langue de communication. A mon avis, l'internet verra l'utilisation plus grande de langues différentes et de pages multilingues (et pas seulement une gravitation autour de l'anglais américain) et un usage plus créatif de la traduction informatique multilingue. 99% des sites web créés au Japon sont en japonais!»

Consultant en marketing internet chez Globalink, une société de logiciels et services de traduction, Randy Hobler écrit en septembre 1998: «Comme l'internet n'a pas de frontières nationales, les internautes s'organisent selon d'autres critères propres au médium. En termes de multilinguisme, vous avez des communautés virtuelles, par exemple ce que j'appelle les "nations des langues", tous ces internautes qu'on peut regrouper selon leur langue maternelle quel que soit leur lieu géographique. Ainsi la nation de la langue espagnole inclut non seulement les internautes d'Espagne et d'Amérique latine, mais aussi tous les Hispanophones vivant aux États-Unis, ou encore ceux qui parlent espagnol au Maroc.»

Bruno Didier, webmestre de la bibliothèque de l'Institut Pasteur, écrit en août 1999: «Internet n'est une propriété ni nationale, ni linguistique. C'est un vecteur de culture, et le premier support de la culture, c'est la langue. Plus il y a de langues représentées dans leur diversité, plus il y aura de cultures sur internet. Je ne pense pas qu'il faille justement céder à la tentation systématique de traduire ses pages dans une langue plus ou moins universelle. Les échanges culturels passent par la volonté de se mettre à la portée de celui vers qui on souhaite aller. Et cet effort passe par l'appréhension de sa langue. Bien entendu c'est très utopique comme propos. Concrètement, lorsque je fais de la veille, je peste dès que je rencontre des sites norvégiens ou brésiliens sans un minimum d'anglais.»

Au cours de l'été 2000, les usagers non anglophones dépassent la barre des 50%. Ce pourcentage continue ensuite d'augmenter, comme le montrent les statistiques de la société Global Reach, mises à jour à intervalles réguliers. Le nombre d'usagers non anglophones est de 52,5% en été 2001, 57% en décembre 2001, 59,8% en avril 2002, 64,4% en septembre 2003 (dont 34,9% d'Européens non anglophones et 29,4% d'Asiatiques) et 64,2% en mars 2004 (dont 37,9% d'Européens non anglophones et 33% d'Asiatiques).

= Des dictionnaires de langues en ligne

# Le Grand dictionnaire terminologique

Le Grand dictionnaire terminologique (GDT) est une initiative majeure de l'Office québécois de la langue française (OQLF). C'est en effet la première fois qu'un organisme propose une base terminologique de cette taille en accès libre sur le web. Mis en ligne en septembre 2000, le GDT est précédé deux ans plus tôt par Le Signet, une base terminologique pour les technologies de l'information, dont les 10.000 fiches bilingues français-anglais sont également intégrées au GDT.

Le GDT est un dictionnaire bilingue français-anglais de 3 millions de termes appartenant au vocabulaire industriel, scientifique et commercial. Sa mise en ligne est le résultat d'un partenariat entre l'OQLF, auteur du dictionnaire, et Semantix, société spécialisée dans les solutions logicielles linguistiques. Événement célébré par de nombreux linguistes, cette mise en ligne est un succès. Dès le premier mois, le GDT est consulté par 1,3 million de personnes, avec des pointes de 60.000 requêtes quotidiennes. La gestion de la base est ensuite assurée par Convera Canada. En février 2003, les requêtes sont au nombre de 3,5 millions par mois. Une nouvelle version du GDT est mise en ligne en mars 2003. Sa gestion est désormais assurée par l'OQLF lui-même, et non plus par une société prestataire.

# Eurodicautom et IATE

Géré par les services de traduction de la Commission européenne, Eurodicautom est une base terminologique multilingue de termes économiques, scientifiques, techniques et juridiques qui permet de combiner entre elles les onze langues officielles de l'Union européenne (allemand, anglais, danois, espagnol, finnois, français, grec, hollandais, italien, portugais, suédois), ainsi que le latin, avec une moyenne de 120.000 consultations par jour en 2003.

Fin 2003, Eurodicautom annonce son intégration dans une base terminologique plus vaste regroupant les bases terminologiques de plusieurs institutions de l'Union européenne, notamment celle du Parlement européen et celle du Conseil de l'Union européenne. Cette nouvelle base traiterait non plus douze langues mais une vingtaine, du fait de l'élargissement prévu de l'Union européenne l'année suivante vers l'Europe de l'Est.

Un projet de base terminologique commune est évoqué dès 1999 afin de renforcer la coopération inter-institutionnelle. Les partenaires de ce projet sont le Parlement européen, le Conseil de l'Union européenne, la Commission européenne, la Cour de justice, la Cour des comptes européenne, le Comité économique et social européen, le Comité des régions, la Banque européenne d'investissement, la Banque centrale européenne et enfin le Centre de traduction des organes de l'Union européenne.

La nouvelle base terminologique voit le jour au printemps 2004 sous le nom de IATE (InterActive Terminology for Europe), d'abord pour un usage interne dans les institutions de l'Union européenne avant de migrer sur le web en juin 2007 en tant que service public, avec 1,4 million d'entrées dans les 23 langues officielles de l'Union européenne, plus le latin. L'Union européenne est en effet passée de 15 à 25 pays membres en mai 2004, pour atteindre 27 pays membres en janvier 2007, d'où la nécessité de 23 langues officielles au lieu des 11 langues officielles présentes dans Eurodicautom.

Le site web de IATE est administré par le Centre de traduction des organes de l'Union européenne à Luxembourg (capitale du pays du même nom), pour le compte des partenaires du projet. Comme expliqué dans la brochure mutilingue de IATE, «les termes sont introduits dans la base de données par les terminologues et les traducteurs de l'Union européenne sur la base des informations fournies par les traducteurs, les administrateurs, les juristes-linguistes, les experts et d'autres sources fiables.» En 2009, IATE comprend 8,4 millions de termes, dont 540.000 abréviations et 130.000 expressions.

# WordReference.com

Le site WordReference.com est lancé en 1999 par Michael Kellogg pour proposer des dictionnaires bilingues gratuits en ligne. En mars 2010, Michael relate sur son site: «L'internet a été un incroyable outil ces dernières années pour rassembler des gens du monde entier. L'un des principaux obstacles à cela reste bien entendu la langue. Le contenu de l'internet est pour une grande part en anglais et de très nombreux usagers lisent ces pages alors que l'anglais est leur deuxième langue et non leur langue maternelle. De par mes propres expériences avec la langue espagnole, je sais que de nombreux lecteurs comprennent une grande partie de ce qu'ils lisent, mais pas la totalité.

J'ai débuté ce site en 1999 pour procurer des dictionnaires bilingues gratuits en ligne et d'autres outils pour tous sur l'internet. Depuis, le site s'est progressivement développé pour devenir l'un des sites de dictionnaires en ligne les plus utilisés, et le principal dictionnaire en ligne pour les paires de langues anglais-espagnol, anglais-français, anglais-italien, espagnol-français et espagnol-portugais. Ce site est toujours classé sans interruption parmi les 500 sites les plus visités du web. Aujourd'hui, je suis heureux de continuer à améliorer ces dictionnaires, les autres outils linguistiques du site et les forums de langues. J'ai vraiment plaisir à créer de nouvelles fonctionnalités pour rendre ce site de plus en plus utile.»

Les dictionnaires les plus populaires sont le dictionnaire espagnol (espagnol-anglais et anglais-espagnol), le dictionnaire français et le dictionnaire italien. On trouve aussi un dictionnaire allemand, un dictionnaire russe et un dictionnaire monolingue anglais. Des tableaux de conjugaison sont disponibles pour l'espagnol, le français et l'italien.

Pour l'anglais, on trouve également des dictionnaires de l'anglais vers les langues suivantes: arabe, chinois, coréen, grec, japonais, polonais, portugais, roumain, tchèque et turc, et vice versa.

Pour l'espagnol, en plus des deux dictionnaires d'Espasa Calpe et d'Oxford complétés par le supplément propre à WordReference.com, on peut consulter un dictionnaire monolingue espagnol, un dictionnaire espagnol de synonymes, un dictionnaire espagnol-français et un dictionnaire espagnol-portugais.

Pour le français et l'italien, outre les dictionnaires d'Oxford, WordReference.com propose deux dictionnaires qui lui sont propres, à savoir un dictionnaire français-anglais de 250.000 termes et un dictionnaire italien-anglais de 200.000 termes.

WordReference.com offre également des forums linguistiques très actifs et de qualité. Si les gens ont une question sur un usage linguistique donné, ils peuvent faire une recherche dans les centaines de milliers de questions précédentes, avant de poser leur propre question dans l'un des forums si nécessaire, pour être aidés par des gens des quatre coins du monde.

WordReference Mini est une version miniature du site qui permet son intégration dans d'autres sites, par exemple des sites d'apprentissage de langues.

Une version pour appareil mobile est disponible pour plusieurs dictionnaires: anglais-espagnol, espagnol-anglais, anglais-français, français-anglais, anglais-italien, italien-anglais, avec d'autres paires de langues à venir.

LE COPYRIGHT REVISITÉ

[Résumé] Lancée en 2001 à l'initiative de Lawrence «Larry» Lessig, professeur de droit à la Stanford Law School, en Californie, la licence Creative Commons a pour but de favoriser la diffusion d'oeuvres numériques tout en protégeant le droit d'auteur. L'organisme du même nom propose des licences-type, qui sont des contrats flexibles de droit d'auteur compatibles avec une diffusion sur l'internet. Simplement rédigées, ces autorisations non exclusives permettent aux titulaires des droits d'autoriser le public à utiliser leurs créations tout en ayant la possibilité de restreindre les exploitations commerciales et les oeuvres dérivées. Finalisée en février 2007, la version 3.0 de la Creative Commons instaure une licence internationale et la compatibilité avec d'autres licences similaires, dont le copyleft et la GPL (General Public License).

= Droit d'auteur et internet

Si le débat relatif au droit d'auteur sur l'internet est vif à la fin des années 1990, Philippe Loubière, traducteur littéraire et dramatique, ramène ce débat aux vrais problèmes. «Ce débat me semble assez proche sur le fond de ce qu'il est dans les autres domaines où le droit d'auteur s'exerce, ou devrait s'exercer», écrit-il en mars 2001. «Le producteur est en position de force par rapport à l'auteur dans pratiquement tous les cas de figure. Les pirates, voire la simple diffusion libre, ne menacent vraiment directement que les producteurs. Les auteurs ne sont menacés que par ricochet. Il est possible que l'on puisse légiférer sur la question, au moins en France où les corporations se revendiquant de l'exception culturelle sont actives et résistent encore un peu aux Américains, mais le mal est plus profond. En effet, en France comme ailleurs, les auteurs étaient toujours les derniers et les plus mal payés avant l'apparition d'internet, on constate qu'ils continuent d'être les derniers et les plus mal payés depuis. Il me semble nécessaire que l'on règle d'abord la question du respect des droits d'auteur en amont d'internet.»

Pour nombre d'auteurs, le web est avant tout un espace public basé sur l'échange. Alain Bron, consultant en systèmes d'information et auteur de romans, écrit en novembre 1999: «Je considère aujourd'hui le web comme un domaine public. Cela veut dire que la notion de droit d'auteur sur ce média disparaît de facto: tout le monde peut reproduire tout le monde. La création s'expose donc à la copie immédiate si les copyrights ne sont pas déposés dans les formes usuelles et si les oeuvres sont exposées sans procédures de revenus.»

Jacques Gauchey, journaliste et spécialiste des technologies de l'information, exprime un avis différent. «Le droit d'auteur dans son contexte traditionnel n'existe plus», écrit-il en juillet 1999. «Les auteurs ont besoin de s'adapter à un nouveau paradigme, celui de la liberté totale du flot de l'information. Le contenu original est comme une empreinte digitale: il est incopiable. Il survivra et prospérera donc.»

Selon Xavier Malbreil, auteur multimédia interviewé en mars 2001, «il y a deux choses. Le web ne doit pas être un espace de non-droit, et c'est un principe qui doit s'appliquer à tout, et notamment au droit d'auteur. Toute utilisation commerciale d'une oeuvre doit ouvrir droit à rétribution. Mais également, le web est un lieu de partage. Échanger entre amis des passages d'un texte qui vous a plu, comme on peut recopier des passages d'un livre particulièrement apprécié, pour le faire aimer, cela ne peut faire que du bien aux oeuvres, et aux auteurs. La littérature souffre surtout de ne pas être diffusée. Tout ce qui peut concourir à la faire sortir de son ghetto sera positif.»

= Copyleft et Creative Commons

Des créateurs souhaitent respecter la vocation première du web, réseau de diffusion à l'échelon mondial. De ce fait, les adeptes de contrats flexibles - copyleft, GPL (General Public License) et Creative Commons - sont de plus en plus nombreux.

L'idée du copyleft est lancée dès 1984 par Richard Stallman, ingénieur en informatique et défenseur inlassable du mouvement Open Source au sein de la Free Software Foundation (FSF). Conçu à l'origine pour les logiciels, le copyleft est formalisé par la GPL (General Public License) et étendu par la suite à toute oeuvre de création. Il contient la déclaration normale du copyright affirmant le droit d'auteur, mais son originalité est de donner au lecteur le droit de librement redistribuer le document et de le modifier. Le lecteur s'engage toutefois à ne revendiquer ni le travail original, ni les changements effectués par d'autres personnes. De plus, tous les travaux dérivés de l'oeuvre originale sont eux-mêmes soumis au copyleft.

Lancée en 2001 à l'initiative de Lawrence «Larry» Lessig, professeur de droit à la Stanford Law School, en Californie, la licence Creative Commons a elle aussi pour but de favoriser la diffusion d'oeuvres numériques tout en protégeant le droit d'auteur. L'organisme du même nom propose des licences-type, qui sont des contrats flexibles de droit d'auteur compatibles avec une diffusion sur l'internet. Simplement rédigées, ces autorisations non exclusives permettent aux titulaires des droits d'autoriser le public à utiliser leurs créations tout en ayant la possibilité de restreindre les exploitations commerciales et les oeuvres dérivées. L'auteur peut par exemple choisir d'autoriser ou non la reproduction et la rediffusion de ses oeuvres. Ces contrats peuvent être utilisés pour tout type de création: texte, film, photo, musique, site web, etc. Finalisée en février 2007, la version 3.0 de la Creative Commons instaure une licence internationale et la compatibilité avec d'autres licences similaires, dont le copyleft et la GPL.

Qui utilise la licence Creative Commons? O'Reilly Media par exemple. Fondé par Tim O'Reilly en 1978, O'Reilly Media est un éditeur réputé de manuels informatiques et de livres sur les technologies de pointe. L'éditeur dispose d'abord d'une formule de «copyright ouvert» pour les auteurs qui le souhaitent ou pour des projets collectifs. A partir de 2003, il privilégie le Creative Commons Founders' Copyright permettant d'offrir des contrats flexibles de droit d'auteur à ceux qui veulent également diffuser leurs oeuvres sur le web.

La Public Library of Science (PLoS) utilise elle aussi la licence Creative Commons. Les articles de ses périodiques en ligne - qui sont des périodiques scientifiques et médicaux de haut niveau disponibles gratuitement - peuvent être librement diffusés et réutilisés ailleurs, y compris pour des traductions, la seule contrainte étant la mention des auteurs et de la source.

Une licence Creative Commons est utilisée pour un million d'oeuvres en 2003, 4,7 millions d'oeuvres en 2004, 20 millions d'oeuvres en 2005, 50 millions d'oeuvres en 2006, 90 millions d'oeuvres en 2007, 130 millions d'oeuvres en 2008 et 350 millions d'oeuvres en avril 2010.

= Domaine public et copyright

Chose inquiétante à l'heure d'une société dite de l'information, le domaine public se réduit comme peau de chagrin. À une époque qui n'est pas si lointaine, 50% des oeuvres appartenaient au domaine public, et pouvaient donc être librement utilisées par tous. D'ici 2100, 99% des oeuvres seraient régies par le droit d'auteur, avec un maigre 1% laissé au domaine public. Un problème épineux pour tous ceux qui gèrent des bibliothèques numériques, et qui affecte aussi bien le Projet Gutenberg que Google Books.

Si le Projet Gutenberg s'est donné pour mission de diffuser gratuitement par voie électronique le plus grand nombre possible d'oeuvres littéraires, sa tâche n'est guère facilitée par les coups de boutoir portés au domaine public. Michael Hart, son fondateur, se penche sur la question depuis plus de trente ans, avec l'aide d'un groupe d'avocats spécialisés dans le droit d'auteur.

Dans la section Copyright HowTo, le Projet Gutenberg détaille les calculs à faire pour déterminer si un titre publié aux États-Unis appartient ou non au domaine public. Les oeuvres publiées avant 1923 sont soumises au droit d'auteur pendant 75 ans à partir de leur date de publication (elles sont donc maintenant dans le domaine public). Les oeuvres publiées entre 1923 et 1977 sont soumises au droit d'auteur pendant 95 ans à partir de leur date de publication (rien ne tombera dans le domaine public avant 2019). Une oeuvre publiée en 1998 et les années suivantes est soumise au droit d'auteur pendant 70 ans à partir de la date du décès de l'auteur s'il s'agit d'un auteur personnel (rien dans le domaine public avant 2049), ou alors pendant 95 ans à partir de la date de publication - ou 120 ans à partir de la date de création - s'il s'agit d'un auteur collectif (rien dans le domaine public avant 2074). Tout ceci dans les grandes lignes, d'autres règles venant s'ajouter à ces règles de base.

Nettement plus contraignant que l'amendement précédent, qui datait de 1976, un nouvel amendement au copyright est entériné par le Congrès le 27 octobre 1998 pour contrer le formidable véhicule de diffusion qu'est l'internet. Au fil des siècles, chaque avancée technique est accompagnée d'un durcissement du copyright, qui semble être la réponse des éditeurs à un accès plus facile au savoir, et la peur afférente de perdre des royalties.

«Le copyright a été augmenté de 20 ans», explique Michael Hart en juillet 1999. «Auparavant on devait attendre 75 ans, on est maintenant passé à 95 ans. Bien avant, le copyright durait 28 ans (plus une extension de 28 ans si on la demandait avant l'expiration du délai) et, avant cela, le copyright durait 14 ans (plus une extension de 14 ans si on la demandait avant l'expiration du délai). Comme on le voit, on assiste à une dégradation régulière et constante du domaine public.»

Les instances politiques ne cessent de parler d'Âge de l'Information alors que, en parallèle, elles durcissent la réglementation relative à la mise à disposition de cette information. La contradiction est flagrante. Le copyright est passé d'une durée de 30 ans en moyenne en 1909 à une durée de 95 ans en moyenne en 1998. En 89 ans, de 1909 à 1998, le copyright a subi une extension de 65 ans qui affecte les trois quarts de la production du 20e siècle. Seul un livre publié avant 1923 peut être considéré avec certitude comme du domaine public.

Les dates évoquées par Michael sont les suivantes, comme expliqué en détail dans son blog:

(a) 1790 est la date de la main-mise de la Guilde des imprimeurs (les éditeurs de l'époque en Angleterre) sur les auteurs, ce qui entraîne la naissance du copyright. Le 1790 Copyright Act institue un copyright de 14 ans après la date de publication de l'oeuvre, plus une extension de 28 ans si celle-ci est demandée avant l'expiration du délai. Les oeuvres pouvant être légalement imprimées passent subitement de 6.000 à 600, et neuf titres sur dix disparaissent des librairies. Quelque 335 ans après les débuts de l'imprimerie, censée ouvrir les portes du savoir à tous, le monde du livre est désormais contrôlé par les éditeurs et non plus par les auteurs. Cette nouvelle législation est également effective en France et aux États-Unis.

(b) 1831 est la date d'un premier renforcement du copyright pour contrer la réédition de vastes collections du domaine public sur les nouvelles presses à vapeur. Le 1831 Copyright Act institue un copyright de 28 ans après la date de publication de l'oeuvre, plus une extension de 14 ans si celle-ci est demandée avant l'expiration du délai, à savoir un total de 42 ans.

(c) 1909 est la date d'un deuxième renforcement du copyright pour contrer une réédition des collections du domaine public sur les nouvelles presses électriques. Le 1909 Copyright Act double la période de l'extension, qui passe à 28 ans, le tout représentant un total de 56 ans.

(d) 1976 est la date d'un nouveau durcissement du copyright suite à l'apparition de la photocopieuse lancée par Xerox. Le 1976 Copyright Act institue un copyright de 50 ans après le décès de l'auteur. De ce fait, tout copyright en cours avant le 19 septembre 1962 n'expire pas avant le 31 décembre 1976.

(e) 1998 est la date d'un durcissement supplémentaire du copyright suite au développement rapide des technologies numériques et aux centaines de milliers d'oeuvres désormais disponibles sur CD-ROM et DVD et sur le web, gratuitement ou à un prix très bas. Le 1998 Copyright Act allonge la durée du copyright qui est désormais de 70 ans après le décès de l'auteur, pour protéger l'empire Disney (raison pour laquelle on parle souvent de Mickey Mouse Copyright Act) et nombre de multinationales culturelles.

Un durcissement similaire touche les pays de l'Union européenne. La règle générale est désormais un copyright de 70 ans après le décès de l'auteur, alors qu'il était auparavant de 50 ans, suite aux pressions exercées par les éditeurs de contenu sous le prétexte d'«harmoniser» les lois nationales régissant le droit d'auteur pour répondre à la mondialisation du marché.

A ceci s'ajoute la législation sur le copyright des éditions numériques en application des traités internationaux de l'OMPI (Organisation mondiale de la propriété intellectuelle). Ces traités sont signés en 1996 dans l'optique de contrôler la gestion des droits numériques. Le Digital Millenium Copyright Act (DMCA) est entériné en octobre 1998 aux États-Unis.

La directive EUCD (European Union Copyright Directive) est entérinée en mai 2001 par la Communauté européenne. Cette directive s'intitule très précisément «Directive 2001/29/EC du Parlement européen et du Conseil sur l'harmonisation de certains aspects du droit d'auteur et des droits voisins dans la société de l'information». Elle fait suite à la directive de février 1993 (Directive 93/98/EEC) qui visait à harmoniser les législations des différents pays en matière de protection du droit d'auteur. La directive EUCD entre peu à peu en vigueur dans tous les pays de l'Union européenne, avec mise en place de législations nationales, le but officiel étant de renforcer le respect du droit d'auteur sur l'internet et de contrer ainsi le piratage. En France, par exemple, la loi DADVSI (Droit d'auteur et droits voisins dans la société de l'information) est promulguée en août 2006, et n'est pas sans susciter de nombreux remous.

UNE VASTE ENCYCLOPÉDIE

[Résumé] En 2002, le MIT (Massachusetts Institute of Technology) décide de publier le contenu de ses cours en ligne, avec accès libre et gratuit, en privilégiant la diffusion libre du savoir. Le MIT OpenCourseWare (MIT OCW) offre en accès libre le matériel d'enseignement de nombreux cours, à savoir des textes de conférences, des travaux pratiques, des exercices et corrigés, des bibliographies, des documents audio et vidéo, etc. Parallèlement, la Public Library of Science (PLoS) met sur pied des revues scientifiques et médicales en ligne de haut niveau diffusées gratuitement. Pour les encyclopédies, Wikipédia ouvre la voie en 2001, en lançant une encyclopédie écrite collectivement, avec possibilité de corriger et de compléter les articles, et dont le contenu est librement réutilisable. Suivent d'autres encyclopédies collaboratives en accès libre comme Citizendium et l'Encyclopedia of Life.

= Vers un savoir numérique

Vinton Cerf est souvent appelé le père de l'internet parce qu'il est l'auteur en 1974 (avec Robert Kahn) des protocoles nécessaires au bon fonctionnement du réseau. Sur le site de l'Internet Society (ISOC), qu'il fonde en 1992 pour promouvoir le développement de l'internet, il explique: «Le réseau fait deux choses (…): comme les livres, il permet d'accumuler de la connaissance. Mais, surtout, il la présente sous une forme qui la met en relation avec d'autres informations. Alors que, dans un livre, l'information est maintenue isolée.»

De plus, l'information contenue dans les livres reste la même, au moins pendant une période donnée, alors que l'internet privilégie les informations récentes et régulièrement actualisées.

Lors d'une conférence organisée en septembre 1996 par l'IFIP (International Federation of Information Processing), Dale Spender, professeur et chercheuse, tente de cerner les changements fondamentaux apportés par l'internet dans l'acquisition du savoir et les méthodes d'enseignement. Voici son argumentation résumée en deux paragraphes.

Pendant plus de cinq siècles, l'enseignement est principalement basé sur l'information donnée par les livres. Or les habitudes liées à l'imprimé ne peuvent être transférées au monde numérique. L'enseignement en ligne offre des possibilités tellement nouvelles qu'il n'est guère possible d'effectuer les distinctions traditionnelles entre enseignant et enseigné. Le passage de la culture imprimée à la culture numérique exige d'entièrement repenser le processus d'enseignement, puisque nous avons maintenant l'opportunité sans précédent de pouvoir influer sur le genre d'enseignement que nous souhaitons.

Dans la culture imprimée, l'information contenue dans les livres restait la même pendant un certain temps, ce qui nous a encouragé à penser que l'information était stable. La nature même de l'imprimé est liée à la notion de vérité, stable elle aussi. Cette stabilité et l'ordre qu'elle engendre ont été un des fondements de l'âge industriel et de la révolution scientifique. Les notions de vérité, de loi, d'objectivité et de preuve ont été les éléments de référence de nos croyances et de nos cultures. Mais la révolution numérique change tout ceci. Soudain l'information en ligne supplante l'information imprimée pour devenir la plus fiable et la plus utile, et l'usager est prêt à la payer en conséquence. C'est cette transformation radicale dans la nature de l'information qui doit être au coeur du débat relatif aux méthodes d'enseignement.

En témoigne l'expérience de Patrick Rebollar, professeur de littérature française au Japon, qui raconte en juillet 1998: «Mon travail de recherche est différent, mon travail d'enseignant est différent, mon image en tant qu'enseignant-chercheur de langue et de littérature est totalement liée à l'ordinateur, ce qui a ses bons et ses mauvais côtés (surtout vers le haut de la hiérarchie universitaire, plutôt constituée de gens âgés et technologiquement récalcitrants). J'ai cessé de m'intéresser à certains collègues proches géographiquement mais qui n'ont rien de commun avec mes idées, pour entrer en contact avec des personnes inconnues et réparties dans différents pays (et que je rencontre parfois, à Paris ou à Tokyo, selon les vacances ou les colloques des uns ou des autres). La différence est d'abord un gain de temps, pour tout, puis un changement de méthode de documentation, puis de méthode d'enseignement privilégiant l'acquisition des méthodes de recherche par mes étudiants, au détriment des contenus (mais cela dépend des cours). Progressivement, le paradigme réticulaire l'emporte sur le paradigme hiérarchique.»

Russon Wooldridge, professeur au département des études françaises de l'Université de Toronto (Canada), relate en février 2001: «Mes activités de recherche, autrefois menées dans une tour d'ivoire, se font maintenant presque uniquement par des collaborations locales ou à distance. (…) Tout mon enseignement exploite au maximum les ressources d'internet (le web et le courriel): les deux lieux communs d'un cours sont la salle de classe et le site du cours, sur lequel je mets tous les matériaux des cours. Je mets toutes les données de mes recherches des vingt dernières années sur le web (réédition de livres, articles, textes intégraux de dictionnaires anciens en bases de données interactives, de traités du 16e siècle, etc.). Je publie des actes de colloques, j'édite un journal, je collabore avec des collègues français, mettant en ligne à Toronto ce qu'ils ne peuvent pas publier en ligne chez eux. En mai 2000 j'ai organisé à Toronto un colloque international sur "Les études françaises valorisées par les nouvelles technologies". (…)

Je me rends compte que sans internet mes activités seraient bien moindres, ou du moins très différentes de ce qu'elles sont actuellement. Donc je ne vois pas l'avenir sans. Mais il est crucial que ceux qui croient à la libre diffusion des connaissances veillent à ce que le savoir ne soit pas bouffé, pour être vendu, par les intérêts commerciaux. Ce qui se passe dans l'édition du livre en France, où on n'offre guère plus en librairie que des manuels scolaires ou pour concours (c'est ce qui s'est passé en linguistique, par exemple), doit être évité sur le web. Ce n'est pas vers les amazon.com qu'on se tourne pour trouver la science désintéressée. Sur mon site, je refuse toute sponsorisation.»

= Quelques projets pilotes

# L'Encyclopédie de Diderot en ligne

Le projet ARTFL (American and French Research on the Treasury of the French Language) est un projet commun du Centre national de la recherche scientifique (CNRS, France) et de l'Université de Chicago (Illinois, États-Unis). Ce projet a pour but de constituer une base de données de 2.000 textes ayant trait à la littérature, à la philosophie, aux arts ou aux sciences et s'échelonnant du 13e au 20e siècle.

L'ARTFL travaille notamment à la version en ligne exhaustive de la première édition (1751-1772) de l'Encyclopédie ou Dictionnaire raisonné des sciences, des métiers et des arts de Diderot et d'Alembert. 72.000 articles rédigés par plus de 140 collaborateurs - dont Voltaire, Rousseau, d'Alembert, Marmontel, d'Holbach, Turgot, etc. - ont fait de cette encyclopédie un monumental ouvrage de référence pour les arts et les sciences. Destinée à rassembler puis divulguer les connaissances de l'époque, l'Encyclopédie porte la marque des courants intellectuels et sociaux du 18e siècle, et c'est grâce à elle qu'ont été propagées les idées du Siècle des Lumières. Elle comprend 17 volumes de texte - qui représentent 18.000 pages et 20.736.912 mots - et 11 volumes de planches.

La base de données correspondant au premier volume est accessible en ligne à titre expérimental en 1998. La recherche peut être effectuée par mot, portion de texte, auteur ou catégorie, ou par la combinaison de ces critères entre eux. On dispose de renvois d'un article à l'autre, au moyen de liens permettant d'aller d'une planche au texte ou du texte au fac-similé des pages originales. L'automatisation complète des procédures de saisie entraîne des erreurs typographiques et des erreurs d'identification qui sont corrigées au fil des mois. La recherche d'images est également possible dans un deuxième temps.

L'ARTFL travaille aussi à un projet de base de données pour le Dictionnaire de l'Académie française, dont les différentes éditions se sont échelonnées entre 1694 et 1935. Ce projet inclut la saisie et l'édition du texte, ainsi que la création d'un moteur de recherche spécifique. La première édition (1694) et la cinquième édition (1798) du dictionnaire sont les premières à être disponibles pour une recherche par mot, puis pour une recherche par portion de texte. Les différentes éditions sont ensuite combinées dans une base de données unique, qui permet de juger de l'évolution d'un terme en consultant aussi bien une édition particulière que l'ensemble des éditions.

Les autres projets de l'ARTFL sont la mise en ligne des ouvrages suivants: le Dictionnaire historique et critique de Philippe Bayle (édition de 1740), le Roget's Thesaurus de 1911, le Webster's Revised Unabridged Dictionary de 1913, le Thresor de la langue française de Jean Nicot (1606), un projet biblique multilingue comprenant entre autres La Bible française de Louis Segond (1910), etc.

# Des ouvrages de référence en ligne

Les premières grandes encyclopédies en ligne émanent d'encyclopédies imprimées. Elles apparaissent sur la toile en décembre 1999 avec WebEncyclo, l'Encyclopaedia Universalis et Britannica.com. Quant aux premiers grands dictionnaires imprimés en ligne, ce sont le Dictionnaire universel francophone en ligne d'Hachette, les dictionnaires anglais de Merriam-Webster et l'Oxford English Dictionary.

WebEncyclo (aujourd'hui disparu), publié par les éditions Atlas, est la première grande encyclopédie francophone en accès libre, avec mise en ligne en décembre 1999. La recherche est possible par mots-clés, thèmes, médias (à savoir les cartes, liens internet, photos et illustrations) et idées. Un appel à contribution incite les spécialistes d'un sujet donné à envoyer des articles, qui sont regroupés dans la section «WebEncyclo contributif». Après avoir été libre, l'accès est ensuite soumis à une inscription préalable gratuite.

La version web de l'Encyclopaedia Universalis est mise en ligne à la même date, soit un ensemble de 28.000 articles signés de 4.000 auteurs. Si la consultation est payante sur la base d'un abonnement annuel, de nombreux articles sont en accès libre.

Le site Britannica.com est la première grande encyclopédie anglophone en accès libre, avec mise en ligne en décembre 1999. Le site web propose l'équivalent numérique des 32 volumes de la 15e édition de l'Encyclopaedia Britannica, parallèlement à la version imprimée et à la version CD-ROM, toutes deux payantes. Le site offre une sélection d'articles issus de 70 magazines, un guide des meilleurs sites, un choix de livres, etc., le tout étant accessible à partir d'un moteur de recherche unique.

En septembre 2000, le site fait partie des cent sites les plus visités au monde. En juillet 2001, la consultation devient payante sur la base d'un abonnement annuel ou mensuel. Fin 2008, Britannica.com annonce l'ouverture prochaine de son site à des contributeurs extérieurs, avec inscription obligatoire pour écrire et modifier des articles.

En ce qui concerne les dictionnaires en ligne, le premier dictionnaire de langue française en accès libre est le Dictionnaire universel francophone en ligne (aujourd'hui disparu), qui répertorie 45.000 mots et 116.000 définitions tout en présentant «sur un pied d'égalité, le français dit "standard" et les mots et expressions en français tel qu'on le parle sur les cinq continents». Issu de la collaboration entre Hachette et l'AUPELF-UREF (devenu depuis l'AUF: Agence universitaire de la Francophonie), il correspond à la partie «noms communs» du dictionnaire imprimé disponible chez Hachette. L'équivalent pour la langue anglaise est le site Merriam-Webster OnLine, qui donne librement accès au Collegiate Dictionary et au Collegiate Thesaurus.

En mars 2000, les 20 volumes de l'Oxford English Dictionary (OED) sont mis en ligne par l'Oxford University Press (OUP). La consultation du site est payante. Le dictionnaire bénéficie d'une mise à jour trimestrielle d'environ 1.000 entrées nouvelles ou révisées. Deux ans après cette première expérience, en mars 2002, l'Oxford University Press met en ligne l'Oxford Reference Online (ORO), une vaste encyclopédie conçue directement pour le web et consultable elle aussi sur abonnement payant. Avec 60.000 pages et un million d'entrées, elle représente l'équivalent d'une centaine d'ouvrages de référence.

# Wikipédia

Issu du terme hawaïen «wiki» (qui signifie: vite, rapide), un wiki est un site web permettant à plusieurs utilisateurs de collaborer en ligne sur un même projet. À tout moment, ces utilisateurs peuvent contribuer à la rédaction du contenu, modifier ce contenu et l'enrichir en permanence. Le wiki est utilisé par exemple pour créer et gérer des dictionnaires, des encyclopédies ou encore des sites d'information sur un sujet donné. Le programme présent derrière l'interface d'un wiki est plus ou moins élaboré. Un programme simple gère du texte et des hyperliens. Un programme élaboré permet d'inclure des images, des graphiques, des tableaux, etc. L'encyclopédie wiki la plus connue est Wikipédia.

Créée en janvier 2001 à l'initiative de Jimmy Wales et de Larry Sanger (Larry quitte ensuite l'équipe), Wikipédia est une encyclopédie gratuite écrite collectivement et dont le contenu est librement réutilisable. Elle est immédiatement très populaire. Sans publicité et financée par des dons, cette encyclopédie coopérative est rédigée par des milliers de volontaires - appelés Wikipédiens, et qui s'inscrivent en prenant un pseudonyme - avec possibilité de corriger et compléter les articles, aussi bien les leurs que ceux d'autres contributeurs. Les articles restent la propriété de leurs auteurs, et leur libre utilisation est régie par la licence GFDL (GNU Free Documentation License) et la licence Creative Commons.

En décembre 2004, Wikipédia compte 1,3 million d'articles rédigés par 13.000 contributeurs dans une centaine de langues. En décembre 2006, l'encyclopédie est l'un de dix sites les plus visités du web, avec 6 millions d'articles.

En mai 2007, Wikipédia compte 7 millions d'articles dans 192 langues, dont 1,8 million en anglais, 589.000 en allemand, 500.000 en français, 260.000 en portugais et 236.000 en espagnol. En 2008, Wikipédia est l'un des cinq sites les plus visités du web.

En septembre 2010, Wikipédia compte 14 millions d'articles en 272 langues, dont 3,4 millions en anglais, 1,1 million en allemand et 1 million en français, qui est donc la troisième langue de l'encyclopédie.

Fondée en juin 2003, la Wikimedia Foundation gère non seulement Wikipédia mais aussi Wiktionary, un dictionnaire et thésaurus multilingue lancé en décembre 2002, puis Wikibooks (livres et manuels en cours de rédaction) lancé en juin 2003, auxquels s'ajoutent ensuite Wikiquote (répertoire de citations), Wikisource (textes du domaine public), Wikimedia Commons (sources multimédia), Wikispecies (répertoire d'espèces animales et végétales), Wikinews (site d'actualités) et enfin Wikiversity (matériel d'enseignement), lancé en août 2006.

# Les cours du MIT

Professeur à l'Université d'Ottawa (Canada), Christian Vandendorpe salue en mai 2001 «la décision du MIT [Massachusetts Institute of Technology] de placer tout le contenu de ses cours sur le web d'ici dix ans, en le mettant gratuitement à la disposition de tous. Entre les tendances à la privatisation du savoir et celles du partage et de l'ouverture à tous, je crois en fin de compte que c'est cette dernière qui va l'emporter.»

Le MIT décide en effet de publier le contenu de ses cours en ligne dans un OpenCourseWare, une initiative menée avec le soutien financier de la Hewlett Foundation et de la Mellon Foundation. Un OpenCourseWare peut être défini comme la publication électronique en accès libre du matériel d'enseignement d'un ensemble de cours.

Mise en ligne en septembre 2002, la version pilote du MIT OpenCourseWare (MIT OCW) offre en accès libre le matériel d'enseignement de 32 cours représentatifs des cinq facultés du MIT. Ce matériel d'enseignement comprend des textes de conférences, des travaux pratiques, des exercices et corrigés, des bibliographies, des documents audio et vidéo, etc. Le lancement officiel du site a lieu un an plus tard, en septembre 2003, avec accès à quelques centaines de cours. En mars 2004, 500 cours sont disponibles dans 33 disciplines. En mai 2006, 1.400 cours sont disponibles dans 34 disciplines. La totalité des 1.800 cours dispensés par le MIT est en ligne en novembre 2007, avec actualisation régulière ensuite. Certains cours sont traduits en espagnol, en portugais et en chinois avec l'aide d'autres organismes.

Le MIT espère que cette expérience de publication électronique - la première du genre - va permettre de définir un standard et une méthode de publication, et inciter d'autres universités à créer un OpenCourseWare pour la mise à disposition gratuite de leurs propres cours. A cet effet, le MIT lance l'OpenCourseWare Consortium (OCW Consortium) en décembre 2005, avec accès libre et gratuit au matériel d'enseignement de cent universités dans le monde un an plus tard.

# La Public Library of Science

A l'heure de l'internet, il paraît assez scandaleux que le résultat de travaux de recherche - travaux originaux et demandant de longues années d'efforts - soit détourné par des éditeurs spécialisés s'appropriant ce travail et le monnayant à prix fort. L'activité des chercheurs est souvent financée par les deniers publics, et de manière substantielle en Amérique du Nord. Il semblerait donc normal que la communauté scientifique et le grand public puissent bénéficier librement du résultat de ces recherches.

Dans le domaine scientifique et médical par exemple, 1.000 nouveaux articles sont publiés chaque jour, en ne comptant que les articles révisés par les pairs. Se basant sur ce constat, la Public Library of Science (PLoS) est fondée en octobre 2000 à San Francisco à l'initiative de Harold Varmus, Patrick Brown et Michael Eisen, chercheurs dans les universités de Stanford et Berkeley (Californie). Le but est de contrer les pratiques de l'édition spécialisée en regroupant tous les articles scientifiques et médicaux au sein d'archives en ligne en accès libre. Au lieu d'une information disséminée dans des millions de rapports et des milliers de périodiques en ligne ayant chacun des conditions d'accès différentes, un point d'accès unique permettrait de lire le contenu intégral de ces articles, avec moteur de recherche multi-critères et système d'hyperliens entre les articles.

Pour ce faire, PLoS fait circuler une lettre ouverte demandant que les articles publiés par les éditeurs spécialisés soient distribués librement dans un service d'archives en ligne, et incitant les signataires de cette lettre à promouvoir les éditeurs prêts à soutenir ce projet. La réponse de la communauté scientifique internationale est remarquable. Au cours des deux années suivantes, la lettre ouverte est signée par 30.000 chercheurs dans 180 pays. Bien que la réponse des éditeurs soit nettement moins enthousiaste, plusieurs éditeurs donnent leur accord pour une distribution immédiate des articles publiés par leurs soins, ou alors une distribution dans un délai de six mois. Mais dans la pratique, même les éditeurs ayant donné leur accord formulent nombre d'objections au nouveau modèle proposé, si bien que le projet d'archives en ligne ne voit finalement pas le jour.

Un autre objectif de la Public Library of Science est de devenir elle- même éditeur. PLoS fonde donc une maison d'édition scientifique non commerciale qui reçoit en décembre 2002 une subvention de 9 millions de dollars US de la part de la Moore Foundation. Une équipe éditoriale de haut niveau est constituée en janvier 2003 pour lancer des périodiques de qualité selon un nouveau modèle d'édition en ligne basé sur la diffusion libre du savoir.

Le premier numéro de PLoS Biology est disponible en octobre 2003, avec une version en ligne gratuite et une version imprimée au prix coûtant (couvrant uniquement les frais de fabrication et de distribution). PLoS Medicine est lancé en octobre 2004. Trois nouveaux titres voient le jour en 2005: PLoS Genetics, PLoS Computational Biology et PLoS Pathogens. PLoS Clinical Trials voit le jour en 2006. PLoS Neglected Tropical Diseases est lancé à l'automne 2007 en tant que première publication scientifique consacrée aux maladies tropicales négligées, ces maladies affectant les populations pauvres dans les villes comme dans les campagnes.

Tous les articles de ces périodiques sont librement accessibles en ligne, sur le site de PLoS et dans PubMed Central, le service d'archives en ligne public et gratuit de la National Library of Medicine (États-Unis), avec moteur de recherche multicritères. Les versions imprimées sont abandonnées en 2006 pour laisser place à un service d'impression à la demande géré par la société Odyssey Press. Ces articles peuvent être librement diffusés et réutilisés ailleurs, y compris pour des traductions, selon les termes de la licence Creative Commons, la seule contrainte étant la mention des auteurs et de la source. PLoS lance aussi PLoS ONE, un forum en ligne permettant la publication d'articles sur tout sujet scientifique et médical.

Le succès est total. Trois ans après les débuts de la Public Library of Science en tant qu'éditeur, PLoS Biology et PLos Medicine ont la même réputation d'excellence que les grandes revues Nature, Science ou The New England Journal of Medicine. PLoS reçoit le soutien financier de plusieurs fondations tout en mettant sur pied un modèle économique viable, avec des revenus émanant des frais de publication payés par les auteurs, et émanant aussi de la publicité, des sponsors et des activités destinées aux membres de PLoS. PLoS souhaite en outre que ce modèle économique d'un genre nouveau inspire d'autres éditeurs pour créer des revues du même type ou pour mettre des revues existantes en accès libre.

# Citizendium

Une nouvelle étape s'ouvre avec les débuts de Citizendium - acronyme de
«The Citizens' Compendium» -, une grande encyclopédie collaborative en
ligne conçue en novembre 2006 par Larry Sanger, un des co-fondateurs de
Wikipédia, et lancée en mars 2007 (en version bêta).

Citizendium est une encyclopédie coopérative et gratuite, tout comme Wikipédia, mais sans ses travers, à savoir le vandalisme, le manque de rigueur et l'utilisation d'un pseudonyme pour y participer. Les auteurs signent leurs articles de leur vrai nom, et ces articles sont relus et corrigés par des experts («editors») âgés d'au moins 25 ans et titulaires d'une licence universitaire. De plus, des «constables» sont chargés de la bonne marche du projet et du respect du règlement. Citizendium comptabilise 1.100 articles, 820 auteurs et 180 experts en mars 2007, 9.800 articles en janvier 2009 et 15.000 articles en septembre 2010.

Dans Why Make Room for Experts in Web 2.0? (Pourquoi faire une place aux experts dans le web 2.0?), une communication datée d'octobre 2006 et régulièrement actualisée depuis sur le site de l'encyclopédie, Larry Sanger voit dans Citizendium l'émergence d'un nouveau modèle de collaboration massive de dizaines de milliers d'intellectuels et scientifiques, non seulement pour les encyclopédies, mais aussi pour les manuels d'enseignement, les ouvrages de référence, le multimédia et les applications en 3D. Cette collaboration est basée sur le partage des connaissances, dans la lignée du web 2.0, un concept lancé en 2004 pour caractériser les notions de communauté et de partage et qui se manifeste d'abord par une floraison de blogs, wikis et sites sociaux. D'après Larry, il importe aussi de créer des structures permettant des collaborations scientifiques, et Citizendium pourrait servir de prototype dans ce domaine.

# L'Encyclopedia of Life

Cet appel semble se concrétiser dès mai 2007 avec les premiers pas de l'Encyclopedia of Life. Cette vaste encyclopédie collaborative en ligne a pour but de rassembler les connaissances existantes sur toutes les espèces animales et végétales connues (1,8 million), y compris les espèces en voie d'extinction, avec l'ajout de nouvelles espèces au fur et à mesure de leur identification, ce qui représenterait entre 8 et 10 millions d'espèces en tout.

Cette encyclopédie multimédia permettra de rassembler textes, photos, cartes, bandes sonores et vidéos, avec une page web par espèce, en offrant un portail unique à des millions de documents épars, en ligne et hors ligne. Outil d'apprentissage et d'enseignement pour une meilleure connaissance de notre planète, l'encyclopédie sera à destination de tous: scientifiques, enseignants, étudiants, scolaires, médias, décideurs et grand public.

Ce projet collaboratif est mené par plusieurs grandes institutions:
Field Museum of Natural History, Harvard University, Marine Biological
Laboratory, Missouri Botanical Garden, Smithsonian Institution et
Biodiversity Heritage Library.

Le directeur honoraire du projet est Edward Wilson, professeur émérite à l'Université de Harvard, qui, dans un essai daté de 2002, fut le premier à émettre le voeu d'une telle encyclopédie. Cinq ans plus tard, en 2007, c'est désormais chose possible grâce aux avancées technologiques récentes: outils logiciels permettant l'agrégation de contenu, mash-up (à savoir le fait de rassembler un contenu donné à partir de nombreuses sources différentes), wikis de grande taille et gestion de contenu à vaste échelle.

La Biodiversity Heritage Library est un consortium des dix plus grandes bibliothèques des sciences de la vie (qui seront rejointes plus tard par d'autres bibliothèques). Le consortium entreprend la numérisation de 2 millions de documents, avec des dates de publication s'étalant sur deux cents ans, pour intégration progressive dans l'Encyclopedia of Life. En mai 2007, on compte 1,25 million de pages traitées dans les centres de numérisation de Londres, Boston et Washington, D.C., tous documents progressivement intégrés dans l'Internet Archive.

Le financement initial de l'Encyclopedia of Life est assuré par la MacArthur Foundation avec 10 millions de dollars US et la Sloan Foundation avec 2,5 millions de dollars. Un financement total de 100 millions de dollars serait nécessaire sur dix ans, avant que l'encyclopédie ne puisse s'autofinancer. La réalisation des pages web débute courant 2007. L'encyclopédie fait ses réels débuts sur le web à la mi-2008. Elle devrait être pleinement opérationnelle en 2012 et complète - c'est-à-dire à jour - en 2017. La version initiale sera d'abord en anglais avant d'être traduite en plusieurs langues par de futurs organismes partenaires.

L'encyclopédie sera aussi un «macroscope» permettant de déceler les grandes tendances à partir d'un stock d'informations considérable, à la différence du microscope permettant l'étude de détail. Elle permettra également à chacun de contribuer au contenu sous une forme s'apparentant au wiki, ce contenu étant ensuite validé ou non par des scientifiques.

Pour clore ce chapitre, voici une belle définition du web donnée par Robert Beard, professeur de langues et créateur de sites de dictionnaires, qui écrit en septembre 1998: «Le web sera une encyclopédie du monde faite par le monde pour le monde. Il n'y aura plus d'informations ni de connaissances utiles qui ne soient pas disponibles, si bien que l'obstacle principal à la compréhension internationale et interpersonnelle et au développement personnel et institutionnel sera levé. Il faudrait une imagination plus débordante que la mienne pour prédire l'effet de ce développement sur l'humanité.»

DES BEST-SELLERS NUMÉRIQUES

[Résumé] En 2003, des centaines de best-sellers sont vendus en version numérique sur Amazon.com, Barnes & Noble.com, Yahoo! eBook Store ou sur des sites d'éditeurs (Random House, PerfectBound, etc.). Le catalogue de Palm Digital Media approche les 10.000 titres, lisibles sur PDA (assistant personnel), avec 15 à 20 nouveaux titres par jour et 1.000 nouveaux clients par semaine. Numilog distribue 3.500 titres numériques (livres et périodiques) en français et en anglais. Mobipocket distribue 6.000 titres numériques dans plusieurs langues, soit sur son site soit dans des librairies partenaires. Les formats les plus utilisés sont le format PDF (pour l'Acrobat Reader puis l'Adobe Reader), le format LIT (pour le Microsoft Reader), le format PRC (pour le Mobipocket Reader) et le format OeB (pour de nombreux logiciels de lecture).

= Des logiciels de lecture

# L'Adobe Reader

Le format PDF (Portable Document Format) est lancé en juin 1993 par la société Adobe, en même temps que l'Acrobat Reader (gratuit), premier logiciel de lecture du marché, téléchargeable gratuitement pour lecture des fichiers au format PDF. Le but de ce format est de figer les documents numériques dans une présentation donnée, pour conserver la présentation originale du document source, quelle que soit la plateforme utilisée pour le créer et pour le lire. Le format PDF devient au fil des ans un standard international de diffusion des documents. Tout document peut être converti au format PDF à l'aide du logiciel Adobe Acrobat (payant).

Dix ans plus tard, 10% des documents disponibles sur l'internet sont au format PDF. Des millions de fichiers PDF sont présents sur le web pour lecture ou téléchargement, ou bien transitent par courriel. L'Acrobat Reader est progressivement disponible dans plusieurs langues et pour diverses plateformes (Windows, Mac, Linux).

Adobe annonce en août 2000 l'acquisition de la société Glassbook, spécialisée dans les logiciels de distribution de livres numériques à l'intention des éditeurs, libraires, diffuseurs et bibliothèques. Adobe passe aussi un partenariat avec Amazon.com et Barnes & Noble.com afin de proposer des titres lisibles sur l'Acrobat Reader et le Glassbook Reader.

En janvier 2001, Adobe lance deux nouveaux logiciels.

Le premier logiciel, gratuit, est l'Acrobat eBook Reader. Il permet de lire les fichiers PDF de livres numériques sous droits, avec gestion des droits par l'Adobe Content Server. Il permet aussi d'ajouter des notes et des signets, de choisir l'orientation de lecture des livres (paysage ou portrait), ou encore de visualiser leur couverture dans une bibliothèque personnelle. Il utilise la technique d'affichage CoolType et comporte un dictionnaire intégré.

Le deuxième logiciel, payant, est l'Adobe Content Server, destiné aux éditeurs et distributeurs. Il s'agit d'un logiciel serveur de contenu assurant le conditionnement, la protection, la distribution et la vente sécurisée de livres numériques au format PDF. Ce système de gestion des droits numériques (DRM: Digital Rights Management) permet de contrôler l'accès aux livres numériques sous droits, et donc de gérer les droits d'un livre selon les consignes données par le gestionnaire des droits, par exemple en autorisant ou non l'impression ou le prêt. L'Adobe Content Server sera remplacé par l'Adobe LiveCycle Policy Server en novembre 2004.

En avril 2001, Adobe conclut un partenariat avec Amazon, qui met en vente 2.000 livres numériques lisibles sur l'Acrobat eBook Reader: titres de grands éditeurs, guides de voyages, livres pour enfants, etc.

L'Acrobat Reader s'enrichit d'une version PDA, pour le Palm Pilot en mai 2001 puis pour le Pocket PC en décembre 2001.

En dix ans, entre 1993 et 2003, l'Acrobat Reader aurait été téléchargé 500 millions de fois. En 2003, ce logiciel est désormais disponible dans de nombreuses langues et pour toute plateforme (Windows, Mac, Linux, Palm OS, Pocket PC, Symbian OS, etc.). 10% des documents présents sur l'internet seraient au format PDF, et le format PDF est aussi le format de livre numérique le plus répandu.

En mai 2003, l'Acrobat Reader (version 5) fusionne avec l'Acrobat eBook Reader (version 2) pour devenir l'Adobe Reader (débutant à la version 6), qui permet de lire aussi bien les fichiers PDF standard que les fichiers PDF sécurisés comme ceux des livres numériques sous droits.

Fin 2003, Adobe ouvre sa librairie en ligne, Digital Media Store, avec les titres au format PDF de grands éditeurs - HarperCollins Publishers, Random House, Simon & Schuster, etc. - ainsi que les versions électroniques de journaux et magazines comme le New York Times, Popular Science, etc. Adobe lance aussi Adobe eBooks Central, un service permettant de lire, publier, vendre et prêter des livres numériques, et l'Adobe eBook Library, qui se veut un prototype de bibliothèque de livres numériques.

Les versions récentes d'Adobe Acrobat permettent de créer des PDF compatibles avec le format OeB (Open eBook) puis le format ePub (qui succède au format OeB), devenus eux aussi des standards du livre numérique.

# L'Open eBook

Les années 1998 et 1999 sont marquées par la prolifération des formats, chacun lançant son propre format de livre numérique dans le cadre d'un marché naissant promis à une expansion rapide.

Aux formats classiques - formats TXT (texte), DOC (Microsoft Word), HTML (HyperText Markup Language), XML (eXtensible Markup Language) et PDF (Portable Document Format) - s'ajoutent des formats propriétaires créés par plusieurs sociétés pour lecture sur leurs propres logiciels, qui sont entre autres le Glassbook Reader, le Peanut Reader, le Rocket eBook Reader (pour lecture sur le Rocket eBook), le Franklin Reader (pour lecture sur l'eBookMan), le logiciel de lecture Cytale (pour lecture sur le Cybook), le Gemstar eBook Reader (pour lecture sur le Gemstar eBook) et le Palm Reader (pour lecture sur le Palm Pilot). Ces logiciels correspondent souvent à un appareil donné et ne peuvent donc pas être utilisés sur d'autres appareils, tous comme les formats qui vont avec.

Inquiets pour l'avenir du livre numérique qui, à peine né, propose presque autant de formats que de titres, certains insistent sur l'intérêt - sinon la nécessité - d'un format unique. A l'instigation du NIST (National Institute of Standards & Technology) aux États-Unis, l'Open eBook Initiative voit le jour en juin 1998 et constitue un groupe de travail de 25 personnes sous le nom d'Open eBook Authoring Group. Ce groupe élabore l'OeB (Open eBook), un format de livre numérique basé sur le langage XML et destiné à normaliser le contenu, la structure et la présentation des livres numériques.

Le format OeB est défini par l'OeBPS (Open eBook Publication Structure), dont la version 1.0 est disponible en septembre 1999. Téléchargeable gratuitement, l'OeBPS dispose d'une version ouverte et gratuite appartenant au domaine public. La version originale est destinée aux professionnels de la publication puisqu'elle doit être associée à une technologie normalisée de gestion des droits numériques, et donc à un système de DRM (Digital Rights Management) permettant de contrôler l'accès des livres numériques sous droits.

Fondé en janvier 2000 pour prendre la suite de l'Open eBook Initiative, l'OeBF (Open eBook Forum) est un consortium industriel international regroupant constructeurs, concepteurs de logiciels, éditeurs, libraires et spécialistes du numérique (avec 85 participants en 2002) dans l'optique de développer le format OeB et l'OeBPS. Le format OeB devient un standard qui sert lui-même de base à de nombreux formats, par exemple le format LIT (pour le Microsoft Reader) ou le format PRC (pour le Mobipocket Reader).

En avril 2005, l'Open eBook Forum devient l'International Digital Publishing Forum (IDPF), et le format OeB laisse la place au format ePub.

# Le Microsoft Reader

Lancé en avril 2000, le Microsoft Reader est un logiciel permettant la lecture de livres numériques au format LIT (abrégé du terme anglais «literature»), lui-même basé sur le format OeB. Le Microsoft Reader équipe d'abord le Pocket PC, l'assistant personnel lancé à la même date par Microsoft. Quatre mois plus tard, en août 2000, le Microsoft Reader est utilisable sur toute plateforme Windows, et donc aussi bien sur ordinateur que sur assistant personnel. Ses caractéristiques sont un affichage utilisant la technologie ClearType, le choix de la taille des caractères, la mémorisation des mots-clés pour des recherches ultérieures, et l'accès d'un clic au Merriam-Webster Dictionary.

Ce logiciel étant téléchargeable gratuitement, Microsoft facture les éditeurs et distributeurs pour l'utilisation de sa technologie de gestion des droits numériques (DRM), et touche une commission sur la vente de chaque titre. La gestion des droits numériques s'effectue au moyen du Microsoft DAS Server (DAS: Digital Asset Server). Microsoft passe aussi des partenariats avec les grandes librairies en ligne - Barnes & Noble.com en janvier 2000 puis Amazon.com en août 2000 - pour la vente de livres numériques lisibles sur le Microsoft Reader. Barnes & Noble.com ouvre son secteur eBooks en août 2000, suivi par Amazon.com en novembre 2000.

En novembre 2002, le Microsoft Reader est disponible pour tablette PC, dès la commercialisation de cette nouvelle machine par 14 fabricants.

# Le Mobipocket Reader

Face à Adobe avec son format PDF (pour l'Acrobat Reader) et Microsoft avec son format LIT (pour le Microsoft Reader), un nouvel acteur s'impose rapidement sur le marché, sur un créneau bien spécifique, celui des appareils mobiles. Fondé à Paris en mars 2000 par Thierry Brethes et Nathalie Ting, Mobipocket se spécialise d'emblée dans la distribution sécurisée de livres pour assistant personnel. La société est financée en partie par Viventures, branche de la multinationale française Vivendi.

Mobipocket conçoit d'abord le Mobipocket Reader, logiciel de lecture permettant la lecture de fichiers au format PRC. Gratuit et disponible en plusieurs langues (français, anglais, allemand, espagnol et italien), ce logiciel est «universel», c'est-à-dire utilisable sur tout assistant personnel. En octobre 2001, le Mobipocket Reader reçoit l'eBook Technology Award de la Foire internationale du livre à Francfort. À la même date, Franklin passe un partenariat avec Mobipocket pour l'installation du Mobipocket Reader sur l'eBookMan, l'assistant personnel multimédia de Franklin, au lieu du partenariat prévu à l'origine entre Franklin et Microsoft pour l'installation du Microsoft Reader.