Diversité linguistique et cyberespace : état de l’art, enjeux et opportunité

Résumé

Dans un contexte où près de la moitié des langues de la planète risquent de disparaître au cours de ce siècle et où l’Internet est devenu, non seulement, le principal vecteur de communication, mais également, une vitrine et un support de choix pour certaines formes de patrimoine immatériel, il convient d’analyser comment le cyberespace et les TIC peuvent contribuer au développement du multilinguisme.
Après un diagnostic de la situation des langues du monde, notamment dans le cyberespace, et tout en montrant les similitudes avec le monde réel, cet article prétend donner des pistes sur le chemin à suivre par les différentes typologies de langues pour qu’elles puissent tirer parti du cyberespace.

Contexte

 

Avons-nous 4, 6, 7, 10 000 langues dans ce monde ? En disparaîtra-t-il la moitié à la fin du XXIe siècle ? Les estimations du nombre réel de langues et la vitesse de la disparition de celles-ci varient d’une source à l’autre, mais nous savons qu’elles disparaissent effectivement et à un rythme plus soutenu qu’auparavant.

 

L’une des raisons invoquées à la disparition d’une langue est son faible nombre de locuteurs. Or, 50 % des langues de la planète sont parlées par moins de 10 000 habitants et 25 % des langues par moins de 1 000 habitants[i].

 

À l’extrême de cette hétérogénéité dans la diversité linguistique, il y aurait quelque 80 langues qui comptent plus de 10 millions de locuteurs, soit à peine 1,2 % des langues du monde, dont six sont langues officielles de 60 % des pays de la planète (anglais, arabe, français, espagnol, portugais, russe).

 

Nous ne pouvons pas affirmer que la diminution du nombre de locuteurs ou son manque de statut de langue internationale sont en soi des signes de fatalité. En effet, il arrive que des langues peu parlées connaissent un regain de vitalité : par exemple, l’hébreu considéré comme mort pendant des siècles, se porte aujourd’hui plutôt bien ou le gallo, plusieurs fois annoncé comme disparu, mais enseigné à l’heure actuelle.

 

Mais, force est de constater que la diversité linguistique de la planète est loin d’être homogène. En effet, 99 % des langues ne seraient parlées que par 6 % de l’humanité[ii] et qui plus est, 70 % des langues de la planète sont concentrées dans vingt pays, pour la plupart les moins riches, donc les moins susceptibles de pouvoir les soutenir.

 

Des cas emblématiques, comme le catalan en Espagne ou le français au Québec, qui ont su retrouver une place dans la société et évoluer en matière d’utilisation tant quantitative que qualitative, et de beaucoup d’autres langues de la planète connaissant un nouvel essor grâce à des politiques publiques les dotant d’organismes de tutelle ne peuvent pas nous faire oublier qu’elles ne seraient, selon le Ciral[iii], qu’environ 150 à jouir d’une protection publique.

 

Et puis, le phénomène de disparition des langues, provoqué par plusieurs facteurs du passé proche (colonisations, génocides, épidémies, guerres, déplacements de populations, interdictions d’utiliser la langue, etc.), semble s’amplifier aujourd’hui au fur et à mesure que la mondialisation prend de l’ampleur, avec ses effets technologiques, politiques, socio-économiques – notamment les processus migratoires, etc.

 

L’usage professionnel, administratif, éducatif, juridique, etc. d’une langue lui permettrait de rester vivante, car des locuteurs qui sont obligés de changer de langue selon le contexte tendent progressivement à utiliser la langue qui leur permet le plus large éventail d’expressions. Or, même si les statistiques varient beaucoup sur ce sujet, nous pouvons dire que seules quelques centaines de langues disposent d’un système d’écriture[iv]. Or, sans écriture, une langue a besoin de beaucoup d’innovation et imagination pour subsister en tant que support éducatif, sanitaire, juridique, administratif, etc.

 

Plus faible encore est le nombre de langues suffisamment codées et normalisées et donc susceptibles d’être représentées d’une manière homogène et sur plusieurs supports pour l’ensemble de ses locuteurs.

 

Les langues sur l’Internet

 

La communication joue un rôle extrêmement important dans la relation de force entre deux langues concurrentes et à l’ère de l’information ce phénomène s’intensifie, favorisant les langues les mieux dotées ou les plus « prestigieuses » au détriment des autres.

 

Selon Leáñez, « moins une langue a de la valeur [aux yeux de ses locuteurs], moins elle est utilisée et moins elle est utilisée, plus elle perd de la valeur »[v]. Et dans notre Société du savoir, une langue perd de la valeur aux yeux de ses locuteurs s’ils n’arrivent pas à trouver la connaissance ou l’accès au reste du monde à travers elle. Autrement dit, si elle est absente du cyberespace, ses locuteurs risquent de se tourner vers l’utilisation d’autres langues. Malgré une avancée certaine du multilinguisme sur les réseaux depuis les années 90, seule une petite poignée des langues du monde jouit d’une présence notable sur la Toile. L’anglais demeure la langue la plus utilisée sur l’Internet, même si sa présence relative (par rapport aux autres langues) diminue, passant de 75 % en 1998 à 45 % sur le Web en 2007 selon les études réalisées par l’Union latine et FUNREDES[vi]. Corbeil nous l’annonçait en 2000 en affirmant qu’« à très brève échéance la présence de l’anglais devrait diminuer à plus ou moins 40 % lorsque des sites seront créés dans divers pays, au fur et à mesure qu’ils se brancheront sur le réseau »[vii].

 

Voici un tableau résumant l’évolution des principales langues romanes et de l’allemand.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Fig.1 – évolution de la présence des langues romanes et de l’allemand (1998-2007)

 

 

 

D’autres langues ont vu leur présence augmenter de façon considérable, notamment l’allemand, le japonais, le chinois, le russe, le français, l’espagnol, le portugais, l’italien, le suédois, le coréen, etc. Mais, si les grandes langues de communication connaissent une présence satisfaisante sur la Toile, la plupart des langues de la planète ont une représentation très symbolique, avec quelques pages qui leur sont dédiées.

 

Sachant que le moteur de recherche Google et l’encyclopédie Wikipédia marquent des tendances fortes au sein de l’Internet, ce n’est nullement anecdotique de souligner que seuls 5 % des langues ont une représentation dans cette dernière (qui semble être pourtant le lieu virtuel le plus ouvert aux langues) et que le fameux moteur n’offre, à l’heure actuelle, la reconnaissance linguistique que pour une petite cinquantaine de langues (soit moins de 1 % des langues de la planète). En réalité, aucune langue d’origine américaine ou océanienne ne jouit à l’heure actuelle de système de reconnaissance linguistique au sein de Google[viii], et alors que l’islandais avec ses 240 000 locuteurs était reconnu depuis fort longtemps, le kiswahili (30 millions de locuteurs de langue première ou seconde en Afrique) et le hindi (entre 300 et 400 millions de locuteurs de langue première ou seconde en Asie) n’y ont été incorporés que depuis très peu de temps.

 

 

Les langues des internautes

 

Selon les statistiques d’Internet World Stats[ix] — certes assez approximatives —, les locuteurs des dix langues suivantes représentent environ 84 % du total des utilisateurs de l’Internet : anglais, chinois, espagnol, japonais, français, portugais, allemand, arabe, russe et coréen (figure 2).

 

Fig.2 – les langues des internautes en 2009

 

Remarquons qu’une grande partie de ces utilisateurs n’utilisent pas nécessairement leur langue maternelle. En effet, nombreux sont ceux qui ont recours à leur langue seconde, et ce, pour plusieurs raisons : leur langue ne peut pas être représentée sur l’Internet, elle n’est pas suffisamment instrumentée pour porter un message, elle a peu de « valeur » aux yeux de ses locuteurs, etc.

 

Nous savons bien que la représentation écrite d’une langue sur l’Internet n’est pas un simple fait culturel ou quantitatif. Il est surtout technique. L’Internet est historiquement un instrument conçu pour et par la langue anglaise. Par extension, les langues à caractères latins et les cultures occidentales ont su plus rapidement que d’autres trouver un lieu d’expression confortable, même si, ne l’oublions pas, les diacritiques propres aux langues européennes autres que l’anglais n’ont toujours pas leur place partout (adresses électroniques, corps des messages qui souffrent des aléas des messageries et des serveurs, etc.) et que l’anglais reste la langue de programmation, de balisage, de codage, de communication entre serveurs et surtout, la langue de l’informatique.

 

Mais combien de langues trouvent des contraintes bien plus importantes liées tant à des problèmes techniques de représentation que culturels d’utilisation des médias propres au cyberespace ?

Paolillo nous rappelle que les Maori n’avaient pas accepté les bibliothèques numériques pour des questions exclusivement culturelles, « la grande disponibilité de l’information [étant] protégée dans la culture maori (…) »[x].

 

Similitudes entre la Toile et l’édition classique

 

Une première analyse comparative entre le monde réel et le virtuel nous permet d’apprécier une similitude entre le monde de l’édition et le monde du Web. Leclerc nous montre que seulement 30 langues publient plus de 1 000 volumes par an, parmi lesquelles 6 produiraient les 2/3 de la littérature mondiale (anglais, russe, allemand, français, espagnol et japonais)[xi] ; l’anglais occupant de loin la place prédominante avec 28 % de la production littéraire mondiale.

 

Or, les 30 premières langues à disposer d’un système de reconnaissance linguistique dans Google et les langues les plus utilisées par les internautes sont, à quelques exceptions près, les grandes productrices de littérature traditionnelle.

 

Faut-il pour autant conclure que la Toile ne peut s’alimenter que s’il y a une édition qui la précède ?

 

Les récentes initiatives publiques ou privées de numériser les fonds de bibliothèques pourraient ne servir qu’à réaffirmer le statu quo de la diversité linguistique sur la Toile. Pourtant, nous le savons bien, la Toile permet précisément d’ouvrir la porte à des expressions que les circuits d’édition traditionnelle n’intéressent pas. Après tout, la publication scientifique en d’autres langues que l’anglais a su se trouver une place, certes modeste, grâce à la facilité et au faible coût de publication sur la Toile, les éditeurs traditionnels ne souhaitant pas courir le risque d’éditer des articles qui ne concerneraient qu’un nombre minime de lecteurs.

Mais, il est de constater que la Toile, même si elle a permis à des minorités absentes de l’édition traditionnelle de s’exprimer, ne reflète pour autant pas le prisme de la diversité culturelle en juste proportion, ne serait-ce qu’au niveau du nombre de locuteurs.

 

L’Internet « informel »

 

Qu’en est-il de l’information écrite dite « informelle » : le courriel, le clavardage (ou « chat »), les forums, les listes de diffusion, les blogues, les wikis, les réseaux sociaux (Twitter, Facebook, etc.) ? À notre connaissance, aucune étude globale ne nous donne un aperçu de la place des langues au niveau mondial sur ces supports. Nous constatons cependant par un accroissement du nombre d’études parcellaires et une accumulation de statistiques diverses que la production écrite par ces canaux est bien supérieure à la production de pages Web, même si elle est souvent éphémère[xii]. À titre d’exemple, observons la présence des langues dans Wikipédia et Twitter (figures 3 et 4) :

Fig.3 – Part des langues dans Twitter (source : Semiocast[xiii], 2009)

 Fig.4 – Répartition des articles (en millions) par langue dans Wikipédia (source : Wikipédia[xiv], 2010)

 

On ne peut que remarquer que l’Internet informel reste un lieu de refuge pour les langues moins usitées. Néanmoins, dès lors que l’un des interlocuteurs ne comprend pas la langue parlée à l’intérieur d’une communauté, les langues jouissant d’un plus grand « prestige » s’imposent (notamment dans les forums scientifiques ou techniques où l’anglais prédomine).

 

Les comportements semblent toutefois différents selon les médias. Certaines populations (panjabi, arabe du golfe) utilisent plus volontiers leur langue maternelle pour « clavarder » que pour écrire des courriels, notamment les populations bilingues (parlant donc leur langue maternelle et la langue officielle de leur pays)[xv].

 

Le cyberespace non textuel

 

Une réflexion particulière concerne les langues non écrites. Sont-elles absentes du cyberespace ? Dans son ouvrage Comment assurer la présence d’une langue dans le cyberespace ? [xvi], M. Diki-Kidiri nous montre comment une langue qui n’a pas d’écriture peut, si une volonté existe, emprunter les voies du cyberespace, notamment par l’enregistrement de documents sonores et visuels, par l’utilisation de la téléphonie par Internet et des vidéoconférences, para la radio et la télévision par Internet, etc.

 

N’oublions pas que la téléphonie mobile connaît actuellement un véritable succès en Afrique et que la radio reste l’outil de communication par excellence dans un continent où la presse écrite (notamment en Afrique subsaharienne) est faiblement présente.

 

L’Internet non textuel peut constituer une alternative valable pour les populations ne disposant pas de langues écrites ou possédant des langues mal ou peu reconnues par les systèmes informatiques à cause des problèmes d’encodage, de polices, de claviers, de logiciels, etc.

 

Encore faut-il que les populations en aient l’accès et la volonté. Or la cartographie mondiale de l’accès au cyberespace montre combien la fracture numérique est liée à la fracture sociale.

Il est frappant de constater la relation inversement proportionnelle entre l’accès à Internet et la diversité linguistique mondiale. Les régions du monde où la diversité linguistique est plus importante (les pays les moins favorisés, comme on l’avait énoncé au début) sont les moins dépourvues d’accès à Internet (figure 5).

La division régionale de ce graphique, loin d’être arbitraire, permet de mieux percevoir cette asymétrie. Par Asie de l’Est on comprend les pays asiatiques les plus développés (Chine, Japon, Taiwan, Corée du Sud). Les autres pays asiatiques, moins le Moyen-Orient, se retrouvent dans la division reste de l’Asie.

 

 

 

Fig.5 – Comparaison entre la répartition des internautes et la diversité linguistique dans les régions du monde

 

L’Internet est certes devenu un outil de la vie quotidienne pour les populations urbaines des pays industrialisés, mais il demeure inconnu pour les 4/5 de l’humanité, à peine 8,7 % des Africains sont connectés (sachant que la grande majorité des utilisateurs africains se concentre en Afrique du Sud et dans le bassin méditerranéen, laissant un « désert numérique » au milieu), contre 76 % pour l’Amérique du Nord et 53 % pour l’Europe[xvii].

 

Et si l’accès au cyberespace reste faible, la production de contenus est encore plus alarmante, comme nous l’exprimons dans Douze années de mesure de la diversité linguistique sur l’Internet : bilan et perspectives : « (…) la production totale de pages de la Toile produites par les pays africains en anglais et en français atteint à peine les 0,33 % de la production mondiale pour ces langues. À titre de comparaison, les pays non anglophones de l’Organisation de coopération et de développement économiques (OCDE) produisent à eux seuls plus de 0,1 % de ce total, ce qui représente un tiers de la production africaine »[xviii].

 

Mais si l’anglais et le français africains sont faiblement représentés dans la Toile mondiale, la situation des langues africaines est bien plus préoccupante et cette situation concerne également les langues asiatiques moins répandues. En effet, selon le Language Observatory Project (LOP), les langues d’origine africaine et asiatique (à l’exception de l’arabe, du japonais, du chinois et du coréen), après avoir connu un épisode de présence sur le Web (comme la plupart des langues présentes sur l’Internet), reculent au profit des langues dominantes. Les langues d’origine africaine n’occupaient en 2008 que 1,2 % des sites Web du continent contre 2,5 % en 2006 (à rapprocher des 3,2 % que Marcel Diki-Kidiri[xix] mentionnait en 2003) et les langues asiatiques les moins répandues avaient en 2008 une présence équivalente à 41 % des sites asiatiques contre 52,6 % en 2006[xx].

 

 

Peut-on renverser la situation ?

 

Les solutions à envisager pour réduire cette inégalité sont donc davantage d’ordre financier et de volonté politique que technique. La barrière qui empêche 95 % des langues de la planète d’être présentes dans le cyberespace, à savoir l’absence d’écriture ou la non-adaptation d’une langue aux TIC (notamment l’absence de système d’encodage), pourrait disparaître. Pour cela il faut tout d’abord disposer d’ordinateurs adaptés et de préférence de connexions haut débit, puis que les populations cibles s’approprient la technique pour en faire des outils utiles à leur développement.

 

Nul ne doute que si l’agenda du Sommet mondial sur la société de l’information (SMSI) était suivi, le danger de disparition des langues reculerait, car en devenant des instruments de communication, elles reprendraient de la valeur. La ligne dite C8 du plan d’action du SMSI « Diversité et identité culturelles, diversité linguistique et contenu local », fait l’état, à travers une quinzaine de recommandations, des principales actions devant être menées pour une représentativité équitable de la diversité linguistique et culturelle dans le cyberespace[xxi]. Le réseau mondial pour la diversité linguistique Maaya, qui a la responsabilité d’encourager l’application de ces recommandations, mène certaines activités dans ce sens, dont, récemment, la rédaction à plusieurs mains d’un manuel multilingue de vulgarisation sur les enjeux du multilinguisme dans le cyberespace[xxii]. Cependant, gardons-nous de croire qu’accéder aux TIC suffise, car il faut surtout s’approprier la technique et donc se confronter à un chemin parsemé d’obstacles techniques, culturels ou encore financiers, autrement dit, promouvoir une « alphabétisation numérique ».

 

« La fracture des contenus, qui est une fracture linguistique et culturelle, est un indicateur inquiétant du risque d’acculturation des populations qui parviennent à accéder à l’Internet et ne disposent pas de contenus dans leur langue maternelle (…). La lutte contre la fracture numérique n’est pas qu’une simple question d’accès et d’infrastructure. »

 

L’ouvrage Diversité culturelle et linguistique dans la société de l’information[xxiii] publié par l’UNESCO en 2003 dans le cadre du SMSI, explique de façon tout à fait pertinente que « […] même si les nouvelles technologies peuvent améliorer très sensiblement la libre circulation des connaissances, elles risquent aussi de creuser l’écart entre ce qu’il est convenu d’appeler les info-riches et les info-pauvres ». En effet, à l’heure actuelle, rien ne nous indique que la facilité d’utilisation du cyberespace ressentie par les pays les plus riches et par les locuteurs des principales langues occidentales sera également appréciée par les locuteurs de toutes les langues de la planète et dans tous les pays du monde.

 

Comment les langues peuvent-elles tirer parti du cyberespace ?

 

L’Union latine avait réalisé en 2005, à la demande de l’UNESCO, une étude sur la situation du multilinguisme et de la diversité linguistique de la planète, du point de vue de nombreux acteurs et intervenants.

 

Cette étude qui passe en revue l’action de 300 entités mondiales de promotion du multilinguisme, recense également un nombre important d’études sur le phénomène et notamment les divers instruments juridiques et politiques, pour la plupart issus des Agences des Nations Unies. Elle propose en outre une série d’actions en fonction d’une typologie définie. Ce qui suit est une synthèse des propositions issues de ce document inédit.

 

Pour chaque langue, il existe une situation différente et donc une issue possible afin d’éviter sa disparition ou son déclin. Mais souvent, des langues ayant des caractéristiques communes peuvent trouver des solutions similaires. C’est ce qui nous pousse à trouver une typologie nous permettant d’énoncer différents cadres et différentes modalités d’action pour une présence équitable de ces langues.

 

Nous nous inspirons ici partiellement du modèle « gravitationnel » des langues défini par Calvet[xxiv], car ce modèle a l’avantage d’être simple tout en caractérisant bien des situations aux traits communs, aux frontières plus ou moins facilement identifiables entre types différents et surtout un type de relations interdépendantes. Nous sommes bien obligés de mettre en garde sur l’une des caractéristiques de ce modèle, à savoir que des langues appartenant à un type défini dans une région peuvent changer de type dans une autre. Calvet résume son modèle comme suit :

 

 « Le plurilinguisme est enfin facteur de “domination”, certaines langues étant utilisées dans des fonctions “hautes” et d’autres dans des fonctions “basses”, comme le propose le modèle diglossique de Ferguson […].

Dans cette diversité linguistique qui apparaît à première vue comme un grand désordre, les systèmes de plurilinguisme introduisent une certaine organisation. (…) Les bilinguismes sont orientés, et leur orientation nous permet de représenter les relations entre les langues du monde comme une sorte de galaxie constituée par différentes strates de gravitation. Autour d’une langue “hypercentrale”, l’anglais, pivot du système, gravitent une dizaine de langues “supercentrales” (espagnol, français, arabe, russe, portugais, hindi, malais…) dont les locuteurs, lorsqu’ils sont bilingues, ont tendance à parler soit la langue hypercentrale, l’anglais, soit une langue de même niveau, une langue supercentrale (…). Ces langues sont à leur tour pivot de gravitation pour une centaine de langues centrales qui, à leur tour, sont le centre de gravitation de 6 à 7 000 langues périphériques. Nous avons ainsi un modèle représentant la pluralité linguistique du monde dont les systèmes de bilinguisme sont le ciment. »

 

Pour prendre un exemple concret (extrait également de la référence précédente), un Malien de langue songhaï parle une langue « périphérique », se développant à l’intérieur d’une aire occupée par une langue « centrale », le bambara (langue véhiculaire au Mali), elle-même tournant autour d’une langue « supercentrale », le français (langue officielle du Mali et d’une grande partie de l’Afrique occidentale) et cette dernière gravite, comme toutes les autres grandes langues, autour de l’anglais.

 

Dans notre recommandation, il n’est nullement nécessaire de nous intéresser au moyen d’augmenter la présence de la langue hypercentrale dans le cyberespace, évidemment, du fait de sa position dominante, ce seront les trois autres catégories qui nous intéressent.

 

 

Les langues supercentrales

 

Les langues « supercentrales », langues traditionnellement présentes dans les sphères internationales ou, du moins, dans de larges aires géographiques, perdent du terrain dans la communication spécialisée, que ce soit dans les organisations internationales, les conférences internationales, la négociation internationale, le commerce, l’industrie, le langage scientifique et technique, les médias ou encore -excepté certaines langues comme l’espagnol ou le chinois – l’enseignement en tant que seconde langue, comme nous pouvons le constater dans les exemples ci-dessous.

 

Fig.6 – Évolution de la langue d’édition des ouvrages scientifiques dans le Science Citation Index[xxv]

 

 

 

Fig.7 – Langues de rédaction d’origine des documents à la Commission européenne

(source : Commission européenne, Direction générale de la traduction, 2009)

 

Fig.8 – Langues de publication des brevets à l’OMPI entre 2004 et 2008[xxvi]

 

En ce qui concerne le cyberespace, ces langues semblaient « rattraper » le temps perdu sur la Toile, mais nos analyses de ces deux dernières années nous permettent de croire à un essoufflement ou du moins, à un tassement. Du reste, rien n’indique qu’elles arriveront à terme à avoir une place proportionnellement comparable à celle de l’anglais (proportion entre nombre de pages et nombre d’internautes d’une langue). Même si des chiffres globaux manquent pour d’autres aires du cyberespace (blogues, clavardage, courriel, forums, listes de diffusion, bases de données, etc.), les études parcellaires nous démontrent que l’anglais est de loin la langue dominante et surreprésentée par rapport aux autres.

 

Pour ces langues, il s’agit donc plus de reprendre un terrain perdu dans la communication spécialisée, que de s’équiper. Elles sont pour la plupart (sauf, peut-être le hindi et le malais) bien instrumentées. Elles se sont bien adaptées à l’Internet et aux TIC en général, disposent d’outils linguistiques avancés, sont présentes dans la plupart des systèmes informatiques et, en général, prises en charge par la plupart des fonctions linguistiques de ces derniers (traitements de texte, tri alphabétique, sens de l’écriture, analyse orthographique et grammaticale, etc.). Ce sont également elles qui disposent de la plus grande quantité de systèmes de traduction automatique (entre elles ou vers l’anglais), de systèmes de reconnaissance optique de caractères, de système d’indexation dans les moteurs de recherche, etc.

 

Ce sont, pour la plupart, des langues qui perdent progressivement leur rôle de langues de communication internationale hors frontières (français dans les pays occidentaux, allemand en Europe centrale et orientale, russe en Europe orientale et Asie centrale), notamment dans les domaines des sciences et techniques, au niveau de la divulgation scientifique et technique, dans les négociations politiques ou économiques internationales, dans la fonction internationale, etc., au profit, bien entendu, de l’anglais.

 

Elles perdent leur « valeur » de vecteur de communication internationale et de description de la science aux yeux de leurs locuteurs. Leur faible place par rapport à l’anglais dans le cyberespace est équivalente à celle existant dans la communication internationale.

 

Pour accroître leur présence dans le cyberespace, il semblerait suffisant de retrouver leur place dans les secteurs susmentionnés (négociation, fonction internationale, communication internationale, sciences et techniques, etc.). Elles ont – à des niveaux certes différents – les éléments techniques nécessaires, mais n’ont pas la valeur qu’a la langue « hypercentrale » dans la communication internationale et spécialisée.

 

 

Les langues centrales

 

D’une manière générale (donc à quelques exceptions près), la différence de besoins entre les langues centrales et les langues supercentrales pourrait se résumer ainsi : les premières n’étant pas aussi bien outillées que les secondes, elles ont davantage besoin de s’affirmer techniquement. De plus, n’étant traditionnellement pas des instruments de communication à grande échelle, elles doivent assurer en priorité leur présence et leur diffusion dans les régions où elles sont véhiculaires, plutôt qu’au niveau mondial ou continental.

 

Bien entendu, parmi les langues « centrales » comme parmi les langues périphériques, il existe une large gamme de situations et c’est ainsi que des abîmes séparent le néerlandais (une langue très bien équipée et ayant une certaine présence sur le cyberespace en raison du poids économique des pays dans lesquels elle est parlée), l’amharique (une langue peu présente dans les TIC mais bénéficiant d’une longue tradition écrite et d’un rang officiel d’État) et le quechua (une langue avec une écriture récente non normalisée, n’ayant un rôle officiel qu’au niveau des régions dans lesquelles elle est parlée et presque absente du cyberespace). Malgré tout, ces trois langues ont cependant une particularité commune, elles sont langues véhiculaires pour un nombre plus ou moins important d’individus ayant d’autres langues maternelles (généralement « périphériques ») dans une aire géographique déterminée.

 

S’il n’est donc pas évident de distinguer les traits généraux de toutes ces langues (une centaine, d’après Calvet), elles sont, pour la plupart, moyennement équipées, c’est-à-dire qu’elles possèdent déjà un système d’écriture reconnu par les TIC (alphabet, encodage, clavier, polices, etc.) et peuvent être écrites par une masse suffisamment importante d’internautes. Il est vrai que, aucune typologie ne pouvant être parfaite, certaines langues centrales moins outillées se retrouveront mieux représentées au chapitre suivant.

 

Ces langues ont pour la plupart besoin de développer de ressources linguistiques (bases terminologiques, dictionnaires électroniques, analyseurs morphosyntaxiques, corpus oraux, analyseurs et synthétiseurs vocaux, etc.) et notamment des outils d’automatisation de la langue afin de permettre une traduction à bas coût de leur environnement numérique (logiciels, interfaces internet, etc.).

 

Il est également nécessaire que les locuteurs de ces langues puissent participer aux instances de gouvernance en matière de langues et TIC, de manière à ce que les caractéristiques tant linguistiques que culturelles propres à la langue cible et à ses locuteurs soient prises en compte.

 

Des politiques de numérisation des bibliothèques et de toutes informations scientifique, technique, administrative, juridique, etc. d’intérêt général qui n’auraient pas encore été numérisées et des politiques de promotion de l’usage numérique de la langue, notamment en faveur d’une « alphabétisation numérique », provoquant la création ou la traduction d’outils et de contenus seraient nécessaires.

 

Mais bien entendu, la promotion de l’usage de la langue à tous les niveaux est fondamentale afin de donner de la valeur vis-à-vis de leurs usagers, que ce soit au niveau éducatif, administratif, scientifique et technique, d’usage dans les entités régionales ou nationales concernées.

 

 

Les langues périphériques

 

Nous savons que les langues les moins diffusées, voire celles en danger de disparition, pourraient tirer parti du cyberespace pour trouver une place majeure dans la société, récupérer de la valeur vis-à-vis de leurs locuteurs et mieux encore, éviter une mort qui jusqu’ici était certaine. Encore faut-il que les volontés et les moyens existent.

 

Précisons qu’il ne serait pas réaliste de chercher à obtenir une égale présence de toutes les langues de la planète, chacune connaissant une situation différente (sociale, démographique, éducative, économique, politique, en matière de ressources, etc.). L’objectif n’est pas de trouver autant de pages en anglais qu’en mapudungún[xxvii] sur la Toile, mais les locuteurs de cette dernière langue sont en droit d’exiger que leur langue leur permette, ne serait-ce que progressivement, d’accéder à la connaissance universelle et de partager leurs savoirs. Et le cyberespace constitue, à l’heure actuelle, le seul moyen pour y parvenir.

 

Plus encore que les langues centrales, les langues périphériques (presque 99 % des langues de la planète) présentent des différences notables entre elles, mais elles ont par-dessus tout besoin de réaffirmer leur présence, de servir de cadre confortable à leurs usagers, sans toutefois prétendre à un usage « hors frontières », rôle qu’elles pourraient difficilement tenir. Leurs besoins sont surtout techniques, éducatifs, administratifs, juridiques et d’expression locale.

 

Bien entendu, étant donné le nombre important de langues concernées, il est nécessaire de bien distinguer la situation des langues en voie de disparition de celles qui peuvent échapper à cette fatalité.

 

Les langues en voie de disparition — celles pour lesquelles tous les efforts de recouvrement semblent sans espoir —, du fait de l’irrémédiable perte scientifique et culturelle à laquelle elles sont confrontées, ont besoin d’être rapidement inventoriées — ce que l’UNESCO fait déjà avec l’Atlas des langues en danger dans le monde[xxviii], mais une action immédiate de collecte et de numérisation de toutes les ressources orales et écrites s’impose, si toutefois elles existent.

 

Remarquons que pour ces langues, il s’agit plus de sauvegarder un patrimoine que le monde risque de perdre que d’une véritable politique de mise en valeur ou de récupération, même si l’on peut espérer que ces actions permettent de « réveiller » des actions volontaristes de récupération d’un espace linguistique.

 

Pour les langues périphériques qui ne sont pas nécessairement en danger de disparition imminente, le cyberespace constitue une alternative facile de mise en valeur et promotion, mais des actions techniques et politiques fortes s’imposent.

 

Pour la plupart, ces langues souffrent d’une faible utilisation dans plusieurs secteurs de la vie quotidienne (administratif, juridique, sanitaire, informatif, éducatif, etc.), et d’une dévalorisation par leurs propres locuteurs. Du reste, avant tout, la majorité nécessite d’être correctement outillée, car comme nous l’avons vu, elles n’ont généralement pas de représentation écrite.

 

Après les étapes de codification et de normalisation décrites dans le livre de Diki-Kidiri[xxix] (que nous ne développerons pas ici, mais qui, selon l’auteur, sont faisables, tout en ne représentant pas une tâche facile), il est nécessaire de développer des ressources linguistiques (bases terminologiques, dictionnaires électroniques, analyseurs morphosyntaxiques, corpus oraux, analyseurs et synthétiseurs vocaux, etc.), des outils de transfert (traduction automatique), d’indexation, de traitement de la langue, de traduction de logiciels, etc.

Plus que jamais, il est important de mettre en relief la nécessité de recourir aux logiciels libres, sachant que les logiciels propriétaires s’intéresseront difficilement, pour des questions de rentabilité économique, à ces langues.

 

Des campagnes d’alphabétisation sont ensuite nécessaires pour que les populations deviennent productrices d’informations (création, numérisation, traduction, etc.). Il faut s’attaquer en premier lieu aux besoins immédiats de la population (administration, éducation, santé, savoir, commerce, justice, etc.), puis une fois la langue ancrée dans la communication spécialisée (vie administrative, enseignement, santé, etc.), promouvoir le développement de systèmes de traduction automatique à partir de la langue hypercentrale, des langues supercentrales et de la ou des langues centrales utilisées dans la région ou voisines afin d’accroître la visibilité de la langue, condition sine qua non pour une revalorisation de la langue par ses locuteurs.

 

Bien entendu, de nombreuses autres actions sont nécessaires (activités de promotion, éducation en langue maternelle à tous les niveaux, participation aux instances de gouvernance des TIC, législation, protection du consommateur, statut de la langue, relations avec la diaspora, etc.), mais les décrire mériterait un livre, et c’est justement ce que le « Manuel sur les enjeux du multilinguisme dans le cyberespace », en rédaction à l’heure actuelle, prétend faire.

 

 

Conclusion

 

La tenue d’un Sommet sur la Diversité linguistique et la rédaction d’une convention pour la Diversité linguistique s’imposent, car nous sommes sûrs que la volonté politique n’existe pas pour un renouveau de la plupart des langues de la planète.

 

Nous nous inclinons à penser que le Réseau mondial pour la diversité linguistique, Maaya, pourrait assumer ce rôle de fédérateur d’initiatives, en association avec l’UNESCO et l’UIT, et un nombre, heureusement croissant, d’instituts, fondations, États, ONG et autres entités de plus en plus préoccupées par la préservation de la diversité linguistique mondiale.



[i] Crystal David, Language Death. Cambridge, Cambridge University Press, 2002.

[ii] Leclerc Jacques, « L’inégalité des langues », L’aménagement linguistique dans le monde, Québec, TLFQ, Université Laval, 24 juin 2009 [en ligne].  < http://www.tlfq.ulaval.ca/axl/langues/1div_inegalite.htm> (page consultée le 12 avril 2010).

[iii] Centre interdisciplinaire de recherches sur les activités langagières (Ciral)  <http://www.ciral.ulaval.ca/default.htm>.

[iv] De 5 % selon Leclerc, jusqu’à 33 % selon d’autres sources, mais moins vraisemblables.

[v] Leáñez Carlos, « Español, francés, portugués: ¿equipamiento o merma?  »,  in Congreso internacional sobre lenguas neolatinas en la comunicación especializada. México, Colegio de México, 2005, [en ligne]. <http://dtil.unilat.org/cong_com_esp/comunicaciones_es/leanez.htm#a> (page consultée le 12 avril 2010).

[vi] L’intégralité de l’étude Langues et cultures sur la Toile est disponible en ligne : <http://dtil.unilat.org/LI/2007/index_fr.htm>.

[vii] Corbeil Jean-Claude, « I comme informatique, industries de la langue et Internet », in B. Cerquigliny, Tu parles ! ?, le français dans tous ses états, Paris, Flammarion, 2000, p. 129.

[viii] À remarquer que nous parlons de « reconnaissance » lorsque le moteur peut effectuer une recherche pour cette langue et trouver des résultats. Que Google propose des interfaces dans une langue donnée – 120 à l’heure actuelle — ne signifie pas que le moteur reconnaît la langue.

[ix] <http://www.internetworldstats.com/>

[x] Paolillo John, « Diversité linguistique sur Internet : examen des biais linguistiques » in Paolillo John, Pimienta, Daniel et Prado, Daniel, Mesurer la diversité linguistique sur Internet, Paris, UNESCO, 2005, p.43.

[xi] Leclerc Jacques, « L’expansion des langues », L’aménagement linguistique dans le monde, Québec, TLFQ, Université Laval, 29 juin 2009 [en ligne]. < http://www.tlfq.ulaval.ca/axl/Langues/2vital_expansion.htm> (page consultée le 12 avril 2010).

[xii] Le site observatoire Portalingua <http://www.portalingua.info>, créé par l’Union latine et qui verra le jour au mois de mai 2010, tentera de répondre à ce problème en compilant et en mettant en parallèle les études et statistiques existantes sur la présence des langues dans différentes sphères de la société de la connaissance.

[xiii] Voir : <http://semiocast.com/static/downloads/Semiocast_Half_of_messages_on_Twitter_are_not_in_English_20100224_fr.pdf> (page consultée le 12 avril 2010).

[xiv] Pour des statistiques détaillées, voir : <http://meta.wikimedia.org/wiki/Wikipedia_languages> (page consultée le 12 avril 2010).

[xv] Paolillo John, « Diversité linguistique sur Internet : examen des biais linguistiques », p.64.

[xvi] Diki-Kidiri Marcel, Comment assurer la présence d’une langue dans le cyberespace ?, UNESCO, 2007, [en ligne]. < http://unesdoc.unesco.org/images/0014/001497/149786F.pdf> (page consultée le 12 avril 2010).

[xvii] Statistiques Internet World Stats, 2009 < http://www.internetworldstats.com/stats.htm>.

[xviii] Pimienta Daniel, Prado Daniel, Blanco Alvaro, Douze années de mesure de la diversité linguistique sur l’Internet: bilan et perspectives, UNESCO, 2009, pp.51-52, [en ligne]. < http://unesdoc.unesco.org/images/0018/001870/187016f.pdf> (page consultée le 12 avril 2010).

[xix] Diki Kidiri, Marcel, Baboya Edema, Atibakwa, « Les langues africaines sur la Toile ». In : Cahiers du Rifal, nº 23, Le traitement automatique des langues africaines, Bruxelles, Agence Intergouvernementale de la Francophonie et Communauté française de Belgique, novembre 2003, pp.5-10.

[xx] Suzuki I, Mikami Y., et al. “A Language and Character Set Determination Method Based on N-gram Statistics”, in ACM Transactions on Asian Language Information Processing, vol.1, no.3, septembre 2002, pp.270-279 et Nandasara S.T., et al. “Analysis of the Asian Languages on the Web Based on N-gram Language Identification” in The International Journal on Advances in ICT for Emerging Regions (ICTer), volume 1, issue 1, 2008.

[xxi] Lire le texte intégral de cette ligne d’action sur le répertoire UNESCO des actions pour le SMSI : <http://portal.unesco.org/ci/fr/ev.php-URL_ID=15927&URL_DO=DO_TOPIC&URL_SECTION=201.html >.

[xxii] Lire la présentation de l’activité sur le site du Réseau Maaya <http://www.maayajo.org/spip.php?article106>.

[xxiii] Diversité culturelle et linguistique dans la société de l’information. Paris, UNESCO, 2003, p.18. [en ligne]. <http://portal.unesco.org/ci/fr/file_download.php/f0138f3685432a579c5cfc5849314368culture_fr.pdf> (page consultée le 12 avril 2010).

[xxiv] Calvet Louis-Jean, Pour une écologie des langues du monde. Paris, Plon, 1999.

[xxv] Bordon María, Gómez Isabel, “Towards a single language in science? A Spanish view” in Serials, vol. 17, no2, juillet 2004, pp. 189-195.

[xxvi] Revue annuelle du PCT : Le système international des brevets en 2008, OMPI, 2009, p. 20, [en ligne]. <http://www.wipo.int/export/sites/www/pct/fr/activity/pct_2008.pdf> (page consultée le 12 avril 2010).

[xxvii] Langue parlée en Patagonie par quelque 25 000 locuteurs, jugée en danger de disparition pendant un certain temps.

[xxviii] Voir : http://www.unesco.org/culture/ich/index.php?pg=00206

[xxix] Diki-Kidiri, Comment assurer la présence d’une langue dans le cyberespace ?.

Résumé

Dans un contexte où près de la moitié des langues de la planète risquent de disparaître au cours de ce siècle et où l’Internet est devenu, non seulement, le principal vecteur de communication, mais également, une vitrine et un support de choix pour certaines formes de patrimoine immatériel, il convient d’analyser comment le cyberespace et les TIC peuvent contribuer au développement du multilinguisme.

Après un diagnostic de la situation des langues du monde, notamment dans le cyberespace, et tout en montrant les similitudes avec le monde réel, cet article prétend donner des pistes sur le chemin à suivre par les différentes typologies de langues pour qu’elles puissent tirer parti du cyberespace.