Projet de recherche en Description et Modélisation Linguistique


Langues créoles de la Caraïbe en synchronie et en diachronie :
Analyse des convergences par l'application
d'outils d'analyse syntaxique
sur un corpus multilingue


GEREC-F
Groupe d'Études et de Recherches en Espace Créolophone et Francophone
Équipe d'Accueil de l'Université des Antilles et de la Guyane — EA 3595

Sous-groupe : Description et Modélisation Linguistique (DeMoLi)

Faculté des Lettres et Sciences Humaines
B.P. 7207
Université des Antilles et de la Guyane
Campus de Schoelcher
97275 SCHOELCHER CEDEX
Martinique


Objectifs du projet :

1. Introduction

Deux concepts, issus de la linguistique, ont connu depuis les années 80 un tel succès qu'ils sont devenus sources de métaphores bien au-delà de leur univers épistémologique d'origine : ce sont les concepts de créolisation et de créolité.

La tâche du sous-groupe DeMoLi du GEREC-F, en tant qu'équipe de linguistes spécialistes des langues créoles, n'est pas d'étudier le fécond glissement sémantique que ces deux termes ont connu (encore que cela puisse faire l'objet d'un beau travail de sémantique historique), mais de les remettre à leur place d'objet de questionnement et de recherche au sein même de la linguistique.

Des travaux qui ont été menés pendant les trois dernières décennies ont apporté du matériau d'étude pour l'identification de traits caractéristiques des langues créoles. Un projet de caractérisation typologique a par exemple été poursuivi récemment par McWhorter (1998, 2001) et a permis d'identifier un ensemble de traits qui, sans être pour chacun d'entre eux entièrement exclusif, forme un faisceau d'indices typologiques convergents pour la caractérisation des langues créoles. Holm (2000) a également passé en revue un ensemble de traits syntaxiques qui ont été proposés pour caractériser les créoles (1). Cependant, comme l'avait déjà souligné Alleyne (1996), aucune caractérisation typologique n'est absolument concluante, en ce sens qu'aucun trait n'est ni définitoire (présent dans toutes les langues créoles) ni exclusif (caractérisant des langues créoles à l'exclusion de toutes les autres). À moins d'inclure dans ces ensembles de traits des traits « négatifs » (absence d'ergativité, par exemple) — ce qui, comme le dit Alleyne, ne constitue guère qu'une caractérisation faible.

Nous comptons donc partir de l'hypothèse de travail raisonnable selon laquelle la définition de marqueurs typologiques au sein d'un ensemble flou permet de fournir une caractérisation assez fiable des créoles de la zone Caraïbe. Sur la base de cette hypothèse, notre objectif est de développer des procédures d'identification de ces marqueurs par des méthodes d'analyse syntaxique de corpus, mettant notamment en jeu des allers-retours entre analyse automatisée (méthodes d'apprentissage automatique en linguistique informatique) et analyse syntaxique traditionnelle.

L'ensemble des phénomènes linguistiques que nous étudions peut alors nous conduire à nourrir ces trois questions fondamentales :

C'est autour de ces thèmes centraux que l'équipe DeMoLi bâtit son projet collectif de recherche.

Laptop Computers

2. Interrogation des concepts

2.1. typologie linguistique

La notion de langues créoles, sur laquelle travaille le GEREC-F, est fondée sur des éléments implicites de définition qui relèvent autant, voire plus, de la sphère historico-anthropologique que de la sphère linguistique à proprement parler. Le créole, dans l'espace où nous l'étudions, est d'abord la langue engendrée par les phénomènes historiques indissociables que sont la traite négrière et la société esclavagiste dans les nouvelles colonies européennes.

De nombreux linguistes se sont pourtant interrogés sur l'existence, dans les langues créoles, de traits linguistiques particuliers qui fonderaient une communauté typologique (Taylor 1971, ou plus récemment McWhorter 1998). Si c'était le cas, il pourrait exister des langues structurellement identifiables comme « créoles » alors même qu'elles ne sont pas habituellement désignées comme telles ; et le mot créole serait alors une catégorie descriptive en typologie linguistique.

La validité de cette hypothèse ne peut être mesurée qu'à l'aune de la possibilité de généraliser les traits descriptifs énumérés à d'autres langues, d'autres zones de la planète — ces autres langues servant alors en quelque sorte de pierre de touche aux hypothèses A., B. et C. mentionnées plus haut. Selon certains linguistes, les traits que l'on retrouve dans de nombreuses langues créoles seraient la manifestation d'un « bioprogramme » linguistique inné (Bickerton 1984). Alleyne (1996) pointe cependant le danger de circularité qui entache la démonstration (on identifie les structures innées à celles qu'on trouve justement dans les langues créoles), alors même que l'identification d'un ensemble de traits avec un degré de confiance suffisant semble nécessiter une restriction de l'objet d'étude (par exemple au groupe des créoles de la zone Atlantique à base lexicale européenne), au sein de laquelle d'autres explications sont possibles pour les phénomènes de convergence (comme le note Holm (2000), « it is hardly controversial to observe that the Atlantic creoles arose among speakers of partially similar African languages learning partially similar European languages under partially similar social conditions »).

Plus récemment encore, des reformulations de la théorie innéiste, définissant les créoles comme des langages entièrement refondés (« born again languages »), ont été avancées (McWhorter 2001) ; mais il a été démontré que les présupposés sur lesquels s'appuyait ce type de théorie n'avaient ni assise théorique rigoureuse, ni preuve empirique convaincante (DeGraff 2001). Suite aux évolutions récentes de la syntaxe générative (notamment avec l'orientation radicale vers la sobriété descriptive contenue dans Chomsky et Lasnik (1995)), on formule maintenant plus prudemment des hypothèses en termes de réglage de paramètres de la grammaire universelle (cf. par exemple DeGraff 1996). Aucun élément absolument déterminant n'étant en effet, à l'heure actuelle, venu étayer de manière plus solide qu'auparavant les théories d'universaux, la prudence s'impose dans ce domaine, et oblige à considérer la question de la généralisabilité de certains traits définitoires des créoles comme toujours ouverte et toujours en attente d'explication.

Notre objectif est donc, sur des questions bien précises de morphologie et de syntaxe, de nous attacher à décrire et à inventorier des faits linguistiques présents dans les langues créoles de l'espace défini au préalable, puis de nous pencher sur la question de leur périmètre de généralisation. La tâche ainsi définie consiste à (1) dégager des traits caractéristiques des langues créoles inventoriées comme telles dans l'espace Caraïbe (sur le plan morphologique, syntaxique ; ou, en diachronie, dans des tendances à la régularisation, à la grammaticalisation, à la réanalyse) ; et (2)  essayer de caractériser les langues où ces types de traits se retrouvent par ailleurs, au sein d'un ensemble pertinent (langues lexificatrices et leurs dialectes, autres créoles, langues africaines, langues géographiquement voisines ...). Des analyses contrastives nous permettront de nous placer sur un plan de diasystème et d'y mettre en évidence les faits d'interférence. Il s'agira alors d'y distinguer différents cas et de formuler des hypothèses sur l'origine des corrélations : phénomènes d'évolution parallèle (« les mêmes causes produisent les mêmes effets » — on parlerait en biologie de « convergence fonctionnelle ») ? Influences « substratiques » (au sens élargi que l'on donne au concept de substrat en créolistique) ? Hypothèses cognitives sur les situations d'appropriation linguistique ?

2.2. diachronique vs. synchronique

Dans la mesure où le corpus d'analyse disponible le permet, il serait alors judicieux de revenir à des analyses d'évolution diachronique (ciblées, sur des phénomènes linguistiques bien délimités), entre états de langues séparés par de grands intervalles temporels, afin d'interroger l'hypothèse suivant laquelle un certain type d'évolution linguistique peut produire un certain type de langue. L'opposition métalangagière entre créolisation et dialectalisation tient-elle sur des faits empiriques ? Ou la phase de créolisation peut-elle plus simplement être décrite comme une accélération de changements linguistiques — de nature par ailleurs classiques — se déroulant sur la durée d'une génération (suivant l'hypothèse de Chaudenson (1995)) ? En d'autres termes, et sous réserve d'existence des concepts utilisés, une créolisation linguistique produit-elle une créolité linguistique ?

Cette question, fondamentale et fédératrice du groupe de recherche DeMoLi, s'ouvre bien entendu sur l'analyse synchronique — car l'évolution linguistique se poursuit, même s'il ne s'agit plus de créolisation (la borne postérieure de l'intervalle temporel auquel ce mot s'applique se fixe nécessairement au plus tard une ou deux générations après l'arrêt de l'immigration massive).

On élargit donc la question à celle d'une étude systémique de la cohabitation des langues, en observant, dans un état de langue présent, des phénomènes indicateurs d'interférences entre systèmes linguistiques, comme l'analogie syntaxique, la morphologie dérivationnelle, ou la créativité lexicale par calque.

La dynamique centrale de la créolisation, comme de toute évolution linguistique, est bien entendu l'intégration de la diachronie dans la synchronie. Pour relever ce qu'elle a de spécifique dans l'évolution des langues créoles, il importe de l'appliquer au cas de l'évolution post-créole, qui est l'état de contact de langues actuellement vécu par ces langues dans des sociétés plurilingues. Il sera à cet égard très intéressant d'étudier les phénomènes d'évolution divergents des langues créoles restant en contact avec leur langue lexificatrice (cas du créole en Martinique, en Guyane ou en Guadeloupe), et de celles qui se retrouvent en situation de contact avec une autre langue (cas du créole français en Dominique et à Sainte-Lucie, ou de celui de la communauté de descendants d'haïtiens vivant dans la région de Samaná, en République Dominicaine ; cas, de plus grande profondeur historique, du sranan tongo au Surinam [créole à base lexicale anglaise en contact avec le néerlandais depuis 1667]) — sans parler du cas à part des Antilles Néerlandaises (îles « ABC »), où le contact du papiamento se fait à la fois avec deux des langues ayant participé à sa genèse et à sa lexification : une langue officielle (le néerlandais), et une langue de contact très répandue (l'espagnol, très présent à cause du voisinage géographique avec le Vénézuela).

Les phénomènes observés sur ce terrain pourront éclairer les problématiques écosystémiques de contact et de cohabitation linguistique, étudiées par les sociolinguistes qui s'intéressent aux niches écologiques des langues dans les sociétés plurilingues.

3. Objectifs pratiques

Les questions évoquées ci-dessus doivent nécessairement être abordées par l'analyse précise de quelques faits de langues bien délimités.

L'équipe GEREC-F / DeMoLi se fixe à cet égard trois objectifs à moyen terme :

4. Constitution de corpus

Afin d'être en mesure d'identifier méthodiquement les faits linguistiques des langues créoles de la zone américano-caraïbe, et de les mettre en rapport avec ceux d'autres langues pour lesquelles la comparaison est pertinente, au regard des occasions historiques et géographiques de contact, il importe de constituer les corpus les plus vastes possibles. La tâche n'est pas simple, car nous traitons de langues pour lesquelles les ressources sont rares, notamment si l'on remonte à quelques décennies :

Le travail sur les questions (1) et (2), mentionnées en § 3, implique un travail de recueil et d'analyse de deux types de corpus très différents : (1) des corpus oraux, de relativement petite taille, pour le travail sur la grammaire de la syllabe et l'identification des unités morphologiques, et (2) des corpus écrits, volumineux, pour l'apprentissage statistique de la classification des unités syntaxiques, et des paramètres pertinents pour la discrimination des dialectes.

Les deux types de corpus demandent du travail pour être mis en forme de manière à devenir utilisables pour des analyses linguistiques précises : un travail de transcription phonétique et d'annotation prosodique pour les corpus oraux (type 1), un travail de normalisation orthographique et d'annotation linguistique pour les corpus écrits (type 2). Dans les deux cas, ces efforts devront normaliser et publier leurs résultats dans des formats internationaux, ouverts et reconnus (XML et Unicode), afin de pouvoir les partager et les échanger avec les corpus déjà produits par d'autres équipes. Cependant, dans les deux cas, des ressources seront nécessaires pour aller chercher le matériau (interviews ou enregistrements dans le cas 1, numérisation de documents écrits dans le cas 2) et le mettre en forme. Il est donc indispensable de pouvoir disposer d'un budget pour rétribuer des vacataires ou des étudiants afin de pouvoir aider l'équipe de chercheurs dans ce travail de longue haleine. Dans le cas des corpus oraux, une solution partielle peut également consister à rémunérer les informants pour leur demander d'aider à la transcription de leurs propres échantillons.

Au fur et à mesure que des parties de ce corpus se constituent, elles peuvent servir non seulement à l'objectif premier de ce projet (analyse principalement morphologique et syntaxique), mais restent disponibles comme ressources pour d'autres types de tâches d'intérêt majeur pour les études linguistiques et littéraires : apprentissage automatique de paramètres discriminants pour reconnaître les langues, analyses sémantiques, stylistiques, constitution de ressources linguistiques (dictionnaires, grammaires) ...

5. Collaboration avec d'autres équipes de recherche

Le projet décrit ci-dessus est centré au GEREC-F, mais il implique également la collaboration avec d'autres équipes de recherche de l'université des Antilles et de la Guyane, notamment le CELCAA (Centre d'Études des Littératures et Civilisations de l'Amérique Anglophone), le CERC (Centre d'Études et de Recherches Caribéennes), et le GRIMAAG (Groupe de Recherche en Informatique et Mathématiques Appliquées des Antilles-Guyane). Ces unités de recherche participeront à l'analyse du corpus recueilli en apportant le regard de la créolistique des aires anglophone et hispanophone (pour les deux premières), et des techniques de recherche d'information et d'apprentissage automatique sur des gros volumes de données (pour la dernière).

N.B. Le ministère de l'Outre-Mer a d'ores et déjà reconnu l'intérêt de ce type de travail de constitution de corpus, sur la base d'un projet aux ambitions plus restreintes, qui visait à constituer un corpus écrit de créoles à base lexicale française de la zone américano-caraïbe (http://www.univ-ag.fr/~pvaillan/Corpus_Creole.html). Un dotation de 4000 € a été attribuée pour l'achat de matériel de numérisation et de saisie.


Références

Mervyn C. Alleyne, 1996. Syntaxe historique créole. Paris, Karthala.

Derek Bickerton, 1984. "The Language Bioprogram Hypothesis." Behavioral and Brain Sciences, vol. 7, n°2, p. 173-222.

Robert Chaudenson, 1995. Les créoles. Paris, PUF (coll. « Que sais-je ?»)

Noam Chomsky, Howard Lasnik, 1995. "The theory of principles and parameters." In Noam Chomsky, The Minimalist Program. Cambridge, MIT Press.

Michel DeGraff, 1996. "Creole languages and parameter setting: A case study using Haitian Creole and the pro-drop parameter." In Hermann Wekker, Creole Languages and Language Acquisition. Berlin, Mouton de Gruyter.

Michel DeGraff, 2001. "On the origin of Creoles: A cartesian critique of neo-darwinian linguistics." Linguistic Typology, vol. 5, n°2–3, p. 213–310.

John Holm, 2000. An Introduction to Pidgins and Creoles. Cambridge, Cambridge University Press.

John H. McWhorter, 1998. "Identifying the creole prototype: vindicating a typological class." Language, vol. 74, n°4, p. 788–818.

John H. McWhorter, 2001. "The world's simplest grammars are creole grammars." Linguistic Typology, vol. 5, n°2–3, p. 125–166.

Douglas Taylor, 1971. "Grammatical and lexical affinities of creoles." In Dell Hymes (ed.), Pidginization and creolization of languages. Cambridge, Cambridge University Press.


Notes

(1) À titre indicatif, voici la liste des traits relevés par Taylor (1971) comme étant présents dans un nombre significatif de créoles à base lexicale européenne de la zone Atlantique ou de l'Océan Indien :

1.Le pronom de troisième personne du pluriel sert de marque du pluriel pour les noms.
2.Une combinaison de marqueurs du passé et du futur exprime le conditionnel.
3.Le mot pour « donner » fonctionne également comme préposition dative (comme « à » ou « pour »).
4.Des composés du type « Quelle chose / quelle personne / quel temps / quel endroit » sont employés pour exprimer « quoi ? », « qui ? », « quand ? », « où ? ».
5a.Un syntagme prépositionnel est employé pour exprimer le possessif absolu ( « le mien », « le nôtre », « celui de telle personne »)
5b.Un syntagme nominal est employé pour cela.
6.L'adjectif démonstratif est postposé à son référent (« maison cette »).
7.L'article défini est postposé à son référent (« maison la »).
8.L'adjectif possessif est postposé à son référent (« maison ma »).
9.Une expression équivalente à « (mon) corps » sert à exprimer le réfléchi.
10a.La fonction itérative (« habituelle ») est fusionnée avec le complétif.
10b.La fonction itérative (« habituelle ») est fusionnée avec le progressif.
10c.La fonction itérative (« habituelle ») est fusionnée avec le futur.
11.na (ou une variante) est employé comme préposition générale du locatif (valant pour « à », « par », « de », « dans », « sur », « vers »)
12.ma (ou une variante) est employé comme disjonctif (« mais »).


Contact :

 Pascal Vaillant 

( )