Protocole de codage microsyntaxique
Version : 23 octobre 2013
Rédacteurs : Sylvain Kahane (en collaboration avec l’ensemble de l’équipe syntaxe Rhapsodie et en
particulier Kim Gerdes, Paola Pietrandrea et Christophe Benzitoun)
Version révisée par Rachel Bawden et les autres annotatrices (Marie-Amélie Botalla et Adèle Désoyer)
Nous divisons ce document en quatre sous-sections :
– analyse morphosyntaxique
– analyse microsyntaxique en dépendance
–
– analyse microsyntaxique en constituants
traitement des entassements
Analyse morphosyntaxique
(Sylvain Kahane, Kim Gerdes)
L’analyse morphosyntaxique comprend la segmentation du texte en mots (appelés
dorénavant lexèmes pour éviter toute confusion avec les mots orthographiques), la
lemmatisation et l’étiquetage morphosyntaxique.
Un texte est découpé en mots. Sauf exception (les amalgames comme du ou au), un mot
est un lexème ou une forme fléchie d’un lexème, c’est-à-dire un lexème combiné à des
morphèmes grammaticaux. (Attention nous parlons ici de mots au sens linguistique du
terme. Nous les distinguons des mots orthographiques, avec lesquels ils coïncident
généralement néanmoins).
La lemmatisation est l’attribution à chaque mot/lexème d’un lemme (le lemme est le
nom que l’on utilise conventionnellement pour désigner un lexème ; pour un verbe il
infinitive). L’étiquetage morphosyntaxique est
s’agit par exemple de
l’attribution à chaque mot de la partie du discours de son lemme assortie d’éventuels
traits catégoriels et flexionnels.
la forme
Découpage en lexèmes
Mot : Par mot lexématique (on dit aussi mot-forme dans la tradition structuraliste), nous
entendons une unité linguistique particulière, généralement considérée comme l’unité
minimale de la syntaxe, que nous allons définir (grossièrement). Dans le projet
Rhapsodie, un autre découpage en mot a également été réalisé par les prosodistes pour
le calcul des groupes rythmiques. A terme, les deux découpages devront être unifiés.
Dans la suite, le terme mot désignera toujours un mot lexématique.
La notion de mot est directement liée à celle de lexème qui est l’unité minimale du
lexique. Un mot est soit un lexème invariable, soit une forme fléchie d’un lexème, soit
(très marginalement) l’amalgame de deux lexèmes.
Token : Nous appelons token (ou mot orthographique) tout segment de la transcription
orthographique pris entre deux blancs ou un blanc et un signe de ponctuation.
L’apostrophe est également considérée comme la frontière droite d’un token et l’enfant
est donc la combinaison de deux tokens (l’ + enfant), de même que aujourd’hui ou
quelqu’un par conséquent. Le tiret n’est pas considéré comme une frontière de token et
dit-on est un token que nous décomposons en deux lexèmes.
Les conventions orthographiques sont très largement motivées par des considérations
linguistiques et les tokens (c’est-à-dire les mots orthographiques) correspondent en
grande majorité à des mots lexématiques et vice versa.
Nous allons préciser les critères sur lesquels repose notre définition du mot
(lexématique) et puis nous indiquerons les cas pour lesquels nous considérons des mots
ne sont pas des tokens.
Définition du mot (lexématique)
Un segment XY est découpé en deux morceaux X et Y si X et Y commutent librement,
c’est-à-dire si X et Y s’utilisent dans d’autres contextes avec d’autres éléments tout en
ayant le même sens. De plus, si X’ ou Y’ commutent avec X et Y dans leurs autres
contextes, ils doivent aussi commuter avec X et Y dans le contexte de la combinaison XY,
c’est-à-dire que X’Y, XY’ et X’Y’ doivent être acceptables et avoir des propriétés
comparables à XY.
Les mots ne sont pas les plus petits morceaux d’un tel découpage. Par exemple, dans la
forme verbale chantons, chant- et -ons commutent librement (chant- avec d’autres
radicaux verbaux et -ons avec d’autres flexions verbales). Mais chant- et -ons possèdent
une très grande cohésion : il n’est pas possible de les dissocier (d’utiliser un radical
verbal sans flexion et vice versa), ni de les séparer, ni encore de les modifier
indépendamment l’un de l’autre.
Les mots sont les plus petites unités qui ne peuvent pas être découpées en deux
morceaux commutant librement, dissociables et séparables.
Dans un mot, si celui-ci est décomposable, seul un des morceaux appartient réellement à
un paradigme ouvert et est un lexème. Les autres morceaux sont des morphèmes
grammaticaux associés à ce lexème. Le mot est donc alors une forme fléchie d’un lexème.
Locution : Une importante complication est due au figement sémantique : si dans la
combinaison XY, on ne peut pas attribuer un sens à X et Y, le critère précédent ne peut
plus être appliqué, ce qui ne veut pas dire qu’on ne veut pas découper XY en deux
morceaux d’un point de vue syntaxique. Par exemple, dans pomme de terre, pomme et
terre ne commutent pas librement (puisque pomme et terre n’ont plus de contribution
sémantique propre), mais il est visible que pomme de terre est un figement de
l’expression libre pomme de terre qui est construite sur le même schéma syntaxique que
corpus de français (N de N), qui est lui une combinaison libre : corpus/texte/livre… de
français/chinois/syntaxe… Nous dirons que pomme de terre est analogue à corpus de
français et qu’il doit donc être découpé de la même manière. Un segment XY est dit
analogue à X’Y’ s’il existe des acceptions de X et Y où X et Y se comportent de la même
façon que X’ et Y’ et où XY se comporte de la même façon que X’Y’. Un segment XY qui ne
commute pas librement mais qui est analogue à un segment qui commute librement est
appelé une locution ou un phrasème.
Nous avons fait le choix de rester à un niveau syntaxique et donc de décomposer les
locutions et de les analyser de la même façon que les combinaisons libres auxquelles
elles sont analogues.
Nous allons donner une longue liste d’exemples qui permettra d’éclaircir cette
définition. Il est important de comprendre que la notion de commutation libre, comme la
notion d’analogie, sont des notions graduelles et qu’ils existent des unités dont le statut
de mot est flou et pour lesquels nos choix peuvent paraître arbitraire. Néanmoins le
choix de traiter une unité XY comme un tout où comme la combinaison de X et de Y et
donc de créer un lien entre X et Y n’a pas d’incidence sur le reste de l’analyse d’un
énoncé. Même si nous avons voulu traiter le découpage en mots avec le plus de rigueur
possible, les choix que nous avons fait ont essentiellement une portée locale qui ne
touche que des unités qui sont problématiques quelle que soit l’analyse retenue.
Mots à l’intérieur du token
Nous avons évité de découper des tokens en mots. Par exemple, afin est considéré
comme un seul mot même si on peut encore y reconnaître une combinaison à + fin et
que les deux sont séparables comme dans à seule fin (de faire ça).
Amalgame : Nous avons séparé en deux lexèmes les amalgames au et aux : au = à + le.
Pour des, nous avons distingué le cas où des commute avec ces de celui où il commute
seulement avec de ces. Dans le deuxième cas seulement, des a été traité comme une
combinaison de + les :
– ensuite c’est des escaliers (M0010:2)
–
…dans le vingtième c’est le problème des (de les) écoles maternelles et primaires
dans lequel… (D0002:21)
Nous avons fait les mêmes choix pour du selon qu’il s’agit d’un déterminant partitif et
qu’il commute avec ce ou qu’il introduit un groupe prépositionnel en de :
–
–
ça j’avoue qu’on a du mal quand on voit que Paul Valéry passe… (D001:112)
…le sherpa du (de le) président le porteur de valises le conseiller influent du (de
le) prince… (D2005:6)
Par souci d’homogénéité, de la et de l’ reçoivent également deux analyses, en un ou deux
mots selon les cas.
– et il y a aussi de la (de_la) très bonne culture (D1001:26)
–
sa femme est originaire de la région (D009:182)
Tirets : Les tokens comprenant un tiret sont considérées comme un seul mot
lexématique, sauf quand il s’agit de la combinaison d’une forme verbale et d’un clitique :
– dit-on = dit + -on
– a-t-il = a + -t-il : qui il y a dans qui y a -t-il dans la voiture noire (D2010:186)
Enfin, là dans les combinaisons du type ce N-là est également considéré comme un
lexème à part entière :
–
…très difficile d’ d’apprendre le français à des petits enfants de cet âge -là
(D002:52)
Les tokens là-bas, là-dedans, là-dessus sont considérés comme un unique mot
lexématique. On pourrait envisager d’isoler là- mais sa syntaxe ne serait analogue à
aucun autre élément du lexique et le paradigme des éléments qui se combine avec lui
reste assez restreint, contrairement au -là postposé qui se combine avec tous les N.
Mots formés de plusieurs tokens
Voici les listes des mots formés de plusieurs tokens que nous avons considérés :
Mots grammaticaux
à nouveau
à part
à peine
a priori
à savoir
à travers
alors que
au moins
autre chose
bien sûr
c’est-à-dire
d’abord
d’accord (quand il s’agit de l’interjection)
d’ailleurs
de nouveau
de plus
de plus en plus
du tout
eh ben
eh bien
encore que
en fait
en tant que
en tout cas
en quelque sorte
et caetera
et puis (mais pas ou bien, ou encore, …)
jusqu’à (quand c’est un Adv (jusqu’à chez moi), mais pas quand c’est Adv
+ Pre (jusqu’à Paris))
l’un (mais pas l’autre, parce qu’on a les deux autres)
lors de (mais pas faute de)
n’importe quel
n’importe quand
n’importe qui
parce que
petit à petit
peut-être
quand même
quelqu’un
quelque chose
quelque part
sauf que
sur ce
surtout que
tout à fait
tout de suite
vis-à-vis (de)
y compris
Tous les nombres
deux mille neuf
dix-neuvième
dix-huit cent
dix-huit cent quatre-vingt
neuf cent cinquante
quatre-vingt-douze
trois cents
vingt-deux
…
Les noms composés
Tous les noms composés orthographiés avec un tiret ont été considérés comme des
mots : après-midi, arrière-grand-mère, aujourd’hui, baby-sitter, belle-mère, centre-ville,
chef-d’œuvre, contre-attaques, contre-littérature, enseignant-chercheur,
fauteuil-
crapaud, grands-parents, mathématicien-écrivain, mi-temps, outre-mer, pâtissier-
boulanger, rendez-vous, rond-point, week-end …
Le nom face à face (un face_à_face très attendu) est traité comme un mot, mais la
locution adverbiale (ils sont face à face) est traitée comme trois mots distincts.
Les noms propres
General Motors
Hauts-de-Seine
Jean-Paul
Pointe-à-Pitre
Proche-Orient
Royaume-Uni
Saint-Jean
Saint-Jean-de-Maurienne
(avenue) Alsace-Lorraine
Les séquences Prénom Nom (Françoise Giroud) sont considérées comme la combinaison
de deux mots (ne serait-ce que parce que chacun des deux est effaçable au profit de
l’autre) et le premier est traité comme la tête.
Les noms composés en N de N sont analysés comme une combinaison de mots, y
compris des noms propres comme La Voix du Nord :