Corpus MUROL
12 locuteurs (six hommes, six femmes) ont enregistré par couple de même sexe six dialogues spontanés, d’une quinzaine de minutes chacun, dans une chambre sourde. En plus de ces 6 couples d'adultes, 2 couples d'enfants ont enregistré dans les mêmes conditions. La position de ces locuteurs est dos à dos. L’enregistrement audionumérique de très bonne qualité a été effectué sur des pistes séparées pour chaque locuteur. Les 12 locuteurs adultes sont tous des étudiants, de disciplines différentes, les 4 enfants sont des enfants de collège, tous de langue maternelle française.
Les six dialogues adultes ont été entièrement transcrits de manière orthographique, annotés en fonction de conventions permettant de décrire tous les événements acoustiques paralinguistiques (souffle, chevauchement de parole, coup de glotte, allongement, pause avec respiration audible ou pas, unités phonétiques en plus ou en moins, certaines notations prosodiques etc.). Les dialogues ont été partiellement étiquetés.
Les corpus 1, 2, 3 ont été annotés en fonction d'analyses sémantiques et pragmatiques : codage dialogique en actes de discours, codage de la connaissance partagée.
Transcription
La transcription est orthographique.
Les caractères soulignés signalent un recouvrement des deux voies. Le débit des deux locuteurs étant parfois très différent, et la graphie prenant plus ou moins de place selon les mots prononcés, il arrive que les deux parties soulignées n'aient pas du tout la même taille, ex : un locuteur dit "en face" pendant que l'autre dit "à côté d'l'office du tourisme" ; dans ce cas, on procède à un allongement du trait sous la réplique la plus courte de façon à conserver visuellement la simultanéité des deux prononciations. Dans le cas où la réplique la plus courte du recouvrement est une partie de mot (et non un mot entier), la règle précédente est conservée, mais le mot qui n'est qu'à moitié recouvert est prolongé par des pointillés pour signaler que sa prononciation n'est pas discontinue. Enfin, les noms propres n'ont pas de majuscule ainsi que les sigles, ex : le cnam de paris
Annotations
(espace blanc)
note une pause, même brève dans le discours d’un locuteur ou entre deux tours de parole ; la longueur de l'espace blanc (au milieu du discours ou entre les deux tours de parole) est proportionnelle à la durée de la pause
/-/
note un silence
(h)
note une pause remplie par une inspiration audible
<h>
note une pause remplie par une expiration audible
/
note une interruption ou un démarrage brusque du son précédent, interruption ou début en coup de glotte
e
note ce qui est généralement transcrit "euh" dans la graphie traditionnelle
:
note l'allongement d'un son ; plus il y a de points, plus l'allongement est long (: :: :::)
˚
ce signe indique une prononciation inattendue d'un son habituellement non prononcé, ex : rouge˚, plus˚. Exception : le "e" muet en finale de mot n'est généralement pas prononcé, cependant pour plus de commodité nous conservons sa graphie. Lorsqu'il est prononcé, il est suivi du signe ˚
'
désigne la suppression du "e" muet au milieu d'un mot ou lorsque le mot peut comporter à l'écrit une apostrophe, ex : renseign'ment, j'sais pas
MAJ
les mots ou parties de mots en majuscules indiquent une prononciation perçue comme accentuée par rapport à ce qui précède (sans précision supplémentaire concernant le ou les paramètres prosodiques utilisés pour ce faire)
—
note une liaison ou continuité sonore non automatique à l'oral, ex : qui-est en bas, la rue lakanal est piétonne-hein, il y-a une piscine
— —
note qu'une liaison habituelle n'a pas été faite, ex : vous êtes--ouverts, elle n'est pas--indiquée, c'est--un pont
( )
les caractères notés entre parenthèses notent des éléments qui n'ont pas été prononcés et qui sont destinés à faciliter la lecture de la transcription , ex : terrib(l)e sauf pour la voyelle "e" à l'intérieur d'un mot
<< >>
les caractères entre << >> notent des éléments qui sont prononcés plus faiblement que le reste de la phrase
Astérisques
les caractères notés entre deux * indiquent que ceux-ci ont été prononcés très rapidement et sont à peine audibles

http://crdo.fr/crdo000765