SLDR —> SldrWiki —> SLDR_FR

Table Of Contents

Projet SLDR - historique
Documents de référence
Période 2006-2008
    Responsable scientifique
  Description rapide des compétences générales du réseau
    1. Les données
    2. Les ressources
    3. Les outils
  Résumé des actions envisagées
    1. Collecte des données
    2. Production de nouvelles ressources
    3. Mise à disposition
  Mode de gestion envisagé
    1. Conseil scientifique
    2. Conseil technique
    3. Réseau des utilisateurs
    4. Pôles
  Contacts internationaux

Projet SLDR - historique

Issu d’une initiative conjointe, en 2006, de la Direction de l’Information Scientifique et du Département scientifique Homme et Société du CNRS, le Centre de ressources pour la description de l’oral (CRDO) était un dispositif de préservation des données orales et linguistiques ouvert à l’ensemble de la communauté scientifique. Entre 2008 et 2010 les composantes CRDO-Aix et CRDO-Paris (portées respectivement par le LPL et le LACITO) ont été les acteurs du projet pilote de stockage, d’archivage pérenne et d’accès mutualisé aux corpus oraux coordonné par le TGE Adonis, en coopération avec le Centre informatique de l'enseignement supérieur (CINES) et le Centre de calcul de l'Institut national de physique nucléaire et de physique des particules (CC-IN2P3). Mis en production pour l’archivage pérenne en juillet 2010, le service versant CRDO-Aix a été rebaptisé en août 2011 Speech and Language Data Repository (Banque de données parole et langage). Il fait partie des institutions membres du réseau CLARIN (Common Language Resources and Technology Infrastructure) et ses données sont référencées sur les principaux portails : OLAC, VLO, DRIVER, DANS etc. (voir sldr.org/wiki/Links).

L’objectif de CRDO-Aix/SLDR est de rapprocher les connaissances aujourd’hui dispersées dans des domaines variés comme la linguistique descriptive, formelle et computationnelle, la littérature, la traductologie, les neurosciences et la psycholinguistique.

Le partage des ressources est basé sur un modèle ouvert de système d’information pour l’archivage (OAIS). En réponse à des besoins diversifiés, l’équipe a privilégié le développement d’un système générique qui minimise les contraintes techniques sur la structure et la volumétrie des objets archivés : segmentation automatique des objets de grande taille, pas de limite sur les noms de fichiers etc. La prise en compte de l’évolution des droits d’accès dans les phases successives d’un projet est un soutien considérable à la mutualisation d’un corpus car elle permet d’agrandir progressivement le groupe d’utilisateurs en respectant le cadre éthique et juridique du partage de données orales : Code du patrimoine, droit à l’image, droits patrimoniaux.

Pendant la phase expérimentale, CRDO-Aix/SLDR n’a fait l’objet d’aucun lancement officiel, ce qui explique le relatif faible nombre de dépôts : 174 objets distribués correspondant à un total de 150 000 documents, voir http://sldr.org/hist. Ont été privilégiés les dépôts offrant la plus grande diversité de contenus et de contraintes permettant de procéder aux essais sur des données réelles, comme par exemple l’American National Corpus (oai:sldr.org:sldr000770) qui contient à lui seul plus de 60000 fichiers XML.

Le SLDR est maintenant associé au Centre National de Ressources Textuelles et Lexicales (CNRTL) pour la mise en place d’une infrastructure en réseau de gestion, mutualisation, diffusion et valorisation de ressources et d’outils de traitement sur le français et les langues de France (projet Equipex ORTOLANG, collaboration ATILF-LPL-LORIA-MoDyCo-LLL-INIST avec le soutien de TGIR Corpus et TGE Adonis). Cette infrastructure sera intégrée au réseau CLARIN, avec des développements permettant d’assurer une meilleure interopérabilité (métadonnées CMDI, TEI…, identifiants pérennes EPIC) ainsi que l’accès par un système d'authentification basé sur une signature unique (SSO, Shibboleth).

Les principales étapes du projet ont été :

Documents de référence

Included from reference-documents

Documents de référence / Reference documents


Période 2006-2008

La suite de cette page décrit le projet CRDO tel qu'il avait été formulé en 2006.

Thème de référence : Corpus oraux

Mots-clefs : Corpus oraux, données audio et vidéo, transcription, annotation, standardisation

Responsable scientifique

Philippe Blache
Directeur de Recherche au CNRS
Laboratoire Parole et Langage (UMR 6057)
Université de Provence
29, Avenue Robert Schuman
13621 Aix-en-Provence

tél : 04.42.95.36.25
fax : 04.42.95.37.44
mail : contact(arobase)crdo.fr

Description rapide des compétences générales du réseau

L'objectif du projet CRDO est de créer un véritable centre de ressources qui donne accès aux données orales portant sur le français ainsi éventuellement que d'autres langues. La proposition consiste à regrouper l'ensemble des données portant sur du signal oral, que ce soit de la parole spontanée ou lue. Une telle centralisation permet tout d'abord d'éviter que les différents laboratoires travaillant dans ce domaine ne soient conduits à recréer sans cesse des données. De plus, une telle base offre un échantillon varié permettant de comparer les données, constituant de fait un outil de travail fondamental aussi bien pour les études en synchronie qu'en diachronie.

Il est important de préciser le type des données, au sens large, qui seront centralisées par le centre. Nous réservons le terme de donnée aux corpus eux-mêmes ainsi que leurs enrichissements (métadonnées et annotations). À côté de ces données, il nous semble intéressant d'ajouter la notion de ressource. Une ressource est un ensemble d'informations structurées utilisées dans l'analyse ou la description de la parole. Il peut s'agir typiquement de lexiques, de bases de connaissances, etc. Enfin, nous proposons de regrouper dans une troisième rubrique les outils pouvant être utilisés pour conduire de telles analyses. Chacune de ces rubriques est présentée de façon plus précise dans les prochaines sections.

Le groupe « Ressources et outils d'analyse » se propose de compléter la mise à disposition de données brutes par les ressources et outils facilitant l'exploitation de ces données. Il s'agit de fournir un ensemble d'instruments allant du signal acoustique brut à l'édition et au traitement de ce signal. Un tel service donne accès aux informations elles-mêmes, à des outils et méthodes permettant d'en effectuer l'analyse, et autant que possible à des données enrichies par ces outils.

Le rôle du centre de compétence est donc multiple :

1. Les données

Les données orales sont en général formées de fichiers contenant le signal acoustique brut,mais il peut également s'agir de données non encore digitalisées, par exemple sur bande magnétique. Dans ce cas, la première étape consiste à sauvegarder et numériser les sources.

Les données brutes sont souvent associées à des informations de plus ou moins haut niveau. Il peut s'agir simplement d'indications techniques par exemple sur les conditions d'enregistrement, de données environnementales sur les personnes ou les objectifs de l'étude, mais également d'informations de plus haut niveau comme les transcriptions, l'analyse intonative, les informations pragmatiques, etc. Nous distinguons dans ce qui suit les données brutes des données enrichies (ou annotées). De plus nous proposons de regrouper dans une troisième partie les conventions et normes de transcription ou d'enrichissement adoptées.

Le premier service fourni par ce centre de ressources sera la distribution de données brutes, en d'autres termes du signal lui-même, quel que soit son format. Il existe plusieurs types de ressources, élaborées en fonction d'objectifs de recherche particuliers :

2. Les ressources

On regroupe dans cette rubrique l'ensemble des ressources utiles à la description et l'analyse des données orales, en d'autres termes l'exploitation des corpus cités plus haut. Ces ressources sont formées d'informations structurées allant des lexiques aux bases de connaissances. Nous mettons l'accent ici sur le type d'information spécifiquement utile pour la description de l'oral.

Dans la mesure où certaines ressources (comme les lexiques) sont utilisées conjointement par les communautés « Parole » et « Ecrit », il sera nécessaire d'établir une coordination avec les activités du Centre de compétence sur l'écrit.

Les enrichissements peuvent être de plusieurs types :

La centralisation des ressources orales pourrait jouer un rôle important vers une homogénéisation, voire une standardisation des différentes conventions de transcription choisies, ainsi que de l'encodage des données et de leurs enrichissements. Il s'agit pour cela, dans un premier temps, de simplement centraliser les différentes conventions utilisées dans les corpus diffusés.

Il sera nécessaire d'associer à la réflexion dans ce domaine les personnes engagées dans des opérations de normalisation, en particulier le groupe de travail ayant déjà élaboré le « Guide des bonnes pratiques pour la constitution, l'exploitation, la conservation et la diffusion des corpus oraux ».

3. Les outils

L'objectif de ce projet n'est pas de développer de nouveaux outils, mais de recenser, voire mettre à disposition les outils ou systèmes d'analyse existants. Comme pour les ressources, il est nécessaire d'effectuer un recensement des ces outils quel que soit leur mode de diffusion. Une telle information permet en effet d'aider les utilisateurs en les orientant sur des outils validés. A minima, il s'agit donc d'une simple liste d'adresses où il est possible d'obtenir ces outils. Mais le rôle de ce centre de ressources pourra également être de diffuser directement de tels outils lorsqu'ils sont mis à la disposition de la communauté par des laboratoires.

Résumé des actions envisagées

1. Collecte des données

Le travail du centre de compétence consistera tout d'abord à identifier les ressources orales existantes. Cette opération permettra d'identifier, au-delà du cercle de partenaires, les équipes et laboratoires impliqués dans ce type de travail. Ces détenteurs de ressources seront informés et sollicités pour une mise à disposition à travers le centre de compétence. La mise à disposition des ressources doit pouvoir être considérée comme une valeur ajoutée pour leurs créateurs.

Le principal argument réside bien entendu dans la visibilité apportée à ces données. Par ailleurs, quelques mesures incitatives peuvent également être envisagées. Tout d'abord, la mise à disposition permettra au créateur d'appartenir à un réseau bénéficiant d'un accès élargi aux ressources et ainsi que des conseils du centre pour le formatage, l'élaboration des données, etc. On peut également imaginer de réserver à ces fournisseurs des ressources spécifiques sous la forme par exemple de mise à disposition d'outils, de façon plus ou moins ponctuelle, leur permettant l'enrichissement de leurs données. Par ailleurs, au niveau institutionnel, la création et la mise à disposition de ressources devrait pouvoir être identifiée et valorisée en assurant leur promotion, mais également en intégrant ce paramètre dans l'évaluation des chercheurs et des laboratoires.

2. Production de nouvelles ressources

La production de nouvelles ressources concerne avant tout les données brutes ou enrichies. Pour cela, le centre de compétence interviendra en termes de conseil auprès des utilisateurs en mettant éventuellement à disposition des outils. De plus, il interviendra dans le suivi de projets de production répondant à des besoins spécifiques. Par ailleurs, une des conséquences attendues du Centre de compétence est la standardisation - au moins la normalisation - des ressources orales. L'objectif est donc d'inciter les créateurs de nouvelles ressources à utiliser ces conventions et normes compatibles avec celles préconisées par le centre. Ceci nécessite la mise en place d'un support aux créateurs commençant par l'élaboration et la diffusion de telles normes, mais également d'outils permettant, lorsque c'est possible, de construire des informations respectant ces normes : conventions de transcription, liste de traits pour l'annotation, éditeurs, outils d'aide à l'annotation, etc.

3. Mise à disposition

Sur le plan technique, la gestion des modes d'accès aux données nécessitera la mise en œuvre d'un système de gestion de contenu (CMS) permettant de paramétrer de façon rationnelle les niveaux de sécurité des divers groupes d'utilisateurs. Par ailleurs, la mise à disposition des données doit s'accompagner d'un véritable outil de recherche sur l'ensemble des ressources. Il sera ainsi possible à l'utilisateur du centre d'effectuer des recherches sur l'ensemble des données mises à disposition via un outil d'interrogation. Cet outil permettra d'effectuer des requêtes sur les métadonnées, bien entendu, mais également - après indexation et lorsque les formats le permettent - sur les données elles-mêmes. Les modalités de stockage, comme indiqué précédemment, permettront de plus d'avoir accès à des échantillons. Au total, il s'agira donc d'un outil de haut niveau, unique en son genre dans le domaine et permettant à tous de disposer rapidement de ressources adéquates pour une projet donné.

Mode de gestion envisagé

Le centre de compétence est adossé au LPL dans le sens où il profitera de son infrastructure technique et administrative. En revanche, il devrait fonctionner avec un certain niveau d'autonomie dépendant des moyens et des ressources humaines dont il bénéficiera. Nous proposons ici un schéma de fonctionnement basé sur un scénario dans lequel le centre disposerait de ressources humaines autonomes.

1. Conseil scientifique

Il est formé par :

organisation_roa.gif

Figure 1 : Organisation du Centre de compétence

Ce conseil, assez large, aura pour rôle de définir la politique du centre et de fixer les choix à moyen terme concernant le type de données à centraliser, les modalités d'accès, leur formatage ou encore les actions ou projets à soutenir. Chacune de ces questions est préparée par une réflexion conduite au sein du centre (s'appuyant notamment sur ses pôles « Technique » et « Projets ») et soumise à l'appréciation du conseil. De plus, le conseil devra sélectionner des projets de création de nouvelles ressources sur la base d'appels à proposition élaborés en fonction des priorités qu'il aura identifiées avec la direction scientifique du CNRS.

2. Conseil technique

Ce conseil est formé par :

Ce conseil a vocation à évaluer régulièrement l'existant en termes de constitution et mise à disposition de données et le comparer avec les choix effectués par le centre. Ses conclusions sont transmises au conseil scientifique.

3. Réseau des utilisateurs

Il est constitué par l'ensemble des utilisateurs de ressources mises à disposition par le centre. Ce réseau est essentiellement virtuel et fonctionne sur la base d'une liste de diffusion électronique, modérée par le centre, et permettant l'échange d'informations, de suggestions, de sollicitations. À terme, après stabilisation du fonctionnement du centre, il sera possible d'envisager l'organisation de journées à destination des membres de ce réseau, permettant de dresser un bilan du fonctionnement, mais pouvait être également l'occasion d'échanger des informations, voire d'organiser des formations sur des ressources, standards ou outils.

4. Pôles

Les pôles représentent les services assurant directement le fonctionnement du centre. Ces pôles s'appuieront pour partie sur les ressources et l'infrastructure du LPL.

En d'autres termes, les projets de création de ressources, en fonction des priorités définies par le conseil scientifique et la direction du CNRS et sur la base d'appels, pourront disposer d'un soutien spécifique en termes de ressources humaines. Dans le cas de projets très lourds et à long terme, un ingénieur ou technicien devrait pouvoir être affecté directement et uniquement au projet et donc être accueilli par l'équipe productrice. Mais le rattachement de ce personnel au centre de compétence reste important pour assurer la cohérence du dispositif. En revanche, pour des projets plus légers et limités dans le temps, des ressources humaines (ingénieur ou assistant ingénieur) relevant directement du centre (et hébergées par lui) seront chargées de son accompagnement. Dans ce second cas, nous mettrons donc en place une mutualisation de certaines ressources humaines pour l'ensemble des laboratoires du domaine.

Contacts internationaux

Le centre de compétence devra établir des contacts institutionnels avec des centres internationaux oeuvrant dans le domaine de la constitution de ressources orales brutes, annotées, ainsi que dans le développement d'outils pour l'utilisation de telles ressources, comme le HCRC (Human Communication Research Centre, Universities of Edinburgh and Glasgow) élaborant notamment un corpus dans le cadre de Map Task, le DFKI (Deutsche Forschungszentrum für Künstliche Intelligenz, Saarbruecken) et ses travaux autour de l'édition (Anvil) ou l'annotation (projets SmartKom, Talk), le MPI ou la Faculté Polytechnique de Mons. Il conviendra également d'établir l'élargir ces relations avec d'autres projets utilisant des corpus (IViE, Switchboard (Architecture and Tools for Linguistic Analysis Systems), GATE (General Architecture for Text Engineering), MATE (Multilevel Annotation, Tools Engineering), XCES (Corpus Encoding Standard for XML) ou NITE (Natural Interactivity Tools Engineering). Par ailleurs, il est bien entendu nécessaire de situer les objectifs du centre et le coordonner par rapport à l'agence ELRA, ainsi que le LDC.

lib/main.php:99 Notice[1024]: Optimizing database

Valid XHTML 1.0! Valid CSS!
Page Execution took real: 1.646, user: 0.530, sys: 0.320 seconds