Table Of Contents

ORTOLANG
  A short presentation of ORTOLANG
  Présentation d'ORTOLANG
  Contact

ORTOLANG

A short presentation of ORTOLANG

An EQUIPEX Project submitted in September 2011 and accepted in February 2012

The aim of ORTOLANG (Open Resources and TOols for LANGuage) is to propose a network infrastructure offering a repository of language data (corpora, lexicons, dictionaries, etc) and tools and their treatment that are readily available and well-documented which will:

Such equipment also aims to generalise and ensure the perpetuation of the efforts made by the numerical resource centre on language, CNRTL (Centre National de Ressources Textuelles et Lexicales) and the SLDR (Speech and Language Data Repository, formerly known as CRDO-Aix), set up by the CNRS. It has also has the ambition to be used as the French node and support for France’s commitment within the CLARIN infrastructure (Common Language Resources and Technology Infrastructure) of which we have been partners from the very beginning. Lastly, it will be used as a technical language platform, written and oral, support the actions of co-ordination carried out by the TGE-Adonis and the TGIR Corpus, in which our laboratories and resources centres are strongly involved.

The functions that are being considered for this equipment are:

ORTOLANG thus proposes to set up a process which catalogues linguistic data, once it has been created, possibly improving it (or even correcting it), it can then be disseminated and finally added to archives. The ORTOLANG model uses the basic entities of the OAIS model and specifies the cycle of correction/enrichment data of which is made possible by intermediate filing. ORTOLANG proposes to accompany researchers by providing several types of aid: ** Help with data creation: to facilitate access to instruments that enable the acquisition or creation of data (for example digitalisation, soundproof rooms, fast cameras, ocular movements, electroencephalography, articulography, etc). ** Data enrichment : several tools make it possible to enrich raw data automatically (alignment, prosodic analysis, syntactic, etc).

In order to achieve this, we have chosen to gather complementary competencies in our consortium in :

Beyond bringing together these different disciplinary competencies, our objective is also to federate for the equipment of mutualisation of resources and tools on the partner’s languages who represent diverse approaches of the study of language:

This proposal is based on the teams’ well-established experience who propose this excellent equipment. To illustrate this, we would like to clarify below some of the assets in both terms of resources and tools which have already been proposed as part of a national and international insertion.


Présentation d'ORTOLANG

Projet EQUIPEX soumis en septembre 2011 et accepté en février 2012

ORTOLANG (Open Resources and Tools for Language) a pour but de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés qui :

Un tel équipement a aussi pour objectif de généraliser et d’assurer la pérennisation des efforts entrepris à travers les centres de ressources numériques sur la langue : CNRTL (Centre National de Ressources Textuelles et Lexicales) et SLDR (Speech and Language Data Repository, anciennement CRDO-Aix), mis en place par le CNRS. Il a aussi pour ambition de servir tout à la fois de nœud français et de support à l’engagement de la France au sein de l’infrastructure CLARIN (Common Language Resources and Technology Infrastructure) dont nous fumes partenaires dès le début. Enfin, il servira de plateforme technique sur la langue, écrite et orale, support des actions de coordination menées par le TGE ADONIS et la TGIR CORPUS, dans lesquels nos laboratoires et centres de ressources sont fortement impliqués.

Les fonctions envisagées pour cet équipement sont :

ORTOLANG se propose donc de mettre en place un processus permettant à une donnée linguistique, une fois créée, d’être cataloguée, éventuellement améliorée (voire corrigée), puis diffusée et enfin archivée. Le modèle d’ORTOLANG reprend les entités de base du modèle OAIS en précisant le cycle de correction/enrichissement des données, rendu possible par l’archivage intermédiaire. ORTOLANG propose d’accompagner les chercheurs en fournissant plusieurs types d’aide :

Pour ce faire nous avons choisi de regrouper dans notre consortium des compétences complémentaires en :

Au-delà de la réunion de ces compétences disciplinaires différentes notre objectif a été aussi de fédérer pour cet équipement de mutualisation de ressources et d’outils sur la langue des partenaires représentant la diversité des approches d’étude de la langue :

Cette proposition s’appuie sur une expérience acquise déjà importante des équipes proposant cet équipement d’excellence. A titre illustratif, nous explicitons ci-dessous quelques atouts tant en termes de ressources et outils déjà proposés que d’insertion nationale et internationale :

Contact

http://www.atilf.fr/spip.php?rubrique591

Jean-Marie Pierrel, professeur à l'Université de Lorraine
Directeur de l'ATILF (Université de Lorraine & CNRS) Analyse et Traitement Informatique de la Langue Française
Responsable du CNRTL-CNRS, Centre National de Ressources Textuelles et Lexicales
44, avenue de la Libération
BP 30687
54063 Nancy cedex
Tél. : 03 54 50 52 85 ou 06 88 38 87 32
Jean-Marie.Pierrel(arobase)atilf.fr

Valid XHTML 1.0! Valid CSS!
Page Execution took real: 2.052, user: 0.780, sys: 0.340 seconds