ORTOLANG
A short presentation of ORTOLANG
An EQUIPEX Project submitted in September 2011 and accepted in February 2012
The aim of ORTOLANG (Open Resources and TOols for LANGuage) is to propose a network infrastructure offering a repository of language data (corpora, lexicons, dictionaries, etc) and tools and their treatment that are readily available and well-documented which will:
- enable a real mutualisation of analysis research, of modelling and automatic treatment of our language bringing us up to the best international level;
- facilitate the use and transfer of resources and tools set up within public laboratories towards industrial partners, in particular towards SME which cannot often develop such resources and tools for language treatment due to the costs of their realisation;
- promote the French language and local languages of France by sharing knowledge which has been acquired by public laboratories.
Such equipment also aims to generalise and ensure the perpetuation of the efforts made by the numerical resource centre on language, CNRTL (Centre National de Ressources Textuelles et Lexicales) and the SLDR (Speech and Language Data Repository, formerly known as CRDO-Aix), set up by the CNRS. It has also has the ambition to be used as the French node and support for France’s commitment within the CLARIN infrastructure (Common Language Resources and Technology Infrastructure) of which we have been partners from the very beginning. Lastly, it will be used as a technical language platform, written and oral, support the actions of co-ordination carried out by the TGE-Adonis and the TGIR Corpus, in which our laboratories and resources centres are strongly involved.
The functions that are being considered for this equipment are:
- Identification/preparation of data: cataloguing existing resources and tools through a set of standardised metadata; control and validation of resources and tools: accompany authors with standards, norms and the current international recommendations: XML, TEI, LMF, MAF and SYNAF; enrichment of resources and tools.
- Archiving: storage, maintenance and treatment of resources and tools; long-term preservation, by using the solution set up by the TGE-Adonis who work with CINES.
- Dissemination: accompanying and helping users and installing the procedures which will enable platform users to exploit the shared resources and tools without having to be concerned with their geographical localisation and establishment.
ORTOLANG thus proposes to set up a process which catalogues linguistic data, once it has been created, possibly improving it (or even correcting it), it can then be disseminated and finally added to archives. The ORTOLANG model uses the basic entities of the OAIS model and specifies the cycle of correction/enrichment data of which is made possible by intermediate filing. ORTOLANG proposes to accompany researchers by providing several types of aid: ** Help with data creation: to facilitate access to instruments that enable the acquisition or creation of data (for example digitalisation, soundproof rooms, fast cameras, ocular movements, electroencephalography, articulography, etc). ** Data enrichment : several tools make it possible to enrich raw data automatically (alignment, prosodic analysis, syntactic, etc).
In order to achieve this, we have chosen to gather complementary competencies in our consortium in :
- language sciences with ATILF, the LPL, MoDyCo and the LLL,
- data processing with LORIA and INIST but also partly ATILF and the LPL which are interface laboratories for data processing,
- database and access to scientific information, through INIST, and linguistic resources, with the two resource centres: CNRTL and SLDR (ex CRDO-Aix).
Beyond bringing together these different disciplinary competencies, our objective is also to federate for the equipment of mutualisation of resources and tools on the partner’s languages who represent diverse approaches of the study of language:
- Linguistic Modelling (MoDyCo, LPL and ATILF)
- Experimental Linguistics (LPL, ATILF)
- Language production and perception (LPL, ModyCo)
- Diachronic Studies (ATILF, LLL)
- Sociolinguistics (LLL, ModyCo)
- Automatic Treatment of Languages (LORIA, LPL, ATILF).
- Written data (ATILF, MoDyCo)
- Oral data (LPL, LLL, ModyCo)
This proposal is based on the teams’ well-established experience who propose this excellent equipment. To illustrate this, we would like to clarify below some of the assets in both terms of resources and tools which have already been proposed as part of a national and international insertion.
- The partners assets, resource centres (CNRTL and SLDR) and laboratories will fuel the initial version of the platform with a set of resources and tools and which are already available in their centre and whose competencies cover the three principal aspects concerned: oral data, written data and the patrimonialisation of local languages in France.
- The implication and coherence with the TGE and TGIR in the field include ADONIS and CORPUS. We have been receptive to the TGIR CORPUS by means of our implications in the consortia on written data (J.M. Pierrel member of the steering committee) and on oral data (Ph. Blache member of the steering committee). In addition, our resource centres are operated within ADONIS and a partnership has been set up to exploit the sharing and long term preservation techniques proposed by ADONIS in partnership with CINES.
- The implication and coherence with the European infrastructure CLARIN within which we have been working since the preliminary phases and for which our platform proposes to structure a French sub-network in dialog with the TGIR CORPUS who is responsible for structuring the French side of this project.
- Coherence with the efforts carried out by the DGLFLF and the BNF on the aspects of patrimonialisation of languages in France.
- international co-operation with resource centres on other languages, those participating in the CLARIN infrastructure and in particular the Max Planck Institute, the centre of competence of Treves and similar initiatives undergone in Oxford.
Présentation d'ORTOLANG
Projet EQUIPEX soumis en septembre 2011 et accepté en février 2012
Pages en français sur le site de l'ATILF
ORTOLANG (Open Resources and Tools for Language) a pour but de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés qui :
- permettent, au travers d’une véritable mutualisation, à la recherche sur l’analyse, la modélisation et le traitement automatique de notre langue de se hisser au meilleur niveau international ;
- facilitent l’usage et le transfert des ressources et outils mis en place au sein des laboratoires publics vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation ;
- valorisent le français et les langues de France à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics.
Un tel équipement a aussi pour objectif de généraliser et d’assurer la pérennisation des efforts entrepris à travers les centres de ressources numériques sur la langue : CNRTL (Centre National de Ressources Textuelles et Lexicales) et SLDR (Speech and Language Data Repository, anciennement CRDO-Aix), mis en place par le CNRS. Il a aussi pour ambition de servir tout à la fois de nœud français et de support à l’engagement de la France au sein de l’infrastructure CLARIN (Common Language Resources and Technology Infrastructure) dont nous fumes partenaires dès le début. Enfin, il servira de plateforme technique sur la langue, écrite et orale, support des actions de coordination menées par le TGE ADONIS et la TGIR CORPUS, dans lesquels nos laboratoires et centres de ressources sont fortement impliqués.
Les fonctions envisagées pour cet équipement sont :
- Identification/préparation des données : catalogage des ressources et outils existants à travers un ensemble de métadonnées normalisées ; contrôle et validation des ressources et des outils : accompagnement des auteurs sur les standards, les normes et les recommandations internationales actuelles : XML, TEI, LMF, MAF et SYNAF ; enrichissement de ressources et des outils.
- Archivage : stockage, maintenance et curation des ressources et des outils ; archivage pérenne, à travers la solution mise en place par le TGE ADONIS en lien avec le CINES.
- Diffusion : aide et accompagnement des utilisateurs et mise en place des procédures permettant à des utilisateurs de la plateforme d‘exploiter les ressources et outils mutualisés sans avoir à se soucier de leur localisation et implantation géographiques.
ORTOLANG se propose donc de mettre en place un processus permettant à une donnée linguistique, une fois créée, d’être cataloguée, éventuellement améliorée (voire corrigée), puis diffusée et enfin archivée. Le modèle d’ORTOLANG reprend les entités de base du modèle OAIS en précisant le cycle de correction/enrichissement des données, rendu possible par l’archivage intermédiaire. ORTOLANG propose d’accompagner les chercheurs en fournissant plusieurs types d’aide :
- Aide à la création de données : faciliter l’accès à des instruments permettant l’acquisition ou la création de données (par exemple numérisation, chambre sourde, caméra rapide, mouvements oculaires, électro-encéphalographie, articulographe, etc.).
- Enrichissement de données : plusieurs outils permettent d’enrichir automatiquement les données brutes (d’alignement, analyse prosodique, syntaxique, etc.).
Pour ce faire nous avons choisi de regrouper dans notre consortium des compétences complémentaires en :
- sciences du langage à travers l’ATILF, le LPL, MODYCO et le LLL,
- informatique avec le LORIA et l’INIST mais aussi en partie l’ATILF et le LPL qui demeurent des laboratoires d’interface avec l’informatique,
- bases de données et accès à l’information scientifique, à travers l’INIST, et à des ressources linguistiques, à travers les deux centres de ressources que sont le CNRTL et le SLDR (ex CRDO-Aix).
Au-delà de la réunion de ces compétences disciplinaires différentes notre objectif a été aussi de fédérer pour cet équipement de mutualisation de ressources et d’outils sur la langue des partenaires représentant la diversité des approches d’étude de la langue :
- Modélisation Linguistique (MoDyCo, LPL et ATILF)
- Linguistique expérimentale (LPL, ATILF)
- Production et de perception du langage (LPL, ModyCo)
- Études diachroniques (ATILF, LLL)
- Sociolinguistique (LLL, ModyCo)
- Traitement Automatique des Langues (LORIA, LPL, ATILF).
- Ecrit (ATILF, MoDyCo)
- Oral (LPL, LLL, ModyCo)
Cette proposition s’appuie sur une expérience acquise déjà importante des équipes proposant cet équipement d’excellence. A titre illustratif, nous explicitons ci-dessous quelques atouts tant en termes de ressources et outils déjà proposés que d’insertion nationale et internationale :
- L’acquis des partenaires, centres de ressources (CNRTL et SLDR) et laboratoires qui alimenteront la version initiale de la plateforme avec un ensemble de ressources et d’outils déjà disponibles en leur sein et dont les compétences recouvrent les trois principaux aspects visés : l’oral, l’écrit et la patrimonialisation des parlers de France.
- L’implication et la cohérence avec les TGE et TGIR du domaine que sont ADONIS et CORPUS. Nous sommes partie prenante de la TGIR CORPUS à travers nos implications dans les consortiums sur l’écrit (J.M. Pierrel membre du comité de pilotage) et sur l’Oral (Ph. Blache membre du comité de pilotage). Par ailleurs nos centres de ressources sont opérateurs au sein du TGE ADONIS et un partenariat est mis en place pour exploiter la solution d’archivage et de pérennisation à long terme proposée par ADONIS en partenariat avec le CINES.
- L’implication et la cohérence avec l’infrastructure européenne CLARIN au sein de laquelle nous travaillons depuis la phase préliminaire et dont notre plateforme se propose de structurer un sous-réseau français en concertation avec la TGIR CORPUS qui a en charge de structurer le volet français de cette architecture.
- La cohérence avec les efforts menés par la DGLFLF et la BNF sur les aspects patrimonialisation des parlers de France.
- Les coopérations internationales avec des centres de ressources sur d’autres langues, ceux participants à l’infrastructure CLARIN et plus particulièrement le Max Planck Institute, le centre de compétence de Trèves et les initiatives de type analogue menées à Oxford.
Contact
http://www.atilf.fr/spip.php?rubrique591
Jean-Marie Pierrel, professeur à l'Université de Lorraine
Directeur de l'ATILF (Université de Lorraine & CNRS) Analyse et Traitement Informatique
de la Langue Française
Responsable du CNRTL-CNRS, Centre National de Ressources Textuelles et Lexicales
44, avenue de la Libération
BP 30687
54063 Nancy cedex
Tél. : 03 54 50 52 85 ou 06 88 38 87 32
Jean-Marie.Pierrel(arobase)atilf.fr
