Corpus

Le projet DOC a pour objectif la constitution d’une base de données d’interactions orales pour l’enseignement du français langue étrangère, dans une visée comparative interlangues (français, chinois, espagnol, portugais, italien). Les corpus sont en cours de constitution et archivés au fur et à mesure. Le choix des types d’interactions obéit en amont à des préoccupations didactiques : interactions de commerce, interactions de « sociabilité » (rencontres), interactions pour donner son avis (opinion/débat).

Référence à citer : Savoirs, textes et langage - UMR 8163 (STL) (2022). DOC-STL [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1.2, https://hdl.handle.net/11403/doc-stl/v1.2.

Le langage joue un rôle central dans le développement cognitif de l'enfant : les représentations du monde qu'il se construit sont façonnées par les interactions avec ses parents et la langue d'interaction. Dans le cas des enfants sourds, les langues des signes sont accessibles pleinement et peuvent être transmises de manière naturelle. Le projet Signes en Famille a donc pour objectif de recueillir des échanges spontanés dans des familles où la LSF est une langue de communication, notamment durant le repas familial, afin de faire connaître la LSF et démontrer qu'il s'agit bien d'une des langues en usage en France, dans une pratique quotidienne et naturelle pour des enfants sourds.

Référence à citer : Aliyah Morgenstern, Stéphanie Caët (2021). Signes en famille [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1.1, https://hdl.handle.net/11403/signes-en-famille/v1.1.

Le Corpus FR-L-MIGR-TWIT fait partie du Corpus MIGR-TWIT, corpus diachronique de tweets bilingue sur le sujet de l'immigration en Europe. 
Dans le cadre du projet de recherche OLiNDiNUM (Observatoire LINguistique du DIscours NUMérique), le Corpus MIGR-TWIT est créé en ayant pour objectif d'étudier l'évolution du discours public sur l'immigration en Europe parcourant la période entre 2011 et 2022. Les deux premières composantes représentent les discours de la droite politique sur l'immigration en France et au Royaume-Uni. Le Corpus FR-L-MIGR-TWIT représente les discours de la gauche politique française sur le sujet.  

Référence à citer : Paola Pietrandrea, Sangwan Jeon (2023). CORPUS MIGR-TWIT. Tweets-migr de la gauche politique française. [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1, https://hdl.handle.net/11403/migr-twit-corpus-fr-l/v1.

Le corpus Interdid est constitué de transcriptions d'interactions de classe enregistrées en cours d'histoire et de sciences physiques dans des classes de 4e du département du Nord durant les années scolaires 2021-22 et 2022-23.

Référence à citer : Savoirs, textes et langage - UMR 8163 (STL) (2024). Interactions didactiques dans les disciplines scolaires [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1, https://hdl.handle.net/11403/interdid/v1.

The CLES corpus of spontaneous L2 English comprises recordings of French university students engaging in a 10-minute role-play where two or three candidates delve into an argumentative discussion on contentious topics. Each of the candidates is given a separate role and the objective of the role play is to come to a final agreement at the end of the 10 minute oral. These recordings were made during the oral interaction task of the CLES English certification exam (CLES B2). Each participant is assessed by a professional rater on eight dimensions related to oral production at the B2 level: positioning and negotiation skills, relevance and variety of arguments, interaction aptitude, fluency, phonetic accuracy, coherence, grammatical precision, and lexical diversity and appropriateness. Failure to meet any of these criteria results in a validation at the B1 level, or no validation if proficiency falls below the threshold. Candidates are ultimately classified as B2, B1, or non-validated based on their performance.

Référence à citer : Laboratoire d'informatique de Grenoble - UMR 5217 (LIG), Laboratoire de Linguistique et Didactique des Langues Etrangères et Maternelles - EA 609 (LIDILEM), Institut des Langues et Cultures d'Europe, Amérique, Afrique, Asie et Australie - EA 7356 (ILCEA4), Savoirs, textes et langage - UMR 8163 (STL) (2024). The CLES corpus of spontaneous L2 English [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1, https://hdl.handle.net/11403/cles-spontaneous-english/v1.

CLEAR corpus has been created as part of the CLEAR (Communication, Literacy, Education, Accessibility, Readability) ANR project (ANR-17-CE19-0016-01). The corpus is dedicated to the automatic simplification of general and medical documents in French. Consequently, the corpus contains texts from general and medical French language. The general language is covered by encyclopedia articles from Wikipedia (created for common people) and Vikidia (created for children aged 8 to 13). The medical language is covered by several sources:
   - encyclopedia articles from the Wikipedia medical portal and the corresponding Vikidia articles;
   - drug leaflets containing documents in two versions: for medical professionals (RCP) and for patients (as can be found in drug boxes);
   - Cochrane summaries are related to systematic reviews on different medical questions. The summaries of these reviews exist in two versions: original version for scientists and medical doctors, and adapted version for patients and their families.
CLEAR is a comparable corpus with couples of documents. Within each couple, the common feature corresponds to the topics or question addressed by documents, while the different feature is related to the level of technicity (technical vs. simplified). Hence, the CLEAR corpus contains documents with comparable contents.

A subset of this corpus has been aligned at the level of sentences to provide parallel corpus. This alignment has been done manually.

clear.univ-lille.fr/ressources