Ressources
Corpus
Le projet DOC a pour objectif la constitution d’une base de données d’interactions orales pour l’enseignement du français langue étrangère, dans une visée comparative interlangues (français, chinois, espagnol, portugais, italien). Les corpus sont en cours de constitution et archivés au fur et à mesure. Le choix des types d’interactions obéit en amont à des préoccupations didactiques : interactions de commerce, interactions de « sociabilité » (rencontres), interactions pour donner son avis (opinion/débat).
Référence à citer : Savoirs, textes et langage - UMR 8163 (STL) (2022). DOC-STL [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1.2, https://hdl.handle.net/11403/doc-stl/v1.2.
Le langage joue un rôle central dans le développement cognitif de l'enfant : les représentations du monde qu'il se construit sont façonnées par les interactions avec ses parents et la langue d'interaction. Dans le cas des enfants sourds, les langues des signes sont accessibles pleinement et peuvent être transmises de manière naturelle. Le projet Signes en Famille a donc pour objectif de recueillir des échanges spontanés dans des familles où la LSF est une langue de communication, notamment durant le repas familial, afin de faire connaître la LSF et démontrer qu'il s'agit bien d'une des langues en usage en France, dans une pratique quotidienne et naturelle pour des enfants sourds.
Référence à citer : Aliyah Morgenstern, Stéphanie Caët (2021). Signes en famille [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1.1, https://hdl.handle.net/11403/signes-en-famille/v1.1.
Le Corpus FR-L-MIGR-TWIT fait partie du Corpus MIGR-TWIT, corpus diachronique de tweets bilingue sur le sujet de l'immigration en Europe.
Dans le cadre du projet de recherche OLiNDiNUM (Observatoire LINguistique du DIscours NUMérique), le Corpus MIGR-TWIT est créé en ayant pour objectif d'étudier l'évolution du discours public sur l'immigration en Europe parcourant la période entre 2011 et 2022. Les deux premières composantes représentent les discours de la droite politique sur l'immigration en France et au Royaume-Uni. Le Corpus FR-L-MIGR-TWIT représente les discours de la gauche politique française sur le sujet.
Référence à citer : Paola Pietrandrea, Sangwan Jeon (2023). CORPUS MIGR-TWIT. Tweets-migr de la gauche politique française. [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1, https://hdl.handle.net/11403/migr-twit-corpus-fr-l/v1.
Le corpus Interdid est constitué de transcriptions d'interactions de classe enregistrées en cours d'histoire et de sciences physiques dans des classes de 4e du département du Nord durant les années scolaires 2021-22 et 2022-23.
Référence à citer : Savoirs, textes et langage - UMR 8163 (STL) (2024). Interactions didactiques dans les disciplines scolaires [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1, https://hdl.handle.net/11403/interdid/v1.
The CLES corpus of spontaneous L2 English comprises recordings of French university students engaging in a 10-minute role-play where two or three candidates delve into an argumentative discussion on contentious topics. Each of the candidates is given a separate role and the objective of the role play is to come to a final agreement at the end of the 10 minute oral. These recordings were made during the oral interaction task of the CLES English certification exam (CLES B2). Each participant is assessed by a professional rater on eight dimensions related to oral production at the B2 level: positioning and negotiation skills, relevance and variety of arguments, interaction aptitude, fluency, phonetic accuracy, coherence, grammatical precision, and lexical diversity and appropriateness. Failure to meet any of these criteria results in a validation at the B1 level, or no validation if proficiency falls below the threshold. Candidates are ultimately classified as B2, B1, or non-validated based on their performance.
Référence à citer : Laboratoire d'informatique de Grenoble - UMR 5217 (LIG), Laboratoire de Linguistique et Didactique des Langues Etrangères et Maternelles - EA 609 (LIDILEM), Institut des Langues et Cultures d'Europe, Amérique, Afrique, Asie et Australie - EA 7356 (ILCEA4), Savoirs, textes et langage - UMR 8163 (STL) (2024). The CLES corpus of spontaneous L2 English [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1, https://hdl.handle.net/11403/cles-spontaneous-english/v1.
CLEAR corpus has been created as part of the CLEAR (Communication, Literacy, Education, Accessibility, Readability) ANR project (ANR-17-CE19-0016-01). The corpus is dedicated to the automatic simplification of general and medical documents in French. Consequently, the corpus contains texts from general and medical French language. The general language is covered by encyclopedia articles from Wikipedia (created for common people) and Vikidia (created for children aged 8 to 13). The medical language is covered by several sources:
- encyclopedia articles from the Wikipedia medical portal and the corresponding Vikidia articles;
- drug leaflets containing documents in two versions: for medical professionals (RCP) and for patients (as can be found in drug boxes);
- Cochrane summaries are related to systematic reviews on different medical questions. The summaries of these reviews exist in two versions: original version for scientists and medical doctors, and adapted version for patients and their families.
CLEAR is a comparable corpus with couples of documents. Within each couple, the common feature corresponds to the topics or question addressed by documents, while the different feature is related to the level of technicity (technical vs. simplified). Hence, the CLEAR corpus contains documents with comparable contents.
A subset of this corpus has been aligned at the level of sentences to provide parallel corpus. This alignment has been done manually.
Bases de données
Démonette 2.0. est une base de données morphologiques du français composée de la description de 222 118 couples de lexèmes appartenant à la même famille de mots. Elle comporte une description des propriétés des lexèmes et de leurs relations. Les propriétés des couples sont enregistrées dans la table des relations, et celles des lexèmes dans la table des lexèmes.
Elle inclut des tutoriels d’utilisation à destination des professionnels de la langue et du langage qui souhaiteraient l’utiliser.
Démonette 2.0 a été produite dans le cadre de l’ANR 17-CE23-0005 (2018-2022) portée par F. Namer (ATILF, UMR 7118 CNRS & Université de Lorraine), dont STL était partenaire scientifique.
Lien d’accès ici.
You can download the annotated ‘REM’ dataset (see the Excel file) for the project “Rethinking English Modal constructions”. This dataset, used in Chapters 3, 4, 5 and 8 of the book*, is a random sample of approximately 5,000 tokens of modal verbs extracted from the Corpus of Contemporary American English (COCA). It consists of circa 500 instances, embedded in some context, of each of the following ten modal verbs: can, could, may, might, be able to, must, should, ought to, need (to) and have to. These corpus examples have been annotated with respect to 36 syntactic, semantic, pragmatic and lexical variables, as explained in detail in the downloadable annotation guide (see the pdf file).
The supplementary material for Chapter 5 includes the 586 data points with annotations from the REM data that were used for the analysis of the corpus data, the 1,600 preference ratings from the experiment, as well as R scripts to reproduce the analyses in the chapter.
There is also a GitHub repository for Chapter 6 for datasets analysed and full model results for all investigated constructions in that chapter. The datasets contain the normalized frequencies of constructions with the metadata of respective speakers for analysis. The model results provide details on the quasipoisson models reported in the chapter, obtained with glm in R.
*Depraetere, Ilse, Cappelle, Bert, Hilpert, Martin, De Cuypere, Ludovic, Dehouck, Mathieu, Denis, Pascal, Flach, Susanne, Grabar, Natalia, Grandin, Cyril, Hamon, Thierry, Hufeld, Clemens, Leclercq, Benoît and Schmid, Hans-Jörg (2023).Models of Modals: From Pragmatics and Corpus Linguistics to Machine Learning, Berlin, Boston: De Gruyter Mouton. https://doi.org/10.1515/9783110734157
Bases de vecteurs de mots (word embeddings) générés à l'aide de l'outil fastText (Facebook research), à partir du corpus FrTenTen (10 milliards de mots).
Les bases ont été constituées à partir d'une version normalisée du corpus FrTenTen: les mots pleins ont été remplacés par leur lemme, la plupart des mots-outils par leur catégorie morpho-syntaxique, et les entités numériques par le code NB, afin d'aider l'algorithme de vectorisation à identifier des similarités.
Référence à citer : Savoirs, textes et langage - UMR 8163 (STL) (2019). FrVectors [Outil]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1, https://hdl.handle.net/11403/frvectors/v1.