Ressources
Corpus
Le projet DOC a pour objectif la constitution d’une base de données d’interactions orales pour l’enseignement du français langue étrangère, dans une visée comparative interlangues (français, chinois, espagnol, portugais, italien). Les corpus sont en cours de constitution et archivés au fur et à mesure. Le choix des types d’interactions obéit en amont à des préoccupations didactiques : interactions de commerce, interactions de « sociabilité » (rencontres), interactions pour donner son avis (opinion/débat).
Référence à citer : Savoirs, textes et langage - UMR 8163 (STL) (2022). DOC-STL [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1.2, https://hdl.handle.net/11403/doc-stl/v1.2.
Le langage joue un rôle central dans le développement cognitif de l'enfant : les représentations du monde qu'il se construit sont façonnées par les interactions avec ses parents et la langue d'interaction. Dans le cas des enfants sourds, les langues des signes sont accessibles pleinement et peuvent être transmises de manière naturelle. Le projet Signes en Famille a donc pour objectif de recueillir des échanges spontanés dans des familles où la LSF est une langue de communication, notamment durant le repas familial, afin de faire connaître la LSF et démontrer qu'il s'agit bien d'une des langues en usage en France, dans une pratique quotidienne et naturelle pour des enfants sourds.
Référence à citer : Aliyah Morgenstern, Stéphanie Caët (2021). Signes en famille [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1.1, https://hdl.handle.net/11403/signes-en-famille/v1.1.
Le Corpus FR-L-MIGR-TWIT fait partie du Corpus MIGR-TWIT, corpus diachronique de tweets bilingue sur le sujet de l'immigration en Europe.
Dans le cadre du projet de recherche OLiNDiNUM (Observatoire LINguistique du DIscours NUMérique), le Corpus MIGR-TWIT est créé en ayant pour objectif d'étudier l'évolution du discours public sur l'immigration en Europe parcourant la période entre 2011 et 2022. Les deux premières composantes représentent les discours de la droite politique sur l'immigration en France et au Royaume-Uni. Le Corpus FR-L-MIGR-TWIT représente les discours de la gauche politique française sur le sujet.
Référence à citer : Paola Pietrandrea, Sangwan Jeon (2023). CORPUS MIGR-TWIT. Tweets-migr de la gauche politique française. [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1, https://hdl.handle.net/11403/migr-twit-corpus-fr-l/v1.
Le corpus Interdid est constitué de transcriptions d'interactions de classe enregistrées en cours d'histoire et de sciences physiques dans des classes de 4e du département du Nord durant les années scolaires 2021-22 et 2022-23.
Référence à citer : Savoirs, textes et langage - UMR 8163 (STL) (2024). Interactions didactiques dans les disciplines scolaires [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1, https://hdl.handle.net/11403/interdid/v1.
Bases de données
B ases de vecteurs de mots (word embeddings) générés à l'aide de l'outil fastText (Facebook research), à partir du corpus FrTenTen (10 milliards de mots).
Les bases ont été constituées à partir d'une version normalisée du corpus FrTenTen: les mots pleins ont été remplacés par leur lemme, la plupart des mots-outils par leur catégorie morpho-syntaxique, et les entités numériques par le code NB, afin d'aider l'algorithme de vectorisation à identifier des similarités.
Référence à citer : Savoirs, textes et langage - UMR 8163 (STL) (2019). FrVectors [Outil]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1, https://hdl.handle.net/11403/frvectors/v1.