Skip to main content

Nouvelles

mercredi, février 05, 2025

D3.7 Corpora annotés par niveau de complexité pour FR, PT, et SP

Nous avons le plaisir d’annoncer la publication de l’ensemble de données 2 : Corpora annotés par niveau de complexité pour le français (FR), le portugais (PT) et l’espagnol (SP). Ce jeu de données est une collection de textes classés par niveau de complexité et annotés pour les caractéristiques de complexité, présentés en format Excel (.xlsx). Les corpus ont été compilés et annotés dans le cadre du projet iRead4Skills.

L’ensemble de données 2 est dérivé de l’ensemble de données 1 : corpus par niveau de complexité pour FR, PT et SP (DOI : 10.5281/zenodo.10055909), qui se compose de textes écrits de différents genres et niveaux de complexité. Un échantillon de textes de l’ensemble de données 1 a été sélectionné pour la classification et l’annotation, fournissant des données supplémentaires et des ensembles de tests pour les systèmes d’analyse de la complexité dans les trois langues du projet.

Collecte des données et processus d’annotation
Les tâches de classification et d’annotation ont été réalisées selon une méthodologie structurée :

– Les textes ont été distribués aux centres d’éducation des adultes et de formation professionnelle, où les formateurs et les étudiants ont participé aux tâches de classification.
– La classification a été effectuée via la plateforme Qualtrics, garantissant ainsi une approche standardisée.
– Les participants ont classé les textes dans l’un des quatre niveaux de complexité suivants

  • Très facile (140 textes) – Facilement compréhensible par tous.
  • Facile (140 textes) – Compréhensible pour les personnes ayant moins de 9 ans de scolarité.
  • Simple (140 textes) – Lisible à un niveau de 9e année.
  • Plus complexe (42 textes) – Difficile à lire pour des personnes ayant un niveau d’éducation de 9 ans.

Pour plus de détails sur le processus d’annotation, la description des données et l’accord entre les annotateurs, veuillez vous référer à la documentation disponible sur le site Zenodo.

Disclaimer: Le point de vue et les opinions exprimés proviennent des auteurs uniquement et ne reflètent pas nécessairement ceux de l’Union européenne ou de l’Agence exécutive européenne de la recherche. Ni l’Union européenne ni l’autorité d’octroi ne peuvent en être tenues responsables.

iRead4Skills - Intelligent Reading Improvement System pour améliorer les compétences en lecture.
Contactez-nous
Newsletter
Réseaux sociaux