Nova Deliverable iRead4Skills: Corpora anotados por nível de complexidade para FR, PT e SP
Temos o prazer de anunciar o lançamento do Dataset 2: Annotated Corpora by Level of Complexity for French (FR), Portuguese (PT), and Spanish (SP). Este conjunto de dados é uma coleção de textos categorizados por nível de complexidade e anotados para caraterísticas de complexidade, apresentados em formato Excel (.xlsx). Os corpora foram compilados e anotados no âmbito do projeto iRead4Skills.
O Dataset 2 é derivado do Dataset 1: Corpora by Level of Complexity for FR, PT, and SP (DOI: 10.5281/zenodo.10055909), que consiste em textos escritos de vários géneros e níveis de complexidade. Uma amostra de textos do Dataset 1 foi selecionada para classificação e anotação, fornecendo dados adicionais e conjuntos de teste para os sistemas de análise de complexidade nas três línguas do projeto.
Recolha de dados e processo de anotação
As tarefas de classificação e anotação foram efectuadas através de uma metodologia estruturada:
– Os textos foram distribuídos por Centros de Educação de Adultos (EA) e de Formação Profissional (FP), onde formadores e alunos participaram em tarefas de classificação.
– A classificação foi efectuada através da plataforma Qualtrics, garantindo uma abordagem padronizada.
– Os participantes atribuíram aos textos um de quatro níveis de complexidade:
- Muito fácil (140 textos) – Facilmente compreendido por todos.
Fácil (140 textos) – Compreensível para quem tem menos de 9 anos de escolaridade. - Simples (140 textos) – Legível ao nível do 9º ano de escolaridade.
- Mais complexo (42 textos) – Desafiante para pessoas com o 9º ano de escolaridade.
Para mais pormenores sobre o processo de anotação, descrições de dados e acordo entre anotadores, consulte a documentação disponível em Zenodo.