Guida pratica alla correzione di lemmatizzazione e POS-tagging del KIParla
1. Contesto del lavoro
Il tuo compito non è annotare da zero, ma: * partire da un file già lemmatizzato e POS-taggato automaticamente; * verificare e correggere manualmente lemma e POS quando necessario; * seguire in modo coerente le linee guida di Universal Dependencies (UD).
L’obiettivo è migliorare la qualità dell’annotazione, soprattutto nei casi tipici dell’italiano parlato.
2. Riferimenti fondamentali (da consultare spesso)
Framework generale - Universal Dependencies:
Ci basiamo sul framework Universal Dependencies (UD), che fornisce: * un insieme standard di parts of speech (POS); * regole di annotazione morfosintattica; * linee guida per la lemmatizzazione.
Universal Dependencies è un progetto per creare treebank annotati comparabili tra lingue. I principali concetti: * Lemma: forma di base di una parola (es. andare per andavo); * POS tag: categoria grammaticale (es. VERB, NOUN, ADJ, …); * Morfologia: attributi aggiuntivi (numero, genere, tempo, modo, …). NB. per ora non la annotiamo!
Risorse utili:
3. File di lavoro
Il lavoro principale si svolge su un file excel ma alla fine della correzione l’informazione verrà trasportata nel formato standard delle UD, ovvero CoNLL-U
I file sono in formato tabulare (TSV) e contengono almeno:
-
forma (token così come appare nel parlato);
-
lemma;
-
POS tag UD.
Del nostro file di lavoro ci interessano principalmente le colonne:
-
token_id: identificatore unico del token
-
span: la trascrizione originale
-
form: la trascrizione in versione ortografica
-
lemma
-
UPOS
Un esempio di file la cui annotazione è stata già corretta si può trovare qui
4. Cosa correggere
Approccio del progetto KIParla Forest
La lemmatizzazione ed annotazione del KIParla è stata brevemente descritta nel progetto "KIParla Forest", la treebank sintattica del KIParla: articolo
Lemmatizzazione
Il lemma è la forma citazionale del token (quella che cercheresti nel dizionario).
Controlla che il lemma sia una forma canonica (infinito per i verbi, singolare maschile per nomi/aggettivi, quando appropriato).
Cose da tenere a mente:
-
I nomi propri vanno lemmatizzati con la lettera maiuscola
-
sigle (es. RSA o CGIL): nella trascrizione a volte vengono trascritte con uno spazio tra le lettere (
erre esse a), altre volte univerbate (cigielle). Vanno riportate alla forma univerbata e lemmatizzate come da standard italiano (es.R.S.A.,CGIL)
5. Uso di GREW per i dubbi
GREW serve per:
-
cercare come casi simili sono annotati in altri corpora UD;
-
confrontare lemma e POS in contesti simili.
Link utili:
-
Tutorial, molto più ampio ed esteso di quanto sia utile per il task di lemmatizzazione
Per ora è sufficiente: