Dubbi frequenti su lemmatizzazione e PoS Tagging
"caso mai" o "casomai"?
La trascrizione è casomai, il lemma casomai e la PoS ADV
"dopo di che" o "dopodiché"?
Teniamo i tre token separati, le rispettive PoS sono ADP, ADP, PRON
cosa fare nel caso di dialetto o altre lingue?
Per ora lemmatizziamo con il corrispettivo italiano ma aggiungiamo nella colonna jefferson_feats l’informazione Lang=dia
cosa fare nel caso di acronimi?
In trascrizione gli acronimi sono resi tramite lo spelling. I componenti dello spelling devono però fare parte dello stesso token
caso det/adj?
Usa il criterio morfologico: se la parola può flettere per genere/numero ed è usata in funzione attributiva o predicativa, è ADJ. Se introduce un nome e ne determina la referenza (articolo, dimostrativo, possessivo…), è DET. In caso di dubbio, controlla il De Mauro per la categoria primaria.
caso verb/adj?
Predicazione nominale: contesto ambiguo, guardiamo il contesto. I participi passati usati predicativamente (es. è stanco) sono tipicamente ADJ; quelli che formano i tempi composti (es. ha mangiato) restano VERB.
caso intj/conj?
Se la parola connette due frasi o sintagmi coordinandoli, è CCONJ o SCONJ. Se è un segnale puramente discorsivo senza funzione connettiva, è INTJ. Esempio: insomma può essere sia ADV che INTJ a seconda del contesto; verifica su GREW come è stato annotato nei corpora UD italiani.
sia sia sia che?
La costruzione correlativa sia… sia usa CCONJ per entrambi gli elementi. La costruzione sia… che usa CCONJ per sia e CCONJ per che.
sì/no?
ADV
ok?
INTJ
dai?
Anche se usato come segnale discorsivo, morfologicamente è la seconda persona singolare dell’imperativo di dare. Lemma: dare, POS: VERB.
madonna usato come esclamazione?
Conserva proprietà nominali (una madonna, due madonne). Lemma: Madonna, POS: NOUN.
basta usato come segnale discorsivo?
Morfologicamente è la terza persona singolare del presente indicativo di bastare. Lemma: bastare, POS: VERB.
cosa fare con parole troncate / interruzioni?
Completa il lemma solo se la stessa base lessicale appare in prossimità (il parlante riprende e ripete la parola). Se il parlante cambia parola, usa lemma x e POS X. Non fare ipotesi semantiche.
cosa fare con le parole incomprensibili (XXX)?
Lemma: x, POS: X. Se riascoltando l’audio riesci a trascrivere la parola, puoi correggerla nella colonna form.
del come articolo partitivo (ho comprato del pane)?
Non è una preposizione articolata ma un determinante partitivo. Il parser lo divide spesso erroneamente in di + il: in quel caso elimina le due righe extra e annota la riga originale come lemma del, POS DET.
code switching: parola in inglese o altra lingua?
Lemmatizza secondo la lingua di quella parola. Nella colonna jefferson_feats aggiungi Lang=eng (o Lang=spa, Lang=fre, ecc.). Per il dialetto usa Lang=dia.