Dubbi frequenti su lemmatizzazione e PoS Tagging
"caso mai" o "casomai"?
La trascrizione è casomai, il lemma casomai e la PoS ADV
"dopo di che" o "dopodiché"?
Teniamo i tre token separati, le rispettive PoS sono ADP, ADP, PRON
cosa fare nel caso di dialetto o altre lingue?
Per ora lemmatizziamo con il corrispettivo italiano ma aggiungiamo nella colonna jefferson_feats l’informazione Lang=dia
cosa fare nel caso di acronimi?
In trascrizione gli acronimi sono resi tramite lo spelling. I componenti dello spelling devono però fare parte dello stesso token
caso det/adj?
caso verb/adj?
predicazione nominale: contesto ambiguo, guardiamo il contesto
caso intj/conj?
sia sia sia che?
sì/no?
ADV
ok?
INTJ