In "Standards for Tagsets" schlagen Geoffrey Leech und Andrew Wilson folgende Kategorien fü das Taggen von Verben vor:
[cat : v, adm : {+, -}, mod : {ind, konj, juss, opt, imv}, stat : {akt, pas}, temp : {prae, imp, per, pqp, aor, aor2, fut, futi, futp, futpq}, pers : {1, 2, 3}, num : {sg, pl}] [cat : pa, stat : {part, priv, ger, inf, abs}, temp : {prae, per}]
Alle nicht morphologisch am Wort erkennbaren Kategorien werden weggelassen.
[cat : v, adm : {+, -}, mod : {ind, konj, opt, imv}, stat : {akt, pass}, temp : {prae, imp, aor} pers : {1, 2, 3}, num : {sg, pl}] [cat : pa]
Die Partikel wie u, do, le, të können auf verschiedenen Weise getaggt werden:
[cat : pl, merkmal : {pass, konj, juss, fut, konj-pass, abs, inf, ger, priv}]In der folgenden Tabelle sind die tempusanzeigenden Verb-Partikel getaggt:
Partikel | Tag | |
---|---|---|
do | [cat: partikel, merkmal: fut] | |
le | [cat: partikel, merkmal: jus] | |
të | [cat: partikel, merkmal: {fut, konj, jus}] | |
u | [cat: partikel, merkmal: pass, ] | |
t'u | [cat: partikel, merkmal: konj-pass] | |
pa | [cat: partikel, merkmal : priv] | |
duke | [cat: partikel, merkmal : ger] | |
për | [cat: partikel, merkmal : inf] | |
me | [cat: partikel, merkmal : abs] |
Ich habe die Verbendungen des Singular und die Endungen von Adjektiven und Adverben als ASCII-Dateien zusammengestellt.
Auch Zahlen, Satzzeichen, Klammern etc. brauchen ein Tagset. Dabei muß zwischen reinen Zahlen (1 16 ...), Nummerierungen (123A ...), satzabschließenden Satzzeichen (. ? !), einfachen Satzzeichen(, ; : -), öffnenden (( { [ <) und schließenden() } ] >) Klammern, Redemarkierungszeichen (" ' ´ `) und sonstigen Satzzeichen (& % § /) unterschieden werden. Im Folgenden das Tagset:
[cat : nw, type : {nr, code, sentend, mark, openb, closeb, speech, other}]Eine Datei mit diesen Regeln befindet sich hier.