Hlavní stránka/Archiv/2025, ročník 108 / číslo 1

Obálka

Počet zobrazení: 337
Rok 2025, ročník 108, číslo 1

Tiráž

Počet zobrazení: 284
Rok 2025, ročník 108, číslo 1

Obsah

Počet zobrazení: 642
Rok 2025, ročník 108, číslo 1s. 1
Rok 2025, ročník 108, číslo 1s. 59–64
Rok 2025, ročník 108, číslo 1s. 65–68

Jerky

Koutová, MartaPočet zobrazení: 816recenzovaný článek
Rok 2025, ročník 108, číslo 1s. 69–75

Z jazykové poradny

Počet zobrazení: 649
Rok 2025, ročník 108, číslo 1s. 76

Knihy zaslané redakci

Počet zobrazení: 580
Rok 2025, ročník 108, číslo 1

Pokyny pro autory

Počet zobrazení: 658
Rok 2025, ročník 108, číslo 1

Obálka

Počet zobrazení: 327
Rok 2025, ročník 108, číslo 1

Automatická morfologická disambiguace korpusů řady SYN: spolupráce lingvistické introspekce a strojového učení

Rok 2025, ročník 108, číslo 1

Datum publikování: 3.2025
Autor: Petkevič, Vladimír
Autor: Jelínek, Tomáš
Klíčová slova: annotation process, automatic morphological tagging, corpora of the SYN series, global identifiers, LanGr as a programming language, LanGr as a rule system, linguistically motivated rules, machine learning, MorphoDiTa, morphological disambiguation, automatické morfologické značkování, globální identifikátory, korpusy řady SYN, LanGr jako programovací jazyk, LanGr jako systém pravidel, lingvisticky motivovaná pravidla, morfologická disambiguace, proces anotace, strojové učení
Abstrakt: The paper deals with the current method of automatic morphological tagging of corpora of contemporary Czech of the SYN series and other corpora within the Czech National Corpus. From SYN2020 onwards, the corpora are annotated on the basis of an improved concept. The paper starts with a brief description of newly introduced features concerning tokenization and lemmatization (introduction of sublemmata), and of the tagging of multiword tokens (i.e. compound forms like abys, cos); a new attribute, verbtag, is also presented. Then the successive steps of the entire annotation process are described. The core of the paper provides a detailed description of the procedure of automatic morphological disambiguation, namely the combination of two methodologically different approaches: the LanGr system of linguistically motivated disambiguation rules based on introspection, and the MorphoDiTa tool based on machine learning – we call this combination a hybrid approach. Particular emphasis is laid on the detailed characterization of the LanGr system, primarily on compiling specific lists of bigrams and trigrams of lemmas and forms labeled as global identifiers and on using these identifiers in disambiguation rules. The success rate of the hybrid system compared to the success rate of the stand-alone MorphoDiTa system is also presented and plans are briefly outlined for further development of our hybrid morphological tagging approach.
Rubrika: Hlavní články
Rozsah stran: s. 3–40
Status recenzování: recenzovaný článek
Licence: CC BY 4.0

Citace (ISO 690)

PETKEVIČ, Vladimír a Tomáš JELÍNEK. Automatická morfologická disambiguace korpusů řady SYN: spolupráce lingvistické introspekce a strojového učení. Naše řeč. Praha: Česká akademie císaře Františka Josefa pro vědy, slovesnost a umění, 03.2025, 108(1), 3-40. DOI: https://doi.org/10.58756/n11082501. ISSN 0027-8203.

Dostupné také z:
http://asjournals.lib.cas.cz/naserec/article/uuid:cb69bb3c-09e2-4de1-8f37-e186dc28be22/detail