Ein vielschichtiger Korpus für Altgriechisch und Latein
Coordinator
Giuseppe Giovanni Antonio Celano, Ph.D.
Grant period
2018 -
Funding body
Deutsche Forschungsgemeinschaft
DFG
Identifier
G:(GEPRIS)408121292
Note: Opera Graeca Adnotata (OGA) und Opera Latina Adnotata (OLA) sind die größten Open Access und skalierbaren morphosyntaktisch annotierten Korpora für Altgriechisch und Latein. Beide verwenden einen Standoff-Annotation-Ansatz, bei dem Token und morphologische und syntaktische Labels in einer Graphenstruktur miteinander verbunden werden. Die Korpora bauen auf den Daten der Ancient Greek and Latin Treebank auf, die verwendet wurden, um einen neuronalen Parser (COMBO) zu trainieren und anschließend die morphosyntaktische Annotation (der meisten) der altgriechischen und lateinischen Texte der Perseus Digital Library zu automatisieren. Derzeit enthält OGA 489 annotierte Dateien (6.488.472 Token und 347.517 Sätze), während OLA 316 (6.755.191 Token und 411.329 Sätze) enthält. Das vorliegende Projekt zielt darauf ab, diese Korpora mit drei weiteren Annotationsschichten anzureichern, die als grundlegend für jedes literarische Korpus gelten: (i) eine orthographische Normalisierungsschicht, (ii) eine phonemische Transkriptionsschicht und (iii) eine vollständige Lemmaschicht. Sowohl die altgriechische als auch die lateinische Orthographie haben sich im Laufe der Zeit aufgrund von Unterschieden in Rechtschreibkonventionen und Dialekten erheblich verändert. Dies erfordert das Hinzufügen einer orthografischen Normalisierungsschicht, die es ermöglicht, Token mit unterschiedlicher Schreibweise nach einer gemeinsamen Form zu gruppieren, wodurch eine Verbindung zwischen ihnen hergestellt wird, die ihren Abruf erleichtert. Eine phonemische Transkriptionsschicht ordnet jedem Token eine phonemische Transkription zu. Da orthographische Systeme Eigenheiten enthalten, dienen phonemische Transkriptionen dem Zweck, einen zuverlässigen Vergleich zwischen Wörtern entlang sowohl der synchronen als auch der diachronen Achse zu ermöglichen. Eine vollständige Lemmaschicht paart einen Token mit einem Wörterbuchlemma, das aus seinem vollständigen Paradigma und nicht nur seiner ersten Komponente besteht, wie dies in den meisten Baumbanken derzeit üblich ist. Nur ein vollständiges Lemma liefert vollständige Informationen über die Morphologie eines Tokens, indem es ein schnelles Wiederauffinden oder Generieren seiner verwandten gebeugten Wortformen und die Vermeidung von Mehrdeutigkeiten, die Ein-Wort-Lemma aufwerfen könnte, ermöglicht.
Recent Publications
There are no publications
Record created 2023-01-19, last modified 2024-11-27