DFG project G:(GEPRIS)411066783

Sprachvergleichende Phonetik und Morphologie mit einem zeit-alinierten Referenzkorpus aus Dokumentationen von 50 Sprachen: Big Data on Small Languages

CoordinatorPrivatdozent Dr. Frank Seifart
Grant period2019 - 2023
Funding bodyDeutsche Forschungsgemeinschaft
 DFG
IdentifierG:(GEPRIS)411066783

Note: Sprechgeschwindigkeit und Pausen ermöglichen es, die kognitiv-neuronalen und physiologisch-artikulatorischen Grundlagen der menschlichen Sprachproduktion besser zu verstehen. Die Variation zwischen Sprachen ist dabei allerdings noch kaum erforscht worden. Das Projekt füllt diese Forschungslücke, indem es Spontansprache in einer diversen Stichprobe von 50 Sprachen untersucht. Zu diesem Zweck soll ein multilinguales Referenzkorpus von Sprachdokumentationsdaten ertellt werden, die aus Audioaufnahmen mit assoziierten Annotationen bestehen, z.B. aus The Language Archive (TLA), vorwiegend aus den DOBES-Sammlungen. DoReCo wird aus Daten zusammengestellt, die bereits auf der Äußerungsebene transkribiert und übersetzt sind. In dem vorgeschlagenen Projekt sollen diese Daten auf der Ebene von Phonemen zeitlich aliniert werden. Wir haben 50 Sprachen identifiziert, von denen Korpora von jeweils mindestens 10,000 Wörtern aufgenommen werden können, und eine Untergruppe von mindestens 30 werden zusätzlich nach Morphemgrenzen und Morphemglossen annotiert werden. Subkorpora und Annotationen werden dabei als zitierbare Publikationen bereitgestellt, mit einem permanenten Identifiaktor und einer CC BY 4.0-Lizens. Das DoReCo-Korpus wird einen nachhaltigen Einfluss über die spezifischen Forschungsziele hinaus haben, als eine Plattform, die leichten Zugang zu über einere Million Wörtern von zeitalinierten Korpusdaten zu Sprachdaten in 50 Sprachen bietet. Das stellt einen neuartigen Beitrag für die offene, reproduzierbare wissenschaftliche Erforschung des globalen linguistichen und kulturellen Erbes dar. Die beiden spezifischen Forschungszwecke von DoReCo beziehen sich auf die universellen Eigenschaften von menschlicher Sprache, die auf die artikulatorischen und kognitiven Beschränkungen zurückzuführen sind. Erstens untersuchen wir Muster der phonetischen Längung von Phonemen mit dem Ziel, universelle und sprachspezifische Regeln zu erkennen (z.B. der Längung von Vokalen vs. Konsonanten). Wir untersuchen insbesondere wort- und äußerungsfinale Längungen, welche auf kognitiven Beschränkungen der Äußerungsplanung und eventuell auf der Signalisierung von prosodischen Einheiten beruhen. Zweitens untersuchen wir universale und sprachspezifische Muter in der zeitlichen Verteilung von Morphemen im Hinblick auf die Informationsdichte (Morpheme pro Sekunde) und der Zahl der Morpheme in Sprecheinheiten zwischen Pausen, die beide von kognitiven Beschränkungen abhängen. Das Projekt wird durch ein interdisziplinäres Team ausgeführt, welches Expertise in der Sprachdokumentation, Phonetik, Sprachtypologie und quantitativen Linguistik zusammenbringt; es wird an zwei forschungsstarken Einrichtungen in Deutschland und Frankreich durchgeführt.
   

Recent Publications

There are no publications


 Record created 2023-01-19, last modified 2024-09-28