Morphemaussprachelexikon fürs Deutsche

Andreas Mengel: Morphemaussprachelexikon fürs Deutsche

Andreas Mengel
mengel@kgw.tu-berlin.de
Institut für Kommunikationswissenschaft, TU Berlin


Motivation

In den letzten Jahren hat sich herausgestellt, daß Morpheme für die Erzielung akzeptabler Ergebnisse bei der automatischen Umsetzung deutscher orthographischer Texte in Lautschrift eine zentrale Rolle spielen. So zeigt sich dieser Ansatz bei der Bestimmung von Silbengrenzen und Lauteigenschaften im Vergleich zu verschiedensten anderen Ansätzen überlegen (Mengel & Rosenke 1995). Auf diesen Ergebnissen aufbauend wurde ein Morphemaussprachelexikon fürs Deutsche erstellt. Neben der einfachen Tatsache, daß ein Morphemaussprachelexikon die Reihe verfügbarer Datenbasen zum Deutschen weiter vervollständigt, sind mit dem Aufbau dieses Lexikons folgende Ziele verbunden: Die Verbesserung der automatischen Transkription deutscher Wörter, die Untersuchung des segmentellen Aufbaus verschiedener Morphemtypen und die Untersuchung von Intonationsmustern morphologisch komplexer Wörter.

Gerade die Untersuchung der Intonationsstruktur morphologisch komplexer Wörter auf Signalebene, die typischerweise in zu synthetisierenden Texten (Schriftsprache) auftreten, hat bisher gegenüber der Untersuchung von Satzintonationsphänomenen wenig Beachtung erfahren. Sie bedarf der Fundierung durch symbolisch repräsentierten Wissens. Auf der Wortebene bieten sich dafür Laute, Silben, Morpheme und Wörter als Einheiten an. Der hier verfolgte Ansatz geht aufgrund der vorgenannten Ergebnisse davon aus, daß es sich bei der Fundierung der Analyse von Intonationsstrukturen von Wörtern auf Morphemebene um den erfolgversprechendsten Ansatz handelt.


Morphemklassen

Morpheme sind diejenigen kleinsten lautlichen Einheiten, die in unterschiedlichen Kontexten die gleiche Bedeutung haben.

Verschiedene Aspekte werden für die Klassifizierung von Typen von Morphemen herangezogen. Klassische Kategorisierungen beziehen sich auf semantische, distributionelle und herkunftsspezifische Eigenschaften: Man unterscheidet zwischen lexikalischen (mensch in menschliche), derivationellen (lich in menschliche) und grammatischen (e in menschliche) Morphemen, deren Bedeutungsgehalt in der Richtung der Aufzählung abnimmt und deren formelle Funktion und damit ihr Bezug zu syntaktischen Gegebenheiten in der Richtung der Aufzählung zunimmt. Distributionell können folgende Kategorien unterschieden werden: Die der Abgeschlossenheit der Gruppe und die der Eigenständigkeit. Die Gruppe der lexikalischen Morpheme heißt offen, weil neue Elemente hinzukommen können, andere wegfallen. Die Mobilität innerhalb der anderen beiden Gruppen hingegen ist sehr eingeschränkt, diese Gruppen sind geschlossen. Die Eigenständigkeit von Morphemen wird als frei oder gebunden bezeichnet, je nachdem, ob die Elemente als einzelne Wörter oder nur innerhalb von Wörtern auftreten können. Auch hier kann wieder gezeigt werden, daß sich die Gruppe der lexikalischen Morpheme von den anderen Klassen unterscheidet, auch wenn selbst in dieser Gruppe die meisten Morpheme gebunden sind, wie z.B. männ oder fräu im Gegensatz zu mann und frau. Herkunftsspezifisch läßt sich nativ von nicht-nativ unterscheiden (lich vs. ion).

Drei weitere nicht so häufig beschriebene Aspekte sind zu erwähnen: Die Silbenstruktur, ihre Veränderung im Wort und die Hauptbetontheit. Flexionsmorpheme bestehen aus den wenigsten Lauten. Handelt es sich nur um einen einzelnen Laut, so wird er an das letzte Element der vorstehenden Silbe angegliedert und bildet nur im Falle, daß es sich bei ihm z.B. um ein Schwa handelt, eine neue Silbe mit diesem. Derivationsmorpheme unterscheiden sich phonetisch dadurch von Flexionsmorphemen, daß die in ihnen enthaltenen Elemente komplettere Silben bilden: Sie bestehen mindestens aus einem Konsonanten und einem Vokal. Die Silbengrenzen von Derivationsmorphemen sind ebenfalls wie die von Flexionsmorphemen Silbenrandveränderungen ausgesetzt, wenn sie von anderen Morphemen umgeben sind. Anders lexikalische Morpheme: Bei ihnen ist der linke Silbenrand immer konstant, nur der rechte Rand ist - im Falle der Wortbildung durch ein anderes als ein lexikalisches Morphem - der Veränderung ausgesetzt.

Hauptbetontheit schließlich ist die Eigenschaft eines Morphems, den Hauptakzent eines Wortes zu tragen bzw. tragen zu können. Diese Eigenschaft kommt in Komposita meist dem ersten lexikalischen Morphem eines Wortes zu und sonst nur den nicht-nativen Derivationsmorphemen wie ion, eur, iv, it, ät. Während innerhalb eines Kompositums aber das erste lexikalische Morphem den Hauptakzent trägt, ist es bei Derivationen mit mehreren Elementen der genannten nicht-nativen Art das letzte in der Reihe, welches den Hauptakzent trägt (Kommunikativität).


Morphologische Segmentierung

Bisher gibt es für das Deutsche weder ein maschinenlesbares Morphemlexikon noch eines, das zusätzliche Information über Aussprache, Distribution, Ursprung oder Morphemklasse enthält. Ebenso unbeschrieben ist ein probates Verfahren der morphologischen Segmentierung deutscher Wörter. Es finden sich zwar Nennungen von Morphemen in der Literatur, nicht aber die Entscheidungen, die zur Erstellung eines kompletten Morpheminventars führen würden. An dieser Stelle soll deshalb kurz das von mir gewählte Verfahren dargestellt werden, welches heuristische Züge aufweist.

Kriterium für die morphologische Segmentierung ist, daß das Ergebnis diejenigen kleinsten lautlichen Einheiten sind, die in allen Kontexten das gleiche bedeuten. Eine Segmentierung für eine Reihe wie Kind, Kind-er, kind-lich fällt dabei leicht. Besondere Probleme aber machen nicht-native Wörter. Es muß davon ausgegangen werden, daß die meisten Fremdwörter für Sprecher der deutschen Sprache morphologisch opak sind; das heißt, daß ihnen, wenn sie nicht über Kenntnisse der lateinischen und griechischen Sprache verfügen, die Bestandteile und Entstehungsgeschichte eines Wortes wie z.B. Diskrimination unbewußt sein muß. Damit ist das Bedeutungskriterium für die weitere Segmentierung dieses Wortes nicht anwendbar, eine tiefere Segmentierung aber weiterhin nötig. Das alleinige Kriterium, was nun zur Anwendung kommen kann, ist der Formaspekt: Gesucht werden diejenigen Bestandteile, die auf segmentaler und suprasegmentaler Ebene in verschiedenen Kontexten gleiche Funktion haben. So kann Diskrimination in dis-krim-in-at-ion analysiert werden, weil sich andere Kontexte wie dis-qualifizieren, Krim-i, term-in-al, Orn-at und Konklus-ion finden, in denen die jeweiligen Bestandteile gleich lauten, auf gleiche Weise betont und kombinatorisch in den Kontext eingebunden werden. Ein ähnliches Phänomen sind native Bildungen wie Mantel: Hier wird wegen der Formfunktion, die el in anderen Kontexten besitzt, auch in Mant-el getrennt.


Informationseinheiten und -kodierung

Informationseinheiten des Lexikons sind: die phonetische Repräsentation, die orthographische Repräsentation, die semantische Kategorie, die Herkunft und die Distribution. Ein paar Beispiele von Morphemeinträgen sind in Tabelle 1 zu sehen. Die Darstellung der Laute erfolgt in SAM-PA-Notation. Die Prinzipien der Auswahl und Kodierung der phonetischen Information sind die folgenden: Gewählt wird diejenige Repräsentation, die alle möglichen phonetischen Ausprägungen, die ein Morphem haben kann, wiedergibt, sowie die zur phonetischen Eingliederung in den übrigen lautlichen Kontext nötigen Informationen enthält. Für nicht-native Morpheme wie ut wird deshalb die Realisierung mit langem [u:] gewählt. Diese wird nur in Wörtern, in denen es das letzte Derivationsmorphem ist, realisiert (Statut); in anderen Bildungen wird das [u:] zu [u] wie in Revolution. Die Sonderzeichen '#' und '<' geben an, wie starr die Silbengrenze ist - '#' bedeutet, daß an dieser Stelle immer eine Silbengrenze steht, '<', daß die Silbengrenze sich vor einem Konsonanten vor dem ersten Laut des Morphems befindet. '<' kennzeichnet darüberhinaus, daß die Silbe, in der das Morphem steht, den Hauptakzent trägt, wenn es sich bei dem Morphem um das letzte Derivationsmorphem des Wortes handelt.

phon orth sem orig dist
#'?aUsauslnf
#'ba:nbahnlnf
#'be:tbetlng
<aIeidfg
#'fOYfeulng
g@gedng
haItheitdng
ttfng
UNungdng
<u:tutdfg
#'tsvINzwinglng
Tabelle 1:
Beispiele von Morphemeinträgen.


Quantitative Untersuchungen

Tabelle 2 stellt die Anzahl analysierter Einheiten dar. Die analysierten Wörter kommen aus Baayen et al. (1993).

EinheitAnzahl
segmentierte Wörter9.971
segmentierte Morpheme29.369
Morpheme pro Wort2,95
unterschiedliche Morpheme2.467
lexikalische Morpheme2.298
derivationelle Morpheme
(davon nicht-nativ)
149
(123)
Flektionsmorpheme20
Tabelle 2:
Anzahl und Einheiten des analysierten
Morpheminventars.

Tabelle 3 zeigt die gemittelte Anzahl der Anfangs- und Endkonsonanten der Morpheme, sowie die der Lang- und Kurzvokale im Lexikoneintrag. Bei der Interpretation der Daten ist zu berücksichtigen, daß die im Lexikon wiedergegebene Form nicht der tatsächlichen Realisierung entsprechen muß. So werden Morpheme oft auf mehrere Silben verteilt (#'kInd ['kIn-d6]), und nicht-native Derivationsmorpheme nicht immer mit Langvokal realisiert (<u:t [ut]).

MorphemtypC-VVV-C
lexikalisch2,220,540,460,89
derivationell0,230,510,490,70
flektiv0,050,65-1,2
Tabelle 3:
Typ und relative Häufigkeit
der Lautstruktur
der Morpheme

Ausblick

Aufbauend auf den gezeigten Daten, die darauf hinweisen, daß im Deutschen mehr Inhalt durch mehr Form repräsentiert wird, sollen weitere Analysen folgen, die sich vor allem mit zwei Fragen beschäftigen: Wie kann über die segmentale Ebene ein Zusammenhang für das intonatorisch ähnliche Verhalten von lexikalischen und nicht-nativen derivativen Morphemen hergestellt werden? Was gibt morphologische Information für Fragen der Intonation polysyllabischer Wörter her?


Literatur

Baayen, R.H.; Piepenbrock, R.; van Rijn, H (1993): The CELEX Lexical Database (CD ROM). Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA. 1993.
Mengel, A.; Rosenke, K. (1995): Die Eignung unterschiedlicher deutscher Transkriptionssystemarchitekturen für zukünftige Anforderungen. ESSV 1995, 151-158.