Das akustische Korrelat des deutschen Wortakzents

Andreas Mengel
Institut für Kommunikationswissenschaft, Technische Universität Berlin.

Dieser Beitrag untersucht, mit welchen Signalabschnitten, akustischen Eigenschaften und Maß einheiten die Akzentposition deutscher Wörter am besten gemessen und erklärt werden kann. Dazu werden Realisierungen zweisilbiger Wortformen aus einem großen Korpus gelesener Sprache untersucht. Es stellt sich heraus, daß der Vergleich der Dauern von Vokaleinsatzintervallen die verläßlichste Auskunft darüber gibt, wo der Wortakzent positioniert ist.

1. Einleitung

Vergleicht man die neueren Arbeiten zum akustischen Korrelats des Wortakzents, zeigen sich uneinheitliche Ergebnisse: So kommen wahlweise Energie kombiniert mit Grundfrequenz (Heuft & Portele 1994) und die Dauer (Dogil 1995, Jessen et al. 1995) in Betracht. Diese unterschiedli chen Ergebnisse mögen ihren Grund darin haben, daß die untersuchten Korpora sehr klein waren, Fremdwörter oder Wort- und Wortgruppenakzent untersucht wurden, Signaluntersuchungen und Perzeptionsexperimente den Ergebnissen zugrundeliegen oder die gewählten Parameter und Einheiten verschieden sind. Ebenso ist möglich, daß Wortakzent auf verschiedene Weise realisiert werden kann bzw. kontextabhängig ausgestaltet wird. In dieser Arbeit wird versucht, an einem großen Korpus gelesener Sprache das Problem näher einzugrenzen. Es werden insbesondere drei Fragen untersucht: Was ist der Meßgegenstand? Was ist die physikalische Einheit? Wie wird diese Einheit gemessen?

2. Abschnitte

Wenn dem Akzent eine Position innerhalb eines Wortes zugewiesen werden kann, muß es möglich sein, einen dieser Position entsprechenden Abschnitt innerhalb des Wortes zu identifizieren und zu messen. Im allgemeinen spricht man davon, daß eine der Silben eines Wortes den Hauptakzent trägt. So wird in Untersuchungen zum Thema u.a. auch genau dieser Abschnitt zur Analyse einheit gewählt, ohne daß jedoch beschrieben wird, wie so ein Abschnitt im gegebenen Material identifiziert, wie dessen Grenzen erkannt werden. Verhältnismäßig unproblematisch ist es hingegen, die Anzahl der Silben eines Wortes durch die Anzahl der enthaltenen Vokale zu bestimmen. Daß Silben auch ohne Vokale bestehen können, ist zwar an Wörtern wie haben [ha bm] zu erkennen; für diese Untersuchung soll jedoch für alle Wörter und Wortformen angenommen werden, daß sie ebensoviele Silben wie Vokale besitzen; Diphthonge werden dementsprechend ebenfalls als Vokale aufgefaßt.
Der Vokal eines Wortes ist ein im Sprachsignal leicht zu identifizierender Abschnitt. Er zeichnet sich durch seine hohe Energie und die besondere Ausbildung von Formanten aus. Aus diesem Grund ist die Einheit Vokal (VO) für die Untersuchung von Eigenschaften, die zur Bestimmung der Akzentposition beitragen, oft untersucht worden und ein wichtiger Kandidat für die Frage, welches die für die Untersuchung von Wortakzent relevanten Abschnitte im Sprach signal sind.
Der Vokal hat sich aber auch im Zusammenhang mit Akzent und Rhythmus als wichtige Ein heit herausgestellt: Der Anstieg der Lautstärke relativ zu den vorhergehenden Segmenten wirkt abschnittsmarkierend (Pompino-Marschall 1990, Janker 1996). Deshalb sollen durch Vokale anfangsmarkierte Abschnitte eines Wortes (VI: Vokaleinsatzintervalle) als zweite relevante Abschnittseinheit untersucht werden. Der Beginn eines solchen Abschnitts wird durch den Vokaleinsatz, das Ende durch den nächstfolgenden Vokaleinsatz oder das Wortende markiert.

Abschnitte VO (Vokal) und VI (Vokalintervall) im Wort suche.

Abbildung 1 zeigt schematisch die Abschnitte VO und VI. Da keine andere psychoakustisch einheitlich motivierbare Einheit erkennbar ist, die das Akzentphänomen erklären hälfe, sind diese beiden Kandidaten die einzigen innerhalb dieser Untersuchung. Konzepte wie die Silbe lassen sich leicht mit den beiden vorgeschlagenen Abschnittseinheiten in Zusammenhang bringen, werden jedoch recht unterschiedlich definiert und sind auf akustischer Basis nur schwer einheitlich motivierbar. Es mag darüber hinaus möglich sein, daß auch andere, nicht-psychoakustische Einheiten und Strukturen - etwa semantische - für die Wahrnehmung von Akzent eine Rolle spielen. Diese Möglichkeit soll hier jedoch unberücksichtigt bleiben.

3. Eigenschaften

Für beide der beschriebenen Abschnitte eines Wortes wurden jeweils die Dauer, die Energie (RMS), und die Grundfrequenz gemessen. Dies sind die üblichen Eigenschaften, die in diesem Zusammenhang untersucht werden. Der Spectral Tilt, der im Zusammenhang mit Wortakzent (Slujter 1995) untersucht worden ist, konnte bisher für das Deutsche (Claßen et al. 1996) nicht als den Akzent prädizierendes Korrelat nachgewiesen werden und wird deshalb nicht berücksichtigt.

4. Einheiten der physikalischen Eigenschaften

Die Frage der Einheit der genannten Eigenschaften ist alles andere als trivial. Die Messung der Eigenschaften kann auf mehrere Weisen erfolgen; allein für die Messung der Grundfrequenz bieten sich neben unterschiedlichen Darstellungsmaßen (Hz, Halbtöne, logarithmische Skala) eine Reihe von aus den Meßwerten extrahierten Maßen an: Durchschnitt, Minimum, Maximum, Differenz von Maximum und Minimum, Steigung des f0-Verlaufs, Standardabweichung des f0- Verlaufs. Sie alle können psychoakustisch motiviert werden. In dieser Arbeit werden kontrastiv die folgenden Einheiten der auf die beiden Abschnittsarten VO und VI bezogenen Eigenschaften untersucht: Als Dauerwert wird jeweils nur die Länge der untersuchten Einheiten gemessen. Für die Eigenschaften Energie und Grundfrequenz werden die Daten Minimum, Maximum, Mittelwert, Differenz aus Minimum und Maximum (Hub) sowie das Integral der Eigenschaften über den gemessenen Abschnitt erhoben. Für den Grundfrequenzverlauf werden zusätzlich die durchschnittliche Steigung und die Standardabweichung der f0-Werte der untersuchten Abschnitte erhoben. Dadurch ergeben sich für jeden untersuchten Abschnitt 24 Meßwerte.

5. Berechnung und Empfindung von Akzent

Nach den Fragen der zu untersuchenden Abschnitte, der zu messenden physikalischen Eigenschaften und deren Bewertung bleibt die Frage, wie den Messungen die Angabe der Position des Akzentes als sich auf einer Silbe befindend gegenübergestellt werden kann, um das, was den Akzent ausmacht, identifizieren zu können.
Strenggenommen ist die Angabe von Akzentpositionen für individuelle Wörter ein auf der Kodifikation der Ergebnisse introspektiver und informeller Analysen basierendes Wissen: Es gibt keine Untersuchung, in der Versuchspersonen die Akzentposition für verschiedene Wörter bestimmt hätten. Demzufolge ist die Festlegung oder Beschreibung der Akzentpositionen in Wörterbüchern als Konvention, die in großen Teilen Übereinstimmung findet, zu werten.
Es ist durchaus denkbar, daß die Akzentposition innerhalb eines Wortes nicht immer eindeutig zu bestimmen ist, daß die Übereinstimmung, mit der Untersuchungen über den Wortakzent so erfolgreich ohne Widerspruch von festen Akzentpositionen ausgehen können, daher rührt, daß Wörter für die Analyse ihrer Akzentposition isoliert und langsam artikuliert, also in idealisierter Form produziert und wahrgenommen werden und damit den häufigsten Fall repräsentieren, der seinerseits in Wörterbüchern festgehalten wird.
Weiter ist zu fragen, ob es sich beim Phänomen des Akzentes um eine Eigenschaft, die eine bestimmte Einheit des Wortes innehat, die sie direkt markiert, handelt oder ob Akzent ein Maß ist, das dem Ergebnis einer Vergleichsoperation der Eigenschaften verschiedener Abschnitte eines Wortes entspricht. In diesem Beitrag wird in Übereinstimmung mit der letzteren Hypothese davon ausgegangen, daß es sich bei der Bewertung von Akzentpositionen um ein Vergleichsmaß handelt, daß derjenigen Einheit die Akzentposition zuweist, die sich bezüglich einer oder mehrerer physikalischer Eigenschaften als am stärksten ausgeprägt zeigt.
Anhand des Vergleiches der erhobenen Daten mit normierten Akzentpositionen soll jeweils die Güte der untersuchten Abschnitte, Eigenschaften und Einheiten der Eigenschaften bewertet werden.

6. Analysierte Daten

Als Untersuchungskorpus dient das Kiel-Corpus of Read Speech (Kohler 1994). Tabelle 1 zeigt die Anzahl der verschiedenen Silbenzahlen und Akzentpositionen mehrsilbiger Wörter. Ausgenommen werden solche Wörter, deren Akzentuierung uneinheitlich ist, wie z.B.: dazu [dats'u - d'a tsu], Café [k'afe - kaf'e ], Abteil [/'aptaIl - /apt'aIl]. Die oben beschriebenen Parameter werden für alle mehrsilbigen Wörter erhoben, bei denen die in der Konkordanztranskription angenommenen Vokale realisiert sind.

Gut in Tabelle 1 erkennbar sind die Häufigkeiten von Silbenanzahl und Akzentpositionen ungleichmäßig verteilt. Aus diesem Grunde werden für Zwecke der Korrelations- und Regressionsanalyse nur Zweisilber gewählt. Aus dieser Wörtermenge, die entweder auf der ersten oder zweiten Silbe Akzent tragen (N=7338), werden mehrmals je 500 Wörter mit Akzent auf der ersten und 500 Wörter mit Akzent auf der zweiten Silbe zufällig gezogen und einer bivariaten Korrelationsanalyse (Pearson) unterzogen. Zunächst werden die Maße, die sich auf die einzelnen Silben beziehen, bewertet. Danach korreliert bei zweisilbigen Wörtern die Dauer des zweiten Vokaleinsatzintervalls am stärksten (r=+0,612; p<0,0001), die Dauer des ersten Vokals (r= -0,531; p<0,0001) am zweitstärksten mit der Position des Wortakzents. Soviel zu der Möglichkeit der Hypothese, daß Akzent an die Eigenschaften einer Einheit alleine gebunden sein kann. Dieser Hypothese wird nicht weiter nachgegangen, da die Bestimmung und Messung der untersuchten Daten jeweils im Kontext erfolgt und davon ausgegangen wird, daß Akzent einen Vergleich voraussetzt.

In einem nächsten Schritt werden die sich ergebenen Maße der Abschnitte eines Wortes aufeinander bezogen. Die sich jeweils ergebenden zwei Werte - einer für den ersten Abschnitt, der andere für den zweiten - werden durch Division der Wertes durch die Summe der beiden Werte normalisiert. Dies ist nötig, um ein Bezugsmaß der sich jeweils für die zwei Abschnitt in zweisilbigen Wörtern ergebenden Maße zu erhalten, da davon ausgegangen wird, daß die Akzentzuweisung Resultat einer Vergleichsoperation ist. Untersucht man die Korrelation (bivariat, Pearson) der sich so ergebenden Werte mit der Akzentposition, erhält man folgendes Bild für die mit der Akzentposition korrelierenden Meßeinheiten. In Tabelle 2 werden nur hoch signifikante Korrelationen aufgeführt.

Die Dauer ist der dominante mit Akzent korrelierende Faktor. Das wird nicht nur dadurch deutlich, daß die Dauer am stärksten mit der Akzentposition korreliert, sondern auch daran, daß die ersten am stärksten mit der Akzentposition korrelierenden Maße alle dauerabhängige Maße sind. Mittels Regressionsanalyse wird untersucht, wieviel an zusätzlicher Varianz (Dauer des Vokaleinsatzintervalls: R2=0,5223; p<0.001) die für die Eigenschaften Grundfrequenz und Energie stehenden Variablen, die kein Integral bilden, aufklären. Für den Energiehub und den Grundfrequenzhub des Vokaleinsatzintervalls ergeben sich R2=0,0295 und R2=0,0013 (p<0,0001).
Durch die Untersuchung der vergleichenden Maße kann also auch gezeigt werden, daß sie den nur auf einen Abschnitt bezogenen Messungen überlegen sind.

7. Akzenterkennung

Angenommen, die extrahierten Größen sollen auf ihre Eignung innerhalb eines Akzenterkennungssystems untersucht werden. Das Vorgehen des Systems wäre dann wie folgt: Die relevanten Abschnitte (Vokale oder Vokaleinsatzintervalle) müssen zunächst identifiziert werden. Dann werden - bei Zweisilbern - diese beiden Abschnitte gemessen und das System gibt als Akzentposition den Abschnitt an, der bezüglich der gemessenen Eigenschaft den höheren Wert hat. Ebenso wäre auch ein einfaches Modell der Akzentwahrnehmung zu entwerfen. Um zu untersuchen, welche Abschnitte, Eigenschaften und Maßeinheiten sich für ein solches - rudimentäres - System am besten eignen würden, wurde die Anzahl der richtigen Vorhersagen für alle Zweisilber (N=7943) bestimmt. Tabelle 3 zeigt die Ergebnisse in Prozent.

Es läßt sich erkennen, daß das Integral der Energie für die Erkennung der Akzentposition noch bessere Ergebnisse gibt als die Dauermessung allein.

8. Relativität von Akzent

Eingangs wurde darauf hingewiesen, daß Akzent nicht unbedingt eine in immer gleicher Weise vorhandene Größe sein muß, sondern vielmehr die kategorielle Kodierung einer Vergleichsoperation sein kann. Diese Behauptung weiter zu belegen, soll Abbildung 2 dienen. Die Abbildung zeigt für sechs häufige zweisilbige Wortbildungstypen das gemittelte Dauerverhältnis der Vokaleinsatzintervalle.

Abbildung 2: Schematische Darstellung der Dauerverhältnisse der Vokaleinsatzintervalle für sechs häufige Wortbildungsmuster, deren Klassifizierung und Beispielwörter. Die Morphemtypenzeichen bedeuten: L - lexikalisches Morphem; P - akzentfähiges Präfix; p - nicht akzentfähiges Präfix; s - nicht akzentfähiges Suffix; f - Flexionsmorphem.

9. Zusammenfassung

Es wurde untersucht, welche Abschnitte, Einheiten und Maße für die Prädiktion von Wortakzent in deutschen zweisilbigen Wörtern am geeignetesten sind. Das für diese Fragestellung hervorstechende Korrelat ist die über Vokaleinsatzintervalle gemessene Dauer. In phonologischer Terminologie handelt es sich bei dieser Einheit um den Silbenreim. Daß die Dauer die wichtigste Eigenschaft der untersuchten Abschnitte ist, steht in Übereinstimmung mit früheren Ergebnissen fürs Deutsche (Dogil 1995; Jessen et al. 1995) und anderen Sprachen wie fürs Englische (Turk & Sawush 1996) und das Thailändische (Potisuk et al. 1996). Die Untersuchung der Abschnittseinheit Vokaleinsatzintervall fürs Deutsche ist in dieser Art neu, wenngleich die Relevanz des Vokaleinsatzes als ereignismarkierend seit längerem bekannt ist (Pompino- Marschall 1990). Nicht in dieser Arbeit geklärt wurde, wie die Akzentbestimmung bei anderen Mehrsilbern, insbesondere bei solchen mit Akzent auf einer nach der zweiten liegenden Silbe vorhergesagt werden kann.

10. Literatur

Claßen, K.; Dogil, G; Jessen, M. (1996): Stimmqualität als Korrelat der Wortbetonung im Deutschen. IMS Stuttgart.
Dogil, G. (1995): The Phonetic Manifestation of Stress. AIMS 2,2: 3-51.
Heuft, B.; Portele, T. (1994): Zur akustischen Realisierung des Wortakzents. Elektronische Sprachsignalverarbeitung 95: 197-204
Janker, P.M. (1996): The Range of Subjective Simultaneousness in Tapping Experiments with Speech Stimuli. Workshop on the Articulatory Basis of Speech Perception: 204-207.
Jessen, M.; Marasek, K.; Schneider, K., Clahßen, K. (1995): Acoustic Correlates of Word Stress. ICPhS 95,4: 428-431.
Kohler, K.J. (1994): Lexica of the Kiel PHONDAT Corpus. Read Speech. Volume I. AIPUK 27.
Pompino-Marschall, B. (1990): Die Silbenprosodie. Ein elementarer Aspekt der Wahrnehmung von Sprechrhythmus und Sprechtempo. Tübingen: Niemeyer.
Potisuk, S.; Gandour, J; Harper, M.P. (1996): Acoustic Correlates of Stress in Thai. Phonetica 53: 200-220.
Sluijter, A.M.C. (1995): Phonetic Correlates of Stress and Accent. The Hague: Holland Academic Graphics.
Secrest, B.G.; Doddington, G.R. (1993): An Integrated Pitch Tracking Algorithm for Speech Systems. ICASSP 1993.
Turk, A.E.; Sawush, J.R. (1996): The Processing of Duration and Intensity Cues to Prominence. Journal of the Acoustical Society of America 99: 3782-3790.