Stilisierung von Intonationsverläufen auf Wortebene
Andreas Mengel: Stilisierung von Intonationsverläufen auf Wortebene
Andreas Mengel
Institut für Kommunikationswissenschaft, TU Berlin
mengel@kgw.tu-berlin.de
Kurzfassung
Intonationsverläufe werden im allgemeinen auf Satzebene beschrieben. Wörter werden
als Einheiten dieser Sätze behandelt, deren Silben auf verschiedene Weise betont sein
können: hauptbetont, nebenbetont oder unbetont. Die Regeln für die Zuweisung dieser
Betonungsebenen zu gesprochenen Silben von Wörtern und deren für die Sprachverarbeitung wesentliche Form sind nicht bekannt. Im Rahmen dieser Arbeit werden
Ansätze zur Bestimmung der perzeptuell wesentlichen Aspekte von Grundfrequenzverläufen von Wörtern und deren linguistische Determinierung vorgestellt.
1 Motivation
Die größte Aufmerksamkeit in der Intonationsforschung hat seit jeher der Satzintonation
gegolten. Weniger Interesse hat hingegen die Wortintonation gefunden. Dies mag vor allem
daran liegen, daß die für die meisten Anwendungen minimale Ausgabeeinheit der Satz ist.
Andererseits macht es ein so komplexes Gebilde wie die Einheit Satz sehr schwer,
Generalisierungen über Intonation zu treffen, solange die Struktur der Untereinheiten
unbeschrieben ist.
In den Arbeiten zur Wortintonation des Deutschen (vgl. Jessen 1995 für eine Übersicht) wird
davon ausgegangen, daß die Silben eines Wortes hauptbetont, nebenbetont oder unbetont sind.
Allerdings sind weder die diese Betonungsstufen determinierenden Größen, noch die
Intonationsmuster oder die den Betonungsebenen entsprechenden akustischen Korrelate
umfassend beschrieben. Der gegenwärtige Stand der Sprachverarbeitung stellt sich
dementsprechend so dar, daß einerseits die Existenz dieser Betonungsstufen nicht in Frage
gestellt wird, andererseits Aussprachelexika für die Sprachverarbeitung (Kohler 1994,
PhonDat 1995, Stock 1993) meist nur die hauptakzenttragende Silbe kennzeichnen. Komplette
Regelsätze für die Einordnung einer Silbe als nebenbetont oder unbetont existieren nicht. Dies
kann letztlich auch an der Tatsache erkannt werden, daß insbesondere Transkriptionen
mehrsilbiger Fremdwörter (Informationen, Aristokratie) nur eine hauptbetonte Silbe
auszeichnen. Die Tatsache, daß für die Intonationsstruktur von Wörtern und deren symbolische
Repräsentation keine ausgearbeiteten Modelle vorliegen, wiegt um so schwerer als die für
Sprachsynthese typische Textsorte Zeitungstext vor allem komplexe, zusammengesetzte
mehrsilbige Wörter enthält (Mengel & Rosenke 1995), von deren Intonationsstruktur unter
Umständen die Verständlichkeit und Natürlichkeit synthetisierter Texte abhängt.
Ziel dieser Arbeit ist, Ansätze für die Stilisierung von Grundfrequenz-(F0)-Verläufen deutscher
Wörter und die dazu nötigen Informationen zu beschreiben.
2 Form der Grundfrequenz
Die Modellierung von Intonationsverläufen kann als wesentliche Parameter die Manipulation
des Grundfrequenzverlaufs mittels einer Phrasen- und einer Akzentkomponente beinhalten
(Fujisaki 1988, Möbius 1993). Dann wird Wortintonation als ein der Satzintonation
überlagertes Phänomen interpretiert (Abb. 1). Wenn Satzintonation in zwei Komponenten
zerlegt werden kann, müssen auch Regeln für die Struktur der Wortintonation zu finden sein,
deren Eingangsgrößen nicht auf Satzebene liegen.
Abb. 1: Wortintonation ber Satzintonation.
2.1 Ebenen der Beschreibung des Grundfrequenzverlaufs
In den Arbeiten zur Beschreibung von Intonation werden hauptsächlich zwei Strategien
verfolgt. Die eine versucht, Funktionen, die F0-Konturen möglichst genau nachbilden, zu
finden (Fujisaki 1988). Die andere geht davon aus, daß es möglich ist, eine begrenzte Anzahl
von Konturklassen und deren erlaubte Kombinationen zu identifizieren (Pierrehumbert 1980).
Wenngleich diese Ansätze sehr unterschiedlich motiviert sind - der Fujisaki folgende
signalorientiert, der Pierrehumbert folgende phonologisch - so ist beiden gemein, daß sie sich
am gemessenen F0-Verlauf orientieren.
Es muß jedoch gefragt werden, ob dieser Ansatz gerechtfertigt ist. Unter Umständen sind an
dieser Stelle drei Ebenen zu trennen: erstens der tatsächliche Grundfrequenzverlauf (F0),
zweitens der wahrgenommene Grundfrequenzverlauf (PF0) und drittens der linguistisch
relevante Anteil des wahrgenommenen Grundfrequenzverlaufs (LF0) (Abb. 2). Es ist also
möglich, daß Fo und LF0 identisch sind, oder aber, daß sich alle drei Ebenen voneinander
unterscheiden.
Abb. 2: Mögliche Repräsentationsebenen der Intonation.
Es ist demnach denkbar, daß nur gewisse Aspekte des Grundfrequenzverlaufs für die
linguistische Funktion Wortintonation wichtig sind, daß diese aber aus physiologischen
Gründen nicht anders realisiert werden können als in der uns bekannten Form. Außerdem ist
anzunehmen, daß andere, nicht-linguistische Informationen mittels Grundfrequenzverlauf
übermittelt werden. Es gilt, diejenigen Aspekte der Wortintonation zu isolieren, die für die
linguistische Strukturierung des Sprachsignals bedeutsam sind.
2.2 Analysebereich
Aus Gründen der Signaleigenschaften des Untersuchungsgegenstandes, nämlich der Tatsache,
daß ausschließlich stimmhaften Lauten (Vokale, Nasale, Liquide, Vibranten) eine
Grundfrequenz zugeordnet werden kann, wird die Silbe als kleinste Analyseeinheit für die
Untersuchung von Intonationsverläufen gewählt: Die normale Silbe enthält genau einen Vokal,
der zu den Silbenrändern hin auf beiden Seiten von anderen stimmhaften Lauten umgeben sein
kann (Abb. 3).
Abb. 3: Silbe, stimmhafter Bereich und F0.
Prinzipiell sind alle stimmhaften Bereiche einer Silbe für die Intonationswahrnehmung
relevante Signalabschnitte. Da aber nicht jede Silbe auch stimmhafte Konsonanten enthält, ist
denkbar, daß ausschließlich der Intonationsverlauf innerhalb des Vokals relevant ist. Ebenso
ist möglich, daß selbst innerhalb des Vokales nur ausgezeichnete Bereiche - etwa der vordere,
mittlere oder hintere Bereich - perzeptiv und linguistisch von Bedeutung sind.
2.3 Konturformen
Die Kontur, die gemessen wird, muß nicht der Kontur entsprechen, die wir wahrnehmen.
D'Allessandro & Mertens (1995) z.B. gehen davon aus, daß die Grundfrequenzverläufe für
eine Darstellung der wahrgenommenen Kontur durch gerade Linien vereinfacht werden
können. Die Abstraktion durch Linien ist Ergebnis psychoakustischer Berechnungen, die aus
Forschungsergebnissen zu verschiedenen Ebenen der Tonhöhenwahrnehmung abgeleitet sind.
Psychoakustische Untersuchungen des Modells stehen noch aus. Prinzipiell sind viele
verschiedene Eigenschaften der Intonationskontur einer Silbe Kandidaten der perzeptiven bzw.
linguistischen Relevanz: Die Dauer, der Frequenzhub, die Frequenzhubgeschwindigkeit, die
Frequenzhubbeschleunigung usw. Für jede dieser Größen ist ein relativer und ein absoluter
Wert als entscheidend denkbar (Abb. 4).
Die Abfolge von Grundfrequenzkonturen der Silben eines Wortes bilden zusammen eine
Gesamtkontur. Auch auf der Ebene des Wortes ist zu untersuchen, wie Konstellationen von
Silbenintonationskonturen verarbeitet werden.
Abb. 4: Mögliche relevante Aspekte und Bereiche von F0.
3 Linguistische Beschreibungsebenen
Für die sprachverarbeitungsorientierte Untersuchung von Intonationskonturen ist eine
Verankerung des physikalisch meßbaren F0-Verlaufs unumgänglich. Die Zuordnung von
Abschnitten der Grundfrequenzverlaufs zu auch linguistisch beschreibbaren Einheiten (Lauten,
Silben, Morphemen, Wörtern etc.) ist eine wichtige Voraussetzung für die Kategorisierung von
meßbaren Größen, ihrer Abstraktion und ihre funktionale Bewertung.
Um allgemeine Strukturen in der Wortintonation finden zu können, müssen die die Wörter
umgebenden Strukturen (Sätze), die Satzposition und Funktion des Wortes sowie ihre interne
Struktur näher spezifiziert werden. Nur so kann vermieden werden, daß für jedes Wort und
jeden Satz ein anderes Intonationsmodell nötig wird.
Abb. 5: Satzbaukodierung.
3.1 Satzbeschreibung
Für die Beschreibung von Sätzen sind mindestens zwei Aspekte relevant. Erstens die
Bestimmung der Satzart: Es handelt sich bei dem Satz um eine Aussage, eine Ergänzungsfrage
oder eine Entscheidungsfrage. Zusätzliche und feinere Kategorisierungen sind möglich.
Weitaus bedeutsamer jedoch ist die Beschreibung des syntaktischen Aufbaus des Satzes.
Eisenberg (1994) schlägt 36 verschiedene Grundmuster des Satzbaus fürs Deutsche vor, mit
deren Hilfe alle möglichen vollständigen Sätze des Deutschen beschrieben werden können. Die
in Abbildung 5 aufgeführten Strukturen oberhalb der unmittelbar über den Wörtern
aufgeführten Knoten allerdings sind als arbiträr und damit als für die Intonationsbeschreibung
irrelevant zu werten.
3.2 Wortbeschreibung
Für die Beschreibung des Wortes ist eine Auszeichnung der hauptbetonten Silbe sowie die
Information, ob das Wort in diesem Satz einen Fokusakzent trägt oder nicht (Uhmann 1991)
nötig. Die Bestimmung der Wortart und des internen Aufbaus folgt in den nächsten beiden
Abschnitten.
3.2.1 Wortart
Eine distributionsorientierte Kategorisierung der Wörter in Wortarten findet sich in (Schiller
et al. 1995). Das vorgeschlagene System ist für die automatische Verarbeitung von Texten
entwickelt worden, damit daten- und korpusorientiert und somit für den hier verfolgten Zweck
günstig. Es werden elf Wortkategorien mit insgesamt 50 Unterkategorien benutzt. Tabelle 1
zeigt einen Ausschnitt der Kategorien und Beispielwörter.
Tab. 1: Wortartenklassifizierung nach Schiller et al. (1995) (Ausschnitt).
3.2.2 Wortstruktur
Jedes Wort besteht aus mindestens einer Silbe. Die Beschreibung der Silben kann nach
phonetischen und nach semantischen Aspekten erfolgen. Auf der phonetischen Ebene sind laut-
und lautklassenorientierte Segmentierungen durchzuführen.
Da die Zuweisung des Hauptakzentes innerhalb eines Wortes nach wortmorphologischen
Kriterien erfolgt, jede Silbe darüberhinaus mit mindestens einem Morphem identifiziert werden
kann, bietet es sich an, die Silben eines Wortes auch nach morphologischen Kriterien zu
klassifizieren (Mengel 1996). In dieser Weise wird jedem Wort sein morphologischer Aufbau
und jeder Silbe eine morphologische Funktion zugewiesen. Die Tatsache, daß die Zuordnung
von konsonantischen Segmenten, die sich am Ende von Morphemen befinden - in Abb. 6 die
des [l] - zu Silben innerhalb der Beschreibungsebenen und innerhalb verschiedener Wörter
variiert (Teil [taIl] vs. Teile [taI-l@]), könnte als Indiz dafür gewertet werden, daß diese für
die intonatorische Beschreibung unbedeutender oder gänzlich unerheblich sind.
Abb. 6: Morphologische Segmentierung.
4 Zusammenfassung
Nach der Zuordnung der oben beschriebenen Signal-, Segment- und Inhaltseigenschaften zu
Lauten, Silben, Wörtern und Sätzen können - beginnend auf der Ebene der Segmente - die
Abhängigkeiten des F0-Verlaufs von verschiedenen linguistischen Einheiten und ihren
Abstraktionen untersucht und auf dieser Grundlage gewonnene Ergebnisse in
Wahrnehmungexperimenten überprüft werden.
Der vorliegende Beitrag gibt einen Überblick über die verschiedenen linguistischen und
signalorientierten Kategorisierungsmöglichkeiten der intonatorischen, phonetischen und
semantischen Aspekte von Silben und Wörtern, die einerseits für die Untersuchung von
Wortintonation als Eingangswerte (phonetische und linguistische Einheiten) der Steuerung des
Intonationsverlaufs und als für die Wahrnehmung und die akustische Informationsverarbeitung
relevante Eigenschaften und Einheiten andererseits gewertet werden können.
5 Literatur
Mertens, P. & d'Allessandro, C. (1995): Pitch Contour Stylization Using a Tonal Perception
Model. ICPhS 1995, Vol. 4. 228-231.
Eisenberg, P. (1994): Grundriß der deutschen Grammatik. Stuttgart.
Fujisaki, H. (1988): A Note on the Physiological and Physical Basis for the Phrase and Accent
Components in the Voice Fundamental Frequency Contour. In: Fujimura, O. (Hg.):
Vocal Physiology: Voice Production, Mechanisms and Functions. New York: Raven.
347-355.
Jessen, M. (1995): German. In: Van der Hulst, H. (Hg.): Word Prosodic Systems of European
Languages. Berlin: de Gruyter.
Kohler, K.J. (1994): Lexica of the Kiel PHONDAT Corpus. Read Speech. Volume I.
AIPUK 27.
Mengel, A. (1996): Morphemaussprachelexikon fürs Deutsche. Fortschritte der Akustik. 512-513.
Mengel, A. & Rosenke, K. (1995): Die Eignung unterschiedlicher deutscher Transkriptionssystemarchitekturen für zukünftige Anforderungen. ESSV 1995. 151-158.
PhonDat (1995): Beschreibung der Sprachsignaldatenbank PhonDat. München: Institut für
Phonetik, Universität München.
Pierrehumbert, J.B. (1989): The Phonology and Phonetics of English Intonation. PhD thesis.
MIT.
Schiller, A.; Teufel, S.; Thielen, C. (1995): Guidelines für das Tagging deutscher Textcorpora
mit STTS. Stuttgart: Institut für maschinelle Sprachverarbeitung, Universität Stuttgart.
Stock, D. (1993): Bonner maschinenlesbares Aussprachewörterbuch. Bonn: Institut für
Kommunikationsforschung und Phonetik, Universität Bonn.
Uhmann, S. (1991): Fokusphonologie. Eine Analyse deutscher Intonationskonturen im Rahmen
der nicht-linearen Phonologie. Tübingen: Niemeyer.