Stilisierung von Intonationsverläufen auf Wortebene

Andreas Mengel: Stilisierung von Intonationsverläufen auf Wortebene Andreas Mengel
Institut für Kommunikationswissenschaft, TU Berlin
mengel@kgw.tu-berlin.de

Kurzfassung
Intonationsverläufe werden im allgemeinen auf Satzebene beschrieben. Wörter werden als Einheiten dieser Sätze behandelt, deren Silben auf verschiedene Weise betont sein können: hauptbetont, nebenbetont oder unbetont. Die Regeln für die Zuweisung dieser Betonungsebenen zu gesprochenen Silben von Wörtern und deren für die Sprachverarbeitung wesentliche Form sind nicht bekannt. Im Rahmen dieser Arbeit werden Ansätze zur Bestimmung der perzeptuell wesentlichen Aspekte von Grundfrequenzverläufen von Wörtern und deren linguistische Determinierung vorgestellt.

1 Motivation

Die größte Aufmerksamkeit in der Intonationsforschung hat seit jeher der Satzintonation gegolten. Weniger Interesse hat hingegen die Wortintonation gefunden. Dies mag vor allem daran liegen, daß die für die meisten Anwendungen minimale Ausgabeeinheit der Satz ist. Andererseits macht es ein so komplexes Gebilde wie die Einheit Satz sehr schwer, Generalisierungen über Intonation zu treffen, solange die Struktur der Untereinheiten unbeschrieben ist. In den Arbeiten zur Wortintonation des Deutschen (vgl. Jessen 1995 für eine Übersicht) wird davon ausgegangen, daß die Silben eines Wortes hauptbetont, nebenbetont oder unbetont sind. Allerdings sind weder die diese Betonungsstufen determinierenden Größen, noch die Intonationsmuster oder die den Betonungsebenen entsprechenden akustischen Korrelate umfassend beschrieben. Der gegenwärtige Stand der Sprachverarbeitung stellt sich dementsprechend so dar, daß einerseits die Existenz dieser Betonungsstufen nicht in Frage gestellt wird, andererseits Aussprachelexika für die Sprachverarbeitung (Kohler 1994, PhonDat 1995, Stock 1993) meist nur die hauptakzenttragende Silbe kennzeichnen. Komplette Regelsätze für die Einordnung einer Silbe als nebenbetont oder unbetont existieren nicht. Dies kann letztlich auch an der Tatsache erkannt werden, daß insbesondere Transkriptionen mehrsilbiger Fremdwörter (Informationen, Aristokratie) nur eine hauptbetonte Silbe auszeichnen. Die Tatsache, daß für die Intonationsstruktur von Wörtern und deren symbolische Repräsentation keine ausgearbeiteten Modelle vorliegen, wiegt um so schwerer als die für Sprachsynthese typische Textsorte Zeitungstext vor allem komplexe, zusammengesetzte mehrsilbige Wörter enthält (Mengel & Rosenke 1995), von deren Intonationsstruktur unter Umständen die Verständlichkeit und Natürlichkeit synthetisierter Texte abhängt. Ziel dieser Arbeit ist, Ansätze für die Stilisierung von Grundfrequenz-(F0)-Verläufen deutscher Wörter und die dazu nötigen Informationen zu beschreiben.


2 Form der Grundfrequenz

Die Modellierung von Intonationsverläufen kann als wesentliche Parameter die Manipulation des Grundfrequenzverlaufs mittels einer Phrasen- und einer Akzentkomponente beinhalten (Fujisaki 1988, Möbius 1993). Dann wird Wortintonation als ein der Satzintonation überlagertes Phänomen interpretiert (Abb. 1). Wenn Satzintonation in zwei Komponenten zerlegt werden kann, müssen auch Regeln für die Struktur der Wortintonation zu finden sein, deren Eingangsgrößen nicht auf Satzebene liegen.


Abb. 1: Wortintonation ber Satzintonation.


2.1 Ebenen der Beschreibung des Grundfrequenzverlaufs

In den Arbeiten zur Beschreibung von Intonation werden hauptsächlich zwei Strategien verfolgt. Die eine versucht, Funktionen, die F0-Konturen möglichst genau nachbilden, zu finden (Fujisaki 1988). Die andere geht davon aus, daß es möglich ist, eine begrenzte Anzahl von Konturklassen und deren erlaubte Kombinationen zu identifizieren (Pierrehumbert 1980). Wenngleich diese Ansätze sehr unterschiedlich motiviert sind - der Fujisaki folgende signalorientiert, der Pierrehumbert folgende phonologisch - so ist beiden gemein, daß sie sich am gemessenen F0-Verlauf orientieren. Es muß jedoch gefragt werden, ob dieser Ansatz gerechtfertigt ist. Unter Umständen sind an dieser Stelle drei Ebenen zu trennen: erstens der tatsächliche Grundfrequenzverlauf (F0), zweitens der wahrgenommene Grundfrequenzverlauf (PF0) und drittens der linguistisch relevante Anteil des wahrgenommenen Grundfrequenzverlaufs (LF0) (Abb. 2). Es ist also möglich, daß Fo und LF0 identisch sind, oder aber, daß sich alle drei Ebenen voneinander unterscheiden.


Abb. 2: Mögliche Repräsentationsebenen der Intonation.

Es ist demnach denkbar, daß nur gewisse Aspekte des Grundfrequenzverlaufs für die linguistische Funktion Wortintonation wichtig sind, daß diese aber aus physiologischen Gründen nicht anders realisiert werden können als in der uns bekannten Form. Außerdem ist anzunehmen, daß andere, nicht-linguistische Informationen mittels Grundfrequenzverlauf übermittelt werden. Es gilt, diejenigen Aspekte der Wortintonation zu isolieren, die für die linguistische Strukturierung des Sprachsignals bedeutsam sind.


2.2 Analysebereich

Aus Gründen der Signaleigenschaften des Untersuchungsgegenstandes, nämlich der Tatsache, daß ausschließlich stimmhaften Lauten (Vokale, Nasale, Liquide, Vibranten) eine Grundfrequenz zugeordnet werden kann, wird die Silbe als kleinste Analyseeinheit für die Untersuchung von Intonationsverläufen gewählt: Die normale Silbe enthält genau einen Vokal, der zu den Silbenrändern hin auf beiden Seiten von anderen stimmhaften Lauten umgeben sein kann (Abb. 3).


Abb. 3: Silbe, stimmhafter Bereich und F0.

Prinzipiell sind alle stimmhaften Bereiche einer Silbe für die Intonationswahrnehmung relevante Signalabschnitte. Da aber nicht jede Silbe auch stimmhafte Konsonanten enthält, ist denkbar, daß ausschließlich der Intonationsverlauf innerhalb des Vokals relevant ist. Ebenso ist möglich, daß selbst innerhalb des Vokales nur ausgezeichnete Bereiche - etwa der vordere, mittlere oder hintere Bereich - perzeptiv und linguistisch von Bedeutung sind.


2.3 Konturformen

Die Kontur, die gemessen wird, muß nicht der Kontur entsprechen, die wir wahrnehmen. D'Allessandro & Mertens (1995) z.B. gehen davon aus, daß die Grundfrequenzverläufe für eine Darstellung der wahrgenommenen Kontur durch gerade Linien vereinfacht werden können. Die Abstraktion durch Linien ist Ergebnis psychoakustischer Berechnungen, die aus Forschungsergebnissen zu verschiedenen Ebenen der Tonhöhenwahrnehmung abgeleitet sind. Psychoakustische Untersuchungen des Modells stehen noch aus. Prinzipiell sind viele verschiedene Eigenschaften der Intonationskontur einer Silbe Kandidaten der perzeptiven bzw. linguistischen Relevanz: Die Dauer, der Frequenzhub, die Frequenzhubgeschwindigkeit, die Frequenzhubbeschleunigung usw. Für jede dieser Größen ist ein relativer und ein absoluter Wert als entscheidend denkbar (Abb. 4). Die Abfolge von Grundfrequenzkonturen der Silben eines Wortes bilden zusammen eine Gesamtkontur. Auch auf der Ebene des Wortes ist zu untersuchen, wie Konstellationen von Silbenintonationskonturen verarbeitet werden.


Abb. 4: Mögliche relevante Aspekte und Bereiche von F0.


3 Linguistische Beschreibungsebenen

Für die sprachverarbeitungsorientierte Untersuchung von Intonationskonturen ist eine Verankerung des physikalisch meßbaren F0-Verlaufs unumgänglich. Die Zuordnung von Abschnitten der Grundfrequenzverlaufs zu auch linguistisch beschreibbaren Einheiten (Lauten, Silben, Morphemen, Wörtern etc.) ist eine wichtige Voraussetzung für die Kategorisierung von meßbaren Größen, ihrer Abstraktion und ihre funktionale Bewertung.
Um allgemeine Strukturen in der Wortintonation finden zu können, müssen die die Wörter umgebenden Strukturen (Sätze), die Satzposition und Funktion des Wortes sowie ihre interne Struktur näher spezifiziert werden. Nur so kann vermieden werden, daß für jedes Wort und jeden Satz ein anderes Intonationsmodell nötig wird.


Abb. 5: Satzbaukodierung.


3.1 Satzbeschreibung

Für die Beschreibung von Sätzen sind mindestens zwei Aspekte relevant. Erstens die Bestimmung der Satzart: Es handelt sich bei dem Satz um eine Aussage, eine Ergänzungsfrage oder eine Entscheidungsfrage. Zusätzliche und feinere Kategorisierungen sind möglich. Weitaus bedeutsamer jedoch ist die Beschreibung des syntaktischen Aufbaus des Satzes. Eisenberg (1994) schlägt 36 verschiedene Grundmuster des Satzbaus fürs Deutsche vor, mit deren Hilfe alle möglichen vollständigen Sätze des Deutschen beschrieben werden können. Die in Abbildung 5 aufgeführten Strukturen oberhalb der unmittelbar über den Wörtern aufgeführten Knoten allerdings sind als arbiträr und damit als für die Intonationsbeschreibung irrelevant zu werten.


3.2 Wortbeschreibung

Für die Beschreibung des Wortes ist eine Auszeichnung der hauptbetonten Silbe sowie die Information, ob das Wort in diesem Satz einen Fokusakzent trägt oder nicht (Uhmann 1991) nötig. Die Bestimmung der Wortart und des internen Aufbaus folgt in den nächsten beiden Abschnitten.


3.2.1 Wortart

Eine distributionsorientierte Kategorisierung der Wörter in Wortarten findet sich in (Schiller et al. 1995). Das vorgeschlagene System ist für die automatische Verarbeitung von Texten entwickelt worden, damit daten- und korpusorientiert und somit für den hier verfolgten Zweck günstig. Es werden elf Wortkategorien mit insgesamt 50 Unterkategorien benutzt. Tabelle 1 zeigt einen Ausschnitt der Kategorien und Beispielwörter.


Tab. 1: Wortartenklassifizierung nach Schiller et al. (1995) (Ausschnitt).


3.2.2 Wortstruktur

Jedes Wort besteht aus mindestens einer Silbe. Die Beschreibung der Silben kann nach phonetischen und nach semantischen Aspekten erfolgen. Auf der phonetischen Ebene sind laut- und lautklassenorientierte Segmentierungen durchzuführen. Da die Zuweisung des Hauptakzentes innerhalb eines Wortes nach wortmorphologischen Kriterien erfolgt, jede Silbe darüberhinaus mit mindestens einem Morphem identifiziert werden kann, bietet es sich an, die Silben eines Wortes auch nach morphologischen Kriterien zu klassifizieren (Mengel 1996). In dieser Weise wird jedem Wort sein morphologischer Aufbau und jeder Silbe eine morphologische Funktion zugewiesen. Die Tatsache, daß die Zuordnung von konsonantischen Segmenten, die sich am Ende von Morphemen befinden - in Abb. 6 die des [l] - zu Silben innerhalb der Beschreibungsebenen und innerhalb verschiedener Wörter variiert (Teil [taIl] vs. Teile [taI-l@]), könnte als Indiz dafür gewertet werden, daß diese für die intonatorische Beschreibung unbedeutender oder gänzlich unerheblich sind.


Abb. 6: Morphologische Segmentierung.


4 Zusammenfassung

Nach der Zuordnung der oben beschriebenen Signal-, Segment- und Inhaltseigenschaften zu Lauten, Silben, Wörtern und Sätzen können - beginnend auf der Ebene der Segmente - die Abhängigkeiten des F0-Verlaufs von verschiedenen linguistischen Einheiten und ihren Abstraktionen untersucht und auf dieser Grundlage gewonnene Ergebnisse in Wahrnehmungexperimenten überprüft werden.
Der vorliegende Beitrag gibt einen Überblick über die verschiedenen linguistischen und signalorientierten Kategorisierungsmöglichkeiten der intonatorischen, phonetischen und semantischen Aspekte von Silben und Wörtern, die einerseits für die Untersuchung von Wortintonation als Eingangswerte (phonetische und linguistische Einheiten) der Steuerung des Intonationsverlaufs und als für die Wahrnehmung und die akustische Informationsverarbeitung relevante Eigenschaften und Einheiten andererseits gewertet werden können.


5 Literatur

Mertens, P. & d'Allessandro, C. (1995): Pitch Contour Stylization Using a Tonal Perception Model. ICPhS 1995, Vol. 4. 228-231.
Eisenberg, P. (1994): Grundriß der deutschen Grammatik. Stuttgart.
Fujisaki, H. (1988): A Note on the Physiological and Physical Basis for the Phrase and Accent Components in the Voice Fundamental Frequency Contour. In: Fujimura, O. (Hg.): Vocal Physiology: Voice Production, Mechanisms and Functions. New York: Raven. 347-355.
Jessen, M. (1995): German. In: Van der Hulst, H. (Hg.): Word Prosodic Systems of European Languages. Berlin: de Gruyter.
Kohler, K.J. (1994): Lexica of the Kiel PHONDAT Corpus. Read Speech. Volume I. AIPUK 27.
Mengel, A. (1996): Morphemaussprachelexikon fürs Deutsche. Fortschritte der Akustik. 512-513.
Mengel, A. & Rosenke, K. (1995): Die Eignung unterschiedlicher deutscher Transkriptionssystemarchitekturen für zukünftige Anforderungen. ESSV 1995. 151-158.
PhonDat (1995): Beschreibung der Sprachsignaldatenbank PhonDat. München: Institut für Phonetik, Universität München.
Pierrehumbert, J.B. (1989): The Phonology and Phonetics of English Intonation. PhD thesis. MIT.
Schiller, A.; Teufel, S.; Thielen, C. (1995): Guidelines für das Tagging deutscher Textcorpora mit STTS. Stuttgart: Institut für maschinelle Sprachverarbeitung, Universität Stuttgart.
Stock, D. (1993): Bonner maschinenlesbares Aussprachewörterbuch. Bonn: Institut für Kommunikationsforschung und Phonetik, Universität Bonn.
Uhmann, S. (1991): Fokusphonologie. Eine Analyse deutscher Intonationskonturen im Rahmen der nicht-linearen Phonologie. Tübingen: Niemeyer.