Suhardi, Mengel, Fellbaum: Kontext-unabhängige Lauterkennung von Telefonsprache

Kontext-unabhängige Lauterkennung von Telefonsprache unter Verwendung von Hidden-Markov-Modellen

Suhardi
Institut für Nachrichtentechnik und theoretische Elektrotechnik
TU Berlin
suhardi@ftsu00.ee.tu-berlin.de

Andreas Mengel
Institut für Kommunikationswissenschaft
TU Berlin
mengel@kgw.tu-berlin.de

Klaus Fellbaum
Lehrstuhl Kommunikationstechnik
BTU Cottbus
fellbaum@kt.tu-cottbus.de



Kurzfassung
Es wird die kontext-unabhängige Lauterkennung von Telefonsprache unter Verwendung von Hidden-Markov-Modellen beschrieben. Jeder Laut wird durch ein kontinuierliches 5-Zustands-Links-Rechts-HMM modelliert. Das HMM wird mit der Phondat-Sprachdatenbank trainiert, deren Abtastfrequenz auf 8 kHz herabgesetzt und deren Bandbreite auf 300-3400 Hz begrenzt wurde. Zur Rauschbefreiung wird bei der Vorverarbeitung eine Lin-Log-RASTA-Filterung eingesetzt. Zum Testen dient ein Teil der TUBTEL-Sprachdatenbank.

Schlüsselwörter: Lauterkennung, Telefonsprache, Hidden Markov Modelle.


1. Einführung

Das Ziel dieser Arbeit besteht darin, durch eine experimentelle Untersuchung herauszufinden, wie man ein kontext-unabhängiges Lauterkennungssystem für Telefonsprache mit einer Studio-Qualitäts-Sprachdatenbank trainieren kann. Hierzu werden eine Studio-Qualitäts-Sprachdatenbank (Phondat I und II [1]) und eine Telefon-Qualitäts-Sprachdatenbank (TUBTEL [2]) für die deutsche Sprache verwendet. Die Phondat-Sprachdatenbank ist auf Lautebene, die TUBTEL-Sprachdatenbank teilweise auf Wort-Ebene gelabelt. Die Motivation für unsere Arbeit liegt darin, daß die Erstellung und Segmentierung von Sprachaufnahmen zeit- und kostenintensiv ist, so daß die Wiederwendung von verfügbarem Sprachmaterial naheliegt - auch wenn dieses Material in seinen technischen Daten vom eigenen Material abweicht. Eine ähnliche Vorgehensweise ist bereits für die englische Sprache erfolgreich erprobt worden [3, 4].

Der Unterschied zwischen der Studio-Qualitäts-Sprache und der Telefon-Qualitäts-Sprache liegt in deren akustischen Eigenschaften. Die Phondat-Sprachdatenbank hat 16 kHz Abtastfrequenz, 8 kHz Bandbreite, und sie ist rauschfrei. Die TUBTEL-Sprachdatenbank hat eine Abtastfrequenz von 8 kHz, 300-3400 Hz Bandbreite und ist rauschbehaftet. Die Rauschanteile bei der Telefonsprache ergeben sich aus gefaltetem und additivem Rauschen sowie den nichtlinearen Eigenschaften des Amplituden- und Phasengangs des Telefonkanals. Sie sind die Ursache für die Verminderung der Erkennungsrate. Die Bandbreite spielt für die Verminderung der Erkennungsrate bei der Telefonsprache nur eine geringe Rolle [5]. Zwecks Anpassung der akustischen Eigenschaften werden eine Decimation zur Verminderung der Abtastfrequenz der Phondat-Sprachdatenbank und eine Bandpaß-Filterung zur Bandbreitenbegrenzung (300-3400 Hz) durchgeführt. Eine Lin-Log-RASTA-Filterung reduziert die Rauschanteile der TUBTEL-Sprachdatenbank [4].


2. Automatische Segmentierung.

Die automatische Segmentierung dient einerseits zur Untersuchung der Eignung einer Lin-Log-RASTA-PLP-Analyse für die Segmentierung der Laute bei gefaltetem und additivem Rauschen und andererseits zur Vorbereitung des Testmaterials für die kontext-unabhängige Lauterkennung von Telefonsprache. Diese Segmentierung basiert auf dem HMM-Verfahren. Für jeden Laut wird ein kontinuierliches HMM trainiert. Für die Labelung der Trainingsdaten wurden 52 Laute nach SAMPA-Konvention unterschieden. Entspechend der Transkription der zu segmentierenden Sprachdatei werden die HMMs der Lautmodelle verkettet. Durch den Viterbi-Algorithmus werden der optimale Anfangs- und Endpunkt eines jeden Lautes ermittelt [7].

Merkmalsextraktion
Hierbei werden die Cepstral-Koeffizienten als Merkmale eingesetzt. Die Berechnung der Cepstral-Koeffizienten wird mittels der Lin-Log-RASTA-PLP-Analyse durchgeführt, da diese für die Spracherkennung von Telefonsprache gut geeignet ist [6].

Kontinuierliches HMM
Zur Zeit verwendet man zur akustisch-phonetischen Modellierung bzw. Lautmodellierung meistens das HMM, besonders das kontinuierliche HMM [8, 9, 10]. In dieser Arbeit wird jeder Laut (SAM-PA) mit dem 5-Zustands-Links-Rechts-HMM modelliert. Zusätzlich werden Modelle für Pausen und Rauschen trainiert.

Bild. 1 : HMM für ein Laut-Modell
Für das Training bzw. die
HMM-Parameter-Berechnung
wird die Baum-Welch-Reestimation
verwendet [7].

Viterbi-Algorithmus
Der Viterbi-Algorithmus wird zur Segmentierung (Bestimmung der Anfangs- und Endpunkte) der Laute, aus denen die vorgegebene Transkription des entsprechenden zu segmentierenden Sprachsignals besteht, verwendet. Das Verfahren basiert auf dem Maximum-Likelihood-Kriterium [7, 10].

Fehlerbewertung
Da es keine objektiven Kriterien zur Beurteilung der Richtigkeit und Genauigkeit einer automatischen Segmentierung gibt, wird die Genauigkeit der Segmentierung der Laute im Vergleich zur Referenz auf die folgende Weise berechnet und dargestellt: Von der Referenz (Hand-Segmentierung) abweichende Werte werden zunächst in segment-eindringende und segment-überschreitende Fehler unterschieden, um die Gerichtetheit der Fehler erkennen zu können. Wegen der unterschiedlichen Länge individueller Segmente werden dann die Abweichungen - nach linkem und rechten Segmentrand getrennt - berechnet, indem der durchschnittliche auf die Gesamtdauer des Lautes bezogene Anteil, um den die Segmentierung nach innen in den Laut hinein- oder über die Lautgrenzen hinausgeht, ermittelt wird.


3. Lauterkennung

Die Lauterkennung wird mit dem HTK-Tool durchgeführt, das auf den Viterbi-Algorithmus basiert. Das Ergebnis ist eine Laut-Labeldatei, die zur Bewertung der Erkennungsrate mit der Referenz-Labeldatei verglichen wird. Die Erkennungsrate (ER) wird wie folgt berechnet:
ER = (N - D - S - I) * 100 / N
N = Gesamtzahl der Label in Referenzdatei, D = Auslassungen (deletions), S = Ersetzungen (substitutions), I = Einfügungen (insertions).


4. Untersuchungen

Für das Training wurde die CD-1 (Phondat I) benutzt. Die Sprachdateien wurden zunächst durch Decimation auf 8 kHz reduziert und die Bandbreite durch Bandpaß-Filterung auf den Bereich von 300-3400 Hz begrenzt. Danach wurden Cepstral-Koeffizienten rahmenweise durch die Lin-Log-RASTA-PLP-Analyse berechnet. Die Rahmenbreite beträgt 32 ms und die Rahmenverschiebung 8 ms. Es wurden 12 Koeffizienten pro Rahmen erzeugt.

Es wurde eine Normtranskription für jede zu segmentierende Sprachdatei erzeugt. Diese Transkription und ihre zugehörige parametrische Sprachdatei wurden als Eingang bzw. Information für die automatische Segmentierung benutzt. Dabei wurden 50 Sätze des TUBTEL-Sprachmaterials ausgewählt. Zum Testen (der kontext-unabhängigen Lauterkennung) wurden 50 Sätze des TUBTEL-Sprachmaterials und 50 Sätze der CD-2 (Phondat I) nach einem Zufallsprozeß benutzt. Die Bearbeitung des Phondat-Sprachmaterials (Decimation und Bandbegrenzung) erfolgte wie vorher.


5. Ergebnisse

Automatische Segmentierung
Bild 2 zeigt die durchschnittlichen relativen Abweichungen der automatischen Segmentierung des TUBTEL-Sprachmaterials im Vergleich zur Referenz (Segmentierung per Hand).

Bild 2 : Gemittelte Abweichungen der automatischen
Segmentierung des TUBTEL-Sprachmaterials
links: segment-eindringende Fehler,
rechts : segment-überschreitende Fehler.

Segmentierungsfehler werden in segment-eindringende (linkes Diagramm) und segment-überschreitende (rechtes Diagramm) und getrennt nach linker und rechter Segmentgrenze unterschieden. Die Grafik zeigt - nach Fehlerart und Laut getrennt - die durchschnittliche Segmentlänge der gelabelten Laute bei gegebener Fehlerart. Die vertikalen Linien stellen die korrekten Lautgrenzen dar. Die Lautwerte sind in SAMPA notiert, [P] steht für [Pause], [#] für das Ende des Signals. Die Ergebnisse sind nach Lautklassen sortiert. Es zeigen sich keine lautklassenspezifischen Regelmäßigkeiten. Die Segmentgrenzenerkennung ist derzeit noch unzureichend.

Mögliche Fehlerquellen sind der Unterschied zwischen der erwarteten Standard-Lautung und der tatsächlichen Aussprache (Verschleifungen etc.) sowie unterschiedliche Kanalqualitäten. Diese Fehlerquellen wurden bisher noch nicht systematisch untersucht.

Lauterkennung
Die Ergebnisse der Lauterkennung sind in folgender Tabelle zusammenfaßt. In der zweite Spalte ist die Erkennungsrate für das gefilterte Phondat-Sprachmaterial, das aus den 50 Sätzen der Phondat I (CD-2) besteht. Damit hat das Testmaterial die gleiche Qualität wie das Trainingsmaterial. In der dritten Spalte ist die Erkennungsrate für das TUBTEL-Sprachmaterial. Die Qualität des zweiten Testmaterials ist schlechter als die des ersten.

Testdaten
Phondat I CD-2
(gefiltert)
Testdaten
TUBTEL
Trainingsdaten4827

Die Erkennungsrate bei Telefonsprache ist schlecht in Vergleich zur derjenigen der gefilterten Phondat-Sprachdatenbank. Mögliche Fehlerquellen sind die unterschiedlichen Textsorten und die jeweilige Sprachqualität.


6. Zusammenfassung und Ausblick

Es zeigt sich, daß die automatische Verarbeitung von Telefonsprache unter Zuhilfenahme von Studio-Qualitäts-Daten bisher noch suboptimale Ergebnisse erzielt. Die Untersuchungen geben aber Anhaltspunkte für weitere Arbeiten zur Lauterkennung deutscher Sprache unter Telefonbedingungen. Ansatzpunkt zur Verbesserung der Ergebnisse ist u.a. eine stärkere Anpassung der Trainingsbedingungen an die Testsituation. Daher ist es notwendig, den Einfluß der Sprachqualität auf die Erkennungsrate systematisch durch eine Kanalsimulation zu untersuchen. In diesen Untersuchungen war bisher der Faktor J für die Lin-Log-RASTA-Filterung noch konstant. Dieser Faktor soll noch an das SNR des zu untersuchenden Signals angepaßt werden.


Literatur

[1] Unterlagen der Phondat-CDs.
[2] Schürer, T., Ahrling, S., Fellbaum, K., Hardt, D., Klaus, H., Mengel, A., Suhardi; TUBTEL - Eine deutsche Telefon-Sprachdatenbank; Elektronische Sprachsignalverarbeitung; Wolfenbüttel, 4.-6. September 1995, ISSN: 0940-6832, pp. 183-187.
[3] Weintraub, M., Neumeyer, L.; Constructing Telephone Acoustic Models from a High-Quality Speech Corpus; ICASSP-94, pp. I-85-I-88.
[4] Neumeyer, L. G., Digalakis, V. V., Weintraub, M.; Training Issues and Channel Equalization Techniques for the Construction of Telephone Acoustic Models Using a High-Quality Speech Corpus; IEEE Trans. on Speech and Audio Processing, Vol. 2, No. 4, October 1994, pp. 590-597.
[5] Moreno, P. J., Stern, R. M., Sources of Degradation of Speech Recognition in the Telephone Network; ICASSP-94, pp. I-109-112.
[6] Hermansky, H., Morgan, N.; RASTA Processing of Speech; IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 4, October 1994, pp. 578-589.
[7] Young, S.J., Woodland P.C., Byrne, W.J., HTK: Hidden Markov Model Toolkit User Manual, 1993, CUED Speech Group Cambridge University, Entropic Research Laboratories Inc.
[8] Lee, C.H., Rabiner, L.R., Pieraccini, and Wilpon, J.G.; Acoustic Modeling for Large Vocabulary Speech Recognition. Computer Speech and Language, 4: 1237-1265, January 1990.
[9] Lee, K-F., Hon, H-W.; Speaker Independent Phone Recognition using Hidden Markov Models. IEEE Trans. on ASSP, pp. 1641-1648.
[10] Huang, X. D., Ariki, Y., Jack, M.A.; Hidden Markov Models for Speech Recognition, 1990, Edinburgh University Press.