Vorwort zur 2. Auflage | 6 |
Vorwort zur 1. Auflage | 7 |
Inhaltsverzeichnis | 9 |
Kapitel-1 | 14 |
Grundzüge der Linguistik | 14 |
1.1 Zum Sprachbegriff | 14 |
1.2 Sprache als Zeichensystem semiotische Aspekte | 20 |
1.3 Sprache als Kommunikationsform | 23 |
1.4 Informationstheoretische Aspekte | 25 |
Literatur | 30 |
Kapitel-2 | 31 |
Grundzüge der Schallausbreitung und Elektroakustik | 31 |
2.1 Schallfeld, Schallausbreitung | 31 |
2.1.1 Schallfeldgrößen, Ausbreitungsformen | 31 |
2.1.2 Grundgleichungen der Schallausbreitung | 33 |
2.1.3 Wellengleichung | 36 |
2.1.4 Ebene Schallabstrahlung | 37 |
2.1.4.1 Lösung der Wellengleichung für den ebenen Fall | 37 |
2.1.4.2 Größen zur Kennzeichnung des ebenen Schallfeldes | 39 |
2.1.4.3 Pegeldefinitionen | 41 |
2.1.4.4 Pegelrechnung | 41 |
2.1.5 Ebene Wellenausbreitung in Röhren | 43 |
2.1.6 Kugelförmige Schallausbreitung | 47 |
2.1.6.1 Lösung der Wellengleichung | 47 |
2.1.6.2 Wichtige Kenngrößen für die kugelförmige Schallausbreitung | 48 |
2.1.6.3 Kugelförmige Schallabstrahlung in Abhängigkeit von der Frequenz | 50 |
2.1.6.4 Kugelförmige Schallabstrahlung in Abhängigkeit von der Entfernung | 53 |
2.1.6.5 Schallfluss einer Kugelwelle | 53 |
2.1.6.6 Gebündelte Schallabstrahlung | 54 |
2.1.7 Webstersche Gleichung | 55 |
2.2 Elektroakustische Wandler | 60 |
2.2.1 Einteilungsprinzipien, Definitionen | 60 |
2.2.2 Elektrodynamische Wandler | 61 |
2.2.3 Elektrostatische Wandler | 63 |
2.2.4 Elektret-Mikrofone | 66 |
2.2.5 Weitere Mikrofontypen | 67 |
2.2.5.1 Piezoelektrische Mikrofone | 67 |
Literatur | 68 |
Kapitel-3 | 69 |
Grundzüge der Phonetik und Darstellungsmöglichkeiten von Sprachsignalen | 69 |
3.1 Entwicklungsgeschichtliches zur Funktion des Sprechens und Hörens | 69 |
3.2 Sprachproduktion | 70 |
3.2.1 Atmung | 70 |
3.2.2 Stimmproduktion (Phonation) | 71 |
3.2.3 Artikulation | 74 |
3.3 Lautklassifikation | 74 |
3.3.1 Konsonanten | 74 |
3.3.2 Vokale (Selbstlaute) | 76 |
3.4 Zur Klassifikation von Einzellauten | 78 |
3.5 Lautschriftsysteme | 80 |
3.6 Weitere phonologische Begriffe | 81 |
3.7 Modelle für die Spracherzeugung | 83 |
3.8 Darstellungsmöglichkeiten von Sprachsignalen | 89 |
3.8.1 Zeitfenster | 89 |
3.8.2 Darstellung im Zeitbereich | 91 |
3.8.3 Darstellung im Frequenzbereich | 93 |
3.9 Signaleigenschaften von Einzellauten | 97 |
3.9.1 Konsonanten | 98 |
3.9.2 Vokale | 101 |
3.10 Koartikulationseffekte | 106 |
3.11 Langzeitmessung von Sprache | 106 |
Literatur | 109 |
Kapitel-4 | 111 |
Hörphysiologie und Psychoakustik | 111 |
4.1 Hörphysiologie | 111 |
4.1.1 Überblick | 111 |
4.1.2 Außenohr | 112 |
4.1.3 Mittelohr | 113 |
4.1.4 Innenohr | 114 |
4.1.5 Zum Hörvorgang Hörhypothesen | 117 |
4.2 Grundzüge der Psychoakustik | 119 |
4.2.1 Hörfläche, Lautstärke, Lautheit | 119 |
4.2.2 Frequenzgruppen | 124 |
4.2.3 Pegelzuwachs bei mehreren Schallereignissen | 127 |
4.2.4 Mithörschwelle, Verdeckungseffekt | 130 |
4.2.5 Lautstärkebestimmung bei breitbandigen Schallereignissen Zwicker-Diagramm | 132 |
4.2.6 Tonhöhenwahrnehmung | 133 |
4.2.6.1 Gerade wahrnehmbare Frequenzänderungen (JNVF) | 135 |
4.2.6.2 Verhältnistonhöhe | 135 |
Literatur | 137 |
Kapitel-5 | 139 |
Sprachqualitätsmessungen | 139 |
5.1 Zum Begriff der Sprachqualität | 139 |
5.2 Dimensionen der Sprachqualität | 140 |
5.3 Formen der Sprachqualitätsmessung und Anwendungen | 142 |
5.3.1 Sprachqualitätsmessungen im Überblick | 142 |
5.3.2 Skalierungs- und Antwortformen bei Sprachqualitätsmessungen | 144 |
5.3.2.1 Arten von Skalen | 144 |
5.3.2.2 Antwortformen | 145 |
5.3.3 Anwendungen von Sprachqualitätsmessungen | 145 |
5.4 Auditive Verfahren zur Beurteilung der Sprachqualität | 146 |
5.4.1 Überblick | 146 |
5.4.2 Randbedingungen bei auditiven Messungen | 146 |
5.4.3 Globale Qualitätsbewertung | 151 |
5.4.3.1 Absoluter Qualitätsbewertungstest (Absolute Category Rating Test, ACR-Test) | 152 |
5.4.3.2 Paarvergleichstests | 155 |
5.4.4 Diagnostische Qualitätsbewertung | 158 |
5.4.4.1 Verständlichkeitstests | 158 |
5.4.4.2 Verständlichkeitstests für Wörter | 166 |
5.4.4.3 Verständlichkeitstests für Sätze | 166 |
5.4.4.4 Prosodietest | 168 |
5.4.5 Weitere Verfahren von auditiven Tests | 168 |
5.5 Instrumentelle Verfahren zur Beurteilung der Sprachqualität | 169 |
5.5.1 Nutzen und Einteilungsprinzipien | 169 |
5.5.2 Einseitig gerichtete Sprachkommunikation (Hörsituation) | 171 |
5.5.2.1 Verfahren mit Referenzsignal | 172 |
5.5.2.2 Verfahren ohne Referenzsignal | 179 |
5.5.3 Planung und Qualitätsbeurteilung von Fernsprechnetzen das E-Modell | 180 |
5.5.4 Zusammenstellung der wichtigsten ITU-T-Standards für auditive und instrumentelle Sprachqualitätsmessungen | 181 |
Literatur | 183 |
Kapitel-6 | 185 |
Sprachcodierverfahren | 185 |
6.1 Einleitung | 185 |
6.2 Analoge und digitale Darstellung von Signalen | 186 |
6.3 Einteilung der Sprachcodierverfahren | 187 |
6.4 Signalformcodierung | 188 |
6.4.1 Pulscodemodulation (PCM) | 188 |
6.4.2 Differenz-Puls-Code-Modulation (DPCM) | 201 |
6.4.2.1 Zum Prinzip der Linearen Prädiktion | 201 |
6.4.2.2 Zur Problematik der Fehlerrückkopplung | 210 |
6.4.3 Adaptive Differenz-Pulscodemodulation (ADPCM) | 211 |
6.4.3.1 Kovarianz-Methode | 212 |
6.4.3.2 Autokorrelationsmethode | 214 |
6.4.4 Lineare Prädiktion und inverse Filterung | 219 |
6.5 Parametrische Verfahren | 226 |
6.5.1 Grundprinzip | 226 |
6.5.2 Kanalvocoder | 227 |
6.5.3 Linearer Prädiktionsvocoder (LPC-Vocoder) | 228 |
6.5.4 LPC-Vocoder Realisierung | 230 |
6.5.5 Grundfrequenzanalyse (GFA) | 233 |
6.6 Hybride Codierung | 244 |
6.6.1 Grundprinzip | 244 |
6.6.1.1 Langzeit- und Kurzzeitprädiktion | 245 |
6.6.1.2 Vektorquantisierung | 245 |
6.6.1.3 „Analyse-durch-Synthese“-Prinzip | 248 |
6.6.2 Restsignal-Codierung (RELP Residual Excited Linear Prediction) | 249 |
6.6.3 CELP | 249 |
6.7 Frequenzbereichscodierung | 253 |
6.7.1 Transformationscodierung | 253 |
6.7.2 Teilbandcodierung (Subband Coding) | 254 |
6.7.3 MPEG-basierteAudiocodierung | 255 |
6.8 Internationale Standards und Ausblick | 258 |
Literatur | 261 |
Kapitel 7 | 262 |
Merkmalextraktion und Klassifikation | 262 |
7.1 Vorbetrachtung | 262 |
7.2 Merkmalextraktion | 263 |
7.2.1 Linear Predictive Cepstral Coding (LPCC) | 264 |
7.2.2 Mel-Frequency Cepstral Coefficients (MFCCs) | 264 |
7.2.3 Perceptual Linear Predictive (PLP)-Analyse | 269 |
7.2.4 RASTA-Perceptual Linear Predictive (RASTA-PLP)-Verfahren | 269 |
7.3 Klassifikation | 270 |
7.4 Entscheidungstheoretische Klassifikation | 271 |
7.4.1 Prinzip der Bayes-Klassifikation | 271 |
7.4.2 Statistische Klassifikatoren mit bekannten Wahrscheinlichkeitsverteilungen | 279 |
7.5 Lineare Klassifikatoren | 281 |
7.6 Abstandsklassifikatoren | 282 |
7.7 Hidden-Markov-Modelle | 284 |
7.7.1 Vorbetrachtung: Markov-Modelle | 284 |
7.7.2 Hidden-Markov-Modelle | 286 |
7.8 Künstliche Neuronale Netze | 293 |
7.8.1 Einführung | 293 |
7.8.2 Struktur künstlicher neuronaler Netze | 294 |
7.8.3 Beispiel für eine neuronale Anwendung: ADALINE | 296 |
7.8.4 Perzeptron | 300 |
7.8.5 Netzstrukturen | 301 |
7.8.6 Multilayer Perzeptron (MLP) | 302 |
Forward Pass | 304 |
Fehlerberechnung | 304 |
Backward Pass | 304 |
Ausgangsschicht | 305 |
Interne Schicht | 305 |
7.9 DTW-Klassifikator | 306 |
7.9.1 Dynamische Zeitnormalisierung | 306 |
Literatur | 311 |
Kapitel-8 | 313 |
Spracheingabe | 313 |
8.1 Vorbetrachtung | 313 |
8.2 Spracherkennung | 314 |
8.2.1 Spracherkennung beim Menschen | 314 |
8.2.2 Überblick | 316 |
8.2.3 Einteilung der Verfahren | 316 |
8.2.4 Erkennung als mathematische Optimierungsaufgabe | 319 |
8.2.5 Einzelwort-Erkennung | 321 |
8.2.5.1 Prinzipielle Vorgehensweise | 321 |
8.2.5.2 Spracherkennung mit Hidden-Markov-Modellen | 323 |
8.2.5.3 Einzelwort-Erkennung mit neuronalen Netzen | 324 |
8.2.5.4 Akustisch-phonetische Erkennung | 325 |
8.2.6 Beurteilung der Erkennungsleistung | 326 |
8.2.7 Schlüsselwort-Erkennung („Word Spotting“) | 328 |
8.2.8 Erkennung fortlaufender Sprache | 330 |
8.3 Sprechererkennung | 334 |
8.3.1 Übersicht | 334 |
8.3.2 Sprecherverifizierung | 335 |
8.3.3 Verifizierung auf der Basis von akustisch-phonetischen Merkmalen | 342 |
8.3.4 Heutiger Stand der Sprecherverifizierung | 346 |
8.3.5 Sprecheridentifizierung | 346 |
8.4 Sprachenerkennung | 348 |
Literatur | 349 |
Kapitel-9 | 352 |
Sprachausgabe | 352 |
9.1 Einteilungsprinzipien | 352 |
9.2 Sprachwiedergabe | 353 |
9.2.1 Prinzipielle Verfahren | 353 |
9.2.2 Anwendungsbeispiele für die Sprachwiedergabe | 355 |
9.3 Sprachsynthese | 356 |
9.3.1 Übersicht | 356 |
9.3.2 Linguistisch-phonetische Transkription | 357 |
9.3.3 Phonetisch-akustische Transkription | 362 |
9.3.4 Verkettung der Lautelemente (Konkatenation) | 365 |
9.3.4.1 PSOLA-Verfahren | 366 |
9.3.4.2 Parametrische Konkatenation in Verbindung mit dem LPC-Verfahren | 367 |
9.3.4.3 Formant-Synthese | 368 |
9.3.4.4 Korpus-basierte Synthese (Non-uniform unit selection) | 371 |
9.3.5 Aktuelle Entwicklungen in der Sprachsynthese | 371 |
Literatur | 375 |
Kapitel-10 | 378 |
Sprachdialogsysteme | 378 |
10.1 Einleitende Betrachtungen zur Kommunikation | 378 |
10.2 Eigenschaften des Mensch-Mensch-Dialogs | 379 |
10.3 Mensch-Maschine-Dialog | 381 |
10.3.1 Vorbemerkung | 381 |
10.3.2 Dialogformen | 381 |
10.3.3 Dialogphasen | 382 |
10.3.4 Beispiel für eine Dialoggestaltung | 383 |
10.3.5 Anforderungen an Dialogsysteme | 384 |
10.4 Klassifikation und Funktion von Dialogsystemen | 386 |
10.4.1 Klassifikation | 386 |
10.4.2 Allgemeines Schema eines sprachbasierten Dialogsystems | 387 |
10.4.3 Beispiel für ein Sprachdialogsystem: VERBMOBIL | 389 |
10.5 Multimediale Dialogsysteme | 390 |
10.5.1 Begriffsdefinitionen | 390 |
10.5.2 Beispiel für ein multimediales Dialogsystem | 391 |
10.5.3 Anwendungsbeispiele | 393 |
10.6 Experimentierfeld ‚Wizard of Oz‘ | 395 |
Literatur | 397 |
Sachverzeichnis | 399 |