Multivariate Datenanalyse | 3 |
Inhaltsverzeichnis | 7 |
Vorwort | 13 |
1 Einführung in die multivariate Datenanalyse | 17 |
1.1 Was ist multivariate Datenanalyse? | 17 |
1.2 Datensätze in der multivariaten Datenanalyse | 20 |
1.3 Ziele der multivariaten Datenanalyse | 21 |
1.3.1 Einordnen, Klassifizierung der Daten | 21 |
1.3.2 Multivariate Regressionsverfahren | 22 |
1.3.3 Möglichkeiten der multivariaten Verfahren | 23 |
1.4 Prüfen auf Normalverteilung | 24 |
1.4.1 Wahrscheinlichkeitsplots | 26 |
1.4.2 Box-Plots | 28 |
1.5 Finden von Zusammenhängen | 32 |
1.5.1 Korrelationsanalyse | 32 |
1.5.2 Bivariate Datendarstellung – Streudiagramme | 34 |
Literatur | 36 |
2 Hauptkomponentenanalyse | 37 |
2.1 Geschichte der Hauptkomponentenanalyse | 37 |
2.2 Bestimmen der Hauptkomponenten | 38 |
2.2.1 Prinzip der Hauptkomponentenanalyse | 38 |
2.2.2 Was macht die Hauptkomponentenanalyse? | 40 |
2.2.3 Grafische Erklärung der Hauptkomponenten | 41 |
2.2.4 Bedeutung der Faktorenwerte und Faktorenladungen (Scores und Loadings) | 45 |
2.2.5 Erklärte Varianz pro Hauptkomponente | 51 |
2.3 Mathematisches Modell der Hauptkomponentenanalyse | 52 |
2.3.1 Mittenzentrierung | 53 |
2.3.2 PCA-Gleichung | 54 |
2.3.3 Eigenwert- und Eigenvektorenberechnung | 54 |
2.3.4 Berechnung der Hauptkomponenten mit dem NIPALS-Algorithmus | 56 |
2.3.5 Rechnen mit Scores und Loadings | 58 |
2.4 PCA für drei Dimensionen | 62 |
2.4.1 Bedeutung von Bi-Plots | 64 |
2.4.2 Grafische Darstellung der Variablenkorrelationen zu den Hauptkomponenten (Korrelation-Loadings-Plots) | 68 |
2.5 PCA für viele Dimensionen: Gaschromatographische Daten | 72 |
2.6 Standardisierung der Messdaten | 81 |
2.7 PCA für viele Dimensionen: Spektren | 88 |
2.7.1 Auswertung des VIS-Bereichs (500–800 nm) | 90 |
2.7.2 Auswertung des NIR-Bereichs (1100–2100 nm) | 97 |
2.8 Wegweiser zur PCA bei der explorativen Datenanalyse | 102 |
Literatur | 104 |
3 Multivariate Regressionsmethoden | 105 |
3.1 Klassische und inverse Kalibration | 106 |
3.2 Univariate lineare Regression | 108 |
3.3 Maßzahlen zur Überprüfung des Kalibriermodells (Fehlergrößen bei der Kalibrierung) | 109 |
3.3.1 Standardfehler der Kalibration | 109 |
3.3.2 Mittlerer Fehler – RMSE | 110 |
3.3.3 Standardabweichung der Residuen – SE | 111 |
3.3.4 Korrelation und Bestimmtheitsmaß | 112 |
3.4 Signifikanz und Interpretation der Regressionskoeffizienten | 113 |
3.5 Grafische Überprüfung des Kalibriermodells | 113 |
3.6 Multiple lineare Regression (MLR) | 115 |
3.7 Beispiel für MLR – Auswertung eines Versuchsplans | 116 |
3.8 Hauptkomponentenregression (Principal Component Regression – PCR) | 119 |
3.8.1 Beispiel zur PCR – Kalibrierung mit NIR-Spektren | 121 |
3.8.2 Bestimmen des optimalen PCR-Modells | 122 |
3.8.3 Validierung mit unabhängigem Testset | 126 |
3.9 Partial Least Square Regression (PLS-Regression) | 127 |
3.9.1 Geschichte der PLS | 128 |
3.10 PLS-Regression für eine Y-Variable (PLS1) | 129 |
3.10.1 Berechnung der PLS1-Komponenten | 130 |
3.10.2 Interpretation der P-Loadings und W-Loadings bei der PLS-Regression | 133 |
3.10.3 Beispiel zur PLS1 – Kalibrierung von NIR-Spektren | 133 |
3.10.4 Finden des optimalen PLS-Modells | 134 |
3.10.5 Validierung des PLS-Modells mit unabhängigem Testset | 137 |
3.10.6 Variablenselektion – Finden der optimalen X-Variablen | 138 |
3.11 PLS-Regression für mehrere Y-Variablen (PLS2) | 143 |
3.11.1 Berechnung der PLS2-Komponenten | 143 |
3.11.2 Wahl des Modells: PLS1 oder PLS2? | 145 |
3.11.3 Beispiel PLS2: Bestimmung von Gaskonzentrationen in der Verfahrenstechnik | 146 |
3.11.4 Beispiel 2 zur PLS2: Berechnung der Konzentrationen von Einzelkomponenten aus Mischungsspektren | 157 |
Literatur | 167 |
4 Kalibrieren, Validieren, Vorhersagen | 169 |
4.1 Zusammenfassung der Kalibrierschritte – Kalibrierfehler | 170 |
4.2 Möglichkeiten der Validierung | 171 |
4.2.1 Kreuzvalidierung (Cross Validation) | 172 |
4.2.2 Fehlerabschätzung aufgrund des Einflusses der Datenpunkte (Leverage Korrektur) | 173 |
4.2.3 Externe Validierung mit separatem Testset | 175 |
4.3 Bestimmen des Kalibrier- und Validierdatensets | 178 |
4.3.1 Kalibrierdatenset repräsentativ für Y-Datenraum | 180 |
4.3.2 Kalibrierdatenset repräsentativ für X-Datenraum | 180 |
4.3.3 Vergleich der Kalibriermodelle | 181 |
4.4 Ausreißer | 184 |
4.4.1 Finden von Ausreißern in den X-Kalibrierdaten | 185 |
4.4.2 Grafische Darstellung der Einflüsse auf die Kalibrierung | 188 |
4.4.2.1 Einfluss-Grafik: Influence Plot mit Leverage und Restvarianz | 188 |
4.4.2.2 Residuenplots | 190 |
4.5 Vorhersagebereich der vorhergesagten Y-Daten | 191 |
4.5.1 Grafische Darstellung des Vorhersageintervalls | 193 |
Literatur | 197 |
5 Datenvorverarbeitung bei Spektren | 199 |
5.1 Spektroskopische Transformationen | 199 |
5.2 Spektrennormierung | 201 |
5.2.1 Normierung auf den Mittelwert | 202 |
5.2.2 Vektornormierung auf die Länge eins (Betrag-1-Norm) | 202 |
5.3 Glättung | 203 |
5.3.1 Glättung mit gleitendem Mittelwert | 203 |
5.3.2 Polynomglättung (Savitzky-Golay-Glättung) | 203 |
5.4 Basislinienkorrektur | 206 |
5.5 Ableitungen | 209 |
5.5.1 Ableitung nach der Differenzenquotienten-Methode (Punkt-Punkt-Ableitung) | 209 |
5.5.2 Ableitung über Polynomfit (Savitzky-Golay-Ableitung) | 211 |
5.6 Korrektur von Streueffekten | 214 |
5.6.1 MSC (Multiplicative Signal Correction) | 214 |
5.6.2 EMSC (Extended Multiplicative Signal Correction) | 215 |
5.6.3 Standardisierung der Spektren (Standard Normal Variate (SNV) Transformation) | 218 |
5.7 Vergleich der Vorbehandlungsmethoden | 219 |
Literatur | 225 |
6 Eine Anwendung in der Produktionsüberwachung – von den Vorversuchen zum Einsatz des Modells | 227 |
6.1 Vorversuche | 227 |
6.2 Erstes Kalibriermodell | 233 |
6.3 Einsatz des Kalibriermodells – Validierphase | 236 |
6.4 Offset in den Vorhersagewerten der zweiten Testphase | 240 |
6.5 Zusammenfassung der Schritte bei der Erstellung eines Online-Vorhersagemodells | 243 |
7 Tutorial zum Umgang mit dem Programm „The Unscrambler“ der Demo-CD | 245 |
7.1 Durchführung einer Hauptkomponentenanalyse (PCA) | 245 |
7.1.1 Beschreibung der Daten | 245 |
7.1.2 Aufgabenstellung | 246 |
7.1.3 Datendatei einlesen | 246 |
7.1.4 Definieren von Variablen- und Objektbereichen | 247 |
7.1.5 Speichern der Datentabelle | 248 |
7.1.6 Plot der Rohdaten | 249 |
7.1.7 Verwendung von qualitativen Variablen (kategoriale Variable) | 251 |
7.1.8 Berechnen eines PCA-Modells | 254 |
7.1.9 Interpretation der PCA-Ergebnisse | 257 |
7.1.9.1 Erklärte Varianz (Explained Variance) | 257 |
7.1.9.2 Scoreplot | 258 |
7.1.9.3 Loadingsplot | 263 |
7.1.9.4 Einfluss-Plot (Influence Plot) | 266 |
7.2 Datenvorverarbeitung | 269 |
7.2.1 Berechnung der zweiten Ableitung | 269 |
7.2.2 Glättung der Spektren | 272 |
7.2.3 Berechnen der Streukorrektur mit EMSC | 273 |
7.3 Durchführung einer PLS-Regression mit einer Y-Variablen | 277 |
7.3.1 Aufgabenstellung | 277 |
7.3.2 Interpretation der PLS-Ergebnisse | 282 |
7.3.2.1 PLS-Scoreplot | 282 |
7.3.2.2 Darstellung der Validierungsrestvarianzen (Residual Validation Variance) | 285 |
7.3.2.3 Darstellung der Regressionskoeffizienten | 286 |
7.3.2.4 Darstellung der vorhergesagten und der gemessenen Theophyllinkonzentrationen (Predicted versus Measured Plot) | 287 |
7.3.2.5 Residuenplot | 289 |
7.4 Verwenden des Regressionsmodells – Vorhersage des Theophyllingehalts für Testdaten | 292 |
7.5 Export der Unscrambler-Modelle zur Verwendung in beliebigen Anwendungen | 294 |
7.5.1 Kalibriermodell für Feuchte erstellen | 295 |
7.5.2 Export des PLS-Regressionsmodells für die Feuchte | 299 |
7.5.2.1 Umwandeln der Grafikanzeige in numerische Daten | 299 |
7.5.2.2 Export des Regressionsmodells als Text-Datei (ASCII Model) | 301 |
7.5.2.3 Berechnung der Feuchte in Excel | 302 |
7.6 Checkliste für spektroskopische Kalibrierungen mit dem Unscrambler | 303 |
Literatur | 306 |
Anhänge A–D | 307 |
Anhang A | 308 |
Anhang B | 318 |
Anhang C | 320 |
Anhang D | 326 |
Stichwortverzeichnis | 329 |