3
Statistische Grundlagen der Versuchsplanung
All models are wrong but some are useful.
C.E.P. Box
Fast alle Probleme im pharmazeutischen Labor lassen sich durch geeignete Modellbildung bearbeiten. Darum ist es zweckmäßig, Fähigkeiten zum Denken in Systemen und Modellen zu pflegen. Ob es um Laborvergleiche, Bioäquivalenz, die Beurteilung eines in vitro-in vivo Zusammenhangs oder die Optimierung einer galenischen Formulierung geht, immer hängt eine oder mehrere Zielgrößen Y von einem oder mehreren Faktoren X ab. Daher sind diese Fragestellungen durch Regressionsverfahren behandelbar. Diese stellen den Kern dieses Kapitels.
Statt „Welche statistische Methode muss ich anwenden, um einen gegeben Datensatz auszuwerten?“ lautet die sinnvolle Frage: „Welche Messungen muss ich bei welcher Kombination der einstellbaren Faktoren machen, um aus meinem System mit minimalem Aufwand präzise und unverfälschte Schätzungen der Koeffizienten meines Modells für die gemessene Zielgröße zu erhalten?“
Die ausführliche Berechnung der Koeffizientenschätzungen und ihrer Vertrauensintervalle ist nicht Gegenstand dieses Kapitels, weil es hierfür genügend brauchbare Software gibt.
3.1 Systeme
Es ist eine wissenschaftliche Grundannahme, dass es eine Wahrheit gibt, deren Äußerungen in einem gegebenen System sich uns durch Messungen mitteilen kann. Diese Mitteilung ist in der Regel verrauscht und bei schlechter Versuchsplanung auch verfälscht (Abb. 3.1).
Um gezielt Information über das unbekannte System zu erlangen, werden relevante Zielgrößen bei simultaner systematischer Variation der putativen Einflussparameter (Faktoren) gemessen. Aus dem funktionalen Zusammenhang zwischen den Faktoren und den Zielgrößen lassen sich Aussagen über das Systemverhalten erlangen. Oft geht es hierbei zunächst um den Ausschluss irrelevanter und die Entdeckung einflussreicher Faktoren bevorman detailliertere Modelle aufstellen kann. Die wichtigste Anwendung findet die lineare Modellierung und die Versuchsplanung (DOE = design of experiments) in der Entwicklung von Prozessen und Produkten, z.B. Arzneiformen. Abbildung 3.2 zeigt exemplarisch das System eines Tablettierprozesses.
Abb. 3.1 Die Strukturierung eines Problems durch Systembildung.
Abb. 3.2 Systembild zur Optimierung eines Tablettierungsprozesses.
Neben solchen recht komplexen Aufgaben lassen sich auch einfache Vergleiche abbilden, wie in Abb. 3.3 für eine Bioverfügbarkeitsuntersuchung dargestellt.
3.2 Modelle
Vieles fiele leichter,
könnte der Mensch Gras essen.
Ernst Bloch,
Einleitung in die Tübinger Philosophie
Hätte man perfekte Messmittel, ein störungsfreies System und unendlich viel Zeit, so ließe sich eine Systemanalyse einfach dadurch realisieren, dass man alle möglichen Faktorenkombinationen nach und nach einstellt und dabei die Zielgrößen misst. Der resultierende Datensatz spiegelt dann unmittelbar die Wahrheit, also die Funktion des Systems wieder.
Leider sind perfekte Messmittel und störungsfreie Systeme sehr selten und Zeit wird ein immer kostbareres Gut. Darum muss man Vereinfachungen vornehmen. Statt bei jeder möglichen Faktorenkombination Messungen der Zielgröße zu machen, werden nur noch Untermengen davon eingestellt und dort gemessen. Die entstehenden Lücken werden dann durch Modellfunktionen interpoliert oder sie werden durch kluge Planung so gelegt, dass sie keine relevante Information brächten.
Abb.3.3 Beispiel eines Syatembilds zur Bioverfügbarkeitsschätzung
Oft sind die Modelle der Biopharmazie nichtlinearer Natur. Dies ist prinzipiell kein Hindernis, jedoch erschwert es die eindeutige Schätzung der Modelleigenschaften. Denn nur für lineare Modelle sind die Bestimmungsgleichungen geschlossen lösbar und die statistischen Eigenschaften von Schätzungen eindeutig. Darum sollte man stets bestrebt sein, auf lineare Modelle zu vereinfachen. Dass dies nicht bloße Willkür ist, zeigt bereits der Satz von Taylor:
Regel 1 (Satz von Taylor)
Jede stetige differenzierbare Funktion kann in einem kleinen Intervall durch eine lineare Funktion (Polynomreihe) approximiert werden.
Der Satz von Taylor zeigt, dass man auch bei nichtlinearen Funktionen mit linearen Modellen arbeiten kann, wenn die Faktoreneinstellungen nicht zu weit schwanken. Sehr oft kann dann ein nichtlineares System in erster Näherung als ein lineares Modell beschrieben werden.
Abbildung 3.4 zeigt den Verlauf der Gerinnungszeit einer Heparinzubereitung in Rinderserumalbumin aus einer Bestimmung nach DAB. Die Gerinnungszeit in Sekunden als Funktion der Heparinverdünnung folgt einer logistischen Funktion Y = A∞+{(A0–A∞)/[1+(X/X50)p]}. Dies ist plausibel und aus unzähligen Messungen bekannt.
Die dicke durchgezogene Kurve ist eine kubische Funktion. Sie beschreibt den Datenverlauf schon recht gut. Wenn man sich auf den Einstellbereich 0.08 bis 0.17 beschränkt, so genügt bereits eine simple Geradengleichung näherungsweise zur Beschreibung der gemessenen Daten.
Abb. 3.4 Gerinnungszeit einer Heparinzubereitung in Rinderalbumin (nach DAB) als Beispiel für den Satz von Taylor.
Das Erkenntnisziel bei der Modelluntersuchung ist die Schätzung der Größe der wahren unbekannten Modellkoeffizienten und ihrer Vertrauensbereiche in einem linearen Modell. So ließen sich die Heparindaten in erster Näherung durch eine simple kubische Gleichung
beschreiben mit den vier Modellkoeffizienten 1,475, 0,1636, 32,5 und 76,76.
3.2.1 Terminologie
Ein lineares Modell ist ein Modell, dessen Koeffizienten linear mit der Zielgröße zusammenhängen. Gleichung (3.1) stellt das allgemeine lineare Modell dar.
Diejenigen Terme, bei denen die unabhängige Variable linear erscheint, nennt man Haupteffekte, Terme bei denen das Produkt zweier oder mehrerer unabhängiger Variablen auftritt, nennt man Wechselwirkungen. Die Residuen symbolisieren die Differenzen zwischen der Modellfunktion und den gemessenen Daten. Bei guter Modellierung sind die Residuen sehr klein.
(3.1)
Diese scheinbar aufwändige Formel lässt sich drastisch vereinfachen, wenn man die Gleichung in Vektorschreibweise betrachtet:
(3.2)
Hierin bezeichnet ein Dachpfeil einen Vektor und x mit dem Doppelpfeil ist die sog. Designmatrix. Gleichung (3.2) stellt dar, wie der Computer das Modell behandelt. Man kann das Modellieren geometrisch interpretieren: Ein durch die Faktorenachsen aufgespannter Versuchsraum wird mit Messpunkten abgesteckt. Ausgeschrieben sieht das z. B. für eine einfaktorielle lineare Regression
mit 9 Messungen bei 9 X-Werten so aus:
(3.3)
Es stehen also 9 Bestimmungsgleichungen zur Verfügung, aber es müssen ll Unbekannte berechnet werden (β0, βl und 9 × εI). Also können wir die Modellkoeffizienten nicht ohne weiteres bestimmen.
Mit Prinzip der kleinsten Quadrate („least squares principle“, LS) nach C. F. Gauss gelingt die Berechnung aber sehr wohl: Wähle die Modellkoeffizienten so, dass die Summe der Quadrate der Residuen εi minimal ist. Dies lässt sich durch Bilden der ersten Ableitung algebraisch zeigen. Abbildung 3.5 zeigt die Bedeutung der Residuen. Es wird angenommen, dass die εi unabhängig und normal verteilt mit der Standardabweichung σRESIDUAL sind (Der Begriff wird in Kap. 3.3.l.2 erläutert werden). Außerdem muss erfüllt sein, dass sich σresidual mit X nicht ändert (Varianzhomogenität, homoscedascity).
Abb. 3.5 Lineare Regression durch das Prinzip der kleinsten Quadrate.
An Gl. (3.3) erkennt man schon, dass die Rechenverfahren zweckmäßigerweise über Vektoren und Matrizen ablaufen. Die Berechnung der least squares (LS)-Schätzung für den gesuchten Koeffizientenvektor β lautet vektoriell (DRAPER l98l):
(3.4)
Wobei das hochgestellte T für die Transposition steht. Erst recht im Zeitalter des PCs ist diese Berechnung ein Kinderspiel (nur Grundrechenarten + – */erforderlich). Der Aufwand ist dann besonders gering, wenn bei geplanten EXperimenten nach der Faktorenstufenkodierung (low = – l, medium = 0 und high = + l) die Designmatrix nur aus Nullen und Einsen besteht: (das ist ähnlich der Lösung b = y/x für die Gleichung y = b · x).
Die Matrix wird auch Varianz/Kovarianzmatrix genannt, weil ihre Elemente die Varianzen der Koeffizientenschätzer auf der Hauptdiagonalen enthält. Dies sind die Größen, die die Länge der Vertrauensintervalle festlegen. Die Kovarianzen der Koeffizienten untereinander stehen in den verbleibenden Matrixelementen. Ein Plan, bei dem die...