2
Phänomenologische Modelle
Wie können wir ein System oder einen Prozess beschreiben, wenn wir die inneren Abläufe nicht kennen und nur experimentelle Daten vorliegen haben? Wie können wir z. B. das Welken von Rosen beschreiben? Wie können wir Ergebnisse prognostizieren und wie wählen wir möglichst geschickt die Versuchsparameter aus? Alle diese Fragen können mit phänomenologischen Modellen beantwortet werden, die wir in diesem Kapitel kennenlernen werden.
Erinnern wir uns an den Unterschied zwischen phänomenologischen und mechanistischen Modellen in Definition 1.8: Phänomenologische Modelle werden nur auf Grundlage von experimentellen Daten konstruiert, d. h. es werden keine a-priori-Informationen über das System S verwendet. Dagegen benutzen mechanistische Modelle a-priori-Informationen über die „interne Mechanik“ von S, d.h. über die Prozesse, die in S ablaufen. Diese Modelle werden in Kapitel 3 und 4 behandelt. In diesem Kapitel ist ein Datensatz unser Ausgangspunkt und wir werden verschiedene Methoden zur Analyse eines Datensatzes kennenlernen. Wie wir noch sehen werden, können die meisten in diesem Kapitel vorgestellten Methoden sehr effizient mit frei erhältlicher Open-Source-Software implementiert werden: Calc (aus der Office-Suite LibreOffice) für elementare statistische Berechnungen oder als elementare Datenbank und das Softwarepaket „R“ für professionelle statistische Berechnungen. Im gesamten Kapitel verwenden wir überwiegend reale Datensätze.
Wie erwähnt ist ein Datensatz der Ausgangspunkt für eine phänomenologische Modellierung. Folglich sollten wir zunächst eine Analyse des Datensatzes durchführen, zum Beispiel mittels elementarer statistischer Methoden. In Abschnitt 2.1 werden einige der wichtigsten statistischen Methoden der elementaren Datenanalyse in Form eines „Crashkurses“ vorgestellt, d. h. wir machen nicht den Versuch, alles vollständig zu erklären, sondern konzentrieren uns auf das, was in diesem Buch benötigt wird und legen dabei mehr Wert auf ein praktisches Vorgehen als auf Theorie. Daher wird in Abschnitt 2.1 auch eine Einführung in die Anwendung von Calc und R gegeben.
In den Abschnitten 2.2–2.4 werden verschiedene Regressionsmodelle behandelt. Diese liefern grundsätzlich eine mathematische Beschreibung von Input-Output-Systemen. Auf die Bedeutung solcher Systeme ist bereits im letzten Kapitel hingewiesen worden, siehe Abb. 1.2 und Abschnitte 1.3 und 1.5. Mittels Regressionsmodellen können für vorgegebene Eingabewerte die Ausgaben eines Systems berechnet werden, die zur Vorhersage oder zur Interpolation gegebener Daten verwendet werden können. Es werden die lineare Regression (eine Eingabe), die multiple lineare Regression (mehrere Eingaben) und die nichtlineare Regression (nichtlineare Gleichungen mit einer oder mehreren Eingaben) behandelt. Jeder, der sich mit Datenanalyse beschäftigt, sollte diese Methoden kennen, die sich wirklich sehr einfach mit R umsetzen lassen. Auch in den Fällen, in denen mechanistische Modelle entwickelt werden, hat die Anwendung von Regressionsmethoden häufig einen Sinn, da diese in der Regel viel weniger Zeit und Ressourcen erfordern und schnelle und grobe Schlussfolgerungen aus einem Datensatz erlauben.
Erste Datensätze zur Modellierung von Input-Output-Systemen werden üblicherweise mit Hilfe von Experimenten gewonnen. Solche Experimente enthalten Versuchsparameter, deren Zusammenhang untereinander in der Regel noch unklar ist. Eine geschickte Wahl der Parameter und das Aufspüren von Abhängigkeiten unter den Parametern ist eine wichtige Aufgabe der Versuchsplanung (Design of Experiments), die in Abschnitt 2.5 vorgestellt wird.
2.1 Elementare Statistik
In Abschnitt 1.3 ist betont worden, dass die Minimalvoraussetzung an ein zu untersuchendes System in Wissenschaft und Ingenieurwesen die Beobachtbarkeit ist, und zwar in dem Sinne, dass das System messbare Ausgaben erzeugt. Wie dort erklärt wird, erlaubt ein großer Teil der Systeme gewisse Eingaben vorzugeben, weshalb die meisten Untersuchungen in Wissenschaft und Ingenieurwesen (außer den etwas mehr theoretisch orientierten Arbeiten) damit beginnen, einen Input-Output-Datensatz aufzustellen, der im Allgemeinen die Form wie in Abb. 1.2b hat. In diesem Sinne ist es gerechtfertigt zu sagen, dass die meisten Modellierungs- und Simulationsarbeiten mit einem Datensatz beginnen. Elementare statistische Methoden bieten einen phänomenolgischen Modellierungsansatz, der für eine erste Analyse des Datensatzes benutzt werden kann.
2.1.1 Deskriptive Statistik
Das Erste, was üblicherweise mit einem gegebenen Datensatz gemacht wird, ist die deskriptive Statistik oder auch beschreibende Statistik genannt, d. h. die Anwendung von Methoden zur Zusammenfassung und Beschreibung von Daten [26]. In vielen Fällen ist der Datensatz als Tabelle oder im Format einer Tabellenkalkulation wie Calc (als Teil der Open-Source-Software LibreOffice) oder Excel (als Teil des kommerziellen Microsoft Office) gegeben. Da wir in diesem Buch Open-Source-Software im Blick haben, werden wir uns im Folgenden auf Calc anstelle von Excel beziehen. Praktisch bedeutet das keine Einschränkung für die Excel-Anwender, da Calc und Excel aus Benutzersicht in ganz ähnlicher Weise arbeiten. Daneben kann Calc ohne Probleme Daten im Excel-Format importieren und exportieren (Probleme können dann auftreten, wenn ganz spezielle Excel-Funktionen genutzt werden, die aber ein Standardanwender nicht verwendet).
Tab. 2.1 Federdaten (siehe spring.ods in der Buchsoftware).
Tabellenkalkulationsprogramme wie Calc bieten zahlreiche Optionen für eine statistische Analyse von Daten, deren Möglichkeiten für eine überschaubare Datenmenge und eine einfache Analyse ausreichend sind. Für größere Datenmengen oder eine tiefergehende Analyse kann auf eine professionelle und umfangreiche statistische Software wie R (Bestandteil von Gm.Linux, siehe Anhang A) zurückgeriffen werden. Das Statistikpaket R (Open-Source) bietet eine hohe Flexibilität an Berechnungs- und Auswertungsmöglichkeiten, sowie zahlreiche Optionen der Ergebnisdarstellung. R gilt zunehmend als die statistische Standardsprache und genießt eine weite Verbreitung in der Literatur (zum Beispiel [27–29]).
Fangen wir zum Beispiel mit Tabelle 2.1 an, der einen Datensatz zur Auslenkung einer Feder darstellt. Dieser Datensatz kann in der Datei spring.ods der Buchsoftware (siehe Anhang A) gefunden werden. Zu beachten ist, dass die Dateiendung „ods“ („open document sheet“) die Standardendung der abgespeicherten Tabellendaten des Kalkulationsprogramms Calc ist.
2.1.1.1 Einfache Anwendungen von Calc und R
Das einfachste, was man mit einem Datensatz wie spring.ods machen kann, ist die Berechnung eines Lagemaßes, welches die ungefähre Lage der Daten in verschiedenen Arten beschreibt. Am besten bekannt und am häufigsten als Lagemaß verwendet, ist das arithmetische Mittel, auch Durchschnitt genannt, welches wie folgt definiert ist:
(2.1)
Hier stellen x1, x2,…, xn reelle Zahlen eines Datensatzes dar und n ∈ . Das arithmetische Mittel von x und y unserer Beispieldaten in spring.ods sind = 30 und = 9,4, was im Prinzip aussagt, dass die x- und y-Daten um diese Werte streuen. Nun werden wir sehen, wie diese Berechnung mit Calc durchgeführt werden kann. Obwohl wir hier keine allgemeine Einführung in Calc geben können, wird unsere Beschreibung zum Vorgehen auch für Erstanwender ausreichend sein (für nähere Informationen verweisen wir auf die Dokumentation unter http://www.libreoffice.org).
Wenn wir spring.ods in Calc einlesen, sehen wir ein Arbeitsblatt, das nur aus Zellen besteht. Jede einzelne Zelle hat eine Bezeichnung, wie zum Beispiel A2, wobei A sich auf die Spalte und 2 sich auf die Zeile der Zelle bezieht, in der sie sich befindet. Die Zahlen der x-Spalte von spring.ods befinden sich in der Zellengruppe A2, A3, … A6, die in der Calc-Notation auch mit A2:A6 bezeichnet wird. Jetzt können wir die Calc-Funktion MITTELWERT (in der deutschsprachigen Programmversion) aufrufen, um das arithmetische Mittel für diese Zellengruppe zu berechnen. Dies können wir tun, indem wir auf eine beliebige leere Zelle von spring.ods klicken und dort den Ausdruck =MITTELWERT(A2:A6) eingeben (zu beachten ist, dass jeder zu berechnende Ausdruck oder Formel in Calc mit einem „=“ beginnt). Nach Abschluss erscheint eine „30“ in der Zelle,...