Das Residuum ist die Differenz zwischen einem vorhergesagten Wert und einem beobachteten Wert. Das Residuum repräsentiert die nicht erklärbare Reststreuung.
Dieser Artikel behandelt die numerische Sichtweise. Für eine statistische Sichtweise, siehe Störgröße und Residuum.
Als Residuum bezeichnet man in der numerischen Mathematik die Abweichung vom gewünschten Ergebnis, welche entsteht, wenn in eine Gleichung Näherungslösungen eingesetzt werden. Angenommen, es sei eine Funktion gegeben und man möchte ein finden, so dass
Mit einer Näherung an ist das Residuum
Der Fehler zur Lösung hingegen ist
Der Fehler ist in der Regel unbekannt, da unbekannt ist, weswegen dieser als Abbruchkriterium in einem numerischen Verfahren nicht benutzbar ist. Das Residuum hingegen hängt nur von ab.
Wenn das Residuum klein ist, folgt in vielen Fällen, dass der Fehler auch klein ist, also die Näherung nahe bei der Lösung liegt, das heißt der relative Fehler ist
In diesen Fällen wird die zu lösende Gleichung als gut gestellt angesehen und das Residuum kann als Maß der Abweichung der Näherung von der exakten Lösung betrachtet werden.
Bei linearen Gleichungssystemen, also , können sich die Norm des relativen Fehlers und die Norm des relativen Residuums um den Faktor der Kondition unterscheiden:
Residuum einer Operatorgleichung
Analog wird der Begriff des Residuums für Differential-, Integral- und Funktionalgleichungen verwendet, bei denen anstelle einer Zahl eine Funktion gesucht ist, die eine Operatorgleichung
für alle Werte erfüllt. Für eine Approximation an ist das Residuum die Funktion
Als Maß für die Güte der Approximation kann dann zum Beispiel das Maximum des Residuums
oder auch das gemittelte Residuum
gewählt werden.
Literatur
C. T. Kelley: Iterative Methods for Linear and Nonlinear Equations. SIAM, ISBN 0-89871-352-8.
R. Schaback, H. Wendland: Numerische Mathematik. 5. Auflage, Springer, 2005.
Theoretische wahre Gerade und geschätzte Regressionsgerade . Das Residuum ist die Differenz zwischen dem Messwert und Schätzwert .
In der Statistik sind Störgröße und Residuum zwei eng verwandte Konzepte. Die Störgrößen (nicht zu verwechseln mit Störparametern oder Störfaktoren), auch Störvariablen, Störterme, Fehlerterme oder kurz Fehler genannt, sind in einer einfachen oder multiplen Regressionsgleichung unbeobachtbare Zufallsvariablen, die den vertikalen Abstand zwischen Beobachtungspunkt und wahrer Gerade (Regressionsfunktion der Grundgesamtheit) messen. Für sie nimmt man für gewöhnlich an, dass sie unkorreliert sind, einen Erwartungswert von Null und eine homogene Varianz aufweisen (Gauß-Markow-Annahmen). Sie beinhalten unbeobachtete Faktoren, die sich auf die abhängige Variable auswirken. Die Störgröße kann auch Messfehler in den beobachteten abhängigen oder unabhängigen Variablen enthalten.
Im Gegensatz zu den Störgrößen sind Residuen (lateinischresiduum = „das Zurückgebliebene“) berechnete Größen und messen den vertikalen Abstand zwischen Beobachtungspunkt und der geschätzten Regressionsgerade. Mitunter wird das Residuum auch als „geschätztes Residuum“ bezeichnet. Diese Benennung ist problematisch, da die Störgröße eine Zufallsvariable und kein Parameter ist. Von einer Schätzung der Störgröße kann daher nicht die Rede sein.[1]
Die Problematik bei der sogenannten Regressionsdiagnostik ist, dass sich die Gauß-Markow-Annahmen nur auf die Störgrößen, nicht aber auf die Residuen beziehen. Die Residuen haben zwar ebenfalls einen Erwartungswert von Null, sind aber nicht unkorreliert und weisen auch keine homogene Varianz auf. Um diesem Missstand Rechnung zu tragen, werden die Residuen meist modifiziert, um die geforderten Annahmen zu erfüllen, z. B. studentisierte Residuen. Die Quadratsumme der Residuen spielt in der Statistik in vielen Anwendungen eine große Rolle, z. B. bei der Methode der kleinsten Quadrate. Die Notation der Störgrößen als bzw. ist an das lateinische Wort erratum (Irrtum) angelehnt. Die Residuen können mit Hilfe der Residualmatrix generiert werden.
Störgröße und Residuum
Störgrößen sind nicht mit den Residuen zu verwechseln. Man unterscheidet die beiden Konzepte wie folgt:
Unbeobachtbare zufällige Störgrößen : Messen den vertikalen Abstand zwischen Beobachtungspunkt und theoretischer (wahrer Gerade)
Residuum : Messen den vertikalen Abstand zwischen empirischer Beobachtung und der geschätzten Regressionsgerade
Diese Graphik zeigt die Zerlegung der „zu erklärenden Abweichung“ in die „erklärte Abweichung“ und das „Residuum“ .
In der einfachen linearen Regression mit dem Modell der linearen Einfachregression sind die gewöhnlichen Residuen gegeben durch
.
Hierbei handelt es sich um Residuen, da vom wahren Wert ein geschätzter Wert abgezogen wird. Genauer gesagt werden von den Beobachtungswerten die angepassten Werte (englischfitted values) abgezogen. In der einfachen linearen Regression werden an die Störgrößen für gewöhnlich zahlreiche Annahmen getroffen (siehe Annahmen über die Störgrößen).
In der einfachen linearen Regression lassen sich die Residuen als Funktion der Störgrößen für jede einzelne Beobachtung schreiben als[3]
.
Summe der Residuen
Die KQ-Regressionsgleichung wird so bestimmt, dass die Residuenquadratsumme zu einem Minimum wird. Äquivalent dazu bedeutet das, dass sich positive und negative Abweichungen von der Regressionsgeraden ausgleichen. Wenn das Modell der linearen Einfachregression einen – von Null verschiedenen – Achsenabschnitt enthält, dann muss also gelten, dass die Summe der Residuen Null ist[4]
Regressionsebene, die bei zwei Regressoren durch eine Punktwolke verläuft.
Da die Residuen im Gegensatz zu den Störgrößen beobachtbar und berechnete Größen sind, können sie graphisch dargestellt oder auf andere Weise untersucht werden. Im Gegensatz zur einfachen linearen Regression, bei der eine Gerade bestimmt wird, bestimmt man bei der multiplen linearen Regression (Erweiterung der einfachen linearen Regression auf Regressoren) eine Hyperebene, die durch die Punktwolke verläuft. Falls zwei Regressoren vorliegen, liegen die Beobachtungen bildlich gesprochen über beziehungsweise unter der Regressionsebene. Die Differenzen der beobachteten und der vorhergesagten, auf der Hyperebene liegenden -Werte, stellen die Residuen dar.[5] Für sie gilt:
.
Die Residuen, die durch die Kleinste-Quadrate-Schätzung gewonnen werden, werden gewöhnliche Residuen genannt. Wenn zusätzlich Beobachtungen vorliegen, dann sind die gewöhnlichen KQ-Residuen in der multiplen linearen Regression gegeben durch[6][7]
Die studentisierten Residuen sind identisch (aber nicht unabhängig) verteilt und damit insbesondere homoskedastisch. Sie könnten somit eine Lösung für die Verletzung der Homoskedastizitätsannahme darstellen.
↑Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education, 2015, S. 55.
↑Manfred Precht und Roland Kraft: Bio-Statistik 2: Hypothesentests–Varianzanalyse–Nichtparametrische Statistik–Analyse von Kontingenztafeln–Korrelationsanalyse–Regressionsanalyse–Zeitreihenanalyse–Programmbeispiele in MINITAB, STATA, N, StatXact und TESTIMATE: 5., völlig überarb. Aufl. Reprint 2015, De Gruyter, Berlin Juni 2015, ISBN 978-3-486-78352-0 (abgerufen über De Gruyter Online), S. 299.