Zur Hauptseite  ..\

zur Glossarseite    Ohne Frames


PLS Partial Least Squares Regression, Strukturgleichungsmodell

 

 

Für den Begriff Partial Least Squares existiert keine deutsche Entsprechung. Die naheliegend erscheinende Übersetzung Partielle kleinste Quadrate Methode trifft es nicht ganz, wie folgende Ausführungen zeigen. Die Ähnlichkeiten mit Ordinary Least Squares bzw. OLS (Kleinste Quadrate Methode) sind nur scheinbar; ist PLS etwas Eigenständiges. 

 

Partial Least Squares oder PLS ist ein Sammelbegriff für rechnergestützte statistische Verfahren, die einen Kompromiss zwischen " Strukturen-entdeckend" (z.B. Clusteranalyse) und " Datenreduzierend" (z.B. Faktorenanalyse) bilden.

Bei der Faktorenanalyse (datenreduzierend) erfolgt eine Reduzierung der Dimension des durch die unabhängigen Variablen X aufgespannten Raumes in eine kleinere Anzahl latenter Variablen, die jedoch einen Grossteil der in den Ausgangsdaten enthaltenen Varianz erklären sollten. 

Ziel der Faktoranalyse ist also, die Zahl der unabhängigen Variablen X zu verkleinern, ohne dass die Daten wesentlich an "Aussagekraft" verlieren. Diese "Optimierung" findet aber ausschliesslich im Raum der unabhängigen Variablen, X statt. 

 

Möchte man nun anschliessend eine Regression dieses "optimierten" Raumes unabhängiger Variablen auf einen Satz abhängiger Variablen Y durchführen, so steht man vor dem Problem, dass unter Umständen einige der ursprünglichen unabhängigen Variablen X einen besseren Zusammenhang mit den abhängigen Variablen Y ergeben hätten als die neu erzeugten, anzahlmässig weniger latenten Variablen. 

Man läuft also Gefahr, Zusammenhangsinformation zwischen X und Y zu verlieren, da man ungeachtet Y bereits im Raum X vollendete Tatsachen geschaffen hat. 

 

Partial Least Squares Verfahren tragen diesem Sachverhalt dadurch Rechnung, dass in beiden Räumen X und Y "gleichzeitig optimiert" wird.

Die Zerlegung der Variablenräume Y und X erfolgt unter der Nebenbedingung maximaler Kovarianzen zwischen den (neu erzeugten, latenten) unabhängigen Variablen X und den abhängigen Variablen Y. 

Die Datenreduktion, oder besser gesagt, die Reduktion der Dimensionalität findet in beiden Räumen, X und Y, gleichzeitig statt.

Die Faktoren werden also unter Zuhilfenahme der Varianz-Kovarianzmatrix zwischen X und Y bestimmt. 

 

Dies ist ein rechenaufwendiger, iterativer Prozess.

Zudem liegt die Anzahl Variablen typischerweise im 2- bis 3-stelligen Bereich.

Folglich ist PLS nur mit Rechnern durchführbar.

PLS ist sehr verbreitet in der chemischen Analysentechnik, aus der auch die folgende Beispielskizze stammt. 

 

Beispielskizze

Gegeben sei ein chemisches Verfahren, an dessen Ende je nach Prozess parameter-Einstellung 3 Produkte zu variablen Konzentrationen entstehen können. 

Ein Spektrometer mit 500 Frequenzkanälen soll als Messinstrument für die Konzentrationen der 3 Endprodukte dienen. 

Ziel ist es, mittels des Intensitätsspektrums der Frequenzkanäle die gegenwärtigen Konzentrationen der 3 Endprodukte vorherzusagen. 

Dazu muss der Spektrometer kalibriert werden. 

Man fährt z.B. 10 Versuche (Realisierungen) mit Prozessparametereinstellungen, zu denen die Konzentrationen der 3 Endprodukte bekannt sein müssen. 

So erhält man einen Datensatz aus 500 unabhängigen Variablen (Signale der Frequenzkanäle) mit je 10 Realisierungen und 3 abhängigen Variablen (Konzentrationen der Endprodukte) mit je 10 Realisierungen. 

PLS extrahiert nun der Reihe nach Faktoren. Diese stellen jeweils Linearkombinationen aus den Signalvariablen der 500 Kanäle dar. 

Die Festlegung der Faktoren erfolgt unter der Nebenbedingung, dass die Kovarianz zwischen je eines Faktors und den Konzentrationen der 3 Endprodukte maximal wird, also möglichst grosse Zusammenhänge zwischen den künstlich erzeugten unabhängigen Variablen (Linearkombinationen aus den Signalvariablen der 500 Kanäle) und den abhängigen Variablen (Konzentration der 3 Endprodukte) bestehen. 

 

Am Schluss werden möglichst wenige Faktoren ausgesucht, die einen möglichst grossen Anteil der Varianz der Endproduktkonzentrationen beinhalten, also ein möglichst kleiner Anteil an Restvarianz übrig bleibt. 

 

Siehe auch kanonische Korrelation.


Datenschutzhinweise