Lasso kurz und einfach erklärt!
Die Lasso Regression ist eine Regressionsmethode, bei der im Gegensatz zur linearen Regression nicht vorher entschieden werden muss, welche Variablen in das Modell aufgenommen werden. Durch sogenannte Regularisierungs- oder Shrinkagemethoden werden weniger relevante Variablen automatisch kleiner und dadurch weniger bedeutsam. Irrelevante Variablen können auch gleich null werden, wodurch eine Variablenselektion durchgeführt wird. Die Schrumpfung der Variablen wird durch Einführung einer Bestrafung (Penalty) realisiert.
(Für diesen Artikel wird ein Grundverständnis über Lineare Regression vorausgesetzt.)
Für was steht Lasso und woher kommt es?
Lasso ist die Abkürzung von least absolute shrinkage and selection operator. Was auf Deutsch soviel wie kleinster absoluter Schrumpfungs- und Auswahloperator bedeutet. Die Methode wurde im Jahr 1986 in der Geophysik eingeführt. Später wurde sie durch Robert Tibshirani wiederentdeckt und bekannt.
Welcher Gattung gehört Lasso an?
Wie sich bereits aus dem Namen herleiten lässt gehört Lasso genau wie Ridge Regression und Elastic Nets zu den Shrinkage-Methoden, ist aber wie die Stepwise-Selektion Methoden ebenfalls eine Selektionsmethode. Außerdem gehört es zu der Obergattung der Regression.
Warum ist Lasso Shrinkage?
Unter einer Shrinkage-Methode wird eine Technik verstanden, die die unabhängigen Variablen einer Regressionsanalyse verkleinert. Dadurch soll der Einfluss von weniger wichtigen unabhängigen Variablen auf die abhängige Variable reduziert werden. Ein Merkmal von Shrinkage-Methoden ist die Verwendung einer Penalty, um die Variablen zu shrinken. Da die weniger einflussreichen unabhängigen Variablen in Modell der Lasso-Regression verkleinert werden, ist es als Shrinkage-Methode zu betrachten. Lasso verwendet dafür ebenfalls eine Penalty.
Warum ist Lasso eine Selektionsmethode?
Unter Selektionsmethoden in Bezug auf Regressionsanalyse werden Techniken verstanden, die dabei helfen unabhängige Variablen ohne Einfluss auf die abhängigen Variablen zu identifizieren und aus dem finalen Modell zu entfernen. Klassische Algorithmen, die Variablenselektion durchführen sind die Stepwise-Selektionsmethoden, bei denen die Variablen iterativ auf ihre Zugehörigkeit zum finalen Modell durchgetestet werden. Bei Lasso findet ebenfalls eine Variablenselektion statt, da durch die Penalty einige unabhängige Variablen gleich null werden und damit aus dem Modell verschwinden. Der Ansatz unterscheidet sich aber grundlegend von den Stepwise-Methoden.
Warum ist Lasso eine Regressionsmethode?
Im Grunde hat ein Lasso-Modell den identischen Aufbau, wie eine klassische lineare Regression. Es gibt neben dem Intercept (Achsenabschnitt) eine oder mehrere unabhängige Variablen, welche auch erklärende Variablen genannt werden. Im Falle einer Prediction werden die unabhängigen Variablen auch Predictoren genannt. Neben den unabhängigen Variablen gibt es die abhängigen Variablen auch Zielvariablen oder erklärte Variablen genannt. Die abhängigen Variablen sollen durch die unabhängigen Variablen erklärt werden oder im Falle einer Prediction vorhergesagt werden. Bei der Regression wird dann versucht die Regressionskoeffizienten der unabhängigen Variablen zu schätzen und dadurch zu bestimmen in welchem Ausmaß sie die abhängige Variable beeinflussen. Bei der Lasso-Regression wird die Regressionsgleichung nun noch um einen Strafterm erweitert. Die Stärke der Strafe muss vom Anwender über den Strafterm λ gewählt werden.
Unterschied Lasso zu Linearer Regression?
Lasso unterschedet sich nur durch die über den Strafterm λ geregelten Penalty von einer linearen Regression. Wird λ=0 gewählt, ist Lasso identisch zur linearen Regression. Je höher λ gewählt wird desto größer unterscheidet sich Lasso von der Linearen Regression.
Vorteil und Nachteile von Lasso gegenüber Ridge Regression?
Die Ridge-Regression verringert zu große Koeffizienten und verbessert dadurch die Vorhersagegenauigkeit der Zielvariablen und verringert das Auftreten von Overfitting. Allerdings werden bei Ridge keine Variablen direkt null, wodurch keine Variablenselektion durchgeführt wird und dadurch auch keine Verbesserung der Interpretierbarkeit des Modells erfolgt.
Vorteile und Nachteile gegenüber Stepwise Selection?
Ein Nachteil von Lasso gegenüber der Stepwise Selektion liegt in der Abhängigkeit des Stafterm λ, der manuell gewählt werden muss und entscheidenden Einfluss auf das Ergebnis hat.
Der Vorteil von Lasso gegenüber den Stepwise Methoden, ist die Performance, da Stepwise Methoden insbesondere bei vielen Variablen schnell viel Zeit in Anspruch nehmen können. Außerdem verbindet Lasso die Regression und die Variablenselektion in einer Methode, während bei der Stepwise-Selektion immer ein mehrstufiger Prozess durchlaufen werden muss.
Stepwise Methoden führen durch die Variablenselektion ebenfalls zu einer besseren Interpretierbarkeit des Modells, allerdings nicht immer zu einer besseren Vorhersagekraft. Dies ist zwar der Fall, wenn nur wenige unabhängige Variablen in einer Beziehung zu den abhängigen Variablen stehen, da die irrelevanten Variablen verschwinden. Stehen aber viele unabhängige Variablen in einer Beziehung zu den abhängigen Variablen, werden tendenziell zu viele Variablen aussortiert, die bei Lasso eventuell nur reduziert aber nicht ganz aus dem Modell geflogen wären. In diesem Fall würden die Stepwise-Methoden zu einer Verschlechterung der Vorhersagekraft führen.
Wann sollte Lasso angewandt werden?
Der Nutzen von Lasso ist, dass alle Variablen im Modell berücksichtigt werden können ohne, dass wie bei der linearen Regression eine vorherige Auswahl von erfolgsversprechenden Variablen erfolgt. Durch das Wegfallen von Variablen in der Lasso-Selektion wird die Interpretierbarkeit des Modells erleichtert. Das Verringern und Wegfallen von weniger wichtigen Koeffizienten verbessert in der Regel auch die Vorhersagegenauigkeit der Zielvariable. Das Auftreten von Overfitting kann durch das Verkleinern von Koeffizienten ebenfalls reduziert werden.