de en
Zurück

Online Magazine

Verkäufe analysieren und Nachfrage vorhersagen

Um wirtschaftliche Entscheidungen treffen zu können, müssen Unternehmen in der Lage sein, die künftige Nachfrage vorherzusagen. Es gibt verschiedene Algorithmen, auf deren Grundlage solche Prognosemodelle erstellt werden können.


von Parinaz Ameri

In diesem Artikel untersuchen wir die Verwendung von zwei bekannten Zeitreihenalgorithmen für einen bestimmten Datensatz. Anschliessend wird untersucht, wie die Entwicklung eines auf den jeweiligen Datensatz zugeschnittenen Modells die Leistung des Vorhersagemodells steigern kann.

Wie viele Artikel sollte ein Unternehmen nachbestellen? Wie oft wird der Artikel X in einer bestimmten Saison gekauft?
Bei der Beantwortung solcher Fragen helfen die sogenannten Nachfrageprognosen: Dabei wird versucht, aus historischen Verkaufsdaten Rückschlüsse auf die zukünftige Nachfrage zu ziehen. Wichtig in diesem Zusammenhang sind:

  • Informationen über die Nachfrage in der Vergangenheit über mehrere Zeiträume
  • Schwankungen, die aufgrund von saisonalen Veränderungen auftreten
  • Die Wirkung von Sonderangeboten

Die Nachfrageprognose nutzt statistische Analysen, um aus diesen Daten wiederkehrende Absatzmuster zu erkennen. So können Unternehmen fundierte Entscheidungen über die Bestellung von Waren und die Anpassung von Preisen treffen.

Es gibt verschiedene Modelle für die statistische Analyse, die alle ihre Vor- und Nachteile haben. In diesem Artikel vergleichen wir zwei Modelle – das SARIMAX-Modell und das ETS-Modell – am Beispiel der Daten eines Einzelhandelsgeschäfts mit mehreren Standorten und geben eine Anleitung, wie man eines der beiden Modelle erweitert, um ein massgeschneidertes Modell für den Anwendungsfall zu erstellen.

Startpunkt: Unser Walmart-Datensatz

Wir verwenden eine Datenstichprobe mit Verkaufsinformationen des US-Einzelhändlers Walmart. Die Zeitspanne, aus der wir die historischen Verkaufsdaten beziehen, reicht von Januar 2011 bis Juni 2016.

In über 40'000 Zeitreihen betrachten wir Informationen zu mehr als 3000 einzelnen Artikeln aus sieben Abteilungen und drei Produktkategorien (Lebensmittel, Haushalt, Hobbys), die in zehn Geschäften in den Bundesstaaten Kalifornien, Wisconsin und Texas verkauft wurden. Der Datensatz enthält auch Informationen über Preise und besondere Ereignisse wie Feiertage, religiöse Feste, das Supplemental Nutrition Assistance Program (SNAP) und Sportveranstaltungen.

Um die Komplexität der Analyse zu verringern, konzentrieren wir uns auf die Vorhersage des Gesamtumsatzes für Kombinationen von Kategorien und Geschäften. Dadurch wird die Anzahl der Zeitreihen von über 40.000 auf 30 reduziert.

 

Erste Analyse: wöchentliche, monatliche und jährliche Saisonalität

In einem ersten Schritt untersuchen wir die Saisonalität der Daten. Dazu berechnen wir die prozentuale Abweichung der Verkaufsmenge von ihrem Durchschnitt auf wöchentlicher, monatlicher und jährlicher Basis, wie in Abbildung 1 dargestellt. Die Daten werden als Kombinationen von Staaten und Produktkategorien aggregiert.


Die Abbildungen 1. a, b und c zeigen ein wöchentliches Muster: Die Verkäufe gehen zu Beginn der Woche zurück, erreichen ihr Minimum am Mittwoch oder Donnerstag, steigen am Freitag und erreichen am Wochenende ihren Höhepunkt. Die wöchentliche Saisonalität ist im Allgemeinen in allen Kategorien und Geschäften ähnlich.

Die in den Abbildungen 1. d, e und f dargestellten monatlichen Muster sind je nach Kategorie sehr unterschiedlich: Bei "Lebensmittel" und teilweise "Haushalt" gibt es eine kleine Spitze in der Monatsmitte, gefolgt von einem leichten Anstieg. In den Kategorien "Hobbys" und "Haushalt" hingegen sind die Umsätze zu Beginn und am Ende des Monats höher. Dies könnte auf die Verteilung der Gehaltsschecks am Ende des Monats zurückzuführen sein. In der Kategorie "Lebensmittel" gibt es einige Spitzen in der ersten Monatshälfte. Diese stehen wahrscheinlich im Zusammenhang mit SNAP-Lebensmittelzuschüssen, die in den ersten 15 Tagen eines jeden Monats mehrmals gezahlt werden.

Die Abbildungen 1. g, h und i, die die jährlichen Muster veranschaulichen, zeigen ebenfalls starke Unterschiede zwischen den Kategorien. Der einzige gemeinsame Effekt ist ein Rückgang der Verkäufe im Mai. Die Verkäufe im Bereich "Hobbys" nehmen im Dezember zu, was wahrscheinlich auf den Verkauf von Weihnachtsgeschenken zurückzuführen ist. Die Umsätze im Bereich "Haushalt" steigen zu Beginn des Frühjahrs und im Herbst, was an den Umsätzen mit Outdoor-Produkten liegen könnte. Die Umsätze im Bereich "Lebensmittel" bleiben in etwa konstant, ausser im Winter, wenn sie in Wisconsin ansteigen, was möglicherweise mit der Vorratshaltung für den Winter zusammenhängt.

Zusammenfassend lässt sich aus dieser ersten Visualisierung Folgendes ableiten:

  • Die meisten Reihen weisen einen Aufwärtstrend auf, auch wenn die Trends im Laufe der Zeit nicht unbedingt konsistent sind.
  • Die monatliche Saisonalität scheint die SNAP-Tage in der Kategorie "Lebensmittel" zu erfassen. Höhere Umsätze werden im Allgemeinen zu Beginn und am Ende des Monats verzeichnet.
  • Die jährliche Saisonalität variiert innerhalb der einzelnen Kategorien, wobei die einzige Gemeinsamkeit ein Rückgang der Verkäufe im Mai ist.
  • Insgesamt ist die wöchentliche Saisonalität am stärksten ausgeprägt. Die monatliche und insbesondere die jährliche Saisonalität sind weniger konsistent und daher weniger ausgeprägt.


Schlussfolgerung: Für eine fundierte Analyse muss die jährliche Saisonalität von den Auswirkungen von Ereignissen wie Feiertagen entkoppelt werden, da ihnen höhere Umsätze zugeschrieben werden können. Wir benötigen daher ein flexibles Modell, das in der Lage ist, Trends, mehrere Saisonalitäten und auch Ereignisse darzustellen.

 

Das SARIMAX-Modell: Trends, mehrere Saisonalitäten und besondere Ereignisse

Ein gängiger Algorithmus zur Erstellung von Zeitreihenanalysemodellen wird als Autoregressive-Integrated-Moving-Average (ARIMA) bezeichnet. Unter den verschiedenen ARIMA-Varianten ist Seasonal-Autoregressive-Integrated-Moving-Average Exogenous (SARIMAX) am besten für die Modellierung von Trendvariablen, mehrfachen Saisonalitäten und besonderen Ereignissen geeignet.

Um sicherzustellen, dass sich alle Modellkomponenten auf die Prognosen auswirken, nehmen wir ein ganzes Jahr in den Testdatensatz auf. Nach der Analyse unserer Beispieldaten mit dem SARIMAX-Modell lassen sich die Ergebnisse wie folgt zusammenfassen:

  • Wöchentliche Saisonalität, Trend und Niveau werden von dem Modell relativ gut erfasst.
  • Die gelegentlichen Spitzenwerte werden vom Modell nicht erfasst.
  • Die Vorhersagegenauigkeit ist sehr unterschiedlich, mit einem minimalen Fehler von 8,82 Prozent und einem maximalen Fehler von 54,71 Prozent.

⇒ Mit einem durchschnittlichen relativen mittleren Fehler von 25 Prozent schnitt das SARIMAX-Modell für diesen Datensatz eher schlecht ab.

ETS-Modelle: Fehler, Trend und Saisonalität

Exponentielle Glättungsmodelle (ETS) sind eine weitere etablierte Klasse von Zeitreihenalgorithmen. Es gibt mehrere Varianten von ETS-Modellen, um unterschiedliche Strukturen von Zeitreihendaten abzudecken.

Für den beschriebenen Datensatz modellieren wir einen multiplikativen Fehler, um zu verhindern, dass der Fehlerterm zu stark variiert, wenn sich der Wert der Vorhersagevariablen ändert. Wir beobachten ein lineares Wachstum, das am besten mit einem additiven Trend modelliert werden kann. Daher entscheiden wir uns für die Einbeziehung eines additiv gedämpften Trends. Durch den Dämpfungseffekt wird der Trend unter der üblichen Umsatzobergrenze des Geschäfts gehalten. Schließlich haben wir festgestellt, dass die multiplikative Saisonalität für diesen Datensatz am besten funktioniert, was bedeutet, dass die Veränderungen der Verkäufe an einem bestimmten Wochentag proportional zum Gesamtniveau der Verkäufe sind.

ETS-Modelle schätzen diese Komponenten sequentiell, indem sie einen Algorithmus für jeden Zeitpunkt wiederholen. ETS-Modelle können als Filter charakterisiert werden, die die Daten durchlaufen und ihre geschätzten Komponenten kontinuierlich aktualisieren. Auf diese Weise liefern sie die bestmögliche Vorhersage für einen Schritt vor dem Zeitpunkt, an dem die Daten beobachtet werden.

Nach der Analyse unserer Beispieldaten mit dem ETS-Modell lassen sich die Ergebnisse wie folgt zusammenfassen:

  • Wie SARIMAX erfasst auch das ETS-Modell den Trend, das Niveau und die wöchentliche Saisonalität recht gut. Dies ist nicht der Fall bei Reihen mit abrupten Änderungen im Niveau.
  • Das Modell scheint extreme Beobachtungen durchweg zu unterschätzen, unabhängig davon, ob sie überraschend hohe oder niedrige Umsätze darstellen.

⇒ Das Modell schnitt schlechter ab als das SARIMAX-Modell, da es einen höheren mittleren Median, maximalen und minimalen Fehler aufweist. Dies liegt daran, dass das SARIMAX-Modell zusätzliche Informationen über besondere Ereignisse auswertet.

 

Erweiterung des ETS-Modells: Zusätzliche Erfassung von besonderen Ereignissen

Wir haben also bisher zwei Modelle, die die wöchentliche Saisonalität, den Trend und das Niveau recht gut erfassen können, nicht aber die extremen Spitzen, die meist durch besondere Ereignisse verursacht werden. Dies ist in Abbildung 2 zu sehen:

Um dieses Defizit auszugleichen, erweitern wir das ETS-Modell, um besondere Ereignisse zu erfassen. Besondere Ereignisse können dem ETS-Modell als Dummy-Variablen in Form einer Regression hinzugefügt werden.

Beim Hinzufügen von Ereignissen zum Modell ist es wichtig, die richtige Granularität zu bestimmen. Eine zu hohe Granularität führt zum Verlust zu vieler relevanter Informationen, während eine zu niedrige Granularität zu einer Verringerung der Vorhersagekraft des Modells aufgrund von Überanpassung führt. Das Vorhersagemodell kann für diesen Datensatz auf drei verschiedenen Granularitätsebenen erstellt werden:

  1. ETSXC: Gruppierung der Ereignisse nach ihren Kategorien
  2. ETSXI: Modellierung jedes spezifischen Ereignisses einzeln
  3. ETSXIBA: Hinzufügen von drei Tagen vor und einem Tag nach jedem Ereignis


In unserem Beispiel erhöhte die kategoriale Gruppierung in ETSXC die Vorhersagegenauigkeit im Vergleich zu SARIMAX oder ETS-Basismodellen. Die Modellierung von Einzelereignissen in ETSXI übertrifft sogar das ETSXC-Modell.

Die Einbeziehung von bis zu drei Tagen vor und einem Tag nach Einzelereignissen in unserem Beispiel führt zu 150 zusätzlichen Parametern. Um die Berechnungszeit für den Algorithmus und das Risiko einer Überanpassung gering zu halten, optimieren wir das Modell in der Anfangsphase nur für die wichtigsten Ereignisse.

Abbildung 3 zeigt das ETSXIBADY-Modell im Vergleich mit dem ETS-Basismodell und der realen Beobachtungsreihe um Thanksgiving.

Nach der Analyse unserer Beispieldaten mit dem erweiterten ETS-Modell lassen sich die Ergebnisse wie folgt zusammenfassen:

  • Das Modell mit Einzelereignissen (ETSXI) schneidet etwas besser ab (etwa 5 Prozent) als das Modell, das die Ereignisse in Kategorien gruppiert (ETSXC).
  • Die Modellierung mit einflussreichen Einzelereignissen (ETSXIBADY) führt zu einer noch höheren Gesamtgenauigkeit im Vergleich zur Gruppierung der Ereignisse in Kategorien.
  • Das ETSXIBADY-Modell kann die meisten Spitzenwerte im Datensatz erfolgreich erfassen.

⇒ Die Einbeziehung von Ereignissen in das ETS-Modell, unabhängig von ihrer Granularität, führt zu einer erhöhten Genauigkeit von etwa 15 Prozent im Vergleich zu SARIMAX und dem ETS-Basismodell.

Fazit

  • Die Analyse historischer Verkaufsdaten zur Erkennung sich wiederholender Muster und zur Vorhersage der künftigen Nachfrage ermöglicht es Unternehmen, wirtschaftlichere Entscheidungen zu treffen.
  • Anregung: Für jeden Datensatz ist es wichtig, einige allgemein bekannte Algorithmen zu erstellen und sie als Basis für einen Vergleich zu verwenden.
  • Das mit der Exponentialen Glättung (ETS) erstellte Modell schnitt ähnlich ab wie das SARIMAX-Modell: Beide waren relativ gut in der Lage, Trend, Niveau und Saisonalität zu erfassen, konnten aber durch besondere Ereignisse verursachte Spitzen nicht vorhersagen.
  • Die Erstellung eines angepassten Modells durch Erweiterung des ETS-Modells um die Auswirkungen der einflussreichsten Ereignisse könnte zu einer Erhöhung der Vorhersagegenauigkeit um mindestens 15 Prozent (insgesamt etwa 92 Prozent) führen.

Deine Ansprechperson

WIR SAGEN DIR GUTES INFOTAINMENT VORAUS:

TechTalk
Data Analytics Machine Learning

7 Habits zur Verkürzung der Time-to-Value im Process Mining
Cat!apult
KI in der Medizin Data Analytics

Der smarte Trinkbecher
TechTalk
KI im Business Data Analytics Machine Learning

Wie können Banken wirklich KI-getrieben werden?
Gelesen