Analysen: Zwischen Gini und Wahnsinn

Verteilt sich der Umsatz gleichmäßig auf die Kunden oder hängt das Wohl des Unternehmens von wenigen Hauptkunden ab? Ist ein Vermögen gerecht verteilt? Wir schauen heute auf Maße, die Abweichungen von der gleichmäßigen Verteilung quantifizieren sollen.

Im gegebenen ersten Beispielszenario habe ein Unternehmen einen Umsatz von 1 Mio. erzielt, der sich auf 10 Kunden verteilt (alle Angaben in Tsd.):

1000 = 300 + 200 + 170 + 70 + 70 + 50 + 40 + 40 + 30 + 30

Offensichtlich sind die Umsätze verschieden; wir schauen nun, wie wir den Grad der Unterschiedlichkeit messen können.

Ein gern verwendetes Maß zur Beurteilung der Unterschiedlichkeit der Beiträge ist der Gini-Koeffizient. Um ihn berechnen zu können, müssen die Anteile am Gesamtumsatz ermittelt und anschließend absteigend sortiert werden, d. h., wir arbeiten mit den Werten

0.30, 0.20, 0.17, 0.07, 0.07, 0.05, 0.04, 0.04, 0.03, 0.03

Diese werden dann kumuliert und wir erhalten

0.30, 0.50, 0.67, 0.74, 0.81, 0.86, 0.90, 0.94, 0.97, 1.00

In der folgenden Grafik sind in der oberen Hälfte die absteigend sortierten Umsatzanteile der 10 Kunden dargestellt und in der unteren Hälfte die kumulierten Umsatzanteile gegen die kumulierten Anteile der Kundenzahlen aufgetragen:

Berechnung des Gini-Koeffizienten des Beispiels

Der Gini-Koeffizient ergibt sich als das Zweifache der schraffierten Fläche.

Grob gesagt gilt: Je ungleicher die Umsätze sind, umso weiter werden sich die kumulierten Anteile von der Diagonale entfernen und umso größer wird die Fläche.

Die gesuchte Fläche lässt sich relativ leicht mit Kenntnissen aus der Schulgeometrie als Summe von Trapezen und Dreiecken berechnen und letztendlich ergibt sich die Berechnung des Gini-Koeffizienten zu

Im Beispiel folgt mit n = 10:

G = 1.1 – 0.2 * (1 * 0.3 + 2 * 0.2 + 3 * 0.17 + 4 * 0.07 + 5 * 0.07 + 6 * 0.05 + 7 * 0.04 + 8 * 0.04 + 9 * 0.03 + 10 * 0.03) = 1.1 – 0.2 * 3.31 = 1.1 – 0.662 = 0.438

In der Grafik ist neben diesem Wert auch noch ein zu 0.487 korrigierter Wert angegeben. Wir betrachten dazu den Fall, dass ein einziger Kunde den gesamten Umsatz erzeugt:

Maximaler Gini-Koeffizient

Sind alle Umsatzbeiträge nichtnegativ, lässt sich anhand der Grafik leicht nachvollziehen, dass die Fläche und somit auch der Gini-Koeffizient als das Zweifache dieser Fläche nicht größer werden können als in diesem Fall.

Stammt der gesamte Umsatz von einem Kunden, vereinfacht sich obige Formel zu

Ein einziger Kunde erzielt Umsatz

Möchte man erreichen, dass der maximale Wert bei 1 liegt, muss also der unkorrigierte Wert mit n / (n-1) multipliziert werden. Mit dieser Korrektur kompensiert man das weiße Dreieck an der linken Seite mit der Höhe 1 und der Breite 1 / n, welches verhindert, dass die schraffierte Fläche die über der Diagonale gelegene Dreiecksfläche vollständig ausfüllt.

Oben betrug der unkorrigierte Wert 0.438 und somit ergibt sich der korrigierte Wert zu ca. 0.487.

Je größer die Anzahl der betrachteten Kunden, desto weniger relevant wird eine etwaige Korrektur.

Der Vollständigkeit halber sei nun das andere Extrem aufgeführt, bei dem alle Kunden gleichmäßig zum Umsatz beitragen:

Bei gleichen Anteilen verschwindet die schraffierte Fläche

Wenn die umsatzstärksten x % der Kunden zu x % des Umsatzes beitragen, so ist dies nur möglich, wenn alle Kunden gleiche Umsätze erzielen. Die Fläche und somit auch der Gini-Koeffizient verschwinden.

Wenn es nur nichtnegative Beiträge gibt (beispielsweise bei Analyse von Vermögen könnte es auch Personen mit Schulden geben) und einen positiven Gesamtumsatz, sind folgende zwei Aussagen über den (korrigierten) Gini-Koeffizienten sicher:

Ist G = 0, sind alle Umsätze gleich
Ist G = 1, gibt es nur einen Kunden mit Umsatz

Wie sieht es mit Werten zwischen 0 und 1 aus? Der Gini-Index dampft ja eine Menge von n Werten auf eine einzige Zahl ein. Dabei müssen gewisse Informationsverluste in Kauf genommen werden. Gibt es trotzdem irgendwelche Zusammenhänge, die man sich als Eselsbrücke merken kann?

Interessant ist etwa die Verbindung zum Paretoprinzip, auch als 80-zu-20-Regel bekannt. Dieses besagt, dass häufig 80 Prozent des Umsatzes mit 20 Prozent der Kunden erzielt werden.

Im folgenden Bild ist eine mögliche Konstellation dargestellt, bei der die 80-zu-20-Regel zutrifft.

Eine mögliche Konstellation des Paretoprinzips

Hier beträgt der unkorrigierte Gini-Index 0.666. Übrigens verändert sich die Fläche nicht, wenn die Menge der gegebenen Kunden mit ihren Umsätzen in ihrer Gesamtheit beliebig häufig geklont wird. In diesem Falle nähert sich der korrigierte Gini-Index dem unkorrigierten an. Wir konzentrieren uns deshalb hier auf die unkorrigierten, durch die sichtbare Fläche repräsentierten Werte.

Wie klein kann der Gini-Koeffizient unter der Annahme der Gültigkeit des Paretoprinzips werden? Die kleinste Fläche ergibt sich, wenn der Punkt (0.2, 0.8) durch Geraden direkt mit dem Nullpunkt und (1, 1) verbunden ist:

Der kleinste Gini-Index

Hier beträgt der Gini-Koeffizient also mindestens 0.6. Kleiner kann die Fläche nicht werden: Wenn ein Punkt unterhalb der eingezeichneten Geraden läge, widerspräche das der absteigenden Sortierung, da die Zuwächse von links nach rechts nicht zunehmen dürfen.

Ebenso lässt sich eine Obergrenze angeben. Zunächst lässt sich zeigen, dass für den maximalen Gini-Koeffizienten im Paretopunkt kein Knick auftreten darf, da ansonsten die Verlängerung einer der angrenzenden Strecken zu einer größeren Fläche führen würde.

Die Geradensteigung lässt sich nun optimieren und dieser Prozess führt dann zu einem maximalen Gini-Index von 0.84:

Der größte Gini-Index

Wie sehen Beispiele aus, bei denen die extremen Werte zumindest in Näherung angenommen werden?

Der Gesamtumsatz sei 100 Mio. und es liegen 250.000 Kunden vor. 20 Prozent der Kunden erzeugen 80 % des Umsatzes. Das heißt, wir müssen Fälle konstruieren, bei denen die ersten 50.000 Kunden einen Umsatz von 80 Mio. erzeugen.

Die untere Grenze mit G = 0.6 wird durch folgende Konstellation erzeugt:

50.000 Kunden teilen sich gleichmäßig einen Umsatz von 80 Mio., d. h. 1600 pro Kunde
200.000 Kunden teilen sich gleichmäßig einen Umsatz von 20 Mio., d. h. 100 pro Kunde

Die obere Grenze von G = 0.84 wird im folgenden Fall näherungsweise erzeugt:

1 Kunde erzeugt einen Umsatz von 60 Mio.
99.999 Kunden teilen sich gleichmäßig einen Umsatz von 40 Mio., d. h. ca. 400 pro Kunde
150.000 Kunden erzeugen gar keinen Umsatz

Beide Fälle erfüllen die 80-zu-20-Regel, aber die Verteilung kann doch recht unterschiedlich aussehen, wie uns der Gini-Index verrät.

Die untere Schranke des Gini-Koeffizienten lässt sich auch für den allgemeinen Fall ableiten. Besitzen die umsatzstärksten Kunden einen zahlenmäßigen Anteil von v und erzeugen einen Anteil von w am Gesamtumsatz, so beträgt der Gini-Index mindestens G >= w – v; im obigen Fall gilt G >= 0.8 – 0.2 = 0.6.

Eine solche Aussage lässt sich auch umkehren: Ist der Gini-Index etwa mit 0.6 angegeben, können beispielsweise die oberen 10 % der Kunden maximal 0.6 + 0.1 = 70 % des Umsatzes erzielen. Es ließe sich ebenso ableiten, dass die ersten 30 % der Kunden maximal 0.6 + 0.3 = 90 % des Umsatzes erbringen. Die folgende Abbildung zeigt zwei passende Beispiele, bei denen diese Maxima auf der blauen Linie auch angenommen werden:

Zwei Beispiele zum Gini-Index 0.6

Übrigens kann der maximale Umsatz auch nur an genau einer Stelle angenommen werden. Würden mit 10 % der Kunden 70 % des Umsatzes (wie im oberen Bild) und gleichzeitig mit 30 % der Kunden 90 % des Umsatzes (wie im unteren Bild) erzielt werden, vergrößerte sich die Fläche und der Gini-Index wäre somit auch größer als 0.6.

Hier wird eine Schwäche des Gini-Koeffizienten offensichtlich: Jedes Beispiel, bei dem das einzige Maximum auf der schrägen blauen Linie liegt und direkt mit dem Nullpunkt und (1, 1) verbunden ist, führt zu einem Gini-Koeffizienten von 0.6. Wenn der Punkt aber gegen die y-Achse wandert, sind anteilsmäßig immer weniger Objekte betroffen und im Extremfall sorgt ein einziger Kunde für 60 Prozent des Umsatzes und die restlichen n-1 Kunden (und n kann im Bereich von Millionen liegen!) teilen sich die anderen 40 Prozent, verursachen also pro Kopf möglicherweise nur Centbeträge.

Das andere Extrem wäre, dass sich der Umsatz auf 40 Prozent der Kunden gleichmäßig aufteilt, während 60 Prozent nichts beitragen.

Diese beiden Szenarios werden aber mit dem gleichen Gini-Koeffizienten G = 0.6 abgebildet! Hier könnte ergänzend die Angabe von Maxima und Quantilen helfen, etwa im Stile von “Der größte Umsatz war 20 Mio.” oder “10 Prozent der Kunden haben einen Umsatz von mehr als 100 Tsd.”.

Für die obere Grenze des Gini-Koeffizienten existieren ebenfalls Abschätzungen, aber es müssen mehrere Fälle unterschieden werden und es ergibt sich keine einzelne, leicht zu merkende Formel.

Eine kleine Ausnahme gibt es aber doch. Ist das v<=0.5 und das w>=0.5 (wie beispielsweise im Falle des Paretoprinzips mit v = 0.2 und w = 0.8), dann ergibt sich der maximale Gini-index zu G = 1 – 4 * v * (1-w); in unserem Beispiel folgt damit dann das angegebene G = 1 – 4 * 0.2 * (1 – 0.8) = 1 – 0.16 = 0.84.

Die Interpretation des Gini-Koeffizienten als Differenzfläche ist zwar visuell leicht zu erfassen, aber inhaltlich schwer nachzuvollziehen.

Eine alternative Ableitung definiert den Gini-Koeffizienten über die folgende Formel, wobei U(i) den Umsatz des i-ten Kunden bezeichnet und die Umsätze auch nicht zwingend absteigend sortiert sein müssen:

Alternative Ableitung des Gini-Koeffizienten

Obwohl diese Formel optisch keine Ähnlichkeit zu der bisher genannten hat, ergeben sich doch exakt die gleichen Werte des unkorrigierten Gini-Koeffizienten. Diese Definition hat jedoch den Vorteil einer verständlichen Interpretation.

Was passiert hier? Angenommen, es werden zwei Kunden zufällig mit Zurücklegen gezogen und die absolute Abweichung der Umsätze gemessen, dann ergibt der Zähler die erwartete absolute Abweichung. Diese wird nun durch den 2-fachen Mittelwert der Umsätze dividiert.

Betrachten wir unser erstes Beispiel mit 1000 = 300 + 200 + 170 + 70 + 70 + 50 + 40 + 40 + 30 + 30. Der Gini-Index betrug 0.438. Der Mittelwert ergibt sich zu 100 [Tsd.]. Dies bedeutet, dass zwei zufällig gezogene Kunden im Mittel um 2 * 0.438 * 100 = 87.8 [Tsd.] unterschiedliche Umsätze erzielen.

Schauen wir doch auch einmal auf ein Thema, das die Bundesbürger beschäftigt: Im Monatsbericht der Deutschen Bundesbank vom März 2016 für das Jahr 2014 sind einige Informationen über die Verteilung der Nettohaushaltsvermögen untergebracht (*):

Das Nettohaushaltsvermögen nach Abzug der Schulden beträgt 214.500 Euro pro Haushalt
Fast 3/4 der Haushalte besitzen ein Nettovermögen unter dem Durchschnitt
Der Median beträgt 60.400 Euro
Die vermögendsten 10 % der Haushalte besitzen 60 % des gesamten Nettovermögens
Das 90 %- Quantil liegt bei einem Nettovermögen von 468.000 Euro

Bei Vermögensbetrachtungen hat es sich übrigens eingebürgert, die Werte aufsteigend zu sortieren. Da die entstehende Fläche zwischen Winkelhalbierender und Kurve den gleichen Wert besitzt, belassen wir es hier bei der absteigenden Sortierung.

Wie hängen nun die aufgeführten Aussagen mit dem Gini-Index zusammen? Aus Aussage (4) allein folgt gemäß den obigen Ausführungen, dass der Gini-Index größer als 0.6 – 0.1 = 0.5 sein muss. Die Abschätzung nach oben wäre mit 1 – 4 * 0.1 * (1-0.6) = 0.84 nur dann gültig, wenn es keine Haushalte mit Schulden gäbe.

Unter der Annahme von möglichen Schulden ergibt sich der maximal größte Gini-Index, falls alle Haushalte bis auf einen ein gleich hohes Haushaltsnettovermögen besäßen und ein armer Tropf einen riesigen Schuldenberg angehäuft hätte. Dies bedeutet unter Berücksichtigung von (4), dass nahezu 100 % der Haushalte 600 % des gesamten Nettovermögens besitzen müssen und der Schuldenberg des verbliebenen Haushalts wäre -500 % des gesamten Nettovermögens.

Hier wird dann der Gini-Index mit 5 deutlich größer als 1. Bei möglichen negativen Anteilen ist somit die Interpretation erschwert! Als Abhilfe existieren in der Literatur auch modifizierte Gini-Indizes, die wieder im Intervall [0 ; 1] landen.

Schauen wir nun noch auf eine weitere mögliche Ableitung. Hierzu muss man wissen, dass sich in der Differenzflächendarstellung die Winkelhalbierende ergäbe, wenn alle Haushalte das gleiche Vermögen von 214.500 Euro besäßen. Da der Median mit 60.400 Euro deutlich kleiner ist, heißt das, dass die begrenzende Kurve bei einem Wert auf der x-Achse von 50% eine Steigung besitzt, die 60400 / 214500 = 0.2816 beträgt. Hieraus lässt sich eine Mindesthöhe der Kurve bei x = 50 % zu 1 – 0.5 * 0.2816 = 0.859 ableiten.

In Worten heißt dies, dass die oberen 50 Prozent der Haushalte mindestens 85.9 Prozent des gesamten Nettovermögens besitzen müssen. Hieraus würde für den Gini-Koeffizienten eine Mindesthöhe von 0.859 – 0.5 = 0.359 folgen.

Der Gini-Koeffizient lässt sich exakt berechnen, wenn für jeden kumulierten Anteil der Haushalte der kumulierte Anteil des Vermögens bekannt ist. Aus einer einzigen Angabe lässt sich wie gezeigt eine Abschätzung nach unten ableiten. Man könnte den letzten Befund mit der Aussage aus (4) kombinieren und erhielte dann das Resultat, dass der Gini-Index mindestens 0.573 betragen muss. Die folgende Abbildung verdeutlicht den Sachverhalt:

Untere Schranke aus den Angaben (1), (3) und (4) konstruiert

Der wahre Gini-Index betrug übrigens 0.76.

Die alternative Ableitung des Koeffizienten führt zum erstaunlichen Ergebnis, dass in der Bundesrepublik Deutschland zwei zufällig gezogene Haushalte in ihrem Nettovermögen um durchschnittlich 0.76 * 2 * 214500 = 326040 Euro voneinander abweichen, und das, obwohl die Hälfte der Vermögen unter 60400 Euro und knapp 75 % unter 214500 Euro liegen!

Selbst ein geringer Gini-Index von beispielsweise G = 0.1 garantiert nicht zwingend eine “gerechte” (verwenden wir hier lieber “gleichmäßige”) Verteilung. Wie oben gezeigt, könnte sich trotzdem eine an einer Hand abzählbare Anzahl von Haushalten 10 % des Vermögens teilen, während sich der Rest von 90 % auf Millionen Haushalte verteilt.

Übrigens wird in der Beurteilung der Entwicklung der Vermögensverteilung gerne das Verhältnis des 90-%-Quantils zum Median hergenommen; hier ergäbe sich ein Quotient von 468.000/60.400 = 7.75.

Es existieren noch etliche alternative Ungleichheitsmaße, um die Verteilung von Umsätzen bzw. Vermögen zu bewerten; beispielsweise wird der Theil-Index aus einem Entropiemaß abgeleitet.

Interessant wäre auch noch der Zusammenhang zwischen Gini-Index und Quantilen, bzw. zwischen Gini-Index und einer theoretischen Dichte der Umsätze bzw. Vermögen. Eine weitergehende Erörterung sprengt hier nun aber wirklich den Rahmen und sei einem späteren Blogbeitrag vorbehalten.

Als Fazit bleibt zu konstatieren, dass aus dem Gini-Index durchaus belast- und interpretierbare Aussagen abzuleiten sind, er aber als einzelne Kennzahl die Verteilung nicht vollständig beschreiben und festlegen kann – dies gelingt aber keiner einzigen einzelnen denkbaren Größe!

(*) Quelle: Deutsche Bundesbank Monatsbericht März 2016, S. 62 (letzter Zugriff 29.1.2018)

Donnerstag, 1. Februar 2018

80-zu-20-Regel Descriptive Analytics Dispersionsmaß gerechte Verteilung Gini-Koeffizient Paretoprinzip Streuungsmaß

Veranstaltungs-Tipp

On-Demand-Webinar 29. April 2025 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

On-Demand-Webinar 7. Mai 2025 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

On-Demand-Webinar 13. Mai 2025 Webinar: Business-Intelligence-Anwendungen mit DeltaMaster Repository verwalten

Das Repository ist die zentrale Komponente zur datenbankgestützten Bereitstellung von DeltaMaster-Anwendungen. Wie Sie hier Benutzergruppen, Rollen, Berechtigungen und Anwendungen verwalten, erfahren [...]

Anmeldung

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Kaltmieten in Deutschland

Kaltmieten bzw. Mieten im Allgemeinen sind in den letzten Jahren stetig gestiegen und stellen für viele Mieter den größten Posten der monatlichen [...]

mehr erfahren

Forschung Achsenelemente als Filter an Zielbericht zuweisen

Achsenelemente können mit dem neuesten Release von DeltaMaster in ihrer Gesamtheit als Filter an einen Zielbericht zugewiesen werden. Wir erklären [...]

mehr erfahren

Forschung Leistungsausgaben der gesetzlichen Krankenversicherung

Die Leistungsausgaben der gesetzlichen Krankenkassen steigen von Jahr zu Jahr. Als Folge haben im Januar 2025 etliche Krankenkassen erneut die [...]

mehr erfahren

Forschung Analyse von Verteilungen

Die Beschreibung von Verteilungen geht oft über die Angabe von Mittelwert und Standardabweichung hinaus. Wir erläutern, was sich bei den hierfür [...]

mehr erfahren

Forschung Personenverkehr mit Bussen und Bahnen in der DeltaApp

Für den Personenverkehr spielen Busse und Bahnen eine wichtige Rolle. Das Statistische Bundesamt stellt hierzu interessante Daten zur Verfügung [...]

mehr erfahren

Data Warehousing Unternehmensplanung und -konsolidierung auf Basis der Bissantz ERP Solutions

Dieser Beitrag erläutert, wie sich Prozesse der integrierten Unternehmensplanung und der Unternehmenskonsolidierung strukturiert gestalten [...]

mehr erfahren

Data Warehousing Partitionierung von Bewegungsdaten

Die Aktualisierung von Bewegungsdaten nimmt während der täglichen Aufbereitung einer SQL-Datenbank in der Regel den Großteil der benötigten [...]

mehr erfahren

Data Warehousing Arbeitstagkalender

Zur Berechnung von Kennzahlen, die von der genauen Anzahl der Arbeitstage abhängen, ist es notwendig, diese im Modell korrekt abzubilden. Die [...]

mehr erfahren

Bissantz News The BI & Analytics Survey 25: Platz 1 für Bissantz in Selfservice, Mobile BI und zahlreichen weiteren Kriterien

Im BI & Analytics Survey 25 von BARC liegt Bissantz auf Platz eins in den Vergleichsgruppen Selfservice BI, Mobile BI und zahlreichen weiteren [...]

mehr erfahren

Forschung Reisegebiete mit Ankünften und Übernachtungen

Reisegebiete in Deutschland üben sowohl auf inländische als auch auf ausländische Touristen wieder ansteigende Anziehungskraft aus. Wie sieht [...]

mehr erfahren

Vorheriger Artikel

Clustern: Zeitmanagement

Nächster Artikel

Visualisierung: Bogen raus

Analysen: Zwischen Gini und Wahnsinn

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.

Nicolas Bissantz

Diagramme im Management