Pandas groupby() erklärt

Inhaltsverzeichnis

Die Python Pandas DataFrame.groupby()-Funktion ermöglicht es, Daten nach bestimmten Kriterien zu gruppieren und verschiedene Aggregationen und Transformationen auf diesen Gruppen durchzuführen.

Webhosting

Das beste Webhosting zum Spitzenpreis

- 3x schneller und 60 % günstiger

- Maximale Verfügbarkeit mit > 99.99 %

- Nur bei IONOS: Bis zu 500 GB Speicherplatz inklusive

Syntax von Pandas `DataFrame.groupby()`

Pandas groupby() nimmt bis zu vier Parameter entgegen. Die grundlegende Syntax sieht folgendermaßen aus:

DataFrame.groupby(by=None, level=None, as_index=True, sort=True, group_keys=True, dropna=True)

python

Relevante Parameter

Parameter	Beschreibung	Defaultwert
`by`	Schlüssel oder Liste von Schlüsseln, nach denen gruppiert werden soll; nicht in Kombination mit `level`	`None`
`level`	Wird bei Multiindizes verwendet, um eine oder mehrere Ebenen zu spezifizieren, sodass die Gruppierung nach bestimmten Ebenen erfolgt	`None`
`as_index`	Wenn `True`, werden die Gruppenschlüssel als Index des resultierenden DataFrame gesetzt	`True`
`group_keys`	Wenn `True`, sind die Gruppenschlüssel in den Indizes der Gruppen enthalten	`True`
`dropna`	Legt fest, ob Gruppen mit NaN-Werten ausgeschlossen werden sollen	`True`

Anwendung von Pandas `DataFrame.grouby()`

Die Pandas groupyby()-Funktion ist besonders nützlich, wenn man große Datenmengen analysieren und zusammenfassen möchte, um Muster oder Anomalien zu erkennen.

Gruppieren und Aggregieren

Im Folgenden wird ein Datensatz von Produktverkäufen betrachtet, der Informationen über das Verkaufsdatum, das verkaufte Produkt und die verkaufte Menge enthält:

import pandas as pd
# Beispiel-Datensatz mit Produktverkäufen
data = {
    'Datum': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Produkt': ['A', 'B', 'A', 'B', 'A'],
    'Menge': [10, 20, 15, 25, 10]
}
df = pd.DataFrame(data)
print(df)

python

Der resultierende DataFrame sieht folgendermaßen aus:

Datum Produkt  Menge
0  2021-01-01       A     10
1  2021-01-01       B     20
2  2021-01-02       A     15
3  2021-01-02       B     25
4  2021-01-03       A     10

Im nächsten Schritt soll der Datensatz nach Produkt gruppiert werden. Hierfür wird Pandas groupby() genutzt. Anschließend wird die Summe der verkauften Menge jedes Produktes mithilfe der sum()-Funktion ausgerechnet:

# Gruppieren nach Produkt und Summe der verkauften Menge berechnen
summe = df.groupby('Produkt')['Menge'].sum()
print(summe)

Das Ergebnis zeigt, wie viele Einheiten jedes Produkts insgesamt verkauft wurden:

Produkt
A    35
B    45
Name: Menge, dtype: int64

Mehrfache Aggregationen

Das folgende Beispiel nutzt einen ähnlichen, aber erweiterten Datensatz an, der zusätzlich den Umsatz enthält:

data = {
    'Datum': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Produkt': ['A', 'B', 'A', 'B', 'A'],
    'Menge': [10, 20, 15, 25, 10],
    'Umsatz': [100, 200, 150, 250, 100]
}
df = pd.DataFrame(data)
print(df)

python

Folgender DataFrame wird also betrachtet:

Datum Produkt  Menge  Umsatz
0  2021-01-01       A     10     100
1  2021-01-01       B     20     200
2  2021-01-02       A     15     150
3  2021-01-02       B     25     250
4  2021-01-03       A     10     100

Die Daten werden mithilfe von Pandas DataFrame.groupby() erneut nach Produkt gruppiert. Anschließend wird die agg()-Funktion genutzt, um nach der Gesamtsumme der verkauften Mengen und Umsätze sowie dem durchschnittlichen Umsatz pro Produkt zu aggregieren.

# Gruppieren nach Produkt und Anwendung mehrerer Aggregationen anwenden
gruppen = df.groupby('Produkt').agg({
    'Menge': 'sum',
    'Umsatz': ['sum', 'mean']
})
print(gruppen)

Das Ergebnis sieht wie folgt aus:

Menge Umsatz        
      sum    sum    mean
Produkt             
A      35    350  116.666667
B      45    450  225.000000

War dieser Artikel hilfreich?

KI-Wissen für Ihren Erfolg

Unser Newsletter bringt Ihnen die wichtigsten Insights rund um KI – verständlich, praxisnah und auf den Punkt.

Pandas DataFrame[].unique(): Einzigartige Werte ermitteln

Mit Pandas DataFrame[].unique() können die einzigartigen Werte einer Spalte in einem DataFrame schnell identifiziert werden. Dies ist besonders hilfreich, um Duplikate zu finden. Durch die direkte Rückgabe eines numpy-Arrays erleichtert sie den effizienten Umgang mit großen…

Python Pandas

Gorodenkoffshutterstock

Pandas DataFrame.where(): Bedingungen in DataFrames prüfen

Mit Pandas DataFrame.where() können Sie bedingte Datenmanipulationen in Pandas DataFrames vornehmen. Hierzu werden Bedingungen festgelegt, die entscheiden, welche Werte beibehalten und welche ersetzt werden. Dies ist eine effiziente Lösung, Daten zu bereinigen, zu extrahieren…

Python Pandas

Pandas loc[]: Daten aus DataFrames auswählen

Die Pandas-DataFrame-Eigenschaft loc[] bietet die Möglichkeit, Daten basierend auf Labels zu extrahieren. Sie ist besonders nützlich für die Arbeit mit Daten, bei denen die Position von Zeilen und Spalten nicht immer vorhersehbar ist. Erfahren Sie in diesem Artikel, wie Sie loc[]…

Python Pandas

ra2 studioShutterstock

Pandas Table: DataFrames als Tabellen formatieren

Das Anzeigen eines Python Pandas DataFrame als Table ist eine essenzielle Aufgabe, die auf viele verschiedene Arten gelöst werden kann, je nach den Anforderungen. Ob einfache Konsolenausgabe, formatierte HTML-Tabelle oder Visualisierung in Standardformaten – es gibt eine breite…

Python Pandas

Ranjit Karmakarshutterstock

Pandas DataFrame describe() im Überblick

Die Pandas-DataFrame.describe()-Methode bietet eine schnelle Möglichkeit, eine umfassende statistische Zusammenfassung numerischer Daten in einem DataFrame zu generieren. Durch die Möglichkeit, Quantile anzupassen und Datentypen zu spezifizieren, ist sie äußerst flexibel und für…

Python Pandas

Pandas read_csv(): So lesen Sie CSV-Dateien in Python ein

Python Pandas read_csv() ist eine leistungsstarke Funktion, um schnell und effizient auf die Inhalte von CSV-Dateien in Python zuzugreifen. Die Funktion ist flexibel und bietet zahlreiche Parameter, um den Ladeprozess nach Ihren Bedürfnissen anzupassen. Das Verständnis von Pandas…

Python Pandas

Pandas groupby() erklärt

Syntax von Pandas DataFrame.groupby()

Relevante Parameter

Anwendung von Pandas DataFrame.grouby()

Gruppieren und Aggregieren

Mehrfache Aggregationen

Syntax von Pandas `DataFrame.groupby()`

Anwendung von Pandas `DataFrame.grouby()`