Pandas mean(): Durchschnittswerte einfach errechnen

Die DataFrame.mean()-Funktion Python Pandas dient zur Berechnung des Durchschnittswerts über eine oder mehrere Achsen eines DataFrames. Pandas mean() ist entscheidend für die Analyse numerischer Daten und kann wertvolle Einblicke in deren Verteilung und Durchschnittswerte liefern.

Webhosting
Top-Hosting für Ihre Website
  • Flexibel: Hosting, das jedem Website-Traffic standhält
  • Verlässlich: Inklusive 24/7-Support und persönlicher Beratung
  • Sicher: Kostenloses SSL-Zertifikat, DDoS-Schutz und Backups

Syntax von Pandas DataFrame.mean()

Die Pandas-mean()-Funktion nimmt bis zu drei Parameter entgegen und folgt einer einfachen grundlegenden Syntax:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Relevante Parameter

Mithilfe verschiedener Parameter kann das Verhalten von Pandas DataFrame.mean() für Ihren individuellen Anwendungsfall angepasst werden.

Parameter Beschreibung Default-Wert
axis Bestimmt, ob die Berechnung über Zeilen (axis=0) oder Spalten (axis=1) erfolgen soll 0
skipna Wenn True, werden NaN-Werte ignoriert True
numeric_only Wenn True, werden nur numerische Datentypen in die Berechnung einbezogen False

Anwendung der Pandas mean()-Funktion

Pandas DataFrame.mean() kann auf verschiedene Weise angewendet werden.

Durchschnittswerte für jede Spalte berechnen

In den folgenden Codebeispielen wird ein Pandas-DataFrame mit den folgenden Beispieldaten betrachtet:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

Der resultierende DataFrame ist der folgende:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

Um den Durchschnittswert jeder Spalte zu berechnen, kann die Pandas-mean()-Funktion mit dem Standardparameter axis=0 genutzt werden:

column_means = df.mean()
print(column_means)
python

Auf diese Weise werden die Mittelwerte jeder Spalte (A, B und C) berechnet, indem die Summe der Elemente durch die Anzahl der Elemente in jeder Spalte geteilt wird. Das Ergebnis ist folgende Pandas Series:

A    2.5
B    5.5
C    8.5
dtype: float64

Durchschnittswerte für jede Zeile berechnen

Wenn man stattdessen den Durchschnittswert für jede Zeile berechnen möchte, muss hierzu einfach der Parameter axis auf 1 gesetzt werden:

row_means = df.mean(axis=1)
print(row_means)
python

Die Mittelwerte jeder Zeile werden durch den Einsatz von Pandas mean() berechnet, indem die Summe der Elemente durch die Anzahl der Elemente in jeder Zeile geteilt wird. Der Funktionsaufruf liefert folgenden Output:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

NaN-Werte ignorieren

Im folgenden Beispiel wird ein anderer DataFrame betrachtet, der einige NaN-Werte enthält:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

Der obige Code resultiert in folgendem DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Um den Durchschnitt unter Berücksichtigung von NaN-Werten zu berechnen, wird der Parameter skipna verwendet. Der Standardwert ist True, was bedeutet, dass NaN-Werte von Pandas mean() automatisch ignoriert werden. Würde skipna=False gesetzt, würde der Mittelwert für jede Spalte, die mindestens einen NaN-Wert enthält, ebenfalls NaN sein.

mean_with_nan = df.mean()
print(mean_with_nan)
python

Der Funktionsaufruf von Pandas mean() liefert:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
War dieser Artikel hilfreich?
Page top