18 - Quantile

Ein (empirisches) \(p\)-Quantil, \(p\in(0,1)\), eines Datensatzes \(x_1,\ldots,x_n\) ist ein Wert \(\tilde{x}_p\in\{x_1,\ldots,x_n\}\), sodass

  • mindestens \(p\cdot100\%\) der Beobachtungen kleiner oder gleich \(\tilde{x}_p\) sind, und zugleich
  • mindestens \(100\cdot(1-p)\%\) der Beobachtungen größer oder gleich \(\tilde{x}_p\) sind.

Fälle

  • \(np\in\mathbb{N}\): \(x_{(np)}\) und \(x_{(np+1)}\) sind \(p\)-Quantile. Metrische Skalierung: jede Zahl dazwischen ist ebenfalls \(p\)-Quantil.
  • \(np\notin\mathbb{N}\): \(\tilde{x}_p=x_{(\lfloor np\rfloor+1)}\) ist das eindeutige \(p\)-Quantil.

Quartile

Das 0.25-Quantil heißt erstes oder unteres Quartil \(Q_1\), das dritte Quartil \(Q_3\) ist das 0.75-Quantil. Der Median ist das zweite Quartil \(Q_2\).

Zusammen mit dem Minimum und dem Maximum der Beobachtungen wird der Datensatz durch diese drei Quantile in vier Bereiche mit gleichen Anteilen aufgeteilt.

Quartilsabstand

Der Quartilsabstand (engl.: interquartile range) ist gegeben durch $$\text{IQR}=Q_3-Q_1.$$

Fünf-Punkte-Zusammenfassung

Die Fünf-Punkte-Zusammenfassung eines Datensatzes besteht aus dem Minimum \(x_{\text{min}}\), dem ersten Quartil \(Q_1=\tilde{x}_{0.25}\), dem Median \(x_{\text{med}}\), dem dritten Quartil \(Q_3=\tilde{x}_{0.75}\) und dem Maximum \(x_{\text{max}}\).

Boxplot

Ein Boxplot ist eine grafische Darstellung der Fünf-Punkte-Zusammenfassung. Hierbei wird eine Box von \(Q_1\) bis \(Q_3\) gezeichnet, die beim Median einen vertikalen Strich enthält. An die Box werden Striche (Whiskers) angesetzt, die bis zum Minimum \(x_{\text{min}}\) bzw. Maximum \(x_{\text{max}}\) reichen.

Beobachtungen, die unterhalb der Grenze $$Q_1-1.5\cdot(Q_3-Q_1)$$ bzw. oberhalb der Grenze $$Q_3+1.5\cdot(Q_3-Q_1)$$ liegen, heißen äußere Beobachtungen. Die Grenzen nennt man innere Zäune, wählt man statt dem Faktor 1.5 den Faktor 3, erhält man die äußeren Zäune.

QQ-Plot

Gegeben seien zwei Datensätze $$x_1,\ldots,x_n \quad \text{und} \quad y_1,\ldots,y_m.$$ Die Datensätze sollen verglichen werden, indem verschiedene \(p\)-Quantile gegeneinander aufgetragen werden. Für \(n=m\) werden die \(p_i\)-Quantile mit $$p_i=i/n, \quad i=1,\ldots,n,$$ benutzt, welche gerade die Ordnungsstatistiken \(x_{(i)}\) und \(y_{(i)}\) sind. Ist \(n\neq m\), werden die \(p_i\)-Werte des kleineren Datensatzes verwendet. Der QQ-Plot kann wie folgt interpretiert werden:

  •     In Bereichen, in denen die Punkte unterhalb der Winkelhalbierenden liegen, sind die \(x\)-Quantile größer als die \(y\)-Quantile, d.h., dass die \(y\)-Verteilung mehr Masse bei den kleinen Werten hat als die \(x\)-Verteilung.
  •     Wenn die Punkte (nahezu) auf einer Geraden liegen, dann können die Datensätze durch eine lineare Transformation \(y_i=a+b\cdot x_i\) ineinander überführt werden (Lage- und Skalenänderung).