14 - Aufbereitung von univariaten Daten

Absolute und relative Häufigkeiten

Die absoluten Häufigkeiten (engl.: frequencies, counts) \(h_1,\ldots,h_k\) sind durch $$h_j=\text{"Anzahl der \(x_i\) mit \(x_i=a_j\)"}=\sum_{i=1}^n\ \mathbb{1}(x_i=a_j),$$ \(j=1,\ldots,k\), gegeben. Die (tabellarische) Zusammenstellung der absoluten Häufigkeiten \(h_1,\ldots,h_k\) heißt absolute Häufigkeitsverteilung.

Die relativen Häufigkeiten \(f_1,\ldots,f_k\) sind gegeben durch $$f_j=\frac{h_j}{n}.$$ \(f_j\) ist der Anteil aller Beobachtungen mit Wert \(a_j\). Die (tabellarische) Zusammenstellung der \(f_1,\ldots,f_k\) heißt relative Häufigkeitsverteilung.

Eigenschaften

  • \(h_1+\ldots+h_k=n.\)
  • \(f_1+\ldots+f_k=1.\)

Ordnungsstatistiken

Sortiere die \(n\) Beobachtungen aufsteigend der Größe nach, sodass $$x_{\text{min}}=x_{(1)}\leq\ldots\leq x_{(n)}=x_{\text{max}}.$$ Dann heißt \(x_{(i)}\) \(i\)-te Ordnungsstatistik und \((x_{(1)},\ldots,x_{(n)})\) Ordnungsstatistik der Stichprobe \(x_1,\ldots,x_n\).

Kumulierte Häufigkeitsverteilung

Für Rohdaten \(x_1,\ldots,x_n\) ist die kumulierte Häufigkeitsfunktion definiert durch $$H(x)=\sum_{i=1}^n\ \mathbb{1}(x_i\leq x)=\sum_{j:a_j\leq x}h_j.$$

Die empirische Verteilungsfunktion (relative kumulierte Häufigkeitsverteilung) ist für \(x \in \mathbb{R}\) definiert durch $$\hat{F}(x)=\frac{H(x)}{n}=\text{Anteil der \(x_i\) mit \(x_i\leq x\) }=\sum_{j:a_j\leq x}f_j.$$

Eigenschaften

  • \(H(x)\) und \(\hat{F}(x)\) sind monoton wachsende Treppenfunktionen, die an den Ordnungsstatistiken \(x_{(i)}\) Sprungstellen besitzen.
  • Bei \(H(x)\) ist die Sprunghöhe genau die Anzahl der Beobachtungen, die gleich \(x_{(i)}\) sind.
  • Bei \(\hat{F}(x)\) ist die Sprunghöhe genau der Anteil der Beobachtungen, die gleich \(x_{(i)}\) sind.

Gruppierung

Das Intervall \([x_{\text{min}},x_{\text{max}}]\) heißt Messbereich.

Seien $$I_1=[g_1,g_2], \ I_2=(g_2,g_3], \ldots, I_k=(g_k,g_{k+1}]$$ \(k\) Intervalle, die den gesamten Messbereich überdecken. Dann heißt \(I_j\) \(j\)-te Gruppe oder Klasse und ist für \(j=2,\ldots,k\) gegeben durch \(I_j=(g_j,g_{j+1}]\). Die Zahlen \(g_1,\ldots,g_{k+1}\) sind die Gruppengrenzen, $$b_j=g_{j+1}-g_j \ , \quad j=1,\ldots,k,$$ die Gruppenbreiten und $$m_j=\frac{g_{j+1}-g_j}{2}, \quad j=1,\ldots,k,$$ die Gruppenmitten.

Stamm-Blatt-Diagramm

Angenommen, die Zahlen des Datensatzes bestehen aus \(d\) Ziffern. Wähle die Zahl mit den ersten \(d-1\) Ziffern von \(x_{\text{min}}\) und zähle gleichmäßig bis zur Zahl mit den ersten \(d-1\) Ziffern von \(x_{\text{max}}\) hoch, sodass sich die letzte Ziffer immer um 1 erhöht. Diese Zahlen definieren die Gruppengrenzen und bilden den Stamm des Diagramms, die untereinander aufgeschrieben werden. Schreibe nun für jede Zahl des Datensatzes die \(d\)-te Ziffer rechts neben den jeweiligen Stamm.

Histogramm

Gruppiere den Datensatz in \(k\) Klassen mit relativen Häufigkeiten \(f_j\) und Gruppenbreiten \(b_j\), \(j=1,\ldots,k\). Zeichne nun über der \(j\)-ten Klasse ein Rechteck der Höhe $$l_j=\frac{f_j}{b_j}\ , \quad j=1,\ldots,k.$$ Dann erhält man das Histogramm, bei dem die Rechtecke die relativen Häufigkeiten repräsentieren.

Der obere Rand des Histogramms definiert eine Treppenfunktion $$\hat{f}(x)=\left\{ \begin{aligned} 0, & x < g_1\\ l_1, &  x \in [g_1,g_2] \\ l_j, & x \in (g_j,g_{j+1}], j=2,\ldots,k, \\ 0, & x > g_{k+1}. \end{aligned} \right.$$ \(\hat{f}(x)\) heißt Häufigkeitsdichte oder auch Dichteschätzer.

Eigenschaften

  • Es gilt: $$f_j=\int_{g_j}^{g_{j+1}}\hat{f}(x)dx$$ und $$\int_{-\infty}^{\infty}\hat{f}(x)dx=1.$$
  • Die Höhe repräsentiert die Dichte der Daten.

Gleitendes Histogramm

Sei \(x \in \mathbb{R}\) und \(\tilde{f}(x)\) der Anteil der Beobachtungen \(x_i\) mit \(|x-x_i|\leq h\), dividiert durch \(2h\). Dann heißt \(\tilde{f}(x)\) gleitendes Histogramm und \(h\) Bandbreite, und es gilt $$\tilde{f}(x)=\frac{1}{2nh}\sum_{i=1}^n\ \mathbb{1}(|x-x_i|\leq h).$$

Kerndichteschätzer

Gegeben seien Daten \(x_1,\ldots,x_n\). Die Funktion $$\tilde{f}(x)=\frac{1}{nh}\sum_{i=1}^n\ K\left(\frac{x-x_i}{h}\right) , \ \ \ x \in \mathbb{R} \ ,$$ heißt Kerndichteschätzer (nach Parzen-Rosenblatt) zur Bandbreite \(h\), wenn \(K(z)\) eine stetige Funktion mit $$K(z) \geq 0, \ \int_{-\infty}^{\infty} K(z)dz=1$$ ist, die symmetrisch um 0 ist. \(K(z)\) heißt dann Kernfunktion.

Gängige Kernfunktionen sind:

    der Gauß-Kern $$K(z)=\frac{1}{\sqrt{2\pi}}e^{-z^2/2}, \ z \in \mathbb{R},$$
    der Epanechnikov-Kern $$K(z)=\left\{\begin{aligned}& \frac{3}{4}(1-z^2), & |z|<1,\\ & 0, & \text{sonst},\end{aligned}\right.$$
    der Gleichverteilungskern $$K(z)=\frac{1}{2}\mathbb{1}(|z|\leq 1)=\left\{\begin{aligned}& \frac{1}{2}, & |z|\leq 1, \\ & 0, & \text{sonst.}\end{aligned}\right.$$