Ex07: Species vs. Area

Nutze die Dateien muenster_districts.csv und muenster_trees.csv aus dem Learnweb für die folgenden Aufgaben.

  • Nutze dplyr::group_by und dplyr::summarise um die Anzahl der Bäume pro Bezirk zu berechnen.
  • Mit einem join Befehl (z.B. dplyr::left_join) oder merge können mehrere Tabellen zusammengefügt werden. Erstelle damit eine Tabelle die mindestens folgende Informationen enthält: Bezirksname, Bezirksgröße, Anzahl der Bäume im Bezirk.
library(tidyverse)
trees = read.csv("../data/muenster_trees.csv")
districts = read.csv("../data/muenster_districts.csv")

# entweder:
tree_summary = trees |> group_by(district) |> count()

# oder:
tree_summary = trees |> group_by(district) |>   
    summarise(AnzahlBaum = length(species))


trees_districts = merge(districts, tree_summary, by = "district")


trees_districts = left_join(districts, tree_summary, by = "district")
  • Erstelle einen Scatterplot aus Bezirksgröße und Anzahl der Bäume im Bezirk.
  • Erstelle ein lineares Model um den Zusammenhang zwischen Bezirksgröße und Anzahl der Bäume im Bezirk zu berechnen.
  • Erstelle ein Histogramm der Residuen des Models.
  • Logarithmiere Bezirksgröße und Anzahl der Bäume im Bezirk (log10()). Erstelle dann den Scatterplot erneut mit den logarithmierten Werten.
  • Erstelle ein lineares Model um den Zusammenhang zwischen logarithmierten Bezirksgröße und Anzahl der Bäume im Bezirk zu berechnen.
  • Sind die Residuen des Models normalverteilt?
  • Bonus: Wie viele Bäume stehen Erwartungsgemäß in einem Bezirk der 10000000 qm groß ist?