library(tidyverse)
= read.csv("../data/muenster_trees.csv")
trees = read.csv("../data/muenster_districts.csv")
districts
# entweder:
= trees |> group_by(district) |> count()
tree_summary
# oder:
= trees |> group_by(district) |>
tree_summary summarise(AnzahlBaum = length(species))
= merge(districts, tree_summary, by = "district")
trees_districts
= left_join(districts, tree_summary, by = "district") trees_districts
Ex07: Species vs. Area
Nutze die Dateien muenster_districts.csv
und muenster_trees.csv
aus dem Learnweb für die folgenden Aufgaben.
- Nutze
dplyr::group_by
unddplyr::summarise
um die Anzahl der Bäume pro Bezirk zu berechnen. - Mit einem
join
Befehl (z.B.dplyr::left_join
) odermerge
können mehrere Tabellen zusammengefügt werden. Erstelle damit eine Tabelle die mindestens folgende Informationen enthält: Bezirksname, Bezirksgröße, Anzahl der Bäume im Bezirk.
- Erstelle einen Scatterplot aus Bezirksgröße und Anzahl der Bäume im Bezirk.
- Erstelle ein lineares Model um den Zusammenhang zwischen Bezirksgröße und Anzahl der Bäume im Bezirk zu berechnen.
- Erstelle ein Histogramm der Residuen des Models.
- Logarithmiere Bezirksgröße und Anzahl der Bäume im Bezirk (
log10()
). Erstelle dann den Scatterplot erneut mit den logarithmierten Werten.
- Erstelle ein lineares Model um den Zusammenhang zwischen logarithmierten Bezirksgröße und Anzahl der Bäume im Bezirk zu berechnen.
- Sind die Residuen des Models normalverteilt?
- Bonus: Wie viele Bäume stehen Erwartungsgemäß in einem Bezirk der 10000000 qm groß ist?