Spezielle Statistik und Versuchswesen

Fakultät

Fakultät Agrarwissenschaften und Landschaftsarchitektur (AuL)

Version

Version 1 vom 20.11.2023.

Modulkennung

44B0390

Niveaustufe

Bachelor

Unterrichtssprache

Deutsch

ECTS-Leistungspunkte und Benotung

5.0

Häufigkeit des Angebots des Moduls

nur Wintersemester

Dauer des Moduls

1 Semester

 

 

Kurzbeschreibung

Mit dem Fortschreiten der Digitalisierung können in den Pflanzenwissenschaften und der Landwirtschaft komplexere Experimente durchgeführt werden. Die Digitalisierung erlaubt die automatisierte Erfassung und Speicherung großer Datenmengen, die über entsprechende statistische Algorithmen aggregiert und ausgewertet werden müssen. Diese Daten können zur Steuerung der Produktion oder zur Erkennung von unerwünschten Ereignissen genutzt werden. Dadurch kann eine bessere Qualitätssicherung und Entwicklung gewährleistet werden. In dem Modul “Spezielle Statistik und Versuchswesen” lernen Studierende die fortgeschrittenen Algorithmen für das spätere wissenschaftliche und angewandte Arbeiten mit großen Datenmengen. Das Modul vermittelt die dafür notwendigen statistischen und algorithmischen praktischen Kenntnisse. Verschiedene statistische Verfahren werden vorgestellt und die statistischen Maßzahlen für die Modellselektion eingeübt. Im Weiteren werden maschinelle Lernverfahren präsentiert und auf Fallbeispiele angewendet. Der Fokus des Moduls liegt auf der praktischen Anwendung und Diskussion der Ergebnisse der statistischen Modellierungen. Die vorhandenen Programmierkenntnisse in R werden weiter vertieft und automatisierte Berichtserstellung mit Quarto und RMarkdown eingeübt. Das Arbeiten mit großen Datenmengen wird so für die Studierenden umsetzbar und erfahrbar gemacht. Das Modul “Spezielle Statistik und Versuchswesen” befähigt Studierende in dem Bereich der Bio Data Science in verschiedenen Anwendungsfeldern praktisch tätig zu sein.

Lehr-Lerninhalte

Statistischer Anteil

  • Einführung in die gängigen multiplen linearen Regressionen und deren Verteilungsfamilien beinhaltend die Gaussian, Poisson, Multinominal/Ordinal und Binomial.
  • Grundlagen der statistischen Maßzahlen der Modellgüte einer multiplen linearen Regression sowie deren Effektschätzer.
  • Grundlagen der Variablenselektion und Imputation von fehlenden Werten sowie Ausreißerdetektion.
  • Einführung in die linearen gemischten Modelle und die Berücksichtigung von Messwiederholungen.
  • Einführung in die nicht lineare Regression.
  • Vertiefte Auseinandersetzung mit multiplen Gruppenvergleichen und deren Möglichkeiten der Visualisierung von Gruppenunterschieden.
  • Einführung in die Äquivalenz oder Nichtunterlegenheit in der praktischen Anwendung.
  • Einführung in die klassischen experimentellen Designs in den Agrarwissenschaften.
  • Grundlagen des maschinellen Lernens und der Klassifikation von Ereignissen sowie Maßzahlen der Bewertung eines maschinellen Lernalgorithmus.
  • Anwendung der grundlegenden maschinellen Lernverfahren wie k-NN, Random Forest, Support Vector Machine und Neuronale Netze.

Informatorischer Anteil

  • Durchführung aller theoretisch erarbeiteten Inhalte in R.
  • Interpretation und Bewertung von statistischen Modellierungen in R.
  • Fortgeschrittene Programmierung in R unter der Verwendung von regulären Ausdrücken.
  • Automatisierte Erstellung von Berichten in Rmarkdown sowie in R Quatro.
  • Einführung in die Erstellung von interaktiven R Shiny Apps.

Gesamtarbeitsaufwand

Der Arbeitsaufwand für das Modul umfasst insgesamt 150 Stunden (siehe auch "ECTS-Leistungspunkte und Benotung").

Lehr- und Lernformen
Dozentengebundenes Lernen
Std. WorkloadLehrtypMediale UmsetzungKonkretisierung
40VorlesungPräsenz oder Online-
20ÜbungPräsenz oder Online-
Dozentenungebundenes Lernen
Std. WorkloadLehrtypMediale UmsetzungKonkretisierung
35Veranstaltungsvor- und -nachbereitung-
20Literaturstudium-
20Sonstiges-
15Prüfungsvorbereitung-
Benotete Prüfungsleistung
  • Hausarbeit oder
  • Klausur oder
  • Referat (mit schriftlicher Ausarbeitung)
Bemerkung zur Prüfungsart

Jeder Studierende erhält einen eigenen, zufällig erstellten Datensatz. Dieser Datensatz muss von dem Studierenden in einer Fallstudie ausgewertet und in einer Kurzpräsentation dargestellt werden.

Standardprüfungsart ist die Klausur (im Falle der Abweichung wird die genannte alternative Prüfungsart von der*dem Prüfenden ausgewählt und bei Veranstaltungsbeginn bekannt gegeben).

Prüfungsdauer und Prüfungsumfang

Klausur, 2-stündig

Empfohlene Vorkenntnisse

Für dieses Modul werden vertiefte Kenntnisse der deskriptiven Statistik sowie Grundkenntnisse der Statistik vorausgesetzt, wie sie in den Modulen "Mathematik und Statistik (44B0266)" und "Angewandte Statistik und Versuchswesen (44B0400)" vermittelt werden. 

Studierenden, die ihre Kenntnisse und Fertigkeiten vor Beginn des Moduls auffrischen möchten, wird folgende Grundlagenliteratur mit dem "Skript Bio Data Science" unter jkruppa.github.io empfohlen.

In dem Modul wird mit der Software R gearbeitet. Um sich im Vorfeld mit den Basisfunktionen vertraut zu machen, eignen sich beispielsweise die folgenden Video-Tutorials unter www.youtube.com/c/JochenKruppa.

Wissensverbreiterung

Statistischer Anteil

  • Die Studierenden kennen die gängigen experimentellen Designs in den Agrarwissenschaften.  
  • Die Studierenden kennen die entsprechenden Repräsentationen der experimentellen Designs als Datensatz.
  • Die Studierenden können die gängigen statistischen Modellierungen benennen und unterscheiden.
  • Die Studierenden sind in der Lage zwischen einem kausalen und einem prädiktiven Modell zu unterscheiden.

Informatorischer Anteil

  • Die Studierenden kennen die gängigen Funktionen für die Datenaufbereitung in R.
  • Die Studierenden sind in der Lage aus englischsprachigen Tutorien die statistische Analyseschritte für die eigenen Daten zu transferieren.

Wissensvertiefung

Statistischer Anteil

  • Die Studierenden sind in der Lage anhand einer wissenschaftlichen Fragestellung eine statistische Auswertung zu gliedern und zu planen.
  • Die Studierenden können wissenschaftliche Veröffentlichungen lesen und in den statistischen Kontext richtig einordnen.
  • Die Studierenden können eine multiple lineare Regression oder einen maschinellen Lernalgorithmus entsprechend des Endpunktes modellieren und interpretieren.
  • Die Studierenden können einen multiplen Gruppenvergleich für verschiedene Endpunkte rechnen und die p-Werte entsprechend adjustieren.
  • Die Studierenden können verschiedene technische Messparameter miteinander vergleichen und eine Aussage über die Nichtunterlegenheit treffen.

Informatorischer Anteil

  • Die Studierenden können mit regulären Ausdrücken Datensätze bearbeiten.
  • Die Studierenden sind in der Lage durch eine eine parallele Programmierung eine serielle Programmierungen zu optimieren.
  • Die Studierenden sind in der Lage einen automatisierten Bericht in Rmarkdown oder R Quarto zu erstellen

Wissensverständnis

Statistischer Anteil

  • Die Studierenden sind die der Lage eine wissenschaftliche Fragestellung mit einem experimentellen Design und einer statistischen Modellierung zu verbinden.
  • Die Studierenden können eine statistische Modellierung in einer Präsentation darstellen und vorstellen.
  • Die Studierenden können eine wissenschaftliche Veröffentlichung anhand der verwendeten Statistik bewerten.

Informatorischer Anteil

  • Die Studierenden sind in der Lage in R eine statistische Modellierung zu planen und den entsprechenden R Code zu erstellen.
  • Die Studierenden können R Code Chunks miteinander sinnvoll für die eigene Anwendung kombinieren und optimieren.

Nutzung und Transfer

Die Studierenden sind in der Lage Kosten- und Nutzenabschätzungen anhand von statistischen Modellen und deren Effektschätzern durchzuführen. Diese Abschätzungen umfassen im Besonderen die Planung von technischen und biologischen Prozesses in den Agrarwissenschaften. Die Studierenden können verschiedene technische Prozesse miteinander vergleichen und eine Aussage über die Nichtunterlegenheit oder den statistischen Unterschied treffen. Die beiden gegensätzlichen Konzepte von einem geplanten Experiment und einer technischen Nichtunterlegenheit können von den Studierenden unterschieden werden. Die Studierenden sind in der Lage selbständig Datenanalysen auf großen Datensätzen in R durchzuführen. Die Studierenden können die gängigen experimentellen Designs für verschiedene Berufsfelder und Anwendungen anpassen und durchführen.

Wissenschaftliche Innovation

Die Studierende können statistische Maßzahlen aus wissenschaftlichen Publikationen in andere wissenschaftliche Kontexte einordnen. Die Studierenden sind in der Lage wissenschaftlich zu Arbeiten und eine praktische Fragestellung in einen wissenschaftlichen Erkenntnisprozess zu übersetzen. Die Studierenden können statistische Auswertungen aus wissenschaftlichen Publikationen verstehen und informierte Forschungsideen entwickeln. Die Studierenden sind in der Lage bei der Erstellung von Daten aus Experimenten die wissenschaftliche Verwertbarkeit in R zu berücksichtigen. Die Studierenden können über die Erstellung von automatisierten Berichten die Reproduzierbarkeit der eigenen Forschungsergebnisse gewährleisten.

Kommunikation und Kooperation

Die Studierenden sind in der Lage durch das Konzept der automatisierten Berichtserstattung durchgeführte Experimente und statistische Auswertungen mit anderen Forschenden zu teilen. Die Studierenden sind dadurch in der Lage in multidiziplinären, wissenschaftlichen Teams mitzuwirken. Die Studierenden können eine gemeinsam geplante Forschungsskizze in R umsetzen. Die Studierenden sind in der Lage die Ergebnisse einer statistischen Analyse auch Fachfremden zu erläutern.

Wissenschaftliches Selbstverständnis / Professionalität

Die Studierenden können wissenschaftliche Publikationen und deren statistischen Maßzahlen in den Kontext des eigenen Berufsfeldes setzen und somit informierte Entscheidungen treffen. Die Studierende sind sich der inhärenten Unsicherheit der wissenschaftlichen Forschung bewusst und können die eigenen Forschungsergebnisse kritisch hinterfragen.

Literatur

  • Das Skript des Statistik- und Programmierteil des Moduls unter jkruppa.github.io
  • Teile des Skripts als Video unter www.youtube.com/c/JochenKruppa
  • Dormann, Carsten F. Parametrische Statistik. Springer Berlin Heidelberg, 2013.
  • Wickham, Hadley, and Garrett Grolemund. R for data science: import, tidy, transform, visualize, and model data. O'Reilly Media, Inc., 2016. \[https://r4ds.had.co.nz/\]
  • Data Science for Agriculture in R unter schmidtpaul.github.io/DSFAIR/

Zusammenhang mit anderen Modulen

Das Modul "Spezielle Statistik und Versuchswesen" bereitet zudem auf weiterführende Module aus verschiedenen Themenbereichen vor. Zu diesen Themenbereichen gehören insbesondere

-   Projektauswertung und -vorstellung (44B0597)
-   Berufspraktisches Projekt (BAP) (44B0595)
-   Bachelorarbeit (44B0365)

Welche nachfolgenden Module konkret in Frage kommen, hängt von den einzelnen Studiengängen ab. Nähere Informationen hierzu bietet der Studienverlaufsplan in der jeweils gültigen Studienordnung.

Verwendbarkeit nach Studiengängen

  • Landwirtschaft
    • Landwirtschaft B.Sc. (01.09.2025)
    • Landwirtschaft B.Sc. (01.09.2018)

  • Angewandte Pflanzenbiologie - Gartenbau, Pflanzentechnologie
    • Angewandte Pflanzenbiologie - Gartenbau, Pflanzentechnologie B.Sc. (01.09.2025)
    • Angewandte Pflanzenbiologie - Gartenbau, Pflanzentechnologie B.Sc. (01.09.2021)

    Modulpromotor*in
    • Kruppa-Scheetz, Jochen
    Lehrende
    • Kruppa-Scheetz, Jochen