Datenanalyse: Multivariate Statistik mit Python
Mehr als 500 Teilnehmer/-innen empfehlen unsere Trainings:
https://www.provenexpert.com/dhl-data-science-seminare-gmbh/
Das Training Multivariate Datenanalyse mit Python führt fortgeschrittene Anwender in die multivariate Statistik ein. Die Anwendung der multivariaten Verfahren mit der statistischen Programmiersprache Python wird mit vielen Beispielen und Übungsaufgaben trainiert und vertieft. Das Ziel ist es, multivariate Verfahren mit Python anwenden zu können.
Der Nutzen des Seminars besteht darin, dass fortgeschrittene Anwender innerhalb von einer Woche in die Lage versetzt werden, multivariate Verfahren anzuwenden und die Ergebnisse korrekt zu interpretieren. Multivariate Verfahren erlauben es, die Variablen in einem Datensatz gemeinsam zu analysieren und sind somit den univariaten Verfahren des Grundla…

Es wurden noch keine FAQ hinterlegt. Falls Sie Fragen haben oder Unterstützung benötigen, kontaktieren Sie unseren Kundenservice. Wir helfen gerne weiter!
Mehr als 500 Teilnehmer/-innen empfehlen unsere Trainings:
https://www.provenexpert.com/dhl-data-science-seminare-gmbh/
Das Training Multivariate Datenanalyse mit Python führt fortgeschrittene Anwender in die multivariate Statistik ein. Die Anwendung der multivariaten Verfahren mit der statistischen Programmiersprache Python wird mit vielen Beispielen und Übungsaufgaben trainiert und vertieft. Das Ziel ist es, multivariate Verfahren mit Python anwenden zu können.
Der Nutzen des Seminars besteht darin, dass fortgeschrittene Anwender innerhalb von einer Woche in die Lage versetzt werden, multivariate Verfahren anzuwenden und die Ergebnisse korrekt zu interpretieren. Multivariate Verfahren erlauben es, die Variablen in einem Datensatz gemeinsam zu analysieren und sind somit den univariaten Verfahren des Grundlagenkurses Grundlagen der Statistik mit Python überlegen.
Dauer
- 5 Tage mit 40 Stunden Unterricht (täglich 8 Stunden, 9-17 Uhr)
- Aufteilung Theorie/Praxis: 50 % Theorie + 50 % Praxis mit Übungen
Inhalte
Das Seminar besteht aus einem dreitägigen Basistraining und einem zweitägigen Aufbautraining. Im Basistraining werden die strukturprüfenden, insbesondere die regressionsanalytischen Verfahren vorgestellt. Im Aufbautraining werden die strukturentdeckenden Verfahren, insbesondere die Zeitreihenanalyse, die Clusteranalyse und die Faktorenanalyse vermittelt. Die Varianzanalyse ist Schwerpunktthema im Aufbaukurs des Grundlagenseminars.
Im Basistraining werden die regressionsanalytischen Verfahren behandelt. Dazu gehören die multiple Regressionsanalyse, die die linearen und nichtlinearen Zusammenhänge zwischen mehreren Variablen quantitativ beschreibt und erklärt und Prognosen erlaubt, und die logistische Regression, die zur Klassifizierung und Risikoabschätzung von Einzelfällen geeignet ist. Es wird jeweils gezeigt, wie lineare, nicht-lineare und kategoriale Einflussgrößen und deren Wechselwirkungen modelliert werden. Mit diesen fortgeschrittenen Kenntnissen können komplexe und realitätsnahe Regressionsmodelle mit hohem Erklärungswert und sehr guten Prognosen entwickelt werden.
Im Aufbautraining werden strukturentdeckende Verfahren behandelt. Dazu gehören die Zeitreihenanalyse, die Zeitreihen mittels verschiedener Verfahren (exponentielle Prognosemodelle und ARIMA-Modelle in den verschiedensten Varianten) untersucht und Prognosen für zukünftige Entwicklungen erlaubt, die Clusteranalyse, die eine Vielzahl von Fällen zu wenigen Gruppen (Cluster) bündelt, und die explorative Faktorenanalyse (Hauptkomponentenanalyse und Hauptachsenanalyse), die eine Vielzahl von Variablen zu wenigen Dimensionen (Faktoren) reduziert. Mit der logistischen Regression des Basiskurses kann ermittelt werden, mit welchen Variablen die in der Clusteranalyse gefunden Gruppen am besten beschrieben werden können. Auf Wunsch wird die Reliabilitätsanalyse behandelt, die die Reliabilität eines Itemsets für einen Faktor prüft. Es kann dann gezeigt werden, wie mit Hilfe der Faktoren- und Reliabilitätanalyse die Güte eines Fragebogens zur Messung latenter Konstrukte überprüft werden kann.
Agenda
Basistraining
- Regressionsanalyse: Regressionsmodelle für kontinuierliche Variablen mit linearen und nicht-linearen Effekten, Moderationseffekten (Wechselwirkungen), Suppressionseffekten (Kontrolle von Störeinflüssen) und Interaktionseffekten zwischen kontinuierlichen und kategorialen Einflussgrößen (Populationsunterschiede); Verfahren zur Auswahl von Prognosevariablen (Betagewichte, Toleranzen) und der Ermittlung des am besten an die Daten angepassten Modells (schrittweise Regression mit AIC/BIC); Residualdiagnostik, Prüfung der Modellprämissen (Angemessenheit des Modells, Multikollinearität, Homoskedastizität und Normalverteilung der Residuen, Erkennung von einflussreichen Datenpunkten) und Maßnahmen bei Verletzungen (Ausschluss ungeeigneter Fälle, Selektion und Aggregation von Variablen)
- Logistische Regression: Regressionsmodelle für kategoriale Variablen, Interpretation der Koeffizienten der logistischen Regressionsfunktion (Logits, Odds und Wahrscheinlichkeiten), Berechnung von Odds Ratio und relatives Risiko; Konfusionstabellen mit Trefferquote, Spezifität und Sensitivität, ROC-Kurven und Ermittlung des optimalen Trennwerts; Prüfung des Gesamtmodells und der Merkmalsvariablen (AUC, Likelihood-Ratio-Test und Pseudo R-Quadrat-Statistiken)
Aufbautraining
- Zeitreihenanalyse: Glättungsmethoden und LOESS-Dekomposition von Trend- und Saison-Komponenten, ARIMA-Modelle, Erstellung von Prognosen, Beurteilung der Modellgüte und Prognosegüte, grafische Darstellung von Zeitreihen
- Clusteranalyse: hierarchische Clusteranalyse (Distanz- und Ähnlichkeitsmaße, Fusionierungs-Algorithmen: Single-Linkage, Complete-Linkage und Ward-Verfahren), partitionierende Clusteranalyse (k-Means-Clusteranalyse)
- Dimensionsreduzierende Verfahren: Faktorenanalyse (EFA, Explorative Factor Analysis) und Hauptkomponentenanalyse (PCA, Principal Component Analysis), Variablenauswahl, Extraktion und Rotation der Dimensionen, Berechnung von Faktorwerten
Ziele
fortgeschrittene Funktionen von Python kennen lernen, Daten mit Hilfe der multivariaten Statistik auswerten können, Ergebnisse von multivariaten Verfahren grafisch darstellen, erläutern und interpretieren können, aufgrund einer Fragestellung das geeignete multivariate Verfahren identifizieren und anwenden können
Voraussetzungen
Erfahrungen mit Python und die Inhalte des Trainings Grundlagen der Statistik mit Python (Interpretation von Korrelationskoeffizienten wie Pearsons r und Signifikanztests wie dem t-Test sollten bekannt sein). Grundlegende Fertigkeiten im Umgang mit Python – wie Datenimport, Datenaufbereitung, Grafikerstellung und statistische Standardverfahren – werden vorausgesetzt, ständig angewendet und vertieft.
Hinweise zur Teilnahme
Sie benötigen zur Teilnahme an unseren Online-Seminaren einen Computer mit Internetzugang (empfohlene Bandbreite 1-2 MBit/s). Sie erhalten nach der Anmeldung eine detaillierte Installationsanleitung für die erforderliche Statistik- und Videokonferenz-Software (die Teilnahme ist auch mit einem Browser möglich). Bei Bedarf können Sie einen Fernzugang zu einem Schulungscomputer mit der erforderlichen Software erhalten.
Förderung
Bildungsurlaub, Weiterbildungsstipendium (kein Bildungsgutschein)
Es wurden noch keine FAQ hinterlegt. Falls Sie Fragen haben oder Unterstützung benötigen, kontaktieren Sie unseren Kundenservice. Wir helfen gerne weiter!
