Big Data Hadoop und Spark Entwickler - eLearning und/oder Online-Klassenzimmer
Big Data Hadoop- und Spark-Entwickler – E-Learning
Der Kurs „Big Data Hadoop- und Spark-Entwickler“ vermittelt Ihnen fundierte Kenntnisse über die Grundlagen von Apache Spark und das Hadoop-Framework und stattet Sie mit den Fähigkeiten aus, die Sie benötigen, um als Big-Data-Entwickler erfolgreich zu sein. In diesem Programm erwerben Sie praktische Kenntnisse über das Hadoop-Ökosystem und dessen Integration mit Spark, sodass Sie große Datenmengen effizient verarbeiten und analysieren können. Erfahren Sie, wie die verschiedenen Komponenten von Hadoop, wie HDFS und MapReduce, nahtlos in den Big-Data-Verarbeitungszyklus passen, und bereiten Sie sich auf den Erfolg in der datengesteuerten Welt …

Es wurden noch keine FAQ hinterlegt. Falls Sie Fragen haben oder Unterstützung benötigen, kontaktieren Sie unseren Kundenservice. Wir helfen gerne weiter!
Big Data Hadoop- und Spark-Entwickler – E-Learning
Der Kurs „Big Data Hadoop- und Spark-Entwickler“ vermittelt Ihnen fundierte Kenntnisse über die Grundlagen von Apache Spark und das Hadoop-Framework und stattet Sie mit den Fähigkeiten aus, die Sie benötigen, um als Big-Data-Entwickler erfolgreich zu sein. In diesem Programm erwerben Sie praktische Kenntnisse über das Hadoop-Ökosystem und dessen Integration mit Spark, sodass Sie große Datenmengen effizient verarbeiten und analysieren können. Erfahren Sie, wie die verschiedenen Komponenten von Hadoop, wie HDFS und MapReduce, nahtlos in den Big-Data-Verarbeitungszyklus passen, und bereiten Sie sich auf den Erfolg in der datengesteuerten Welt von heute vor.
WAS IST INKLUSIVE?
- Kurs und Material sind in englischer Sprache
- Mittelstufe für angehende Dateningenieure
- 1 Jahr Zugang zur E-Learning-Plattform zum Selbststudium, rund um die Uhr verfügbar
- 11 Stunden Videoinhalte
- 50 Stunden Lernzeit empfohlen
- Simulationstest, virtuelles Labor und Projekt zum Abschluss des Kurses
- Keine Prüfung für den Kurs, aber die Teilnehmer erhalten ein Zertifikat über den Abschluss der Schulung.
KURSZIELE
- Lernen Sie, sich im Hadoop-Ökosystem zurechtzufinden und dessen Nutzung zu optimieren.
- Importieren Sie Daten mit Sqoop, Flume und Kafka.
- Implementieren Sie Partitionierung, Bucketing und Indizierung in Hive.
- Arbeiten Sie mit RDD in Apache Spark.
- Verarbeiten Sie Echtzeit-Streaming-Daten und führen Sie DataFrame-Operationen in Spark mithilfe von SQL-Abfragen durch
- Implementieren Sie benutzerdefinierte Funktionen (UDF) und benutzerdefinierte Attributfunktionen (UDAF) in Spark
Zielgruppe
Ideal für eine Vielzahl von Fachleuten und Personen, die ihre Karriere in den Bereichen Big-Data-Analytik, Data Engineering und Data Science vorantreiben möchten.
Voraussetzungen: Kenntnisse in Core Java und SQL werden empfohlen
- Analytik-Fachleute
- Erfahrene IT-Fachleute
- Test- und Mainframe-Fachleute
- Fachleute für Datenmanagement
- Fachleute für Business Intelligence
- Projektmanager
- Absolventen, die eine Karriere im Bereich Big-Data-Analytik anstreben
Voraussetzungen: Kenntnisse in Core Java und SQL werden empfohlen
Kursinhalt
Einführung in Big Data und Hadoop
- - Einführung in Big Data und Hadoop
- - Einführung in Big Data
- - Big-Data-Analytik
- - Was ist Big Data?
- - Die vier Vs von Big Data
- - Fallstudie Royal Bank of Scotland
- - Herausforderungen traditioneller Systeme
- - Verteilte Systeme
- - Einführung in Hadoop
- - Komponenten des Hadoop-Ökosystems Teil 1
- - Komponenten des Hadoop-Ökosystems Teil 2
- - Komponenten des Hadoop-Ökosystems Teil 3
- - Kommerzielle Hadoop-Distributionen
- - Demo: Walkthrough von Simplilearn Cloudlab
- - Wichtigste Erkenntnisse
- - Wissensüberprüfung
Hadoop-Architektur Verteilte Speicherung (HDFS) und YARN
- - Hadoop-Architektur Verteilte Speicherung (HDFS) und YARN
- - Was ist HDFS?
- - Notwendigkeit von HDFS
- - Reguläres Dateisystem vs. HDFS
- - Merkmale von HDFS
- - HDFS-Architektur und Komponenten
- - Implementierungen von Hochverfügbarkeitsclustern
- - HDFS-Komponente Dateisystem-Namespace
- - Aufteilung von Datenblöcken
- - Topologie der Datenreplikation
- - HDFS-Befehlszeile
- - Demo: Gängige HDFS-Befehle
- - Übungsprojekt: HDFS-Befehlszeile
- - Einführung in Yarn
- - Anwendungsfall für Yarn
- - Yarn und seine Architektur
- - Ressourcenmanager
- - Funktionsweise des Ressourcenmanagers
- - Anwendungsmaster
- - So führt Yarn eine Anwendung aus
- - Tools für Yarn-Entwickler
- - Demo: Durchlaufen des Clusters, Teil 1
- - Demo: Durchlaufen des Clusters, Teil 2
- - Wichtigste Erkenntnisse Wissensüberprüfung
- - Übungsprojekt: Hadoop-Architektur, verteilte Speicherung (HDFS) und Yarn
Datenaufnahme in Big-Data-Systeme und ETL
- - Datenaufnahme in Big-Data-Systeme und ETL
- - Überblick über die Datenaufnahme Teil 1
- - Überblick über die Datenaufnahme Teil 2
- - Apache Sqoop
- - Sqoop und seine Verwendung
- - Sqoop-Verarbeitung
- - Sqoop-Importprozess
- - Sqoop-Konnektoren
- - Demo: Importieren und Exportieren von Daten aus MySQL in HDFS
- - Praxisprojekt: Apache Sqoop
- - Apache Flume
- - Flume-Modell
- - Skalierbarkeit in Flume
- - Komponenten in der Flume-Architektur
- - Konfigurieren von Flume-Komponenten
- - Demo: Twitter-Daten einlesen
- - Apache Kafka Aggregieren von Benutzeraktivitäten mit Kafka
- - Kafka-Datenmodell
- - Partitionen
- - Apache Kafka-Architektur
- - Demo: Einrichten eines Kafka-Clusters
- - Beispiel für eine API auf der Produzentenseite
- - API auf der Verbraucherseite
- - Beispiel für eine API auf der Verbraucherseite
- - Kafka Connect
- - Demo: Erstellen einer Beispiel-Kafka-Datenpipeline mit Produzent und Verbraucher
- - Wichtigste Erkenntnisse
- - Wissensüberprüfung
- - Praxisprojekt: Datenaufnahme in Big-Data-Systeme und ETL
Verteilte Verarbeitung MapReduce-Framework und Pig
- - Verteilte Verarbeitung MapReduce-Framework und Pig
- - Verteilte Verarbeitung in MapReduce
- - Beispiel für Wortzählung
- - Phasen der Map-Ausführung
- - Verteilte Map-Ausführung in einer Umgebung mit zwei Knoten
- - MapReduce-Jobs
- - Interaktion zwischen Hadoop-MapReduce-Jobs
- - Einrichten der Umgebung für die MapReduce-Entwicklung
- - Klassensatz
- - Erstellen eines neuen Projekts
- - MapReduce für Fortgeschrittene
- - Datentypen in Hadoop
- - Ausgabeformate in MapReduce
- - Verwendung des verteilten Caches
- - Verknüpfungen in MapReduce
- - Replizierte Verknüpfungen
- - Einführung in Pig
- - Komponenten von Pig
- - Pig-Datenmodell
- - Interaktive Modi von Pig
- - Pig-Operationen
- - Verschiedene von Entwicklern durchgeführte Beziehungen
- - Demo: Analyse von Webprotokolldaten mit MapReduce
- - Demo: Analyse von Verkaufsdaten und Lösung von KPIs mit Pig Praxisprojekt: Apache Pig
- - Demo: Wortzählung
- - Wichtige Erkenntnisse
- - Wissensüberprüfung
- - Praxisprojekt: Verteilte Verarbeitung - MapReduce-Framework und Pig
Apache Hive
- - Apache Hive
- - Hive SQL über Hadoop MapReduce
- - Hive-Architektur
- - Schnittstellen zum Ausführen von Hive-Abfragen
- - Ausführen von Beeline über die Befehlszeile
- - Hive-Metastore
- - Hive DDL und DML
- - Erstellen einer neuen Tabelle
- - Datentypen Validierung von Daten
- - Dateiformattypen
- - Datenserialisierung
- - Hive-Tabelle und Avro-Schema
- - Hive-Optimierung Partitionierung, Bucketing und Sampling
- - Nicht partitionierte Tabelle
- - Einfügen von Daten
- - Dynamische Partitionierung in Hive
- - Bucketing
- - Was machen Buckets?
- - Hive Analytics UDF und UDAF
- - Weitere Funktionen von Hive
- - Demo: Echtzeitanalyse und Datenfilterung
- - Demo: Problem aus der Praxis
- - Demo: Datendarstellung und Import mit Hive
- - Wichtigste Erkenntnisse
- - Wissensüberprüfung
- - Übungsprojekt: Apache Hive
NoSQL-Datenbanken HBase
- - NoSQL-Datenbanken HBase
- - Einführung in NoSQL
- - Demo: Yarn-Optimierung
- - HBase-Übersicht
- - HBase-Architektur
- - Datenmodell
- - Verbindung zu HBase
- - Übungsprojekt: HBase Shell
- - Wichtigste Erkenntnisse
- - Wissensüberprüfung
- - Praxisprojekt: NoSQL-Datenbanken – HBase
Grundlagen der funktionalen Programmierung und Scala
- - Grundlagen der funktionalen Programmierung und Scala
- - Einführung in Scala
- - Demo: Installation von Scala
- - Funktionale Programmierung
- - Programmieren mit Scala
- - Demo: Grundlegende Literale und arithmetische Programmierung
- - Demo: Logische Operatoren
- - Typinferenz Klassen, Objekte und Funktionen in Scala
- - Demo: Typinferenzfunktionen Anonyme Funktionen und Klassen
- - Sammlungen
- - Arten von Sammlungen
- - Demo: Fünf Arten von Sammlungen
- - Demo: Operationen auf Listen Scala REPL
- - Demo: Funktionen von Scala REPL
- - Wichtigste Erkenntnisse
- - Wissensüberprüfung
- - Praxisprojekt: Apache Hive
Apache Spark – Big-Data-Framework der nächsten Generation
- - Apache Spark – Big-Data-Framework der nächsten Generation
- - Geschichte von Spark
- - Einschränkungen von Mapreduce in Hadoop
- - Einführung in Apache Spark
- - Komponenten von Spark
- - Anwendung der In-Memory-Verarbeitung
- - Hadoop-Ökosystem vs. Spark
- - Vorteile von Spark
- - Spark-Architektur
- - Spark-Cluster in der Praxis
- - Demo: Ausführen eines Scala-Programms in der Spark-Shell
- - Demo: Einrichten der Ausführungsumgebung in der IDE
- - Demo: Spark-Web-UI
- - Wichtigste Erkenntnisse
- - Wissensüberprüfung
- - Übungsprojekt: Apache Spark – Big-Data-Framework der nächsten Generation
Spark-Kernverarbeitung RDD
- - Einführung in Spark RDD
- - RDD in Spark
- - Erstellen von Spark RDD
- - Paar-RDD
- - RDD-Operationen
- - Demo: Detaillierte Untersuchung der Spark-Transformation anhand von Scala-Beispielen
- - Demo: Detaillierte Untersuchung von Spark-Aktionen anhand von Scala
- - Caching und Persistenz
- - Speicherebenen
- - Abstammung und DAG
- - Notwendigkeit von DAG
- - Debugging in Spark
- - Partitionierung in Spark
- - Scheduling in Spark
- - Shuffling in Spark
- - Sortieren, Mischen und Aggregieren von Daten mit gepaarten RDDs
- - Demo: Spark-Anwendung mit Zurückschreiben von Daten in HDFS und Spark UI
- - Demo: Ändern von Spark-Anwendungsparametern
- - Demo: Umgang mit verschiedenen Dateiformaten
- - Demo: Spark RDD mit realer Anwendung
- - Demo: Optimieren von Spark-Jobs
- - Wichtigste Erkenntnisse
- - Wissensüberprüfung
- - Übungsprojekt: Spark Core Processing RDD
Spark SQL-Verarbeitung von Datenrahmen
- - Spark SQL-Verarbeitung von Datenrahmen
- - Einführung in Spark SQL
- - Spark SQL-Architektur
- - Datenrahmen
- - Demo: Umgang mit verschiedenen Datenformaten
- - Demo: Implementierung verschiedener Datenrahmenoperationen
- - Demo: UDF und UDAF
- - Interoperabilität mit RDDs
- - Demo: Verarbeiten von Datenrahmen mit SQL-Abfragen
- - RDD vs. Datenrahmen vs. Datensatz
- - Übungsprojekt: Datenrahmen verarbeiten
- - Wichtigste Erkenntnisse
- - Wissensüberprüfung
- - Übungsprojekt: Spark SQL – Datenrahmen verarbeiten
Spark MLib Modellierung von Big Data mit Spark
- - Spark Mlib Modellierung von Big Data mit Spark
- - Rolle von Data Scientists und Datenanalysten in Big Data
- - Analytik in Spark
- - Maschinelles Lernen
- - Überwachtes Lernen
- - Demo: Klassifizierung linearer SVM
- - Demo: Lineare Regression mit Fallstudien aus der Praxis
- - Unüberwachtes Lernen
- - Demo: Unüberwachtes Clustering K-Means
- - Verstärkendes Lernen
- - Halbüberwachtes Lernen
- - Überblick über Mlib
- - Mlib-Pipelines
- - Wichtige Erkenntnisse
- - Wissensüberprüfung
- - Praxisprojekt: Spark Mlib – Modellierung von Big Data mit Spark
Stream-Verarbeitungsframeworks und Spark Streaming
- - Überblick über Streaming
- - Echtzeitverarbeitung von Big Data
- - Datenverarbeitungsarchitekturen
- - Demo: Echtzeitdatenverarbeitung mit Spark Streaming
- - Demo: Schreiben einer Spark Streaming-Anwendung
- - Einführung in DStreams
- - Transformationen in DStreams
- - Entwurfsmuster für die Verwendung von Foreachrdd
- - Statusoperationen
- - Windowing-Operationen
- - Join-Operationen Stream-Dataset-Join
- - Demo: Windowing von Echtzeitdaten aus Streaming-Quellen
- - Demo: Verarbeitung von Twitter-Streaming-Daten
- - Strukturiertes Spark Streaming
- - Anwendungsfall: Banktransaktionen
- - Architekturmodell für strukturiertes Streaming und seine Komponenten
- - Ausgabesinks
- - APIs für strukturiertes Streaming
- - Erstellen von Spalten in strukturiertem Streaming
- - Windowed-Operationen zur Ereigniszeit
- - Anwendungsfälle
- - Demo: Streaming-Pipeline
- - Praxisprojekt: Spark Streaming
- - Wichtige Erkenntnisse
- - Wissensüberprüfung
- - Praxisprojekt: Stream-Verarbeitungs-Frameworks und Spark Streaming
Spark GraphX
- - Spark GraphX
- - Einführung in Graphen
- - GraphX in Spark
- - GraphX-Operatoren
- - Join-Operatoren
- - GraphX-Parallel-System
- - Algorithmen in Spark
- - Pregel-API
- - Anwendungsfall von GraphX
- - Demo: GraphX-Vertex-Prädikat
- - Demo: Page-Rank-Algorithmus
- - Wichtige Erkenntnisse
- - Wissensüberprüfung
- - Praxisprojekt: Spark GraphX-Projektunterstützung
Es wurden noch keine FAQ hinterlegt. Falls Sie Fragen haben oder Unterstützung benötigen, kontaktieren Sie unseren Kundenservice. Wir helfen gerne weiter!
