Apache Spark Application Performance Tuning

Dauer

Apache Spark Application Performance Tuning

ExperTeach GmbH
Logo von ExperTeach GmbH
Bewertung: starstarstarstarstar_border 8,1 Bildungsangebote von ExperTeach GmbH haben eine durchschnittliche Bewertung von 8,1 (aus 36 Bewertungen)

Tipp: Haben Sie Fragen? Für weitere Details einfach auf "Kostenlose Informationen" klicken.

Startdaten und Startorte

Es gibt keine bekannten Startdaten für dieses Produkt.

Beschreibung

Dieser Kurs vermittelt die wichtigsten Konzepte und Fachkenntnisse, die Entwickler benötigen, um die Leistung ihrer Apache Spark-Anwendungen zu verbessern. Während des Kurses lernen die Teilnehmer, wie sie häufige Ursachen für schlechte Performance in Spark-Anwendungen identifizieren, Techniken zu deren Vermeidung sowie Best Practices für die Überwachung von Spark-Anwendungen finden.

Der Kurs stellt die Architektur und Konzepte von Apache Spark und der zugrunde liegenden Datenplattform vor und baut dann auf diesem grundlegenden Verständnis auf, indem die Schüler lernen, wie der Spark-Anwendungscode optimiert wird.

Der Schwerpunkt des Kurses liegt auf Demonstrationen unter Anleitung des Kursl…

Gesamte Beschreibung lesen

Frequently asked questions

Es wurden noch keine FAQ hinterlegt. Falls Sie Fragen haben oder Unterstützung benötigen, kontaktieren Sie unseren Kundenservice. Wir helfen gerne weiter!

Noch nicht den perfekten Kurs gefunden? Verwandte Themen: Apache Spark, Apache Webserver, Data Mining, Hadoop und RabbitMQ.

Dieser Kurs vermittelt die wichtigsten Konzepte und Fachkenntnisse, die Entwickler benötigen, um die Leistung ihrer Apache Spark-Anwendungen zu verbessern. Während des Kurses lernen die Teilnehmer, wie sie häufige Ursachen für schlechte Performance in Spark-Anwendungen identifizieren, Techniken zu deren Vermeidung sowie Best Practices für die Überwachung von Spark-Anwendungen finden.

Der Kurs stellt die Architektur und Konzepte von Apache Spark und der zugrunde liegenden Datenplattform vor und baut dann auf diesem grundlegenden Verständnis auf, indem die Schüler lernen, wie der Spark-Anwendungscode optimiert wird.

Der Schwerpunkt des Kurses liegt auf Demonstrationen unter Anleitung des Kursleiters, die sowohl Leistungsprobleme als auch die entsprechenden Techniken veranschaulichen, gefolgt von praktischen Übungen, die den Teilnehmern die Möglichkeit geben, das Gelernte in einer interaktiven Notebook-Umgebung zu üben.

Der Kurs gilt für Spark 2.4, führt aber auch in das Spark 3.0 Adaptive Query Execution Framework ein.

Kursinhalt
  • Spark Architecture
  • Data Sources and Formats
  • Inferring Schemas
  • Dealing With Skewed Data
  • Catalyst and Tungsten Overview
  • Mitigating Spark Shuffles
  • Partitioned and Bucketed Tables
  • Improving Join Performance
  • Pyspark Overhead and UDFs
  • Caching Data for Reuse
  • Workload XM (WXM) Introduction
  • What's New in Spark 3.0?
Zielgruppe

Dieser Kurs richtet sich an Softwareentwickler, Ingenieure und Datenwissenschaftler, die Erfahrung mit der Entwicklung von Spark-Anwendungen haben und lernen möchten, wie sie die Leistung ihres Codes verbessern können. Dies ist keine Einführung in Spark.

Voraussetzungen

Spark-Beispiele und praktische Übungen werden in Python präsentiert und die Fähigkeit, in dieser Sprache zu programmieren, ist erforderlich. Grundlegende Vertrautheit mit der Linux-Befehlszeile wird vorausgesetzt. Grundlegende Kenntnisse von SQL sind hilfreich.

Kursziel

Wenn Sie diesen Kurs erfolgreich abgeschlossen haben, werden Sie in der Lage sein:

  • Die Architektur von Apache Spark, die Job-Ausführung und wie Techniken wie Lazy Execution und Pipelining die Laufzeitleistung verbessern können, zu verstehen,
  • Die Leistungsmerkmale von Kerndatenstrukturen wie RDD und DataFrames zu bewerten,
  • Dateiformate auszuwählen, die die beste Leistung für Ihre Anwendung bieten,
  • Leistungsprobleme zu identifizieren und zu lösen, die durch Datenschieflage verursacht werden,
  • Partitionierungs-, Bucketing- und Join-Optimierungen zur Verbesserung der SparkSQL-Leistung zu verwenden,
  • den Leistungs-Overhead von Python-basierten RDDs, DataFrames und benutzerdefinierten Funktionen zu verstehen,
  • Die Vorteile des Caching für eine bessere Anwendungsleistung zu nutzen,
  • zu verstehen, wie die Optimierer Catalyst und Tungsten arbeiten,
  • zu verstehen, wie Workload XM bei der Fehlerbehebung und proaktiven Überwachung der Leistung von Spark-Anwendungen helfen kann,
  • die neuen Funktionen in Spark 3.0 zu kennen und insbesondere, wie die Adaptive Query Execution Engine die Leistung verbessert.

Werden Sie über neue Bewertungen benachrichtigt

Es wurden noch keine Bewertungen geschrieben.

Schreiben Sie eine Bewertung

Haben Sie Erfahrung mit diesem Training? Schreiben Sie jetzt eine Bewertung und helfen Sie Anderen dabei die richtige Weiterbildung zu wählen. Als Dankeschön spenden wir € 1,00 an Stiftung Edukans.

Es wurden noch keine FAQ hinterlegt. Falls Sie Fragen haben oder Unterstützung benötigen, kontaktieren Sie unseren Kundenservice. Wir helfen gerne weiter!

Bitte füllen Sie das Formular so vollständig wie möglich aus

(optional)
(optional)
(optional)
(optional)
(optional)

Anmeldung für Newsletter

Damit Ihnen per E-Mail oder Telefon weitergeholfen werden kann, speichern wir Ihre Daten und teilen sie ggf. mit ExperTeach GmbH. Mehr Informationen dazu finden Sie in unseren Datenschutzbestimmungen.