L’examen de certification « Certified Associate Developer for Apache Spark 3.0 » évalue la compréhension du candidat sur deux choses:
L'architecture Spark de base
- Fonctionnement interne de Spark: Driver, Executor, Cores, jobs, Stages, Tasks, Partitions, Shuffling, Wide& Narrow Transformations.
- Modes d'execution/deployment
- Tolerance aux panes
- Garbage collector
- Broadcasting
L'API DataFrame
- sélection, rennomage, manipulation des colonnes
- Filtre, Suppression, Tri, agrégation des lignes
- Jointure, Lecture, Écriture et partitionnement des DataFrames
- Savoir utiliser les UDF et les fonctions Spark SQL
Le détail de l'examen
- 60 Questions à choix multiples pour 120 minutes chrono
- La note de passage minimale pour l'examen est de 70 % (42/60)
- Un résultat temporaire est communiqué au candidat dés la fin de l'examen
Mon REX sur l'examen
L’examen ne demande pas une connaissance avancer en Spark. La partie architecture est un petit peu difficile mais compensatoire avec la partie API DataFrame en terme de niveau de difficulté.
Pas des questions pièges mais il faut être bien concentré au risque de se perdre entre certaines sous questions. Par exemple les fonctions Spark SQL prennent une colonne en entré et non un String: explode(col(« maCol »)) et non explode(« maCol »).
Une réapparition d’aux moins 20% des questions de l’examen de test proposé sur le site officiel de Databricks (section: Exemples d’examens)
Si vous êtes capable de lire des données depuis une source (csv, parquet, etc), y effectuer des transformations et écrire le DataFrame final dans un fichier csv, parquet, etc alors vous avez toute vos chance de réussir à l’examen.
Les 120 minutes chrono sont largement suffisantes pour faire toutes les questions.
Vous êtes surveillé via la webcam probablement par une IA. L’examen est interrompu à chaque fois que vos yeux ne sont pas détectés.
Préparation
Formation (payante) sur Databricks Academy:
Si vous avez de l’expérience sur Spark ces deux formations suffisent.
Dans le cas échéant, vous pouvez vous entrainer avec les éléments suivants:
Site officiel de Spark:
La documentation est très bien faite. C’est un très bon point de démarrage sur Spark pour les débutants mais également pour apprendre les concepts avancer de spark (Optimisation d’exécution, fonctionnement interne de spark, etc)
https://databricks.com/blog vous y trouverez des cas pratiques et REX très interessants sur Spark et l’industrialisation des projets big data.
Livres:
Apprendre Spark avec REX Data
Je suis convaincu que le partage est l’un des meilleurs moyens d’approfondir ses connaissances. C’est pourquoi j’ai décidé de créer une série des formations gratuites sur Spark pour y partager mon expérience. Nous allons y voir les éléments suivants:
- Introduction à Spark
- Installation de Spark et l’affichage du fameux Hello World
- Gestion des dépendances avec maven et sbt
- Lancement d’un Job Spark avec Spark submit
- Manipulation des RDD (Spark 1) et DataFrame
- Architecture de Spark
- Optimisation d’une application Spark
- Etude d’une problématique à travers un projet Big data
Exemples d'examens
Les QCMs des examens sont similaires, avant de le passer je vous recommande d’essayer un exemplaire.
- Examen de test Databricks Scala
- Examen de test Databricks en python
- Notebook Databricks avec un extrait d’examen de test
Vous avez toutes les cartes en main pour mieux préparer et passer l’examen de certification.