2015年8月10日 星期一

Certified Spark Developer

Certified Spark Developer 是一張由 Databricks 提供的 Apache Spark 開發者的認證考試

關於 Certified Spark Developer 資料可以看這裡,另外這張認證是由 Oreilly 處理考試過程,詳細的考試資訊可以看 這裡

建議考前幾天要注意電腦設備和環境是否符合要求,要詳細閱讀這份文件

在這裡分享一下我的考前準備

Learning Spark 要熟讀

我把 Learning Spark 從頭到尾讀了三遍,最後在考試之前再快速複習重點一次。

不過在最後一個章節 Machine Learning with MLlib 我花較少的時間,畢竟這要有點相關知識,讀起來才比較順


Scala 與 Python 基礎語法

在考前我有把 Scala 與 Python 的基本語法搞清楚,基本上迴圈操作,類別宣告與函式定義都需要了解

另外最重要的就是集合物件的操作必須要熟悉

我本身最熟 Java,所以花在 Scala 與 Python 比較多時間


程式實作

在準備考試之前已經有寫過一些 Spark 的程式了,考前一樣有寫一些關於 RDD 與 Spark SQL 的程式

但我比較著重在 Learning Spark 的第三章與第四章的程式實作,基本上每一個 RDD 的 operation 我都有寫過至少一遍

原則上不是去背這些 RDD,是觀察這些 RDD 的結果會是什麼,例如:

rdd1.union(rdd2) 的結果資料會不會重覆,rdd1.intersection(rdd2) 的資料是否會重覆 等等的

比較複雜的是第四章,需要多花點時間去看這些 RDD 的結果會是怎樣。

另外 Java 有很多的 Interface,我也花了蠻多時間去背。