Apache Spark, büyük verilerle çalışmayı kolaylaştıran, verilerin çok hızlı işlenebilmesine olanak sağlayan, bir veri işleme motorudur. Apache Spark bir çok hazır kütüphaneye(SparkSQL, Spark Streaming, Mllib ve GraphX ) sahiptir ve bu kütüphanler Python, Java, Scala ve R gibi programlama dilleri ile uyumludur.
Apache Spark’ın büyük hacimli verileri işleyebilmek için, birçok makine öğrenmesi algoritmasını içeren MlLib kütüphanesi vardır. MlLib kütüphanesi Apache Spark’ın ölçeklenebilirlik(scalability), dil uyumluluğu ve veri işleme hızı gibi avantajlarını kullanmaktadır.
•Apache Spark Polygot’tur yani bir çok programlama dili ile çalışmaya izin verir. Java, Python, Scala vb. gibi bir çok dili destekler.
•Apache Spark mimari olarak dikey ve yatay büyümeye olanak sağlar.
•Apaache Spark’ın dahili kütüphanelerinden biri olan Spark Streaming sayesinde canlı ve sürekli üretilen veriler işlenebilir.
•Makine öğrenmesi işlemlerini gerçekleştirebilmek için yine dahili kütüphanelerinden biri olan MlLib kütüphanesi vardır.
Bu eğitim, en yeni Spark v2 özelliklerini kapsamaktadır.