Teknolojilerin kesiştiği nokta!

Facebook’tan büyük veriler için açık kaynak kodlu Presto Dağıtık SQL Sorgulama Motoru

Facebook yakın zamanda büyük verilerin çözümlemesi için kullanılacak dağıtık SQL sorgulama moturu yapısını açık kaynak kodlu hale getirerek var olan Hadoop MapReduce ve Hive gibi çözümlere rakip oldu.

Sistemin getirileri Facebook’tan Martin Traverso tarafından gönderilen bir iletide  hızlı sorgulama sonuçları ve etkileşim olarak belirtildi. Yaklaşık bir yıl önce Traverso, bir ekibin 300 petabyte boyutu ile dünyanın ek büyüğü olan Facebook’un veri ambarı üzerindeki çözümle araçlarını geliştirmedeki sorunların çözümü için görevlendirildiğini söylemişti. Tüm bu veriler Hadoop dağıtık dosya sistemini (Hadoop Distributed File System – HDFS) kullanan Hadoop kümelerinde (clusters) tutulmakta fakat var olan büyük veri sorgulama motorları yeterli başarımı sunamamaktaydı.

Traverso, “Hadoop MapReduce ve Hive büyük boyut, tutarlı hesaplamalar ve gelen sistem verimliliğini sağlamak için iyileştirilmişti. Fakat veri ambarımız petabyte boyutuna ulaşınca ihtiyaçlarımız evrildi. Sorgulama hızı yüksek, etkileşimli bir sisteme ihtiyacımız olduğu açıkça ortaya çıktı” diyor.

Traverso’ya göre Presto, çoğu sorguda Hive ve MapReduce’a göre on kata kadar daha iyi işlemci verimi ve hız sunuyor. Başarım artışının temelinde MapReduce sisteminin yapmaktan kaçındığı peş peşe işlem yapma görevlerini hafıza içi (in-memory) işleme ile yapmak yatıyor.

Presto mimarisi Traverso’nun iletisinde şu şekilde görselleştirilmiş:

Presto ayrıca ANSI SQL standardının büyük bir bölümünü destekliyor ve bir çok farklı veri kaynağına erişebiliyor. Presto’nun sitesinde “Tek bir Presto sorgusu farklı kaynaklardan gelen verileri birleştirebilir ve şirketinizin tümü için bir çözümleme yapmanıza olanak tanır” deniyor. Sözü edilen bu farklı kaynakların içinde geleneksel ilişkisel veritabanı sistemleri, Apache Hive ve Apache HBase gibi Hadoop bağlantılı depolama alanları, Facebook tarafından geliştirilen Scribe veri toplama sunucusu ve Facebook Haber Kaynağı gibi Facebook’a ait olan sistemler bulunuyor.

Facebook’a göre Presto her gün bir petabyte’dan fazla veriyi birleştiren 300 bin sorguyu çalıştıran binden fazla çalışan tarafından kullanılıyor. Ayrıca şu anda – en azından deneme aşamasında – Airbnb ve Dropbox firmaları tarafından kullanılmakta.

Traverso ayrıca sistemin en büyük kısıtının birleştirilmiş tabloların boyutu, alınan verinin tablolara yazılamaması ve benzersiz anahtar ya da öbeklerin (unique keys/groups) çok önemli olması, olduğuna dikkat çekiyor. Facebook’un bu kısıtlamaları çözmeye uğraştığı ve sorguları hızlandırmak için iyileştirilmiş yeni bir veri biçimi geliştirmek için çalıştığı; ayrıca gelecekte sunulacak olan bir diğer özelliğin ise yüksek başarımlı bir HBase bağdaştırıcısı olacağı ise Traverso’nun belirttiği diğer hususlar.

Java ile geliştirilen Presto GitHub  üzerine kullanıma açılmış durumda. Sadece Linux ve MacOS üzerine çalışabiliyor ve çalıştırma için 64-bit Java 7, Maven 3 ve Pyton 2.4+’u zorunlu tutuyor.

Kaynak: http://adtmag.com/

Links

Adres

Maslak Mahallesi, Maslak Meydan Sk. No:5. Spring Giz Plaza. Maslak/İstanbul

+90 212 282 7700

info@bilginc.com