0 oy
31 gösterim
RDD kavramı nedir? Hangi uygulamada kullanılıyor?
Veri Bilimi kategorisinde (3.8k puan) | 31 gösterim

1 cevap

0 oy

Resillient Distributed Dataset: esnek dağıtık veri kümesi

RDD sparkın temel olarak aldığı ve alt yapsında kullandığı immutable (oluşturulduktan sonra değiştirilemeyen) obje koleksiyonlarıdır(collection).

Spark elimizdeki herhangi bir array veya benzeri collection yapısını mantıksal paçalara ayrılıp her bir parça üzerinde istenilen kodun çalıştırılması için hafızada bir collection topluluğu oluşturur. Topluluğun her üyesi spark üzerinde farklı bilgisayarlarda da çalıştırılır/çalıştırılabilir. 

Yazılan kod birbirini takip eden elamanları üzerinde iş yapmayı gerektiriyorsa RDD olarak kullanılamaz. Örneğin bir yıl içindeki her ay için bir kümülatif maaş toplamı isterseniz RDD kullanıp paralel hale getiremezsiniz. Temel sebep dağıtılan parçaların farklı bilgisayarda olacakları ve hangi bilgisayarda hangi parçanın olduğunu bilmemenizden olacaktır. Onun yerine her bir kaydın belirli bir oranla çarpılarak maaş artırımı hesaplanması yapmak istersek, RDD kavramı uygun bir kavram olacaktır. Sebep bir kaydın diğer kayıtlarla hesaplama anlamında bağlılığı bulunmamaktadır.

Kısaca elimizdeki bir dizinin birçok alt diziye ayrılıp farklı bilgisaylar/işlemciler tarafından kullanılmasına olanak sağlayan bir yapıdır.

(3.8k puan)

İlgili sorular

+1 oy
1 cevap
12 Temmuz 2018 Veri Tabanı kategorisinde buzel (614 puan) sordu | 35 gösterim
0 oy
1 cevap
0 oy
1 cevap
25 Nisan 2017 Genel Kavramlar kategorisinde Semih (118 puan) sordu | 62 gösterim
0 oy
1 cevap
19 Şubat 2017 Genel Kavramlar kategorisinde kenan (3.8k puan) sordu | 417 gösterim
0 oy
1 cevap
26 Kasım 2016 Genel Kavramlar kategorisinde tolgacelik.art (1.8k puan) sordu | 55 gösterim
Birbirinden değerli Türkçe Blog yazarlarını takip edebilmek için ziyaret edebileceğiniz bir internet sitesi. yazarlar.hasscript.com