Resillient Distributed Dataset: esnek dağıtık veri kümesi
RDD sparkın temel olarak aldığı ve alt yapsında kullandığı immutable (oluşturulduktan sonra değiştirilemeyen) obje koleksiyonlarıdır(collection).
Spark elimizdeki herhangi bir array veya benzeri collection yapısını mantıksal paçalara ayrılıp her bir parça üzerinde istenilen kodun çalıştırılması için hafızada bir collection topluluğu oluşturur. Topluluğun her üyesi spark üzerinde farklı bilgisayarlarda da çalıştırılır/çalıştırılabilir.
Yazılan kod birbirini takip eden elamanları üzerinde iş yapmayı gerektiriyorsa RDD olarak kullanılamaz. Örneğin bir yıl içindeki her ay için bir kümülatif maaş toplamı isterseniz RDD kullanıp paralel hale getiremezsiniz. Temel sebep dağıtılan parçaların farklı bilgisayarda olacakları ve hangi bilgisayarda hangi parçanın olduğunu bilmemenizden olacaktır. Onun yerine her bir kaydın belirli bir oranla çarpılarak maaş artırımı hesaplanması yapmak istersek, RDD kavramı uygun bir kavram olacaktır. Sebep bir kaydın diğer kayıtlarla hesaplama anlamında bağlılığı bulunmamaktadır.
Kısaca elimizdeki bir dizinin birçok alt diziye ayrılıp farklı bilgisaylar/işlemciler tarafından kullanılmasına olanak sağlayan bir yapıdır.
Resillient Distributed Dataset: esnek dağıtık veri kümesi
RDD sparkın temel olarak aldığı ve alt yapsında kullandığı immutable (oluşturulduktan sonra değiştirilemeyen) obje koleksiyonlarıdır(collection).
Spark elimizdeki herhangi bir array veya benzeri collection yapısını mantıksal paçalara ayrılıp her bir parça üzerinde istenilen kodun çalıştırılması için hafızada bir collection topluluğu oluşturur. Topluluğun her üyesi spark üzerinde farklı bilgisayarlarda da çalıştırılır/çalıştırılabilir.
Yazılan kod birbirini takip eden elamanları üzerinde iş yapmayı gerektiriyorsa RDD olarak kullanılamaz. Örneğin bir yıl içindeki her ay için bir kümülatif maaş toplamı isterseniz RDD kullanıp paralel hale getiremezsiniz. Temel sebep dağıtılan parçaların farklı bilgisayarda olacakları ve hangi bilgisayarda hangi parçanın olduğunu bilmemenizden olacaktır. Onun yerine her bir kaydın belirli bir oranla çarpılarak maaş artırımı hesaplanması yapmak istersek, RDD kavramı uygun bir kavram olacaktır. Sebep bir kaydın diğer kayıtlarla hesaplama anlamında bağlılığı bulunmamaktadır.
Kısaca elimizdeki bir dizinin birçok alt diziye ayrılıp farklı bilgisaylar/işlemciler tarafından kullanılmasına olanak sağlayan bir yapıdır.