Hadoop konusunu ilk incelemeye başlarken diğer no-sql veritabanlarında olduğu gibi direk olarak bir veritabanı gibi düşünmüştüm. Ama öyle değilmiş. Tamamen içinde çeşitli componentleri barındıran bir oram olarak karşımıza çıktı. Temel olarak veriyi tutan bir dosya sistemi var (HDFS). Siz herhangi bir dosyayı bu sisteme kopyaladığınız zaman farklı makinelere dağıtıyor. Daha sonra üzerinde herhangi bir sorgu ya da çalışma yapacağınız zaman temel olarak map&reduce denilen bir yapı ile işlemi farklı makinelere dağıtıp sonra alınan bilgiyi tekrar toplayıp size sonuç vermeye yarıyor. Bu map&reduce bir kütüphane. Python, java, scala ile yazılabiliyor.
Aslında bir bakıma elinizdeki sunuculara işlemi bölerek daha hızlı ve yönetilebilir işlem yapmaya yarıyor. Bu HDFS içine farklı yapılarda dosyalar koyabiliyorsunuz.
Eğer ilişkisel bir veri tabanından geliyorsanız hive kullanabilirsiniz.
Eğer json bazlı veriniz varsa spark/pig kullanabilirsiniz.
Hemen hemen herşey için spark kullanabilirsiniz 🙂 Onlar ayrı detaylar
Temel kullanım amacı üzerinde güncelleme olmayan sadece sorgu atılabilecek (genellikle raporlar, arama algoritmaları) işlemler için kullanılıyor. Bizim durumumuzda raporlarımızı nasıl çalıştırırız diye düşünerek başladık.
Hadoop konusunu ilk incelemeye başlarken diğer no-sql veritabanlarında olduğu gibi direk olarak bir veritabanı gibi düşünmüştüm. Ama öyle değilmiş. Tamamen içinde çeşitli componentleri barındıran bir oram olarak karşımıza çıktı. Temel olarak veriyi tutan bir dosya sistemi var (HDFS). Siz herhangi bir dosyayı bu sisteme kopyaladığınız zaman farklı makinelere dağıtıyor. Daha sonra üzerinde herhangi bir sorgu ya da çalışma yapacağınız zaman temel olarak map&reduce denilen bir yapı ile işlemi farklı makinelere dağıtıp sonra alınan bilgiyi tekrar toplayıp size sonuç vermeye yarıyor. Bu map&reduce bir kütüphane. Python, java, scala ile yazılabiliyor.
Aslında bir bakıma elinizdeki sunuculara işlemi bölerek daha hızlı ve yönetilebilir işlem yapmaya yarıyor. Bu HDFS içine farklı yapılarda dosyalar koyabiliyorsunuz.
Eğer ilişkisel bir veri tabanından geliyorsanız hive kullanabilirsiniz.
Eğer json bazlı veriniz varsa spark/pig kullanabilirsiniz.
Hemen hemen herşey için spark kullanabilirsiniz 🙂 Onlar ayrı detaylar
Temel kullanım amacı üzerinde güncelleme olmayan sadece sorgu atılabilecek (genellikle raporlar, arama algoritmaları) işlemler için kullanılıyor. Bizim durumumuzda raporlarımızı nasıl çalıştırırız diye düşünerek başladık.