Data lake, data warehouse ve database verileri depolamak için kullanılmaktadır. Yani verileri depolayabilmek için birden fazla yöntem bulunmaktadır. İlk olarak bu üç kavramı ayrı ayrı olarak inceleyelim.
Data lake, yapılandırılmış veya yapılandırılmamış verilerin depolandığı bir yer ve aynı zamanda farklı kaynaklardan gelen çok çeşitli büyük hacimli verileri organize etmek için kullanılan bir yöntemdir.
Verilerle ilgili bir konu olduğunda ise en önemli şeylerden birisi güvenliktir. Eğer veri gölü güvenliğini daha iyi bir şekilde sağlamak istiyorsanız “Data Lake Güvenliğini Geliştirmenin 5 Yolu” isimli makalemize göz atabilirsiniz.
Data warehouse, dahili veya harici farketmeksizin çeşitli kaynaklardan toplanan verilerin amaca uygun bir şekilde optimize edilmesini sağlar. Veriler ilişkisel veri tabanında yapılandırılmış veya yapılandırılmamış da olabilir. Data warehouse işletmelerin verilerini entegre etmesine, analiz etmesine ve yönetmesine olanak tanımaktadır.
Database, organize edilmiş bir veri topluluğudur. Bu verilerin saklama şekillerine göre veri tabanları sınıflandırılmaktadır. İlk veri tabanlarına göre günümüzde çok daha gelişmiş ilişkisel veritabanları veya nesne yönelimli veri tabanları kullanılmaktadır. İlişkisel veri tabanlarında veriler tablolarda saklanmaktadır. Nesne yönelimli veri tabanlarında ise veriler nesne sınıflarında veya alt sınıflarda depolanmaktadır.
Data Lake, data warehouse ve database tek tek tanımlandığına göre aşağıda bu terimler arasındaki farklara göz atılabilir.
Database:
İlk olarak hayatımıza giren veri depolama yönteminin veri tabanı olduğunu söyleyebiliriz. Veri tabanları gerçek zamanlı yapılandırılmış verileri izlemek ve güncellemek için ayarlanmıştır ve yalnızca en güncel verilere sahiptir.
Data Warehouse:
Data warehouse, operasyonel sistemlerden karar sistemlerine veri akışını destekleyen bir modeldir. İşletmeler verilerinin birden fazla yerden geldiğini anlayarak ve hepsini analiz edebilmek için farklı bir yere ihtiyaç duyduklarını fark etmişlerdir.
Veri ambarları kurumların geçmişe dönük verilerini de saklayarak verilerin analiz edilebilmesi ve raporlama yapılabilmesine de imkan tanımaktadır. Database üzerinde en güncel veriler bulunurken data warehouse üzerinde geçmişe dönük verilerde depolanabilmektedir. Database ve data warehouse arasındaki en temel fark budur.
Örnek verilmesi gerekirse veri tabanı mevcut müşteri eğilimlerini analiz etmek amacıyla en son satın alınanların kaydını tutarken veri ambarı ise satın alınan tüm verilerin bir kaydını tutarak veri bilimcilerin ve analistlerin tüm bu verileri daha kolay bir şekilde analiz edebilmesi için imkan tanımaktadır.
Data Lake:
Data lake tüm verilerin depolanabilmesini sağlamaktadır. Gerekli olan, gerekli olma ihtimali olan veya hiç gerekli olmayacak verilerin bile saklanması data lake ile mümkündür. Aynı zamanda data warehouse web sitesi metinleri ve sosyal medya verilerini depolayamazken data lake web sitesi metinleri veya sosyal medya verilerini de depolayabilmektedir.
Database ve data warehouse yapılandırılmamış verileri işleyebilmelerine rağmen bunu en verimli olacak şekilde yapamamaktadırlar. Dışarıda çok fazla veri bulunuyorken tüm verileri bir veri tabanı veya bir veri ambarında bulundurmak maliyetli olabilmektedir. Veri gölü yapılandırılmamış verileri daha uygun maliyetli olarak depolamaya imkan tanıyarak 2000’li yıllarda oldukça popüler hale gelmeye başlamıştır.
Aynı zamanda veri tabanı ve ya veri ambarına girilen verilerin depolanmadan önce temizlenmesi ve hazırlanması gerekmektedir. Yapılandırılmamış veriler ve bu verilerin kullanıldığından emin olunmadığı durumlarda depolama işlemi uzun ve zorlu bir süreç olabilmektedir.
Bu nedenle data lake ön plana çıkmıştır. Data lake tam olarak yapılandırılmamış verileri mümkün olan en uygun maliyetle işlemek için tasarlanmıştır.
Data Lake, Data Warehouse ve Database Teknolojilerinden Hangisi Seçilmelidir?
Ne olursa olsun kurumların data lake, data warehouse veya database ihtiyacı bulunmaktadır. Seçim yaparken kurumlar verileri neden depolamak istediklerini belirlemelidir. Bu doğrultuda en doğru seçimi yapabilmeleri mümkündür olacaktır. Örneğin raporlama veya analiz ihtiyacı bulunmuyorsa ve günlük verilere ulaşılması gerekiyor ise database yeterli olabilirken detaylı analiz ve raporlama gereken durumlarda işletmeler data warehouse doğru seçim olabilir. Eğer kurum tüm verilerini saklamak istiyorsa ve diğer yöntemlere göre daha düşük bir maliyet ile karşılaşmak istiyorsa data lake en doğru seçim olacaktır. Bahsedildiği gibi önemli noktalardan birisi bütçedir. Kurumun bu ihtiyaç için ne kadar bütçe ayırabildiği doğrudan alacağı hizmet ile alakalıdır. Çünkü data warehouse maliyetlerinin yüksek olduğu bilinmektedir.
Data Lake, Data Warehouse ve Database Geleceği Nasıl Olacak?
Yapılandırılmamış verilerin değeri ve miktarı arttıkça veri gölünün giderek daha değerli bir hale geleceği düşünülmektedir. Ama bu durum veri tabanı ve ya veri ambarının değerini kaybedeceği anlamına gelmemektedir. Veri ambarları ve ya veri tabanları her zaman önemli bir yere sahip olacaktır. Muhtemelen yapılandırılmamış veriler veri tabanında veya veri ambarında tutulmaya devam edilecektir. Ancak günümüzde birçok kurum verilerini depolamanın daha uygun maliyetli ve taşımanın daha kolay olması nedeniyle bulutta bulunan veri göllerine taşımaktadır. Gelecekte bu teknolojilerle daha gelişmiş bir şekilde karşımıza çıkacağı tahmin edilmektedir.
Doğuş Elektronik olarak “Uzmanlık fark yaratır” yaklaşımımız ile konularında uzman, sertifikalı ve tecrübeli personellerimiz ile birlikte sunmuş olduğumuz veri merkezi çözümlerini incelemek için tıklayın: https://dogus.com.tr/veri-merkezi-cozumleri/