Microsoft Azure, değişik hacim ve yapıdaki her türlü veriyle ilgili ihtiyaçları karşılamak için birçok veri platformu teknolojisi sunmaktadır.

Veri mühendisleri, farklı sektörlerdeki farklı senaryolarla karşı karşıya kalır ve verileri kullanarak değer sağlamak için karmaşık veri sorunlarını çözmeye çalışmaktadır. Veri yapılarını ve çeşitli veri platformu teknolojilerinin yeteneklerini anlamak, bir veri mühendisinin iş için doğru aracı seçmesine yardımcı olacaktır.

Veri Yapıları

Yapılandırılmış veriler: Önceden tanımlanmış bir şemaya uygun olarak tutulan verilerdir. Bu veriler, satırlar ve sütunlar içeren bir veritabanı tablosunda saklanabilir. Verilerin şeması veri tablosunu, tablodaki alanları ve ikisi arasındaki açık ilişkiyi tanımladığından, yapılandırılmış veriler ilişkisel veriler olarak da adlandırılır.

Yarı yapılandırılmış veriler: İlişkisel veritabanları veya diğer veri tablo formlarıyla ilişkili veri modellerinin resmi yapısına uymayan bir veri şeklidir.

Yapılandırılmamış veriler: Belirli bir yapıya sahip olmayan verilerdir. Bu aynı zamanda tutabileceği veri türlerinde herhangi bir kısıtlama olmadığı anlamına gelir. Örneğin, bir PDF belgesi, bir JPG görüntüsü, bir JSON dosyası, video içeriği, vb.

Depolama Çözümleri

Azure veri depolama seçenekleri (Azure Storage) bulut tabanlı, güvenli ve ölçeklenebilir olduğundan güvenilir ve dayanıklı bir depolama çözümü sağlamaktadır. Azure Blobları, Azure Data Lake Storage Gen2, Azure Dosyaları (Files), Azure Kuyrukları (Queues) ve Azure Tabloları hizmetlerini kapsar.

No alt text provided for this image

Önemli faydalarından bazıları şunlardır:

  • Otomatik yedekleme ve veri kurtarma
  • Dünya üzerinde farklı konumlarda replikasyon
  • Veri analizi desteği
  • Şifreleme
  • Çoklu veri tipi desteği
  • Sanal disklerde veri depolama
  • Depolama katmanları

Azure Blobları, Microsoft’un bulut için nesne depolama çözümüdür. Görüntüleri veya belgeleri doğrudan bir tarayıcıya sunma, dağıtılmış erişim için dosyaları saklama, video ve ses akışı, günlük dosyalarına yazma, verileri yedekleme ve geri yükleme, olağanüstü durum kurtarma ve arşivleme için depolama, şirket içi veya Azure tarafından barındırılan bir hizmet tarafından analiz için veri depolama gibi amaçlara hizmet eder.

Azure Data Lake Storage Gen2, Azure’da yerleşik büyük veri analizi için kapsamlı, ölçeklenebilir ve uygun maliyetli bir veri depolama çözümüdür.Azure Blob temelli olan bu hizmet, mevcut Blob hizmeti ve sunduklarına ek olarak, büyük veri analizi için de destek sağlamaktadır.

Azure Data Lake Storage Gen2, aşağıdaki Azure servisleri ile birlikte kullanılabilir:

Azure Data Factory, Azure Databricks, Azure Event Hubs, Azure Logic Apps, Azure Machine Learning, Azure Cognitive Search, Azure Stream Analytics, Data Box, HDInsight, IoT Hub, Power BI, SQL Data Warehouse, SQL Server Integration Services (SSIS)

Aşağıdaki örnekler gibi büyük veri mimarilerinin oluşturulmasında önemli rol oynamaktadır:

  • Modern veri ambarı
  • Büyük veriler üzerinde gelişmiş analiz
  • Gerçek zamanlı analiz çözümü

Örneğin Gerçek Zamanlı Analiz (real-time analytics) mimarisinde Azure Data Lake Storage Gen2’nin rolü aşağıdaki şekildeki gibidir:

No alt text provided for this image

Azure Dosyalar (Files), bulutta tam olarak yönetilen platformlar arası (cross-platform) dosya paylaşımı sağlar. Buluttan ya da şirket içi Windows, Linux ve macOS ortamlarından eş zamanlı olarak erişilebilir. Ayrıca, Azure dosya paylaşımları, verilerin kullanıldığı yere yakın hızlı erişim için Azure File Sync özellikli Windows Sunucularında önbelleğe alınabilir. Endüstri standardı SMB protokolünü destekler, yani şirket uyumluluğu dosya paylaşımlarınızı Azure dosya paylaşımlarıyla sorunsuz bir şekilde uygulama uyumluluğu konusunda endişelenmeden değiştirebilirsiniz. Donanımı veya işletim sistemini yönetmeye gerek kalmadan oluşturulabilir. Bu, sunucu işletim sistemi üzerinde güncelleme / yama yapma veya hatalı sabit diskleri değiştirmekle uğraşmanız gerekmediği anlamına gelir.

Azure Kuyrukları (Queues), çok sayıda iletiyi depolamak için kullanılan bir hizmettir. HTTP veya HTTPS kullanarak kimliği doğrulanmış aramalarla dünyanın herhangi bir yerinden mesajlara erişirsiniz. Bir kuyruk iletisinin boyutu en fazla 64 KB olabilir. Bir kuyruk, bir depolama hesabının toplam kapasite sınırına kadar milyonlarca mesaj içerebilir. Kuyruklar genellikle eşzamansız olarak işlenmek üzere bir iş listesi oluşturmak için kullanılır.

No alt text provided for this image

Azure Tablo depolama, yapılandırılmış NoSQL verilerini bulutta depolayan ve şematik tasarıma sahip bir anahtar / özellik deposu sağlayan bir hizmettir. Tablo depolaması şematik olduğundan, uygulamanızın ihtiyaçları geliştikçe verilerinizi uyarlamak kolaydır. Tablo depolama verilerine erişim, birçok uygulama türü için hızlı ve düşük maliyetlidir ve benzer hacimlerdeki veriler için geleneksel SQL’den genellikle daha düşük maliyetlidir.

No alt text provided for this image

Tablo depolamayı, web uygulamaları, adres defterleri, aygıt bilgileri veya hizmetinizin gerektirdiği diğer meta veri türleri için kullanıcı verileri gibi esnek veri kümelerini depolamak için kullanabilirsiniz. Herhangi bir sayıda varlığı bir tabloda saklayabilirsiniz ve depolama hesabı, depolama hesabının kapasite sınırına kadar herhangi bir sayıda tablo içerebilir.

Bazı kullanım örnekleri şöyledir: Web uygulamalarında kullanılacak terabaytlarca veriyi depolama, Karmaşık ilişkiler içermeyen ve hızlı erişim için denormalize edilebilecek veri setlerini depolama, Kümelenmiş dizin (clustered index) kullanarak veriyi hızlı bir şekilde sorgulama.