adscode
adscode

Google Nasıl Çökmüyor?

İnternetin her alanında ayrı bir servisi bulunan Google, sunduğu kurumsal hizmetleri “sıfır hatayla” yönetebiliyor mu?

Google Nasıl Çökmüyor?
Bilim Teknoloji
Gmail’in en son ne zaman çöktüğünü hatırlıyor musunuz? Ya da Google arama motoruna girdiğiniz bir sorgunun sonuç vermediğini? İnternet devi Google, zengin ürün ve hizmet portföyünü neredeyse sıfır çökmeyle sunuyor. Ancak %100 sorunsuz çalışmak ile “neredeyse” sorunsuz çalışmak arasındaki fark, aynı zamanda Google’ın da kendi servislerine getirdiği ilginç yaklaşımın temelini oluşturuyor.
 
Google’ın sunduğu hizmetlerin sorunsuz biçimde çalışması büyük oranda Ben Treynor’a ve ekibine bağlı. Şirket içerisinde bir “site güvenilirlik takımı” (site reliability) kuran Treynor, aynı zamanda Google Mühendislik Bölümü Başkan Vekili olarak görev yapıyor. Bu yetenekli yöneticinin güvenilirlik alanında getirdiği yaklaşım ise bulut bazlı hizmet sunan tüm kurumlara örnek teşkil ediyor.
 
Gmail veya arama motoru gibi ücretsiz hizmetlerinin yanı sıra Google, kurumsal müşterilerine Google Apps adı altında pek çok profesyonel hizmet sunuyor. Bulut bazlı ofis yazılımlarından, depolama servislerine kadar geniş bir yelpazede ürünler içeren Google Apps’in ilk bakışta %100 çalışma zamanına (uptime) sahip olduğu sanılsa bile, böyle bir şeyi kimse iddia etmiyor.
 
Google bile %100 çalışma garantisi vermiyor!

Google için bağlayıcı olan kısım, her ürünü için sunduğu hizmet seviyesi sözleşmesinde (SLA) yer alan çalışma zamanlarından ibaret. Her bir Google ürünü için farklı bir sözleşme bulunuyor ve bunlarda aylık veya yıllık olarak çalışma zamanları bir yüzde oranıyla (%99 gibi) belirleniyor. Kalan fark ise Google’a kalan “hata payı” oluyor. Örneğin, %99,9 oranında çalışma zamanı veren bir ürün için aylık 43 dakikalık (toplam sürenin %0,01’i) veya yıllık yaklaşık 8 saatlik “downtime” tanıyor Google’a. Ben Treynor bu süreye “hata bütçesi” adını veriyor.
 
Bu süre belirlendikten sonra Google ürün yöneticilerinin tek yapması gereken SLA’de garanti edilen çalışma zamanını tutturmak. Google ürünlerinde oluşabilecek hataların bütçesi de aynı sözleşmelerle belirleniyor.
 
Google neyi farklı yapıyor?

NetworkWorld’e yaptığı açıklamada Ben Treynor, geleneksel bir site güvenilirlik modelinde site/servis güvenilirlik mühendisleri (site reliability engineer – SRE) ile ürün yöneticileri arasında doğal bir kopukluk olduğunu belirtiyor. Bunun sebebi ise gayet açık: Ürün yöneticileri sundukları ürüne sürekli olarak yeni servisler eklemek istiyor. Güvenilirlik mühendisleri için ise bu daha fazla potansiyel sorun demek oluyor. Bu yüzden çok fazla değişiklik istemiyorlar. Google’da uygulanan “hata bütçesi” modeli ise mühendisler ile ürün ekiplerinin önceliklerini birleştirerek bu kopukluğu ortadan kaldırıyor.
 
Bu yaklaşım çerçevesinde; eğer bir Google ürünü sözleşmede yazan çalışma zamanına uyuyorsa, ürün ekibi bu servise yeni özellikler eklemeye hak kazanıyor. Eğer sözleşmede yazan çalışma oranına uyulmadıysa, örneğin o ay/yıl içerisinde sözleşmede belirtilenden daha uzun süre çökme veya erişim problemi yaşandıysa, site güvenilirliği iyileştirilmeden önce yeni özellikler eklenmiyor.
 
Böylelikle sistem güvenilirlik mühendisleri istedikleri güvenilir sisteme sahip oluyor, uygun koşullar sağlandığında geliştiriciler yeni eklemeler yapabiliyor ve uygulama kullanıcıları da sıfıra yakın erişim sorunu yaşıyor. Ben Treynor %100 çalışma garantisi vermek yerine böylesi bir hata bütçesine sahip olmanın, geliştiriciler ile güvenilirlik mühendisleri arasında bir sinerji oluşturduğunu belirtiyor. 
 
Bu yaklaşım ne kadar başarılı?

CloudHarmony adlı takip şirketi, Google’ın hizmet olarak altyapı (IaaS) sunduğu bulut platformunun 2014 yılı içerisinde tüm satıcılar arasında en iyi çalışma zamanlarına sahip olduğunu söylüyor. Google’ın Amazon, Microsoft ve diğer satıcılara karşı gösterdiği performans yine NetworkWorld tarafından detaylandırılıyor. Elbette buna karşın servislerde çökme hiç yaşanmıyor değil. 
 
Ancak Google kendi çalışanlarına tanıdığı bu basit hata payı sayesinde servis güvenilirliğini mümkün olan en iyi oranda sağlıyor hem de sürekli olarak ürünlerine eklediği yeni özelliklerle rekabette öne çıkmayı başarıyor.
 

Emoji ile tepki ver!

Bu Haberi Paylaş :

Etiketler :

Benzer Haberler
    0 Yorum
  • Yorumu Gönder
  • Diğer Yorumlar (0)