Windows Azure ve Hadoop ile Büyük Veri Analizi - 2

Bu yazı dizisinin ilk bölümüne konu bütünlüğü için https://blog.microsoft.com.tr/windows-azure-ve-hadoop-ile-buyuk-veri-analizi-1.html adresinden ulaşabilirsiniz.

HDInsight işlemci kümesi yaratmak

Hadoop kurulumu için ihtiyacımız olacak temel kaynak “Storage” hizmetidir. Verilerin saklanacağı bu alan için Azure yönetim sayfasından, Storage hizmet sayfasına (Resim 2.1) geçip, “New” (Resim 2.2) seçiminde bulunarak yeni bir veri saklama hizmeti oluşturulmalı.

image

Resim 2: Windows Azure ana sayfa.

Yeni “Storage” hizmeti oluşturmak için açılan sihirbaz yardımı ile “Storage” hizmetine bir isim vermeniz gerekir (Resim 3.1). İsim tanımı yapıldıktan sonra “Create Storage Account” diyerek Hadoop için gerekli veri saklama alanını oluşturabilirsiniz. Bu hizmet sistem yoğunluğuna göre saniyeler içerisinde oluşturulacak ve sonrasında Hadoop kurulumu için temel gereksinim tamamlanmış olacak.

image

Resim 3: Azure Storage oluşturma sihirbazı.

HDInsight servis kullanım talebinizin kabulü ve servis kullanım portalinin aktivasyonu sonrası Windows Azure portalinden “HDInsight” (Resim 4.1) sekmesine tıklayınız. Açılacak sayfada “Create an HDInsight Cluster” (Resim 4.2) düğmesine tıklayınız. Bu sayfadan aynı zamanda varsa mevcut HDInsight kümelerinizin detaylarını da görüntüleyebilirsiniz.

image

Resim 4: HDInsight hizmet görüntüleme sayfası.

HDInsight kümesi yaratma seçimi yapıldıktan sonra çıkacak sihirbaz yardımı ile kurulacak işlemci kümesinin özelliklerini ayarlayabilirsiniz. Sihirbaz aracılığı ile HDInsight kümesine bir isim (Resim 5.1), bu küme içerisinde yer alacak düğüm sayısı (Resim 5.2) ve yaratılacak kümenin yönetim portaline erişim için şifre (Resim 5.3) ile hangi “Storage” hizmeti üzerine kurulacağını (Resim 5.4) belirtmeniz gerekir. Bu hizmet için Resim 3.1’de tanımladığınız “Storage” ismini listeden seçiniz.

Düğüm sayısını arttırarak daha fazla işlemci gücü elde edebilirsiniz fakat Azure hizmetini ücretli olarak kullanıyorsanız bu sayının arttırılması maliyeti de arttıracaktır. Ücretsiz deneme hizmeti kullanıyorsanız, bu sayının arttırılması sizin için ayrılmış aylık X dolarlık yada X saatlik hizmet kredisinin daha hızlı tükenmesine neden olacaktır. Test amaçlı kullanımlarda düğüm sayısını en az oranda tutulması kredinin daha geç tükenmesini sağlayacaktır.

image

Resim 5: HDInsight hizmet kümesinin kurulumu.

Oluşturulacak HDInsight servisinin yönetim paneline erişim için kullanılacak yönetici ismi “admin”, şifresi ise Resim 5.3’teki alanda tanımlayacağınız şifre olacaktır. Yönetim paneline erişim için gerekli URL adresini kurulum tamamlandıktan sonra Resim 4’te belirtilen sayfadan görebileceksiniz.

Yukarıda belirtilen özelliklerin tanımından sonra “Create HDInsight Cluster” bağlantısına tıklayarak kurulum işlemini başlatabilirsiniz. Kurulum tamamlandıktan sonra Resim 6’da belirtilen “Status” kolonunda “Running” ifadesi yer almalı. Resim 6.1 ile gösterilen bağlantıyı takip ederek Hadoop işlemci kümesindeki ana bilgisayara uzak bilgisayar bağlantısı ile bağlanabilir, işlem güncesini inceleyebilir, direkt komut satırından işlemlerinizi başlatabilirsiniz. Bu tarz işlemleri direkt ana bilgisayar üzerinden yapmak yerine, Internet’e bağlı herhangi bir bilgisayardaki Web gezgini üzerinden sihirbaz aracılığı ile yapmak isterseniz Resim 6.2 ile gösterilen bağlantıyı takip etmeniz gerekmektedir. Bu bağlantı ile açacağınız web sitesinde Hadoop işlemci kümesini kontrol edebilir, küme içerisinde yer alan makinelerin performans vs. analizlerini grafiksel olarak takip edebilirsiniz.

image

Resim 6: Windows Azure HDInsight ana sayfası.

Hadoop işlemci kümesine web arayüzü ile erişim için Resim 6.2 deki bağlantıyı takip ederek yönetim paneline giriş yapabilirsiniz. Bunun için Resim 7’de görüntülenen kullanıcı giriş ekranındaki ilgili alanlara Resim 5.3’de belirttiğiniz kullanıcı adı ve şifreyi giriniz. Resim 5’deki gibi sihirbazı kullanarak Hadoop kümesi yarattıysanız kullanıcı adınız “admin” olarak belirlenir.

image

Resim 7: Yönetim Paneli

Yönetim paneli (Resim 8) üzerinden sistemdeki düğümler ile “remote desktop” bağlantısı kurabilir, düğümlerdeki iş durumlarını görüntüleyebilir Örnek kod – projeleri mevcut küme üzerinde çalıştırabilirsiniz.

image

Resim 8: Yönetim Paneli

Bir sonraki yazı dizimizde Hadoop üzerinde büyük ölçekli bir metin bilgisi içerisindeki kelimelerin kullanım sıklık oranlarının nasıl çıkarılacağı üzerinde bir örnek yapacağız.