فعالیت در حوزه داده های عظیم مستلزم بکارگیری مجموعه ای از فناوری های نوین است که به کمک آنها بتوان محیط لازم برای عملیات بر روی داده را فراهم کرد . بدون شک Hadoop یکی از بازیگران اصلی و مطرح در عرصه داده های عظیم است . Hadoop ، فریمورکی است که امکان پردازش توزیعی حجم عظیمی داده بین کلاستری از کامپیوترها را با استفاده از مدل های ساده برنامه نویسی فراهم می کند. طراحی Hadoop بگونه ای است که امکان بکارگیری آن بر روی محیط های تک سرویس دهنده تا هزاران سرویس دهنده وجود دارد ، سرویس دهندگانی که هر یک دارای توان پردازش و فضای ذخیره سازی محلی مختص به خود هستند .
شکل 1 ، تفاوت مدت زمان پردازش 200 گیگابایت بر روی محیط های تک گره ای و چند گره ای ( توزیع پردازش بین یکصد گره ) را نشان می دهد .
شکل 1 : تفاوت مدت زمان پردازش 200 گیگابایت بر روی محیط های تک گره ای و چند گره ای
اگر سازمان شما قصد ورود به دنیای جذاب داده های عظیم را دارد، نه تنها لازم است تصمیم بگیرید که آیا Hadoop پلت فرمی مناسب است ، بلکه می بایست در خصوص این که کدامیک از اجزاء Hadoop مناسب کار شما می باشند نیز تصمیم گیری شود . در این مطلب سعی خواهیم کرد در مرحله نخست به چرایی ابداع Hadoop اشاره ای داشته باشیم و در ادامه ضمن بیان تاریخچه ای مختصر با منابع اصلی Hadoop آشنا شویم.
چرا Hadoop ؟
- تجزیه و تحلیل داده ها به روش سنتی مستلزم انجام پردازش های پیچیده بر روی حجم اندکی از داده است که نمایندگی حجم بالائی از داده را بر عهده دارند.
- محاسباتی از این نوع به کارآیی یک پردازنده و یا اندازه حافظه اصلی کامپیوتر بستگی دارد.
- برای بهبود سرعت محاسباتی و یا پردازش حجم بیشتری داده ، به پردازنده های سریع تر و حافظه اصلی بیشتری نیاز است .
- موازی سازی ، پاسخی است به سرعت داده . استف
ادامه...
منابع مرتبط