آشنایی با اکو سیستم Hadoop: هدوپ یک فریمورک نرم افزاری کد باز است که از آن برای پردازش حجم بالائی از داده ها در یک مدل توزیعی (از طریق MapReduce) و در بین کلاستری از سخت افزارها بر روی یک فریمورک ذخیره سازی (HDFS) ، استفاده می گردد . همراه با Hadoop مجموعه ای از فناوری ها نظیر Hive و Pig ارایه شده است . Hadoop را می بایست به عنوان یک اکوسیستم در نظر گرفت که موجودات زنده متعددی در آن با یکدیگر زندگی و تعامل دارند . شکل 1 ، گروه های مختلف این اکو سیستم به همراه فناوری های موجود در هر گروه را نشان می دهد . توجه داشته باشید که این اکو سیستم همچنان پذیرای اعضای جدیدی است که با توجه به ماموریت تعریف شده در یکی از گروه ها قرار می گیرند. پردازش In-memory و Streaming دو نمونه متداول در این رابطه می باشند.
شکل 1 : اکو سیستم Hadoop
برای آشنایی بیشتر به مقاله
آشنایی اولیه با Hadoop مراجعه نمایید.
Hadoop و انبار داده : Hadoop یک فریمورک ذخیره سازی و پردازشی توزیع شده کد باز است . برای بسیاری از کارشناسان فعال در حوزه طراحی و پیاده سازی انبار داده این سوال مطرح شده است که تعامل Hadoop با انبار داده به چه صورت است و نحوه بکارگیری آن نسبت به سیستم های RDBMS دارای چه تفاوت هایی است. شکل 2 ، این تفاوت ها را در سه لایه ذخیره سازی ، متا دیتا و query نشان می دهد.
شکل 2 : انبار داده در سیستم های RDBMS و Hadoop
برای آشنایی بیشتر به مقاله
آشنایی اولیه با Hadoop مراجعه نمایید.
تفاوت پروژه انبار داده با سیستم های تراکنشی : پروژه ایجاد یک انبار داده با سایر پروژه های ایجاد سیستم های تراکنشی دارای تفاوت های اساسی است. در یک پروژه انبار داده ما با سه مرحله اساسی اکتساب داده ، ذخیره سازی داده و ارایه اطلاعات مواجه هستیم که می توان این تفاوت ها را در سه حوزه فوق مشاهده کرد .شکل 3 ، خلاصه ای از این تفاوت ها را نشان می دهد .
شکل 3: ویژگی های یک پروژه انبار داده