جزئیات  
عنوان فناوری اطلاعات در قاب تصویر (5)
نوع منبع اینفو پیک
گروه داده های عظیم
تاریخ انتشار 1394/6/27
خلاصه در این قاب بر روی داده های عظیم متمرکز خواهیم شد . در آغاز به روند رشد داده اشاره خواهیم داشت و به دنبال آن با منشاء سیلاب داده آشنا خواهیم شد . در ادامه ، با بررسی مهمترین ویژگی داده های عظیم با چرخه نحوه بکارگیری داده های عظیم آشنا خواهیم شد . تولید ارزش از زنجیره داده های عظیم یکی از الزامات اساسی هر بنگاه کسب و کار در هزاره سوم است .

یکی از موضوعات جذابی که این روزها به دفعات مطالبی در رابطه با آن را  از گوشه و  کنار می شنویم  و  یا می خوانیم ، حجم داده تولیدی در جهان و  تولد یک واژگان جدید با نام  Big Data و یا داده های عظیم در حوزه  ادبیات فناوری اطلاعات و کسب و کار است  .هم اینک ، روند رشد داده کاملا صعودی و به شکل نمایی است و به باور بسیاری از کارشناسان حوزه داده و کسب و کار می بایست در انتظار تحولات بسیار گسترده تر و مهمی در این عرصه و در آینده ای نه چندان دور باشیم چراکه  ما  همچنان در ابتدای این مسیر  و شیوه صحیح مدیریت آن قرار گرفته ایم  . مسیری که  در گذشته به دلیل فقدان وجود زیرساخت های لازم خصوصا در بعد ذخیره سازی و پردازش دست نیافتنی بود .شکل 1، روند رشد تولید داده  را نشان می دهد .

  روند رشد داده       
شکل 1 : روند رشد داده
سیلاب داده    
شاید این سوال مطرح شود که منشاء این سیلاب داده چیست و از کجا سرچشمه می گیرد  و چه عامل و یا عواملی بر روی آن تاثیرگذار می باشند؟ در پاسخ به سوال فوق می توان به چهار گروه مختلف به عنوان منبع اصلی تولید داده در جهان اشاره کرد :
  • تراکنش ها : تاکنون و بطور سنتی ما صرفا درگیر داده های تراکنشی بوده ایم  که توسط سیستم های عملیاتی تولید می گردید و هر روز متناسب با میزان تراکنش ها حجم داده تولیدی نیز افزایش می یافت . خوشبختانه سیستم های مدیریت بانک های اطلاعاتی رابطه ای نیز توانسته بود به خوبی پاسخگوی ذخیره سازی این نوع داده ها باشد .
  • رسانه های اجتماعی : یکی از رویدادهای مهم  سالیان اخیر  ، ظهور شبکه های اجتماعی نظیر فیسبوک ، توییتر و وبلاگ ها  است که  در مدت زمان کوتاهی توانستند به یکی از منابع مهم تولید داده تبدیل گردند. این نوع داده را نمی توان با روش های گذشته و  به کمک سیستم های بانک های اطلاعاتی رابطه ای مدیریت کرد و می بایست از شیوه های دیگری جهت ذخیره سازی و پردازش آنها استفاده کرد .
  • داده غیرساختیافته : روزانه حجم بسیار بالایی داده غیرساختیافته نظیر متن ، تصویر و یا ویدیو تولید می شود که ما علاقه مند به تحلیل و یافتن پاسخ به سوالات مورد علاقه می باشیم . مثلا  می خواهیم بدانیم چه فرد و یا افرادی در یک ویدیو  وجود دارند . به عبارت دیگر بتوانیم بر روی یک فایل ویدیویی ، Query اجراء کنیم . سیستم های گذشته قادر به حمایت از این نوع منابع داده نمی باشند .
  • دستگاه های اندازه گیری ،یکی از منابع جذاب و جدید منبع تولید داده می باشند . حسگرها قادر به تولید حجم بسیار بالایی از داده می باشند که لازم است هم آنها را ذخیره کرد و هم متناسب با نیاز آنها را پردازش کرد . پیش بینی شده است این گروه که از آنها به نام اینترنت اشیاء نیز نام برده می شود ، بیشترین تاثیر را بر روی روند رشد حجم داده داشته باشند  .
شکل 2، منابع تولید کننده داده های عظیم  را نشان می دهد .
  منابع داده های عظیم         
شکل 1 : منابع داده های عظیم 
وِیژگی داده های عظیم 
داده های عظیم دارای چهار ویژگی برجسته می باشند که چون همگی با حرف Vشروع می شوند به آنها  4V نیز گفته می شود  . بد نیست به این موضوع نیز اشاره داشته باشیم که  ممکن است برخی کارشناسان یک V  را کم کنند  و یا یک V جدید را به آن مجموعه  اضافه کنند .مهم نیست که  دارای چند V باشیم  ، مهم تشریح ماهیت و  وِیژگی داده های عظیم با یک زبان ساده است که به خوبی بیانگر نحوه رفتار آنها باشد . چراکه مدیریت صحیح هر چیز ، مستلزم آشنایی مناسب با ماهیت و فلسفه وجودی آن چیز بخصوص است . با برداشت کاریکاتوری از ماهیت داده های عظیم نمی توان قدم در راهی گذاشت که انتظار خلق ارزش جدیدی را برای یک سازمان به دنبال داشته باشد .
  • حجم ( Volume) : امروزه بسیاری از سازمان ها حجم بالایی از داده را تولید می کنند که قابل مقایسه با سیستم های تراکنشی عملیاتی سابق نیست . به عنوان نمونه برخی بازارهای سهام روزانه بیش از یک ترابایت داده تولید می کنند و یا در توییتر روزانه ده ترا بایت داده تولید می گردد. همچنین ، ما شاهد بکارگیری دستگاه های اندازه گیری متعددی می باشیم که بطور مستمر داده را تولید و به کمک شبکه تعبیه شده اقدام به ارسال آنها به یک مرکز تحلیل ، پردازش و تصمیم گیری می  نمایند .
  • سرعت ( Velocity): سرعت تولید داده یکی از شاخص های مهم داده های عظیم می باشد. در واقع ما شاهد تولید حجم بالایی داده در یک بازه زمانی بسیار کوتاه می باشیم .
  • تنوع (Variety) : تولید داده صرفا محدود به سیستم های تراکنشی عملیاتی نمی باشد و  داده از منابع مختلف و با قالب های گوناگون  تولید می گردد .
  • صحت ( Veracity):اعتماد به داده یکی از شاخص های مهم داده های عظیم می باشد . به گفته بسیاری از رهبران بنگاه های کسب وکار ، به چیزی حدود  3 / 1 داده موجود در سازمان ها نمی توان اعتماد کرد . یکی از چالش های حیاتی داده های عظیم ، تعیین صحت و درستی داده است . به تمامی داده تولیدی نمی توان اعتماد کرد و می بایست از راهکارهای مختلفی جهت اطمینان از صحت و درستی آنها استفاده کرد.
شکل 3 ، ویژگی های مهم داده های عظیم را نشان می دهد .

 ویژگی های مهم داده های عظیم         
شکل 3 : ویژگی های مهم داده های عظیم

چرخه بکارگیری داده های عظیم 
ذخیره و پردازش داده های عظیم به تنهایی کفایت نمی کند و لازم است داده را در یک چرخه مشخص و بطور کاملا ساختیافته و هدفمند مدیریت کرد .شکل 4 ، چرخه مدیریت داده های عظیم را نشان می دهد .این چرخه از مراحل زیر تشکیل شده است  :
  • به دست آوردن  : دریافت داده می تواند به روش های مختلفی انجام می شود . در برخی موارد ممکن است داده به صورت Batch و در برخی موارد دیگر به صورت stream دریافت گردد .
  • ذخیره کردن:  داده دریافتی را می بایست ذخیره کرد. سیستم  های بانک اطلاعاتی رابطه ای سابق ، گزینه مناسبی برای ذخیره داده های عظیم نمی باشند و می بایست از راهکارهای مختلف دیگری برای ذخیره داده استفاده کرد .یکی از اصول مهم ، ذخیره داده بر روی بیش از یک ماشین است ( توزیع داده بین مجموعه ای از کامپیوترها ).
  • تحلیل : تحلیل داده یکی دیگر از مراحل مهم در چرخه بکارگیری داده های عظیم است .  تحلیل داده به روش های مختلفی انجام می شود : اجرای query مشابه سیستم قدیمی ، داده کاوی ، یادگیری ماشین و ...
  • بصری سازی:پس از دریافت ، ذخیره و تحلیل داده لازم است که  نتایج را با بکارگیری یکی ار روش های مورد علاقه ارایه کرد. بصری سازی یکی از جنبه های مهم کار با داده های عظیم است . نشان دادن اعداد به تنهایی  نیاز کاربران کسب و کار را پاسخ نمی دهد.
  • مدیریت : ما نه تنها نیاز داریم که داده را ذخیره و پردازش کنیم بلکه لازم است به درستی آن را مدیریت نماییم . پیش شرط مدیریت صحیح داده، آشنایی با ساختار داده است . نحوه تلفیق با داده سیستم های سنتی ، نحوه دستیابی به داده ، نحوه استفاده از داده و مکانیزم های امنیت داده از جمله مواردی می باشند که در حوزه مدیریت داده با آنها سرو کار خواهیم داشت . 
  • به اشتراک گذاشتن :لازم است داده جمع آوری شده به اشتراک گذاشته شود . به اشتراک گذاشتن داده چالش های مختص به خود را دارد  چراکه ما با حجم بالایی از داده مواجه هستیم. بنابراین نمی توان داده را درون  یک فایل ضمیمه ایمیل قرار داد و آن را برای سایر افراد ارسال کرد . برخی مواقع با استفاده از یک خط ارتباطی سرعت بالا می توان اطلاعات را به اشتراک گذاشت و در برخی موارد دیگر می توان با ذخیره سازی داده بر روی رسانه های سریع امکان به اشتراک گذاشتن آنها را  فراهم کرد.
  • یکپارچه سازی :یکپارچه سازی یکی از مراحل مهم در  بکارگیری موفقیت آمیز داده های عظیم است . لازم است داده سیستم های قدیمی را با داده سیستم های داده های عظیم یکپارچه کرد.  سیستم های تراکنشی همچنان به عنوان هسته عملیاتی در بنگاه های کسب و کار مدرن مطرح می باشند و فرآیندهای یکپارچه سازی می بایست با لحاظ کردن کردن نقش مهم آنها انجام شود .
شکل 4 ، چرخه بکارگیری داده های عظیم را نشان می دهد .

 چرخه بکارگیری داده های عظیم       
شکل 4 : چرخه بکارگیری داده های عظیم