جزئیات  
عنوان چرخه حیات تجزیه و تحلیل داده (4)
نوع منبع مقاله
گروه تجزیه و تحلیل
تاریخ انتشار 1395/6/29
خلاصه علی رغم این که ایده استفاده از داده جهت خلق ارزش برای کسب و کار سخن تازه ای نیست و در گذشته نیز مشتاقان خود را داشته است ، ولی در عصر حاضر شاهد استفاده موثر از داده با هدف  تبدیل آن به یک مزیت رقابتی هستیم . بنگاه های کسب و کار همواره به دنبال ایجاد بینش از اطلاعات به منظور تصمیم گیری بهتر ، سریع تر ، به موقع و مبتنی بر واقعیت بوده و می باشند . تجزیه و تحلیل با استفاده گسترده از داده ، تحلیل های آماری و کمی ، استفاده از مدل های توصیفی و پیش بینی می تواند به بنگاه های کسب وکار در تصمیم گیری و اقدامات مبتنی بر واقعیت های کسب وکار کمک نماید .در این بخش به سراغ مرحله سوم چرخه حیات تجزیه و تحلیل داده خواهیم رفت و با مجموعه فعالیت های لازم جهت برنامه ریزی مدل آشنا خواهیم شد .

علی رغم این که ایده استفاده از داده جهت خلق ارزش برای کسب و کار سخن تازه ای نیست و در گذشته نیز مشتاقان خود را داشته است ، ولی در عصر حاضر شاهد استفاده موثر از داده با هدف  تبدیل آن به یک مزیت رقابتی هستیم . بنگاه های کسب و کار همواره به دنبال ایجاد بینش از اطلاعات به منظور تصمیم گیری بهتر ، سریع تر ، به موقع و مبتنی بر واقعیت بوده و می باشند . تقاضا برای تولید دانش از داده موجود هم در سطح و هم در عمق دچار تحولات شگرفی شده است ، بگونه ای که هم اینک ابزارهای مختلف جهت کار با کلان داده ها یا داده های عظیم و یا پلت فرم های مختلف جهت تجزیه و تحلیل داده ایجاد شده است . کلان داده ها ، فرصت ها و چالش های متعددی را پیش روی بنگاه های کسب وکار قرار داده است. جهت استخراج ارزش از کلان داده ها ، داده ها می بایست به موقع و به سرعت پردازش و تحلیل گردند، بگونه ای که بتوان نتایج را در کوتاه زمان ممکن دردسترس مخاطبان هدف قرار داد تا با بکارگیری آنها بتوان ضمن  ایجاد تغییرات مثبت، در مسیر تصمیم گیری مناسب در فصای کسب و کار حرکت کرد . میزان این اثربخشی زمانی برای یک سازمان بیش تر هویدا خواهد شد که بتواند ترکیی از سرمایه های انسانی ، فرآیندها و فناوری ها را به درستی به خدمت بگیرد . شکل 1 ، زنجیره  ارزش تجزیه و تحلیل  را نشان می دهد .

زنجیره ارزش تجزیه و تحلیل
شکل 1 : زنجیره ارزش تجزیه و تحلیل

به ساده ترین بیان، تجزیه و تحلیل شامل اکتشاف و ارتباط الگوهای معنی دار در داده است . تجزیه و تحلیل با استفاده گسترده از داده ، تحلیل های آماری و کمی ، استفاده از مدل های توصیفی و پیش بینی می تواند به بنگاه های کسب وکار در تصمیم گیری و اقدامات مبتنی بر واقعیت های کسب وکار کمک نماید . تجزیه وتحلیل قادر به شناسایی فرصت های نوآورانه در فرآیندهای کلیدی ، وظایف و نقش ها است و می توان آن را به منزله کاتالیزوری برای نوآوری و ایجاد تغییرات ضروری در نظر گرفت . ایجاد احتمالات جدید برای کسب و کار و یافتن ریشه اصلی مشکلات از دیگر دستاوردهای تجزیه و تحلیل داده است .
در مجموعه مقالاتی که با عنوان چرخه حیات تجزیه و تحلیل داده آماده شده است ، هدف آشنایی با یکی از چرخه های حیات معتبر به منظور تجزیه و تحلیل داده با تمرکز بر روی کلان داده ها و یا داده های عظیم است . در بخش اول  ضمن آشنایی با کلیات این چرخه به این موضوع اشاره گردید که چرخه حیات فوق از شش مرحله مهم و استراتژیک تشکیل شده است که در ذیل هر مرحله مجموعه ای از فعالیت ها تعریف می شود . در بخش دوم با تمرکز بر روی اولین مرحله چرخه حیات که از آن با نام اکتشاف داده یاد می شود ، با مجموعه فعالیت های آن آشنا شدیم . در بخش سوم با تمرکز بر روی دومین مرحله چرخه حیات تجزیه و تحلیل داده که از آن با نام آماده سازی داده نام برده می شود با مجموعه فعالیت های آن آشنا شدیم. در این بخش به سراغ مرحله سوم چرخه حیات تجزیه و تحلیل داده خواهیم رفت و با مجموعه فعالیت های لازم جهت برنامه ریزی مدل آشنا خواهیم شد .در شکل 2 مراحل مختلف چرخه حیات تجزیه و تحلیل داده با تمرکز بر سومین مرحله نشان داده شده است .

  
مراحل مختلف چرخه حیات تجزیه و تحلیل داده
شکل 2 : مراحل مختلف چرخه حیات تجزیه و تحلیل داده

مرحله سوم : برنامه ریزی مدل
در مرحله سوم ، تیم داده مدل های کاندید برای اعمال بر روی داده جهت کلاسترینگ، گروه بندی و یا یافتن ارتباطات در داده را با توجه به اهداف پروژه شناسایی می نماید .در این مرحله تیم داده به فرضیه های تعریف شده در مرحله یک مراجعه می کند . فرضیه ها در مرحله یک و زمانی که تیم داده اولین مرتبه با داده ، مسائل کسب و کار و حوزه کاری شناخت لازم را پیدا کرده بود ، تعریف شده اند . تیم داده به کمک فرضیه ها قادر به شکست کار جهت اجراء در مرحله چهارم و بکارگیری متدهای درست برای نیل به اهداف تعریف شده می باشد . در این مرحله فعالیت های متعددی انجام می شود :
  •  بررسی ساختار مجموعه های داده ( دیتا ست ها ) . ساختار دیتاست ها یکی از عوامل مهم و تاثیر گذار در انتخاب ابزارها و روش های تحلیل در مراحل بعدی است . با توجه به این که تیم داده قصد برنامه ریزی برای تحلیل داده متنی یا داده تراکنشی را دارد از ابزارها و رویکردهای مختلفی می توان استفاده کرد  .
  •  اطمینان از این موضوع که روش های تحلیل داده قادر به تامین نیازها و اهداف کسب و کار است و می تواند فرضیه هایی را بپذیرد و یا آنها را رد کند .
  • تعیین این موضوع که آیا با یک مدل واحد و یا مجموعه ای از تکنیک ها می توان به نیازهای تحلیل پاسخ مناسب را داد .
شکل 3 ، مهمترین فعالیت های مرحله سوم چرخه حیات تجزیه و تحلیل را نشان می دهد .

فعالیت های مرحله برنامه ریزی مدل  چرخه تجزیه و تحلیل داده
شکل 3 : فعالیت های مرحله برنامه ریزی مدل  چرخه تجزیه و تحلیل داده

در ادامه به هر یک از فعالیت های مرحله برنامه ریزی مدل چرخه تجزیه و تحلیل اشاره می گردد .

اکتشاف داده و انتخاب متغیر 
با این که برخی فعالیت های اکتشاف داده در مرحله آماده سازی داده نیز انجام می شود ولی در مرحله فوق تمرکز اصلی بر روی کیفیت داده است . این درحالی است که در مرحله سوم ، هدف از اکتشاف داده شناخت روابط بین متغیرها با هدف کمک در جهت انتخاب متغیرها و متدهای موردنیاز و همچنین شناخت حوزه کاری مساله است . همانند مراحل آغازین چرخه حیات تجزیه و تحلیل لازم است  زمان مناسب جهت اکتشاف و انتخاب داده انجام شود تا بتوان در گام های بعدی مدل را به درستی انتخاب و زمینه اجرایی کردن آن را با درصد موفقیت بالا فراهم کرد .
استفاده از ابزارهای بصری سازی داده می تواند در این مرحله بسیار مفید و کارساز باشد.  تیم داده در این مرحله قادر به بررسی دقیق ارتباط بین متغیرها از یک سطح بالا خواهد بود . توجه به نظرات و فرضیه های اولیه ذینفعان و کارشناسان مرتبط با موضوع در انتخاب مدل یا مدل های کاندید بسیار موثر خواهد بود . پذیرش و یا رد فرضیه های ذینفعان می بایست مبتنی بر یک روش کاملا علمی و واقعیت های موجود بین روابط داده باشد . تطبیق انتظارات موجود با واقعیت های داده یکی از فعالیت های مهم این مرحله می باشد.

انتخاب مدل
در این فعالیت ، هدف اصلی انتخاب یک روش تحلیلی و یا یک لیست کوتاه از روش های  کاندید با توجه به اهداف تعریف شده نهایی برای پروژه می باشد. انتخاب مدل می بایست متاثر از واقعیت های داده باشد . در انتخاب مدل می بایست ماهیت داده و نحوه تولید آن به دقت بررسی گردد . به عنوان نمونه ، در صورتی که جنس داده از نوع غیرساختیافته باشد ، می توان از فناوری MapReduce جهت تحلیل داده غیر ساختیافته استفاده کرد.  معمولا تیم داده ، مدل های اولیه ای را با استفاده از بسته های نرم افزاری اولیه ای نظیر  R ، SAS و یا Matlab ایجاد می نماید. علی رغم این که ابزارهای فوق برای داده کاوی و الگوریتم های یادگیری ماشین طراحی شده اند ، ممکن است در زمان استفاده از دیتاست های بزرگ به همراه مدل ( نظیر مواردی که از کلان داده ها استفاده می شود ) ، محدودیت هایی بوجود آید . پس از اشراف اطلاعاتی تیم داده در رابطه با نوع مدل  می توان در مرحله بعد چرخه حیات به سمت ایجاد مدل حرکت کرد .
 
ابزارهای متداول برای برنامه ریزی مدل
جهت برنامه ریزی مدل از ابزارهای متعددی می توان استفاده کرد :
  • R ، دارای مجموعه کاملی از امکانات مورد نیاز برای مدل سازی است و محیطی مناسب برای ایجاد مدل های تفسیری توسط کدهای با کیفیت بالا را فراهم می نماید. همچنین ، R دارای امکانات و اینترفیس های لازم جهت ایجاد اتصالات از نوع ODBC و اجرای تست های آماری و تحلیل های کلان داده ها است . استفاده از R به دلیل قدرت آن در انجام تست های آماری و تحلیل بر روی کلان داده ها بسیار متداول است . R دارای بیش از پنج هزار پکیج جهت تحلیل داده و نمایش گرافیکی است که به مروز زمان پکیج های جدیدی نیز به آن اضافه می گردد .
  •  SQL Analysis services ، قادر به انجام تحلیل های متداول داده کاوی ( شامل مدل های پایه پیش گویی و تجمیع )  است .
 خلاصه
در این بخش با تمرکز بر روی مرحله سوم چرخه حیات تجزیه و تحلیل که از آن با نام برنامه ریزی مدل یاد می شود با فعالیت های مرتبط با آن آشنا شدیم . برنامه ریزی مدل یکی از مراحل مهم در چرخه حیات تجزیه و تحلیل است که با انجام صحیح و دقیق آن می توان آماده ورود به مرحله ای شد که قرار است مدل ایجاد گردد . در بخش بعدی  به سراغ مرحله چهارم چرخه حیات تجزیه و تحلیل داده خواهیم رفت و با مجموعه فعالیت های لازم جهت ایجاد مدل آشنا خواهیم شد

منابع  :
EMC Education Services. Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. Wiley, 2015
Bart Baesens,Analytics in a Big Data World: The Essential Guide to Data Science and its Applications. Wiley, 2014
Rachel Alt-Simmons,Agile by Design: An Implementation Guide to Analytic Lifecycle Management,Wiley, 2014
  


منابع مرتبط  
چرخه حیات تجزیه و تحلیل داده ( بخش پایانی) | مقاله | ۲۸ / ۰۳ / ۷۷۵ | میزان ارتباط : 100 درصد
چرخه حیات تجزیه و تحلیل داده (6) | مقاله | ۲۸ / ۰۳ / ۷۷۵ | میزان ارتباط : 100 درصد
چرخه حیات تجزیه و تحلیل داده (5) | مقاله | ۱۳ / ۰۱ / ۷۷۵ | میزان ارتباط : 100 درصد
چرخه حیات تجزیه و تحلیل داده (3) | مقاله | ۲۳ / ۰۳ / ۷۷۴ | میزان ارتباط : 100 درصد
چرخه حیات تجزیه و تحلیل داده (2) | مقاله | ۲۵ / ۰۲ / ۷۷۴ | میزان ارتباط : 100 درصد
چرخه حیات تجزیه و تحلیل داده (1) | مقاله | ۰۴ / ۰۲ / ۷۷۴ | میزان ارتباط : 100 درصد
انقلاب تجزیه و تحلیل داده | مقاله | ۲۳ / ۱۰ / ۷۷۳ | میزان ارتباط : 100 درصد
مقیاس پذیری تجزیه و تحلیل داده از گذشته تا کنون (2) | مقاله | ۰۷ / ۱۰ / ۷۷۳ | میزان ارتباط : 100 درصد
تجزیه و تحلیل داده و انواع آن | مقاله | ۰۹ / ۰۹ / ۷۷۳ | میزان ارتباط : 100 درصد
تصمیم گیری داده محور | مقاله | ۱۳ / ۰۱ / ۷۷۴ | میزان ارتباط : 80 درصد
چگونه به یک سازمان داده محور تبدیل شویم ؟ | مقاله | ۰۲ / ۱۱ / ۷۷۳ | میزان ارتباط : 80 درصد
مقیاس پذیری تجزیه و تحلیل داده از گذشته تا کنون (1) | مقاله | ۲۱ / ۰۹ / ۷۷۳ | میزان ارتباط : 80 درصد
چگونه مسیر داده تا تصمیم گیری را درست طی کنیم ؟ | مقاله | ۲۳ / ۰۶ / ۷۷۳ | میزان ارتباط : 80 درصد