جزئیات  
عنوان چرخه حیات تجزیه و تحلیل داده ( بخش پایانی)
نوع منبع مقاله
گروه تجزیه و تحلیل
تاریخ انتشار 1396/6/18
خلاصه زندگی در عصر اطلاعات دستاوردهای مهم و متعددی را برای یکایک ما به دنبال داشته است . بنگاه های کسب و کار نیز از تحولات بیشمار عصر اطلاعات بی بهره نبوده اند و می توان به دو پیامد مهم آن اشاره داشت . اول این که فناوری این امکان را فراهم کرده است که بتوان حجم بالایی از داده ها را با مکانیزم های ساده جمع آوری کرد و به جرات می توان ادعا کرد که هم اینک ما با وفور نعمت داده مواجه هستیم . همین موضوع باعث ایجاد چالش درک این همه حجم داده برای سازمان ها شده است . پیامد مهم دوم فناوری این است که به افراد و سازمان های زیادی قدرت و توان تجزیه و تحلیل داده ها و تصمیم گیری بر اساس تجزیه و تحلیل کمی را داده است . تنها با تجزیه و تحلیل داده است که می توان از منابع ارزشمند داده خام در جهت ایجاد یک مزیت رقابتی برای سازمان خود استفاده کرد . ورود به دنیای جذاب و پر چالش تجزیه و تحلیل داده بدون تبعیت از یک چرخه حیات معتبر معنی ندارد . چراکه چرخه حیات ، رویکردی سیستماتیک جهت مدیریت و اجرای پروژه های تحلیلی را ارایه می نماید.

مهم ترین رسالت علم اطلاعات  ادغام داده کاوی ، تجزیه و تحلیل آماری و یادگیری ماشین با یکپارچه سازی داده و قابلیت های مدل سازی داده ها به منظور ایجاد مدل های پیشگویانه جهت کشف الگوهای  داده است . به ایجاد مدل های پیشگویانه ، علم اطلاعات گفته می شود چراکه تحلیلگر داده یا دانشمند داده از روش های علمی برای ایجاد و ارزیابی مدل استفاده می کند . دانشمند داده ، فرضیه ای در خصوص رفتار ایجاد می کند که می تواند در داده ها و قبل از یک عمل بخصوص مشاهده شود . مثلا ، احتمال خرید یک کالای بخصوص  پس از خرید یک کالای بخصوص دیگر ( نظیر خرید مبلمان پس از خرید منزل ) . در ادامه ، دانشمند داده با تجزیه و تحلیل حجم بالایی از داده های گذشته ، میزان صحت فرضیه را بررسی و از لحاظ آماری احتمال صحت مدل را ارزیابی می کند . اگر یک فرضیه  با فرکانس وقوع قابل قبول معتبر و رفتار پیش بینی شده  نیز مفید  باشد ، می توان از مدل به عنوان یک فرآیند هوشمند عملیاتی برای پیش بینی رفتار آتی حتی در موارد بلادرنگ نظیر پیشنهادات تبلیغات فروش ، استفاده بعمل آورد .
ایجاد راه حل های علم اطلاعات  شامل تکرار پذیری منابع داده در مدل هایی است که بینش ایجاد می نمایند . علم اطلاعات به موارد ذیل بستگی دارد :
  • منابع داده غنی: داده هایی با امکان ( پتانسیل ) نشان دادن الگوهای غیر قابل مشاهده در رفتار سازمانی یا مشتری 
  • هسمویی اطلاعات و تجزیه و تحلیل : تکنیک هایی برای درک محتوای داده ها و ترکیب مجموعه داده ها به فرضیه ها و آزمون الگوهای معنی دار
  • عرضه اطلاعات: اجرای مدل ها و الگوریتم های ریاضی با استفاده از  داده ها ، بصری سازی و ایجاد خروجی های دیگر برای به دست آوردن بینش به رفتار
  • ارائه یافته ها و بینش های داده : تجزیه و تحلیل و ارائه یافته ها به طوری که بینش بتواند به اشتراک گذاشته شود.
در شکل 1 ، تفاوت بین هوش تجاری  با تجزیه و تحلیل پیشگویانه و تجویزی که می توان  از طریق روش های علم اطلاعات به آنها دست یافت ، نشان داده شده است  .

پیشرفت تجزیه و تحلیل داده
  شکل 1 : پیشرفت تجزیه و تحلیل داده

حجم و تنوع نوع های مختلف داده در ایجاد مدل های پیشگویانه نقش حیاتی دارد . شاید به همین دلیل باشد که با فراگیر شدن  داده های کلان ،  گسترش و احتمال صحت  تجزیه و تحلیل پیشگویانه و تجویزی بمراتب بیش از گذشته شده است . برای مدیریت تجزیه و تحلیل صرفنظر از نوع آن ، می بایست تابع یک چرخه حیات بود تا بتوان بر اساس هر یک از حالات تعریف شده در چرخه حیات ، مجموعه فرآیندها و فعالیت هایی را بطور منسجم و هماهنگ جهت نیل به یک هدف ارزشمند دنبال کرد .
مهمترین هدف مجموعه مقالات  " چرخه حیات تجزیه و تحلیل داده  " ، آشنایی با یکی از چرخه های حیات معتبر به منظور تجزیه و تحلیل داده با تمرکز بر روی کلان داده ها و یا داده های عظیم می باشد . در بخش اول  ضمن آشنایی با کلیات این چرخه به این موضوع اشاره گردید که چرخه حیات فوق از شش مرحله مهم و استراتژیک تشکیل شده است که در ذیل هر مرحله مجموعه ای از فعالیت ها تعریف می شود . در بخش دوم با تمرکز بر روی اولین مرحله چرخه حیات که از آن با نام اکتشاف داده یاد می شود ، با مجموعه فعالیت های آن آشنا شدیم . در بخش سوم با تمرکز بر روی دومین مرحله چرخه حیات تجزیه و تحلیل داده که از آن با نام آماده سازی داده نام برده می شود با مجموعه فعالیت های آن آشنا شدیم. در بخش چهارم  به سراغ مرحله سوم چرخه حیات تجزیه و تحلیل داده رفتیم و با مجموعه فعالیت های لازم جهت برنامه ریزی مدل آشنا شدیم . در بخش پنجم ،  با تمرکز بر روی چرخه حیات تجزیه و تحلیل داده با چهارمین مرحله آن که ایجاد مدل است ، آشنا شدیم  . در بخش ششم   ،  به سراغ مرحله پنجم چرخه حیات تجزیه و تحلیل داده رفتیم و با ضرورت و شیوه های برقراری ارتباط نتایج با ذینفعان آشنا شدیم  . در بخش هفتم ( پایانی ) با نحوه اجراء و عملیاتی سازی مدل آشنا خواهیم شد .


مراحل مختلف چرخه حیات تجزیه و تحلیل داده
شکل 2 : مراحل مختلف چرخه حیات تجزیه و تحلیل داده و تحلیل داده

مرحله ششم : اجرای مدل و عملیاتی سازی آن
در مرحله نهایی ، تیم داده با هدف نمایش مزایا و دستاوردهای پروژه در ابعاد وسیع تر اقدام به ایجاد یک پروژه پایلوت به منظور استقرار کنترل شده کار و قبل از انتشار کامل در سازمان می نماید . در مرحله چهارم ، تیم داده ارزیابی مدل را در یک محیط شبیه ساز انجام داده بود و برای اولین مرتبه در مرحله ششم ، تیم داده اقدام به استقرار متدهای تجزیه و تحلیل جدید یا مدل ها در یک محیط تولیدی می نماید . تیم داده لازم است قبل از نهایی سازی مدل و استقرار کامل آن در سازمان با ایجاد و استقرار یک نسخه آزمایشی کوچک و در یک شرایط واقعی ریسک های مرتبط با مدل را به دقت ارزیابی نماید . با این کار ، تیم داده می تواند نسبت به عملکرد و محدودیت های احتمالی مدل شناخت لازم را پیدا کند و با برطرف کردن مسائل ، زمینه استقرار نهایی مدل در سازمان را فراهم نماید . در حین پروژه پایلوت ، تیم داده ممکن است لازم باشد که الگوریتم ها را در بانک اطلاعاتی در مقابل استفاده از ابزارهای in-memory نظیر R اجرا کند ، چراکه زمان اجراء بمراتب سریع تر و کارآمدتر نسبت به اجرای in-memory است خصوصا اگر حجم دیتاست ها بسیار زیاد باشد .
در زمان تعریف حوزه پروژه پایلوت ، پیشنهاد می گردد که اجرای مدل در یک محیط تولیدی برای مجموعه ای گسسته از محصولات و یا یک بخش بخصوص کسب و کار انجام شود تا زمینه تست مدل در یک شرایط واقعی و به صورت live فراهم گردد . با این کار ، تیم داده با دانش حاصل از استقرار مدل ، می تواند تغییرات و اصلاحات  لازم را قبل از استقرار نهایی مدل در سراسر سازمان انجام دهد . معمولا در این مرحله ممکن است ،  مجموعه ای جدید از اعضای تیم نظیر مهندسین مسئول محیط عملیاتی که دارای مسائل و نگرانی های مختص به خود با توجه به نوع مسئولیت می باشند ، نیز درگیر کار شوند . گروه های فنی فوق لازم است اطمینان حاصل نمایند که اجراء مدل به خوبی با محیط تولید مطابقت می نماید و می توان مدل را درون فرآیندهای کسب و کار به خوبی ادغام کرد .
ایجاد مکانیزمی برای مانیتورینگ مستمر صحت عملکرد مدل ، یافتن روش های حفظ مدل و در صورت امکان ، طراحی پیام های هشدار دهنده در مواردی که مدل خارج از محدوده قابل قبول کار می کند ، از جمله فعالیت های دیگر مرحله عملیاتی سازی است . تمرکز بر داده های ورودی به مدل و ارزیابی مستمر خروجی مدل خصوصا در مواردی که ممکن است نتایج دقیق و معتبر نباشند نیز می بایست در دستور کار قرار گیرد . در صورتی که خروجی مدل متناسب با داده های ورودی رفتاری غیرطبیعی داشته باشد و این موضوع به صورت ادواری نیز تکرار می شود ، لازم است مدل بر روی داده های جدید مجددا آموزش ببیند .
 
خلاصه
در این بخش با تمرکز بر روی مرحله ششم  چرخه حیات تجزیه و تحلیل که هدف اصلی آن نحوه عملیاتی سازی مدل است ، آشنا شدیم . در مرحله ششم با ایجاد پروژه های کوچک پایلوت می بایست امکان اجرای مدل در یک محیط واقعی را فراهم کرد تا ضمن آشنایی با دستاوردها و نتایج بتوان مشکلات را هم از بعد  صحت و عملکرد و هم از بعد فنی شناسایی کرد و زمینه برطرف کردن آنها را  قبل از استقرار نهایی مدل در سازمان فراهم نمود . 
در طی هفت مقاله ، چرخه حیات تجزیه و تحلیل داده تشریح گردید . چرخه حیات تجزیه و تحلیل داده ، رویکردی جهت مدیریت و اجرای پروژه های تحلیلی را ارایه می نماید . رویکرد فوق فرآیندهای مورد نیاز را در شش مرحله تشریح می نماید :
  •  اکتشاف
  • آماده سازی داده
  • برنامه ریزی مدل
  • ایجاد مدل
  • برقراری ارتباط با ذینفعان جهت ارایه نتایج
  • عملیاتی سازی 
از طریق مراحل فوق ، تیم های داده قادر به شناسایی مسائل و تحقیق دقیق بر روی دیتاست های مورد نیاز برای تحلیل های عمیق می باشند . در پروژه های تجزیه و تحلیل داده اکثر زمان صرف آماده سازی داده از جمله در مراحل یک و دو ( اکتشاف و آماده سازی ) می گردد . در طی مجموعه مقالات چرخه حیات تجزیه و تحلیل داده به این نکته مهم نیز اشاره گردید که یک تیم داده به شش نقش اساسی نیاز دارد  . یک سازمان می بایست به این موضوع حیاتی توجه نماید که ورود به حوزه علم داده  مستلزم کار تیمی و شکل گیری یک تیم داده قوی با مهارت های لازم می باشد تا بتوان احتمال موفقیت  پروژه های کلان داده و سایر پروژه های پیچیده تجزیه و تحلیل داده را افزایش داد.

منابع  :
EMC Education Services. Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. Wiley, 2015
Bart Baesens,Analytics in a Big Data World: The Essential Guide to Data Science and its Applications. Wiley, 2014
Rachel Alt-Simmons,Agile by Design: An Implementation Guide to Analytic Lifecycle Management,Wiley, 2014
Thomas H. Davenport ,Enterprise Analytics: Optimize Performance, Process, and Decisions Through Big Data (FT Press Operations Management),Pearson FT Press; 1 edition ,2012