جزئیات  
عنوان چرخه حیات تجزیه و تحلیل داده (1)
نوع منبع مقاله
گروه تجزیه و تحلیل
تاریخ انتشار 1395/4/24
خلاصه یکی از جذابیت های دنیای فناوری اطلاعات که در عین حال چالش های مختص به خود را نیز به دنبال داشته است ، کوتاه شدن عمر مفید برخی واژه ها و اصطلاحات و یا برداشت های مختلف از آنها است . واژه تجزیه و تحلیل از جمله این اصطلاحات است که امروزه شاهد استفاده بیش از حد آن می باشیم .این بدان معنی است که بار معنایی این واژه از دست رفته است و یا حداقل برای افراد مختلف دارای معانی متفاوتی است . به عنوان نمونه ، ذینفعان کسب و کار ، سازمان های فناوری و تیم های تجزیه و تحلیل هر یک برداشت مختص به خود را دارند . یکی از نقاط شروع مهم برای ایجاد یک فرهنگ مبتنی بر داده ، تعریف یک زبان مشترک حول و حوش آن است تا ضمن ایجاد یک درک مشترک در سازمان ، بتوان با شفافیت نقش ها و مسئولیت ها را تعریف کرد. تنها پس از انجام این اتفاق خوب است که می توان درگیر پروژه های تجزیه و تحلیل گردید . یکی از ابزارهای مفید در این فرآیند ، زنجیره ارزش تجزیه و تحلیل است که ساختاری برای ترکیب پروژه های تحلیلی در یک اکوسیستم گسترده کسب و کار را ارایه می نماید . در مرکز این زنجیره ارزش ، چرخه حیات تجزیه و تحلیل داده قرار داد . این چرخه شش مرحله ای به سازمان ها کمک می نماید تا بتوانند پروژه های تجزیه و تحلیل داده را به درستی با استراتژی کسب و کار همسو نمایند .

امروزه شاهد حضور داده در همه جا می باشیم .  با نگاهی سریع به برخی آمارها و اطلاعات ارایه شده توسط شرکت ها و موسسات تحقیقاتی و پژوهشی معتبر می توان به عمق این تحول بزرگ بیشتر آشنا گردید . به عنوان نمونه ، شرکت آی .بی. ام  عنوان کرده است که   بیش از 90 درصد داده موجود در جهان تنها در دو سال گذشته تولید شده است و یا شرکت گوگل روزانه بیش از 5 / 3 میلیارد درخواست را پردازش می کند . همچنین بنا به پیش بینی موسسه گارتنر ، بیش از 4 /4 میلیون شغل در حوزه داده تا انتهای سال 2015 و اوایل سال 2016 ایجاد شده است .آمار و ارقام فوق بیانگر وجود داده در همه جای زندگی بشریت قرن بیست و یکم است . تحولات حیرت انگیز در حوزه داده صرفا در حجم  داده تولیدی خلاصه نمی شود و می توان به ویژگی های منحصربفرد دیگری نظیر سرعت تولید داده ، تنوع و تکثر در نوع داده و  سرشاخه های تولید آن و همچنین عدم قطعیت در صحت داده اشاره کرد . خصایص فوق باعث ظهور واژگان جدیدی به نام کلان داده و یا داده های عظیم شده است که به همراه خود طوفانی از همه چیز را باعث شده است . شکل 1 ، چهار ویژگی برجسته این نوع داده ها را نشان می دهد .

چهار ویژگی مهم کلان داده ها
شکل 1 : چهار ویژگی مهم کلان داده ها یا داده های عظیم  (  منبع  : موسسه McKinSey Global ،توئیتر ، سیسکو ، گارتنر ، SAS )

بدیهی است این تحول عظیم در سایر حوزه های حیات بشری نیز تاثیرگذار باشد . نیاز شدید به مهارت های تجزیه و تحلیل و بهره گیری صحیح از منابع داده به موازات رشد داده یکی  از مهمترین تحولات جانبی متاثر از حجم داده تولیدی در سطح جهان است .چراکه مدیریت و تجزیه و تحلیل داده به بهترین و بهینه ترین روش یکی از عوامل حیاتی موفقیت در ایجاد مزیت رقابتی و نیل به اهداف استراتژیک چه در بعد فردی و چه در بعد سازمانی  است .
در حال حاضر ارتباط ، اهمیت و تاثیر تجزیه و تحلیل داده بیش تر از تمامی ادوار گذشته است چراکه با حمع آوری حجم بیش تری از داده امکان استخراج ارزش استراتژیک و دانستن این که چه چیزی در داده ها پنهان است ، فراهم شده است . روند رشد  تجزیه و تحلیل داده که از آن به عنوان انقلاب تجزیه و تحلیل نیز یاد می شود ،همچنان با شتاب بالایی ادامه خواهد یافت و فرصت های طلایی بی شماری را برای افراد و سازمان ها فراهم می نماید.

 ماهیت پروژه های علم داده
پروژه های علوم داده با بسیاری از پروژه های سنتی هوش کسب و کار و همچنین پروژه های تجزیه و تحلیل داده متفاوت می باشند. ماهیت این نوع پروژه ها اغلب به صورت اکتشافی است و شاید به همین دلیل باشد که نیاز به فرآیندهای حاکمیتی در این نوع پروژه ها امری حیاتی است چراکه هدف، اطیمنان از انجام دقیق و کامل رویه ها مستقل از افراد و سلایق مختلف است . در اکثر موارد با تقسیم یک مساله و یا خواسته بزرگ به بخش های کوچکتر و یا مراحل عملی می توان با سادگی به مراتب بیشتری به آنها پاسخ داد . وجود یک فرآیند خوب و تبعیت دقیق و کامل از آن این اطمینان را ایجاد می نماید که برای انجام تجزیه و تحلیل داده از یک روش جامع و تکرارپذیر استفاده می گردد . علاوه بر این ، با وجود یک فرآیند مدون می توان زمان و انرژی خود را بر روی شناخت هر چه دقیق تر مشکل کسب وکار متمرکز کرد تا بتوان برای آن یک راه حل مناسب را طراحی و اجراء کرد .
یکی از اشتباهات متداول در برخی پروژه های علم داده ، تعجیل و یا اصرار بر جمع آوری داده و به دنبال آن تجزیه و تحلیل است . رویکرد فوق باعث عدم تمرکز و صرف زمان مناسب جهت برنامه ریزی ، تعیین ابعاد کار ، شناخت خواسته ها و تقسیم مناسب کار می گردد . پیامد این چنین رویکردی ، رسیدن به نقطه ای است که نمی توان به دلیل عدم وجود داده در دسترس به اهداف مد نظر حامیان پروژه دست یافت و به جای پاسخگویی به مواردی که با صراحت مشخص شده اند به دنبال پاسخگویی به علائق شخصی و یا حس کنجکاوی خود باشیم . در صورت مواجه شدن با چنین شرایطی یا می بایست به مراحل آغازین فرآیند و کشف مناسب داده  برگشت و یا در کل قید پروژه را زد و آن را متوقف کرد. با تبعیت از یک فرآیند مدون و همچنین یک چارچوب مشترک ، امکان بکارگیری متدها و رویه های تجزیه و تحلیل توسط سایر افرادی که بعدا به پروژه ملحق خواهند شد ، فراهم می گردد. 
 
ماهیت چرخه حیات تجزیه و تحلیل داده
چرخه حیات تجزیه و تحلیل داده  مختص مسایل کلان داده ها و پروژه های علم داده طراحی و دارای دارای شش مرحله مختلف است که با دنبال کردن صحیح  آنها می توان به اهداف یک پروژه در حوزه های اشاره شده دست یافت . در اکثر مراحل چرخه حیات ، امکان حرکت به سمت جلو ( مرحله بعدی ) و یا حرکت به سمت عقب ( مرحله قبلی ) وجود دارد . ماهیت تکرار شوندگی چرخه حیات بیانگر یک پروژه واقعی است که ممکن است در برخی موارد به سمت جلو حرکت کرد و در برخی موارد  به دلیل عدم پوشش اطلاعات موردنیاز ، مجبور به برگشت به مراحل آغازین چرخه گردید. شکل 2 ،  ماهیت چرخه حیات تجزیه و تحلیل داده را نشان می دهد.
 
ماهیت چرخه حیات تجزیه و تحلیل داده
شکل 2 : ماهیت چرخه حیات تجزیه و تحلیل داده

نقش های اساسی برای موفقیت یک پروژه تجزیه و تحلیل داده
برای سازماندهی یک تیم علم داده مناسب به هفت نقش اساسی نیاز است . این تعداد نقش دارای  تناظر یک به یک با تعداد افراد گروه نمی باشند. به عنوان نمونه ممکن است با توجه به ماهیت پروژه و حجم کار  از یک گروه سه نفره برای پوشش نقش ها استفاده شود و یا در پروژه های خیلی بزرگ  از 20 نفر و یا بیشتر برای پوشش نقش ها استفاده گردد . شکل 3 ، هفت نقش مورد نیاز برای اجرای موفقیت آمیز یک پروژه تجزیه و تحلیل داده را نشان می دهد .

نقش های مختلف مورد نیاز جهت اجرای پروژه های تجزیه و تحلیل
شکل 3 : نقش های مختلف مورد نیاز جهت اجرای پروژه های تجزیه و تحلیل 
 
  • کاربر کسب و کار ( Business User ): فردی که با حوزه کاری آشنا است و معمولا از نتایج پروژه بهره مند خواهد شد . از توان این کاربر جهت اخذ مشاوره ها و توصیه ها در چارچوب حوزه کاری پروژه ، ارزش نتایج و نحوه تحقق خروجی ها استفاده می گردد .  معمولا یک تحلیل گر کسب و کار ، مدیر و یا کارشناس ورزیده مرتبط با حوزه کاری پروژه می تواند ایفاگر این نقش باشد .
  • حامی پروژه ( Project Sponsor ) : شکل گیری اولیه و تکامل  پروژه با حمایت فردی که دارای این نقش است ، انجام می شود  و از زمان آغاز پروژه تا اتمام آن علاوه بر ایجاد انگیزه های لازم ، مسئولیت تامین تمامی ملزومات مورد نیاز پروژه را برعهده می گیرد . تامین بودجه ، ابزار اندازه گیری میزان ارزش تولیدی با توجه به خروجی نهایی ، تعیین اولویت های پروژه و شفاف سازی خروجی ها از دیگر وظایف این نقش است .  
  •  مدیر پروژه (Project Manager) : مهمترین مسئولیت مدیر پروژه ، اطمینان از تولید خروجی های کلیدی پروژه  و اهداف کلیدی در زمان برنامه ریزی شده و با سطح کیفی قابل قبول است .
  • تحلیل گر اطلاعات کسب و کار (Business Intelligence Analyst ) : مسئولیت ارایه مشاوره های تخصصی مورد نیاز مرتبط با حوزه کاری بر اساس شناخت عمیق داده ، شاخص های کلیدی عملکرد (KPIs ) ، متریک های کلیدی و هوش کسب و کار از بعد گزارش گیری ، ایجاد داشبوردها و گزارشات را برعهده داشته و دارای دانش لازم جهت  تامین داده با توجه به وضعیت هر یک از منابع داده است .
  • مدیر بانک اطلاعاتی (Database Administrator ) : مسئولیت تامین و پیکربندی محیط بانک اطلاعاتی به منظور حمایت از نیازهای تجزیه و تحلیل تیم کاری را برعهده دارد .   ارایه دستیابی به بانک های اطلاعاتی کلیدی و یا جداول و حصول اطمینان از سطوح امنیتی مناسب مرتبط با مخازن داده از جمله وظایف این نقش است . 
  • مهندس داده (Data Engineer ) : دارای مهارت های فنی عمیق به منظور بهینه سازی SQL Queryies  جهت مدیریت و استخراج داده است . حمایت از مصرف کنندگان داده درون محیط های عملیاتی و شبیه ساز از دیگر مسئولیت های این نقش است . همانگونه که اشاره گردید ، مدیر بانک اطلاعاتی مسئولیت انجام فعالیت هایی نظیر تنظیم و پیکربندی بانک اطلاعاتی که قرار است از آن استفاده گردد را برعهده دارد و مهندس داده مسئولیت استخراج واقعی داده و انجام مجموعه اقداماتی که باعث تسهیل در تجزیه و تحلیل داده می گردد را برعهده دارد . این نقش دارای ارتباط کاری نزدیکی با نقش دانشمند داده است و از طریق تعامل با یکدیگر ، شکل دهی صحیح داده جهت تجزیه و تحلیل را انجام دهند .
  • دانشمند داده (Data Scientist ) : این نقش مسئولیت ارایه تخصص های عمیق مرتبط با موضوع کاری برای تکنیک های تجزیه و تحلیل ، مدل سازی داده و بکارگیری تکنیک های تحلیلی معتبر برای مساله کسب وکار را بر عهده دارد . همچنین ، اطمینان از تامین تمامی اهداف تجزیه و تحلیل ، طراحی و اجرای متدهای تحلیل از دیگر وظایف این نقش است .

معرفی اولیه چرخه حیات تجزیه و تحلیل داده و آشنایی با هر یک از مراحل آن
شکل 4 ، نگاهی دارد به چرخه حیات تجزیه و تحلیل داده که از شش مرحله مختلف تشکیل شده است . معمولا یادگیری چیزهای جدید در یک مرحله توسط اعضاء گروه باعث برگشت به مرحله قبل و بازنگری اقدامات انجام شده در آن مرحله بر اساس اطلاعات و بینش  جدید اکتشافی می گردد . فلش های دایروی  حرکت تکرارپذیر بین مراحل را نشان می دهد و تا زمانی که اعضاء تیم دارای اطلاعات کافی برای حرکت به سمت مرحله بعدی نباشند ، این مهم محقق نخواهد شد. با طرح برخی سوالات در هر یک از مراحل  ، میزان آمادگی اطلاعاتی جهت ورود  به مرحله بعد ارزیابی می شود و در صورتی که آمادگی لازم وجود داشته باشد به مرحله بعدی حرکت می شود .

 
 مراحل مختلف چرخه حیات تجزیه و تحلیل داده
شکل 4 : مراحل مختلف چرخه حیات تجزیه و تحلیل داده

  • مرحله 1 - کشف : در این مرحله تیم پروژه پس از آشنایی با حوزه کسب و کار و همچنین سوابق کارهای انجام شده و این که تا چه میزان می توان از تجارب گذشته درس گرفت ، منابع در دسترس به منظور حمایت از پروژه در حوزه های مختلفی نظیر افراد ، فناوری ، زمان و داده  را شناسایی می نماید . یکی از مهمترین فعالیت های این مرحله شکست یک مساله کسب و کار به اجزاء کوچکتر است بگونه ای که بتوان ضمن حفظ یکپارچگی و انسجام ، با دنبال نمودن مجموعه ای از مراحل متوالی به سرانجام نهایی رسید .
  • مرحله 2 – آماده سازی داده : مرحله دوم نیازمند وجود یک محیط شبیه ساز و یا اصطلاحا Sandbox است تا تیم داده بتوانند با داده کار کنند و تجزیه و تحلیل را در مدت زمان انجام پروژه انجام دهند . تیم پروژه با انجام فرآیندهای مختلفی نظیر استخراج ، بارگذای ، تبدیل یا همان ELT معروف و یا استخراج ، تبدیل و بارگذاری یا همان ETL عملیات انتقال داده درون sandbox را انجام می دهند . به مجموعه فرآیندهای ETL و ELT بطور مختصر ETLT نیز گفته می شود .با انتقال داده به کمک فرآیندهای ETLT  امکان کار با داده و تجزیه و تحلیل آن فراهم می گردد تا بستر مناسبی جهت آشنایی عمیق تر با ابعاد مختلف داده برای تیم پروژه فراهم گردد .  
  • مرحله 3 – برنامه ریزی مدل : در این مرحله برنامه ریزی مدل انجام خواهد شد و تیم پروژه متدها ، تکنیک ها و جریان های کاری مورد نیاز را تعیین می کند . تیم داده با بررسی روابط بین متغیرها ، متغیرهای کلیدی نهایی که دارای بیش ترین تناسب با مدل هستند را انتخاب می نمایند .
  • مرحله 4 – ایجاد مدل : در این مرحله تیم پروژه مجموعه های داده را برای تست ، آموزش و اهداف تولیدی ایجاد می نماید . علاوه بر این ،  تیم داده مدل ها را بر اساس کار انجام شده ایجاد و اجراء می نماید ( مدل هایی که در مرحله سوم ، برنامه ریزی آنها انجام شده است ) . تیم پروژه بررسی لازم در خصوص وجود ابزارهای لازم جهت اجرای مدل را انجام خواهد داد. همچنین ، بررسی این موضوع در دستور کار قرار خواهد گرفت که آیا برای اجرای مدل ها و جریان های کاری به یک محیط مطمئن تر نیاز است ( مثلا استفاده از سخت افزارهای قوی تر  ، پردازش موازی ) .
  • مرحله 5 – ارتباط نتایج  : در این مرحله ، تیم پروژه در تعامل با ذینفعان اصلی ، بررسی موفقیت آمیز بودن و یا ناکامی نتایج پروژه را بر اساس شاخص های تعیین شده در مرحله اول در دستور کار قرار می دهد . همچنین ، تیم پروژه یافته های جدید را شناسایی  و ارزیابی کمی ارزش تولیدی برای کسب و کار را دقیقا مشخص می نماید و آنها را به صورت شفاف و مستند وعملیاتی در اختیار ذینفعان اصلی قرار می دهد .
  • مرحله 6 – اجراء : در این مرحله تیم پروژه  گزارشات نهایی ، کد و مستندات فنی را ارایه می نماید . همچنین ممکن است یک پروژه پایلوت به منظور پیاده سازی مدل در یک محیط تولیدی توسط تیم پروژه سازماندهی و اجراء شود . 
 ماحصل اجرای مدل و تولید یافته های جدید می بایست بگونه ای مستند و طبقه بندی گردد که قابل استفاده برای افرادی باشد که در تعامل با تیم طراحی می باشند . در صورتی که تیم داده یک تجزیه و تحلیل دقیق فنی را انجام داده باشد ولی در ترجمه نتایج با زبانی که قابل درک برای مخاطبان هدف باشد ، ناکام باشد ، ارزش کار دیده نخواهد شد و عملا  تمامی تلاش های انجام شده به هدر خواهد رفت .

خلاصه
تجزیه و تحلیل داده دارای یک نقش کلیدی در فرآیند تصمیم گیری سازمانی است که امروزه جایگاه آن با توجه به وضعیت تولید داده وخصایص منحصربفرد آن ، دوچندان شده است . با برداشت های مختلف از ماهیت تجزیه و تحلیل داده ، نمی توان به یک درک مشترک دست یافت و بدیهی است نباید انتظار تولید یک ارزش مشترک را داشت . تجزیه و تحلیل داده می بایست تابع یک فرآیند حاکمیتی باشد و این فرآیند ملزم به تبعیت از یک چرخه حیات معتبر . تاکنون چرخه های حیات متعددی به منظور تجزیه و تحلیل داده ارایه شده است . در این مطلب به یکی از این چرخه های حیات با تمرکز بر روی کلان داده ها و یا داده های عظیم اشاره گردید . چرخه حیات فوق از شش مرحله مهم و استراتژیک تشکیل شده است که در ذیل هر مرحله مجموعه ای از فعالیت ها تعریف می شود . در بخش های بعدی با تمرکز بر روی هر مرحله ، با مجموعه فعالیت های آنها آشنا خواهیم شد.  
منابع  :

EMC Education Services. Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. Wiley, 2015
Bart Baesens,Analytics in a Big Data World: The Essential Guide to Data Science and its Applications. Wiley, 2014
Rachel Alt-Simmons,Agile by Design: An Implementation Guide to Analytic Lifecycle Management,Wiley, 2014
  


منابع مرتبط  
چرخه حیات تجزیه و تحلیل داده ( بخش پایانی) | مقاله | ۲۸ / ۰۳ / ۷۷۵ | میزان ارتباط : 100 درصد
چرخه حیات تجزیه و تحلیل داده (6) | مقاله | ۲۸ / ۰۳ / ۷۷۵ | میزان ارتباط : 100 درصد
چرخه حیات تجزیه و تحلیل داده (5) | مقاله | ۱۳ / ۰۱ / ۷۷۵ | میزان ارتباط : 100 درصد
چرخه حیات تجزیه و تحلیل داده (4) | مقاله | ۰۸ / ۰۴ / ۷۷۴ | میزان ارتباط : 100 درصد
چرخه حیات تجزیه و تحلیل داده (3) | مقاله | ۲۳ / ۰۳ / ۷۷۴ | میزان ارتباط : 100 درصد
چرخه حیات تجزیه و تحلیل داده (2) | مقاله | ۲۵ / ۰۲ / ۷۷۴ | میزان ارتباط : 100 درصد
تجزیه و تحلیل داده و انواع آن | مقاله | ۰۹ / ۰۹ / ۷۷۳ | میزان ارتباط : 100 درصد
تصمیم گیری داده محور | مقاله | ۱۳ / ۰۱ / ۷۷۴ | میزان ارتباط : 80 درصد
چگونه به یک سازمان داده محور تبدیل شویم ؟ | مقاله | ۰۲ / ۱۱ / ۷۷۳ | میزان ارتباط : 80 درصد
مقیاس پذیری تجزیه و تحلیل داده از گذشته تا کنون (2) | مقاله | ۰۷ / ۱۰ / ۷۷۳ | میزان ارتباط : 80 درصد
مقیاس پذیری تجزیه و تحلیل داده از گذشته تا کنون (1) | مقاله | ۲۱ / ۰۹ / ۷۷۳ | میزان ارتباط : 80 درصد