جزئیات  
عنوان مدیریت کیفیت داده (6)
نوع منبع اینفو پیک
گروه کیفیت داده
تاریخ انتشار 1396/2/15
خلاصه داده با کیفیت بالا یکی از معیارهای مهم موفقیت در عصر اطلاعات است . به موازات ورود به هزاره سوم ، به عصر اطلاعات وارد شده ایم که در آن داده و اطلاعات دارای نقشی حیاتی در عملکرد و موفقیت یک سازمان می باشند . انسان برای ادامه زندگی به اکسیژن نیاز دارد و سازمان ها جهت ادامه حیات خود به داده تازه و باکیفیت . داده با کیفیت پایین نظیر یک دزد خاموش است که بدون این که متوجه شویم همه چیز را سرقت خواهد کرد از زمان گرفته تا پول و اعتبار و مشتریان را . آشنایی با ابعاد کیفیت داده ، اولین گام به سمت بهبود کیفیت داده است . ارزیابی و سنجش کیفیت داده به کمک بعدهای مختلف کیفیت داده ، امکان بکارگیری روش های بهبود به کمک ابزارهای کیفیت داده را فراهم می نماید .

استقرار یک چارچوب مدیریت و بهبود کیفیت داده در طول حیات داده یکی از الزامات اساسی تمامی بنگاه های اقتصادی  است که قصد بهبود مستمر فضای کسب وکار خود و تعامل با سایر مراکز اقتصادی را دارند . چراکه بهبود در هر زمینه ای ، مستلزم اندازه گیری است و تا نتوان چیزی را اندازه گیری کرد نمی توان در مسیر بهبود آن حرکت کرد. به عنوان نمونه اگر به دنبال کاهش وزن خود می باشیم ، تا زمانی که نتوان آن را اندازه گیری کرد ، نمی توان در جهت کاهش محسوس و ملموس آن اقدامات لازم را انجام داد . با اندازه گیری وضعیت کیفیت داده به عنوان یکی از مهمترین دارایی های سازمانی، بستر مناسبی جهت موفقیت مستمر یک کسب و  کار فراهم می گردد چراکه این کار باعث می شود برای تجزیه و تحلیل و تصمیم گیری از ماده اولیه ای با کیفیت بالا استفاده گردد . گزارش کیفیت داده ارایه شده توسط موسسه Data warehousing بیانگر این واقعیت قابل تامل است که بنگاه های کسب و کار امریکا در طی یک سال 600 میلیارد دلار را مستقیما و یا غیرمستقیم به دلیل کیفیت پایین داده  مشتریان از دست می دهند .  بر اساس نتایج یک نظرسنجی معتبر ، بیش از 48 % بنگاه های کسب و کار هیچگونه برنامه ای برای مدیریت و بهبود کیفیت داده ندارد و در رویای رسیدن به موفقیت روز را به شب می رسانند!  رویایی که با توجه به سرعت تحولات گسترده در حوزه های مختلف کسب و کار ، امکان تحقق آن وجود نخواهد داشت .

وضعیت  مدیریت و بهبود کیفیت داده در سازمان ها         
شکل 1 : وضعیت  مدیریت و بهبود کیفیت داده در سازمان ها (منبع : TDWI)
 
موضوع کیفیت پایین داده صرفا محدود به بنگاه های کسب و کار نمی باشد و هر یک از ما به نوعی درگیر مسائل و مشکلات کیفیت داده در زندگی روزمره خود بوده ایم . به عنوان مثال ، در بسیاری از مواقع شاهد توزیع دیرهنگام و یا عدم توزیع یک نامه بوده ایم . در اغلب موارد شرکت ارایه دهنده خدمات پستی را سرزنش و مقصر این وضعیت می دانیم . در صورتی که با یک بررسی دقیق تر متوجه خواهیم شد که این مشکل به کیفیت ضعیف داده برمی گردد .مثلا آدرس اشتباه گیرنده نامه . فراموش نکنیم که اطلاعات دارای ماهیتی پویا است و از یک چرخه حیات معتبر تبعیت می کند . با بکارگیری و استقرار صحیح یک چارچوب مدیریت کیفیت داده می توان وضعیت کیفیت داده را بر اساس معیارهای مختلف در طول چرخه حیات داده اندازه گیری و در جهت ارتقاء سطح کیفی آنها حرکت کرد.

اهمیت ابعاد کیفیت داده
ابعاد کیفیت داده ( Data Quality Dimensions) از جمله اصطلاحات شناخته شده در حوزه مدیریت کیفیت داده است که از آن جهت سنجش کیفیت داده استفاده می گردد . دامنه بکارگیری ابعاد کیفیت داده بسیار گسترده و متنوع می باشد بگونه ای که حتی بین کارشناسان حرفه ای داده بر روی ابعاد کلیدی کیفیت داده توافق نظر نهایی وجود ندارد. در واقع از ابعاد کیفیت داده (با هدف بررسی و تعیین وضعیت کیفیت داده) ،  جهت تشریح یک ویژگی داده که قابلیت ارزیابی و اندازه گیری در مقابل استانداردهای تعریف شده را دارد، استفاده می گردد . ابعاد کیفیت داده به همراه تعاریف مربوطه می بایست بین تمامی ذینفعان کیفیت داده به اشتراک گذاشته شوند تا با ایجاد یک زبان مشترک ، بتوان از آن به عنوان استانداردی جهت ارزیابی و تشریح کیفیت داده استفاده کرد . با توجه به جایگاه داده از منظر کسب و کار ، انتخاب بعدهای کیفیت داده و نقاط آستانه مجاز و غیرمجاز می بایست توسط کسب و کار تعیین گردد و فناوری اطلاعات می بایست صرفا  نقش مشاوره و تامین بعد فنی کار را برعهده داشته باشد ( کسب و کار است که تعیین می کند چه داده ئی با چه سطحی از مقبولیت دارای ارزش است  ).

ابعاد کیفیت داده        
شکل 1 : ابعاد کیفیت داده
با توجه به ماهیت کسب و کار و خواسته های موجود ، ممکن است در مواردی از برخی ابعاد داده صرف نظر گردد و از تعداد بعد کمتری جهت اندازه گیری کیفیت داده استفاده شود . به عنوان مثال اگر از کارشناسان حرفه ای داده دو سازمان با زمینه های کاری مختلف بخواهیم گزارش ماحصل بررسی وضعیت کیفیت داده بانک اطلاعاتی مشتریان خود را ارایه نمایند ، هر یک از آنها می توانند بر اساس ابعاد مختلف کیفیت داده، وضعیت کیفیت داده را ارزیابی و گزارش مورد نظر را ارایه نمایند . با مطالعه چارچوب ها و به روش های ارایه شده تاکنون ، متوجه این واقعیت می شویم که در این خصوص یک توافق جامع  وجود ندارد و شاید در کلیات همه یک حرف را می زنند ولی در جزئیات و بکارگیری معیارها با یکدیگر تفاوت هایی دارند .
  
ابعاد مختلف کیفیت داده
آشنایی با ابعاد کیفیت داده اولین گام به سمت بهبود کیفیت داده است . توانایی تشخیص نقض داده  به کمک ابعاد مختلف کیفیت داده و گروه بندی آنها به تحلیل گران و پیاده کنندگان اجازه می دهد تا با یکارگیری روش های بهبود به کمک ابزارهای کیفیت داده در مسیر بهبود اطلاعات و فرآیندهایی که اطلاعات را ایجاد و یا از آنها در جهت انجام پردازش های مورد نیاز استفاده می نمایند ، گام های اصولی را بردارند . جهت سنجش کیفیت داده می توان از هفت بعد نشان داده شده در شکل 2  استفاده کرد . مجددا یادآوری می گردد که  ابعاد فوق بر اساس برخی چارچوب ها و نقطه نظرات کارشناسان حرفه ای کیفیت داده انتخاب شده اند و می توان در صورت نیاز و با توجه به نیازهای کسب و کار موارد دیگری نظیر Timeliness ( آیا زمانی که به داده نیاز است ، امکان دستیابی به آن وجود دارد؟) و  Accessibility (آیا داده به سادگی قابل دسترسی ، قابل فهم و قابل استفاده است ؟ ) را به لیست فوق اضافه  کرد .

هفت بعد کیفیت داده       
شکل 2 : هفت بعد کیفیت داده

در ادامه به هر یک از بعدهای مختلف کیفیت داده اشاره خواهیم کرد تا مشخص گردد معیار مورد نظر قرار است چه چیزی را اندازه گیری نماید و تا چه میزان می تواند بر فعالیت های کسب و کار یک بنگاه اقتصادی تاثیرگذار باشد.

Accuracy : آیا داده همان چیزی است که انتظارش را داریم . به عنوان نمونه یک شماره تلفن ، یک شماره تلفن صحیح است اگر شامل عدد درست از اعداد معتبر باشد و همچنین دارای فرمت صحیح بر اساس الگوی کشور مورد نظر باشد. مثلا شماره تلفن 02122222222 یک شماره تلفن معتبر در ایران است ولی اگر از این فیلد برای شماره تلفن های موبایل نیز استفاده شده باشد ، این شماره تلفن معتبر نخواهد بود .
 فرض کنید در بانک اطلاعاتی مشتریان دارای  70 هزار رکورد باشیم که  فیلد شماره تلفن آن صرفا برای  65 هزار مشتری ثبت شده باشد  ( نرخ completeness برابر است با  92.8% ) . اگر صرفا از 65 هزار رکورد ارایه شده که فیلد شماره تلفن آنها ثبت شده باشد ،  60 هزار رکورد آن دارای شماره تلفن معتبر باشند ، نرخ Accuracy رکوردهای ارایه شده معادل  92.3 % خواهد بود. با توجه به نرخ عدم کامل بودن شماره تلفن ، نرخ  Accuracy   بانک اطلاعاتی معادل 7. 85 خواهد بود ( از 70 هزار رکورد مشتریان ، 60 هزار رکورد دارای شماره تلفن معتبر می باشند ).
Accuracy  ، معیاری است که درصد صحت و دقت داده ارایه شده را نشان می دهد و بهبود آن دارای مزایای مشهودی در یک کسب و کار است . به عنوان نمونه ،  هر اندازه که بانک اطلاعاتی مشتریان  دارای رکوردهای حاوی شماره تلفن صحیح و معتبر باشد ، می توان کمپین هایی را که شماره تلفن در آنها دارای نقش محوری است ( نظیرTelemarketing ) با احتمال موفقیت بیشتری اجراء کرد .این وضعیت در خصوص ایمیل و کمپین های مبتی بر ایمیل نیز صدق می کند .   داشتن استانداردهای مناسب برای ورود اطلاعات ، حضور فعال نرم افزار برای بهبود داده ( نظیر اعتبارسنجی داده )  و وارد کردن  داده صرفا صحیح به بانک های اطلاعاتی می تواند این اطمینان را ایجاد نماید که Accuracy داده به درستی نگهداری و پشتیبانی می گردد .
 
Completeness : معیاری است که به این پرسش حیاتی پاسخ می دهد که آیا داده مورد نظر موجود است و یا خیر ؟ به عنوان نمونه اگر در بانک اطلاعاتی مشتریان بالقوه و بالفعل دارای فیلدی جهت ثبت آدرس ایمیل مشتری و یا lead   باشیم و صرفا برای 50 هزار از 75 هزار مشتری ،  فیلد فوق تکمیل شده باشد و اعتبارسنجی آن بر اساس الگوهای موجود انجام شده باشد ، نرخ کامل بودن فیلد ایمیل در بانک اطلاعاتی مشتریان معادل  6 . 66%  خواهد بود .  Completeness  ،  یکی از مقدماتی ترین و در عین حال مهمترین شاخص در مجموعه معیارهای ابعاد کیفیت داده است . برای آشنایی بیش  تر با اهمیت معیار فوق اجازه دهید فیلد ایمیل در بانک اطلاعاتی مشتریان را بررسی کنیم و ببینیم عدم تکمیل آن می تواند چه تاثیری را بر فضای کسب و کار یک بنگاه اقتصادی به دنبال داشته باشد . اگر قصد انجام یک کمپین مبتنی بر ایمیل را با  نرخ موفقیت یک درصد lead to sales  با حداقل سفارش یکصد هزار تومان  به ازای  هر lead  را داشته باشیم ، یک درصد 50 هزار ایمیل می شود 500 مشتری جدید و می تواند   رقمی بالغ بر   50 میلیون تومان فروش را برای کسب و کار به دنبال داشته باشد . ( 500 * یکصد هزار تومان ) .اگر تعداد ایمیل از 50 هزار به 60 هزار افزایش یابد شاهد افزایش ده هزارتایی ایمیل خواهیم بود که یک درصد آن باعث ایجاد  100 فرصت بالقوه جدید و یا lead می گردد که می تواند مبلغی بالغ بر ده میلیون تومان فروش اضافه را به دنبال داشته باشد ( 100 * یکصد هزارتومان  )  .همانگونه که مشاهده می گردد با ثبت آدرس ایمیل در بانک اطلاعاتی مشتریان  و افزایش نرخ  Completeness  ، می توان احتمال موفقیت یک کمپین را افزایش داد. کامل بودن اطلاعات کلیدی بسیار حائز اهمیت است و می تواند شرایط مناسبی جهت بهره برداری از فرصت ها را برای یک کسب و کار فراهم نماید . 
 
Conformity : به میزان انطباق اطلاعات با استانداردهای داخلی و خارجی اشاره دارد . به عنوان نمونه  در یک سازمان احتمالا برای عناوین شغلی از یک لیست مشخص  استفاده می گردد که بر اساس مجموعه قواعد و قوانین خاصی تعریف شده اند . ( ذخیره شده در یک جدول lookup ) . بدیهی است در چنین مواردی عناوین شغلی نسبت داده شده به هر یک از کارکنان می بایست تابع لیست فوق باشد و خارج از لیست فوق نمی بایست شاهد وجود عناوین شغلی دیگری در بانک اطلاعاتی مربوطه باشیم . مثال فوق را می توان به موارد متعددی دیگر نظیر اسامی مکان اشتغال به کار ، اسامی محصولات و ... تعمیم داد . تبعیت یک یا چندین فیلد اطلاعاتی از استانداردهای درون سازمان بسیار حائز اهمیت است . استانداردهایی که در اغلب موارد به صورت داده های مرجع تعریف می گردند . برای تبعیت از استانداردهای خارجی می توان به فیلد اطلاعاتی آدرس اشاره کرد . بدیهی است که در هر کشور آدرس پستی می بایست تابع یک الگوی خاص باشد تا بر اساس آن بتوان به آدرس افراد دسترسی داشت . تبعیت  از داده های مرجع خارجی در یک سازمان و میزان انطباق فیلدهای اطلاعاتی مربوطه از آن بسیار حائز اهمیت است . به عنوان نمونه در صورتی که می بایست در یک سیستم فروش محصولات برای هر کالا یک کد ملی در نطر گرفته شود ، کد ملی کالا به عنوان یک داده مرجع خارجی است که بر اساس ضوابطی برای محصول صادر شده است  و تولید کننده و فروشنده محصول ملزم به تبعیت از آن  در سیستم های داخلی می باشند .

Currency : از این شاخص به عنوان یکی از مهمترین ابعاد کیفیت داده در  بسیاری از بنگاه های کسب و کار  نام برده می شود و به این موضوع مهم اشاره دارد که تا چه میزان می توان به به روز بودن اطلاعات اعتماد کرد و آیا اطلاعات ثبت شده بیانگر آخرین وضعیت موجود موجودیت ها می باشند . مثلا در یک سازمان B2C دانستن این موضوع که اسامی افراد و آدرس ها معتبر می باشند  بر روی بسیاری از فعالیت های آنها خصوصا کمپین های بازاریابی تاثیرگذار است . تماس با افرادی که از مکان خود منتقل شده اند و یا اسامی خود را تغییر داده اند و یا اصلا تمایلی به ارتباط با سازمان ندارند ، نتیجه مطلوبی را برای یک سازمان به دنبال نخواهد داشت . همچنین ،  ارسال پیام تبریک تولد برای فردی که  دیگر در قید حیات نیست می تواند  به اعتبار و شهرت یک بنگاه کسب و کار صدمات فراوانی وارد می کند.

Consistency :داده در تمام سیستم ها می بایست نشان دهنده اطلاعات مشابهی باشد و با سایر داده های موجود در سازمان همگام  باشد . به عبارت دیگر ،  اشیاء مشابه نمی بایست دارای اطلاعات متناقضی در بانک اطلاعاتی باشند . اجازه دهید به دو نمونه مثال در این رابطه اشاره کنیم که نشان دهنده وجود اطلاعات متناقض در بانک های اطلاعاتی یک سازمان است .  در بانک اطلاعاتی کارکنان وضعیت شغلی یک کارمند 'اخراجی ' درج شده است ولی در بانک اطلاعاتی دیگر وضعیت پرداخت حقوق وی همچنان فعال است و احتمالا سیستم حقوق و دستمزد برای وی فیش حقوقی صادر می کند  و یا در بانک اطلاعاتی مشتریان وضعیت مشتری 'قطع همکاری' ثبت شده است ولی همچنان فاکتورهایی برای آن مشتری صادر می شود . بدیهی است وجود اطلاعات متناقض در بانک های اطلاعاتی باعث عدم اعتماد به گزارشات و سردرگمی در تصمیم گیری  برای تمامی لایه های تصمیم گیر در یک سازمان می گردد .
 
Dupliaction : به موجودیت های کسب و کار اشاره دارد که بیش از یک مرتبه تکرار می شوند و مشابه هم هستند . تکرار در ثبت نام یک شرکت و یا آدرس آن در بانک اطلاعاتی مشتریان نمونه هایی در این زمینه می باشند.تقریبا اغلب بانک های اطلاعاتی را اگر به درستی و با دقت آنالیز کنیم به موارد تکراری متعددی در ارتباط  با موجودیت های اصلی کسب و کار برخورد می کنیم . تکرار در اطلاعات می تواند باعث بروز مسائل متعددی گردد . به عنوان نمونه اگر در یک سازمان B2B  نام یک شرکت به عنوان دو حساب مختلف ثبت شده باشد ،  هر یک می تواند سفارشات ، تماس ها و فعالیت های مرتبط با خود را داشته باشد که در هر حالت باعث بروز مسائل متعددی در خصوص مشتری می گردد . در اغلب موارد ،  تکرار در اطلاعات می تواند بر روی اعتبار و شهرت یک سازمان اثر منفی داشته باشد و امکان ایجاد یک دید واحد از مشتری را سلب نماید .

Integrity : به ارتباط بین موجودیت های داده اشاره دارد . مثلا شرکت ها به آدرس و شماره تماس لینک می شوند . اشیاء دنیای واقعی می بایست به درستی به سایر اشیاء مرتبط شده باشند. اگر اشیاء به درستی به یکدیگر مرتبط نشده باشند ، احتمال از دست دادن اطلاعات به شدت افزایش خواهد یافت . فرض کنید در یک بانک اطلاعاتی دارای آدرس هایی باشیم که معلوم نیست به چه حساب و یا مشتری تعلق دارند و یا دارای مشتریانی باشیم که دارای آدرس تماس نباشند. در صورتی که نتوانیم رکوردهای مرتبط با هم را در یک بانک اطلاعاتی به درستی به یکدیگر مرتبط نمائیم ، شاهد وجود رکوردهای تکراری و تناقضات متعددی در بانک اطلاعاتی خواهیم بود . یکپارچگی اطلاعات در بانک های اطلاعاتی یکی از اصول مهم و خدشه ناپذیر می باشد که صلابت و اقتدار یک بانک اطلاعاتی را در مرحله عملیات و بهره برداری به خوبی نشان می دهد . 


   فابک - توئیتر   سایر توئیت ها