جزئیات  
عنوان مدیریت داده مرجع
نوع منبع مقاله
گروه داده Master و Reference
تاریخ انتشار 1394/7/23
خلاصه در تمامی سازمان ها ، داده مرجع یا Reference data در اغلب بانک های اطلاعاتی موجود است . جداول مرجع که به آنها جداول کد هم می گویند، از طریق کلیدهای خارجی به سایر جداول بانک های اطلاعاتی رابطه ای مرتبط می شوند و این اطمینان ایجاد خواهد شد که صرفا از مقادیر مجاز اقتباس شده از جداول مرجع در سایر جداول استفاده می گردد.

داده مرجع به داده یی اطلاق می گردد که از آن برای گروه بندی سایر داده های درون برنامه ها و یا بانک های اطلاعاتی یک سازمان استفاده می گردد و شامل داده جداول lookup و code است .تقریبا در هر برنامه ای از داده مرجع استفاده  می گردد. کد کشورها ، واحدهای پول ، کدهای صنعتی و ... نمونه هایی از داده مرجع می باشند . داده مرجع با داده تراکنشی و داده master متفاوت است . داده تراکنشی ، داده یی است که توسط تراکنش های درون یک برنامه ( نظیر فعل خریدن، فعل عضو شدن و ... ) تولید می گردند. داده master ، موجودیت های اساسی کسب و کار مشارکت کننده در تراکنش ها را ارایه می نماید .داده مرجع با متادیتا نیز متفاوت است.متا دیتا،ساختار یک موجودیت را تشریح می کند . با ترکیب و بکارگیری داده تراکنشی، داده master و داده مرجع ، داده کلیدی کسب و کار درون یک سازمان شکل پیدا می کند .
در شکل 1 ، یک نمونه رویداد داده نشان داده شده است . در این رویداد ،  داده تراکنشی ( رکورد فروش ) با استفاده از داده Master (سه موجودیت اصلی کسب و کار : مشتری ، کالا ، مکان )  و داده مرجع ( روش پرداخت )  تولید شده است .

 داده تراکنشی ، master و مرجع   
شکل 1 : داده تراکنشی ، master و مرجع

پروژه مدیریت داده مرجع 

اکثر برنامه های سازمانی از داده مرجع  استفاده می نمایند . این نوع داده درون جداول کد قرار می گیرند تا بتوان به کمک آنها دسته بندی و گروه بندی اطلاعات محصول ، مشتری و  داده تراکنشی را انجام داد . نرخ انجام تغییرات در داده مرجع پایین است ولی این احتمال وجود دارد که در طول زمان تغییراتی بر روی آنها اعمال شود . مدیریت صحیح داده مرجع در یک سازمان چالش های مختص به خود را دارد .مدیریت موقت ، غیرمنسجم و غیرمتمرکز داده مرجع بدون وجود یک سیاست حاکمیتی رسمی  تهدیدات و  هزینه های متعددی را برای یک سازمان به دنبال خواهد داشت . برای بسیاری از سازمان ها، داده مرجع یکی از عوامل اصلی بروز مشکلات و مسایل  در ارتباط با کیفیت داده سازمانی است .
اجرای یک پروژه مدیریت داده مرجع مستلزم دنبال نمودن مراحل مختلفی است . شکل 2 ،مراحل اجرای یک پروژه مدیریت داده مرجع را نشان می دهد .

 مراحل اجرای یک پروژه مدیریت داده مرجع       
شکل 2 : مراحل اجرای یک پروژه مدیریت داده مرجع

ابعاد گسترده استفاده از داده مرجع 
از جداول بانک اطلاعاتی که داده مرجع را در خود ذخیره می کنند با اسامی مختلفی همچون جداول Lookup ، Code و یا Domains نام برده می شود. داده مرجع معمولا شامل یک کد به همراه شرح کد است و دارای مجموعه ای از مقادیر است که لیست مقادیر مجاز را مشخص می کند. داده مرجع، داده فقط خواندنی است که از آنها در تراکنش ها استفاده می گردد ولی اجازه تغییر آنها وجود ندارد. داده مرجع می تواند به شکل یک لیست فلت  (به  عنوان نمونه  لیست استان های کشور ) و یا  دارای یک ساختار سلسله مراتبی باشد (به عنوان نمونه ، سلسله مراتب جغرافیایی شامل کشور ، استان و شهر ) .
از داده مرجع در مقیاس گسترده ای در برنامه های یک سازمان استفاده می گردد. معمولا هم داده تراکنشی و هم داده  master دارای نوع های مختلف زیادی از داده مرجع مرتبط شده با خود می باشند. کاربران برنامه های کامپیوتری جلوه های استفاده از داده مرجع را در منوهای drop-down و لیست های انتخابی بخش رابط کاربری برنامه های کامپیوتری مشاهده می کنند . این نوع لیست های انتخابی ،کاربران را وادار می کنند تا یکی از موارد نشان داده شده در لیست را انتخاب نمایند. این کار از یک طرف سرعت درج اطلاعات را افزایش می دهد و از طرف دیگر  باعث کاهش خطا می گردد .
داده مرجع می تواند از موارد عمومی تا مختص یک صنعت ، شرکت ، دپارتمان و یا حتی برنامه را شامل شود . به عنوان نمونه ،  ISO 3166-1 شامل کد کشور ها است که در صنایع مختلفی کاربرد دارد و  یا ICD-10  استاندارد بین المللی برای دسته بندی بیماری ها مرتبط با بهداشت و درمان است . تعداد زیادی از استانداردهای داده مرجع به منظور حمایت از تعامل بین برنامه ها و سازمان ها ایجاد شده است (حهت تجارت عمومی و حمایت از تجزیه و تحلیل های آماری داده در یک سازمان و یا چندین سازمان ) . مراکز متعددی  مسئولیت نگهداری استانداردهای داده مرجع ، انتشار مجموعه کدهای استاندارد ،گروه بندی و بهنگام سازی را با قالب های مختلفی برعهده دارند .

نحوه تشخیص داده مرجع   
با طرح برخی سوالات و پاسخ به آنها می توان تشخیص داد که آیا یک داده را می توان در زمره داده های مرجع در نظر گرفت یا خیر .
  • آیا داده های دیگری را گروه بندی می کند ؟
  •  آیا  می توان لیستی از مقادیر مجاز  را برای آن مشخص کرد؟
  • آیا در زمان استفاده از آن در تراکنش ها ، بدون تغییر باقی می ماند ؟
  • آیا نسبتا ثابت است و بندرت تغییر می کند ؟
  • آیا جهت مدیریت آن نیاز به  مجموعه ای از خصایص اضافی به همراه مقدار مربوطه وجود دارد؟
برای داده مرجع پاسخ به چهار سوال اولیه مثبت است و برای سوال پنجم ، پاسخ منفی است . جدول 1 ، تفاوت داده مرجع با داده master را نشان می دهد.

تفاوت داده  Master  و  Reference
داده Master داده Reference
موجودیت های اساسی کسب و کار که در تراکنش ها مشارکت فعالانه دارند . تراکنش کسب و کار توسط چه کسی ، بر روی چه چیزی و در چه مکانی انجام شده است ؟ محصول ، مشتری ، کارمند ، مکان و ...نمونه هایی در این زمینه می باشند گروه بندی سایر داده ها
مقادیر مرجع ،داده Master و یا تراکنشی را طبقه بندی می کنند .
دارای مجموعه ای از قبل تعریف شده از مقادیر مجاز نمی باشد مجموعه ای از مقادیری که به خوبی تعریف و مشخص شده اند.
امکان ایجاد و یا تغییر  آن توسط برنامه های کسب و کار وجود دارد نظیر بهنگام سازی محصول و  یا مشتری  توسط برنامه ها و یا تراکنش هایی که از آن استفاده می کنند تغییر نمی یابد و حضورش صرفا به صورت فقط خواندنی است.
امکان تغییر متناوب آن وجود دارد نسبتا ایستا بوده و داده با سرعت خیلی کم تغییر می کند.
می تواند دارای ساختاری پیچیده به همراه خصلت های متعددی باشد ساختار داده آن فلت و یا سلسله مراتبی  است و شامل خصایص مرتبط زیادی نمی باشد .

اشتباه نکنیم !
متغیرها یک نوع داده می باشند که خارج از محدوده تعریف ما از داده مرجع قرار می گیرند و در تمامی سازمان از آنها استفاده گردد (نظیر نرخ مالیات و یا نرخ مبادله روزانه پول) . این نوع متغیرهای مرجع ، سایر داده ها را گروه بندی نمی کنند و دارای  لیستی از مقادیر از قبل تعریف شده نمی باشند . همانند داده مرجع،از آنها در تراکنش ها و به صورت فقط خواندنی استفاده می شود .متغیرهای مرجع معمولا به صورت خارجی برای سازمان تعریف می گردند و ممکن است از آنها توسط برنامه های متعددی در سازمان استفاده شود . مدیریت متغیرهای مرجع و داده مرجع  شباهت زیادی به یکدیگر دارند .در طراحی یک برنامه حاکمیتی برای داده مرجع ، در نظر گرفتن این نوع متغیرهای مرجع حائز اهمیت است . بر خلاف داده مرجع ،نرخ تغییرات متغیرهای مرجع  زیاد است.به عنوان نمونه نرخ مبادله پولی می تواند روزانه تغییر کند . شکل  3 ، تاکیدی بر  این واقعیت است که داده مرجع با متغیر مرجع متفاوت است .
 
 تفاوت داده مرجع  با متغیر مرجع       
شکل 3 : تفاوت داده مرجع  با متغیر مرجع

هزینه عدم مدیریت داده مرجع
امروزه تعداد زیادی از سازمان ها دارای یک حاکمیت متمرکز بر روی داده مرجع نمی باشند .داده های مرجع حیاتی ، اغلب در مجموعه ای از صفحات گسترده نگهداری و با استفاده از روش های کاملا دستی مدیریت می شوند. اعمال تغییرات غیرمتمرکز بر روی داده های مرجع و  ایجاد تناقض بین آنها می تواند به یک منبع اصلی در بروز مشکلات کیفیت داده در یک سازمان تبدیل شود و مشکلات عدیده ای در اجرای صحیح فرآیند، تراکنش ها و گزارشات را به دنبال داشته باشد .مدیریت صحیح داده مرجع به عنوان یکی از مجموعه فعالیت های مدیریتی حوزه کلان داده دریک سازمان می بایست شامل یک چارچوب مدون شامل حاکمیت ،فرآیندها ،امنیت ،کنترل ممیزی باشد تا ضمن ارتقاء سطح داده به عنوان یک سرمایه سازمانی، شاهد بروز خطاهای کمتر ،کاهش ریسک کسب و کار و  کاهش هزینه باشیم . شکل  4 ، ابعاد مختلف هزینه عدم مدیریت داده مرجع را نشان می دهد.

 هزینه  عدم مدیریت  داده مرجع       
شکل 4 : هزینه  عدم مدیریت  داده مرجع
معماری داده مرجع  
یک معماری موثر یکپارچه سازی داده با کنترل دسترسی ، تکرار و جریان داده شرایط مطلوب و بهینه ای جهت کیفیت داده و سازگاری خصوصا برای داده مرجع و داده master را فراهم می کند . بدون وجود یک معماری یکپارچه سازی داده ، مدیریت داده مرجع و master به صورت محلی و در سیلوهای برنامه محقق می گردد.این کار ضمن ایجاد افزونگی داده شرایط ناسازگاری داده را فراهم می کند . از رویکردهای معماری مختلفی جهت یکپارچه سازی داده مرجع استفاده می گردد. شکل 5 ، یک نمونه معماری یکپارچه سازی داده مرجع را نشان می دهد . در این شکل یک بانک اطلاعاتی حاوی رکوردهای داده مرجع به عنوان هاب داده مرجع ایفای وظیفه می نماید و داده مرجع را در اختیار سایر برنامه ها و یا بانک های اطلاعاتی قرار می دهد . برخی برنامه ها قادر به خواندن داده مرجع بطور مستقیم و ازطریق بانک اطلاعاتی حاوی رکوردهای مرجع می باشند . برخی برنامه ها دارای مجوز لازم جهت انتشار داده های جدید و یا بهنگام سازی داده مرجع در صورت لزوم می باشند .


 ک نمونه  معماری مدیریت داده مرجع       
شکل 5 : یک نمونه  معماری مدیریت داده مرجع

خلاصه

داده مرجع ، داده یی است که از آن برای طبقه بندی و یا گروه بندی سایر داده ها استفاده می گردد. معمولا قواعد کسب و کار، مجموعه مقادیر مجاز داده مرجع را مشخص می نمایند.این که چه مقداری مجاز است و یا چه مقداری مجاز نیست . مجموعه مقادیر مجاز داده ، یک دامنه ارزش را مشخص می نمایند.برخی سازمان ها دامنه ارزش داده مرجع را به صورت داخلی تعریف می کنند نظیر کد وضعیت سفارش که می تواند شامل جدید ، درحال پیشرفت، به اتمام رسیده و یا کنسل شده باشد . سایر دامنه های ارزش داده به صورت خارجی و به عنوان حاکمیتی یا استانداردهای صنعتی بکار گرفته می شود نظیر استاندارد کدپستی در یک کشور .
مدیریت داده مرجع یکی از مهمترین فعالیت ها در حوزه مدیریت کلان و فراگیر داده در یک سازمان است که ضمن ایجاد  یک انظباط  مناسب در بکارگیری داده مرجع در تمامی برنامه های یک سازمان ، شرایط مطلوبی را  نیز به منظور یکپارچه سازی داده فراهم می کند .