
در موضوعات پیرامون یادگیری علم داده ، هنگام استفاده از داده ها، اکثر مردم موافق هستند که بینش و تجزیه و تحلیل شما فقط به خوبی داده هایی است که استفاده می کنید. اساسا، داده های زباله در تجزیه و تحلیل زباله است. پاکسازی داده ها، که به آن پاکسازی داده ها یا Data Cleaning گفته می شود، یکی از مهم ترین مراحل برای سازمان شما است اگر می خواهید فرآیند پیرامون تصمیم گیری داده های با کیفیت ایجاد کنید.
پاکسازی داده ها چیست؟
پاکسازی داده ها فرآیند اصلاح یا حذف داده های نادرست، خراب، فرمت نادرست، تکراری یا ناقص در یک مجموعه داده است. هنگام ترکیب چندین منبع داده، فرصت های زیادی برای تکرار یا برچسب گذاری اشتباه داده ها وجود دارد. اگر داده ها نادرست باشند، نتایج و الگوریتم ها غیرقابل اعتماد هستند، حتی اگر درست به نظر برسند. هیچ راه مطلقی برای تجویز مراحل دقیق در فرآیند پاکسازی داده ها وجود ندارد زیرا فرآیندها از مجموعه داده ای به مجموعه دیگر متفاوت خواهند بود. اما بسیار مهم است که یک الگو برای فرآیند پاکسازی داده های خود ایجاد کنید تا بدانید هر بار آن را به درستی انجام می دهید.
تفاوت بین پاکسازی داده و تبدیل داده چیست؟
پاکسازی داده ها فرآیندی است که داده هایی را که به مجموعه داده شما تعلق ندارند حذف می کند. تبدیل داده فرآیند تبدیل داده ها از یک فرمت یا ساختار به فرمت دیگر است. فرآیندهای تبدیل را میتوان بهعنوان جدال دادهها یا جابجایی دادهها، تبدیل و نگاشت دادهها از یک فرم داده «خام» به قالب دیگری برای نگه داری و تجزیه و تحلیل نام برد. این مقاله بر روی فرآیندهای پاکسازی داده ها تمرکز دارد.
چگونه داده ها را پاک می کنید؟
در حالی که تکنیکهای مورد استفاده برای پاکسازی دادهها ممکن است بسته به نوع دادههایی که شرکت شما ذخیره میکند متفاوت باشد، میتوانید این مراحل اساسی را برای ترسیم چارچوبی برای سازمان خود دنبال کنید.
1) مشاهدات تکراری یا نامربوط را حذف کنید
مشاهدات ناخواسته را از مجموعه داده خود حذف کنید، از جمله مشاهدات تکراری یا مشاهدات نامربوط. مشاهدات تکراری اغلب در طول جمع آوری داده ها اتفاق می افتد. وقتی مجموعه دادهها را از چندین مکان ترکیب میکنید، دادهها را میخرید یا دادههایی را از مشتریان یا چندین بخش دریافت میکنید، فرصتهایی برای ایجاد دادههای تکراری وجود دارد. عدم تکرار یکی از بزرگترین حوزه هایی است که در این فرآیند باید در نظر گرفته شود. مشاهدات بی ربط زمانی است که متوجه مشاهداتی می شوید که با مشکل خاصی که می خواهید تجزیه و تحلیل کنید نمی گنجد. برای مثال، اگر میخواهید دادههای مربوط به مشتریان هزاره را تجزیه و تحلیل کنید، اما مجموعه دادههای شما شامل نسلهای قدیمیتر است، ممکن است آن مشاهدات نامربوط را حذف کنید. این می تواند تجزیه و تحلیل را کارآمدتر کند و حواس پرتی را از هدف اصلی شما به حداقل برساند - و همچنین یک مجموعه داده قابل مدیریت و کارآمدتر ایجاد کند.
2) رفع خطاهای ساختاری
خطاهای ساختاری زمانی اتفاق میافتد که دادهها را اندازهگیری یا انتقال میدهید و متوجه نامگذاریهای عجیب، اشتباهات تایپی یا حروف بزرگ نادرست میشوید. این ناهماهنگیها میتوانند باعث برچسبگذاری اشتباه دستهها یا کلاسها شوند. به عنوان مثال، ممکن است "N/A" و "Not Applicable" هر دو ظاهر شوند، اما باید به عنوان یک دسته تجزیه و تحلیل شوند.
3) فیلتر کردن داده های پَرت ( دور از بقیه داده ها )
اغلب، مشاهداتی یکباره وجود دارد که در یک نگاه، به نظر نمی رسد که با داده هایی که شما تجزیه و تحلیل می کنید، مطابقت داشته باشند. اگر دلیل موجهی برای حذف اطلاعات پرت دارید، مانند ورود نامناسب داده، انجام این کار به عملکرد داده هایی که با آنها کار می کنید کمک می کند. با این حال، گاهی اوقات ظاهر یک چیز پرت است که نظریه ای را که روی آن کار می کنید ثابت می کند. به یاد داشته باشید: صرفاً به این دلیل که یک نقطه دورتر وجود دارد، به این معنی نیست که نادرست است. این مرحله برای تعیین اعتبار آن عدد مورد نیاز است. اگر ثابت شد که یک نقطه پرت برای تجزیه و تحلیل نامربوط است یا اشتباه است، آن را حذف کنید.
4) داده های از دست رفته را مدیریت کنید
شما نمی توانید داده های از دست رفته را نادیده بگیرید زیرا بسیاری از الگوریتم ها مقادیر از دست رفته را نمی پذیرند. چند راه برای مقابله با داده های از دست رفته وجود دارد. هیچکدام بهینه نیستند، اما هر کدام را می توان در نظر گرفت.
- به عنوان اولین گزینه، میتوانید مشاهداتی را که مقادیر گم شدهاند رها کنید، اما انجام این کار باعث حذف یا از دست رفتن اطلاعات میشود، بنابراین قبل از حذف آنها به این موضوع توجه داشته باشید.
- به عنوان گزینه دوم، می توانید مقادیر گم شده را بر اساس مشاهدات دیگر وارد کنید. دوباره، فرصتی برای از دست دادن یکپارچگی داده ها وجود دارد، زیرا ممکن است بر اساس فرضیات عمل کنید و نه مشاهدات واقعی.
- به عنوان گزینه سوم، ممکن است روش استفاده از داده ها را برای پیمایش موثر مقادیر تهی تغییر دهید.
5) اعتبارسنجی و QA
در پایان فرآیند پاکسازی داده ها، باید بتوانید به عنوان بخشی از اعتبارسنجی اولیه به این سؤالات پاسخ دهید:
- آیا داده ها منطقی هستند؟
- آیا داده ها از قوانین مناسب برای حوزه خود پیروی می کنند؟
- آیا این نظریه کار شما را اثبات یا رد می کند، یا بینشی را آشکار می کند؟
- آیا می توانید روندهایی را در داده ها پیدا کنید تا به شما در شکل گیری نظریه بعدی کمک کند؟
- اگر نه، آیا این به دلیل مشکل کیفیت داده است؟
نتیجه گیری نادرست به دلیل داده های نادرست یا "کثیف" می تواند استراتژی و تصمیم گیری ضعیف کسب و کار را نشان دهد. نتیجهگیریهای نادرست میتواند منجر به لحظات شرمآوری در جلسه گزارشدهی شود، زمانی که متوجه میشوید دادههای شما قابل بررسی نیستند. قبل از رسیدن به آنجا، مهم است که فرهنگ داده های با کیفیت را در سازمان خود ایجاد کنید. برای انجام این کار، باید ابزارهایی را که ممکن است برای ایجاد این فرهنگ استفاده کنید و اینکه کیفیت داده برای شما چه معنایی دارد، مستند کنید.
اجزای داده های با کیفیت
تعیین کیفیت داده ها مستلزم بررسی ویژگی های آن است، سپس آن ویژگی ها را بر اساس آنچه برای سازمان شما مهم است و برنامه(هایی) که برای آنها استفاده خواهد شد، سنجید.
5 ویژگی داده های با کیفیت
- اعتبار. میزان انطباق داده های شما با قوانین یا محدودیت های تجاری تعریف شده.
- دقت. اطمینان حاصل کنید که داده های شما به مقادیر واقعی نزدیک است.
- کامل بودن. درجه ای که تمام داده های مورد نیاز شناخته شده است.
- ثبات. اطمینان حاصل کنید که دادههای شما در یک مجموعه داده یکسان و/یا در چندین مجموعه داده سازگار است.
- یکنواختی. درجه ای که داده ها با استفاده از همان واحد اندازه گیری مشخص می شوند.