
در زمینه علم داده مسلما اولین قدم شما برای حل مسئله یا پیدا کردن پاسخ، بدست آوردن داده هاست. در این راستا شما بایستی بدانید که چگونه میتوانید داده های مختلط را بدست آورید، هر داده چه اعتباری دارد یا اینکه داده های خود را از چه منابعی استخراج کنید؟
به مجموعه این فعالیت ها Data Mining یا به زبان فارسی داده کاوی میگوند. شما پس از خواندن این مقاله خواهید توانست به سوالات بالا پاسخ دهید.
داده کاوی چیست؟
داده کاوی، همچنین به عنوان کشف دانش در داده ها (KDD) شناخته می شود، فرآیند کشف الگوها و سایر اطلاعات ارزشمند از مجموعه داده های بزرگ است. با توجه به تکامل فناوری ذخیرهسازی داده و رشد دادههای بزرگ، پذیرش تکنیکهای داده کاوی به سرعت در طی چند دهه اخیر شتاب گرفته است و به شرکتها با تبدیل دادههای خام خود به دانش مفید کمک میکند. با این حال، علیرغم این واقعیت که این فناوری به طور مداوم برای مدیریت دادهها در مقیاس بزرگ تکامل مییابد، رهبران همچنان با چالشهایی در زمینه مقیاسپذیری و اتوماسیون مواجه هستند.
داده کاوی (Data Mining) تصمیم گیری سازمانی را از طریق تجزیه و تحلیل داده های هوشمندانه بهبود بخشیده است. تکنیک های داده کاوی که زیربنای این تحلیل ها هستند را می توان به دو هدف اصلی تقسیم کرد. آنها می توانند مجموعه داده هدف را توصیف کنند یا می توانند نتایج را از طریق استفاده از الگوریتم های یادگیری ماشینی پیش بینی کنند. این روشها برای سازماندهی و فیلتر کردن دادهها، به نمایش گذاشتن جالبترین اطلاعات، از کشف تقلب گرفته تا رفتارهای کاربر، تنگناها و حتی نقضهای امنیتی استفاده میشوند.
فرآیند داده کاوی
فرآیند داده کاوی شامل چندین مرحله از جمع آوری داده تا تجسم برای استخراج اطلاعات ارزشمند از مجموعه داده های بزرگ است. همانطور که در بالا ذکر شد، تکنیک های داده کاوی برای ایجاد توصیف و پیش بینی در مورد مجموعه داده های هدف استفاده می شود. دانشمندان داده، داده ها را از طریق مشاهدات خود از الگوها، تداعی ها و همبستگی ها توصیف می کنند. آنها همچنین دادهها را از طریق روشهای طبقهبندی و رگرسیون، طبقهبندی و خوشهبندی میکنند و موارد پرت را برای موارد استفاده، مانند تشخیص هرزنامه، شناسایی میکنند.
داده کاوی معمولاً از چهار مرحله اصلی تشکیل شده است: تعیین اهداف، جمع آوری و آماده سازی داده ها، اعمال الگوریتم های داده کاوی و ارزیابی نتایج.
1. تعیین اهداف تجاری: این می تواند سخت ترین بخش فرآیند داده کاوی باشد و بسیاری از سازمان ها زمان بسیار کمی را برای این مرحله مهم صرف می کنند. دانشمندان داده و ذینفعان کسب و کار باید با هم کار کنند تا مشکل تجاری را تعریف کنند، که به اطلاعات سوالات و پارامترهای داده برای یک پروژه خاص کمک می کند. تحلیلگران همچنین ممکن است نیاز به انجام تحقیقات بیشتری برای درک مناسب زمینه کسب و کار داشته باشند.
2. آماده سازی داده ها: هنگامی که دامنه مسئله مشخص شد، برای دانشمندان داده آسان تر است که تشخیص دهند کدام مجموعه از داده ها به پاسخگویی به سؤالات مربوط به کسب و کار کمک می کند. پس از جمعآوری دادههای مربوطه، دادهها پاک میشوند و هرگونه نویز، مانند موارد تکراری، مقادیر از دست رفته، و مقادیر پرت را حذف میکنند. بسته به مجموعه داده، ممکن است یک گام اضافی برای کاهش تعداد ابعاد برداشته شود زیرا بسیاری از ویژگی ها می توانند هر محاسبات بعدی را کاهش دهند. دانشمندان داده به دنبال حفظ مهم ترین پیش بینی ها برای اطمینان از دقت مطلوب در هر مدل هستند.
- این نکته شایان ذکر است که عمل پاکسازی داده ها خود امری مفصل است که در مقاله ای به آن اشاره شده است.
3. مدل سازی و الگوکاوی: بسته به نوع تجزیه و تحلیل، دانشمندان داده ممکن است هر گونه روابط جالب داده مانند الگوهای متوالی، قوانین تداعی یا همبستگی ها را بررسی کنند. در حالی که الگوهای فرکانس بالا کاربردهای گسترده تری دارند، گاهی اوقات انحراف در داده ها می تواند جالب تر باشد و زمینه های تقلب بالقوه را برجسته کند.
همچنین ممکن است از الگوریتم های یادگیری عمیق برای طبقه بندی یا خوشه بندی یک مجموعه داده بسته به داده های موجود استفاده شود. اگر دادههای ورودی برچسبگذاری شده باشند (یعنی یادگیری تحت نظارت)، یک مدل طبقهبندی ممکن است برای دستهبندی دادهها استفاده شود، یا بهطور متناوب، ممکن است یک رگرسیون برای پیشبینی احتمال یک تخصیص خاص اعمال شود. اگر مجموعه داده برچسبگذاری نشده باشد (یعنی یادگیری بدون نظارت)، نقاط داده فردی در مجموعه آموزشی با یکدیگر مقایسه میشوند تا شباهتهای اساسی را کشف کنند و آنها را بر اساس آن ویژگیها خوشهبندی کنند.
- اصطلاحات بالا که مربوط به زمینه یادگیری ماشینی میشود، در مقاله مربوطه به تفصیل توضیح داده شده است.
4. ارزیابی نتایج و اجرای دانش: پس از تجمیع داده ها، نتایج باید ارزیابی و تفسیر شوند. هنگام نهایی کردن نتایج، آنها باید معتبر، جدید، مفید و قابل درک باشند. هنگامی که این معیار برآورده شود، سازمان ها می توانند از این دانش برای اجرای استراتژی های جدید و دستیابی به اهداف مورد نظر خود استفاده کنند.
تکنیک های داده کاوی
داده کاوی با استفاده از الگوریتم ها و تکنیک های مختلف برای تبدیل حجم زیادی از داده ها به اطلاعات مفید عمل می کند. در اینجا برخی از رایج ترین آنها آورده شده است:
قوانین ارتباط: یک قانون ارتباط یک روش مبتنی بر قانون برای یافتن روابط بین متغیرها در یک مجموعه داده معین است. این روشها اغلب برای تحلیل سبد بازار استفاده میشوند و به شرکتها اجازه میدهند تا روابط بین محصولات مختلف را بهتر درک کنند. درک عادات مصرف مشتریان، کسبوکارها را قادر میسازد تا استراتژیهای فروش متقابل و موتورهای توصیه بهتری را توسعه دهند.
شبکههای عصبی: شبکههای عصبی که عمدتاً برای الگوریتمهای یادگیری عمیق ( Deep Learning ) استفاده میشوند، دادههای آموزشی را با تقلید از اتصال مغز انسان از طریق لایههایی از گرهها پردازش میکنند. هر گره از ورودی ها، وزن ها، یک سوگیری (یا آستانه) و یک خروجی تشکیل شده است. اگر آن مقدار خروجی از یک آستانه معین فراتر رود، گره را "آتش" یا فعال می کند و داده ها را به لایه بعدی شبکه ارسال می کند. شبکه های عصبی این تابع نگاشت را از طریق یادگیری نظارت شده، تنظیم بر اساس تابع از دست دادن از طریق فرآیند نزول گرادیان، یاد می گیرند. وقتی تابع هزینه نزدیک به صفر است، میتوانیم به دقت مدل برای به دست آوردن پاسخ صحیح اطمینان داشته باشیم.
درخت تصمیم: این تکنیک داده کاوی از روش های طبقه بندی یا رگرسیون برای طبقه بندی یا پیش بینی نتایج بالقوه بر اساس مجموعه ای از تصمیمات استفاده می کند. همانطور که از نام آن پیداست، از تجسم درخت مانند برای نمایش نتایج بالقوه این تصمیمات استفاده می کند.
K-نزدیکترین همسایه (KNN): K-nearest neighbor که با نام الگوریتم KNN نیز شناخته می شود، یک الگوریتم ناپارامتریک است که نقاط داده را بر اساس نزدیکی و ارتباط آنها با سایر داده های موجود طبقه بندی می کند. این الگوریتم فرض می کند که نقاط داده مشابه را می توان در نزدیکی یکدیگر یافت. در نتیجه، به دنبال محاسبه فاصله بین نقاط داده، معمولاً از طریق فاصله اقلیدسی است، و سپس یک دسته را بر اساس پرتکرارترین دسته یا میانگین اختصاص می دهد.
کاربرد های داده کاوی
تکنیک های داده کاوی به طور گسترده ای در بین تیم های هوش تجاری و تجزیه و تحلیل داده پذیرفته شده است و به آنها کمک می کند تا دانش را برای سازمان و صنعت خود استخراج کنند. برخی از موارد استفاده از داده کاوی عبارتند از:
فروش و بازاریابی
شرکت ها حجم عظیمی از داده ها را در مورد مشتریان خود جمع آوری می کنند. با مشاهده جمعیتشناسی مصرفکننده و رفتار کاربران آنلاین، شرکتها میتوانند از دادهها برای بهینهسازی کمپینهای بازاریابی خود، بهبود بخشبندی، پیشنهادات فروش متقابل و برنامههای وفاداری مشتری استفاده کنند و بازدهی بالاتری را در تلاشهای بازاریابی به همراه داشته باشند. تحلیلهای پیشبینیکننده همچنین میتواند به تیمها کمک کند تا انتظارات خود را با ذینفعان خود تعیین کنند و تخمین بازدهی را از هرگونه افزایش یا کاهش در سرمایهگذاری بازاریابی ارائه دهند.
تحصیلات
مؤسسات آموزشی شروع به جمعآوری دادهها برای درک جمعیت دانشآموزی خود و همچنین محیطهای مساعد برای موفقیت کردهاند. با ادامه انتقال دوره ها به پلتفرم های آنلاین، آنها می توانند از ابعاد و معیارهای مختلفی برای مشاهده و ارزیابی عملکرد استفاده کنند، مانند ضربه زدن به کلید، نمایه های دانشجویی، کلاس ها، دانشگاه ها، زمان صرف شده و غیره.
بهینه سازی عملیاتی
فرآیند کاوی از تکنیک های داده کاوی برای کاهش هزینه ها در عملکردهای عملیاتی استفاده می کند و سازمان ها را قادر می سازد کارآمدتر کار کنند. این عمل به شناسایی تنگناهای پرهزینه و بهبود تصمیم گیری در بین رهبران کسب و کار کمک کرده است.
تشخیص تقلب
در حالی که الگوهای مکرر در داده ها می تواند بینش ارزشمندی را برای تیم ها فراهم کند، مشاهده ناهنجاری های داده نیز مفید است و به شرکت ها در کشف تقلب کمک می کند. در حالی که این یک مورد استفاده شناخته شده در بانک ها و سایر موسسات مالی است، شرکت های مستقر در SaaS نیز شروع به اتخاذ این روش ها برای حذف حساب های کاربری جعلی از مجموعه داده های خود کرده اند.