KDD vs მონაცემთა მოპოვება
KDD (ცოდნის აღმოჩენა მონაცემთა ბაზებში) არის კომპიუტერული მეცნიერების დარგი, რომელიც მოიცავს ინსტრუმენტებსა და თეორიებს, რათა დაეხმაროს ადამიანებს ციფრული მონაცემების დიდი კოლექციებიდან სასარგებლო და მანამდე უცნობი ინფორმაციის (ანუ ცოდნის) მოპოვებაში. KDD შედგება რამდენიმე ეტაპისგან და მონაცემთა მოპოვება ერთ-ერთი მათგანია. მონაცემთა მოპოვება არის კონკრეტული ალგორითმის გამოყენება მონაცემებიდან შაბლონების ამოღების მიზნით. მიუხედავად ამისა, KDD და მონაცემთა მოპოვება ურთიერთშედარებით გამოიყენება.
რა არის KDD?
როგორც ზემოთ აღინიშნა, KDD არის კომპიუტერული მეცნიერების დარგი, რომელიც ეხება ადრე უცნობი და საინტერესო ინფორმაციის ამოღებას ნედლი მონაცემებიდან. KDD არის მთელი პროცესი, რომლის მიზანია მონაცემების გაგება შესაბამისი მეთოდებისა თუ ტექნიკის შემუშავებით. ეს პროცესი ეხება დაბალი დონის მონაცემების სხვა ფორმებს, რომლებიც უფრო კომპაქტური, აბსტრაქტული და სასარგებლოა. ეს მიიღწევა მოკლე ანგარიშების შექმნით, მონაცემთა გენერირების პროცესის მოდელირებით და პროგნოზირებადი მოდელების შემუშავებით, რომლებსაც შეუძლიათ მომავალი შემთხვევების პროგნოზირება. მონაცემთა ექსპონენციალური ზრდის გამო, განსაკუთრებით ისეთ სფეროებში, როგორიცაა ბიზნესი, KDD გახდა ძალიან მნიშვნელოვანი პროცესი მონაცემთა ამ დიდი სიმდიდრის ბიზნეს დაზვერვაში გადასაყვანად, რადგან შაბლონების ხელით მოპოვება გასული რამდენიმე ათწლეულის განმავლობაში შეუძლებელი გახდა. მაგალითად, ამჟამად გამოიყენება სხვადასხვა აპლიკაციებისთვის, როგორიცაა სოციალური ქსელის ანალიზი, თაღლითობის გამოვლენა, მეცნიერება, ინვესტიცია, წარმოება, ტელეკომუნიკაცია, მონაცემთა გაწმენდა, სპორტი, ინფორმაციის მოძიება და ძირითადად მარკეტინგისთვის. KDD ჩვეულებრივ გამოიყენება კითხვებზე პასუხის გასაცემად, როგორიცაა რა არის ძირითადი პროდუქტები, რომლებიც ხელს შეუწყობს მომავალ წელს Wal-Mart-ში მაღალი მოგების მიღებას?.ამ პროცესს რამდენიმე ეტაპი აქვს. ის იწყება განაცხადის დომენისა და მიზნის გაგებით და შემდეგ სამიზნე მონაცემთა ნაკრების შექმნით. ამას მოჰყვება მონაცემთა გაწმენდა, წინასწარი დამუშავება, შემცირება და პროექცია. შემდეგი ნაბიჯი არის მონაცემთა მოპოვების გამოყენება (ახსნილია ქვემოთ) ნიმუშის დასადგენად. საბოლოოდ, აღმოჩენილი ცოდნის კონსოლიდაცია ხდება ვიზუალიზაციისა და/ან ინტერპრეტაციის გზით.
რა არის მონაცემთა მოპოვება?
როგორც ზემოთ აღინიშნა, მონაცემთა მოპოვება მხოლოდ KDD პროცესის მხოლოდ ერთი ნაბიჯია. არსებობს მონაცემთა მოპოვების ორი ძირითადი მიზანი, როგორც ეს განსაზღვრულია აპლიკაციის მიზნით, და ეს არის გადამოწმება ან აღმოჩენა. გადამოწმება არის მომხმარებლის ჰიპოთეზის შემოწმება მონაცემების შესახებ, ხოლო აღმოჩენა ავტომატურად პოულობს საინტერესო შაბლონებს. მონაცემთა მოპოვების ოთხი ძირითადი ამოცანაა: კლასტერიზაცია, კლასიფიკაცია, რეგრესია და ასოციაცია (შეჯამება). კლასტერირება არის მსგავსი ჯგუფების იდენტიფიცირება არასტრუქტურირებული მონაცემებიდან. კლასიფიკაცია არის სწავლის წესები, რომლებიც შეიძლება გამოყენებულ იქნას ახალ მონაცემებზე.რეგრესია არის ფუნქციების პოვნა მინიმალური შეცდომით მონაცემთა მოდელისთვის. და ასოციაცია ეძებს ურთიერთობებს ცვლადებს შორის. შემდეგ უნდა შეირჩეს მონაცემთა მოპოვების კონკრეტული ალგორითმი. მიზნიდან გამომდინარე, შეიძლება შეირჩეს სხვადასხვა ალგორითმები, როგორიცაა წრფივი რეგრესია, ლოგისტიკური რეგრესია, გადაწყვეტილების ხეები და გულუბრყვილო ბაიები. შემდეგ მოძებნილია ინტერესის ნიმუშები ერთი ან მეტი წარმომადგენლობითი ფორმით. საბოლოოდ, მოდელები ფასდება ან პროგნოზირებადი სიზუსტის ან გაგების გამოყენებით.
რა განსხვავებაა KDD და მონაცემთა მაინინგს შორის?
მიუხედავად იმისა, რომ ორი ტერმინი KDD და მონაცემთა მოპოვება ხშირად გამოიყენება ურთიერთშემცვლელად, ისინი ეხება ორ დაკავშირებულ, მაგრამ ოდნავ განსხვავებულ კონცეფციას. KDD არის მონაცემებიდან ცოდნის მოპოვების საერთო პროცესი, ხოლო მონაცემთა მოპოვება არის ნაბიჯი KDD პროცესის შიგნით, რომელიც ეხება მონაცემთა ნიმუშების იდენტიფიცირებას. სხვა სიტყვებით რომ ვთქვათ, მონაცემთა მოპოვება არის მხოლოდ კონკრეტული ალგორითმის გამოყენება, რომელიც დაფუძნებულია KDD პროცესის საერთო მიზნებზე.