მონაცემთა მოპოვება მონაცემთა შენახვის წინააღმდეგ
მონაცემთა მოპოვება და მონაცემთა შენახვა არის ძალიან ძლიერი და პოპულარული ტექნიკა მონაცემთა ანალიზისთვის. მომხმარებლები, რომლებიც მიდრეკილნი არიან სტატისტიკისკენ, იყენებენ მონაცემთა მოპოვებას. ისინი იყენებენ სტატისტიკურ მოდელებს მონაცემებში ფარული შაბლონების მოსაძებნად. მონაცემთა მაინერები დაინტერესებულნი არიან იპოვონ სასარგებლო ურთიერთობები მონაცემთა სხვადასხვა ელემენტებს შორის, რაც საბოლოო ჯამში მომგებიანია ბიზნესისთვის. მაგრამ მეორეს მხრივ, მონაცემთა ექსპერტები, რომლებსაც შეუძლიათ უშუალოდ ბიზნესის ზომების ანალიზი, მიდრეკილნი არიან გამოიყენონ მონაცემთა საწყობები.
მონაცემთა მოპოვება ასევე ცნობილია როგორც ცოდნის აღმოჩენა მონაცემებში (KDD). როგორც ზემოთ აღინიშნა, ეს არის კომპიუტერული მეცნიერების დარგი, რომელიც ეხება ადრე უცნობი და საინტერესო ინფორმაციის ამოღებას ნედლი მონაცემებიდან.მონაცემთა ექსპონენციალური ზრდის გამო, განსაკუთრებით ისეთ სფეროებში, როგორიცაა ბიზნესი, მონაცემთა მოპოვება გახდა ძალიან მნიშვნელოვანი ინსტრუმენტი ამ დიდი სიმდიდრის მონაცემთა ბიზნეს ინტელექტად გადაქცევისთვის, რადგან შაბლონების ხელით მოპოვება გასული რამდენიმე ათწლეულის განმავლობაში შეუძლებელი გახდა. მაგალითად, ის ამჟამად გამოიყენება სხვადასხვა აპლიკაციებისთვის, როგორიცაა სოციალური ქსელის ანალიზი, თაღლითობის გამოვლენა და მარკეტინგი. მონაცემთა მოპოვება ჩვეულებრივ ეხება შემდეგ ოთხ ამოცანას: კლასტერიზაცია, კლასიფიკაცია, რეგრესია და ასოციაცია. კლასტერირება არის მსგავსი ჯგუფების იდენტიფიცირება არასტრუქტურირებული მონაცემებიდან. კლასიფიკაცია არის სწავლის წესები, რომლებიც შეიძლება გამოყენებულ იქნას ახალ მონაცემებზე და, როგორც წესი, მოიცავს შემდეგ ნაბიჯებს: მონაცემთა წინასწარი დამუშავება, მოდელირების დიზაინი, სწავლა/მახასიათებლის შერჩევა და შეფასება/ვალიდაცია. რეგრესია არის ფუნქციების პოვნა მინიმალური შეცდომით მონაცემთა მოდელისთვის. და ასოციაცია ეძებს ურთიერთობებს ცვლადებს შორის. მონაცემთა მოპოვება ჩვეულებრივ გამოიყენება კითხვებზე პასუხის გასაცემად, როგორიც არის, რა არის ძირითადი პროდუქტები, რომლებიც ხელს შეუწყობს მომავალ წელს Wal-Mart-ში მაღალი მოგების მიღებას?
როგორც ზემოთ აღინიშნა, მონაცემთა საწყობი ასევე გამოიყენება მონაცემთა ანალიზისთვის, მაგრამ მომხმარებლების სხვადასხვა ჯგუფის მიერ და ოდნავ განსხვავებული მიზნის გათვალისწინებით. მაგალითად, როდესაც საქმე ეხება საცალო სექტორს, მონაცემთა საწყობის მომხმარებლებს უფრო მეტად აინტერესებთ, თუ რა სახის შესყიდვებია პოპულარული მომხმარებლებში, ასე რომ, ანალიზის შედეგებს შეუძლია დაეხმაროს მომხმარებელს მომხმარებლის გამოცდილების გაუმჯობესებით. მაგრამ მონაცემთა მაინერები ჯერ ვარაუდობენ ჰიპოთეზას, როგორიც არის ის, თუ რომელი მომხმარებლები ყიდულობენ გარკვეული ტიპის პროდუქტს და აანალიზებენ მონაცემებს ჰიპოთეზის შესამოწმებლად. მონაცემთა შენახვა შეიძლება განხორციელდეს მსხვილი საცალო ვაჭრობის მიერ, რომელიც თავდაპირველად ინახავს თავის მაღაზიებს იგივე ზომის პროდუქციით, რათა მოგვიანებით გაარკვიოს, რომ ნიუ-იორკის მაღაზიები ყიდის მცირე ზომის ინვენტარს ბევრად უფრო სწრაფად, ვიდრე ჩიკაგოს მაღაზიებში. ასე რომ, ამ შედეგის დათვალიერებით, საცალო ვაჭრობას შეუძლია ნიუ-იორკის მაღაზია უფრო მცირე ზომის, ვიდრე ჩიკაგოს მაღაზიები.
ასე რომ, როგორც ნათლად ხედავთ, ამ ორი ტიპის ანალიზი შეუიარაღებელი თვალით ერთნაირი ხასიათისაა.ორივე ზრუნავს ისტორიულ მონაცემებზე დაყრდნობით მოგების გაზრდაზე. მაგრამ, რა თქმა უნდა, არსებობს ძირითადი განსხვავებები. მარტივი სიტყვებით, მონაცემთა მოპოვება და მონაცემთა საწყობი ეძღვნება სხვადასხვა ტიპის ანალიტიკის უზრუნველყოფას, მაგრამ აუცილებლად სხვადასხვა ტიპის მომხმარებლებისთვის. სხვა სიტყვებით რომ ვთქვათ, მონაცემთა მოპოვება ეძებს კორელაციებს, შაბლონებს სტატისტიკური ჰიპოთეზის მხარდასაჭერად. მაგრამ მონაცემთა საწყობი პასუხობს შედარებით უფრო ფართო კითხვას და ანაწილებს და ჭრის მონაცემებს იქიდან მოყოლებული, რათა აღიაროს მომავალში გაუმჯობესების გზები.