იერარქიული vs პარტიციული კლასტერირება
კლასტერირება არის მანქანური სწავლის ტექნიკა მონაცემთა ანალიზისა და მსგავსი მონაცემების ჯგუფებად დაყოფისთვის. ეს ჯგუფები ან მსგავსი მონაცემების ნაკრები ცნობილია როგორც კლასტერები. კლასტერული ანალიზი უყურებს კლასტერიზაციის ალგორითმებს, რომლებსაც შეუძლიათ კლასტერების ავტომატურად იდენტიფიცირება. იერარქიული და დანაყოფი არის კლასტერიზაციის ალგორითმების ორი ასეთი კლასი. იერარქიული კლასტერიზაციის ალგორითმები ანაწილებენ მონაცემებს კლასტერების იერარქიაში. პარიციული ალგორითმები ყოფს მონაცემთა კომპლექტს ორმხრივად განცალკევებულ დანაყოფებად.
რა არის იერარქიული კლასტერირება?
იერარქიული კლასტერის ალგორითმები იმეორებს ციკლს, რომელიც აერთიანებს პატარა კლასტერებს უფრო დიდებში, ან უფრო დიდი კლასტერების დაყოფას პატარაებზე.ნებისმიერ შემთხვევაში, ის აწარმოებს კლასტერების იერარქიას, რომელსაც დენდოგრამა ეწოდება. აგლომერაციული კლასტერიზაციის სტრატეგია იყენებს კლასტერების გაერთიანების ქვემოდან ზევით მიდგომას უფრო დიდში, ხოლო გამყოფი კლასტერიზაციის სტრატეგია იყენებს ზემოდან ქვევით მიდგომას დაყოფას უფრო მცირეზე. როგორც წესი, ხარბ მიდგომა გამოიყენება იმის გადაწყვეტისას, თუ რომელი უფრო დიდი/პატარა კლასტერები გამოიყენება შერწყმის/გაყოფისთვის. ევკლიდური მანძილი, მანჰეტენის მანძილი და კოსინუსური მსგავსება არის რიცხვითი მონაცემების მსგავსების ზოგიერთი ყველაზე ხშირად გამოყენებული მეტრიკა. არარიცხობრივი მონაცემებისთვის გამოიყენება ისეთი მეტრიკა, როგორიცაა ჰემინგის მანძილი. მნიშვნელოვანია აღინიშნოს, რომ იერარქიული კლასტერიზაციისთვის ფაქტობრივი დაკვირვებები (ინსტანციები) არ არის საჭირო, რადგან საკმარისია მხოლოდ მანძილების მატრიცა. დენდოგრამა არის კლასტერების ვიზუალური წარმოდგენა, რომელიც ძალიან ნათლად აჩვენებს იერარქიას. მომხმარებელს შეუძლია მიიღოს სხვადასხვა კლასტერირება დენდოგრამის ამოჭრის დონის მიხედვით.
რა არის პარტიციული კლასტერირება?
პარტიციული კლასტერიზაციის ალგორითმები წარმოქმნიან სხვადასხვა ტიხრებს და შემდეგ აფასებენ მათ გარკვეული კრიტერიუმებით.მათ ასევე მოიხსენიებენ, როგორც არაიერარქიულს, რადგან თითოეული ინსტანცია მოთავსებულია ზუსტად ერთ k ურთიერთგამომრიცხავ კლასტერში. იმის გამო, რომ კლასტერების მხოლოდ ერთი კომპლექტი არის ტიპიური დანაყოფი კლასტერული ალგორითმის გამოსავალი, მომხმარებელს მოეთხოვება შეიყვანოს კლასტერების სასურველი რაოდენობა (ჩვეულებრივ უწოდებენ k). პარტიციული კლასტერიზაციის ერთ-ერთი ყველაზე ხშირად გამოყენებული ალგორითმი არის k-means კლასტერიზაციის ალგორითმი. მომხმარებელს მოეთხოვება დაწყებამდე მიუთითოს კლასტერების რაოდენობა (k) და ალგორითმი ჯერ იწყებს k დანაყოფების ცენტრებს (ან ცენტროიდებს). მოკლედ, k-means კლასტერიზაციის ალგორითმი შემდეგ ანიჭებს წევრებს მიმდინარე ცენტრებზე დაყრდნობით და ხელახლა აფასებს ცენტრებს მიმდინარე წევრებზე დაყრდნობით. ეს ორი საფეხური მეორდება მანამ, სანამ არ მოხდება გარკვეული კლასტერული მსგავსების ობიექტური ფუნქცია და კლასტერთაშორისი განსხვავებულობის ობიექტური ფუნქცია. აქედან გამომდინარე, ცენტრების გონივრული ინიციალიზაცია ძალზე მნიშვნელოვანი ფაქტორია პარტიციული კლასტერული ალგორითმებიდან ხარისხის შედეგების მისაღებად.
რა განსხვავებაა იერარქიულ და პარტიციულ კლასტერირებას შორის?
იერარქიულ და პარტიციულ კლასტერირებას აქვს ძირითადი განსხვავებები მუშაობის დროს, ვარაუდებში, შეყვანის პარამეტრებსა და შედეგად კლასტერებში. როგორც წესი, პარტიციული კლასტერირება უფრო სწრაფია, ვიდრე იერარქიული კლასტერირება. იერარქიული კლასტერირება მოითხოვს მხოლოდ მსგავსების ზომას, ხოლო პარტიციული კლასტერირება მოითხოვს უფრო ძლიერ დაშვებებს, როგორიცაა კლასტერების რაოდენობა და საწყისი ცენტრები. იერარქიული კლასტერირება არ საჭიროებს შეყვანის პარამეტრებს, ხოლო პარტიციული დაჯგუფების ალგორითმები მოითხოვს კლასტერების რაოდენობას გაშვების დასაწყებად. იერარქიული კლასტერირება აბრუნებს კლასტერების ბევრად უფრო შინაარსობრივ და სუბიექტურ დაყოფას, მაგრამ დანაწევრებული კლასტერირება იწვევს ზუსტად k კლასტერებს. იერარქიული კლასტერიზაციის ალგორითმები უფრო შესაფერისია კატეგორიული მონაცემებისთვის, სანამ მსგავსების საზომი შეიძლება განისაზღვროს შესაბამისად.