ცენტრალური ტენდენცია დისპერსიის წინააღმდეგ
აღწერით და დასკვნის სტატისტიკაში გამოიყენება რამდენიმე ინდექსი მონაცემთა ნაკრების აღსაწერად, რომელიც შეესაბამება მის ცენტრალურ მიდრეკილებას, დისპერსიას და დახრილობას: სამი ყველაზე მნიშვნელოვანი თვისება, რომელიც განსაზღვრავს მონაცემთა ნაკრების განაწილების შედარებით ფორმას.
რა არის ცენტრალური ტენდენცია?
ცენტრალური ტენდენცია ეხება და აყალიბებს მნიშვნელობების განაწილების ცენტრს. საშუალო, რეჟიმი და მედიანა არის ყველაზე ხშირად გამოყენებული ინდექსები მონაცემთა ნაკრების ცენტრალური ტენდენციის აღწერისას. თუ მონაცემთა ნაკრები სიმეტრიულია, მაშინ მონაცემთა ნაკრების მედიანა და საშუალო ემთხვევა ერთმანეთს.
მონაცემთა ნაკრების გათვალისწინებით, საშუალო გამოითვლება ყველა მონაცემთა მნიშვნელობის ჯამის აღებით და შემდეგ მისი გაყოფით მონაცემთა რაოდენობაზე. მაგალითად, 10 ადამიანის წონა (კილოგრამებში) იზომება 70, 62, 65, 72, 80, 70, 63, 72, 77 და 79. მაშინ ათი ადამიანის საშუალო წონა (კილოგრამებში) შეიძლება იყოს გამოითვლება შემდეგნაირად. წონათა ჯამი არის 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. საშუალო=(ჯამობა) / (მონაცემების რაოდენობა)=710 / 10=71 (კილოგრამებში). გასაგებია, რომ outliers (მონაცემთა წერტილები, რომლებიც გადახრილია ნორმალური ტენდენციიდან) ჩვეულებრივ გავლენას ახდენს საშუალოზე. ამგვარად, უკიდეგანო ნიშნების არსებობისას მხოლოდ საშუალო არ იძლევა სწორ სურათს მონაცემთა ნაკრების ცენტრის შესახებ.
მედიანა არის მონაცემთა წერტილი, რომელიც ნაპოვნია მონაცემთა ნაკრების ზუსტად შუაში. მედიანის გამოთვლის ერთ-ერთი გზაა მონაცემთა წერტილების დალაგება აღმავალი თანმიმდევრობით და შემდეგ მონაცემთა წერტილის შუაში განთავსება. მაგალითად, თუ ერთხელ შეუკვეთეთ, წინა მონაცემთა ნაკრები ასე გამოიყურება, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80.ამიტომ, (70+72)/2=71 არის შუაში. აქედან ჩანს, რომ მედიანა არ უნდა იყოს მონაცემთა ნაკრებში. მედიანაზე გავლენას არ ახდენს გარე ნიშნების არსებობა. აქედან გამომდინარე, მედიანა გამოდგება ცენტრალური ტენდენციის უკეთეს საზომად გარე ნიშნების არსებობისას.
რეჟიმი არის ყველაზე ხშირად წარმოქმნილი მნიშვნელობა მონაცემთა ნაკრებში. წინა მაგალითში, მნიშვნელობა 70 და 72 ორივე ხდება ორჯერ და, შესაბამისად, ორივე რეჟიმია. ეს აჩვენებს, რომ ზოგიერთ დისტრიბუციაში არის ერთზე მეტი მოდალური მნიშვნელობა. თუ არსებობს მხოლოდ ერთი რეჟიმი, მონაცემთა ნაკრები არის უნიმოდალური, ამ შემთხვევაში მონაცემთა ნაკრები არის ბიმოდალური.
რა არის დისპერსია?
დისპერსია არის მონაცემთა გავრცელების რაოდენობა განაწილების ცენტრის შესახებ. დიაპაზონი და სტანდარტული გადახრა არის დისპერსიის ყველაზე ხშირად გამოყენებული საზომები.
დიაპაზონი არის უბრალოდ უმაღლესი მნიშვნელობა გამოკლებული ყველაზე დაბალი მნიშვნელობა. წინა მაგალითში უმაღლესი მნიშვნელობა არის 80, ხოლო ყველაზე დაბალი მნიშვნელობა არის 62, ამიტომ დიაპაზონი არის 80-62=18. მაგრამ დიაპაზონი არ იძლევა საკმარის სურათს დისპერსიის შესახებ.
სტანდარტული გადახრის გამოსათვლელად, ჯერ გამოითვლება მონაცემთა მნიშვნელობების გადახრები საშუალოდან. გადახრების საშუალო კვადრატს ეწოდება სტანდარტული გადახრა. წინა მაგალითში, შესაბამისი გადახრები საშუალოდან არის (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 –). 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 და (79 – 71)=8. ჯამი გადახრის კვადრატები არის (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 სტანდარტული გადახრა არის √(366/10)=6.05 (კილოგრამებში). თუ მონაცემთა ნაკრები არ არის ძალიან დამახინჯებული, აქედან შეიძლება დავასკვნათ, რომ მონაცემების უმეტესობა არის 71±6.05 ინტერვალში და ეს მართლაც ასეა ამ კონკრეტულ მაგალითში.
რა განსხვავებაა ცენტრალურ ტენდენციასა და დისპერსიას შორის?
• ცენტრალური ტენდენცია ეხება და ადგენს მნიშვნელობების განაწილების ცენტრს
• დისპერსია არის მონაცემთა გავრცელების რაოდენობა მონაცემთა ნაკრების ცენტრში.