በስታቲስቲክስ ውስጥ ፣ ውጫዊ ወይም “ወጣ ያለ” በናሙና ወይም በውሂብ ስብስቦች ውስጥ ከሌላ ከማንኛውም የውሂብ ክምችት በጣም የሚለይ datum (የውሂብ ስብስብ ውሂብ ይባላል)። ብዙውን ጊዜ ፣ በውሂብ ስብስብ ውስጥ ያለ ውጫዊ ሁኔታ በተወሰነው ልኬቶች ውስጥ ያልተለመደ ወይም ለሙከራ ስህተት ለስታቲስቲክስ ማስጠንቀቂያ ሆኖ ሊያገለግል ይችላል ፣ ይህም የስታቲስቲክስ ባለሙያው ውጫዊውን ከ datum ስብስብ ለማስወገድ ሊያመራ ይችላል። የስታቲስቲክስ ባለሙያው የውጤት ዝርዝሮችን ከውሂብ ስብስብ ካስወገደ ፣ ከጥናቱ የተወሰዱ መደምደሚያዎች በጣም የተለያዩ ሊሆኑ ይችላሉ። ስለዚህ ፣ የስታቲስቲክስ የውሂብ ስብስብ ትክክለኛ ግንዛቤን ለማረጋገጥ የውጪዎችን እንዴት ማስላት እና መተንተን ማወቅ በጣም አስፈላጊ ነው።
ደረጃ
ደረጃ 1. ሊገለሉ የሚችሉ መረጃዎችን እንዴት መለየት እንደሚችሉ ይወቁ።
የውጤት ዝርዝሮችን ከውሂብ ስብስቡ ውስጥ ያስወግዱ ወይም አይወስኑ ከመወሰናችን በፊት በእርግጥ የትኞቹ የውሂብ ስብስቦች የውጭ የመሆን አቅም እንዳላቸው መለየት አለብን። በአጠቃላይ ፣ የውጤት አወጣጥ በአንድ የውሂብ ስብስብ ውስጥ ከሌሎቹ የመረጃ ቋቶች በጣም የራቀ ዳታ ነው - በሌላ አነጋገር ፣ ውጫዊው ከሌሎቹ የመረጃ ቋቶች “ውጭ” ነው። በመረጃ ሰንጠረዥ ወይም (በተለይ) በግራፍ ውስጥ ብዙውን ጊዜ የውጭ አካላትን መለየት ቀላል ነው። አንድ የውሂብ ስብስቦች በግራፍ በእይታ ከተገለጹ ፣ የውጪው የውሂብ መጠን ከሌሎቹ የመረጃ ቋቶች “በጣም የራቀ” ሆኖ ይታያል። ለምሳሌ ፣ በአንድ የውሂብ ስብስብ ውስጥ ያሉት አብዛኛዎቹ የውሂብ ስብስቦች ቀጥታ መስመር ከሠሩ ፣ የውጤቱ datum ያንን መስመር እንደመሠረቱ በተጨባጭ አይተረጎምም።
በአንድ ክፍል ውስጥ የ 12 የተለያዩ ዕቃዎችን የሙቀት መጠን የሚወክሉ የውሂብ ስብስቦችን እንመልከት። 11 ነገሮች የሙቀት መጠን ወደ 70 ፋራናይት (21 ዲግሪ ሴልሺየስ) ቢኖራቸው ፣ ነገር ግን 12 ኛ እቃው ፣ ምድጃው 300 ዲግሪ ፋራናይት (150 ዲግሪ ሴልሺየስ) ያለው ከሆነ ፣ የምድጃው ሙቀት በጣም ሊሆን እንደሚችል ወዲያውኑ ሊታይ ይችላል። ውጫዊ።
ደረጃ 2. ዳታዎቹን ከዝቅተኛ እስከ ከፍተኛ በሆነ የውሂብ ስብስብ ስብስብ ውስጥ ያዘጋጁ።
በአንድ የውሂብ ስብስብ ውስጥ የውጤቶችን ለማስላት የመጀመሪያው እርምጃ የዚያ የውሂብ ስብስብ መካከለኛ (መካከለኛ እሴት) ማግኘት ነው። በውሂብ ስብስቦች ውስጥ ያሉ መረጃዎች ከትንሽ እስከ ትልቁ ከተደረደሩ ይህ ተግባር በጣም ቀላል ይሆናል። ስለዚህ ፣ ከመቀጠልዎ በፊት ፣ በአንድ የውሂብ ስብስብ ስብስብ ውስጥ የውሂብ ስብስቦችን ያዘጋጁ።
ከላይ ያለውን ምሳሌ እንቀጥል። ይህ በአንድ ክፍል ውስጥ የበርካታ ነገሮችን የሙቀት መጠን የሚወክል የእኛ የውሂብ ስብስቦች ነው ፦ {71 ፣ 70 ፣ 73 ፣ 70 ፣ 70 ፣ 69 ፣ 70 ፣ 72 ፣ 71 ፣ 300 ፣ 71 ፣ 69}። መረጃዎችን ከዝቅተኛ እስከ ከፍተኛ ካዘጋጀን ፣ የውሂቦቹ ቅደም ተከተል የሚከተለው ይሆናል ፦ {69 ፣ 69 ፣ 70 ፣ 70 ፣ 70 ፣ 70 ፣ 70 ፣ 71 ፣ 71 ፣ 71 ፣ 71 ፣ 72 ፣ 73 ፣ 300}።
ደረጃ 3. የውሂብ ስብስብ መካከለኛውን ያሰሉ።
የዴታም ስብስብ ሚዲያን ሌላኛው የውሂብ ግማሹ ከዚያ ዳታ በላይ ሲሆን ቀሪው ግማሹ ከእሱ በታች የሚገኝበት ዳታ ነው - በመሰረቱ ፣ ያ ዳታ በ”መሃከል” ውስጥ ያለው ዳታ ነው። በአንድ የውሂብ ስብስብ ውስጥ ያሉት የውሂብ ስብስቦች ቁጥር እንግዳ ከሆነ እሱን ለማግኘት በጣም ቀላል ነው - ሚዲያን ከላይ እና ከታች ተመሳሳይ ቁጥር ያለው ዳታ ነው። ሆኖም ፣ በውሂብ ስብስቦች ስብስብ ውስጥ ያሉት የውሂብ ቁጥሮች ብዛት እኩል ከሆነ ፣ ከዚያ ፣ ማንም datum በመሃል ላይ ስለማይገጣጠም ፣ በመካከል ያሉት 2 ዳታሞች መካከለኛውን ለማግኘት አማካይ ናቸው። የውጭ ምንዛሪዎችን ሲያሰሉ ፣ ሚዲያው ብዙውን ጊዜ ተለዋዋጭ Q2-ni እንደሚመደብ ልብ ሊባል ይገባል ምክንያቱም Q2 በ Q1 እና Q3 ፣ በታችኛው እና በላይኛው አራተኛ መካከል ነው ፣ እሱም በኋላ የምንወያይበት።
- የውሂብ ስብስቦች ቁጥር እንኳን ባለበት የውሂብ ስብስብ ስብስብ ግራ እንዳይጋባ-የ 2 መካከለኛ የመረጃ ቋቶች አማካይ ብዙውን ጊዜ በውሂብ ስብስብ ውስጥ የሌለውን ቁጥር ይመልሳል-ይህ ደህና ነው። ሆኖም ፣ 2 መካከለኛ የመረጃ ቋቶች ተመሳሳይ ቁጥር ከሆኑ ፣ አማካይ ፣ በእርግጥ ፣ ተመሳሳይ ቁጥር ይሆናል ፣ እሱም ደግሞ ጥሩ ነው።
- ከላይ ባለው ምሳሌ ውስጥ 12 መረጃዎች አሉን። 2 መካከለኛ ዳታሞች በቅደም ተከተል 6 ኛ እና 7 ኛ ዳታሞች -70 እና 71 ናቸው። ስለዚህ ፣ የእኛ የውሂብ ስብስቦች መካከለኛ ሚዲያው የእነዚህ 2 ቁጥሮች አማካይ ነው ((70 + 71) / 2) ፣ = 70.5.
ደረጃ 4. የታችኛውን አራተኛውን ያሰሉ።
ለተለዋዋጭ Q1 የምንሰጠው ይህ እሴት የውሂብ ስብስቦችን 25 በመቶ (ወይም ሩብ) የሚወክለው ዳታ ነው። በሌላ አገላለጽ ፣ ከመካከለኛው በታች ያሉትን የውሂብ ስብስቦች የሚከፋፈለው ዳታ ነው። ከመካከለኛው በታች ያሉት የመረጃ ቋቶች ብዛት እኩል ከሆነ ፣ ልክ እርስዎ ሚዲያንን እራስዎ እንደሚያገኙት ሁሉ ፣ Q1 ን ለማግኘት በመሃል ላይ ያሉትን 2 የውሂብ ስብስቦች አማካኝ ማድረግ አለብዎት።
በእኛ ምሳሌ ፣ ከመካከለኛው በላይ የሚዋሹ 6 ዳታሞች ፣ እና ከመካከለኛው በታች የተኙ 6 ዳታሞች አሉ። ይህ ማለት ፣ የታችኛውን ሩብል ለማግኘት ፣ ከመካከለኛው በታች ባሉት 6 የውሂብ ጎታዎች መሃል ላይ 2 ዳታዎችን በአማካይ እንፈልጋለን። ከመካከለኛው በታች ያሉት የ 6 ዳታዎች 3 ኛ እና 4 ኛ ዳታዎች ሁለቱም 70. ስለዚህ ፣ አማካይ ((70 + 70) / 2) ፣ = 70. 70 የእኛ Q1 ይሆናል።
ደረጃ 5. የላይኛውን አራተኛውን ያሰሉ።
እኛ ተለዋዋጭ Q3 ን የምንሰጠው ይህ እሴት ፣ በውሂብ ስብስብ ውስጥ የውሂብ ስብስቦች 25 በመቶ የሚሆኑበት ዴታም ነው። Q3 ን ማግኘት Q1 ን ከማግኘት ጋር በጣም ተመሳሳይ ነው ፣ ከዚያ በስተቀር ፣ በዚህ ሁኔታ ፣ እኛ ከመሃልኛው በታች ሳይሆን ከመካከለኛው በላይ ያሉትን የውሂብ ስብስቦች እየተመለከትን ነው።
ከላይ ምሳሌያችንን በመቀጠል ፣ ከመካከለኛው በላይ ባሉት 6 የመረጃ ቋቶች መሃል ላይ ያሉት 2 ዳታዎች 71 እና 72 ናቸው። የእነዚህ 2 ዳታዎች አማካይ ((71 + 72)/2) ፣ = 71, 5. 71 ፣ 5 የእኛ Q3 መሆን።
ደረጃ 6. የመካከለኛውን ርቀት ይፈልጉ።
አሁን Q1 እና Q3 አግኝተናል ፣ በእነዚህ ሁለት ተለዋዋጮች መካከል ያለውን ርቀት ማስላት አለብን። ከ Q1 እስከ Q3 ያለው ርቀት የሚገኘው Q1 ን ከ Q3 በመቀነስ ነው። በእርስዎ የውሂብ ስብስብ ውስጥ የውጪ ያልሆኑ የውሂብ ስብስቦችን ወሰን ለመወሰን ለ interquartile ርቀቶች የሚያገኙት እሴቶች በጣም አስፈላጊ ናቸው።
- በእኛ ምሳሌ ፣ የ Q1 እና Q3 እሴቶቻችን 70 እና 71 ፣ 5. የመካከለኛ ርቀት ርቀትን ለማግኘት ፣ Q3 - Q1 = 71.5 - 70 = ን እንቀንሳለን። 1, 5.
- Q1 ፣ Q3 ፣ ወይም ሁለቱም አሉታዊ ቁጥሮች ቢሆኑም እንኳ ይህ እውነት መሆኑን ልብ ሊባል ይገባል። ለምሳሌ ፣ የእኛ የ Q1 እሴት -70 ከሆነ ፣ ትክክለኛው የመሃል ርቀት ርቀታችን 71.5 -(-70) = 141 ፣ 5 ይሆናል።
ደረጃ 7. በውሂብ ስብስብ ውስጥ ያለውን “ውስጣዊ አጥር” ይፈልጉ።
የውጪ አካላት “የውስጠኛው አጥር” እና “የውጭ አጥር” በሚሉት የቁጥር ወሰኖች ውስጥ መውደቁን በመፈተሽ ተገኝተዋል። ከዳታቱ ስብስብ ውስጠኛው አጥር ውጭ የሚወድቅ datum እንደ “ጥቃቅን ተዘዋዋሪ” ተብሎ ይጠራል ፣ ከውጪው አጥር ውጭ የሚወድቅ datum እንደ “ዋና አውጪ” ይባላል። በእርስዎ የውሂብ ስብስብ ውስጥ የውስጠኛውን አጥር ለማግኘት በመጀመሪያ የ interquartile ርቀቱን በ 1 ፣ 5 ያባዙ ፣ ከዚያ ውጤቱን በ Q3 ይጨምሩ እና እንዲሁም ከ Q1 ይቀንሱ። የሚያገ twoቸው ሁለት እሴቶች የእርስዎ የውሂብ ስብስብ ውስጣዊ አጥር ገደቦች ናቸው።
-
በምሳሌአችን ውስጥ ፣ የአከባቢው ርቀት (71.5 - 70) ፣ ወይም 1.5 ነው። 1.5 በ 1.5 ማባዛት ይህም በ 2.25 ውስጥ ነው። ይህንን ቁጥር ወደ Q3 እንጨምረዋለን እና የውስጠኛውን አጥር ወሰን እንደሚከተለው ለማግኘት Q1 ን በዚህ ቁጥር እንቀንሳለን።
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- ስለዚህ ፣ የእኛ የውስጥ አጥር ወሰን ነው 67 ፣ 75 እና 73 ፣ 75.
-
በእኛ የውሂብ ስብስቦች ውስጥ የምድጃው ሙቀት መጠን ፣ 300 ፋራናይት ብቻ ነው - ከእነዚህ ገደቦች ውጭ ነው እና ስለዚህ ይህ መረጃ አነስተኛ ዝርዝር ነው። ሆኖም ፣ ይህ የሙቀት መጠን ዋና ዋና አለመሆኑን አሁንም አልሰላንም ፣ ስለዚህ ስሌቶቻችንን እስክናደርግ ድረስ ወደ መደምደሚያ አይዝለሉ።
ደረጃ 8. በውሂብ ስብስብ ውስጥ ያለውን “የውጭ አጥር” ይፈልጉ።
ይህ የሚከናወነው የውስጥ አጥርን ከማግኘት ጋር ተመሳሳይ በሆነ መንገድ ነው ፣ የ interquartile ርቀቱ በ 1.5 ፋንታ በ 3 ተባዝቷል። ከዚያ ውጤቱ ወደ Q3 ተጨምሯል እና ከ Q1 ተቀንሶ የውጭውን አጥር የላይኛው እና የታችኛው ወሰን ለማግኘት።
-
በምሳሌአችን ውስጥ ፣ የመካከለኛ ርቀት ርቀቱን በ 3 ማባዛት (1 ፣ 5 x 3) ፣ ወይም 4 ፣ 5. ልክ እንደበፊቱ የውጭ አጥር ወሰኖችን እናገኛለን -
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- የውጪው አጥር ወሰኖች ናቸው 65.5 እና 76.
-
ከውጭው አጥር ወሰን ውጭ የሚቀመጡ የመረጃ ቋቶች እንደ ዋና ተዘዋዋሪዎች ይጠቀሳሉ። በዚህ ምሳሌ ፣ የምድጃው ሙቀት ፣ 300 ፋራናይት ፣ በግልጽ ከውጭ አጥር ውጭ ነው ፣ ስለዚህ ይህ የመረጃ ቋት “በርግጥ” ዋና ገላጭ ነው።
ደረጃ 9. የውጤት መረጃን “መጣል” ወይም አለመሆኑን ለመወሰን የጥራት ፍርድን ይጠቀሙ።
ከላይ የተገለፀውን ዘዴ በመጠቀም ፣ ዳታየም አነስተኛ ዳታ ፣ ዋና ዳታ ፣ ወይም ጨርሶ ውጫዊ አለመሆኑን ማወቅ ይቻላል። ሆኖም ፣ አይሳሳቱ - ዳታምን እንደ ውጫዊ ሆኖ ማግኘት ያንን datum እንደ “እጩ” ከዴታቱ ስብስብ መወገድን ብቻ ያመላክታል ፣ እንደ “መጣል” ያለ datum አይደለም። በአንድ የውሂብ ስብስብ ውስጥ የውጤት መረጃን ከሌሎች የውሂብ ስብስቦች እንዲለይ የሚያደርገው “ምክንያት” እሱን ለማስወገድ ወይም ላለመተው ለመወሰን በጣም አስፈላጊ ነው። በአጠቃላይ ፣ በመለኪያ ፣ በመቅዳት ወይም በሙከራ ዕቅድ ስህተት ምክንያት የተከሰተ ውጫዊ ፣ ለምሳሌ-ሊጣል ይችላል። በሌላ በኩል ፣ በስህተት ያልተከሰቱ እና ቀደም ሲል ያልተነበዩትን አዲስ መረጃ ወይም አዝማሚያዎችን የሚያመለክቱ ውጫዊ ነገሮች ብዙውን ጊዜ “አይጣሉ”።
- ሌላው ሊታሰብበት የሚገባው መስፈርት አውጪው በውሂብ ስብስብ አማካይ ላይ ትልቅ ውጤት አለው ፣ ማለትም አውጪው ግራ አጋብቶት ወይም የተሳሳተ መስሎ እንዲታይ ማድረጉ ነው። ከእርስዎ የውሂብ ስብስብ አማካይ ድምዳሜዎችን ለማውጣት ካሰቡ ይህ ግምት ውስጥ ማስገባት በጣም አስፈላጊ ነው።
-
የእኛን ምሳሌ እናጠና። በዚህ ምሳሌ ፣ ምድጃው ባልተጠበቀ የተፈጥሮ ሀይሎች በኩል ወደ 300 ፋራናይት መድረሱ “የማይታሰብ” ስለሚመስል ፣ ምድጃው በአጋጣሚ እንደቀረ በእርግጠኝነት በእርግጠኝነት መደምደም እንችላለን ፣ ይህም የከፍተኛ የሙቀት መጠን መዛባት ያስከትላል። እንዲሁም ፣ እኛ ውጫዊዎቹን ካላስወገድን ፣ የእኛ የውሂብ ስብስብ አማካይ (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 ፋራናይት (32 ዲግሪ ሴልሺየስ)) ፣ ውጫዊውን ብናስወግድ አማካይ (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 ፋራናይት (21 ዲግሪ ሴልሺየስ) ነው።
እነዚህ የውጭ አካላት በሰው ስህተት ምክንያት የተከሰቱ በመሆናቸው እና አማካይ የክፍሉ ሙቀት ወደ 90 ፋራናይት (32 ዲግሪ ሴልሺየስ) ይደርሳል ማለት ትክክል ስላልሆነ ፣ የእኛን የውጭ ዕቃዎች “መጣል” መምረጥ የተሻለ ነው።
ደረጃ 10. የውጭ ዕቃዎችን የመጠበቅ አስፈላጊነት (አንዳንድ ጊዜ) ይወቁ።
ምንም እንኳን አንዳንድ ውጫዊ አካላት ስህተቶችን ስለሚያስከትሉ እና/ወይም ውጤቶቹ ትክክል ያልሆኑ ወይም የተሳሳቱ በመሆናቸው ከዳታቱ ስብስብ መወገድ ቢኖርባቸውም ፣ አንዳንድ የውጭ አካላት ተጠብቀው መቆየት አለባቸው። ለምሳሌ ፣ አንድ የውጭ አካል በተፈጥሮ የተገኘ (ማለትም ፣ የስህተት ውጤት አይደለም) እና/ወይም በጥናት ላይ ባለው ክስተት ላይ አዲስ እይታን ከሰጠ ፣ አውጪው ከውሂብ ስብስብ መወገድ የለበትም። ሳይንሳዊ ምርምር ብዙውን ጊዜ ወደ ውጭ በሚመጣበት ጊዜ በጣም ስሜታዊ ሁኔታ ነው - በተዘዋዋሪ መንገድ የውጭ አካላትን ማስወገድ አዲስ አዝማሚያ ወይም ግኝትን የሚያመለክት መረጃን መጣል ማለት ነው።