คู่มือสถิติ GraphPad Prism 10 (2024)

การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นวิธีการเรียนรู้แบบไม่มีผู้ดูแล* ซึ่งใช้รูปแบบที่มีอยู่ในข้อมูลมิติสูง (ข้อมูลที่มีตัวแปรอิสระจำนวนมาก) เพื่อลดความซับซ้อนของข้อมูลในขณะที่รักษาข้อมูลส่วนใหญ่ไว้

*Unsupervised เป็นคำที่ใช้ในแมชชีนเลิร์นนิงเพื่อระบุว่าเทคนิคหนึ่งไม่ใช้ผลลัพธ์หรือป้ายกำกับเมื่อประมวลผลข้อมูล เพื่อให้เข้าใจสิ่งนี้ ให้เปรียบเทียบกับการเรียนรู้แบบมีผู้สอน การถดถอยเป็นตัวอย่างของวิธีการเรียนรู้แบบมีผู้สอน เนื่องจากใช้ชุดค่าผลลัพธ์ที่ทราบ (ตัวแปรอิสระ) และสร้างแบบจำลองเพื่อเชื่อมต่อตัวแปรทำนาย (บางครั้งเรียกว่า "คุณลักษณะ" ในการเรียนรู้ของเครื่อง) กับผลลัพธ์เหล่านี้ ในทางตรงกันข้าม วิธีการเรียนรู้แบบไม่มีผู้ดูแล (เช่น PCA) จะไม่ใช้ป้ายกำกับ (ผลลัพธ์) ใด ๆ เมื่อทำการวิเคราะห์ คุณไม่ได้กำหนดตัวแปรผลลัพธ์ (ขึ้นอยู่กับ) หรือตัวทำนาย (อิสระ) แต่จะดูที่คุณสมบัติของข้อมูลแทน (ในกรณีของ PCA จะใช้ความแปรปรวนในข้อมูล)

PCA มีประโยชน์เมื่อใด

เนื่องจากวัตถุประสงค์หลักของ PCA คือการลดจำนวนตัวแปรที่จำเป็นในการอธิบายชุดข้อมูล จึงมีประโยชน์มากที่สุดเมื่อมีตัวแปรในข้อมูลมากเกินไปที่จะสำรวจ/แสดงภาพได้ง่าย

ตัวแปรในชุดข้อมูลอาจแสดงความเป็นหลายกลุ่มเชิงเส้น หมายความว่ามีความสัมพันธ์จำนวนมากระหว่างตัวแปรสองตัวหรือมากกว่านั้น ซึ่งหมายความว่าค่าของตัวแปรหนึ่งสามารถอธิบายได้ด้วยค่าของอีกตัวแปรหนึ่ง อย่างไรก็ตาม สำหรับแบบจำลองทางสถิติหลายๆ แบบ สิ่งสำคัญคือตัวแปรต้องเป็นอิสระจากกัน (ดังนั้น จึงเรียกว่า "ตัวแปรอิสระ") หากไม่เป็นเช่นนั้น (เช่น เมื่อตัวแปรแสดงความเป็นหลายกลุ่มเชิงเส้น) การตีความผลลัพธ์ของแบบจำลองทางสถิติต่างๆ หรือ การวิเคราะห์กลายเป็นเรื่องยากหรือแม้แต่เป็นไปไม่ได้ ส่วนประกอบหลักที่สร้างโดย PCA ไม่มีความสอดคล้องกัน อีกวิธีหนึ่งที่จะกล่าวได้ก็คือ ส่วนประกอบหลักแต่ละส่วนตั้งฉากกันอย่างสมบูรณ์แบบ (ความสัมพันธ์กับส่วนประกอบหลักอื่นๆ เป็นศูนย์)

เมื่อส่วนประกอบหลักถูกใช้เป็นข้อมูลป้อนเข้าสู่การถดถอยพหุคูณ PCA สามารถช่วยขจัดปัญหาเกี่ยวกับการโอเวอร์ฟิตติ้ง (ปัญหาที่เกิดขึ้นเมื่อโมเดลพอดีด้วยใกล้เคียงกับข้อมูลตัวอย่าง และจะทำงานได้ไม่ดีเมื่อทำนายค่าจากประชากรจำนวนมากที่สุ่มตัวอย่างข้อมูล) สิ่งนี้มักเกิดขึ้นเนื่องจากมีตัวแปรมากเกินไปในข้อมูลเมื่อเทียบกับจำนวนการสังเกต ในสถานการณ์เหล่านี้ สัญญาณรบกวน (ข้อผิดพลาดแบบสุ่ม) ในข้อมูลจะส่งผลกระทบต่อโมเดลมากเกินไป เนื่องจากสามารถใช้ PCA เพื่อลดจำนวนตัวแปรได้ จึงสามารถช่วยแก้ปัญหาเกี่ยวกับการโอเวอร์ฟิตติ้งได้

PCA เหมือนกับการเลือกตัวแปรหรือไม่?

ไม่ ใน PCA แต่ละองค์ประกอบหลัก (PC) คือชุดค่าผสมเชิงเส้นของตัวแปรดั้งเดิมทุกตัว ข้อมูลจากตัวแปรทั้งหมดใช้เพื่อกำหนดพีซีแต่ละเครื่อง ในทางตรงกันข้าม กระบวนการเลือกตัวแปรเกี่ยวข้องกับการกำจัดตัวแปรทั้งหมดออกจากชุดข้อมูลตามเกณฑ์ที่กำหนด ปริซึมไม่มีการเลือกตัวแปรอัตโนมัติในรูปแบบใดๆ

เหตุใดตัวเลือกสำหรับ PCR (Principal Component Regression) จึงเป็นสีเทา (ไม่มี)

การดำเนินการ PCR จำเป็นต้องเลือกตัวแปรตาม ตัวแปรตามนี้จะต้องไม่รวมอยู่ใน PCA ตามค่าเริ่มต้น ปริซึมจะเลือกตัวแปรทั้งหมด (ต่อเนื่อง) ที่จะรวมไว้ใน PCA ดังนั้นจึงไม่มีตัวแปรให้เลือกเป็นตัวแปรตามสำหรับ PCR เป็นผลให้ PCR เป็นสีเทา ทันทีที่ตัวแปรถูกยกเลิกการเลือกจากรายการตัวแปรที่จะเป็นส่วนหนึ่งของ PCA ตัวเลือกสำหรับ PCR จะพร้อมใช้งาน

ฉันควรจัดกึ่งกลางข้อมูลของฉันหรือไม่ ฉันควรปรับขนาดข้อมูลของฉันหรือไม่

เมื่อมีข้อสงสัย ให้กำหนดมาตรฐานข้อมูลของคุณ

การรวมศูนย์ข้อมูลเกี่ยวข้องกับการกำหนดค่าเฉลี่ยสำหรับแต่ละตัวแปรก่อน แล้วจึงลบค่าเฉลี่ยนั้นออกจากแต่ละค่าในตัวแปร ในชุดข้อมูลที่เป็นผลลัพธ์ ตัวแปรทุกตัวมีค่าเฉลี่ยเป็นศูนย์ โปรดทราบว่าการจัดกึ่งกลางเพียงอย่างเดียวไม่ได้เปลี่ยนค่าเบี่ยงเบนมาตรฐานของตัวแปร

การกำหนดมาตรฐานข้อมูลเกี่ยวข้องกับการจัดกึ่งกลางของตัวแปรก่อน (ดูด้านบน) จากนั้น ค่าเบี่ยงเบนมาตรฐานสำหรับแต่ละตัวแปรจะถูกกำหนด และค่ากึ่งกลางทุกค่าจะถูกหารด้วยค่าเบี่ยงเบนมาตรฐานของตัวแปร ซึ่งส่งผลให้ชุดข้อมูลที่ทุกตัวแปรมีค่าเฉลี่ยเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานเท่ากับ 1 (และทำให้ความแปรปรวนเท่ากับ 1)

เป็นเรื่องยากที่จะรัน PCA กับข้อมูลที่ไม่ได้เป็นศูนย์กลางและไม่ได้มาตรฐาน (แม้ว่าจะทำในสาขาวิชาจำนวนน้อยก็ตาม) ปริซึมไม่มีตัวเลือกนี้

PCA ทำงานโดยการวิเคราะห์ความแปรปรวนของชุดข้อมูล ตัวแปรที่มีความแปรปรวนมากกว่าจะมีผลกระทบต่อผลลัพธ์ของ PCA มากกว่า อย่างไรก็ตาม ความแตกต่างของความแปรปรวนอาจเกิดจากความแตกต่างของมาตราส่วนการวัด (เช่น การวัดความยาวในหน่วยมิลลิเมตรจะมีความแปรปรวนมากกว่าการวัดความยาวเดียวกันในหน่วยเมตรเนื่องจากมาตราส่วนการวัดเท่านั้น) ในบางกรณี การรักษาความสัมพันธ์ของความแปรปรวนในชุดข้อมูลอาจเป็นเรื่องสำคัญ แต่โดยทั่วไปแล้ว ขอแนะนำให้สร้างมาตรฐานของข้อมูล (การตั้งค่าความแปรปรวนของตัวแปรแต่ละตัวเท่ากับ 1 ดูด้านบน)

ฉันควรเลือกจำนวนพีซีที่จะเก็บรักษาอย่างไร

ขอแนะนำให้ใช้ Parallel Analysis (PA) เป็นวิธีการเลือกจำนวนพีซีที่จะเก็บไว้ วิธีการอื่นๆ ที่อิงตามค่าลักษณะเฉพาะ (กฎของไกเซอร์ ฯลฯ) หรือสัดส่วนของความแปรปรวนที่อธิบายได้นั้นพบได้ทั่วไปในอดีต อย่างไรก็ตาม เป็นที่ตกลงกันโดยทั่วไปว่า PA เป็นวิธีเชิงประจักษ์ที่ดีที่สุดสำหรับการเลือกส่วนประกอบ

อะไรคือเมล็ดสุ่มที่ปริซึมขอและแสดงในผลลัพธ์แบบตาราง?

การวิเคราะห์คู่ขนานใช้การจำลองแบบมอนติคาร์โล และตัวสร้างตัวเลขสุ่มต้องการค่าเริ่มต้น - เมล็ด หากคุณต้องการทำการวิเคราะห์ซ้ำ คุณต้องใช้เมล็ดพันธุ์เดียวกันทุกครั้ง ในกรณีที่คุณต้องการทำเช่นนี้ ปริซึมจะแสดงเมล็ดพันธุ์แบบสุ่มที่ใช้ในแผ่นบันทึกผลลัพธ์แบบตาราง หากเลือกการวิเคราะห์แบบคู่ขนาน คุณยังสามารถป้อนค่าเริ่มต้นในกล่องโต้ตอบพารามิเตอร์ โปรดทราบว่าเมล็ดสุ่มเกี่ยวข้องกับการวิเคราะห์แบบคู่ขนานเท่านั้น และไม่มีวิธีการอื่นใดที่ใช้ในการเลือกส่วนประกอบที่ใช้เมล็ดสุ่ม

ความสัมพันธ์อะไรไม่สามารถสคบ.เห็นในข้อมูลไหม?

PCA ลดขนาดของชุดข้อมูลโดยการสร้างเชิงเส้นการรวมกันของตัวแปรเดิม PCA ไม่สามารถระบุความสัมพันธ์แบบไม่เชิงเส้นระหว่างตัวแปรได้

จะเกิดอะไรขึ้นถ้าฉันใช้พีซีจาก PCA และใช้สิ่งเหล่านั้นเป็นอินพุตไปยัง PCA อื่น

ตามคำนิยาม พีซีแต่ละเครื่องตั้งฉากกับพีซีเครื่องอื่นทุกเครื่อง หมายความว่าความสัมพันธ์ระหว่างสองเครื่องใดๆ จะเป็นศูนย์ ในสถานการณ์นี้ Prism จะไม่สร้างตารางคะแนน PC หรือการโหลด เนื่องจาก PCA นั้นไม่มีจุดหมาย

เมทริกซ์สหสัมพันธ์ขององค์ประกอบหลักมีลักษณะอย่างไร

พีซีแต่ละเครื่องตั้งฉากกับพีซีเครื่องอื่นทุกเครื่อง หมายความว่าความสัมพันธ์ระหว่างสองเครื่องใดๆ จะเป็นศูนย์ เมทริกซ์สหสัมพันธ์จะแสดงค่าเท่ากับ (หรือใกล้เคียงมาก) ถึงศูนย์สำหรับพีซีทุกคู่ (และ 1.0 สำหรับความสัมพันธ์ระหว่างพีซีกับตัวมันเอง) คุณสามารถทดสอบได้ด้วยตัวคุณเองโดยทำการวิเคราะห์ Correlation Matrix ในตาราง PC Scores ใน Prism ค่าอาจไม่เป็นศูนย์ทั้งหมดเนื่องจากปัญหาการปัดเศษในการคำนวณตัวเลข

จำนวนองค์ประกอบต่างจากจำนวนตัวแปรเมื่อใด

แผ่นผลลัพธ์แบบตารางจาก PCA จะแสดงทั้งจำนวนของส่วนประกอบที่สร้างจากชุดข้อมูล ตลอดจนจำนวนของตัวแปรดั้งเดิมที่มีอยู่ในชุดข้อมูลเดียวกันนั้น ค่าเหล่านี้มักจะเหมือนกันเสมอ โปรดทราบว่าทั้งหมดจำนวนของส่วนประกอบโดยทั่วไปจะมากกว่าจำนวนของเลือกแล้วส่วนประกอบ สถานการณ์เดียวที่จำนวนส่วนประกอบทั้งหมดน้อยกว่าจำนวนตัวแปรคือ: i) ถ้าตัวแปรสองตัว (หรือมากกว่า) เหมือนกันทุกประการ หรือ ii) ถ้าตัวแปรหนึ่งเป็นชุดค่าผสมเชิงเส้นของตัวแปรอื่น ในทั้งสองสถานการณ์ จำนวนของส่วนประกอบจะน้อยกว่าจำนวนของตัวแปร

ทำไมบางแถวจึงถูกข้ามไป?

PCA จะรวมเฉพาะแถวที่มีค่าสำหรับทุกตัวแปร (คอลัมน์) ที่รวมอยู่ในการวิเคราะห์ แถวจะถูกข้ามเมื่อค่าของตัวแปรใดๆ ในแถวนั้นว่างเปล่า (ขาดหายไป) หรือถูกแยกออก ผลลัพธ์แบบตารางของ PCA จะแสดงจำนวนแถวที่ถูกแยกออก

ฉันควรทำอย่างไรกับผล PCA ของฉัน

หากคุณเรียกใช้ Principal Component Regression (PCR) ซึ่งเป็นส่วนหนึ่งของ PCA ใน Prism ผลลัพธ์ของ PCR คือสิ่งที่คุณจะต้องดู ถ้าคุณไม่ได้เรียกใช้ PCR คุณอาจต้องการเลือกและคัดลอก - หรือส่งออก - ตารางคะแนน PC เพื่อวิเคราะห์เพิ่มเติม หลายครั้ง เป้าหมายของ PCA คือการดูกราฟบางส่วนที่ Prism สร้างขึ้นจากข้อมูลที่ฉายบนพีซีสองสามเครื่องแรก การแสดงภาพเหล่านี้มักจะให้ข้อมูลที่เป็นประโยชน์เกี่ยวกับแนวโน้ม (กลุ่ม กลุ่ม ฯลฯ) ภายในการสังเกต

เหตุใดผลลัพธ์ PCR ของฉันจึงมีค่าสัมประสิทธิ์มากกว่าจำนวนองค์ประกอบหลักที่เลือก

Principal Component Regression (PCR) เป็นกระบวนการของการถดถอยเชิงเส้นพหุคูณโดยใช้ตัวแปรผลลัพธ์ (ขึ้นอยู่กับ) ที่ระบุ และ PC ที่เลือกจาก PCA เป็นตัวแปรทำนาย หลังจากทำการถดถอยเชิงเส้นแล้ว ค่าสัมประสิทธิ์จะถูกแปลงเป็นสเกลของตัวแปรดั้งเดิม (โดยใช้ชุดค่าผสมเชิงเส้นของตัวแปรดั้งเดิมที่กำหนดพีซีแต่ละเครื่อง)

เหตุใดตาราง ANOVA ในผลลัพธ์ PCR จึงแสดงระดับความเป็นอิสระสำหรับการถดถอยเพียงเล็กน้อย

จำนวนของ df สำหรับการถดถอยจะเท่ากับจำนวนของส่วนประกอบที่เลือกโดย PCA เพื่อเป็นตัวแปรอิสระในการถดถอย ดังนั้นจำนวนของสัมประสิทธิ์มักจะเกินจำนวนขององศาอิสระที่ถดถอยเสมอ นั่นคือจุดรวมของ PCR!

ฉันควรตีความผล PCR อย่างไร

Principal Component Regression (PCR) คือการถดถอยแบบพหุที่ใช้ส่วนประกอบหลัก (PC) ที่สร้างขึ้นโดย PCA เป็นตัวแปรอิสระพร้อมกับตัวแปรอื่นที่คุณเลือก (ไม่ใช่ส่วนหนึ่งของ PCA) เป็นตัวแปรตาม โครงสร้างของผลลัพธ์สำหรับ PCR เหมือนกับผลลัพธ์ที่เกิดจากการถดถอยเชิงเส้นพหุคูณ ทบทวนรายการตรวจสอบการวิเคราะห์สำหรับการถดถอยเชิงเส้นพหุคูณสำหรับข้อมูลเพิ่มเติม.

© 1995-2019ซอฟต์แวร์ GraphPad, LLC. สงวนลิขสิทธิ์.

คู่มือสถิติ GraphPad Prism 10 (2024)
Top Articles
Latest Posts
Article information

Author: Corie Satterfield

Last Updated:

Views: 6066

Rating: 4.1 / 5 (42 voted)

Reviews: 89% of readers found this page helpful

Author information

Name: Corie Satterfield

Birthday: 1992-08-19

Address: 850 Benjamin Bridge, Dickinsonchester, CO 68572-0542

Phone: +26813599986666

Job: Sales Manager

Hobby: Table tennis, Soapmaking, Flower arranging, amateur radio, Rock climbing, scrapbook, Horseback riding

Introduction: My name is Corie Satterfield, I am a fancy, perfect, spotless, quaint, fantastic, funny, lucky person who loves writing and wants to share my knowledge and understanding with you.