ภาคผนวก B: ชุดข้อมูลประชากรสังเคราะห์

แนวทางการปรับตัวหลายอย่างที่ใช้ในการศึกษานี้ต้องการชุดข้อมูลที่เป็นตัวแทนของประชากรผู้ใหญ่ในสหรัฐอเมริกา โดยพื้นฐานแล้วชุดข้อมูลนี้ใช้เป็นข้อมูลอ้างอิงสำหรับการทำแบบสำรวจ (เช่นตัวอย่างการเลือกใช้ออนไลน์) เป็นตัวแทนมากกว่า เมื่อเลือกชุดข้อมูลประชากรนักวิจัยมักใช้ชุดข้อมูลมาตรฐานขนาดใหญ่ของรัฐบาลกลางเช่น American Community Survey (ACS) หรือ Current Population Survey (CPS) เนื่องจากการสำรวจเหล่านี้มีอัตราการตอบสนองสูงอัตราการครอบคลุมประชากรสูงและตัวอย่างตามความน่าจะเป็นที่เข้มงวด การออกแบบ


ข้อ จำกัด อย่างหนึ่งของการใช้แบบสำรวจเดียวเช่น ACS คือตัวแปรเดียวที่สามารถใช้ในการปรับค่าได้คือตัวแปรที่วัดได้ใน ACS ซึ่งหมายความว่านักวิจัยสามารถปรับเปลี่ยนคุณลักษณะต่างๆเช่นอายุรายได้และการศึกษา แต่ไม่สามารถเข้าร่วมพรรคการเมืองความสัมพันธ์ทางศาสนาหรือการลงทะเบียนผู้มีสิทธิเลือกตั้ง วิธีแก้ปัญหาหนึ่งคือการใช้ชุดข้อมูลมาตรฐานหลายชุดที่วัดตัวแปรที่แตกต่างกันและรวมเข้าด้วยกันเพื่อสร้างไฟล์สังเคราะห์ชุดข้อมูลประชากร25

คำถามที่ ACS มีเหมือนกันกับแบบสำรวจเปรียบเทียบอื่น ๆ จะใช้เพื่อจำลองการตอบสนองที่เป็นไปได้ทางสถิติสำหรับคำถามที่ไม่ได้ถามใน ACS ส่วนที่ตามมาจะให้รายละเอียดเกี่ยวกับการสร้างชุดข้อมูลประชากรสังเคราะห์สำหรับการศึกษานี้

การสร้างชุดข้อมูลประชากรสังเคราะห์

ชุดข้อมูลประชากรสังเคราะห์ถูกสร้างขึ้นในสามขั้นตอนหลัก:

นักวิจัยดาวน์โหลดชุดข้อมูลการใช้งานสาธารณะสำหรับการสำรวจเกณฑ์มาตรฐาน 9 แบบจากนั้นจึงบันทึกตัวแปรทั่วไป (เช่นอายุและการศึกษา) เพื่อให้สอดคล้องกันในแบบสำรวจ จากนั้นพวกเขาปรับขนาดน้ำหนักของแบบสำรวจแต่ละครั้งเพื่อรวมเป็นขนาดตัวอย่างเล็กน้อย

จากนั้นชุดข้อมูลแต่ละชุดจะถูกจัดเรียงตามน้ำหนักของแต่ละระเบียนและแบ่งออกเป็น 20 ชั้นตามผลรวมสะสมของน้ำหนักที่สำรวจเพื่อให้แต่ละชั้นเป็นตัวแทน 5% ของประชากรทั้งหมด จากนั้นสุ่มเลือกตัวอย่าง 1,000 กรณี (การสัมภาษณ์) จากแต่ละชั้นที่มีการแทนที่และความน่าจะเป็นเป็นสัดส่วนกับน้ำหนักของเคส สิ่งนี้มีผลในการ 'เลิกทำ' น้ำหนักและสร้างชุดข้อมูล 20,000 กรณีสำหรับการสำรวจแต่ละครั้งซึ่งเป็นตัวแทนของประชากรทั้งหมด


จากนั้นชุดข้อมูลเคส 20,000 ชุดเหล่านี้จะรวมกันเป็นชุดข้อมูลขนาดใหญ่ชุดเดียว จากการใช้ชุดข้อมูลที่รวมเข้าด้วยกันนักวิจัยได้สร้างชุดข้อมูลที่คำนวณแบบทวีคูณ 25 ชุดผ่านวิธีสมการแบบโซ่



หลังจากการใส่ความแล้วมีเพียง 20,000 รายที่มาจาก ACS เท่านั้นที่ถูกเก็บไว้และรายอื่น ๆ ทั้งหมดจะถูกละทิ้ง สิ่งนี้ทำขึ้นเพื่อให้แน่ใจว่าการแจกแจงของตัวแปรทางประชากรหลักตรงกับการแจกแจง ACS อย่างแม่นยำในขณะที่ตัวแปรที่คำนวณจะสะท้อนถึงการกระจายที่คาดว่าจะได้รับจากโปรไฟล์ประชากร ACS


แต่ละขั้นตอนเหล่านี้จะกล่าวถึงในรายละเอียดด้านล่าง

การเลือกและการเข้ารหัสชุดข้อมูล

ใช้ชุดข้อมูลเก้าชุดเพื่อสร้างชุดข้อมูลประชากรสังเคราะห์: 2015 ACS, 2015 CPS Annual Social and Economic Supplement (CPS ASEC), 2013 CPS Civic Engagement Supplement (CPS CivEng), 2015 CPS Computer and Internet Use Supplement (CPS Internet ), การเสริมอาสาสมัคร CPS ประจำปี 2558 (CPS อาสา), การเพิ่มการลงคะแนนและการลงทะเบียน CPS ประจำปี 2557 (การโหวต CPS), การสำรวจสังคมทั่วไป (GSS) ประจำปี 2014, การศึกษาภูมิทัศน์ทางศาสนาของศูนย์วิจัยพิวประจำปี 2557 (RLS) และศูนย์วิจัย Pew ปี 2014 การสำรวจโพลาไรเซชันทางการเมืองและการจำแนกประเภท (พ.ต.ท. ). การสำรวจแต่ละครั้งมีส่วนร่วมของตัวแปรจำนวนหนึ่งในเฟรม โดยรวมแล้วเฟรมประกอบด้วยตัวแปร 37 ตัวแปรโดยมีตัวแปรเหล่านี้จำนวนมากในแบบสำรวจหลายแบบ


ชุดข้อมูลทั้งเก้าชุดประกอบด้วยตัวแปรทางประชากรทั่วไปหลายประการเช่นเพศอายุเชื้อชาติและเชื้อชาติสเปนการศึกษาการแบ่งสำมะโนประชากรสถานภาพการสมรสขนาดครัวเรือนจำนวนบุตรการเกิดในสหรัฐอเมริกาสถานะการเป็นพลเมืองและรายได้ของครอบครัว ตัวแปรอื่น ๆ ถูกวัดในส่วนย่อยของแบบสำรวจเท่านั้น ตัวอย่างเช่นการเป็นอาสาสมัครมีอยู่ในส่วนเสริมของอาสาสมัคร CPS เท่านั้นในขณะที่การระบุพรรคมีอยู่เฉพาะใน GSS การสำรวจโพลาไรเซชันของ RLS และ Pew Research Center ซึ่งไม่มีการสำรวจของรัฐบาลกลาง

ตัวแปรที่วัดหรือเข้ารหัสแตกต่างกันในแบบสำรวจจะได้รับการเข้ารหัสให้เทียบเคียงได้มากที่สุด ซึ่งมักหมายความว่าตัวแปรถูกทำให้หยาบขึ้น ตัวอย่างเช่นรหัสบนสุดของ CPS มีอายุ 85 ปีขึ้นไปดังนั้นจึงมีการใช้รูปแบบการเข้ารหัสเดียวกันกับแบบสำรวจอื่น ๆ ทั้งหมดด้วย ในกรณีอื่น ๆ สิ่งนี้เกี่ยวข้องกับการรักษาค่าที่ไม่สอดคล้องกันว่าขาดหายไป ตัวอย่างเช่นทั้ง ACS และแบบสำรวจ CPS ต่างๆถามผู้ตอบว่าโดยปกติจะทำงานกี่ชั่วโมงต่อสัปดาห์ อย่างไรก็ตามแบบสำรวจ CPS ยังอนุญาตให้ผู้ตอบแบบสอบถามระบุว่าจำนวนชั่วโมงที่ทำงานปกติต่อสัปดาห์แตกต่างกันไปในขณะที่ ACS ไม่มีตัวเลือกนี้ ในตารางด้านบนข้อมูลที่ขาดหายไปสำหรับชั่วโมงการทำงานต่อสัปดาห์ในแบบสำรวจ CPS นั้นไม่ได้หายไปอย่างแท้จริง แต่ประกอบด้วยผู้ที่ระบุว่าเวลาทำการแตกต่างกันไป อย่างไรก็ตามข้อมูลเหล่านี้จะถือว่าขาดหายไปเพื่อให้สอดคล้องกับวิธีที่ถามใน ACS ค่าที่กำหนดสามารถตีความได้ว่าเป็นการทำนายว่าบุคคลเหล่านั้นจะตอบอย่างไรหากพวกเขาถูกถามด้วยคำถาม ACS แทน

การสุ่มตัวอย่างแบบแบ่งชั้น

ชุดข้อมูลมาตรฐานแตกต่างกันในการออกแบบตัวอย่างและขนาดของตัวอย่าง เพื่อจัดการกับความแตกต่างเหล่านี้เราได้เลือกการสังเกตการณ์ 20,000 รายการต่อชุดข้อมูลก่อนที่จะผนวกเข้าด้วยกัน การสุ่มตัวอย่างทำได้โดยการเปลี่ยนและความน่าจะเป็นเป็นสัดส่วนกับน้ำหนักของเคส ขนาดของกลุ่มตัวอย่างถูกเลือกเพื่อให้มีข้อมูลเพียงพอสำหรับวิธีการปรับที่ใช้ในขณะที่ยังสามารถคำนวณได้ สำหรับ CPS Internet Supplement, GSS และ Polarization Survey สิ่งนี้รับประกันได้ว่าการสังเกตจะถูกสุ่มตัวอย่างหลายครั้ง

เราใช้น้ำหนักที่เกี่ยวข้องสำหรับแต่ละชุดข้อมูล น้ำหนักระดับบุคคลถูกใช้สำหรับ ACS บุคคลที่เสริมน้ำหนักสำหรับ CPS ASEC และน้ำหนักเสริมแบบตอบสนองตนเองสำหรับอาหารเสริม CPS Civic Engagement CPS Internet Supplement ได้รับการกรองให้เหมาะกับผู้ตอบแบบสอบถามที่มีน้ำหนักผู้ตอบแบบสุ่มเนื่องจากตัวแปรการส่งข้อความและเครือข่ายโซเชียลนั้นวัดได้สำหรับผู้ตอบแบบสอบถามเหล่านี้เท่านั้น น้ำหนักที่ไม่ตอบสนองถูกใช้สำหรับอาหารเสริม CPS สำหรับอาสาสมัครในขณะที่น้ำหนักที่ไม่ตอบสนองสำหรับทั้งกรณีข้ามส่วนและกรณีพาเนลถูกใช้สำหรับ GSS ใช้น้ำหนักตัวอย่างทั้งหมดสำหรับ RLS และการสำรวจโพลาไรซ์ สุดท้ายสำหรับส่วนเสริมการโหวต CPS น้ำหนักขั้นที่สองได้รับการปรับตามคำแนะนำของ Hur และ Achen26เพื่อแก้ไขความลำเอียงที่เป็นผลมาจากการไม่ตอบสนองของรายการที่ถือว่าไม่ได้รับการโหวต แต่ละน้ำหนักเหล่านี้ได้รับการปรับขนาดเพื่อรวมกับขนาดตัวอย่างของแต่ละชุดข้อมูลตามลำดับ


เพื่อให้แน่ใจว่าตัวอย่างมีสัดส่วนที่ถูกต้องของกรณีที่มีทั้งน้ำหนักขนาดใหญ่และขนาดเล็กชุดข้อมูลแต่ละชุดจะถูกจัดเรียงตามน้ำหนักและแบ่งออกเป็น 20 ชั้นซึ่งแต่ละชั้นจะแสดงถึง 5% ของตัวอย่างที่ถ่วงน้ำหนัก

การใส่ความ

จากนั้นชุดข้อมูลทั้งเก้าชุดจะรวมกันเป็นชุดข้อมูลเดียวและค่าที่ขาดหายไปทั้งหมดจะถูกคำนวณผ่านวิธีการ 'สมการแบบโซ่' ที่วนซ้ำผ่านการสร้างแบบจำลองตัวแปรแต่ละตัวเป็นฟังก์ชันของตัวแปรอื่น ๆ ทั้งหมด27ตัวอย่างเช่นหากอายุเพศและการศึกษาเป็นตัวแปรเดียวแนวทางสมการแบบล่ามโซ่อาจกำหนดอายุตามเพศและการศึกษาก่อนจากนั้นจึงกำหนดเพศตามอายุและการศึกษาจากนั้นการศึกษาตามอายุและเพศและจะทำซ้ำรอบนี้สำหรับ การทำซ้ำจำนวนหนึ่งเพื่อให้เกิดความเสถียร ขั้นตอนทั้งหมดนี้ยังทำซ้ำ 25 ครั้งโดยไม่ขึ้นกันเพื่อสร้างเฟรมสังเคราะห์หลาย ๆ เฟรมที่สามารถเปรียบเทียบกันได้เพื่อประเมินความแปรปรวนที่เกิดจากกระบวนการใส่ความ แต่ละเฟรมผ่านการทำซ้ำ 10 ครั้ง

มีโมเดลมากมายที่สามารถใช้ในการกำหนดตัวแปรแต่ละตัวโดยขึ้นอยู่กับตัวแปรอื่น ๆ ทั้งหมดเช่นโมเดลการถดถอยหรือวิธีการ 'hot-deck' ซึ่งค่าที่หายไปแต่ละค่าจะถูกแทนที่ด้วยการตอบสนองที่สังเกตได้จากหน่วย 'ที่คล้ายกัน' สำหรับชุดข้อมูลประชากรสังเคราะห์ตัวแปรแต่ละตัวถูกกำหนดโดยใช้วิธีการสุ่ม 'hot-deck' ของฟอเรสต์28

หลังจากการใส่ข้อมูลชุดข้อมูลประชากรสังเคราะห์ขั้นสุดท้ายถูกสร้างขึ้นโดยการลบทั้งหมดยกเว้นกรณีที่มีพื้นเพมาจาก ACS สิ่งนี้ช่วยให้มั่นใจได้ว่าการแจกแจงทางประชากรใกล้เคียงกับ ACS ดั้งเดิมมากที่สุดในขณะที่ตัวแปรที่กำหนดจะแสดงถึงการแจกแจงร่วมที่คาดว่าจะได้รับจากตัวแปรที่แต่ละชุดข้อมูลมีเหมือนกัน

การประเมินคุณภาพการใส่

เราดำเนินการหลายขั้นตอนเพื่อให้แน่ใจว่าขั้นตอนการใส่ข้อมูลให้ผลลัพธ์ที่สะท้อนชุดข้อมูลดั้งเดิมอย่างถูกต้อง ขั้นแรกเราข้ามตัวแปรที่กำหนดไว้ (เช่นการลงทะเบียนผู้มีสิทธิเลือกตั้งและการระบุพรรค) ด้วยตัวแปรที่สังเกตได้ทั้งหมด (เช่นอายุเพศและการศึกษา) และสำหรับแต่ละเซลล์โดยเปรียบเทียบขนาดของเซลล์ในชุดข้อมูล ACS กับของมัน ขนาดในชุดข้อมูลดั้งเดิมที่กำหนดไว้ โดยรวมแล้วการแจกแจงที่กำหนดไว้ค่อนข้างใกล้เคียงกับต้นฉบับ ความแตกต่างสัมบูรณ์เฉลี่ยระหว่างค่าที่กำหนดและค่าดั้งเดิมสำหรับการจำแนกข้ามแต่ละประเภทคือ 2 คะแนนเปอร์เซ็นต์ ซึ่งหมายความว่าโดยเฉลี่ยแล้วค่าที่กำหนดไม่เพียง แต่ตรงกับการแจกแจงสำหรับประชากรทั้งหมดเท่านั้น แต่ยังตรงกับการแจกแจงภายในกลุ่มย่อยทางประชากรด้วย

แม้ว่าขั้นตอนการใส่ข้อมูลหลายขั้นตอนจะสร้างชุดข้อมูลประชากรสังเคราะห์ 25 เวอร์ชัน แต่มีเพียงหนึ่งในนั้นเท่านั้นที่ใช้ในการปรับเปลี่ยนในการศึกษานี้ ข้อกังวลประการหนึ่งเกี่ยวกับแนวทางนี้คือความเป็นไปได้ที่ผลลัพธ์อาจแตกต่างกันไปขึ้นอยู่กับว่าใช้ประชากรสังเคราะห์ 25 กลุ่มใด แม้ว่าจะไม่สามารถคำนวณซ้ำการวิเคราะห์ทั้งหมดในชุดข้อมูลแต่ละชุดที่กำหนดไว้ได้ แต่เราได้ทำขั้นตอนการปรับเปลี่ยนซ้ำในชุดข้อมูลทั้ง 25 ชุดเพื่อประเมินระดับที่ขั้นตอนการใส่ข้อมูลอาจมีผลต่อผลการศึกษา

สำหรับชุดข้อมูลที่กำหนดไว้ 25 ชุดเราทำการ raking ด้วยทั้งตัวแปรทางประชากรและทางการเมืองในตัวอย่าง bootstrap 1,000 ตัวอย่างของ n = 3,500 ตามขั้นตอนเดียวกับที่ใช้ในเนื้อหาของรายงานนี้ สำหรับแต่ละหมวดหมู่ที่สำคัญในตัวแปรมาตรฐาน 24 ตัวแปรเราคำนวณเปอร์เซ็นต์ถ่วงน้ำหนักสำหรับแต่ละตัวอย่างที่มีการบูต จากนั้นเราคำนวณผลต่างทั้งหมด(ค่าเฉลี่ยข้อผิดพลาดกำลังสอง) สำหรับการประมาณแต่ละครั้งที่มีตัวอย่าง bootstrap ทั้งหมด 25,000 ตัวอย่างรวมกัน สุดท้ายเราคำนวณความแปรปรวนสำหรับชุดค่าประมาณ 25 ชุดแยกกันและหาค่าเฉลี่ย นี้เป็นความแปรปรวนภายใน. กระบวนการนี้ซ้ำสำหรับผู้ขายทั้งสามราย

หากความแปรปรวนทั้งหมดมีขนาดใหญ่กว่าความแปรปรวนภายในการใส่ความแปรปรวนมากความแปรปรวนและระยะขอบของข้อผิดพลาดโดยประมาณที่ใช้การใส่เพียงตัวเดียว (ตามที่ทำในการศึกษานี้) จะถูกประเมินต่ำเกินไป ในกรณีนี้ความแปรปรวนรวมมีค่าเพียง 1.002 เท่าของค่าความแปรปรวนภายในการใส่ค่าเฉลี่ย ซึ่งหมายความว่าความแปรปรวนโดยประมาณที่อธิบายไว้ในรายงานเป็นไปเพื่อวัตถุประสงค์ในทางปฏิบัติทั้งหมดเช่นเดียวกับการวิเคราะห์ซ้ำสำหรับอิมพุตทั้งหมด 25 อิมพุต

สาเหตุที่ทั้งสองใกล้ชิดกันมากนั้นน่าจะเกิดจากความจริงที่ว่าการใส่เข้าไปมีผลต่อความแปรปรวนของการประมาณการแบบสำรวจทางอ้อมเท่านั้นและทำให้เกิดความแปรปรวนในการสำรวจเพียงเล็กน้อยเท่านั้น หากเราจะเปรียบเทียบความแปรปรวนรวมและความแปรปรวนภายในสำหรับค่าที่คำนวณด้วยตัวมันเอง (ดังที่เราอาจจะเป็นได้หากชุดข้อมูลประชากรสังเคราะห์เป็นจุดสนใจหลักของการวิเคราะห์แทนที่จะเป็นเพียงข้อมูลในการถ่วงน้ำหนัก) ความแตกต่างน่าจะมีมากขึ้น

ตัวแปรปรับที่ใช้ในการศึกษา

ตัวแปรการปรับตัวทางประชากรหลักที่ใช้ในการศึกษา ได้แก่ อายุ 6 หมวดเพศการได้รับการศึกษา 5 หมวดหมู่เชื้อชาติและเชื้อชาติสเปนและการแบ่งสำมะโนประชากร ตัวแปรทางการเมืองที่ขยายตัวเพิ่มความเกี่ยวข้องกับพรรคการเมือง 3 ประเภทนี้อุดมการณ์ทางการเมือง 3 ประเภทการลงทะเบียนผู้มีสิทธิเลือกตั้งและผู้ตอบระบุว่าเป็นคริสเตียนผู้เผยแพร่ศาสนาหรือไม่

ตารางต่อไปนี้เปรียบเทียบการกระจายของตัวแปรการปรับแต่งบนชุดข้อมูลประชากรสังเคราะห์เทียบกับชุดข้อมูลการสำรวจคุณภาพสูงเดิมที่ใช้สร้างชุดข้อมูลสังเคราะห์ ตัวแปรทางประชากรทั้งหมดได้รับการสังเกตอย่างสมบูรณ์ใน ACS ดังนั้นกรอบสังเคราะห์จะแตกต่างจากแหล่งข้อมูลเดิมเฉพาะในชุดตัวแปรทางการเมืองที่ขยายออก

ความแตกต่างที่ใหญ่ที่สุดระหว่างการสำรวจแหล่งที่มาและกรอบสังเคราะห์คืออุดมการณ์ทางการเมือง ส่วนแบ่งโดยประมาณของกลุ่มอนุรักษ์นิยมที่อธิบายตนเองคือ 32% ใน GSS เทียบกับ 35% ในกรอบสังเคราะห์ การประมาณในครั้งหลังนี้คล้ายคลึงกับมาตรการจากการศึกษาภูมิทัศน์ทางศาสนาของ Pew Research Center และการสำรวจการแบ่งขั้วทางการเมืองและการพิมพ์ดีดซึ่งใช้ในกรอบด้วย สาเหตุที่แท้จริงของความคลาดเคลื่อนนี้ยังไม่ชัดเจน แต่มีปัจจัยที่เป็นไปได้หลายประการ ซึ่งแตกต่างจากมาตรการของศูนย์ซึ่งรวบรวมผ่านการสัมภาษณ์สดทางโทรศัพท์คำถาม GSS จะจัดการด้วยตนเองโดยใช้บัตรแสดง นอกจากนี้คำถาม GSS ยังใช้มาตราส่วน 7 จุดในขณะที่คำถามของ Center ใช้มาตราส่วน 5 จุด ในที่สุดอาจมีความแตกต่างที่สำคัญระหว่างการจัดเรียงข้อมูลประชากรของผู้ตอบแบบสอบถามต่อ GSS และผู้ตอบ ACS