ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Statistics for data science: Statistics
    Data Science 2023. 2. 11. 23:12

    1.  모집단과 표본의 차이

    모집단은 연구에서 관심 있는 모든 요소 또는 단위의 완전한 집합입니다. 우리가 배우고자 하는 개인, 사물, 사건 또는 측정의 전체 그룹입니다. 예를 들어, 인구는 특정 국가에 거주하는 모든 사람, 특정 회사에서 제조한 모든 제품 또는 특정 기간 동안 발생한 모든 판매가 될 수 있습니다.

    반면에 표본은 분석을 위해 선택된 모집단의 더 작은 하위 집합입니다. 표본은 샘플에서 수집된 데이터를 기반으로 모집단에 대한 추론을 만드는 데 사용됩니다. 전체 모집단에서 데이터를 수집하는 것이 종종 실현 가능하지 않거나 실용적이지 않기 때문에 샘플링이 사용됩니다.

    모집단과 표본의 구분은 중요합니다. 왜냐하면 표본 데이터에서 만들어진 추론은 표본이 추출된 모집단에만 적용되어야 하고 다른 모집단에는 적용되지 않기 때문입니다. 즉, 샘플 데이터는 모집단의 부분적인 보기만 제공하며 분석 결과는 어느 정도 오류가 있는 추정치일 뿐입니다. 결과의 품질과 정확성은 표본의 대표성, 표본의 크기, 표본을 선택하는 데 사용한 방법에 따라 달라집니다.

     

    2. 매개변수와 통계의 차이

    매개변수는 모집단을 요약하거나 설명하는 숫자 값입니다. 예를 들어, 모집단의 평균, 표준 편차 및 비율이 매개변수의 예입니다. 매개변수는 일반적으로 알 수 없으며 해당 값은 샘플 데이터에서 추정됩니다.

    반면 통계는 샘플을 요약하거나 설명하는 수치입니다. 예를 들어, 표본의 평균, 표준 편차 및 비율은 통계의 예입니다. 통계는 모집단 매개변수를 추정하는 데 사용됩니다.

    매개변수와 통계량의 차이는 모집단의 특성과 표본의 특성 간의 차이로 생각할 수 있습니다. 모수는 모집단의 속성이고 통계는 표본의 속성입니다. 즉, 모수는 모집단의 값이고 통계는 표본의 값입니다.

    많은 경우 통계 분석 결과는 모집단의 실제 값이 아닌 모집단 모수의 추정치로 보고되기 때문에 모수와 통계의 차이점을 이해하는 것이 중요합니다. 매개변수의 추정치는 샘플 데이터에서 계산된 통계를 기반으로 하며 샘플링 오류의 영향을 받아 결과의 편향과 부정확성을 초래할 수 있습니다.

     

    3. 한 병원에서 실험적이고 생명을 구하는 치료를 받은 환자들을 대상으로 설문 조사를 실시합니다. 병원 관리자는 집에서 환자에게 전화를 걸어 설문 조사에 참여하도록 요청합니다. 어떤 유형의 샘플링 편향이 관련될 수 있습니까?

    - Selection bias(선택 편향): 설문 조사 참가자를 선택하는 과정이 임의적이지 않고 관심 결과와 관련된 일부 요인의 영향을 받을 때 발생합니다. 예를 들어, 병원에서 긍정적인 결과를 얻은 환자에게만 전화를 걸면 설문조사 결과는 치료를 받은 환자 모집단을 대표하지 않습니다.

    - Response bias(응답 편향): 참가자가 정확하지 않거나 진실하지 않은 방식으로 응답할 때 발생합니다. 예를 들어, 환자는 설문조사 참여를 꺼리거나 질문에 긍정적인 답변을 하는 쪽으로 편향되어 치료의 이점을 과대평가할 수 있습니다.

    - Non-response bias(무응답 편향): 일부 참가자가 설문조사에 응답하지 않거나 완료하지 않을 때 발생합니다. 응답하지 않은 환자가 치료 결과 측면에서 응답한 환자와 다른 경우 설문조사 결과는 편향됩니다.

    - Recall bias(회상 편향): 이것은 참가자에게 과거의 정보를 회상하도록 요청하고 기억이 현재 인식이나 신념의 영향을 받을 때 발생합니다. 예를 들어, 환자가 현재 치료의 긍정적 또는 부정적 영향을 경험하고 있는 경우 치료 결과에 대한 기억이 다를 수 있습니다.

    결론적으로, 표본 편향의 영향을 최소화하기 위해서는 관심 모집단을 대표하는 임의적이고 잘 설계된 표본 추출 전략을 사용하여 높은 참여율을 보장하고 무응답 편향을 최소화하며 검증된 질문을 사용하는 것이 중요합니다.

     

    4. 중심 극한 정리(Central Limit Theorem)에서 말하는 모집단과 표본

    중심 극한 정리에 따르면 표본 크기가 충분히 크면 모집단 분포의 모양에 관계없이 표본 평균의 분포가 정규 분포에 가까워집니다. 즉, 중심 극한 정리에 따르면, 원래 변수가 정규 분포를 따르지 않더라도 독립적이고 동일하게 분포된 많은 확률 변수의 평균이 대략적으로 정규 분포를 따른다는 것을 나타냅니다.

    예를 들어 분포가 정규 분포를 따르지 않는 시험 점수의 모집단을 생각해 보십시오. 많은 수의 학생이 낮은 범위에서 점수를 받고 적은 수의 학생이 높은 범위에서 점수를 받습니다. 이 모집단에서 10명의 학생을 표본으로 추출하여 시험 점수의 평균을 계산하면 이러한 표본 평균의 분포는 정규 분포를 따르지 않습니다. 그러나 이 모집단에서 100명의 학생을 표본으로 추출하여 시험 점수의 평균을 계산하면 이러한 표본 평균의 분포는 정규 분포에 가까워집니다.

    중심 극한 정리는 표본 크기가 충분히 크다고 가정할 때 표본 통계를 기반으로 모집단 매개변수에 대한 추론을 할 수 있기 때문에 통계에서 강력한 개념입니다. 정리는 가설 테스트 및 추정을 포함하여 많은 통계 절차의 기초 중 하나입니다.

     

    5. 모집단의 평균이 600이고 표준편차가 50이라면, 표본 크기가 100인 집단에 대한 평균의 표준 오차는?

    평균의 표준 오차(SEM)는 표본 평균의 변동성을 측정하고 모집단 평균 추정치의 정밀도를 나타냅니다. 표본 크기의 제곱근으로 나눈 모집단 표준 편차인 평균의 표본 분포의 표준 편차로 계산됩니다.

    모집단의 평균이 600이고 표준 편차가 50인 경우 표본 크기 100에 대한 평균의 표준 오차는 다음과 같습니다.

    SEM = 50 / sqrt(100) = 50 / 10 = 5

    값 5는 모집단에서 크기가 100인 많은 표본을 추출하고 각 표본의 평균을 계산한 경우 해당 표본의 평균은 5의 표준 편차를 갖는다는 것을 나타냅니다. 즉, SEM은 다음과 같은 아이디어를 제공합니다. 표본 평균이 표본마다 얼마나 다를 것으로 예상되며 SEM이 작을수록 모집단 평균의 더 정확한 추정치를 나타냅니다.

    샘플 크기가 증가함에 따라 SEM이 감소한다는 점에 유의하는 것이 중요합니다. 즉, 샘플 크기가 클수록 모집단 평균을 더 정확하게 추정할 수 있습니다. 그러나 SEM은 실제 모집단 표준 편차의 추정치일 뿐이며 표본 평균의 실제 표준 편차는 특정 표본 데이터와 모집단의 분포에 따라 달라집니다.

     

    6. 귀무 가설에서 단측 검증(one-tailed test) / 양측 검증(two-tailed test) 간 차이점을 설명하시오
     
     
    단측 검정은 대립 가설이 귀무 가설과의 차이 또는 편차의 방향을 지정하는 검정입니다. 예를 들어, 귀무 가설이 모집단 평균이 특정 값과 같다고 명시하는 경우 단측 대립 가설은 모집단 평균이 해당 값보다 크거나 작다고 명시할 수 있습니다. 이 경우 테스트는 한 방향에서만 차이가 있다는 증거에 민감합니다.

    반면 양측 검정은 대립 가설이 귀무 가설과의 차이 또는 편차의 방향을 지정하지 않는 검정입니다. 예를 들어, 귀무 가설이 모집단 평균이 특정 값과 같다고 명시한 경우 양측 대립 가설은 모집단 평균이 해당 값과 같지 않다고 나타낼 수 있습니다. 이 경우 테스트는 어느 한 방향의 차이에 대한 증거에 민감합니다.

    단측 검정과 양측 검정 사이의 선택은 연구 질문과 분석의 특정 맥락에 따라 다릅니다. 단측 검정은 연구 질문이 특히 한 방향의 차이에 대한 증거에 초점을 맞추는 경우에 적합하고, 양측 검정은 연구 질문이 어느 한 방향의 차이에 대한 증거에 초점을 맞추는 경우에 적합합니다.

    단측 검정과 양측 검정에 대해 p-값과 유의 수준이 다르게 계산되며, 단측 검정과 양측 검정 중에서 선택하는 것은 다음을 해석하는 데 중요한 의미를 가질 수 있다는 점에 유의하는 것이 중요합니다.
    One-tailed Test Two-tailed Test
    Alternative hypothesis specifies the direction of the difference or deviation from the null hypothesis. Alternative hypothesis does not specify the direction of the difference or deviation from the null hypothesis.
    Sensitive to evidence of a difference in one direction only. Sensitive to evidence of a difference in either direction.
    Appropriate when the research question is specifically focused on evidence of a difference in one direction. Appropriate when the research question is focused on evidence of a difference in either direction.
    p-value and level of significance calculated differently. p-value and level of significance calculated differently.
    Choice between one-tailed and two-tailed test can have important implications for the interpretation of the results. Choice between one-tailed and two-tailed test can have important implications for the interpretation of the results.
     

     

Designed by Joshua Chung.