다음의 R 명령문을 실행하여 성인 30명의 성별(sex), 혈액형(blood.type)과 신장(height) 데이터를 객체 dd에 저장하시오. 저장된 데이터를 이용하여 다음의 질문에 답하시오.
sex<-as.factor(c(rep("F", 15), rep("M", 15)))
blood.type<-as.factor(c(rep("A", 5), rep("B", 4), rep("AB", 2), rep("O", 4),
rep("A", 6), rep("B", 4), rep("AB", 2), rep("O", 3)))
height<-c(161, 160, 164, 172, 157, 164, 166, 169, 166, 164,
157, 159, 162, 166, 160, 166, 157, 171, 174, 170,
172, 165, 182, 170, 168, 171, 170, 171, 178, 171)
dd<-data.frame(sex, blood.type, height)
summary(dd)
(1) 혈액형의 분포를 나타내는 막대그래프를 그리시오. R 명령문과 그래프를 제출하시오. (4점)
(2) 30명 전체의 평균 신장을 구하시오. 풀이과정이나 R 명령문을 같이 제출하시오. (4점)
(3) 30명 전체의 신장의 중앙값을 구하시오. 풀이과정이나 R 명령문을 같이 제출하시오. (4점)
(4) 이 30명이 대표하는 모집단의 평균 신장에 대한 95% 신뢰구간을 구하시오. 풀이과정이나 R 명령문을 같이 제출하시오. (4점)
R 언어로 본 30명의 성인 데이터 분석: 혈액형, 신장 및 통계적 접근
오늘은 R 언어를 이용하여 30명의 성인 데이터를 분석해보려 합니다. 그 중에서도 특히 성별, 혈액형, 그리고 신장에 집중해서 살펴볼 예정이에요
1. 데이터 준비
먼저, 30명의 성인 데이터를 준비해보겠습니다. 성별은 남자와 여자가 각각 15명씩 있으며, 혈액형과 신장 데이터도 함께 준비되어 있습니다.
sex <- as.factor(c(rep("F", 15), rep("M", 15)))
blood.type <- as.factor(c(rep("A", 5), rep("B", 4), rep("AB", 2), rep("O", 4),
rep("A", 6), rep("B", 4), rep("AB", 2), rep("O", 3)))
height <- c(161, 160, 164, 172, 157, 164, 166, 169, 166, 164,
157, 159, 162, 166, 160, 166, 157, 171, 174, 170,
172, 165, 182, 170, 168, 171, 170, 171, 178, 171)
dd <- data.frame(sex, blood.type, height)
summary(dd)
데이터 요약 결과를 보면, 혈액형 분포나 신장의 평균, 중앙값 등 여러 통계치를 확인할 수 있습니다.
2. 혈액형 분포 막대그래프
30명의 혈액형 분포를 확인하기 위해 막대그래프를 그려보겠습니다.
barplot(table(blood.type), main="혈액형 분포", xlab="혈액형", ylab="인원 수")
이 그래프를 통해 A, B, AB, O 혈액형의 분포를 한눈에 확인할 수 있습니다.
3. 신장의 평균과 중앙값
30명 전체의 평균 신장과 중앙값을 계산해보겠습니다.
mean_height <- mean(height)
median_height <- median(height)
4. 95% 신뢰구간
이제, 이 30명의 데이터를 기반으로 모집단의 평균 신장에 대한 95% 신뢰구간을 구해보겠습니다.
n <- length(height)
stderr <- sd(height) / sqrt(n)
confidence_interval <- qnorm(0.975) * stderr
lower_bound <- mean_height - confidence_interval
upper_bound <- mean_height + confidence_interval
이렇게 계산된 95% 신뢰구간을 통해, 모집단의 평균 신장이 이 범위 안에 있을 확률이 95%라는 것을 알 수 있습니다.
위에서 저장한 데이터를 이용하여, 그 데이터가 대표하는 남성 모집단의 평균 신장과 여성 모집단의 평균 신장을 비교하는 가설검정을 수행하기 위해 아래의 질문에 답하시오.
(1) 귀무가설과 대립가설은 각각 무엇인가? (단, 어느 쪽이 더 크다고 방향을 정해놓지 않고, 두 그룹의 평균 신장이 같은지 다른지 알아보는 양측 검정을 할 것.) (4점)
(2) R을 이용하여 이표본 이분산 t-검정을 수행하시오. R 명령문과 출력결과를 제출하시오.(4점)
(3) (2)에서 수행한 가설검정 결과를 해석하시오. (2점)
1. 귀무가설과 대립가설
귀무가설(H0)과 대립가설(Ha)은 다음과 같습니다:
- 귀무가설((H_0)): ( \mu_{남성} = \mu_{여성} )
남성 모집단의 평균 신장과 여성 모집단의 평균 신장은 같다. - 대립가설((H_a)): ( \mu_{남성} \neq \mu_{여성} )
남성 모집단의 평균 신장과 여성 모집단의 평균 신장은 다르다.
2. R을 이용한 이표본 이분산 t-검정
R에서 t.test
함수를 사용하여 이표본 이분산 t-검정을 수행할 수 있습니다. 여기서 var.equal = FALSE
옵션을 사용하여 이분산 t-검정을 수행하게 됩니다.
male_height <- height[sex == "M"]
female_height <- height[sex == "F"]
test_result <- t.test(male_height, female_height, var.equal = FALSE)
test_result
3. 가설검정 결과 해석
(2)에서 출력된 결과를 통해 t-값과 p-값을 확인할 수 있습니다. 만약 p-값이 0.05보다 작으면, 귀무가설을 기각하게 되며 남성과 여성의 평균 신장이 통계적으로 유의하게 다르다고 결론 내릴 수 있습니다.
그러나 p-값이 0.05보다 크면, 귀무가설을 기각할 수 없으며 남성과 여성의 평균 신장이 통계적으로 유의하게 다르다고 말할 수 없습니다.
이를 통해 남성과 여성의 평균 신장이 같은지 혹은 다른지에 대한 통계적인 결론을 얻을 수 있습니다.
'방송통신대학교' 카테고리의 다른 글
확률추출법과 비확률추출법 두 표본추출법의 핵심 개념 및 장단점 (0) | 2023.09.23 |
---|---|
만 20세 성인 여성의 신장 측정을 이용한 모집단, 표본, 모수, 통계량에 대해 알아보자! (1) | 2023.09.23 |
서베이를 통한 1차 자료 수집시 주의할 점과 서베이의 장점 (0) | 2023.09.23 |
매장의 밝기가 정말로 구매 의향에 영향을 미칠까? (0) | 2023.09.23 |
한국의 건강증진사업과 제5차 국민건강증진종합계획(HP2030)의 팩트시트 6호~10호 분석 (1) | 2023.09.22 |