본문 바로가기

방송통신대학교

R 언어로 본 30명의 성인 데이터 분석(혈액형, 신장 및 통계적 접근)

728x90
반응형
728x170

다음의 R 명령문을 실행하여 성인 30명의 성별(sex), 혈액형(blood.type)과 신장(height) 데이터를 객체 dd에 저장하시오. 저장된 데이터를 이용하여 다음의 질문에 답하시오.

 

sex<-as.factor(c(rep("F", 15), rep("M", 15)))
blood.type<-as.factor(c(rep("A", 5), rep("B", 4), rep("AB", 2), rep("O", 4),
rep("A", 6), rep("B", 4), rep("AB", 2), rep("O", 3)))
height<-c(161, 160, 164, 172, 157, 164, 166, 169, 166, 164,
157, 159, 162, 166, 160, 166, 157, 171, 174, 170,
172, 165, 182, 170, 168, 171, 170, 171, 178, 171)
dd<-data.frame(sex, blood.type, height)
summary(dd)

 

(1) 혈액형의 분포를 나타내는 막대그래프를 그리시오. R 명령문과 그래프를 제출하시오. (4점)
(2) 30명 전체의 평균 신장을 구하시오. 풀이과정이나 R 명령문을 같이 제출하시오. (4점)
(3) 30명 전체의 신장의 중앙값을 구하시오. 풀이과정이나 R 명령문을 같이 제출하시오. (4점)
(4) 이 30명이 대표하는 모집단의 평균 신장에 대한 95% 신뢰구간을 구하시오. 풀이과정이나 R 명령문을 같이 제출하시오. (4점)

R 언어로 본 30명의 성인 데이터 분석: 혈액형, 신장 및 통계적 접근

오늘은 R 언어를 이용하여 30명의 성인 데이터를 분석해보려 합니다. 그 중에서도 특히 성별, 혈액형, 그리고 신장에 집중해서 살펴볼 예정이에요

1. 데이터 준비

먼저, 30명의 성인 데이터를 준비해보겠습니다. 성별은 남자와 여자가 각각 15명씩 있으며, 혈액형과 신장 데이터도 함께 준비되어 있습니다.

sex <- as.factor(c(rep("F", 15), rep("M", 15)))
blood.type <- as.factor(c(rep("A", 5), rep("B", 4), rep("AB", 2), rep("O", 4),
              rep("A", 6), rep("B", 4), rep("AB", 2), rep("O", 3)))
height <- c(161, 160, 164, 172, 157, 164, 166, 169, 166, 164, 
          157, 159, 162, 166, 160, 166, 157, 171, 174, 170,
          172, 165, 182, 170, 168, 171, 170, 171, 178, 171)
dd <- data.frame(sex, blood.type, height)
summary(dd)

데이터 요약 결과를 보면, 혈액형 분포나 신장의 평균, 중앙값 등 여러 통계치를 확인할 수 있습니다.

2. 혈액형 분포 막대그래프

30명의 혈액형 분포를 확인하기 위해 막대그래프를 그려보겠습니다.

barplot(table(blood.type), main="혈액형 분포", xlab="혈액형", ylab="인원 수")

이 그래프를 통해 A, B, AB, O 혈액형의 분포를 한눈에 확인할 수 있습니다.

3. 신장의 평균과 중앙값

30명 전체의 평균 신장과 중앙값을 계산해보겠습니다.

mean_height <- mean(height)
median_height <- median(height)

4. 95% 신뢰구간

이제, 이 30명의 데이터를 기반으로 모집단의 평균 신장에 대한 95% 신뢰구간을 구해보겠습니다.

n <- length(height)
stderr <- sd(height) / sqrt(n)
confidence_interval <- qnorm(0.975) * stderr
lower_bound <- mean_height - confidence_interval
upper_bound <- mean_height + confidence_interval

 

 

이렇게 계산된 95% 신뢰구간을 통해, 모집단의 평균 신장이 이 범위 안에 있을 확률이 95%라는 것을 알 수 있습니다.

위에서 저장한 데이터를 이용하여, 그 데이터가 대표하는 남성 모집단의 평균 신장과 여성 모집단의 평균 신장을 비교하는 가설검정을 수행하기 위해 아래의 질문에 답하시오.

 

(1) 귀무가설과 대립가설은 각각 무엇인가? (단, 어느 쪽이 더 크다고 방향을 정해놓지 않고, 두 그룹의 평균 신장이 같은지 다른지 알아보는 양측 검정을 할 것.) (4점)
(2) R을 이용하여 이표본 이분산 t-검정을 수행하시오. R 명령문과 출력결과를 제출하시오.(4점)
(3) (2)에서 수행한 가설검정 결과를 해석하시오. (2점)

 

1. 귀무가설과 대립가설

귀무가설(H0)과 대립가설(Ha)은 다음과 같습니다:

  • 귀무가설((H_0)): ( \mu_{남성} = \mu_{여성} )
    남성 모집단의 평균 신장과 여성 모집단의 평균 신장은 같다.
  • 대립가설((H_a)): ( \mu_{남성} \neq \mu_{여성} )
    남성 모집단의 평균 신장과 여성 모집단의 평균 신장은 다르다.

2. R을 이용한 이표본 이분산 t-검정

R에서 t.test 함수를 사용하여 이표본 이분산 t-검정을 수행할 수 있습니다. 여기서 var.equal = FALSE 옵션을 사용하여 이분산 t-검정을 수행하게 됩니다.

male_height <- height[sex == "M"]
female_height <- height[sex == "F"]

test_result <- t.test(male_height, female_height, var.equal = FALSE)
test_result

3. 가설검정 결과 해석

(2)에서 출력된 결과를 통해 t-값과 p-값을 확인할 수 있습니다. 만약 p-값이 0.05보다 작으면, 귀무가설을 기각하게 되며 남성과 여성의 평균 신장이 통계적으로 유의하게 다르다고 결론 내릴 수 있습니다.

 

그러나 p-값이 0.05보다 크면, 귀무가설을 기각할 수 없으며 남성과 여성의 평균 신장이 통계적으로 유의하게 다르다고 말할 수 없습니다.

 

이를 통해 남성과 여성의 평균 신장이 같은지 혹은 다른지에 대한 통계적인 결론을 얻을 수 있습니다.

728x90
반응형
그리드형