R 언어로 본 30명의 성인 데이터 분석(혈액형, 신장 및 통계적 접근)

728x90

728x170

다음의 R 명령문을 실행하여 성인 30명의 성별(sex), 혈액형(blood.type)과 신장(height) 데이터를 객체 dd에 저장하시오. 저장된 데이터를 이용하여 다음의 질문에 답하시오.

sex<-as.factor(c(rep("F", 15), rep("M", 15)))
blood.type<-as.factor(c(rep("A", 5), rep("B", 4), rep("AB", 2), rep("O", 4),
rep("A", 6), rep("B", 4), rep("AB", 2), rep("O", 3)))
height<-c(161, 160, 164, 172, 157, 164, 166, 169, 166, 164,
157, 159, 162, 166, 160, 166, 157, 171, 174, 170,
172, 165, 182, 170, 168, 171, 170, 171, 178, 171)
dd<-data.frame(sex, blood.type, height)
summary(dd)

(1) 혈액형의 분포를 나타내는 막대그래프를 그리시오. R 명령문과 그래프를 제출하시오. (4점)
(2) 30명 전체의 평균 신장을 구하시오. 풀이과정이나 R 명령문을 같이 제출하시오. (4점)
(3) 30명 전체의 신장의 중앙값을 구하시오. 풀이과정이나 R 명령문을 같이 제출하시오. (4점)
(4) 이 30명이 대표하는 모집단의 평균 신장에 대한 95% 신뢰구간을 구하시오. 풀이과정이나 R 명령문을 같이 제출하시오. (4점)

R 언어로 본 30명의 성인 데이터 분석: 혈액형, 신장 및 통계적 접근

오늘은 R 언어를 이용하여 30명의 성인 데이터를 분석해보려 합니다. 그 중에서도 특히 성별, 혈액형, 그리고 신장에 집중해서 살펴볼 예정이에요

1. 데이터 준비

먼저, 30명의 성인 데이터를 준비해보겠습니다. 성별은 남자와 여자가 각각 15명씩 있으며, 혈액형과 신장 데이터도 함께 준비되어 있습니다.

sex <- as.factor(c(rep("F", 15), rep("M", 15)))
blood.type <- as.factor(c(rep("A", 5), rep("B", 4), rep("AB", 2), rep("O", 4),
              rep("A", 6), rep("B", 4), rep("AB", 2), rep("O", 3)))
height <- c(161, 160, 164, 172, 157, 164, 166, 169, 166, 164, 
          157, 159, 162, 166, 160, 166, 157, 171, 174, 170,
          172, 165, 182, 170, 168, 171, 170, 171, 178, 171)
dd <- data.frame(sex, blood.type, height)
summary(dd)

데이터 요약 결과를 보면, 혈액형 분포나 신장의 평균, 중앙값 등 여러 통계치를 확인할 수 있습니다.

2. 혈액형 분포 막대그래프

30명의 혈액형 분포를 확인하기 위해 막대그래프를 그려보겠습니다.

barplot(table(blood.type), main="혈액형 분포", xlab="혈액형", ylab="인원 수")

이 그래프를 통해 A, B, AB, O 혈액형의 분포를 한눈에 확인할 수 있습니다.

3. 신장의 평균과 중앙값

30명 전체의 평균 신장과 중앙값을 계산해보겠습니다.

mean_height <- mean(height)
median_height <- median(height)

4. 95% 신뢰구간

이제, 이 30명의 데이터를 기반으로 모집단의 평균 신장에 대한 95% 신뢰구간을 구해보겠습니다.

n <- length(height)
stderr <- sd(height) / sqrt(n)
confidence_interval <- qnorm(0.975) * stderr
lower_bound <- mean_height - confidence_interval
upper_bound <- mean_height + confidence_interval

이렇게 계산된 95% 신뢰구간을 통해, 모집단의 평균 신장이 이 범위 안에 있을 확률이 95%라는 것을 알 수 있습니다.

위에서 저장한 데이터를 이용하여, 그 데이터가 대표하는 남성 모집단의 평균 신장과 여성 모집단의 평균 신장을 비교하는 가설검정을 수행하기 위해 아래의 질문에 답하시오.

(1) 귀무가설과 대립가설은 각각 무엇인가? (단, 어느 쪽이 더 크다고 방향을 정해놓지 않고, 두 그룹의 평균 신장이 같은지 다른지 알아보는 양측 검정을 할 것.) (4점)
(2) R을 이용하여 이표본 이분산 t-검정을 수행하시오. R 명령문과 출력결과를 제출하시오.(4점)
(3) (2)에서 수행한 가설검정 결과를 해석하시오. (2점)

1. 귀무가설과 대립가설

귀무가설(H0)과 대립가설(Ha)은 다음과 같습니다:

귀무가설((H_0)): ( \mu_{남성} = \mu_{여성} )
남성 모집단의 평균 신장과 여성 모집단의 평균 신장은 같다.
대립가설((H_a)): ( \mu_{남성} \neq \mu_{여성} )
남성 모집단의 평균 신장과 여성 모집단의 평균 신장은 다르다.

2. R을 이용한 이표본 이분산 t-검정

R에서 t.test 함수를 사용하여 이표본 이분산 t-검정을 수행할 수 있습니다. 여기서 var.equal = FALSE 옵션을 사용하여 이분산 t-검정을 수행하게 됩니다.

male_height <- height[sex == "M"]
female_height <- height[sex == "F"]

test_result <- t.test(male_height, female_height, var.equal = FALSE)
test_result

3. 가설검정 결과 해석

(2)에서 출력된 결과를 통해 t-값과 p-값을 확인할 수 있습니다. 만약 p-값이 0.05보다 작으면, 귀무가설을 기각하게 되며 남성과 여성의 평균 신장이 통계적으로 유의하게 다르다고 결론 내릴 수 있습니다.

그러나 p-값이 0.05보다 크면, 귀무가설을 기각할 수 없으며 남성과 여성의 평균 신장이 통계적으로 유의하게 다르다고 말할 수 없습니다.

이를 통해 남성과 여성의 평균 신장이 같은지 혹은 다른지에 대한 통계적인 결론을 얻을 수 있습니다.

728x90

그리드형

저작자표시 (새창열림)

'방송통신대학교' 카테고리의 다른 글

확률추출법과 비확률추출법 두 표본추출법의 핵심 개념 및 장단점 (0)	2023.09.23
만 20세 성인 여성의 신장 측정을 이용한 모집단, 표본, 모수, 통계량에 대해 알아보자! (1)	2023.09.23
서베이를 통한 1차 자료 수집시 주의할 점과 서베이의 장점 (0)	2023.09.23
매장의 밝기가 정말로 구매 의향에 영향을 미칠까? (0)	2023.09.23
한국의 건강증진사업과 제5차 국민건강증진종합계획(HP2030)의 팩트시트 6호~10호 분석 (1)	2023.09.22

HTML6

R 언어로 본 30명의 성인 데이터 분석(혈액형, 신장 및 통계적 접근)

R 언어로 본 30명의 성인 데이터 분석: 혈액형, 신장 및 통계적 접근

1. 데이터 준비

2. 혈액형 분포 막대그래프

3. 신장의 평균과 중앙값

4. 95% 신뢰구간

1. 귀무가설과 대립가설

2. R을 이용한 이표본 이분산 t-검정

3. 가설검정 결과 해석

'방송통신대학교' 카테고리의 다른 글

티스토리툴바

R 언어로 본 30명의 성인 데이터 분석(혈액형, 신장 및 통계적 접근)

R 언어로 본 30명의 성인 데이터 분석: 혈액형, 신장 및 통계적 접근

1. 데이터 준비

2. 혈액형 분포 막대그래프

3. 신장의 평균과 중앙값

4. 95% 신뢰구간

1. 귀무가설과 대립가설

2. R을 이용한 이표본 이분산 t-검정

3. 가설검정 결과 해석

'방송통신대학교' 카테고리의 다른 글

'방송통신대학교' Related Articles

티스토리툴바