본문 바로가기

방송통신대학교

경영분석을 위한 기초통계 13강 학습 정리와 개인 소회

728x90
반응형
728x170

경영학을 공부하면서 가장 먼저 마주치게 되는 도전 가운데 하나는 숫자에 대한 두려움을 어떻게 다스릴 것인가의 문제이다. 경영 현장은 직관과 경험만으로 굴러가지 않으며, 매출 데이터, 고객 만족도 조사, 재고 회전율, 신제품 수요 예측 등 수많은 수치의 흐름 속에서 의사결정이 이루어진다. 이때 그 숫자들을 어떻게 다듬고, 어디까지 신뢰할 수 있는지를 판단해 주는 학문이 바로 통계학이다. 본 강의는 경영학과 학생에게 필요한 통계적 사고의 기초를 다지는 과목으로, 단순히 공식을 외우는 데 그치지 않고 자료를 보는 눈을 키우는 것에 초점이 맞추어져 있다. 본 보고서에서는 1강부터 7강까지, 그리고 9강부터 14강까지 총 13개 강의의 내용을 강별로 요약하고, 각 강을 수강하면서 떠올랐던 개인적인 생각과 느낌을 솔직하게 정리하고자 한다.

제1강 통계학의 개념과 경영에서의 활용

이 강에서는 통계학이 무엇이며 경영학과 어떤 접점을 가지는지를 다룬다. 모집단과 표본의 구별, 기술통계와 추측통계의 차이, 변수의 종류와 측정 척도 등 가장 기본적인 개념들이 소개되었고, 경영 현장에서 통계가 의사결정을 어떻게 뒷받침하는지를 사례를 통해 보여 준다.

강의를 들으면서 가장 먼저 든 생각은 통계학이 결코 수학자만의 전유물이 아니라는 점이었다. 그동안 통계라고 하면 복잡한 공식과 두꺼운 표가 먼저 떠올랐는데, 막상 첫 강에서 강조한 것은 자료의 성격을 정확히 이해하는 것, 그리고 무엇을 묻고 있는지를 명확히 정의하는 것이었다. 이 점은 매우 인상적이었다. 직장 생활을 떠올려 보면 자료가 부족해서 잘못된 결정을 내리는 경우보다, 자료는 충분한데 그 자료가 무엇을 의미하는지 정리하지 못해 갈팡질팡하는 일이 훨씬 많았다. 명목척도, 서열척도, 등간척도, 비율척도라는 구분을 처음 들었을 때는 다소 추상적으로 느껴졌지만, 설문조사의 항목을 떠올리니 곧바로 이해가 되었다. 만족도 5점 척도를 등간으로 다루는 일이 흔한데, 사실 그것이 진정한 등간인지에 대해서는 학자들 사이에서도 논란이 있다는 설명이 흥미로웠다. 통계는 결국 도구이지만, 그 도구를 어떻게 손에 쥐느냐에 따라 전혀 다른 결과를 만든다는 점을 첫 강에서부터 확실히 깨달았다. 앞으로의 강의에서 다양한 분석 기법을 배우게 되겠지만, 그 모든 출발점은 자료의 본질을 묻는 데 있다는 사실이 머릿속에 깊이 새겨졌다. 경영학과 2학년의 입장에서 이 과목은 회계, 재무, 마케팅조사 등 후속 과목의 기초가 되는 만큼, 단순히 학점을 위한 공부가 아니라 직장 생활 내내 활용해야 할 사고 훈련이라는 마음가짐을 가지게 되었다.

제2강 자료의 정리와 도수분포표

두 번째 강에서는 수집된 자료를 어떻게 정리하여 한눈에 파악할 수 있도록 표현할 것인지를 다룬다. 도수분포표 작성 방법, 계급의 수와 폭을 정하는 기준, 누적도수와 상대도수의 의미, 그리고 히스토그램·줄기잎그림·도수다각형 등 그래프 표현 방식이 차례로 소개된다.

이 강을 들으며 새삼스럽게 느낀 점은, 데이터를 그저 가지고 있는 것과 정리해서 보여 주는 것 사이에 엄청난 차이가 있다는 사실이다. 회사에서 수천 건의 거래 명세서를 들여다본 적이 있는데, 엑셀로 받은 원자료만 보고 있을 때는 도저히 어떤 흐름인지 알 수 없었다. 그런데 도수분포표 형태로 금액 구간별 거래 건수를 정리하니 우리 회사 매출의 분포가 어디에 쏠려 있는지, 어떤 구간이 비어 있는지가 한눈에 들어왔다. 이번 강에서 배운 계급 수의 결정 원칙, 즉 자료의 수에 따라 5~20개 정도로 잡고 스터지스 공식 같은 보조 기준을 활용한다는 내용은 그동안 직관에 의존했던 경험을 학문적으로 뒷받침해 주었다. 또 줄기잎그림이 단순한 막대그래프와 달리 원자료의 정보를 보존한다는 설명도 흥미로웠다. 보고서를 만들 때 가장 많이 쓰는 것이 막대그래프와 원그래프이지만, 정작 분석가 자신이 자료의 분포를 살펴볼 때는 줄기잎그림처럼 거친 형태의 시각화가 더 유용할 수 있다는 점에서 시각화의 목적이 누구를 향하느냐에 따라 달라져야 한다는 점을 새롭게 인식하게 되었다. 한편 히스토그램의 계급 폭을 어떻게 잡느냐에 따라 같은 자료가 전혀 다른 모양으로 보일 수 있다는 점도 경계해야 할 부분이었다. 이 점은 향후 보고서를 작성할 때, 의도된 결론에 맞추어 그래프를 조작하지 않도록 스스로 검열하는 자세가 필요함을 일깨워 주었다.

제3강 중심경향 측도

세 번째 강에서는 자료의 중심을 어떻게 요약할 것인지에 대한 측도들을 학습한다. 평균(산술평균, 가중평균, 기하평균, 조화평균), 중앙값, 최빈값의 개념과 계산 방법, 각각의 장단점, 그리고 자료의 분포 형태에 따라 어떤 측도가 적절한지에 대한 비교가 이루어진다.

가장 익숙하면서도 가장 오해하기 쉬운 개념이 바로 평균이라는 점을 이번 강에서 다시금 느꼈다. 평균 연봉이라는 통계 하나만 보고 그 회사를 판단하면 큰 오류를 범할 수 있다. 임원 몇 명의 고연봉이 전체 평균을 끌어올려, 정작 다수의 평사원이 받는 금액과는 동떨어진 수치가 나오기 때문이다. 이번 강에서 중앙값이 극단값에 강건한 측도라는 사실을 다시 한 번 강조해 들으며, 왜 부동산 가격이나 가구 소득 같은 비대칭 자료에서 중앙값이 주로 사용되는지가 명확히 이해되었다. 기하평균과 조화평균은 그동안 잘 다루지 않았던 개념인데, 수익률처럼 곱의 성격을 가진 자료에는 기하평균이, 속도나 단가처럼 비율의 평균을 구할 때는 조화평균이 적합하다는 설명이 신선했다. 실제로 펀드 수익률을 단순히 산술평균으로 계산하면 실제 누적 수익률과는 동떨어진 결과가 나올 수 있다는 점은 투자 의사결정에서 매우 중요한 함정이다. 한편 최빈값은 명목척도에서 거의 유일하게 사용할 수 있는 중심측도라는 점에서 그 의의가 분명했다. 평균 한 가지에만 의존하지 않고, 자료의 성격에 따라 세 가지 측도를 함께 살피는 균형 잡힌 시각이 분석가로서 갖추어야 할 첫 번째 덕목임을 깨달았다. 앞으로 보고서를 받아 볼 때마다 평균 옆에 중앙값이 함께 보이는지, 또는 분포의 비대칭성이 충분히 설명되어 있는지를 의식적으로 살펴보아야겠다고 다짐했다.

제4강 산포도와 변동성 측도

네 번째 강은 자료가 중심을 기준으로 얼마나 흩어져 있는지를 측정하는 산포도에 관한 것이다. 범위, 사분위편차, 분산, 표준편차, 변동계수의 정의와 계산법, 그리고 각 측도의 활용 상황이 다루어졌다. 표준편차의 단위 문제와 변동계수의 상대적 비교 기능도 강조되었다.

평균만으로는 자료를 결코 충분히 설명할 수 없다는 사실은 이미 알고 있었지만, 산포도를 본격적으로 배우면서 그 의미가 더욱 분명해졌다. 두 학급의 평균 점수가 같아도, 한 학급은 모두가 비슷한 점수를 받았고 다른 학급은 극단적으로 잘하는 학생과 못하는 학생이 섞여 있다면, 교사가 취해야 할 교육적 접근은 전혀 달라질 것이다. 경영에서도 마찬가지로 두 지점의 평균 매출이 같다고 해서 같은 전략을 적용해서는 안 된다는 점을 실무적으로 떠올리게 되었다. 분산과 표준편차의 관계에서, 분산이 자료의 단위를 제곱해 버린다는 점이 늘 어색하게 느껴졌었는데, 이번 강에서 표준편차가 원래 단위를 회복시켜 주는 측도라는 설명을 듣고 두 측도의 역할 분담이 명쾌해졌다. 특히 변동계수가 단위가 다른 두 자료의 변동성을 비교할 수 있게 해 준다는 점은 매우 유용했다. 예를 들어 1억 원짜리 자산 포트폴리오와 1000만 원짜리 포트폴리오의 표준편차를 그대로 비교하면 큰 쪽이 무조건 위험해 보이지만, 변동계수로 환산하면 상대적 위험을 공정하게 비교할 수 있다. 사분위편차는 극단값의 영향을 줄이기 때문에 이상치가 의심되는 자료에 적합하다는 점도 기억해 두어야 할 부분이었다. 통계를 배우기 전에는 변동성을 줄이는 것이 항상 좋은 것이라고 막연히 생각했는데, 사실 변동성 자체가 수익의 원천이 되는 경우(주식, 옵션 등)도 있다는 점에서, 산포도는 단순한 위험 측도가 아니라 가치 평가의 도구로도 활용될 수 있음을 새삼 인식하게 되었다.

제5강 확률의 기초 개념

다섯 번째 강에서는 확률의 정의와 기본 성질을 다룬다. 시행, 사건, 표본공간의 개념에서 시작하여 고전적 확률, 경험적 확률, 주관적 확률의 구분, 확률의 공리, 덧셈정리와 곱셈정리, 조건부확률, 독립과 종속의 개념까지 이어진다.

확률을 처음 배울 때 가장 흔히 빠지는 함정은 일상 언어와 수학 언어를 혼동하는 것이다. "비가 올 확률이 30%"라는 말을 들으면 누구나 어느 정도 직관적으로 이해하지만, 그것이 정확히 어떤 의미인지를 묻는 순간 답이 막힌다. 이번 강에서 확률을 정의하는 세 가지 관점, 즉 고전적·경험적·주관적 정의를 비교해 주신 부분이 큰 도움이 되었다. 특히 주관적 확률이 베이즈 통계의 기초가 된다는 언급은 본 강의의 범위를 넘어서지만, 호기심을 자극하기에 충분했다. 조건부확률과 독립 개념은 이번 강의 백미였다. 두 사건이 독립이라는 것은 한 사건의 발생이 다른 사건의 확률에 영향을 주지 않는다는 의미인데, 현실에서는 독립으로 보이지만 실은 강한 종속 관계가 숨어 있는 경우가 매우 많다. 예컨대 마케팅에서 "쿠폰을 받은 고객의 재구매율"과 "쿠폰을 받지 않은 고객의 재구매율"을 단순 비교하는 것이 위험한 이유는, 쿠폰을 받은 집단 자체가 이미 충성도가 높은 고객일 가능성이 크기 때문이다. 이는 선택편향의 문제이며, 결국 조건부확률을 어떻게 다루느냐의 문제로 환원된다. 베이즈 정리는 본 강에서 깊이 다루지는 않았지만, 사전확률과 사후확률의 개념이 간단히 소개되었고, 의료 검진의 사례에서 양성 판정의 의미가 직관과 다를 수 있음을 보여 주는 예시는 매우 충격적이었다. 확률은 결국 불확실성을 정량화하는 언어이며, 경영자가 직관에만 의존하지 않고 합리적 의사결정을 내리기 위한 가장 강력한 사고 도구라는 점을 절감하게 되었다.

제6강 확률변수와 확률분포

여섯 번째 강에서는 확률변수의 개념을 도입하고, 이산형과 연속형 확률변수의 차이, 확률질량함수와 확률밀도함수, 기댓값과 분산의 의미, 그리고 확률분포의 일반적 성질을 다룬다. 누적분포함수의 개념과 그 활용도 함께 학습한다.

확률변수라는 단어를 처음 들었을 때는 매우 추상적으로 느껴졌다. 변수인데 확률이 붙어 있다는 표현 자체가 어색했기 때문이다. 그러나 강의를 들으며, 결국 시행의 결과를 숫자로 옮겨 주는 함수가 확률변수라는 정의가 머릿속에 정리되자, 그 다음의 모든 개념이 자연스럽게 따라왔다. 동전을 던져 앞면이면 1, 뒷면이면 0이라고 두는 단순한 약속이 그토록 강력한 수학적 도구로 발전할 수 있다는 사실은 통계학의 매력 중 하나라고 생각한다. 기댓값이 결국 가중평균임을 다시 확인하면서, 보험료 산정이나 기대수익 계산이 같은 원리로 이루어진다는 점을 실감했다. 보험사가 손해를 보지 않는 이유는 결국 대수의 법칙에 따라 다수의 가입자에 대한 기댓값이 일정한 값으로 수렴하기 때문이다. 이산형과 연속형의 구분에서, 연속형 확률변수의 경우 특정 한 값을 가질 확률이 0이라는 점이 처음에는 직관적으로 받아들이기 어려웠다. 그러나 적분의 관점에서 보면 그것이 자연스러운 결론임을 이해할 수 있었다. 분포를 다룰 때 누적분포함수가 가지는 보편성, 즉 이산형과 연속형 모두에 적용 가능하다는 점은 후속 강의에서 활용도가 높을 것이라는 생각이 들었다. 또한 분산의 정의가 결국 편차의 제곱에 대한 기댓값이라는 점에서, 앞서 배운 4강의 표본 분산과 자연스럽게 연결되었다. 학문이 학문답게 체계를 갖추어 가는 모습을 보는 듯해 학습 의욕이 한층 고조되었다.

제7강 이산확률분포

일곱 번째 강에서는 이산형 확률변수의 대표적인 분포들을 다룬다. 베르누이 시행과 이항분포, 포아송분포, 초기하분포의 정의와 활용 상황, 각 분포의 평균과 분산, 그리고 이항분포와 포아송분포 사이의 근사 관계가 설명되었다.

이항분포는 가장 직관적인 분포라고 할 수 있다. 성공과 실패라는 두 가지 결과만 있는 시행을 여러 번 반복했을 때, 성공 횟수가 어떻게 분포하는지를 다루기 때문이다. 신제품 출시 후 일정 기간 내 구매 여부, 광고 클릭 여부, 품질검사의 합격 여부 등 경영 현장의 수많은 사건이 이항 형태로 모형화된다는 점이 흥미로웠다. 포아송분포는 단위 시간이나 단위 면적당 사건이 발생하는 횟수를 다루는 분포로, 콜센터 통화 수, 매장 방문객 수, 기계 고장 건수 등에 자주 활용된다. 한 가지 인상 깊었던 것은, 이항분포의 시행 횟수가 매우 크고 성공확률이 매우 작을 때 포아송분포로 근사할 수 있다는 정리였다. 두 분포가 외형상 전혀 달라 보이지만 극한 상황에서 연결된다는 사실은 통계학의 우아함을 보여 준다. 초기하분포는 비복원추출 상황을 다룬다는 점에서 이항분포와 구별되었는데, 표본의 크기가 모집단에 비해 클 때 사용되는 분포라는 설명이 명확했다. 실제로 품질검사에서 한 번 검사한 제품을 다시 모집단에 돌려놓지 않으므로 초기하분포가 더 정확하다는 사실은 평소 무심코 이항분포를 적용해 왔던 관행을 되돌아보게 했다. 단지 계산이 쉽다는 이유로 부정확한 모형을 적용하는 것은 분석가의 게으름이라는 반성도 들었다. 다양한 이산분포를 익히는 것은 결국 현실의 다양한 현상을 적절한 수학적 옷에 맞추어 입히는 작업이며, 그 옷이 맞지 않으면 아무리 정밀한 계산을 해도 의미 없는 숫자가 나올 뿐이다.

제9강 정규분포와 표준정규분포

아홉 번째 강에서는 통계학에서 가장 중요한 분포라 할 수 있는 정규분포를 다룬다. 정규분포의 정의와 모양, 평균과 표준편차에 따른 변화, 표준정규분포로의 변환, Z-점수의 의미, 그리고 표준정규분포표를 이용한 확률 계산이 다루어졌다.

정규분포는 학교 시험 점수의 분포, 사람들의 키와 몸무게, 측정 오차 등 자연계와 사회 현상의 매우 많은 자료가 따른다고 알려진 분포이다. 강의에서 정규분포의 종 모양과 좌우대칭성, 그리고 평균을 중심으로 대부분의 자료가 모이고 양 끝으로 갈수록 빈도가 급격히 줄어드는 특징을 다시 확인하면서, 자연이 왜 이런 분포를 즐겨 사용하는지에 대해 다시 생각해 보게 되었다. 사실 정규분포가 자연스럽게 나타나는 이유는 중심극한정리와 깊이 연관되어 있는데, 이는 다음 강에서 다루어진다고 하니 기대가 컸다. 표준정규분포로의 변환 과정, 즉 Z-점수의 도입은 매우 실용적이었다. 단위와 평균이 서로 다른 두 시험 점수를 비교하기 위해서는 결국 같은 잣대로 환산해야 하고, 그 잣대 역할을 하는 것이 바로 Z-점수이다. 학생 시절 수학능력시험의 표준점수 개념이 막연하게만 느껴졌었는데, 이번 강을 통해 그 수학적 근거를 또렷이 이해할 수 있었다. 정규분포표를 직접 찾아보며 0.95, 0.975, 0.995 같은 누적확률에 해당하는 Z값이 통계학에서 얼마나 자주 등장하는지를 새삼 느꼈고, 1.96이나 2.58 같은 숫자가 우연이 아니라 정규분포의 성질에서 비롯된다는 점이 인상적이었다. 다만 모든 자료가 정규분포를 따른다고 가정하는 것은 위험하다는 경고도 잊지 말아야 한다. 금융 자료처럼 두꺼운 꼬리를 가진 분포의 경우 정규성 가정이 큰 위험을 가린다는 사실이 글로벌 금융위기를 통해 이미 입증된 바 있기 때문이다. 도구의 강력함과 한계를 동시에 인식하는 것이 진정한 통계적 사고라고 본다.

제10강 표본분포와 중심극한정리

열 번째 강은 추측통계학의 핵심으로 이어지는 가장 중요한 강의라 할 수 있다. 표본통계량의 분포, 표본평균의 분포, 표본평균의 평균과 분산, 그리고 중심극한정리의 의미와 응용이 다루어졌다. 표본분포가 추정과 검정의 출발점임을 강조한 점이 인상 깊었다.

표본분포라는 개념을 처음 들었을 때는 모집단 분포와 어떻게 다른지 잘 와닿지 않았다. 그러나 강의에서 동일한 모집단으로부터 표본을 반복해서 추출했을 때 각 표본의 평균이 만들어 내는 분포가 바로 표본분포라는 설명을 듣고, 그 개념이 추측통계의 기반이 된다는 사실이 비로소 이해되었다. 중심극한정리는 그야말로 통계학의 보물이라고 할 만하다. 모집단이 어떤 분포를 따르든 간에, 표본 크기가 충분히 크면 표본평균의 분포가 정규분포에 근사한다는 이 정리는 거의 마법처럼 느껴진다. 이 정리가 없다면 우리는 모집단의 분포를 미리 알아야만 추정이나 검정을 할 수 있을 텐데, 현실에서는 모집단의 분포를 정확히 알기 어렵기 때문이다. 표본평균의 분산이 모분산을 표본 크기로 나눈 값이라는 사실도 직관적으로 매우 중요했다. 표본을 크게 할수록 추정의 정밀도가 높아지고, 그 정밀도는 표본 크기의 제곱근에 비례한다는 의미이기 때문이다. 표본 크기를 두 배로 늘려도 정밀도는 약 1.4배밖에 좋아지지 않는다는 사실은, 표본 조사에서 비용 대비 효과를 따져야 하는 실무적 함의를 제공한다. 또한 중심극한정리가 작동하기 위해서는 일반적으로 표본 크기가 30 이상이어야 한다는 경험적 기준도 익혀 두어야 할 사항이었다. 표본의 크기가 작을 때는 t-분포와 같은 별도의 분포를 활용해야 한다는 점도 함께 안내되어, 다음 강의 학습 동기를 자극했다. 통계학을 배우는 즐거움 중 하나는 이렇게 한 정리가 다른 정리와 자연스럽게 이어지면서 전체적인 그림이 완성되어 가는 과정을 체험하는 데 있다는 것을 느꼈다.

제11강 점추정과 구간추정

열한 번째 강에서는 모집단의 미지의 모수를 표본으로부터 어떻게 추정하는지를 다룬다. 점추정량의 바람직한 성질인 불편성, 효율성, 일치성, 충분성의 개념, 모평균과 모비율의 점추정, 그리고 신뢰구간을 이용한 구간추정의 절차가 학습되었다.

점추정과 구간추정의 차이를 명확히 인식하는 것은 통계적 사고의 큰 도약이다. 점추정은 한 가지 값으로 모수를 답하는 것이고, 구간추정은 그 추정값에 신뢰도를 부여한 범위로 답하는 것이다. 신문 기사에서 "지지율 50%, 표본오차 ±3%포인트, 95% 신뢰수준"이라는 표현을 자주 보지만, 그 정확한 의미를 모르고 지나치는 일이 많았다. 이번 강을 통해 95% 신뢰수준이라는 것이 "동일한 방식으로 표본을 무수히 많이 추출하여 신뢰구간을 만들었을 때, 그중 95%가 참값을 포함한다"는 의미라는 점을 정확히 이해하게 되었다. 이는 흔히 오해되는 "참값이 그 구간에 있을 확률이 95%이다"라는 표현과는 미묘하게 다른 진술이다. 빈도주의 통계학의 철학이 어떻게 작동하는지를 보여 주는 대목이며, 이런 미묘한 차이를 정확히 인식하는 능력이 분석가의 격을 결정한다고 본다. 점추정량의 성질 중 불편성은 평균적으로 참값을 맞춘다는 의미이고, 효율성은 분산이 작다는 의미이며, 일치성은 표본 크기가 커질수록 참값에 가까워진다는 의미이다. 이 모든 성질을 동시에 가지는 추정량이 가장 바람직하다는 것은 당연한 결론이지만, 현실에서는 이들 사이에 상충관계가 존재할 수 있어 신중한 선택이 필요하다. 또한 모분산을 모를 때의 모평균 구간추정에 t-분포를 사용한다는 점도 중요한 내용이었다. 표본 크기가 작아질수록 t-분포의 꼬리가 두꺼워져 정규분포보다 넓은 신뢰구간을 만든다는 점은, 우리가 정보가 부족할 때 더 보수적으로 결론을 내려야 한다는 상식적 직관과도 일치한다.

제12강 가설검정의 기본 원리

열두 번째 강에서는 통계적 가설검정의 전반적인 절차를 다룬다. 귀무가설과 대립가설의 설정, 유의수준과 임계값, 검정통계량, 기각역과 채택역, 제1종 오류와 제2종 오류, 검정력 등의 개념이 차례로 설명되었다. 모평균과 모비율에 대한 검정 사례도 함께 다루어졌다.

가설검정은 통계학에서 가장 응용 범위가 넓은 분야이자 가장 오용되기 쉬운 분야이기도 하다. 강의에서 귀무가설을 "차이가 없다"는 보수적 입장으로, 대립가설을 "차이가 있다"는 새로운 주장으로 설정한다는 원칙을 다시 한 번 강조해 주셨다. 이는 단순한 형식이 아니라 과학적 회의주의의 정신을 반영한 것이다. 새로운 주장은 충분한 증거가 있을 때에만 받아들여야 하며, 그 전까지는 기존의 입장을 유지하는 것이 합리적이라는 사고방식이다. 제1종 오류와 제2종 오류의 개념은 의사결정의 비용과 직접적으로 연결되었다. 제1종 오류는 사실은 차이가 없는데 차이가 있다고 잘못 결론 내리는 것이고, 제2종 오류는 그 반대이다. 의약품 승인이라면 제1종 오류는 효과 없는 약을 승인하는 위험이고, 제2종 오류는 효과 있는 약을 기각하는 위험이다. 어느 쪽이 더 치명적이냐에 따라 유의수준의 설정이 달라져야 한다는 점이 매우 실무적이었다. 검정력의 개념, 즉 대립가설이 참일 때 그것을 옳게 채택할 확률이 1에서 제2종 오류 확률을 뺀 값이라는 정의는 표본 설계에 결정적인 영향을 준다. 검정력을 높이기 위해서는 표본 크기를 늘리거나 효과 크기가 커야 하므로, 임상시험이나 설문조사를 설계할 때 사전에 검정력 분석을 수행하는 이유가 분명해졌다. 또한 p-값에 대한 최근의 비판, 즉 통계적 유의성과 실질적 유의성을 혼동해서는 안 된다는 점도 강의에서 짧게 언급되었는데, 이는 분석가가 평생 잊지 말아야 할 경고였다.

제13강 두 모집단의 비교

열세 번째 강에서는 두 모집단의 평균 또는 비율을 비교하는 검정 방법을 학습한다. 독립표본 t-검정과 대응표본 t-검정의 구분, 등분산성 가정과 그에 따른 검정통계량의 차이, 두 모비율의 차이에 대한 검정, 그리고 분산 비교를 위한 F-검정의 기초가 다루어졌다.

두 집단의 비교는 경영 현장에서 가장 자주 마주치는 분석 상황이다. 신규 광고 캠페인을 시행한 지역과 그렇지 않은 지역의 매출을 비교하거나, 직원 교육 전후의 생산성을 비교하는 일이 모두 이 범주에 속한다. 강의에서 두 표본이 독립인지 대응인지를 먼저 구분해야 한다는 점이 가장 중요했다. 동일한 사람을 대상으로 교육 전과 후를 비교하는 것은 대응표본이고, 서로 다른 두 집단의 결과를 비교하는 것은 독립표본이다. 같은 자료를 잘못된 검정법으로 분석하면 검정력이 떨어지거나 잘못된 결론으로 이어질 수 있다는 점에서, 자료의 성격을 정확히 파악하는 일은 분석의 출발점에 있어 절대적이다. 등분산성 가정도 흥미로웠다. 두 집단의 분산이 같다고 볼 수 있을 때와 그렇지 않을 때 사용해야 할 검정통계량이 달라지며, 이를 미리 F-검정으로 확인하거나 분산이 다르다는 가정을 기본으로 하는 웰치의 t-검정을 사용하는 방법이 있다. 실무에서는 종종 등분산성 가정을 그냥 통과시키는 경우가 많은데, 표본 크기가 매우 작거나 분산이 크게 다른 경우에는 이 가정이 결과를 크게 왜곡할 수 있음을 인지하게 되었다. 두 모비율의 비교는 합동표본비율을 이용한 Z-검정을 사용하며, A/B 테스트의 통계적 근거가 바로 이 검정에 있다는 점이 흥미로웠다. 디지털 마케팅에서 흔히 수행되는 A/B 테스트의 결과를 단순한 비율 차이로 판단하지 않고, 우연에 의한 차이일 가능성을 검정한 후 의사결정해야 한다는 원칙은 모든 데이터 기반 마케터가 반드시 알아야 할 내용이다.

제14강 분산분석과 회귀분석의 기초

마지막 강에서는 셋 이상의 집단을 비교하는 분산분석과 두 변수 사이의 관계를 살피는 회귀분석의 기초가 다루어졌다. 일원배치 분산분석의 원리, F-통계량의 의미, 단순선형회귀모형의 가정, 최소제곱법에 의한 회귀계수 추정, 결정계수의 해석, 그리고 회귀모형의 적합도 평가가 설명되었다.

분산분석은 두 집단 비교를 셋 이상으로 확장한 것처럼 보이지만, 실제로는 전혀 다른 원리에 기반한다는 점이 흥미로웠다. 집단 내 변동과 집단 간 변동을 분리하여 그 비율을 F-통계량으로 산출하고, 이를 통해 집단 평균의 차이가 통계적으로 유의한지를 판단하는 발상은 매우 우아하다. 만약 셋 이상의 집단을 두 집단씩 짝지어 t-검정을 반복한다면 다중비교의 문제로 인해 제1종 오류가 누적되어 잘못된 결론에 이를 가능성이 커진다는 점은, 분산분석이 왜 별도의 기법으로 존재해야 하는지를 잘 보여 준다. 회귀분석은 통계학의 결정판이라 할 만하다. 한 변수의 변화가 다른 변수에 미치는 영향을 정량화하는 도구이기 때문이다. 최소제곱법이 오차의 제곱합을 최소화하는 방향으로 회귀계수를 결정한다는 원리는 직관적이면서도 수학적으로 매우 정교하다. 결정계수는 총변동 중에서 회귀모형이 설명하는 변동의 비율을 나타내는데, 이 값이 1에 가까울수록 모형의 설명력이 높다는 의미이다. 다만 결정계수가 높다고 해서 항상 좋은 모형은 아니라는 점, 그리고 잔차의 정규성·등분산성·독립성 등 회귀분석의 기본 가정이 충족되어야 결과를 신뢰할 수 있다는 점도 강조되었다. 또한 회귀계수가 통계적으로 유의하다고 해서 그것이 곧 인과관계를 의미하지는 않는다는 경고도 매우 중요했다. 상관관계는 인과관계가 아니라는 통계학의 오랜 격언이 회귀분석에서 가장 빈번하게 잊혀지는 경향이 있다. 데이터가 풍부해진 시대일수록 이 격언의 무게는 더 커진다고 생각한다.

종합 소감

13개 강을 모두 마치며 가장 크게 느낀 것은, 통계학이 단순한 수학의 한 분야가 아니라 불확실성 속에서 합리적으로 사고하는 방법 그 자체라는 점이다. 자료를 정리하고, 그 자료가 무엇을 말하는지 듣고, 우연과 본질을 구별하며, 신중하게 결론을 내리는 일련의 과정은 경영학뿐 아니라 사회과학 전반, 나아가 일상생활에서도 끊임없이 요구되는 역량이다. 경영학과 학생으로서 본 과목을 수강하면서 가장 큰 수확은 숫자에 대한 막연한 두려움을 어느 정도 극복하고, 보고서를 읽거나 쓸 때 어떤 점을 의심해야 하는지에 대한 안목을 얻은 것이라고 생각한다. 앞으로 마케팅조사, 재무관리, 생산운영관리 등 후속 과목에서 이번에 배운 도구들을 어떻게 활용할 수 있을지 기대된다. 또한 본 과목에서 다룬 내용을 더 깊이 탐구하고 싶다는 욕심도 생겼다. 베이즈 통계, 다중회귀분석, 시계열분석, 비모수 검정 등 본 강의에서 짧게만 언급된 영역들이 별도의 학문 분야로 존재하며, 그 각각이 경영 현장에서 막강한 활용도를 가지고 있음을 알게 되었다. 통계학을 단지 한 학기의 과제로 마무리하지 않고, 평생의 사고 도구로 삼고자 하는 다짐을 마지막으로 본 보고서를 마친다.

728x90
반응형
그리드형