본문 바로가기

방송통신대학교

데이터의 정의부터 정형·비정형, 범주형(명목형·서열형)까지 한 번에 정리

728x90
반응형
728x170

데이터 얘기만 나오면 머릿속에 숫자와 표, 그래프가 줄줄이 떠오르기 마련이죠. 하지만 데이터는 생각보다 넓고, 또 의외로 “정확한 말”로 구분해 두면 실무에서도 훨씬 깔끔하게 소통할 수 있습니다. 이 글에서는 사전적·어원적 정의로 출발해 정형/비정형 데이터의 차이를 비교하고, 정형 데이터 중에서도 범주형 데이터의 두 가지 분류(명목형, 서열형)를 실제 사례와 함께 정리합니다.


1) 데이터의 사전적 정의와 어원적 정의

사전적 정의

데이터는 “관찰, 측정, 조사 등을 통해 얻은 사실 또는 값들의 모음으로, 분석과 의사결정의 근거가 되는 정보의 원재료”를 뜻합니다. 다시 말해, 데이터는 아직 가공되지 않은 사실(facts)이며, 정리·해석을 거치면 정보가 됩니다. 통계학에서는 흔히 “변수의 값들”을 데이터라고 부르며, 이 값들이 모여 표, 시계열, 텍스트 코퍼스 등을 이루죠.

어원적 정의

데이터(data)는 라틴어 datum(주어진 것)의 복수형에서 왔습니다. 어근은 dare(주다)입니다. 역사적으로는 “these data”처럼 복수 취급했지만, 현대 영어에서는 문맥에 따라 단수처럼 “this data”라고 쓰기도 합니다. 즉, “주어진 것들”이 쌓여 분석의 출발점이 된다는 어원을 품고 있습니다.


2) 정형 데이터와 비정형 데이터의 의미 비교

정형/비정형은 저장 형태와 분석 방식에서 큰 차이를 만듭니다. 아래 표로 핵심을 먼저 잡아보세요.

구분 정형 데이터(Structured) 비정형 데이터(Unstructured)
저장 형태 고정 스키마(테이블, 열/행) 고정 스키마 없음(자유 형식)
예시 관계형 DB의 고객 테이블, 매출 시계열, 센서 로그(열 정의가 명확) 이메일/문서 본문, 이미지/동영상, 오디오, 자유서술 설문 응답
질의 방식 SQL 등 구조화 질의로 즉시 집계·조인 용이 전문 검색/벡터 검색, NLP·CV 전처리 필요
장점 빠른 집계·필터링·조인, 정합성 관리 용이 현실 세계의 복잡한 맥락을 풍부하게 담음
단점 스키마 설계·변경 비용, 표현력 제약 전처리·해석 비용 높음, 품질 편차 큼
예Typical 저장소 RDBMS(MySQL, PostgreSQL 등), 데이터 웨어하우스 데이터 레이크/오브젝트 스토리지, 검색/벡터 인덱스

실무에서는 반정형(Semi-structured)도 자주 만납니다. 예컨대 JSON/CSV/로그는 필드가 비교적 일정하지만 완전히 고정된 스키마라고 보긴 어려워요. 반정형은 정형과 비정형 사이의 다리 역할을 하며, 파서/스키마 온 리드(schema-on-read)로 다루는 경우가 많습니다.


3) 정형 데이터 중 ‘범주형 데이터’의 두 가지 분류와 사례

정형 데이터는 보통 측정 수준에 따라 범주형(질적)과 수치형(양적)으로 나눕니다. 그중 범주형(categorical)은 값이 “범주(카테고리)”를 나타내며, 연산보다 구분과 비교에 초점이 있습니다. 범주형은 다시 명목형서열형으로 나뉩니다.

3-1) 명목형(Nominal)

  • 정의: 범주 간 자연스러운 순서가 없는 데이터. 코드는 단지 레이블일 뿐, 크기나 높고 낮음의 의미가 없습니다.
  • 적절한 연산: 동일/상이, 최빈값(mode), 비율(카이제곱 검정 등)
  • 부적절한 연산: 평균·차이의 크기 비교(순서 자체가 없기 때문)
  • 사례(교재 외 예시)
    1. 근무 형태: 정규직, 계약직, 프리랜서
    2. 회원 가입 경로: 검색, 지인 추천, 광고, 오프라인 방문
    3. 혈액형: A, B, AB, O
    4. 축구 유니폼 색상: 파랑, 빨강, 노랑
  • 실무 팁: DB에선 ENUM/룩업 테이블로 관리하거나, 애널리틱스에선 원-핫 인코딩(One-Hot Encoding)으로 변환해 모델에 투입합니다.

3-2) 서열형(Ordinal)

  • 정의: 범주 간 순서가 있는 데이터. 다만 간격이 균등하다고 보장되지 않습니다.
  • 적절한 연산: 순위 비교, 중앙값, 순서 기반 추정(중요도 높은 순서 회귀 등)
  • 부적절한 연산: 단순 평균으로 “간격”을 해석(예: 5점–4점의 차이와 2점–1점의 차이가 같다고 단정하기 어려움)
  • 사례(교재 외 예시)
    1. 고객 만족도: 매우 불만, 불만, 보통, 만족, 매우 만족
    2. 티셔츠 사이즈: XS, S, M, L, XL
    3. 매운맛 등급: 순한맛, 보통, 매운맛, 아주 매운맛
    4. 영화 등급 체계: 전체관람가 → 12세 → 15세 → 청소년 관람불가(연령 순서가 존재)
  • 실무 팁: 모델링 시 명목형처럼 원-핫으로 처리하면 순서 정보를 잃습니다. 대신 순서 인코딩(ordinal encoding)이나 누적 로지스틱 회귀 같은 순서형 전용 기법을 고려하세요.

 

정리: 개념을 정확히 알면 분석과 소통이 쉬워진다

  • 데이터는 “주어진 사실들의 모음”이며, 정보의 원재료입니다. 어원부터 “주어진 것들”이라는 맥락이 선명하죠.
  • 정형/비정형의 차이는 스키마 유무와 처리 방식에서 갈립니다. 정형은 빠르고 안정적인 집계에, 비정형은 풍부한 맥락을 담는 데 강합니다.
  • 범주형 데이터는 명목형(순서 없음)과 서열형(순서 있음, 간격 불명확)으로 나뉘며, 각각에 맞는 인코딩과 통계 기법을 선택해야 왜곡을 막을 수 있습니다.

분석에서 가장 비싼 것은 “틀린 전제”를 늦게 발견하는 일입니다. 용어를 정확히 정의하고(정의), 올바르게 구분하며(정형/비정형), 데이터의 ‘성질’에 맞는 도구(명목형/서열형 인코딩)를 쓰는 것만으로도 결과의 신뢰도가 크게 올라갑니다.

 

출처

728x90
반응형
그리드형