강의/데이터 분석 입문

[ 데이터 분석 입문 ] 데이터 시각화 | 그래프 종류

da-hong 2025. 6. 2. 20:35

💡 데이터 시각화는 데이터 내의 숨겨진 패턴을 발견하고 이해하는 데 도움을 주고, 의사결정과 커뮤니케이션 과정에서 분석 결과를 효과적으로 전달할 수 있게 해 준다. 

 

matplotlib

- 파이썬에서 시각화를 위한 라이브러리 중 하나로, 다양한 종류의 그래프를 생성하기 위한 도구를 제공

import matplotlib.pyplot as plt

Line Plot (선그래프)

  • 자료 유형: 연속형 데이터의 추이
  • 활용: 시간에 따른 데이터의 변화, 추세를 보여줄 때 효과적

 plt.plot(x, y) 


Bar Plot (막대 그래프)

  • 자료 유형: 범주형 데이터 간의 비교
  • 활용: 카테고리 별로 값의 크기나 빈도를 시각적으로 비교할 때 유용

 plt.bar(x, y) 


Histogram (히스토그램)

    • 자료 유형: 연속형 데이터의 분포
    • 활용: 데이터의 빈도나 분포, 패턴을 이해하고자 할 때 유용

 plt.hist(data, bins) 


Pie Chart (원 그래프)

  • 자료 유형: 범주형 데이터의 비율
  • 활용: 전체에 대한 각 범주의 상대적 비율을 비교하는데 유용

 plt.pie(data, labels, autopct) 


Box Plot (박스 플롯)

  • 자료 유형: 연속형 데이터의 분포
  • 활용: 중앙값, 사분위수(25%, 50%, 75% 위치의 값), 최솟값, 최댓값, 이상치를 한눈에 파악 가능

 plt.boxplot(data, labels) 

  • 상자(Box): 상자의 아래쪽 끝은 25%의 값(1사분위수), 위쪽 끝은 75%의 값(3사분위수), 중앙에 위치한 선은 중앙값(2사분위수)
  • 수염(Whisker): 상자의 위아래로 연장되는 선으로, 일반적으로 1.5배의 사분위 범위로 계산. 수염의 끝은 최솟값최댓값
  • 이상치(Outliers): 수염 부분을 벗어나는 개별 데이터 포인트로, 일반적인 범위를 벗어나는 값들. 점으로 표시

Violin Plot (바이올린 플롯)

  • 자료 유형: 연속형 데이터의 분포 및 밀도
  • 활용: 박스 플롯의 요약 정보에 더해, 데이터 분포의 밀도(형태)를 시각적으로 파악 가능 

 plt.violinplot(data) 


Scatter Plot (산점도)

    • 자료 유형: 두 변수 간의 관계 및 상관관계
    • 활용: 변수 간의 관계, 군집, 이상치를 확인할 때 유용

 plt.scatter(x, y) 

상관관계의 강도 

  • 점들의 모임: 점들이 더 밀집된 곳은 상관관계가 높다.
  • 점들의 방향성: 일직선에 가까운 분포일수록 상관관계가 강할 가능성이 높다.

❗️상관관계가 높다고 해서 인과관계가 있는 것은 아니다. 상관관계는 두 변수가 함께 변하는 정도를 나타낼 뿐, 하나가 다른 하나를 일으킨다는 의미는 아니다.

 


 

 

Matplotlib documentation — Matplotlib 3.10.3 documentation

Warning If you install Python with uv then the tkagg backend will not be available because python-build-standalone (used by uv to distribute Python) does not contain tk bindings that are usable by Matplotlib (see this issue for details). If you want Matplo

matplotlib.org

 

📎 Matplotlib documentation

- matplotlib의 모든 기능들을 외울 필요 없음

- 그래프를 커스터마이징 하고 싶으면 공식 문서에 들어가서 해당 그래프를 검색하면 나오는 여러 파라미터들을 이용하면 된다.