강의/데이터 분석 심화 8

[ 데이터 분석 심화 ] 머신러닝 | 머신러닝 전처리 핵심 기술

📺 라이브세션 강의: 머신러닝 오프닝 2회차 날짜: 6월 25일 오후 3:00 1. 인코딩 (Encoding): 범주형 데이터를 숫자로 변환하는 과정- 머신러닝 모델은 숫자만 입력받을 수 있고, 문자열 그대로 넣으면 모델이 학습하지 못함 🔹 One-Hot Encoding사용 대상순서가 없는 범주형 변수 (예: 성별, 혈액형)범주의 개수가 너무 많지 않을 때동작 방식각 범주를 새로운 열로 만들어 0과 1로 표시예: 혈액형(A, B, O) → A열(1,0,0), B열(0,1,0), O열(0,0,1) 💻 실습 아래 혈액형(원본) 데이터에서 'blood_type'은 순서가 없는 범주형 변수이다. pd.get_dummies( )를 사용해 OneHotEncoding을 해주면 각 혈액형이 새로운 열로 만들어져서..

[ 데이터 분석 심화 ] 통계학 | 공정 능력 분석

💡공정능력분석(Process Capability Analysis)은 제조 공정이 고객 요구 스펙(공차)내에서 얼마나 일관되게 제품을 생산하는지를 수치적으로 평가하는 분석이다. 공정능력지수(Cp, Cpk)는 이를 수치화한 결과이며, 반도체・자동차 등 제조업 공정 품질관리에서의 핵심 지표이다. 1. Cp (공정 능력) USL: 규격 상한, LSL: 규격 하한 (Upper/Lower Spec Limit) Cp는 정규분포의 ±3σ 범위를 기준으로 계산됨 → 정규성 가정이 기반Cp는 공정 평균이 중앙에 있는지 고려하지 않음 → 공정이 한쪽으로 치우쳐 있어도 높은 Cp가 나올 수 있음해석:Cp > 1.33 : 표준편차(흩어짐 정도)가 작아 6σ(공정의 폭)가 규격 내에 안정적으로 들어감 → 적정 수준 Cp = ..

[ 데이터 분석 심화 ] 통계학 | 상관관계

💡 가장 대표적으로 사용되는 상관계수는 피어슨 상관계수이지만 특정 조건에서만 사용할 수 있기 때문에, 다양한 상황에서 사용할 수 있는 여러 상관계수와 그 특징들에 대해 알아보았다. 공분산 (Covariance)두 변수의 방향성을 판단하는 지표. 한 변수가 증가할 때 다른 변수도 함께 증가하는지, 혹은 감소하는지를 나타냄공분산 > 0: 두 변수는 함께 증가 또는 감소공분산 공분산 ≈ 0: 선형 관계 없음한계: 단위(scale)의 영향을 받아 해석이나 비교가 어려울 수 있음 → 해석을 쉽게 하기 위해 정규화 된 공분산인 상관계수를 사용코드: df.cov( ) 상관계수(Correlation)두 변수 간의 선형적인 관계의 강도와 방향을 나타내는 지표공분산의 한계를 극복하기 위해 공분산을 표준화(정규화)한 ..

[ 데이터 분석 심화 ] 통계학 | 회귀(Regression)

🔶 회귀 분석 변수들 간의 인과관계(causal relationship) 또는 예측 관계를 통계적으로 모델링하고 분석하는 방법독립변수(X)가 종속변수(Y)에 어떤 영향을 미치는지 예측하기 위한 통계 기법독립변수(X): 입력 변수, 원인 (예: 공정 온도, 재료 투입량, 작업 시간, 설비 가동률 등)종속변수(Y): 출력 변수, 결과 (예: 제품 불량률, 생산량, 제품 강도, 에너지 소비량, 수율 등)* '선형' 회귀: 직선 형태의 회귀, 변수 간의 관계가 선형 *️⃣ F-통계량회귀 분석에서 F-통계량은 구축된 회귀 모형 전체가 통계적으로 유의미한지를 판단하는 지표독립변수(들)가 종속변수의 변동을 설명하는 데 의미 있는 기여를 하는지 전반적으로 검정수식: '회귀 모형으로 설명되는 분산'을 '회귀 모형..

[ 데이터 분석 심화 ] 통계학 | 분산분석(ANOVA)

🔶 분산분석 (Analysis of Variance, ANOVA)세 개 이상의 집단(그룹) 간의 평균에 통계적으로 유의미한 차이가 있는지를 검증하는 데 사용되는 통계 기법단 한 번의 분석으로 여러 그룹의 평균 차이를 검증하여 1종 오류를 방지 F-값 (F-statistic)집단 간 분산: 각 그룹의 평균이 전체 데이터의 평균과 얼마나 다른지(그룹 간 차이가 클수록 이 분산이 커짐), 그룹 평균들 사이의 "차이"집단 내 분산: 각 그룹 내부의 데이터가 얼마나 흩어져 있는지(그룹 내 데이터가 비슷할수록 이 분산이 작아짐), 같은 그룹 안에서의 "오차"나 "잡음"➡️ ANOVA는 이 2가지 분산의 비율인 F-값을 계산F-값이 클수록 → 집단 간 차이가 집단 내 변동보다 크다 → 그룹 간 평균 차이가 통계적으..

[ 데이터 분석 심화 ] 통계학 | 가설검정 기법

💡유의성 검정(Significance Test): 표본 데이터를 기반으로 모집단에 대한 가설이 참인지 거짓인지를 판단하는 통계적 방법: 실험 결과가 우연에 의한 것인지, 아니면 실제로 의미 있는 차이나 관계를 나타내는지를 판단하는 과정 🔶 모집단과 표본모집단(Population): 관심의 대상이 되는 전체 집단 → 전수조사표본(Sample): 모집단에서 추출한 일부 → 표본조사 표본을 사용하는 이유현실적인 제약: 전체 모집단을 조사하는 것은 비용과 시간이 많이 들고, 물리적으로 불가능한 경우가 많음표본의 대표성: 무작위로 추출해 편향을 최소화한 표본은 모집단의 특성을 반영할 수 있고, 일반화할 수 있음데이터 처리 용이: 전체 데이터를 다루는 것보다 데이터 처리와 분석이 훨씬 용이, 컴퓨팅 자원 소비 ..

[ 데이터 분석 심화 ] 통계학 | 확률분포의 종류

🔶 확률변수: 어떤 시행의 결과를 수치로 나타내는 변수1. 이산형(Discrete) 확률변수셀 수 있는 값만 가지는 확률변수예: 하루 동안 발생한 결함의 수, 불량품 개수2. 연속형(Continuous) 확률변수 실수값처럼 무한히 많은 값 중 하나를 가질 수 있는 변수예: 제품의 길이, 무게, 온도 🔶 확률분포확률변수가 어떤 값을 가질 확률을 정리한 수학적 규칙모든 확률의 합은 1이어야 한다. 1. 확률질량함수 (PMF: Probability Mass Function)이산형 확률변수의 각 값에 대한 확률각 가능한 값에 대해 딱 그 값이 나올 확률을 제공예: 주사위 눈, 동전 던지기, 이항분포 등2. 확률밀도함수 (PDF: Probability Density Function)연속형 확률변수의 확률특정..

[ 데이터 분석 심화 ] 통계학 | 데이터 분석과 통계

[ 데이터 분석 심화 ]기간: 6/18 ~7/3강의: 통계학 기초(총 6강) 머신러닝의 이해와 라이브러리 활용 기초(총 5강) 머신러닝의 이해와 라이브러리 활용 심화(총 4강) 💡 데이터 분석에 있어서 통계가 중요한 이유데이터를 이해하고 해석하는 데 중요한 역할을 한다.데이터를 요약하고 패턴을 발견할 수 있다.추론을 통해 결론을 도출화는 과정을 돕는다.즉, 데이터 기반의 의사결정을 내릴 수 있다.결국 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요하다. 기술통계와 추론통계1. 기술통계: 데이터를 요약하고 설명하는 통계 방법- 데이터를 특정 대표값(주로 평균, 중앙값, 분산, 표준편차)으로 요약- 데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음 평균 (..