2025/07 8

[ 코드카타 ] 알고리즘 | 42~48번

🗓️ 기간: 6/30 ~ 7/6 (7주차) 42. 삼총사 (6/30)한국중학교에 다니는 학생들은 각자 정수 번호를 갖고 있습니다. 이 학교 학생 3명의 정수 번호를 더했을 때 0이 되면 3명의 학생은 삼총사라고 합니다. 예를 들어, 5명의 학생이 있고, 각각의 정수 번호가 순서대로 -2, 3, 0, 2, -5일 때, 첫 번째, 세 번째, 네 번째 학생의 정수 번호를 더하면 0이므로 세 학생은 삼총사입니다. 또한, 두 번째, 네 번째, 다섯 번째 학생의 정수 번호를 더해도 0이므로 세 학생도 삼총사입니다. 따라서 이 경우 한국중학교에서는 두 가지 방법으로 삼총사를 만들 수 있습니다. 한국중학교 학생들의 번호를 나타내는 정수 배열 number가 매개변수로 주어질 때, 학생들 중 삼총사를 만들 수 있는 방..

[ 심화 프로젝트 ] 주제 선정 및 기획서 작성

[ 심화 프로젝트 ] 기간 : 7/4 ~ 7/14목표: 통계와 머신러닝 기법을 활용한 제조 데이터 분석 프로젝트 💡 주제 선정 프로젝트 주제[반도체] 반도체 제조 공정 센서 데이터 기반 공정 최적화 주제 선정 이유 반도체 제조 공정에서는 미세한 조건 변화가 품질에 큰 영향을 미치기 때문에, 공정 데이터를 기반으로 한 사전 예측 및 제어가 필수적이다. 이에 따라 센서 데이터를 활용한 공정 최적화는 품질 향상과 수율 개선에 직접적으로 기여할 수 있어 본 주제를 선정하게 되었다. 📋 프로젝트 기획서 프로젝트 명 공정 최적화 > 프로젝트 목표 해결하려는 질문어떤 변수가 불량 여부(Label)에 가장 큰 영향을 미치는가? (핵심 변수 파악)정상 제품과 불량 제품 간의 유의미한 차이가 있는가? (t-검정..

[ 코드카타 ] 데이터 분석 | 다중 변수 탐색 및 다중공선성 평가

‘제약 회사’는 특정 약물의 효과를 분석하기 위해 투여량(Dosage, mg), 환자 연령(Patient Age, 세), 약물 투여 시간(Drug Time, 시간)이 혈압 감소량(Blood Pressure Drop, mmHg)에 어떤 영향을 미치는지 분석하고자 한다. 수집된 데이터를 바탕으로 탐색적 데이터 분석(EDA) 및 다중공선성(Multicollinearity) 여부를 평가하시오. 요구사항상관계수 분석df.corr()를 사용하여 모든 변수 간의 피어슨 상관계수를 계산하시오.특히 Blood_Pressure_Drop과 가장 강한 상관관계를 가지는 독립변수를 찾고, 그 의미를 서술하시오.히트맵 시각화Seaborn의 heatmap()을 활용하여 상관계수 행렬을 시각화하시오.조건:cmap='Blues_r'..

[ 코드카타 ] 데이터 분석 | One-way ANOVA

철강 제조업체는 자사의 3가지 서로 다른 압연 라인(Line A, Line B, Line C)에서 생산된 철판의 두께(단위: g)가 서로 동일한지를 평가하고자 합니다. 각 생산 라인에서 무작위로 10개씩의 부품을 샘플링하여 무게를 측정했습니다.품질 관리팀은 압연 라인 간 평균 철판 두께에 통계적으로 유의미한 차이가 있는지 확인하기 위해 One-way ANOVA를 수행하고, 그 결과에 따라 사후분석(Post-Hoc Test)도 실시하고자 합니다. (유의수준 alpha=0.05) 요구사항:1. 각 압연 라인별 무게 분포를 시각적으로 비교하기 위해 상자 그림(Box Plot)을 그리세요.2. One-way ANOVA를 수행하기 위한 정규성 검정(Shapiro-Wilk Test)을 각 라인별로 수행하고 결과를 ..

[ 코드카타 ] 데이터 분석 | 단측 t-검정

'타이어 제조업체'는 새로운 고무 혼합물이 타이어의 마모 수명(단위: km)에 미치는 영향을 평가하고 있습니다. 품질 관리팀은 신규 혼합물로 제작된 타이어 22개를 샘플링하여 마모 수명을 측정했습니다. 기존 고무 혼합물의 평균 마모 수명은 45,000 km였지만, 모표준편차는 알려져 있지 않습니다. 신규 혼합물이 타이어 마모 수명을 45,000 km보다 유의미하게 증가시켰는지 유의수준 alpha=0.05에서 확인하고자 합니다. 요구사항:데이터 정규성 검정:- 샤피로-윌크 검정(Shapiro-Wilk Test)을 수행하여 통계적으로 정규성을 검정하고, 검정 통계량과 p-value를 출력하세요.- 유의수준 alpha=0.05를 기준으로 샤피로-윌크 검정 결과를 해석하고, 정규성 가정을 할 수 있는지 여부를 ..

[ 코드카타 ] 데이터 분석 | 공정 능력 분석 및 이상치 탐지

'반도체 웨이퍼 제조사'에서는 증착(Deposition) 공정 후 웨이퍼 표면의 박막(Thin Film) 두께를 엄격하게 관리합니다. 고객사 요구 규격은 1000nm ± 20nm 입니다. 즉, 하한 규격(LSL)은 980nm, 상한 규격(USL)은 1020nm 입니다. 품질 관리팀은 최근 생산된 웨이퍼 80개의 박막 두께 데이터를 분석하여 공정 능력을 평가하고, 데이터에 숨어있는 이상치를 정밀하게 탐지하여 비정상적인 공정 상황을 조기에 감지하고자 합니다.목표: 주어진 데이터를 활용하여 공정 능력 지수(Cp, Cpk)를 계산하고, 두 가지 이상치 탐지 방법(Z-score, IQR)을 적용하여 공정 상태를 종합적으로 평가합니다.요구사항:- 주어진 df 데이터를 사용하여 공정 평균, 공정 표준편차, Cp 값,..

[ 데이터 분석 심화 ] 머신러닝 | 머신러닝 전처리 핵심 기술

📺 라이브세션 강의: 머신러닝 오프닝 2회차 날짜: 6월 25일 오후 3:00 1. 인코딩 (Encoding): 범주형 데이터를 숫자로 변환하는 과정- 머신러닝 모델은 숫자만 입력받을 수 있고, 문자열 그대로 넣으면 모델이 학습하지 못함 🔹 One-Hot Encoding사용 대상순서가 없는 범주형 변수 (예: 성별, 혈액형)범주의 개수가 너무 많지 않을 때동작 방식각 범주를 새로운 열로 만들어 0과 1로 표시예: 혈액형(A, B, O) → A열(1,0,0), B열(0,1,0), O열(0,0,1) 💻 실습 아래 혈액형(원본) 데이터에서 'blood_type'은 순서가 없는 범주형 변수이다. pd.get_dummies( )를 사용해 OneHotEncoding을 해주면 각 혈액형이 새로운 열로 만들어져서..

[ 코드카타 ] 데이터 분석 | 통계량 계산 및 이상치 시각화

'스마트팩토리 솔루션즈'는 공정 효율 개선을 위해 다양한 생산 라인에 센서를 설치하고 데이터를 수집합니다. 이번 과제는 CNC 머시닝 센터의 절삭유(Cutting Fluid) 온도 센서 데이터를 분석하는 것입니다. 절삭유 온도는 가공 정밀도와 공구 수명에 큰 영향을 미치므로, 온도 데이터의 특성을 정확히 이해하는 것이 중요합니다. 특정 시간 동안 수집된 절삭유 온도 데이터를 분석하여, 현재 공정의 온도 분포 상태를 파악하고자 합니다. 요구사항:- Temperature 데이터의 평균, 중앙값, 최빈값, 표준편차, 분산, 왜도, 첨도를 계산하여 출력하세요. (소수점 둘째자리 까지 표시할 것 , pandas 메서드 기준으로 결과를 출력 할 것)- Temperature 데이터에 대한 박스플롯(Box Plot)을..