ADP 실기 - 문제 정리
19회
(출처 : https://ysyblog.tistory.com/114)
1. 기계학습 - Credit Data : 고객이 이탈여부 분류 문제 (50점)
- 독립변수 : 성별, 나이, 카드등급, 소득 등
1-1. 데이터 전처리 및 시각화 (5점)
- 연속형 변수와 문자로된 범주형 변수를 처리
- 코드와 해석결과를 PDF로 만들어서 제출하기
1-2. 훈련,검증 데이터 분할 7:3 및 Confusion Matrix 만들기 (15점)
- 코드와 해석결과를 PDF로 만들어서 제출
1-3. 분류분석 3개를 앙상블하여 Credit_test를 예측하기(30점)
- credit_test.csv 따로 주어져 있음
- result.csv를 만들어서 제출하기
- 분석결과를 요구하지 않음 -> 성능으로 평가??
2. 통계학습 - Traffic EPS 시계열 분석 - 20년치 데이터, 분기데이터 (1년에 4개) (50점)
2-1. 시계열 데이터의 정규성과 이분산성을 분석하기 위해 시각화 하고 설명(10점)
- 정상성(Stationary) : 시점에 관계없이 평균과 분산이 일정한 상태
- 이분산성 : 등분산성이 결여된 경우
2-2 시계열데이터 정규성이 아니라면, 고정시계열이 있는지 확인하고 이를 처리(15점)
- decompose를 통해 요소별로 구분? (트렌드, 계절성, 순환성, 잡음)
- differencing(차분) 또는 transformation(log변환) 등을 활용
2-3. SARIMA 분석을 실시, 여러 파라미터를 적용해보고 가장 성능 좋은 것을 제시(15점)
- autoarima를 사용하자
2-4. 모델의 잔차와 잡음에 대해 시각화 하고 분석(10점)
18회
(출처 : https://mizykk.tistory.com/84)
(출처 : https://jae-eun-ai.tistory.com/2)
1. 고객등급 예측모형 (다중분류 1~5등급 분류)
1-1. 변수 EDA 및 데이터 전처리(결측치 처리 포함)
1-2. 파생변수 3개 생성 및 근거를 시각화나 통계량으로 제시
시각화 또는 통계량제시
1-3. Train/Test 분할(7:3) // train에 대해 SOM 군집분석 // 정오분류표
1-4. 분류분석 4가지 실시
- RandomForest , 인공신경망을 포함
- ROC_AUC, F1_SCORE로 모델 평가하기
- 모델의 성능을 추가로 개선하는 방법 제시
2. 텍스트마이닝(영어)
2-1. 명사추출 , 불용어 처리
영어 문장의 의미없는 단어를 없애고 형태소 분석
2-2. 빈도 막대그래프
단어 빈도 시각화
3. 시계열분석
3-1. 평균과 분산 일정한지 근거를 두고 설명하라 (=정상성 평가?)
시계열 정상성 만족시키기
3-2. ARIMA + 근거 & 해석
3-3. 최적 모델 선택 + 근거 & 해석
모형을 3개 이상 만들어 비교하기
3-4. 모델 적합성 평가하기
예측의 정확도를 평가하기
17회
(출처 : https://didalsgur.tistory.com/70)
(출처 : https://0dood0.tistory.com/150)
(출처 : https://bigdata-analyst.tistory.com/m/34?category=825660)
1. 기계학습(집값 예측) (30점)
1.1 EDA 및 데이터 전처리(5점)
1.2 모델생성
- 평가지표 : RAME
1.2.1 데이터분할
1.2.2 교호작용을 고려한 다중 선형회귀 분석
1.2.3 3가지 분류모델 생성 및 비교, 좋은 모델
- 회귀모델, 규제, 앙상블 + a 등 3개의 모델
2. 시각화 및 시계열 분석(코로나) (20점)
2.1 전체 인구대비 누적 사망률이 가장 높은 5개 국가 추출 후 국가별 일일확진자, 누적확진자, 일일사망자 시계열 그래프 출력
인구대비 확진자수를 도출(파생변수) Top 5 시각화
2.2 위험지수 생성 및 해석
2.3 시계열 분석 및 예측 모델 생성
한국 국가의 확진자수 예측
비시계열 모델로도 모델을 별도 생성(X)
비선형 시계열 모델도 만들어라
3. 통계분석(설문데이터) -> 역문항 처리 필요
3.1 그룹별 평균, 표준편차, 왜도, 첨도 산출
3.2 탐색적 요인분석
3.3 신뢰성 지수를 구하는 식을 주고 해결
3.4
16회
15회
1. 제조 생산 데이터 분석 (종속변수 총 7개)
- 1개의 목표변수(7개 범주형), 26개의 설명변수
1.1 데이터 탐색 EDA
1.2 데이터 전처리
- 상관분석
- 변수선택(VIF)
- 파생변수 생성
- 데이터 분할(train/validate/test-20%) : %시각화와 통계량 제시할 것
1.3 로지스틱 분석
- 분류1을 판단하는 모델 생성 (종속변수는 총 7개 중 하나만),
- confusion_matrix 해석
- 로지스틱 분석 외 3개이상의 분류 모델 생성 및 결과 해석
- 로지스틱 분석의 최적의 cut_off value를 정하여라. %시각화와 통계량 제시
- SVM 포함, precison/sensitivity 결과 출력
- 가장 적합 모형 선택하여 군집 분석을 실시하고 F1 스코어를 구하여라.
2. 데이터 처리 및 통계분석
usage.csv 데이터 : 20000*2
15분 사용된 사용 전력usage_histroy.csv :100,000*6
time : 1분마다 찍혔다고 나와있음. 그러나 2개씩 찍혀있음.. ▶ 중복데이터 제거??
wclass : A 최저기존 B최고기온 C 상기온 , D 저기온weather.csv : 600*2
timeestamp 처리
date기준 데이터 병합
hh:mm A/B/C/D/E 전력량 데이터
yyyymmdd, 평균기온
2.1 아래형태의 데이터 생성
usage의 총 사용량을 A,B,C,D,E 유형별 사용량으로 구별하고 아래와 같은 모양으로 연월별 평균값을 계산하여 csv파일로 제출
3개의 데이터를 date기준으로 병합
yyyy-mm /A/B/C/D/E/사용량
2.2 요일 변수 생성 및 A/B/C/D/E별 평균 사용량 출력, 그래프 출력
2.3 요일간 사용량 분석을 수행하고 가장 차이가 있는 요일 도출
2.4 각 날짜별 전력사용량이 weather의 평균기온과 어떠한 관계가 있는지 분석하시오.