STUDY/ADP, 빅데이터분석기사
ADP 실기문제 그루핑
BOTTLE6
2021. 3. 13. 15:18
15~19회 실기 문제 그루핑
1. 기계학습 (분류문제) - 철강 다중분류(17)(15회), 고객이탈(19회), 고객등급 다중분류(15)(18회)
1.1 데이터 전처리 및 EDA, 시각화
- 결측치
- 데이터 분할
- 범주형 변수/ 연속형 변수 처리
- 상관분석
- 변수선택(VIF)
- 파생변수 생성
1.2 모델링 및 평가
- 분류분석 3개 이상 만들기
- logistic cut-off value 찾기
- SVM 규제하기 등
- CSV 파일로 결과 제출하기
- RandomForest, 인공신경망
- confusion_matrix 해석
- precision/sensitivity 결과 출력
- ROC_AUC, F1_Score
- 모델 성능개선방안 제시
2. 기계학습 (회귀문제) - 집값 예측(17회)
2.1 데이터 전처리 및 EDA, 시각화
- EDA , 데이터 전처리
- 데이터 분할
- 교호작용을 고려한 다중 선형회귀 분석
2.2 모델링 및 평가
- 3가지 모델 생성 및 비교,
- 회귀모델, 규제, 앙상블 등 적용하기
3. 시계열문제(ARIMA,SARIMA) - 전력량데이터(15회), 코로나(17회), ??(18회), Traffic EPS(19회)
3.1 정상성 여부
- 시계열 데이터의 정상성 여부, 이분산성 시각화
- 고정 시계열 처리
- timestamp 데이터를 데이터 병합 등 처리하여 통계값 제시
3.2 모델링 및 평가
- SARIMA 분석 실시, 여러 파라미터 적용해보고 가장 성능 좋은 것 찾기
- 모델의 결과 잔차와 잡음을 시각화 하고 평가하기
- 모델 3개 이상 만들어서 적합성 평가하기
- 파생변수(위험지수 등) 생성하여 비선형 시계열로 평가해보기
4. 통계문제
- 그룹별 평균, 표준편차, 왜도, 첨도
- 탐색적 요인 분석
- 신뢰성 지수를 구하는 식을 주고 해결
- 응답 항목별 유의미한 차이가 있는지? (F 통계량?? )