STUDY/ADP, 빅데이터분석기사

ADP 실기 - 문제 정리

BOTTLE6 2021. 3. 13. 14:56

19회

(출처 : https://ysyblog.tistory.com/114)

1. 기계학습 - Credit Data : 고객이 이탈여부 분류 문제 (50점)

  • 독립변수 : 성별, 나이, 카드등급, 소득 등

1-1. 데이터 전처리 및 시각화 (5점)

  • 연속형 변수와 문자로된 범주형 변수를 처리
  • 코드와 해석결과를 PDF로 만들어서 제출하기

1-2. 훈련,검증 데이터 분할 7:3 및 Confusion Matrix 만들기 (15점)

  • 코드와 해석결과를 PDF로 만들어서 제출

1-3. 분류분석 3개를 앙상블하여 Credit_test를 예측하기(30점)

  • credit_test.csv 따로 주어져 있음
  • result.csv를 만들어서 제출하기
  • 분석결과를 요구하지 않음 -> 성능으로 평가??

2. 통계학습 - Traffic EPS 시계열 분석 - 20년치 데이터, 분기데이터 (1년에 4개) (50점)

2-1. 시계열 데이터의 정규성과 이분산성을 분석하기 위해 시각화 하고 설명(10점)

  • 정상성(Stationary) : 시점에 관계없이 평균과 분산이 일정한 상태
  • 이분산성 : 등분산성이 결여된 경우

2-2 시계열데이터 정규성이 아니라면, 고정시계열이 있는지 확인하고 이를 처리(15점)

  • decompose를 통해 요소별로 구분? (트렌드, 계절성, 순환성, 잡음)
  • differencing(차분) 또는 transformation(log변환) 등을 활용

2-3. SARIMA 분석을 실시, 여러 파라미터를 적용해보고 가장 성능 좋은 것을 제시(15점)

  • autoarima를 사용하자

2-4. 모델의 잔차와 잡음에 대해 시각화 하고 분석(10점)


18회

(출처 : https://mizykk.tistory.com/84)
(출처 : https://jae-eun-ai.tistory.com/2)

1. 고객등급 예측모형 (다중분류 1~5등급 분류)

1-1. 변수 EDA 및 데이터 전처리(결측치 처리 포함)

1-2. 파생변수 3개 생성 및 근거를 시각화나 통계량으로 제시

  • 시각화 또는 통계량제시

    1-3. Train/Test 분할(7:3) // train에 대해 SOM 군집분석 // 정오분류표

1-4. 분류분석 4가지 실시

  • RandomForest , 인공신경망을 포함
  • ROC_AUC, F1_SCORE로 모델 평가하기
  • 모델의 성능을 추가로 개선하는 방법 제시

2. 텍스트마이닝(영어)

2-1. 명사추출 , 불용어 처리

  • 영어 문장의 의미없는 단어를 없애고 형태소 분석

    2-2. 빈도 막대그래프

  • 단어 빈도 시각화

3. 시계열분석

3-1. 평균과 분산 일정한지 근거를 두고 설명하라 (=정상성 평가?)

  • 시계열 정상성 만족시키기

    3-2. ARIMA + 근거 & 해석

3-3. 최적 모델 선택 + 근거 & 해석

  • 모형을 3개 이상 만들어 비교하기

    3-4. 모델 적합성 평가하기

  • 예측의 정확도를 평가하기


17회

(출처 : https://didalsgur.tistory.com/70)
(출처 : https://0dood0.tistory.com/150)
(출처 : https://bigdata-analyst.tistory.com/m/34?category=825660)

1. 기계학습(집값 예측) (30점)

1.1 EDA 및 데이터 전처리(5점)

1.2 모델생성

  • 평가지표 : RAME
1.2.1 데이터분할
1.2.2 교호작용을 고려한 다중 선형회귀 분석
1.2.3 3가지 분류모델 생성 및 비교, 좋은 모델
  • 회귀모델, 규제, 앙상블 + a 등 3개의 모델

2. 시각화 및 시계열 분석(코로나) (20점)

2.1 전체 인구대비 누적 사망률이 가장 높은 5개 국가 추출 후 국가별 일일확진자, 누적확진자, 일일사망자 시계열 그래프 출력

  • 인구대비 확진자수를 도출(파생변수) Top 5 시각화

    2.2 위험지수 생성 및 해석

    2.3 시계열 분석 및 예측 모델 생성

  • 한국 국가의 확진자수 예측

  • 비시계열 모델로도 모델을 별도 생성(X)

  • 비선형 시계열 모델도 만들어라

3. 통계분석(설문데이터) -> 역문항 처리 필요

3.1 그룹별 평균, 표준편차, 왜도, 첨도 산출

3.2 탐색적 요인분석

3.3 신뢰성 지수를 구하는 식을 주고 해결

3.4


16회


15회

1. 제조 생산 데이터 분석 (종속변수 총 7개)

  • 1개의 목표변수(7개 범주형), 26개의 설명변수

1.1 데이터 탐색 EDA

1.2 데이터 전처리

  • 상관분석
  • 변수선택(VIF)
  • 파생변수 생성
  • 데이터 분할(train/validate/test-20%) : %시각화와 통계량 제시할 것

1.3 로지스틱 분석

  • 분류1을 판단하는 모델 생성 (종속변수는 총 7개 중 하나만),
  • confusion_matrix 해석
  • 로지스틱 분석 외 3개이상의 분류 모델 생성 및 결과 해석
  • 로지스틱 분석의 최적의 cut_off value를 정하여라. %시각화와 통계량 제시
  • SVM 포함, precison/sensitivity 결과 출력
  • 가장 적합 모형 선택하여 군집 분석을 실시하고 F1 스코어를 구하여라.

2. 데이터 처리 및 통계분석

  • usage.csv 데이터 : 20000*2
    15분 사용된 사용 전력

  • usage_histroy.csv :100,000*6
    time : 1분마다 찍혔다고 나와있음. 그러나 2개씩 찍혀있음.. ▶ 중복데이터 제거??
    wclass : A 최저기존 B최고기온 C 상기온 , D 저기온

  • weather.csv : 600*2

  • timeestamp 처리

  • date기준 데이터 병합

  • hh:mm A/B/C/D/E 전력량 데이터

  • yyyymmdd, 평균기온

    2.1 아래형태의 데이터 생성

  • usage의 총 사용량을 A,B,C,D,E 유형별 사용량으로 구별하고 아래와 같은 모양으로 연월별 평균값을 계산하여 csv파일로 제출

  • 3개의 데이터를 date기준으로 병합

  • yyyy-mm /A/B/C/D/E/사용량

    2.2 요일 변수 생성 및 A/B/C/D/E별 평균 사용량 출력, 그래프 출력

    2.3 요일간 사용량 분석을 수행하고 가장 차이가 있는 요일 도출

    2.4 각 날짜별 전력사용량이 weather의 평균기온과 어떠한 관계가 있는지 분석하시오.