빅데이터

ADsP 22회 복원 문제 - 정리

오월&절미 2021. 3. 12. 21:28
  • 데이터 분석에 기초한 가치창룽

핵심적인 비즈니스 이슈에 답을 주는 부넉은 기업의 경쟁전략과 밀접하게 연관된다.

전략적 분석과 통찰력의 창출은 빅데이터 프로젝트에서 핵심적인 역할을 한다.

기존 성과를 유지하고 업계를 따라잡는 것이 전략적  가치 기반 분석의 가장 중요한 목표는 아니다

복잡한 최적화 능력은 데이터 분석 활용의 최고수준으로 최고의 가치를 창출하지 못한다

  • 데이터 사이언티스트가 분석모델개발을 위해 고려할 사항

분석모델이 예측할 수 없는 위험을 살피기 위해 현실세계를 돌아보고 분석을 경험과 세상에 대한 통찰력과 함께 활용한다

가정들과 현실의 불일치에 대해 끊임없이 고찰하고 모델의 능력에 대해 항상 의구심을 가진다

분석의 객관성에 의문을 제기하고 분석 모델에 포함된 가정과해석 개입등의 한계를 고려한다

넓은 시각에서 모델 범위 바깥의 요인들을 판당할 수 있도록 가능한 많은 과거 상황 데이터를 모델에 포함하는 것은 옳지 않다

  • 빅데이터 정의

일반적인 데이터베이스 소프트웨어로 저장 관리 분석할 수 있는 범위를 초과하는 규모의 데이터다

다양한 종류의 대규모로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집 발굴 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다

데이터의 양, 데이터 유형과 소스 측면의 다양성, 데이터 수집 과 처리 측면에서 속도가 급격히 증가하면서 나타난 현상이다

빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 하둡은 빅데이터 플랫폼 환경구축을 위해 사용할 뿐 빅데이터가 하둡을 기반으로 하는 것은 아니다

  • 데이터 가치 측정이 어려운 이유

데이터의 재사용이 일반화 되면서 특정 데이터를 언제 누가 사용했는지 알기 힘들기 때문

기존에 존재하지 않던 가치를 창출하기 때문

분석기술의 발전으로 과거에 분석이 불가능 했던 데이터를 분석할 수 있게 되었기 때문

  • 데이터 사이언스 역량

빅데이터에 대한 이론적 지식, 통찰력 있는 분석 능력, 다분야 간 커뮤니케이션 능력, 설득력 있는 스토리텔링 능력

  • 지도학습과 비지도학습

군집분석-비지도학습 / 분류분석, 감성분석,회귀분석-지도학습

  • 데이터를 가공 및 처리하여 얻을 수 있는 것

데이터 정보 지식 지혜

  • 객체지향 DBMS : 사용자 정의 데이터나 멀티미디어 데이터 등 복잡한 데이터 구조를 표현 및 관리할 수 있는 데이터베이스 관리시스템
  • 데이터 분석 방법론의 구성요소

상세한 절차, 방법, 도구와 기법, 템플릿과 산출물

  • 빅데이터 분석 방법론의 분석 기획 단계에서 위험에 대한 대응방법 

회피, 전이, 완화, 수용

  • 하향식 접근방법

문제 탐색(problem discovery) > 문제 정의(problem definition) > 해결방안 탐색(solution search) > 타당성 조사(feasibility study)

  • 분석과제 우선순위
난이도 1 2
3 4
  <-시급성->

시급성 우선 : 3 > 4 > 2

  • 분석 기획 단계 task

프로젝트 범위 설정, 프로젝트 정의 및 계획수립, 위험 식별(계획수립)

  • 마스터 플랜 수립할 때 적용 범위 및 방식 고려사항

업무내재화 적용 수준, 분석데이터 적용 수준, 기술 적용 수준

  • 비즈니스 모델 갠버스
규제 & 감사
업무 제품 고객
지원 인프라
  • 분석 거버넌스 체계

과제 기획 및 운영 프로세스, 분석기획 및 관리 수행 조직, 분석교육/마인드 육성체계, 분석 관련 시스템, 데이터

  • 구간추정 방법 과 신뢰구간

일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언

신뢰수준이 높아지면 신뢰수준의 길이는 길어진다

표본의 수가 많아지면 신뢰구간의 길이 짧아진다

  • 데이터 마트 : 데이터의 한 부분으로 특정 사용자가 관심을 갖고 있는 데이터를 담은 비교적 작은 규모의 데이터 웨어하우스
  • 명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용.속성을 분류하는 척도. 성별, 출생지 등. 측정 대상에 수치나 부호를 부여하는 방법으로 사용

순서척도(서열척도) : 순서 관계를 밝혀주는

구간척도(등간척도) : 순서 사이의 간격. 명목척도와 서열척도의 특성을 모두 호함. 크기의 정도. 온도, 서기년도, 주가지수. 비율적 의미를 부여할 수 없다

비율척도 : 순서사이의 간격이 균등하고, 절대값(0)이 존재하는 척도

  • 시계열 예측의 정상성 : 평균이 시점에 의존하지 않는다
  • 피어슨 상관계수 계산법

  • 확률 계산
  • ARIMA 차분

시계열{Zt}의 d번 차분한 시계열이 ARMA(p,q)모형이면 > ARIMA(p, d, q)

  • 맨하튼 거리 
  • 오분류표 - 특이도
  예측치  
True(Positive) False(Negative)  
실제값 True TP FN 재현율,민감도
= TP/(TP+FN)
False FP TN 특이도 = TN/(FP+TN)
    정확도 = TP/(TP+FP)   F1 =
2 * (정확도 *재현율)/
(정확도 + 재현율)
  • 지니지수 : 영역내에서 특정 클래스에 속하는 관측치들의 비율을 제외
  • 엔트로피 지수 : 무질서에 대한 측도 역할. 지니지수와 비슷하지만 log를 취함으로써 정규화 과정을 거친다 < 목표변수가 범주형인 의사결정나무의 분류규칙을 선택하기 위한 방법
  • 의사결정나무에서 분류기준 변수 선택법
  이산형 변수 연속형 변수
CHAID(다지분할) 카이제곱 통계량  
CART(이지분할) 지니지수 분산감소량
  • K-means 수행 절차

초기 군집의 중심으로 k개의 객체를 임의로 선택 > 각 자료를 가장 가까운 군집 중심에 할당 > 군집 내 자료들의 평균 계산 > 군집 중심의 변화가 거의 없을 때 까지 반복

  • 로지스틱 회귀모형 : 반응변수가 범주형인 경우 적용
  • 순차패턴 : 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성분석에 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 방법.
  • R의 데이터 구조 중 벡터에서 숫자형 벡터, 문자형 벡터, 논리 연산자 벡터를 모두 합쳐 하나의 벡터를 구성하면 > 문자형 벡터
  • R코드
  • R함수 : ldply()
  • 통계량 : 모수를 추정하기 위해 구하는 표본의 값들
  • 다중공선성 : 회귀 모형에 사용된 독립 변수 간의 상관관계가 존재하여 회귀 계수 추정치가 불안하고 해석하기 어려워지는 현상
  • 피어슨 상관계수에서 두 변수의 상관관계가 존재하지 않을 경우 도출되는 값 = 0
  • 신경망 모형 : 최근 인공지능 기술의 발전과 함꼐 주목받고 있는 딥러닝 기법에 기반을 두고 있는 모형
  • 기울기 소실 문제 : 다층 신경망 모형에서 은닉층의 개수를 너무 많이 설정하게 되면 역전파 과정에서 앞쪽 은닉층의 가중치 조정이 이루어지지 않아 신경망의 학습이 제대로 이루어지지 않을 때 일어나는 현상
  • ROC 그래프에서 이상적으로 완벽히 분류한 모형의 x축과 y축 = (0,1)
  • 이상치 판정 

3-sigma 방법은 " 평균으로부터 표준편차의 3배가 넘는 범위의 데이터"를 비정상이라 규정

회귀분석 적합 후 잔차분석을 실시하여 이사치를 판정하는 방법

통계 모형에 기반한 방법으로는 Grubb'sTest, Hotelling'sT2 test등이 있다

  •  SCM(Supply Chain Management): 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로, 자재구매, 생산 재고, 유통 판매, 고객 데이터로 구성된다
  • 유전자 알고리즘 : 생명의 진화를 모방하여 최적해를 구하는 알고리즘 
  • 빅데이터 기획전문가 : 회사 내 기능조직, 비즈니스 분석 또는 BI조직에 소속되어 있으면서 빅데이터 분석 전문 조직과 협력을 통하여 업무에 필요한 분석 모델이나 예측 모델을 Self Service Analytics 도구를 활용하여 구현하는 전문가
  •  ISP(Information Streategy Planning): 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 ~ 을 수행한다. ~ 는 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차
  • 기댓값계산하기
  • 배깅 : 원 데이터 집합으로부터 크기가 같은 표본을 여러 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법

부스팅 : 붓스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법

랜덤포레스트 :  데이터마이닝 방법론의 앙상블 기법 중 하나로 분류 분석 문제를 해결하기 위한 의사결정나무와 같은 방법론이지만 의사결정나무에서 나타나는 과대적합/과소적합의 문제를 해결하기 위해 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법

  • 홀드아웃방법 : 모형 평가 방법 중 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 학습용과 시험용으로 분리하여 사용하는 방법
  •  ESD(Extreme Studentized Deviation ): 이상값 탐색 기법 중 하나로 평균으로부터 k*표준편차만큼 떨어져 있는 값들을 이상값으로 판단하는 방법
  • 포아송분포 : 이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포
  • 향상도 곡선 : 분류분석의 모형을 평가하는 방법으로 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프