빅데이터

ADsP 21회 복원 문제 - 정리

오월&절미 2021. 3. 11. 18:03
  • 빅데이터가 만들어내는 변화

가치가 있을 것이라고 예상되는 특정한 정보만 모아서 처리하는 것이 아니라 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아내는 방식이 중요해진다.

데이터의규모가 증가함에 따라 사소한 몇 개의 오류 데이터는 분석결과에 영향을 미치지 않기 때문에 데이터세트에 포함하여 분석해도 상관없는 경우가 많아진다.

데이터의 양이 증가하고 유형이 복잡해짐에 따라 수많은 데이터 중에서 분석에 필요한 데이터를 선정하기 위해 정교한 전수조사 기법의 중요성이 대두 된다

인과관게의 규명없이 상관관계 분석 결과만으로도 인사이트를 얻고 이를 바탕으로 수익을창출할 수 있는 기회가 늘어나고 있다

  • 빅데이터 출현 배경 : M2M, Iot 와 같은 통신 기술 발전 / 하둡 등 분산처리 기술의 발전 / SNS의 급격한 확산
  • 데이터베이스 설계 절차 : 요구사항 분석 > 개념적 설계 > 논리적 설계 > 물리적 설계
  • 분석 기법 : 연관 규칙 학습, 유전 알고리즘, 회귀 분석, 감성 분석 예시 맞추기
  • 감성분석 : 고객의 주관적 평가를 측정하고자 할 때 수행 / 특정 주제에 대해 사용자의 긍정 부정 의견을 분석 / 주로 문장이나 단어가 분석 대상이 된다
  • CRM 시스템 : 기업 내부 데이터베이스를 기반으로 다양한 정보시스템이 구축 활용된다. 고객 관련 데이터베이스를 분석하여 고객 개개인에게 적합한 차별적 제품 및 서비스를 제공함으로써 고객과의 관계를 지속적으로 강화해 나가기 위해 구축하는 정보 시스템
  • 개인정보 비식별화 기법

가명처리 - 개인 식별이 가능한 데이터에 대하여 직접적으로 식별 할 수 없는 다른 값으로 대체

범주화 - 단일 식별 정보를 해당 그룹의 대표 값으로 변환

데이터마스킹 - 식과 같은 속성을 유지한채 새롭고 읽기 쉬운 데이터로 익명으로 생성

총계처리 - 개별 데이터 값을 총합 또는 평균값으로 대체

  • 데이터 유형 : 비정형-페이스북 소셜데이터, 검색어,음성파일 등 형태가 없는 /반정형-센서데이터, 형태(스키마,메타데이터)가 있는
  • CRISP-DM 방법론의 모델링 : 모델링 기법 선택, 모델링 테스트 계획 설계, 모델 작성, 모델 평가
  • 분석 프로젝트관리     

데이터 분석 모델의 품질을 평가하기 위해서 SPICE를 활용할 수 있다

분석 프로젝트의 최종 산출물이 보고서 또는 시스템인지에 따라 프로젝트 관리에 차이가 있다

데이터 분석 프로젝트는 초기에 의도했던 결과(모델)가 나오기 쉽지 않기 때문에 많은 시간이 소요될 수 있으며, Time Boxing 기법으로 일정관리를 진행한는 것이 필요하다

  • 분석의 활용적인 측면에서는 Accuracy(정확도)가 중요하며 안정성 측면에서는 Precision(정밀도)이 중요
  • Accuracy는 모델과 실제 값과의 차이를 평가하는 정확도를 의미
  • Precision은 모델을 지속적으로 반복했을 때의 편차의 수준으로써, 일관적으로 동일한 결과를 제시한다
  • Accuracy와 Precision은 Trade-off 되는 경우가 많다

  • BI 와 비교하여 빅데이터 분석에 대한 키워드를 가장 적절하게 표현한 것은 information, Ad hoc Report, Alerts, Clean Data
  •  

  • 분석 ROI 요소 와 분석우선순위 평가기준

분석과제의 우선순위 평가에서 시급성은 전략적 중요도, 목표가치 등을 평가하고, 난이도는 데이터 저장, 획득, 가곡 비용이 평가요소이다

분석 난이도는 분석 준비도와 성숙도 진단 결과에 따라 해당 기업의 분석 수준을 파악하고 이를 바탕으로 결정된다.

시급성이 높고 난이도가 높은 분석 과제는 경영진 또는 실무 담당자의 의사결정에 따라 적용 우선순위를 조정할 수 있다

시급성이 높고 난이도가 낮은 분석과제는 우선순위가 높다

  • CRISP-DM 분석 방법론에서의 업무 이해 : 업무 목적 파악 > 상확 파악 > 데이터 마이닝 목표 설정 > 프로젝트 계획 수립
  • 데이터 분석을 위한 조직 구조

집중구조 : 전사 분서업무을 별도의 분석전담 조직에서 담당, 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능, 현업 업무부서의 분석업무와 이중화 이원화 가능성 높음 

기능구조: 일반적인 분석 수행 구조, 별도 분석조직이 없고 해당 업무 부서에서 분석 수행, 전사적 핵심분석이 어려우며 부서 현황 및 실적 통계 등 과거 실적에 국한된 분석 수행 가능성 높음

분산구조 : 분석조직 인력들을 현업 부서로 직접 배치하여 분석 업무 수행, 전사차원의 우선순위 수행, 분석 결과에 따른 신속한 action가능, 베스트 프랙티스 고유 가능, 부서 분석업무와 역할 분담 명확이 해야함

  • 연속형 확률분포

t-분포 : 연속형 확률 변수의 분포 중 정규분포로부터 유도되었으며, 정규 분포의 평균을 측정할 때 주로 사용되는 분포로 두 집단의 평균 차이 검증 등에 활용되는 분포 > 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용 > 정규분포보다 더 퍼져있고 자유도가 커질수록 정규분포에 가까워진다.

F-분포 : 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량 > 확률변수는 항상 양의 값만을 갖고 카이제곱분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워진다.

균일분포 : 모든 확률변수 X가 균일한 확률을 가는 확률 분포(다트의 확률분포)

정규분포 : 변수 평균 표준편차에 대해 모양이 결정된다. 특히, 평균이 0이고 표준편차가 1인 정규분포을 표준정규분포(standard normal distribution)라고 한다

지수분포 : 어쩐 사건이 발생할 때까지 경과 시간에 대한 연속확률분포(전자레인지의 수명시간, 정류소에서 버스가 올 때까지의 시간)

카이제곱분포 : 모평균과 모분산이 알려지지 않은 모집단의 모분산에대하 가설 검정에 사용되는 분포 > 두 집단간의 동질성 검정에 활용 ( 범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용)

  • 이산형 확률분포

베르누이 확률분포 : 이산형 확률 분포 중 하나로 개별 사건이 두 가지 경우만 존재하며, 각 사건이 성공할 확률이 일정하고 전, 후 사건에 독립적인 특수한 상황의 확률분포를 나타내는 것

포아송 분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포. 정해진 시간 안에 어떤 사건이 일어난 횟수에 대한 기댓값&사건이 일어난 수

다항분포 : 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포

이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률

기하분포 : 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률

  • 가설검정

대립가설 : 귀무가설과 대립되고 뚜렷한 증거가 있을 때 주장

귀무가설 : 비교하는 값과 차이가 없다, 동일하다를 기본 개념으로 하는 가설

검정통계량 : 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준

유의수준 : 귀무가설을 기각하게 되는 확률의 크기로 ' 귀무가설이 옳은데도 이를 기각하는 확률의 크기'

기각역 : 귀무가설이 옳다는 전제 하에서 구한 검정 통계량의 분포에서 확률이 유의수준인 부분

  • 모수 검정 : 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시 // (가설 설정)가정된 분포의 모수에 대해 // (검정 방법) 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정
  • 비모수 검정 : 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시. 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우 이용. 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 //(가설 설정) 가정된 분포가 없으므로 '분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다'와 같이 분포의 형태에 대해 설정 // (검정 방법) 관측값들의 순위나 두 관측값 차이의 부호 등을 이요해 검정

부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정,만-위트니의 U검정, 런검정,스피어만의 순위상관계수

부호검정 : 표본들이 서로 관련되어 있는 경우 짝지어진 두 개의 관찰치들의 크고 작음을 표시하여 그 개수를 가지고 두 분포의 차이가 있는지에 대한 가설을 검증

  • 왜도(중앙에서 치우친 정도)와 첨도(뾰족한 정도)

  • 사분위 범위(IOR) : 중앙 50%의 데이터들이 흩어진 정도
  • 스피어만 상관계수 : 서열척도인 두 변수들의 상관관계 측정방식. 순위를 기준으로 비모수적 방법. 한 변수를 단조 증가 함수로 변환하여 다른 변수를 나타낼 수 있는 정도. 두 변수의 선형 관계의 크기 뿐만 아니라 비선형적인 관계도 나타낼 수 있는 상관계수
  • 피어슨 상관계수 : 등간척도 이상으로 측정된 두 변수들의 상관관계 측정방식. 연속형 변수, 정규성 가정
  • 최근접 이웃 모형 : 분류 분석 모형 중 훈련용 데이터 집합으로부터 미리 모형을 학습하는 것이 아니라 새로운 자료에 대한 예측 및 분류를 수행할 때 모형을 구성하는 lazy learning 기법을 사용하는 것

<->eager learning 은 학습 데이터가 주어지면 새로운 데이터를 분류하기 전에 학습 모델을 생성하는 방법

  • 분류분석 기법 : 회귀분석, 로지스틱 회귀분석/의사결정나무, CART/베이지안 분류/ 인공신경망/지지도벡터기계(SVM) /k 최근접 이웃/규칙기반의 분류와 사례기반추론
  • 활성화 함수

시그모이드 함수 : 입력층이 직접 출력층에 연결되는 단층신경망에서 활성함수를 시그모이드 함수로 사용하면 로지스틱 회귀 모형과 작동원리가 유사해진다

  • 앙상블 모형

이상값에 대한 대응력이 높아진다

전체적인 예측값의 분산을 감소시켜 정확도를 높일 수 있다

모형의 투명성이 떨어져 원인 분석에는 적합하지 않다

각 모형의 상호연관성이 높을수록 정확도가 떨어진다

  • 부스팅 : 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법
  • 배깅 : 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법. 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 활용
  • 랜덤포레스트 : 의사결정나무를 앙상블하는 방법 중 전체 변수 집합에서 부분 변수 집합을 선택하여 각각의 데이터 집합에 대해 모형을 생성한 후 결합. 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법.
  • 붓스트랩 : 주어진 자료를 단순랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러개 생성하는 샘플링 방법
  • 범주 불균형 : 분류 모형을 구성하는 경우 예측 실패의 비용이 큰 분류 분석의 대상에 대한 관측치가 현저히 부족하여 모형이 제대로 학습되지 않는 문제가 발생
  • 정확도와 재현율 중 한 지표의 값이 높아지면 다른 지표의 값이 낮아지는 가능성이 높다는 효과를 보정하기 위하여 하나의 지표로 나타낸 F(β)지표에서 β=2인 경우, 재현율에 2배만큼의 가중치를 부여하여 조화 평균을 구하는 것을 의미
  • 포화 문제 : 인공신경망 모형에서 포화문제는 역전파를 진행함에 따라 각 노드를 연결하는 가중치의 절댓값이 커져 조정이 더 이상 이루어지지 않아 과소적합이 발생되는 문제이다.
  • 군집 기법

계층적 군집 기법 : 데이터 객체 집합을 계층적으로 분해. n개의 군집으로 시작해 점차 군집의 개수를 줄여 나가는 방법 > 최단 연결법, 최장 연결법, 평균연결법, 와드연결법,군집화 > 군집의 개수를 미리 지정하지 않아도 된다. 탐색적 분석에 사용하는 모형

비계층적 군집 기법 : n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성 > k-평균 군집(주어진 데이터를 k개의 클러스터로 묶는 알고리즘, 각 클러스터와 거리 차이의 분산을 최소화하는 방식)

분리 군집 기법 : 최종 군집의 수가 알려져 있고 미리 설정 가능할 때의 군집 설정 방법

밀도 기반 군집 기법 : 특정 공간에서 가까이 있는 데이터가 많은 지역을 중심으로 클러스터를 구성하며 비교적 비어 있는 지역을 경계로 하는 군집 기법으로 임의적인 모양의 군집 탐색에 효과적인 기법

격자 기반 군집 기법 : 객체공간을 격자구조로 이루어진 유한개의 공간으로 만든다. 데이터 객체수에 독립적이고 단지 양자화된 공간의 각 차원에서 셀의 수에만 의존

SOM 모형 : 코호넨 맵. 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 한다. 실제 공간의 입력 변수가 가까이 있으면 지도상에도 가까운 위치에 있다.> 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉽다. 입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현된다 > 패턴 발견, 이미지 분석 등에서 뛰어난 성능을 보임 > 전방패스를 사용함으로 속도가 매우 빠르다(<->인공신경망은 역전파 알고리즘 ) > 경쟁학습방법 > 입력층,2차원 격자 형태의 경쟁층 > 비지도 학습

  • 실루엣 계수 : 군집 모형 평가 기준 중 하나이며 군집의 밀집정도를 계산하는 방법으로 군집 내의 거리와 군집간의 거리를 기준으로 군집 분할의 성과를 평가
  • 사분위수 : Q1 - 1.5*(Q3-Q1) < < Q3 + 1.5*(Q3-Q1)
  • 군집 분석에서의 거리계산

연속형 변수

범주형 변수

자카드 거리, 자카드 계수 : boolean 속성의 두개의 오브젝트에 대하여 A,B가 1(true)의 값을 가지는 교집합의 개수를 합집합의 개수로 나눈 수

코사인 거리 : 문서를 유사도를 기준으로 분류 혹은 그룹핑 할 때 유용

코사인 유사도 : 두 개체의 벡터 내적의 코사인 값_두 벡터사이의 각도_을 이용하여 측정된 벡터간의 유사한 정도

  • SOM(자기조직화지도) : 승자 독점의 학습 규칙에 따라 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다
  • min-max 정규화 : 변수의 크기에 영향을 받음에 따라 군집 분석을 수행하기 전에 정규화 과정이 필수적이다. 원(raw)데이터의 분포를 유지하면서 정규화가 가능한 방법
  • 연관규칙의 척도

  • 오분류표

  • 지니지수 : 영역내에서 특정 클래스에 속하는 관측치들의 비율을 제외한 값 

  • 엔트로피지수 : 무질서에 대한 측도 역할. log를 취함으로써 정규화 과정을 거치게 된다

  • 데이터 사이언스 : 데이터로부터 의미있는 정보를 추출해 내는 학문. 통계학과는 달리 정형 또는 비벙형을 막론하고 다양한 유형의 데이터를 분석 대상으로 한다. 분석에 초점을 두는 데이터마이닝과는 달리 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포괄적인 개념.
  • 유형분석or 분류분석 : ex 은행에서 대출 심사를 할 때, 소득, 카드 사용액, 나이 등 해당 고객의 개인적인 정보를 바탕으로 그 고객이 대출 상환을 잘하는 집단에 속할지 그렇지 않은 집단에 속할지를 예측할 수 있다
  • 분석 과제 관리 프로세스는 크게 과제 발굴과 과제수행으로 나누어진다. 조직이나 개인이 도출한 분석아이디어를 발굴하고 이를 과제화하여 분석 과제풀로 관리하며서 분석과제가 확정되면 팀을 구성하고 분석과제 실행하면서 지속적인 모니터링과 과제결과를 공유하며 개선하면서 분석과제 관리 프로세스를 수행하게 된다.
  • 디자인 사고 : 상향식 접근 방식의 발산단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식의 수렴단계를 반복하여 과제를 발굴하는 방법
  • 주성분 분석 R결과 해석
  • 다차원 척도 : 여러대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법
  • 와드연결법 : 군집내의 오차제곱합에 기초하여 군집을 수행. 군집 간 정보의 손실을 최소화하기 위해 군집화 진행
  • 정규성 : 회귀 모형의 가정 중 잔차항이 정규분포를 이루어야 하는 가정
  • 정규규칙 : 의사결정 나무에서 더이상 분기가 되지 않고 현재의 마디가 끝마디가 되도록 하는 규칙
  • 향상도 : 도출된 규칙의 우수성을 평가하는 기준. 두 품목의 상관관계를 기준으로 도출된 규칙의 예측력을 평가하는 지표