- 암묵지 ex) 고려청자를 만드는 비법, 감장의 맛을 결정한다는 시어머니의 손맛, 연봉이 수억원에 달한다는 보험설계사의 영업비밀
- OLTP : 호스트 컴퓨터가 데이터베이스를 엑세스 후 처리 결과를 돌려보내는 형태
- Business Intelligence : 데이터 기반의 의사결정 지원하기 위한 리포트 중심의 도구
- Business Analytics : 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
- Data Mining : 대용량 데이터로부터 의미 있는 관계, 규칙, 패턴을 찾는 과정
- ERP : 기업 전체를 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템
- 1바이트는 256 종류의 서로 다른 값을 표현할 수 있는 데이터의 크기
- 수치 데이터는 용량이 증가하더라도 텍스트 데이터에 비해 DBMS에 관리하기 용이하다
- 인터넷 댓글은 비정형 데이터이다
- 메타데이터 : 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터
- 인덱스 : 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조
- 책임 원칙의 훼손 : 범죄 예측 프로그램에 의해 범행 전에 체포
- 정량데이터 : 수치, 도형, 기호 // 정성적데이터 : 언어, 문자
- 빅데이터 시대의 위기와 통제 : 빅데이터 분석은 일어난 일에 대한 데이터에 의존하므로 예측의 정확도는 높지만 항상 맞을 수는 없어 데이터 오용이 피해가 발생할 수 있다. / 빅데이터가 발생시키는 문제를 중간자 입장에서 중재하며 해결해 주는 알고리즈미스트도 새로운 직업으로 부상하게 될 것이다.
- 분석과제 기획 - 데이터 분석을 통하여 가치가 창출될 수 있는 적절한 활용 방안과 활용 가능한 유즈케이스 탐색, 분석을 수행함에 있어 발생하는 장애요인들에 대한 사전 계획 수립 필요, 데이터 분석을 내재화하기위해서는 교육 등변화 관리 방안 고려
- 문제 탐색 - 비즈니스 모델 기반의 문제 탐색, 분석 기회 발굴의 범위 확장. 외부참조 모델 기반 문제탐색, 부넉 유즈케이스
- 분석 프로젝트 관리 영역 : 범위 관리(Scope), 시간관리, 데이터 분석을 내재화하기 위해서는 교육 등 변화관리방안 고려
- 빅데이터 거버넌스 : ERD는 운영중인 데이터베이스와 일치하기 위하여 철저한 변경관리가 필요하다. / 빅데이터 거버넌스는 산업분야별, 데이터 유형별, 정보 거버넌스 요소별로 구분하여 작성한다.
- 과제 중심적인 접근 방식 : speed&test, quick-win, problem solving
1 : 난이도 어려움. 시급성 현재 | 2 : 난이도 어려움. 시급성 미래 |
3 : 난이도 쉬움. 시급성 현재 | 4 : 난이도 쉬움. 시급성 미래 |
적용 우선순위 : 시급성 기준 => 3 > 4 > 2 // 난이도 기준 => 3 > 1 > 2
- 데이터 표준화 : 데이터 표준 용어 설정, 명명 규칙 수립, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성
- 데이터 분석을 위한 조직 구조
집중구조 : 전사 분석업무를 별도의 분석전담 조직에서 담당 , 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능, 현업 업무부서의 분석업무와 이중화 이원화 가능성 높음
기능구조 : 일반적인 분석 수행 구조, 별도 분석조직이 없고 해당 업무 부서에서 분석 수행, 전사적 핵심분석이 어려우며 부서 현황 및 실적 통계 등 과거 실적에 국한된 분석 수행 가능성 높음
분산구조 : 분석조직 인력들을 현업부서로 직접 배치하여 분석업무 수행, 전사차원의 우선순위 수행, 분석결과에 따른 신속한 action가능, 베스트 프랙티스 공유 가능, 부서 분석업무와 역할 분담 명확히 해야함(->업무과다 이원화 가능성)
- 시계열 구성 : 추세(경향)요인, 계절요인, 순환요인, 불규칙요인
- 향상도 : A와 B가 동시에 포함된 거래수 / (A를 포함하는 거래수 * B를 포함하는 거래수) >> 품목 A와 품목 B의 구매가 서로 관련이 없는 경우 향상도 = 1
- 상관분석에서는 인과관계, 선형관계를 알 수 없다.
- 주성분 분석 : 상관성이 높은 변수들의 선형 결합으로 만들어 상관성이 높은 변수들을 요약, 축소
- 이산확률변수, 연속형 확률변수
- (사건 A가 일어나는 경우의 수) / (일어날 수 있는 모든 경우의 수)를 P(A)라 할 때, 이를 A의 수학적 확률이라 한다
- 한 사건 A가 일어날 확률을 P(A)라 할 때, n번의 반복시행에서 사건 A가 일어난 횟수를 r이라하면, 상대도수 r/n 은 n이 커짐에 따라 확률 P(A)에 가까워짐을 알 수 있다. P(A)를 사건 A의 통계적 확률이라 한다.
- 두 사건 A,B가 독립일때, 사건 B의 확률은 A가 일어났다는 가정 하에서 B의 조건부 확률과 같다
- 표본공간에서 임의의 사건 A가 일어날 확률 P(A)는 항상 0~1 이다
- p개의 변수들을 중요한 m개의 주성분으로 표현하여 전체 변동을 설명하는 것으로 m개의 주성분은 원래 변수들의 선형결합으로 표현된다
- 차원 감소폭의 결정은 전체 변이의 공헌도, 평균고유값, scree plot 등을 이용하는 방법이 있다
- 주성분분석을 이용한 주된 동기로 언급되는 것 중 차원의 저주가 있다. 데이터의 차원이 증가할 때, 데이터의 구조를 변환하여 불필요한 정보도 최대한 축적하는 차원 감소 방법이 필요하다
- 변수들이 서로 상관이 있는 경우, 해석상의 복잡한 구조적 문제가 발생하며 이때 변수들 사이의 구조를 이해하기 어렵다
- 유클리디안 거리
- 연관분석 : 조건 반응(if-then) 으로 표현되어 결과를 이해하기 쉽다. / 목적변수가 없어 분석 방향이나 목적이 없어도 적용이 가능하다. / 품목을 너무 세분화하게 되면 의미가 없다. / 분석을 위한 계산이 간단하다
- 배깅 : 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법
- 계층적 군집분석을 위한 거리 계산 : 유클리디안 거리, 표준화 거리, 마할라노비스 거리, 체비셰프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리
- 와드연결법 : 계층적 군집분석 수행 시 두 군집을 병합하는 방법 가운데 병합된 군집의 오차제곱합이 병합 이전 군집의 오차제곱합에 비해 증가한 정도가 작아지는 방향으로 군집을 형성하는 방법
- 오분류표
재현율 (Recall): 민감도(Sensitivity)와 동일하며 모형의 완전성을 평가하는 지표
F1 스코어 : F1 = 2 * {(정확도 * 재현율) / (정확도 + 재현율)}
- 신경망 모형
은닉층의 뉴런 수와 개수를 정하는 것은 신경망을 설계하는 사람의 직관과 경험에 의존한다. 뉴런수가 너무 많으면 과적합이 발생하고 뉴런 수가 너무 적으면 입력 데이터를 충분히 표현하지 못하는 경우가 발생한다.
역전파 알고리즘은 신경망 모형의 목적함수를 최적화하기 위해사용된다. 연결강도를 갱신하기 위해서 예측된 결과와 실제값의 차이인 에러를 통해 가중치를 조정하는 방법이다.
신경망 모형은 변수의 수가 많거나 입출력 변수 간에 복잡한 비선형관계가 존재할 때 유용하며, 잡음에 대해서도 민감하게 반응하지 않는다는 장점을 가지고 있다.
신경망 모형에서 뉴런의 주요 기능은 입력과 입력 강도의 가중합을 계산하여 임계값과 비교한다.
- 표본 조사
표본오차는 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로서 발생하는 오차를 말한다.
표본편의는 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차를 의미한다.
표번편의는 확률화에 의해 최소화하거나 없앨 수 있다. 확률화란 모집단으로부터 편의되지 않은 표본을 추출하는 절차를 의미하며 확률화 절차에 의해 추출된 표본을 확률 표본이라 한다.
비표본오차는 표본오차를 제외한 모든 오차로 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사 대상이 증가하면 오차가 커진다.
- 표본조사나 실험을 하는 과정에서 추출된 원소나 관측 자료를 얻는 것을 측정이라 한다.
- 자료의 측정 수준 : 명목척도는 단순한 번호로 차례의 의미는 없다. / 순서척도는 순서가 의미를 가지는 번호다. / 비율척도는 0을 기준으로하는 절대적 척도를 간격뿐만 아니라 비율에도 의미가 있다.
- 다중회귀모형이 통계적으로 유의미한지 확인하는 방법은 F통계량을 확인하는 것이다.
- 지지도
- 데이터 사이언스 : 데이터로부터 의미있는 정보를 추출해 내는 학문으로, 통계학과는 달리 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 분석 대상으로 한다. 또한 분석에 초점으로 두는 데이터마이닝과는 달리 분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함하는 포괄적인 개졈이다.
- 유전자 알고리즘 : 생명의 진화를 모방하여 최적해를 구하는 알고리즘으로 존 홀랜드가 1975년에 개발하였다. / '최대의 시청률을 얻으려면 어떤 시간대에 방송해야 하는가?' 와 같은 문제를 해결할 때 사용된다. / 어떤 미지의 함수의 최적화하는 해를 찾기 위해, 진화를 모방한 탐색 알고리즘이라고 말할 수 있다.
- 나선형 모델 : 반복을 통하여 점증적으로 개발하는 방법으로 처음 시도하는 프로젝트에 적용이 용이하지만, 반복에 대한 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.
- ISP : 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기위한 ISP를 수행한다. 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터플랜을 수립하는 절차이다.
- 후진제거법 : 최적회귀방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은영향을 주는 변수부터 하나씩 제거하면서 더 이쌍 유의하지 않은 변수가 없을 때까지 설명변수를 제거하는 방법이다.
- 가지치기 : 의사결정나무모형은 분류분석을 위해 실무적으로 가장 많이 사용하는 모델 중 하나다. 그러나 끝마디가 너무 만힝 나오면 모형이 과대 적합된 상태로 현실 문제에 적용할 수 있는 규칙이 나오지 않게 된다. 이를 해결하기 위해 분류된 관측치의 비율이나 MSE등을 고려하여 과적합 문제를 해결하는 방법이다.
- 향상도 곡선 : 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 좋아졌는지를 각 등급별로 파악하는 그래프. 상위 등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단한다.
- 자기회귀 모형 : 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형 / 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형 / 모형에 사용하는 시계열 자료의 시점에 따라 1차,2차,,,P차 등을 사용하거나 정상시계열 모형에서는 주로 1,2차를 사용한다
- 단순회귀 분석에서 결정계수 값은 SSR/SST
'빅데이터' 카테고리의 다른 글
ADsP 22회 복원 문제 - 정리 (1) | 2021.03.12 |
---|---|
ADsP 21회 복원 문제 - 정리 (1) | 2021.03.11 |
ADsP 20회 복원 문제 - 정리 (1) | 2021.03.09 |
ADsP 18회 복원 문제 - 정리 (0) | 2021.03.04 |