일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- TensorFlow
- API
- session 유지
- XAI
- integrated gradient
- gather_nd
- Airflow
- 상관관계
- requests
- Counterfactual Explanations
- youtube data
- flask
- tensorflow text
- GenericGBQException
- hadoop
- top_k
- GCP
- correlation
- API Gateway
- subdag
- login crawling
- chatGPT
- airflow subdag
- 공분산
- BigQuery
- 유튜브 API
- UDF
- grad-cam
- Retry
- spark udf
- Today
- Total
데이터과학 삼학년
[기초통계] 통계적 분석방법 본문
[사회통계]분석의 종류
독립변수-종속변수
1. 빈도분석(Frequency)
빈도분석은 원천 데이터의 내용들이 도수분포표상에서 어떠한 분포적 특성을 가지고 있는지를 파악하는 데 이용되고 있다. 이들 분포들의 특성인 통계량들은 첫째, 빈도, 상대적 빈도, 누적빈도와 같은 도수분포표로 구성되어 있다. 둘째, 최빈값, 중앙값, 산술평균과 같은 중심화 경향을 나타내는 통계량들로 구성되어 있다. 셋째, 범위, 평균편차, 분산, 표준편차 등으로 이들은 분산도를 나타내고 있다. 또한 이같은 특성치들을 하나의 바차트나 히스토그램으로 그래픽 처리하여 나타내는데 있어 빈도분석이 널리 이용되고 있다.
2. 기술통계분석(Descriptive)
기술통계분석은 요약 통계량을 계산하고 표준화된 변수값들을 데이터 파일에 저장한다. 기술통계분석의 통계처리 결과는 빈도분석의 통계량과 거의 유사하다. 그러나 빈도분석은 이산적 변수값을 다루는데 비해 기술통계분석은 연속적인 변수값을 다룬다는 점에서 빈도 분석과 다르다.
3. 교차분석(Crosstabs)
교차분석은 명목 및 서열척도의 범주형 변수들을 분석하기 위한 것으로써 한 변수의 범주를 다른 변수의 범주에 따라 빈도를 교차분류하는 교차표(Cross Tabulation: 분할표)를 먼저 작성하고 두 변수간의 독립성과 관련성을 분석한다.
4. 상관관계분석(Correlation Analysis)
상관관계분석은 연구하고자 하는 변수들간의 관련성을 분석하기 위해 사용한다. 즉, 한 변수가 다른 변수와의 관련성이 있는 지 여부와 관련성이 있다면 어느 정도의 관련성이 있는지를 알고자 할 때 이용하는 분석기법이다. 그리고 상관관계분석은 각각의 변수가 주로 연속형 데이터인 경우에 사용한다. 예를 들면, 소득액과 지출액간의 관련성 여부라든지, 응답자의 연간 자동차 주행거리와 연령과의 관련성 여부 등을 분석하고자 할 때 이용되는 분석 기법이다.
5. 요인분석(Factor Analysis)
요인분석은 일련의 관측된 변수에 근거하여 직접 관측할 수 없는 요인을 확인하기 위한 것이다. 예를 들면, 지역사회를 기술하기 위해서는 지역의 산업화의 정도, 경제활동, 이동성, 가계수입, 주택보유율, 출생율 등 수많은 변수를 사용하여야 한다. 요인분석은 수많은 변수들을 적은 수의 몇 가지 요인으로 묶어줌으로써 그 내용을 단순화하는 것이 그 목적이다.
6. 회귀분석(Regression Analysis)
다변량모집단에서는 모집단을 구성하는 변수들 간에 어떠한 관계가 있는가? 그리고 변수들 간의 인과관계가 존재한다면 이를 어떻게 함수로 표시하는 것이 합리적인가에 대한 문제를 주로 다루고 있다. 회귀분석은 변수들 중 하나를 종수변수로 나머지를 독립변수로 하여 이들 변수들이 서로 상관관계를 가질 때 독립변수가 변화함에 따라 종속변수가 어떻게 변화 하는가를 규명하는 통계기법이다. 회귀분석은 독립변수의 개수에 따라 단순회귀분석과 다중 회귀분석으로 구분할 수 있다.
7. T-test 분석
일반적으로 두 집단의 평균을 비교하는 분석방법에는 크게 Z-검정과 T-검정으로 구분되는 데 Z-검정은 모집단의 분산을 알고 있는 경우에 사용된다. 그러나 두 모집단의 분산을 알고 있는 경우는 드물기 때문에 보통 T-검정을 사용하게 된다. T-검정은 두 집단간의 평균의 차이가 통계적으로 유의한지를 파악할 때 이용하는 통계기법이다. 예를 들면 기업이 개발한 신제품의 인지도가 고소득층과 저소득층 간의 차이가 있는지를 알고자 할 때 T-검정 대신 대응표본 T-검정을 사용한다.
8. 분산분석(Analysis of Variance: ANOVA)
분산분석은 두 표본 이상의 평균치에 대한 차이를 검정하는 통계기법이다. 이 분산분석을 이용하여 표본들이 동일한 평균을 가진 모집단에서 추출된 것인지의 여부를 추론할 수 있다. 예를 들면, 분산분석의 이용은 통계학을 수강한 학생들의 점수[종속변수: 비율척도 또는 등간척도]에 대해 학년별[독립변수 : 명목척도]평균의 차이가 있는지를 살펴볼 수 있다. 그리고 이러한 차이가 통계적으로 유의한 것인지를 파악할 필요가 있는데 이같은 상황에서 두 집단 이상의 한 변수에 대한 평균의 차이를 검정하고자 할 때 이용한다.
9. 판별분석(Discriminants Analysis)
판별분석은 사회현상의 여러 특성들을 토대로하여 주어진 상황에서 응답자들이 어떻게 행동할 것인지를 예측하는 하나의 통계기법이다. 예를 들면 기업이 도산을 할 것인가? 그렇지 않을 것인가를 예측하는 일은 대단히 어렵다. 기업의 도산 가능성은 그 기업의 자산상태, 부채비율, 수익성, 유동성 등 여러 가지 변수들에 의하여 결정된다고 생각된다. 이러한 변수들을 이용하여 기업의 도산여부를 예측하려고 한다면 판별분석이 적합하다. 여기서 도산 여부를 나타내는 변수가 종속변수이다. 이 변수는 성질상 명목철도이다. 그리고 자산상태, 부채비율, 수익성, 유동성 등은 독립변수(연속형)에 해당되고 이를 판별변수라부른다.
10. 군집분석(Cluster Analysis)
어느 회사에서 시장을 세분화하려고 한다면 시장세분화의 여러 기준을 수립하여야 한다. 그리고 이를 기준에 따라 변수들을 결합하게 된다. 군집분산은 분류할 집단에 특정한 대상물을 배정하여 동일 집단의 대상물이 유사성을 갖게 함으로써 집단간의 차이를 명확하게 하는 군집분석이 이용된다. 군집분석은 모든 케이스에 대한 집단이 사전에 알려지지 않으며 집단의 수가 몇 개로 나누어질지도 알 수 없다. 군집분석의 목적은 동질적인 집단이나 군집을 분류하는 데 있다.
11. 다차원척도법(Multidimensional Scaling: MDS)
다차원척도법은 다차원 공간상에서 자극 좌표 또는 가중치를 유도하기 위하여 유클리디안 과 가중치 유클리디안 모형을 이용한다. 다차원척도법은 거리행렬상에서 분석되어지며 통계절차는 입력자료로써 기존의 거리행렬을 읽을 수 있으며 또는 원천 데이터로부터 거리행렬을 계산할 수도 있다. 다차원척도법은 응답자의 어떤 대상에 대한 응답자들의 지각과 선호도에 관계되는 태도를 조사하는데 사용될 수 있는 분석기법으로써 시장세분화, 제품수명주기, 판매업체평가, 광고매채 선택 등을 결정하는 데에 주로 이용되고 있다.
12. 컨조인트 분석(Conjoint Analysis)
(1) 용 도 제품의 속성별 그리고 각 속성의 level(수준)별로 소비자가 부여하는 효용값을 계산함으로서 최적의 제품을 개발하는데 이용됨
(2) 컨조인트 분석의 적용
<사례>
칫솔
① 솔의 강도(강한솔 – 부드러운 솔)
② 솔의 양(1.5cm – 2cm - 3cm)
③ 치솔대의 각도(수평형 – 5도의 경사 – 10도의 경사)
- 컨조인트 분석을 통해 획득되는 정보
▷ 가장 중요하게 생각하는 속성
▷ 세 속성의 상대적 중요도는 어떠한가?
▷ 가장 이상적인 제품의 구성
(3) 컨조인트분석의 진행과정
▶ 주요 제품속성의 선정
▶ 속성수준(attribute level)의 결정
▶ 가상적인 제품 구성과 선호도자료의 수집
출처 : http://contents.kocw.net/KOCW/document/2014/HankukForeign/JeongGapYeon1/13.pdf
출처 : http://www.researchrna.com/view.asp?seq=77&cpage=2&ForumId=4&No=8&mPW=1&fSearchType=-1&fSearchStr=-1
'Statistical Learning' 카테고리의 다른 글
[기초통계] t-statistic, p-value, F-statistic (1) | 2020.02.10 |
---|---|
[기초통계] 잔차와 오차 (0) | 2020.02.05 |
구조방정식(structural equation modeling, SEM) (0) | 2020.02.04 |
[기초통계] R-square (0) | 2020.02.04 |
[ISLR] Statistical Learning (0) | 2020.02.03 |