일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Counterfactual Explanations
- grad-cam
- 공분산
- integrated gradient
- tensorflow text
- UDF
- correlation
- GenericGBQException
- Airflow
- TensorFlow
- session 유지
- airflow subdag
- XAI
- login crawling
- chatGPT
- 유튜브 API
- gather_nd
- GCP
- flask
- 상관관계
- Retry
- spark udf
- BigQuery
- top_k
- requests
- API
- subdag
- hadoop
- youtube data
- API Gateway
- Today
- Total
데이터과학 삼학년
Fact Table / Dimension Table 본문
데이터를 다루는 부서에 가면 데이터 웨어하우스, 데이터 레이크, 데이터 마트, 스키마, 팩트 테이블, 디멘션 테이블 등 뭔가 같은듯 다른 여러 용어들을 사용한다.
이런 데이터 설계 디자인에 대한 부분을 배웠긴 했지만, 다 잊은 상태에서 실무에서 통용되는 용어들이 오고 가면 더욱 혼란스러워지고...그럴수록 자괴감만...ㅠㅠ
아무튼 오늘은 Fact Table, Dimension Table을 정리해 본다.
Fact Table
- 한국말로 사실 테이블? --> 즉 정량적인 실제값들이 들어오는 테이블이라고 생각해 볼 수도 있음
- 간단하게 여러 테이블들의 primary keys를 가지고 있는 테이블이라고 생각해보자
- 상점명/위치/상품명 등 뭔가 중요한 정보들을 column으로 가지고 있지만 너무 세부적인 정보는 담고 있지 않은 테이블 같다.
- 그래서 인지 row가 짧고 column이 많은 테이블이지 않을까?
Dimension Table
- Dimenstion Table은 Fact Table의 컬럼별 세부적인 정보를 담고 있는 테이블이라고 볼 수 있다.
- 예를 들면 상품별 상품에 대한 세부정보(브랜드, 카테고리, 제조년월 등) 정보를 갖는 테이블이다.
- 그렇기 때문에 여러 dimension table이 Fact table과 연결되어 구성된다. (star schema, snowflake schema 같은 형태로)
- 다양한 정보를 담아야하기 때문에 row가 긴 테이블인 것 같다.
Star Schema
- fact table을 중심으로 방사형으로 dimension table이 위치한 형태
Snowflake Schema
- 데이터의 중복을 없애기 위해 여러 테이블이 유기적으로 foreigner key로 여기저기 얽혀있는 형태
참조
https://www.guru99.com/star-snowflake-data-warehousing.html
https://stackoverflow.com/questions/20036905/difference-between-fact-table-and-dimension-table
'Data Visualization & DataBase' 카테고리의 다른 글
[DB] overwrite VS upsert (0) | 2022.12.06 |
---|---|
[DB] JOIN condition에 OR 포함? (0) | 2022.11.26 |
효율적이고 쉬운 시각화 ipython interact + plotly (px) (0) | 2020.11.17 |
Plotly 활용한 covid-19 데이터 시각화 (0) | 2020.06.19 |
Folium 지리 정보 시각화 tool (0) | 2020.06.17 |