일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- UDF
- gather_nd
- spark udf
- BigQuery
- hadoop
- 공분산
- GenericGBQException
- API
- chatGPT
- flask
- 상관관계
- subdag
- login crawling
- 유튜브 API
- correlation
- Retry
- youtube data
- tensorflow text
- GCP
- XAI
- TensorFlow
- requests
- Counterfactual Explanations
- airflow subdag
- top_k
- API Gateway
- integrated gradient
- grad-cam
- session 유지
- Airflow
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년
클래스로 데코레이터를 만드는 방법 클래스를 활용할 때는 인스턴스를 함수처럼 호출하게 해주는 __call__ 메서드를 이용하여 구현 class Trace: def __init__(self, func): # 호출할 함수를 인스턴스의 초깃값으로 받음 self.func = func # 호출할 함수를 속성 func에 저장 def __call__(self): print(self.func.__name__, '함수 시작') # __name__으로 함수 이름 출력 self.func() # 속성 func에 저장된 함수를 호출 print(self.func.__name__, '함수 끝') @Trace # @데코레이터 def hello(): print('hello') hello() # 함수를 그대로 호출 #====== hell..
요인 분석 (Factor Analysis) 이란? - 요인분석은 수많은 변수들 중에서 잠재된 몇 개의 변수(요인)을 찾아내는 것 예시) 학생들의 시험 성적 데이터를 예를 들어 생각해보자. 이 데이터가 수학, 과학, 영어, 중국어, 독어, 작곡, 연주 의 점수(0점-100점)으로 구성되어 있다고 하면, 수학, 과학은 상관관계가 있을 것이고 (수리계산능력) 영어, 중국어, 독어 가 상관관계가 있을 것이고 (외국어능력) 작곡, 연주 가 상관관계가 있을 것이다. (음악적능력, 음악적재능) (위의 가정이 좀 이상할 수 있지만, 그냥 그렇다고 받아들이자...) 즉, 원래 7개의 변수(과목)으로 구성되어있지만, (그냥 봐서는 잘 모르지만 상관관계를 따져보면) 내부적으로는 3개의 잠재변수 즉, [수리계산능력], [외국..
데커레이터가 여러개 있는 경우, 실행순서는 어떻게 될까? @데코레이터1 @데코레이터2 def 함수이름(): 코드 함수 위에 데커레이터를 여러 줄로 지정된 경우, 데커레이터가 실행되는 순서는 위에서 아래 순으로 실행! def decorator1(func): def wrapper(): print('decorator1') func() return wrapper def decorator2(func): def wrapper(): print('decorator2') func() return wrapper # 데코레이터를 여러 개 지정 @decorator1 @decorator2 def hello(): print('hello') hello() #========= decorator1 decorator2 hello 출처 ..

Bigquery Procedure 소개 Bigquery procedure 는 쿼리문을 함수의 형태로 만들어, parameter 입력을 통해 쿼리문의 재사용성을 높이는 개념이다. 코드 공통화가 있다면, 쿼리 공통화라고 생각해도 좋지 않을까. Bigquery Procedure Bigquery 내에서 함수의 개념처럼 쿼리문 자체를 parameter를 받아 쿼리를 날리는 개념 UDF function과는 다름 UDF function : 쿼리 내에서 SUM, MAX 등과 같은 기능 함수를 유저가 정의해서 사용하는 개념 Bigquery procedure : CALL dataset.GetEmployeeHierarchy(target_employee_id, employee_hierarchy); 미리 정의한 쿼리문을 파라미..
젠킨스는 빌드 스케쥴을 설정할 때 crontab 문법에 기반하여 스케쥴 가능하다. 젠킨스 내에서 여러개의 잡을 돌린다면 스케쥴을 자동으로 조절해 로드 밸런싱을 할 수 있는 방법이 있다. 주기적으로 스케쥴되는 태스크를 지정하기 위해서는 'H' 심볼을 사용해서 부하를 줄인다. (랜덤한 값 부여하여 실행) 1. 매시각 정각에 빌드 0 * * * * > 이렇게 지정하면 1시 정각, 2시 정각, ... 으로 실행 2. 1시간 간격으로 빌드를 하려면 아래와 같이 하면 된다. H * * * * > 가령 1시 42분, 2시 42분, ...과 같이 실행 '분'이 랜덤하게 지정되어 실행! 두가지 방법 0 * * * *과 H * * * *의 차이점은 무엇일까? 0 * * * *로 스케쥴을 지정한 Job이 많은 경우, 모든 ..

샘플링이란, 모집단의 데이터에서 최대한 모집단과 유사한 일부 데이터를 추출하는 과정이다. 데이터 샘플링 방법은 크게 확률적 샘플링, 비확률적 샘플링으로 구분할 수 있다. 확률적 샘플링 : 무작위 샘플링 1. 단순 샘플링 (Simple Random Sampling) - 모집단에서 단순 무작위로 샘플을 추출하는 방법 (각 데이터가 뽑힐 확률이 동일) 2. 층화 샘플링 (Stratified Random Sampling) - 모집단을 몇 개의 그룹으로 나누어 각 그룹에서 무작위로 n개씩 추출하는 방법 ex) 행정구역으로 나눠 각 행정구역에서 표본 추출 3. 계통 샘플링 (Systematic Sampling) - 모집단에 있는 데이터들에게 1~n개의 번호를 임의로 매긴 다음, 일정 간격마다 데이터를 추출하는 방법..

Levenshtein Distance - 두 개의 문자열 A, B가 주어졌을 때 두 문자열이 얼마나 유사한 지를 알아낼 수 있는 알고리즘 - 문자열 A가 문자열 B와 같아지기 위해서는 몇 번의 연산을 진행해야 하는 지 계산할 수 있음 > 연산이란, 삽입(Insertion), 삭제(Deletion), 대체(Replacement)를 말합니다. 예시 1. 문자열 A가 ‘대표자’ 라는 뜻을 가진 ‘delegate’ 라고 가정하고 문자열 B는 ‘삭제’ 라는 뜻을 가진 ‘delete’ 라고 가정합니다. - 문자열 A에서 5번 째 문자 g와 6번 째의 문자 a가 삭제되면 문자열 B가 동일해집니다. 즉, 여기서의 연산 횟수는 2가 되는 것이지요. 2. 문자열 A가 ‘과정’ 을 뜻하는 ‘process’ 라고 가정하고 문..

Mahalanobis Distance - 마할노비스 거리는 다변량 공간에서 2 points 사이의 거리를 의미한다. - 더 정확히 말하자면 두 변수간의 상관관계까지 고려한 distance를 의미함 > 여기서, u는 각 데이터(raw), v는 각 데이터의 평균을 의미한다 > 예를 들어, 다변량 키, 몸무게가 있다면 u = (키1,몸무게1) v = (키 평균, 몸무게 평균) 식에서 알 수 있듯이 공분산 매트릭스를 이용하여 거리를 재는 개념이므로, 다변량 (예, 키,몸무게) 간에 독립이라면 마할노비스 거리는 유클리디안 거리와 동일하다. - MCD 기반 Mahalanobis 거리는 내부 검은 색 점에 훨씬 더 잘 맞는 반면 MLE 기반 거리는 특이 치 빨간색 점의 영향을 더 많이 받는 것을 아래 그림에서 확인할..