일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- tensorflow text
- GCP
- flask
- UDF
- integrated gradient
- Retry
- requests
- TensorFlow
- 공분산
- 상관관계
- login crawling
- top_k
- API Gateway
- API
- gather_nd
- GenericGBQException
- grad-cam
- BigQuery
- subdag
- Airflow
- hadoop
- session 유지
- chatGPT
- spark udf
- 유튜브 API
- correlation
- airflow subdag
- Counterfactual Explanations
- youtube data
- XAI
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년
selenium은 브라우저를 직접 띄워 크롤링을 하는 도구이다. 즉, 브라우저를 띄우고, 브라우저가 온전히 다 로딩된 이후에 크롤링을 해야 내가 원하는 정보를 긁어올 수있다. implicitly Wait과 Explicitly Wait은 웹이 완전히 로딩될때까지 기다리는 도구이다. 단순히, 일정 n초를 기다리려면 sleep을 이용해서 기다릴 수 있지만, 일정 시간을 무조건 기다려야한다는 점에서 비효율적이라 위의 selenium에서 제공하는 wait를 사용한다. implicitly Wait VS Explicitly Wait - 보통 셀레니움을 이용해 웹 정보를 가져오는 것은 아래와 같음 - driver.get(‘https://pythondocs.net’) -> 파이썬은 셀레니움에 요청 -> 셀레니움은 브라우..

PDP(Partial Dependence Plot) - model agnostic한 XAI기법으로 모델에 상관없이 적용할 수 있는 방법 - ‘partial’ 회귀 계수, 확인하고자하는 해당 변수를 한 단위(1-unit) 증가시킬 때 변화하는 y(target)의 크기를 통해 해석하는 방법과 같이 관심있는 특정 입력변수를 제외한 다른 입력변수들의 값은 고정시킨 상태(상수 취급)에서 관심있는 입력변수의 값을 변화시키며(변수 취급) 예측값을 계산한 후, 그 값들의 평균을 내는 방식 - 관심있는 입력변수의 값을 변화시키는 범위는 해당 변수의 최솟값과 최댓값 사이로 하고, 보통 일정 간격으로 그리드를 만들어 사용 - 입력변수 값의 그리드를 x축에 표시하고, 이 값을 넣어 계산된 편의존성 값을 y축에 표시하여 PDP..

웹크롤링 중에 request를 써서 html을 불러왔는데 간혹 내가 수집하려는 데이터가 없는 경우가 있다? 이럴 경우, 당황하지말자. 그것이 requests의 한계 requests - 웹페이지의 상태를 가져오는 것으로 초기 html소스만 가져오기 때문에 온전히 웹페이지상의 모든 정보를 가져오는 것은 아님 - 즉, 크롤링하려고 한 대상이 일부 수집이 안되는 케이스 발생 가능 - 처리 속도가 빠름 selenium - 실제 web driver를 이용해 web page를 열어 데이터를 수집하는 형태로, 초기 html뿐만 아니라 페이지를 render하기위해 사용된 html source까지 모두 가져올 수 있는 장점이 있음그러나, 느림 위 두개 module의 차이는 사이트에서 동적으로 생성시킨 rendering/j..

선형회귀 분석을 사용하기 위해서는 4가지 가정을 충족해야 사용이 적절하다고 할 수 있음 선형성/독립성/등분산성/정규성 (1) 선형성 : 독립변수와 종속변수 사이에는 선형적인 관계를 띄어야 한다. (2) 독립성 : 여러 변수들 간의 상관관계가 없이 독립이어야 한다. (다중공선성이 없어야함) (3) 등분산성 : 잔차의 분산은 입력변수와 무관하게 일정해야 한다. (4) 정규성 : 잔차가 평균이 0인 정규분포를 가진다. 1. 선형성(Linearity) 선형성이란, 독립변수와 종속변수 간에 선형적인 관계를 가지는 성질 종속변수(y)와 독립변수(x) 간에 직선의 형태를 띤 관계가 있을 것이라고 가정하고 거기에 선형의 추정 모형을 적합시키는 방법이기 때문에 y와 x간에 선형인 관계가 없다면 아무런 의미 없는 분석 ..

PU Learning : Positive-Unlabeled Learning 개요 - 일반적으로 이진분류문제에서 도전적인 것은 아마 negotive label data를 가지고 있지 않는 문제임 - 이러한 이슈는 주로 imbalanced dataset에 대한 해결과제에서도 동반되는 문제임 - 단순히 unknown set을 sampling해서 처리하기도 하지만, 이러한 방법은 unknownset에 대한 오염이 발생하고, classifier 모델도 제대로 학습되지 않는 문제가 발생함 PU Learning - 기계학습은 학습데이터(방법)에 따라 supervised, unsupervised, semi-supervised로 나눌 수 있음 - supervised learning은 PN learning 이라고도 불리며..

Graph Neural Network - NN에서 Input의 형태가 그래프일때 사용하는 Neural Network - Fully-connected network, CNN (Convolutional Neural network), RNN (Recurrent Neural network)의 경우 보통벡터나 행렬 형태로 input이 주어짐 - GNN의 경우에는 input이 그래프 구조라는 특징이 있음 (ex. 영상에서의 graph, 분자구조 graph, Social graph ...) Graph를 Neural Network에 태워서 뭘 하려 하는가? 1. Node classification - 어떠한 노드가 어떤 그룹으로 묶일 것인가 (클러스터링) 2. Link prediction - 노드와 노드가 친구가 될 ..

Rouge Score - Recall-Oriented Understudy for Gisting Evaluation - n-gram기법을 이용해 label(사람이 만든 요약문)과 summary(모델이 생성한 inference)을 비교해서 얼마나 겹치는지 확인하여 수치로 나타냄, 즉, 요약모델의 성능 평가 척도의 개념 - 종류 : ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S 등 Rouge Recall Precision (ROUGE-N) Recall - label을 구성하는 단어 중 몇개가 inference(예측결과)와 겹치는가? -> 우선적으로 필요한 정보들이 다 담겨있는지 체크 >> ROUGE-N : N-gram을 기준으로 겹치는 set을 확인 Precision - inference(예측..

Heterogeneous Graph Neural Networks for Extractive Document Summarization Abstract - cross-sentence realtion를 학습하는 것이 document summarization을 추출하는 주요 방법 - 그중 직관적인 방법은 graph based neural network에 넣어 inter sentence의 관계를 찾아내는 것임 - 논문에서 제안한 모델은 크게 graph initializer, heterogeneous graph layer, sentence selector 로 구성된 모델 - single document, multi document summarization이 모두 가능한 모델로, 공개 데이터셋을 가지고 bert를 제..