일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- subdag
- GenericGBQException
- XAI
- top_k
- TensorFlow
- 공분산
- spark udf
- gather_nd
- tensorflow text
- Counterfactual Explanations
- Retry
- UDF
- BigQuery
- grad-cam
- correlation
- 유튜브 API
- 상관관계
- session 유지
- API
- chatGPT
- login crawling
- youtube data
- airflow subdag
- requests
- Airflow
- integrated gradient
- hadoop
- flask
- GCP
- API Gateway
- Today
- Total
목록Natural Language Processing (31)
데이터과학 삼학년
- huggingface에서 모델을 임포트하여 TF로 사용하려 할때!! ㄴ 파이토치 가중치만 존재하는 모델이 있다. - 이때 tf에서 사용할 수 있는 방법은!!!! 존재한다. 바로... ㄴ from_pt=True from transfomers import TFAutoModel model_ckt = 'distilbert-base-uncased' tf_model = TFAutoModel.from_pretrained(model_ckt) ## 파이토치 가중치만 있는 모델 model_ckt_torch = 'xlm-roberta-base' tf_xlmr = TFAutoModel.from_pretrained(model_ckt_torch, from_pt=True) -> 자동으로 파이토치 가중치를 다운로드해 변환
자연어 처리 모델로 요즘 허깅페이스에서 pretrained model 많이 쓰는데.. 모델중 -uncased, -cased 라는 명이 있다! 이것이 무엇을 의미하는 것일까?! cased - 텍스트 전처리 과정에서 별도의 처리를 하지 않고 문자 그대로 내놓는것 uncased - 텍스트 전처리 과정에서 소문자 변환, 강조변환을 없애는 등 어느정도 데이터를 정제한 것 # BERT uncased OpènGènus -> opengenus OpenGenus -> opengenus # BERT cased OpènGènus OpenGenus 참조 BERT cased vs BERT uncased We have explored the difference between BERT cased and BERT uncased. B..
로그인이 필요한 웹사이트를 크롤링하려면, 먼저 로그인이 되어 있는 세션을 유지해야 함!! 파이썬 requests를 이용한 로그인 후 크롤링 방법 1. requests 모듈 설치 크롤링을 하기 위해서는 requests 모듈을 사용 pip install requests 2. 로그인 정보 확인 웹 사이트에 로그인하기 위해서는 로그인 정보를 확인해야 함 로그인 정보는 일반적으로 사용자 이름과 비밀번호임 3. 세션 유지 세션을 유지하기 위해 requests 모듈의 Session 클래스를 사용 Session 클래스는 HTTP 요청을 유지하면서 쿠키와 같은 데이터를 저장할 수 있음 4. 로그인 요청 세션을 만든 후, 로그인을 요청합니다. 로그인 요청은 POST 요청으로 이루어짐 사용자 이름과 비밀번호를 포함한 데이터..
점별 상호 정보량 (Poinstwise Mutual Information) - NLP에서 각 단어간 상관성을 확인하기위한 단위로 쓸 수 있는 개념 - 두 확률변수 사이의 상관성을 계량화하는 단위 - 두 확률 변수가 완전한 독립, 예를 들면 단어 A의 등장이 단어 B에 등장에 전혀 영향을 주지 않는 경우에 PMI값은 0이 됨 - 해당 수치는 두단어가 얼마나 자주 같이 등장하는지에 관한 정보를 수치화한 개념 - PMI 수치는 음수로 나올 수 있다. log(0)는 -inf 이기 때문 따라서 negative PMI를 핸들링하기 위해 아래식 처럼 capping해 줄 수 있음 - PMI를 구할때 주의할 점은 stopwords를 삭제할 필요가 있다는 것!!! from nltk.collocations import Bi..
selenium은 브라우저를 직접 띄워 크롤링을 하는 도구이다. 즉, 브라우저를 띄우고, 브라우저가 온전히 다 로딩된 이후에 크롤링을 해야 내가 원하는 정보를 긁어올 수있다. implicitly Wait과 Explicitly Wait은 웹이 완전히 로딩될때까지 기다리는 도구이다. 단순히, 일정 n초를 기다리려면 sleep을 이용해서 기다릴 수 있지만, 일정 시간을 무조건 기다려야한다는 점에서 비효율적이라 위의 selenium에서 제공하는 wait를 사용한다. implicitly Wait VS Explicitly Wait - 보통 셀레니움을 이용해 웹 정보를 가져오는 것은 아래와 같음 - driver.get(‘https://pythondocs.net’) -> 파이썬은 셀레니움에 요청 -> 셀레니움은 브라우..
웹크롤링 중에 request를 써서 html을 불러왔는데 간혹 내가 수집하려는 데이터가 없는 경우가 있다? 이럴 경우, 당황하지말자. 그것이 requests의 한계 requests - 웹페이지의 상태를 가져오는 것으로 초기 html소스만 가져오기 때문에 온전히 웹페이지상의 모든 정보를 가져오는 것은 아님 - 즉, 크롤링하려고 한 대상이 일부 수집이 안되는 케이스 발생 가능 - 처리 속도가 빠름 selenium - 실제 web driver를 이용해 web page를 열어 데이터를 수집하는 형태로, 초기 html뿐만 아니라 페이지를 render하기위해 사용된 html source까지 모두 가져올 수 있는 장점이 있음그러나, 느림 위 두개 module의 차이는 사이트에서 동적으로 생성시킨 rendering/j..
Rouge Score - Recall-Oriented Understudy for Gisting Evaluation - n-gram기법을 이용해 label(사람이 만든 요약문)과 summary(모델이 생성한 inference)을 비교해서 얼마나 겹치는지 확인하여 수치로 나타냄, 즉, 요약모델의 성능 평가 척도의 개념 - 종류 : ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S 등 Rouge Recall Precision (ROUGE-N) Recall - label을 구성하는 단어 중 몇개가 inference(예측결과)와 겹치는가? -> 우선적으로 필요한 정보들이 다 담겨있는지 체크 >> ROUGE-N : N-gram을 기준으로 겹치는 set을 확인 Precision - inference(예측..
TextRank for Text Summarization - extractive approach and is an unsupervised graph-based text summarization technique. Summarization 방법 1. Extractive - document내에서 가장 영향력이 큰 문장n개를 추출하여 요약을 구성 - 별도로 label된 summary dataset(ground truth)가 없어도 가능 - TextRank, LexRank 등 - ex) summary = 문장1, 문장2, 문장3 2. Abstractive - 전체 문장에 대해 미리 label된 summary문을 가진 데이터를 이용해 seq-seq model로 추출 - attention mechanism, gnn..