데이터과학 삼학년

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (424)

데이터과학 삼학년

Transfer Learning (universal-sentence-encoder-multilingual)

Tranfer learning은 NLP 관련 Task에서 제한적인 양의 training data 가 쓰이고 있기 때문에 실제 연구나 실무에서 고 성능의 NLP 연구를 위해 transfer learning을 쓸 수 있다. (특히 word embedding 과 같은 부분에서; word2vec, GloVe) 최근 연구(2017) 에서는 word 단위가 아닌 sentence 단위의 embedding이 성능이 더 높다는 것이 입증 되었음 entence embedding을 위한 2가지 모델을 제시하며, 이 모델들은 좋은 성능을 입증되었다. 이에 embedding layer는 다국어의 변형이 가능한 (16개 언어) universal sentece encoder multilingual 모델을 이용하여 transfer ..

Natural Language Processing 2020. 8. 10. 17:12

[유사도 분석] angular distance (vs cosine similarity)

유사도 분석에서 흔히들 말하는 cosine similarity가 있다.그러나 cosine similarity는 한계를 가지고 있어 이를 변형한 angular distance에 대해 소개하도록 하겠다. cosine similarity 문제점cosine similarity는 두 벡터간의 각도가 작으면 매우 비슷한 similarity를 갖는다는 것이다.the problem with the cosine similarity is that small angles have very similar cosines. (In the diagram further below, compare the curves near the top edge.) 위 그래프에서 사용된 함수는 아래와 같다. 위 그래프의 왼쪽에서 보면 consine..

Machine Learning 2020. 8. 6. 17:57

Universal Sentence Encoder (2018)

Universal Sentence Encoder (2018) 요약 encoding sentence를 embedding vector로 변환하는 model을 만듦 nlp task에 활용할 수 있도록 transfer learning으로 만듦 sentence 자체를 embedding 하는 개념이라 보면 됨 (word단위가 아님) model은 크게 2가지로 나눌 수 있음 Transformer Deep Averaging Network (DAN) 위 두 모델은 accuracy - compute resources에 대한 trade-off가 존재함 Accuracy (정확도) : Transformer > DAN Compute Resource (메모리 등 비용) : Transformer < DAN (DAN 이 더 좋음(유리..

Papers 2020. 8. 6. 16:26

LIME for Text

여기서 model은 layer에 text vectorization layer가 들어있어input 으로 raw 데이터인 text를 그대로 집어 넣어도 결과가 나온다. text를 따로 vector변환하여 모델에 넣는 것을 구성하였다면, 파이프라인을 만들어 전처리과정을 태우는 모델을 넣던지아니면 input data를 직접 벡터화하여 넣는 방안도 있다.두번째 안은 직접벡터화하면 plot에 벡터화된 숫자가 나올 것이므로 추천하지 않는다. In [ ]:!pip3 install lime In [ ]:!gsutil cp -r gs://exaple/model/20200729/KOR/text_classification_train_20200729_1596178422_KOR/keras_export/keyed_model/* ...

Explainable AI 2020. 8. 3. 19:32

LIME (Local Interpretable Model-agnostic Explanation)

LIME (Local Interpretable Model-agnostic Explanation) Global vs Local Surrogate Analysis Global Surrogate Analysis 학습 데이터(일부 또는 전체)를 사용해 대리 분석 모델을 구축하는 것 Local Surrogate Analysis학습 데이터 하나를 해석하는 과정 LIME 간략한 개념 및 소개 LIME : 국지적(local) 단위의 모델을 설명하는 기법 LIME은 개별 예측의 결과를 설명하기 위해 training local surrogate models에 초점을 맞춤 일반적인 intepretable 모델 처럼 모델의 가중치에 신경써서 모델을 해석하는 방법이 아니라 휴리스틱한 방법으로 Black box model에 in..

Explainable AI 2020. 8. 3. 17:07

아스키코드? 유니코드가 뭐지?

[퍼옴글] http://jsonobject.tistory.com/246 Java, 아스키코드(ASCII), 유니코드(Unicode), UTF-8 설명 아스키코드? 유니코드가 뭐지? 컴퓨터가 처음 발명되었을 때 표현 가능한 문자는 128개였다. 이를 ASCII 코드라고 한다. 영어 알파벳과 통화를 포함한 여러 기호를 표현할 수 있었기에 미국을 중심 jsonobject.tistory.com 아스키코드? 유니코드가 뭐지? 컴퓨터가 처음 발명되었을 때 표현 가능한 문자는 128개였다. 이를 ASCII 코드라고 한다. 영어 알파벳과 통화를 포함한 여러 기호를 표현할 수 있었기에 미국을 중심으로 한 영어권에서는 사용하는데 아무 문제가 없었다. 컴퓨터가 보다 대중화되면서 대부분의 서유럽 언어의 알파벳을 추가하여 25..

Computer Science 2020. 7. 31. 17:28

[TF 2.2] Text Vectorization Layer 적용된 모델의 예측 방법 (feat.GCP)

TextVectorizaion Layer 적용된 모델의 예측 방법 배경 및 현황 tf.keras에서 2.x 버전부터 experimental로 preprocessing layer를 제공해줌 text to vector의 layer 존재 확인(tf 2.2) from tensorflow.keras.layers.experimental.preprocessing import TextVectorization 이를 이용해 모델 Layer에 TextVectorization Layer가 있으면 input을 string 형태로 넣어도 된다는 장점이 있음 모델의 Layer에 Text Vectorization을 넣은 경우 문제점이 발견되어 문제점 / 원인 / 해결방안에 대해 본 보고서에 다루고자 함 문제점 학습 단계에서 Call..

Machine Learning 2020. 7. 27. 11:55

Bigquery ML

BigQuery ML 소개 BigQuery에서 SQL 쿼리를 사용하여 머신러닝 모델을 만들고 예측 BigQuery ML 지원 모델 Linear regression Binary logistic regression Multiclass logistic regression K-means clustering XG boost DNN Custom TensorFlow model importing MODEL_TYPE = { 'LINEAR_REG' | 'LOGISTIC_REG' | 'KMEANS' | 'BOOSTED_TREE_REGRESSOR' | 'BOOSTED_TREE_CLASSIFIER' | 'DNN_CLASSIFIER' | 'DNN_REGRESSOR' Importing TensorFlow models CREATE ..

GCP 2020. 7. 21. 18:20

Prev 1 ··· 28 29 30 31 32 33 34 ··· 53 Next

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터과학 삼학년

목록전체 글 (424)

데이터과학 삼학년

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역