데이터과학 삼학년

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (424)

데이터과학 삼학년

[Tensorflow] tf.model prediction을 외부에서 child 프로세스로 만들어 멀티 프로세싱 적용이 어려운 이유

Tensorflow에서 구성한 model을 prediction을 multiprocessing 단계에 포함하고 싶다면. 예를 들어, tf 모델을 해석하기위해 LIME을 이용했다고 하자. LIME은 local surrogate로 각 row에 대한 모델의 결과를 해석하려면, 결국 row별로 lime에 태우는 방법밖에 없다. (lime 내에서 batch 기능 없는 것으로 확인) 즉, for문을 돌려야한다는 소리인데... 이럴 경우 데이터가 많아지면, 수행속도가 선형적으로 증가하게 된다. 이를 회피하기위해 multiprocessing을 씌웠더니...무한 hang이 걸리네?.,,, def multiprocessing_dnn_lime(data): attributed_features = [] data = data.re..

Machine Learning 2021. 12. 15. 19:37

youtube Data API를 이용해 유튜브 댓글(라이브방송 포함) 수집

유튜브 Data API Youtube Data API(v3) 유튜브와 관련된 기본적인 API로, 동영상을 업로드하거나 재생목록을 관리하는 등의 가장 기본적인 기능 제공 Youtube Analytics API 유튜브의 동영상 및 채널에 대한 시청 통계, 인기도 통계 등 검색, 동영상 수익 관련 정보 Youtube Live Streaming API 1. 유튜브 영상 정보 수집 youtube data api 에서 api key를 발급받아 사용 가능 pafy 라이브러리 사용 dislike count로 인해 keyerror 발생 package파일에 직접 들어가서 해당부분 주석 처리 title, author, published, likes, category, description, keywords, viewcoun..

GCP 2021. 12. 9. 20:13

파이썬 패키지 개념 (feat. 코딩도장)

모듈은 스크립트 파일이 한 개지만 패키지는 폴더(디렉터리)로 구성 ▼ 그림 45-5 패키지 폴더 구성 먼저 프로젝트 폴더(C:\project) 안에 calcpkg 폴더를 만듭니다. 그리고 다음 내용을 calcpkg 폴더 안에 __init__.py 파일로 저장하세요. calcpkg/__init__.py # __init__.py 파일은 내용을 비워 둘 수 있음 폴더(디렉터리) 안에 __init__.py 파일이 있으면 해당 폴더는 패키지로 인식됩니다. 그리고 기본적으로 __init__.py 파일의 내용은 비워 둘 수 있습니다(파이썬 3.3 이상부터는 __init__.py 파일이 없어도 패키지로 인식됩니다. 하지만 하위 버전에도 호환되도록 __init__.py 파일을 작성하는 것을 권장합니다). 45.3.1 패..

Python 2021. 11. 15. 19:59

드롭아웃(dropout), 몬테 카를로 드롭아웃(Monte Carlo dropout)

드롭아웃(dropout) 드롭아웃 : 심층 신경망에서 가장 인기있는 규제 기법 중 하나 (2012년 제프리 힌턴이 제안) - 매 훈련 스텝에서 각 뉴런은 임시적으로 드롭아웃될 확률 p를 가짐 (인풋 뉴런 포함, 아웃풋 뉴런 제외) - 훈련이 끝난 후 예측 과정에서는 드롭아웃을 적용하지 않음 - 드롭아웃을 이용해서 모델의 정확도를 2~3% 더 올렸다는 연구는 매우 흥미로움 > 예를 들면 어떤 회사 직원들이 출근할지 말지를 동전던지로 결정했을때 회사가 운영이 더 잘된다는 말로 볼 수 있음 > 다만, 주변 동료들과 협력하며, 어떤 특정한 중요 업무도 한사람(뉴런)에게 전적으로 의지하지 않음을 의미 > 즉, 전체적으로 보았을때 더 안정적인 네트워크가 되어 일반화 성능이 좋아짐 주의할점 > p=50%로 설정되었을..

Machine Learning 2021. 11. 15. 19:53

Bigquery ML Explainable AI (XAI)

Bigquery ML에서 모델을 create하고, 모델을 이용해 예측을 할때, 단순히 predict 뿐만 아니라 explain_predict를 이용하여 모델의 결과를 설명할 수 있는 여러 요소를 조회할 수 있다. 이를 통해 간단한 쿼리만으로 모델의 학습과 예측결과, 그리고 예측 결과에 대한 설명자료까지 확인이 가능하다. 아래 표는 모델별 explainability method를 무엇을 썼는지 나타내 준다. 일반적인 통계기반의 ML은 coefficient를 기준으로 모델을 설명한다. Local vs. Global Explainability Explainability encompasses two types: local and global explainability. These are also known re..

GCP 2021. 11. 10. 20:38

에라토스테네스의 체 (소수 구하기)

1과 자기 자신을 약수로 갖는 수를 소수(prime number)라고 한다. prime 넘버를 쉽게 구하기위해 에라토스테네스라는 수학자의 소수구하는 방법을 확인해볼 필요가 있다. https://ko.wikipedia.org/wiki/%EC%97%90%EB%9D%BC%ED%86%A0%EC%8A%A4%ED%85%8C%EB%84%A4%EC%8A%A4%EC%9D%98_%EC%B2%B4 에라토스테네스의 체 - 위키백과, 우리 모두의 백과사전 수학에서 에라토스테네스의 체는 소수를 찾는 방법이다. 고대 그리스 수학자 에라토스테네스가 발견하였다. 알고리즘[편집] 2부터 소수를 구하고자 하는 구간의 모든 수를 나열한다. 그림에서 ko.wikipedia.org def prime_list(n): sieve = [True] ..

Python 2021. 10. 20. 20:12

리스트 정렬 (multiple key를 이용한 정렬)

파이썬 리스트에서 멀티플한 key로 정렬하는 방법에 대해 알아본다 lambda를 이용해 여러 키를 tuple로 받게 해주면 된다. 즉, tuple의 순서에 따라 순서대로 정렬 된다. s = [ [12, 'tall', 'blue', 1], [2, 'short', 'red', 9], [4, 'tall', 'blue', 13] ] #1번 인덱스 오름차순, 0번 인덱스로 오름차순 정렬 s = sorted(s, key = lambda x: (x[1], x[3])) print(s) [ [2, 'short', 'red', 9], [12, 'tall', 'blue', 1], [4, 'tall', 'blue', 13] ] #1번 인덱스 오름차순, 3번 인덱스로 내림차순 정렬 s = sorted(s, key = lambd..

Python 2021. 9. 22. 20:52

First-class function (일급함수)

파이썬은 모든것을 객체화할 수 있는 언어이다. 즉, 함수(method) 자체도 하나의 객체로, 인자로 받을 수 있다. First-class function : 함수 자체를 인자로 다른 함수에 전달, 다른 함수의 결과값 리턴, 함수를 변수자체로 할당할 수 있음 def add_one(n): return n+1 func = add_one func(1) #=== 2 def calc_sq(digit): return digit ** 2 def calc_cb(digit): return digit ** 3 def func_calc(function, digit_lst): result = [] for i in digit_lst: result.append(function(i)) return result func_calc(c..

Python 2021. 9. 15. 18:31

Prev 1 ··· 16 17 18 19 20 21 22 ··· 53 Next

목록전체 글 (424)

데이터과학 삼학년

티스토리툴바