'2024/03 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2024/03 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록2024/03 (4)

데이터과학 삼학년

[GitHub] GitHub에서 Pull Request(PR) 템플릿 사용

- GitHub에서 Pull Request를 생성할 때 템플릿을 사용하면 효과적으로 커뮤니케이션을 할 수 있고, 프로젝트의 품질을 높일 수 있다. 간단한 template 파일을 만들어 놓으면 PR 요청시 해당 template이 자동으로 로드되어 아주...편하게(?) 사용하는 방법을 공유한다! 1. PR 템플릿 생성 - 프로젝트 루트 디렉토리에 .github 디렉토리를 만들고, 그 안에 PULL_REQUEST_TEMPLATE.md 파일을 생성 - 여기에 PR 템플릿 파일들을 추가할 수 있음 (여러개의 template 파일 선택 가능) 2. 템플릿 파일 작성 - PR을 오픈할 때 보여줄 템플릿을 작성 - Markdown 형식으로 작성하며, 필요에 따라 다양한 섹션을 추가 가능 - 예를 들어, 아래와 같은 템..

DevOps 2024. 3. 11. 12:00

[tensorflow in spark] spark를 이용해 tf model을 분산 처리?!

tensorflow 모델을 spark 분산환경을 위해서 inference하는 방법 - spark udf (pandas udf)를 활용해서 각 worker node에 inference 코드를 전달!! 방안1) driver에서 모델을 로드해서 pandas udf에 모델을 주는 방법 - 이 방법은 pickling error가 나옴 - 이유는 driver에서 worker node에 udf를 이용해 파일/데이터를 전달할때 pickle화 시키는 것으로 보임 -> pickle화 시키는 과정에서 tensorflow model을 pickling하지 못해서 나오는 이슈로 보임 - 아래 코드는 error가 나올 것 : PicklingError: Can't pickle... # 데이터 생성 data = [("row1", 1...

Machine Learning 2024. 3. 8. 14:54

[sklearn in spark] spark분산환경을 이용한 모델 예측

sklearn 모델을 spark 환경에서 분산 인퍼런스하기!!! - pandas udf를 활용 : spark 드라이버가 각 worker에게 모델을 전달하고, 각 worker는 해당 모델을 이용해 pandas udf에서 spark dataframe을 pandas dataframe으로 변환해 예측하고 이를 다시 spark dataframe형태로 리턴 코드예시 from pyspark.sql.functions import col from sklearn.linear_model import LinearRegression # 데이터 생성 data = [("row1", 1.0, 2.0, 3.0), ("row2", 4.0, 5.0, 6.0)] columns = ["id", "feature1", "feature2", "f..

Machine Learning 2024. 3. 7. 12:00

데이터 임베딩 최적의 차원 결정 (How to determine the embedding size?)

데이터 임베딩의 최적 차원 결정 머신러닝에서 범주형 변수를 다룰 때 적절한 임베딩 차원을 선택하는 것은 매우 중요 'min(50, num_categories/2)'이라는 흔한 규칙이 있지만, 100개까지의 범주에 대해서만 적용되며, 100개를 넘어가면 어떻게 해야 할까요? 이제 최적 임베딩 차원을 결정하기 위한 데이터 기반 방식을 살펴보겠다! 1000개 이하의 범주에 대한 제안 1000개 이하의 num_categories에 대해 제안되는 공식은 num_embeddings = min(500, num_categories/2) - 이 제안은 특정 차원에서 무작위 분포된 N 벡터의 직교성을 확인하기 위한 것 - 벡터를 정규화하고 점곱을 계산하여 평균과 표준 편차를 관찰 가능 - 아래 그래프에서 볼 수 있듯이, ..

카테고리 없음 2024. 3. 4. 12:00

Prev 1 Next

목록2024/03 (4)

데이터과학 삼학년

티스토리툴바