일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Counterfactual Explanations
- hadoop
- subdag
- 상관관계
- chatGPT
- tensorflow text
- BigQuery
- correlation
- GenericGBQException
- gather_nd
- flask
- GCP
- grad-cam
- 공분산
- airflow subdag
- TensorFlow
- top_k
- API Gateway
- Retry
- Airflow
- requests
- XAI
- integrated gradient
- youtube data
- session 유지
- API
- spark udf
- 유튜브 API
- login crawling
- UDF
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년

if (kakao) 2020 카카오 주니어 개발자의 하루 아침밥...제공… 점심후 커피내기 가위바위보 팀원간 계속적인 커뮤니케이션 현재 직면해 있는 문제 공유 어떤식으로 문제를 풀지 논의 전체적인 로직 설계와 논의를 통해 예상 문제 도출 및 해결방안 제시 무작정 개발을 시작하는 것이 아니라 어떤 방향으로 갈지 큰 그림을 그림 중간마다 코드리뷰 스터디 활성화 카카오 픽코마 추천 시스템 카카오 일본에서 만화 플랫폼 추천 시스템 12시간 마다 1번씩 팝업에 노출 추천 겸 팝업 노출로 반응하는 유저의 행동 로그 축적 추천 방법 고민 개인화 추천 vs 연관 추천 개인화 추천 (취향) 개별 유저의 취향을 고려한 추천 유저에 따라 달라지는 추천 결과 연관 추천 (맥락) 현재 보고 있는 아이템과 연관성이 높은 아이템 ..

큰 수의 법칙 vs 중심극한의 정리 > 표본의 크기를 크게 하냐?! --> 큰 수의 법칙 > 표본의 갯수를 많이 뽑냐?! --> 중심 극한의 정리 큰 수의 법칙 (Law of Large Numbers) - 표본집단들의 평균과 분산에 대한 법칙 - 어떤 모집단에서 표본집단들을 추출할 때, 각 표본집단의 크기가 커지면 그 표본집단들의 평균은 모집단의 평균과 같아지고, 표본집단들의 분산은 0에 가까워 진다. >> 한번 측정해서 평균을 구한 결과보다 여러번 시행해서 낸 평균값이 더 정확하다. 중심극한의 정리(Central limit theorem) - 표본집단들의 평균이 갖는 분포에 대한 법칙 - 그 어떠한 모양의 임의의 분포에서 추출한 표본집단들의 평균(표본평균)의 분포는 정규분포를 이룬다. (심지어 모집단이..

일별, 데이터별 box plot을 확인하는 좋은 방법!!! 콤보박스를 이용해서 보기 원하는 데이터만 볼 수 있도록 ipython widget의 interact를 사용하고 데이터의 정확한 수치를 figure 상 표현하기위해 plotly 를 이용한다! from ipywidgets import interact import cufflinks as cf cf.go_offline(connected=True) import plotly.express as px def box_plot_ly(job_date, feature): fig = px.box(temp_df[temp_df.job_date ==job_date], y=feature, color="speed") fig.show() interact(box_plot_ly,j..

젠킨스 파이프라인 관리 개요 젠킨스 파이프라인 코드 관리를 위한 방법 현황 젠킨스 파이프라인은 pipeline script를 통해 사용하고 있음 이렇게 사용하면 작은 창에 긴 pipeline을 쓰기 매우 불편 파이프라인 설정 방법은 직접 script 작성 외 SCM (Source Code Management)으로 부터 파이프라인을 불러와 실행 시킬 수 있음 적용 방법 1. pipeline script를 파일로 저장 Git 과 (apache) Subversion 지원 2. git에 기존 pipeline을 아래와 같이 저장 (.groovy, Jenkisfile 등) - Jenkisfile 예시 node { try{ timeout(time:15, unit:'MINUTES') { stage('Code') { r..

1. Outliers. response Y에 대한 outlier가 존재하면 모형 자체에 큰 영향을 주지는 못하지만 모델의 평가부분에서는 영향을 줄 수 있다는 개념이다. > 실제 y 값이 추정된 y(hat) 값에 영향을 미치는 개념 response Y에 아웃라이어가 있으면 당장 추정되는 모델에 대해 큰변화를 주지는 않지만 RSE나 R2 와 같은 평가척도는 낮게 나올 수 있어, 올바른 모델임에도 해석이 좋지 않게 나올 수 있다. 2. High-leverage points. predictor X에 outlier가 있을 경우의 예를 말하는데, 이 부분은 매우 신중해야한다. 왜냐면 X의 일부를 제거하게 되면 모형 자체가 변할 수 있기 때문이다. Comparing the left-hand panels of Figu..

통계의 대표적 가정인 귀무가설 (null hypothesis) 와 대립가설 (alternative hypothesis) 채택사이에서 발생하게 되는 오류의 유형을 1종 오류, 2종 오류로 나눠놓았다. 1종 오류와 2종 오류를 예시를 통해 알아보자. 오류 가설검정 또는 표본조사 1종 오류 귀무가설이 참인데 기각하고 대립가설 채택 2종 오류 귀무가설이 거짓인데 채택하고 대립가설 기각 오류 위험 설명 1종 오류 (Type I error) 알파 위험 (α risk) 잘못된 부적정 의견을 표명하는 오류 기각(Rejection)의 오류 과소신뢰의 오류 비효율적 감사(피감사인의 요청에 따라 재감사를 통해 오류가 정정될 것임) 2종 오류 (Type II error) 베타 위험 (β risk) 잘못된 적정 의견을 표명하는..

다중 회귀 (multiple regression) - 다중회귀분석은 다중의 독립변수가 있는 형태 (x1, x2) - 다중회귀분석시 독립변수간 상관관계가 높아 발생하는 다중공선성(multicollinearity)문제 처리가 필요 > 다중공선성 확인은 분산팽창지수 (Variation Inflation Factor ; VIF) 로 확인 가능 - 변수 제거 등 단일회귀분석의 경우, 종속변수와 독립변수를 나눈 feature 분포를 토대로 대체 가능 다항 회귀 (polynomial regrsssion) - 다항회귀분석은 독립변수의 차수를 높이는 형태 - 다차원의 회귀식인 다항 회귀 분석으로 단순 선형 모델의 한계를 어느정도 극복할 수 있음 Feature selection 출처: https://bioinformati..

stationary 한 시계열 데이터인지 아닌지 확인하는 방법들에 대해 알아본다. 눈으로 보기: 직접 plotting해서 시간에 따라 변하는지 볼 것 간단한 평균 내보기: 대략 반으로 쪼개서 앞의 평균과 뒤의 평균이 얼마나 다른지 볼 것 statistical test: 통계적 검정하기 --> ADF 검정 검정통계량이(ADF Statistics)가 Critical Value 보다 작으면 stationary 한 시계열 데이터 혹은 P-value가 설정한 신뢰수준 값 (e.g. 0.05) 보다 작은지 큰지 확인하면 된다. 작으면 stationary한 시계열 데이터! 아래 코드를 통한 결과를 보면 female birth데이터가 adf검정값이 critical value보다 작고 p-value가 0.05보다 작으므..