CS/Data Science 5

[Data Science] EPOCH_ch04. 포르토 세구로 안전 운전자 예측 경진대회 (p.258 ~ p.267)

4.7 Baseline 모델 실질적인 머신러닝 파이프라인 구축하기(Baseline 모델 구축) 순서 : 데이터 전처리 -> 피처 엔지니어링 -> 학습 모델(LightGBM) 정의 -> 모델 학습 및 교차 검증 평가 -> 테스트 데이터 예측 및 캐글 업로드  머신 러닝 파이프라인은 일련의 상호 연결된 데이터 처리 및 모델링 단계로서, 머신 러닝 모델을 구축, 학습, 평가 및 배포하는 프로세스를 자동화, 표준화 및 간소화하도록 설계되었습니다. 머신 러닝 시스템 개발 및 생산화의 중요한 구성 요소인 머신 러닝 파이프라인은 데이터 과학자와 데이터 엔지니어가 엔드투엔드 머신 러닝 프로세스의 복잡성을 관리하고, 다양한 애플리케이션을 위한 정확하고 확장 가능한 솔루션을 개발할 수 있도록 지원합니다. 머신 러닝 기술은..

CS/Data Science 2025.03.23

[Data Science] EPOCH_Kaggle 3주차

2.7 Baseline 모델 : 일반적인 머신러닝 파이프라인의 모든 과정을 포함하는 가장 기초적 모델경진대회 상위 참가자들이 baseline 모델 공개 but 직접 개인 baseline 모델 구축해보면 배움 향상! Tabular 데이터를 다루는 캐글 경진대회에서의 머신러닝 파이프라인의 일반적 순서데이터 전처리 제품변수 결측값 0으로 대체(보유여부 정보가 없으면 보유하고 있지 않다고 가정)훈련데이터와 테스트데이터 통합(날짜변수(fetcha_dato)로 쉽게 구분가능.  동일한 24개의 고객변수 공유, 테스트 데이터에 없는 24개의 제품변수는 0으로 채움범주형, 수치형 데이터 전처리. 범주형 데이터는 .factorize()를 통해 Label Encoding 수행.데이터 타입이 object로 표현되는 수치형 ..

CS/Data Science 2025.03.19

[Data Science] EPOCH_Kaggle 2주차

[4개의 정답이 모두 마지막 4개일 때]#Prediction (예측결과)0 0 0 1 1 1 1#Precicion (예측의 정확도)0 0 0 1/4 2/5 3/6 4/7#Average Precision (예측 정확도의 평균)(1/1 + 2/2 + 3/3 + 4/4) / 4 = 1.002.1 경진대회 소개산탄데르 은행은 고객 맞춤형 제품 추천 제공소수 고객에게만 다양한 추천 제공, 나머지 고객에게는 제품추천기회가 적어 불균등한 고객경험으로 이어진다. 고객의 과거 이력과 유사한 고객군들의 데이터를 기반으로 다음달에 해당 고객이 무슨 제품을 사용할지 예측하는 문제 준비더 효과적인 추천시스템을 갖추게 된다면 산탄데르는 고객이 인생의 어느 단계에 있든 모든 고객의 개인적 필요에 알맞는 제품을 추천하여 그들을 만족..

CS/Data Science 2025.03.19

[Data Science] EPOCH_Kaggle 1주차

[4개의 정답이 모두 마지막 4개일 때]#Prediction (예측결과)0 0 0 1 1 1 1#Precicion (예측의 정확도)0 0 0 1/4 2/5 3/6 4/7#Average Precision (예측 정확도의 평균)(1/1 + 2/2 + 3/3 + 4/4) / 4 = 1.002.1 경진대회 소개산탄데르 은행은 고객 맞춤형 제품 추천 제공소수 고객에게만 다양한 추천 제공, 나머지 고객에게는 제품추천기회가 적어 불균등한 고객경험으로 이어진다. 고객의 과거 이력과 유사한 고객군들의 데이터를 기반으로 다음달에 해당 고객이 무슨 제품을 사용할지 예측하는 문제 준비더 효과적인 추천시스템을 갖추게 된다면 산탄데르는 고객이 인생의 어느 단계에 있든 모든 고객의 개인적 필요에 알맞는 제품을 추천하여 그들을 만족..

CS/Data Science 2025.03.06

[Data Science] Kaggle 사용법

1. Kaggle이란 무엇인가캐글은 데이터 분석 경진대회 주최 플랫폼. 경진대회는 회사의 연구과제,주요 서비스를 위해 분석이 필요한 데이터를 제공해서 주최하는 것이 일반적.인공지능, 머신러닝 붐 -> 참가자 증가 -> Alphabet의 인수 -> Kaggle은 단순 플랫폼이 아닌 데이터사이언티스트, 엔지니어들에게 매우 중요한 사이트가 되었다.Kaggle의 사용자: Kaggler / Kaggle에서 활동하거나 Competition에 참가하는 것 : Kaggling파이썬, 머신러닝, 시각화 등의 실무, 실용적 강의 제공. 모든 강의는 영어, 무료, 수료증 제공프로그래밍 언어: 일반적으로 python과 R필요한 지식: python, 데이터분석, 영어2. Kaggle은 어떻게 활용되는가데이터 분석을 위한 인프라..

CS/Data Science 2025.02.28