[EPOCH] 발제대본

대외활동/EPOCH (DataScience)

[EPOCH] 발제대본

rngPwns 2025. 3. 25. 10:13

말 느리고 정확하게, 과외해주듯이. 20분 잡고 하기.

피피티 글 다 읽지 말고 예시같은건 건너뛰어도 됨.

안녕하세요, 이번에 발제를 맡게 된 구혜준입니다.

이번에 제가 맡은 발제파트는 ~~입니다.

먼저 목차를 안내해 드리겠습니다.

전 발제자 분들 발제를 들으며 제가 좋다고 느낀 점은,

교재의 내용 중 더 알아가고 싶은 부분, 설명이 부족하다고 느낀 부분을

자세히 알아보는 시간을 갖는 것이었습니다.

따라서 간단히 교재의 머신러닝 파이프라인 구축 과정을 리뷰한 후,

더 알아보고 싶었던 개념에 대해 파고들어가는 시간을 갖도록 하겠습니다.

그래서 목차를 보면

첫 번째로 Baseline 모델의 전반적인 과정을 훑어본 후,

모델성능 향상을 위한 특성을 생성하는 피처엔지니어링,

~~~~~

이렇게 진행하겠습니다.

먼저, 교재에서 캐글 데이터를 분석하기 위해

쓰였던 머신러닝 파이프라인이란 무엇일까요?

~~~

교재에서는 머신러닝 파이프라인 구축 과정을 ~~~와 같이 했습니다.

교재의 머신러닝 파이프라인 구축 과정을 하나하나 소개해보도록 하겠습니다.

먼저 데이터 전처리 단계입니다.

교재에서는 ~~~~~~~~~

그렇다면 머신러닝에서 왜 train set과 test set을 나누는 걸까요?

~~~~~~~

두번째로 피처엔지니어링 단계입니다.

피처 엔지니어링이란 ~~~입니다.

예를 들어 ~~~~

교재에서는 3가지 기초 피처엔지니어링을 수행했는데요,

~~~~ 이렇게 세 변수를 만들었습니다.

오른쪽 코드는 파생변수를 만드는 과정인데요,

파생변수 1은 결측값을 의미하는 1의 개수를 세었으며

파생변수 2는 이진변수를 모두 합쳐 만들었습니다.

파생변수 3은 target encoding을 교차검증 과정에서 진행하여 도출했습니다.

각 변수에 대해 자세히 들어가보겠습니다.

파생변수 1은 ~~~ (길면 간추려서)

파생변수 2는 ~~~~

승자의 코드에서는 이진변수값의 조합변수를 생성했다고 하는데,

과정이 궁금하여 코드를 찾아왔습니다.

즉, 이진변수는 ~~~~

파생변수 3은 ~~~

세 번째로 모델 정의입니다. lightgbm 모델을 사용했는데요,

교재에서는 다음과 같은 설정값을 만들어서 lightgbm모델에 적용시켰습니다.

일반적인 모델 사용 단계는 , ~~~~~~~~입니다.

네번째 단계, 모델 학습 및 교차검증 평가입니다.

이번 챕터에 주어진 캐글 데이터는

시계열 데이터가 아니기때문에 제공된 데이터를 ~~~

이 말은

시계열 데이터가 아닌 경우? :

데이터 간의 순서나 시점 관계가 중요하지 않기 때문에

데이터를 랜덤하게 섞어도 모델 성능에 문제가 없다.

또 랜덤 분리를 한 이유는: 데이터를 랜덤하게 분리하면

훈련/검증 세트 간의 데이터가 서로 독립적이 되어

과적합(overfitting)을 방지할 수 있다.

StratifiedKFold 함수란?
사이킷런에서 제공하는 교차검증 기법으로,

폴드마다 타겟 변수(종속변수)의 클래스 비율이

원본 데이터셋과 동일하도록 유지해.
예를 들어, 이진 분류에서 타겟 변수 0과 1의 비율이 70:30이라면,

각 폴드에서도 같은 비율로 데이터를 분리해 줘.

왜 필요할까?
불균형 데이터(예: 클래스 간 데이터의 수 차이가 큰 경우)에서

특정 클래스가 훈련/검증 세트에 편중되지 않도록 도와.

그렇지 않으면 모델이 특정 클래스에 대해 과대 적합되거나,

성능 평가가 왜곡될 수 있어.

또 재현성을 위해 random_state를 고정했습니다.

random_state란~~~

마지막으로 캐글 업로드를 진행했습니다.

그런데 교재에서는 오히려 피쳐 엔지니어링을 적용하지 않은 모델이

미세하게 좋은 결과를 가져왔다고 합니다.

교재에서 예측한 그 이유로는~~~~~

이제 본격적으로 더 딥하게 들어가고싶었던 개념에 대해

알아보는 시간을 갖도록 하겠습니다.

피처 엔지니어링이란 ~~~~~~~~

다음과 같은 아주 다양한 기법이 있어 표를 가져와봤습니다.

나중에 시간 될 때 한 번 쭉 읽어보시고 데이터분석 과제에 적용해보시는 것 추천드립니다.

두번째로 더 알아보고 싶은 개념은 Target Encoding이었습니다.Target Encoding이란 , ~~~~~ 오른쪽 코드처럼 진행되는 인코딩을 말합니다.

교재에서는 5-fold 교차 검증을 활용하여 target encoding을 진행했습니다.데이터 유출을 방지하기 위해서인데요,데이터 유출이란 , ~~~~~~target encoding에서 데이터 유출이 발생하는 경우는(2,3,4항목 읽기)5 fold 교차검증의 과정은, ~~~~~

이번에는 제일 딥하게 알아보고싶었던 lightGBM모델입니다.먼저 앙상블 학습의 개념을 알아야 합니다.머신러닝에서 앙상블 학습이란~~~ 여기에서 부스팅 알고리즘은~~~위에서~~~

오른쪽 그래프를 보시면, 트리가 진행될때마다 가중치가 부여되어

약한 학습기의 명확하지 않은 분포가 점점 명확하게 다듬어지는

현상이 보입니다.

여기에서 경사하강법이란~~

경사하강법의 직관적 의미

gradient descent 방법은 steepest descent 방법이라고도 불리는데, 함수 값이 낮아지는 방향으로 독립 변수 값을 변형시켜가면서 최종적으로는 최소 함수 값을 갖도록 하는 독립 변수 값을 찾는 방법이다.

steepest descent 방법은 다음과 같이 많이 비유되기도 한다.

앞이 보이지 않는 안개가 낀 산을 내려올 때는 모든 방향으로 산을 더듬어가며 산의 높이가 가장 낮아지는 방향으로 한 발씩 내딛어갈 수 있다.

GBM중 lightGBM은 ~~~~

이 파트를 공부하며 자료구조시간이 생각나더라고요.트리구조는 나무를 뒤집은 모양의 그래프로, 계층 표현에 적합합니다.

XGBOOST에서는 level-wise 트리분할을 사용하는데, 균형잡힌 ~~~

과적합(Overfitting)이란? 기계 학습 및 딥러닝에서 모델이 훈련 데이터(training data)에 너무 맞춰져서 일반화(generalization) 능력이 떨어지는 현상

과적합(overfitting) 이란?

과적합(Overfitting)이란? 기계 학습 및 딥러닝에서 모델이 훈련 데이터(training data)에 너무 맞춰져서 ...

blog.naver.com

반대로 우리가 사용할 lightGBM은 leaf-wise 트리분할을 사용하여 ~~~

마지막으로 5-fold 교차검증은, 아까 말씀드렸던 대로 ~~~~

교재에 테이블형 데이터에 lightGBM모델이 적합하다는 말이 나와있어서왜 그런지 의문을 품고 찾아봤습니다.

먼저 ~~~~가 가능하다고 합니다.

긴 발제 들어주셔서 감사합니다.

'대외활동 > EPOCH (DataScience)' 카테고리의 다른 글

2nd EPOCH DATATHON 최우수상 (0)	2025.12.06
수료증 (0)	2025.11.24

현재글[EPOCH] 발제대본

hyejun CSlog