CS/Data Science

[Data Science] Kaggle 사용법

rngPwns 2025. 2. 28. 16:08

1. Kaggle이란 무엇인가

  • 캐글은 데이터 분석 경진대회 주최 플랫폼. 경진대회는 회사의 연구과제,
  • 주요 서비스를 위해 분석이 필요한 데이터를 제공해서 주최하는 것이 일반적.
  • 인공지능, 머신러닝 붐 -> 참가자 증가 -> Alphabet의 인수 -> Kaggle은 단순 플랫폼이 아닌 데이터사이언티스트, 엔지니어들에게 매우 중요한 사이트가 되었다.
  • Kaggle의 사용자: Kaggler / Kaggle에서 활동하거나 Competition에 참가하는 것 : Kaggling
  • 파이썬, 머신러닝, 시각화 등의 실무, 실용적 강의 제공. 모든 강의는 영어, 무료, 수료증 제공
  • 프로그래밍 언어: 일반적으로 python과 R
  • 필요한 지식: python, 데이터분석, 영어

2. Kaggle은 어떻게 활용되는가

  • 데이터 분석을 위한 인프라로 활용
    • 웹 기반으로 데이터분석에 필요한 도구 제공
    • 다양한 kaggler들과 경쟁&협력 가능
  • Notebook 활용
    • Kaggle에서 제공하는 데이터 분석용 프로그램이 환경. 
    • SaaS환경으로 노트북에 작성한 코드를 서버에서 실행
    • 프로그래밍 환경 제공 -> 별도의 개발환경 구축 필요 X
    • Jupyter Notebook 참고해 만들어져 비슷하다.
  • Dataset 활용 - 학술목적 or kaggler가 만들어 공개한 dataset은 누구나 사용가능

3. Kaggle Competition

  • 가장 일반적 competition : Featured - 난이도가 있으며 일반적으로 상업적 목적 가짐
    • 대부분의 캐글러들 참여, 상금 걸려있음
  • 연구목적의 research : 연구적 주제들을 주로 다루고 보상 x, 덜 경쟁적이며 지적 호기심이 많은 캐글러들과 토론해가며 연구 가능
  • 학습용 competition - getting started : 초보자 대상 학습용. 
    • Titanic: Machine Learning from Disaster , House Prices: Advanced Regression Techniques , Digit Recognizer 추천

4. Notebook에 대하여

  • 데이터 분석용 프로그래밍이 주 목적. 작성된 프로그램은 캐글 서버에서 실행
  • competition에 제출 or Notebook을 kaggler들과 공유 가능. 공유되는 노트북 중에는 오직 교육, 기술을 알려주기 위한 목적인 것도 있다.
  • 코드용 셀, 마크다운 셀을 활용하여 코드, 코드에 대한 설명(텍스트, 이미지 등) 작성 가능
  • Kaggle Notebook은 Script와 Notebook, 두 가지 타입을 선택할 수 있다.
    • Script: 일반적으로 사용하는 코드 편집기에 코드를 작성하고 실행하는 방식.
    • Notebook: Jupyter Notebook과 비슷한 인터랙티브 개발 환경. 셀을 나누어서 원하는 부분의 코드만 실행할 수 있는 특징이 있다.
    •  오른쪽 상단의 Share 버튼을 통해 공개 or 비공개 설정 가능, Privacy를 public으로 설정하면 Apache 2.0 License 적용과 함께 공개가 된다.
    • Colaborators에서 사용자를 검색해 공동 작업자로 추가할 수 있다.
  • Notebook에서 Data 불러오는 법
    • competition data뿐만 아니라 공유되고 있는 다양한 dataset 이용가능 -> 별도의 파일을 노트북에서 사용할 수 있도록 설정해주어야 한다.
      1. 새로운 Notebook을 만들어서 하는 방법
        • 자신이 사용하길 원하는 Dataset에 가 New Notebook을 누르면 파일 자동설정
      2. 기존의 노트북에 추가하는 방법
        • 노트북 접속 -> Add data 버튼 클릭 -> 원하는 Dataset 검색 후 Add 누르기
      3. 직접 업로드
        1. Data 메뉴에 들어가서 오른쪽 상단의 +New Dataset 버튼 클릭
        2. Enter Dataset Title에 이름 입력 -> Select Files to upload 눌러서 파일 업로드.
        3. 마지막으로 creat 눌러서 업로드 -> 1,2 의 방식으로 불러와서 사용

 

5. Kaggle Dataset과 API 활용

  • 공개 Dataset 활용
    • 일반적인 알고리즘을 연구할 때는 널리 공개된 Dataset을 통해 성능 테스트하는 것이 좋음. 
      • UCI Machine Learning Repository가 유명 or 학술논문
  • Data 저장소로 활용 (like 깃허브)