1. Kaggle이란 무엇인가
- 캐글은 데이터 분석 경진대회 주최 플랫폼. 경진대회는 회사의 연구과제,
- 주요 서비스를 위해 분석이 필요한 데이터를 제공해서 주최하는 것이 일반적.
- 인공지능, 머신러닝 붐 -> 참가자 증가 -> Alphabet의 인수 -> Kaggle은 단순 플랫폼이 아닌 데이터사이언티스트, 엔지니어들에게 매우 중요한 사이트가 되었다.
- Kaggle의 사용자: Kaggler / Kaggle에서 활동하거나 Competition에 참가하는 것 : Kaggling
- 파이썬, 머신러닝, 시각화 등의 실무, 실용적 강의 제공. 모든 강의는 영어, 무료, 수료증 제공
- 프로그래밍 언어: 일반적으로 python과 R
- 필요한 지식: python, 데이터분석, 영어
2. Kaggle은 어떻게 활용되는가
- 데이터 분석을 위한 인프라로 활용
- 웹 기반으로 데이터분석에 필요한 도구 제공
- 다양한 kaggler들과 경쟁&협력 가능
- Notebook 활용
- Kaggle에서 제공하는 데이터 분석용 프로그램이 환경.
- SaaS환경으로 노트북에 작성한 코드를 서버에서 실행
- 프로그래밍 환경 제공 -> 별도의 개발환경 구축 필요 X
- Jupyter Notebook 참고해 만들어져 비슷하다.
- Dataset 활용 - 학술목적 or kaggler가 만들어 공개한 dataset은 누구나 사용가능
3. Kaggle Competition
- 가장 일반적 competition : Featured - 난이도가 있으며 일반적으로 상업적 목적 가짐
- 대부분의 캐글러들 참여, 상금 걸려있음
- 연구목적의 research : 연구적 주제들을 주로 다루고 보상 x, 덜 경쟁적이며 지적 호기심이 많은 캐글러들과 토론해가며 연구 가능
- 학습용 competition - getting started : 초보자 대상 학습용.
- Titanic: Machine Learning from Disaster , House Prices: Advanced Regression Techniques , Digit Recognizer 추천
4. Notebook에 대하여
- 데이터 분석용 프로그래밍이 주 목적. 작성된 프로그램은 캐글 서버에서 실행
- competition에 제출 or Notebook을 kaggler들과 공유 가능. 공유되는 노트북 중에는 오직 교육, 기술을 알려주기 위한 목적인 것도 있다.
- 코드용 셀, 마크다운 셀을 활용하여 코드, 코드에 대한 설명(텍스트, 이미지 등) 작성 가능
- Kaggle Notebook은 Script와 Notebook, 두 가지 타입을 선택할 수 있다.
- Script: 일반적으로 사용하는 코드 편집기에 코드를 작성하고 실행하는 방식.
- Notebook: Jupyter Notebook과 비슷한 인터랙티브 개발 환경. 셀을 나누어서 원하는 부분의 코드만 실행할 수 있는 특징이 있다.
- 오른쪽 상단의 Share 버튼을 통해 공개 or 비공개 설정 가능, Privacy를 public으로 설정하면 Apache 2.0 License 적용과 함께 공개가 된다.
- Colaborators에서 사용자를 검색해 공동 작업자로 추가할 수 있다.
- Notebook에서 Data 불러오는 법
- competition data뿐만 아니라 공유되고 있는 다양한 dataset 이용가능 -> 별도의 파일을 노트북에서 사용할 수 있도록 설정해주어야 한다.
- 새로운 Notebook을 만들어서 하는 방법
- 자신이 사용하길 원하는 Dataset에 가 New Notebook을 누르면 파일 자동설정
- 기존의 노트북에 추가하는 방법
- 노트북 접속 -> Add data 버튼 클릭 -> 원하는 Dataset 검색 후 Add 누르기
- 직접 업로드
- Data 메뉴에 들어가서 오른쪽 상단의 +New Dataset 버튼 클릭
- Enter Dataset Title에 이름 입력 -> Select Files to upload 눌러서 파일 업로드.
- 마지막으로 creat 눌러서 업로드 -> 1,2 의 방식으로 불러와서 사용
- 새로운 Notebook을 만들어서 하는 방법
- competition data뿐만 아니라 공유되고 있는 다양한 dataset 이용가능 -> 별도의 파일을 노트북에서 사용할 수 있도록 설정해주어야 한다.
5. Kaggle Dataset과 API 활용
- 공개 Dataset 활용
- 일반적인 알고리즘을 연구할 때는 널리 공개된 Dataset을 통해 성능 테스트하는 것이 좋음.
- UCI Machine Learning Repository가 유명 or 학술논문
- 일반적인 알고리즘을 연구할 때는 널리 공개된 Dataset을 통해 성능 테스트하는 것이 좋음.
- Data 저장소로 활용 (like 깃허브)
'CS > Data Science' 카테고리의 다른 글
[Data Science] EPOCH_ch04. 포르토 세구로 안전 운전자 예측 경진대회 (p.258 ~ p.267) (0) | 2025.03.23 |
---|---|
[Data Science] EPOCH_Kaggle 3주차 (0) | 2025.03.19 |
[Data Science] EPOCH_Kaggle 2주차 (0) | 2025.03.19 |
[Data Science] EPOCH_Kaggle 1주차 (1) | 2025.03.06 |