CS/데이터베이스

[데이터베이스] ch01. 데이터베이스 기본 개념

rngPwns 2025. 3. 14. 17:13

01. 데이터베이스의 필요성

  • 데이터: 현실세계에서 단순히 관찰하거나 측정하여 수집한 사실이나 값
  • 정보: 의사결정에 유용하게 활용할 수 있도록 데이터를 처리한 결과물
  • 정보처리: 데이터에서 정보를 추출하는 과정 또는 방법
  • 정보 시스템 : 조직 운영에 필요한 데이터를 수집하여 저장해두었다가 필요할 때 유용한 정보를 만즐어주는 수단
  • 데이터베이스 : 정보시스템 안에서 데이터를 저장하고 있다가 필요할 때 제공하는 역할 담당

데이터베이스(DB; DataBase)

  • 특정 조직의 여러 사용자가 공유하여 사용할 수 있도록 통합하여 저장운영 데이터의 집합

 

02. 데이터베이스의 정의와 특징

  • 공유 데이터
    • 특정 조직의 여러 사용자가 함께 소유하고 이용할 수 있는 공용 데이터
  • 통합 데이터
    • 최소의 중복과 통제 가능한 중복만 허용하는 데이터
  • 저장 데이터
    • 컴퓨터가 접근할 수 있는 매체에 저장된 데이터
  • 운영 데이터
    • 조직의 주요 기능을 수행하기 위해 지속적으로 꼭 필요한 데이터

  • 데이터베이스의 특징
    • 실시간 접근 : 사용자의 데이터 요구에 실시간으로 응답
    • 계속 변화 : 데이터의 계속적인 삽입, 삭제, 수정을 통해 현재의 정확한 데이터 유지
    • 동시 공유 : 서로 다른 데이터의 동시 사용뿐만 아니라 같은 데이터의 동시사용도 지원
    • 내용 기반 참조 : 데이터가 저장된 주소나 위치가 아닌 내용으로 참조 가능
      • ex) 재고량이 1,000개 이상인 제품의 이름을 검색하시오.

03. 데이터 과학 시대의 데이터

형태에 따른 데이터 분류

  • 정형 데이터
    • 구조화된 데이터. 미리 정해진 구조에 따라 저장된 데이터
      • 데이터 구조에 대한 설명과 데이터내용은 별도로 유지
  • 반정형 데이터
    • 구조에 따라 저장된 데이터지만 데이터 내용 안에 구조에 대한 설명이 함께 존재.
    • 구조를 파악하는 파싱(parsing) 과정 필요, 보통 파일 형태로 저장
      • 예: 웹에서 데이터를 교환하기 위해 작성하는 html, XML, JSON문서나 웹 로그, 센서 데이터 등
  • 비정형 데이터
    • 정해진 구조 없이 저장된 데이터 ex) 소셜 데이터의 텍스트, 영상, 이미지, 워드나 PDF 문서와 같은 멀티미디어 데이터

 

특성에 따른 데이터분류

  • 통계적 관점에서 데이터 특성에 따라 적합한 분석 방법을 선택하기 위해 데이터 분석 분야에서 주로 활용

  • 범주형 데이터
    • 범주로 구분할 수 있는 값(종류) 를 나타내는 값을 가진 데이터
    • 크기 비교와 산술적 연산이 가능하지 않음 -> 질적 데이터라고도 한다.
    • 명목형 데이터(nominal data) : 순서(서열)이 없는 값을 갖는 데이터 ex. 성별, 혈액형, 학과명...
    • 순서형 데이터(ordinal data) : 순서, 즉 서열이 있는 값을 갖는 데이터 ex. 학년, 학점, 회원등급...
  • 수치형 데이터
    • 크기 비교와 산술적 연산이 가능한 숫자 값을 가진 데이터 (= 양적 데이터)
    • 이산형 데이터(discrete data) : 개수를 셀 수 있는, 띄엄띄엄 단절된 숫자 값을 갖는 데이터 ex) 고객 수, 판매량...
    • 연속형 데이터(continuous data) : 측정을 통해 얻어지는 연속적으로 이어진 숫자 값을 갖는 데이터 ex) 키, 몸무게, 점수...

 

정성적 데이터와 정량적 데이터

  • 정성적 데이터(qualitative data)
    • 좁은 의미로는 범주형 데이터
    • 사람의 주관적인 생각과 평가를 기술한 비정형 데이터
  • 정량적 데이터(quantitative data)
    • 좁은 의미로는 수치형 데이터
    • 객관적인 측정을 통해 수치나 도형, 기호 등으로 표현한 정형 데이터

* 정량적 데이터에 비해 정성적 데이터가 저장 및 처리 측면에서 더 큰 비용이 드는 경우가 많다.