데이터
관찰이나 측정을 통해서 수집된 사실이나 값으로 수치, 스트링 등의 형태로 표현
•
실제 세상에 너무도 넓게 존재하는 사실적인 자료
•
아직 특정 목적에 대하여 평가되지 않은 상태의 단순한 여러 사실
•
핵심: 사실적 자료
정보
•
데이터를 일정한 프로그램(양식) 처리, 가공하여 특정 목적을 달성하는 데 필요한 정보가 생산됨
•
Information = processing (Data)
•
핵심: 처리가공
지식
•
동종의 정보가 집적되어 일반화된 형태로 정리된 것
•
정보가 의사결정이나 창출에 이용되어 부가가치가 발생
•
핵심: 부가가치, 일반화, 의사결정
지혜
•
지식을 얻고 이해하고 응용하고 발전해 나가는 정신적인 능력
•
핵심: 내재화된 능력
DIKW 피라미드
•
데이터(DATA) >> 정보(INFORMATION) >> 지식(KNOWLEDGE) >> 지혜(WISDOM)
•
강수량 >> 지역별 연간 최대 강수량 >> A마을의 수해 대책 >> A 마을 주민 생활 노하우
데이터 특징 > 존재적 특징
•
존재적 특징
◦
정성적 데이터
▪
데이터 자체가 하나의 텍스트를 이루고 있기에 데이터 하나하나가 함축된 의미를 갖고 있음
(”나는 오늘 기분이 좋다”)
◦
정량적 데이터
▪
여러 속성(이름, 나이, 성별, 주소 등)이 모여 하나의 객체를 형성하고, 각 속성은 속성 하나 혹은 여러 개의 속성이 결합해 측정이나 설명이 가능하도록 구성됨
데이터 특징 > 형태적 특징
•
정형 데이터(Structured Data)
◦
고정된 필드에 저장된 데이터로 저장하는 데이터의 구조(스키마, Schema)가 미리 정의된 데이터
◦
Type, Length가 미리 정의됨
◦
DBMS에 스키마를 관리하는 DB(Dictionary)가 별도로 존재하여 DB 저장소와 구분됨
•
반정형 데이터(Semi-Structured Data)
◦
데이터 내부에 정형 데이터의 스키마에 해당되는 메타 데이터를 갖고 있으며, 일반적으로 파일 형태로 저장됨
•
비정형 데이터(Unstructured Data)
◦
데이터세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있는 데이터
◦
텍스트, 이미지, 동영상 등 멀티미디어가 대표적인 비정형 데이터임
정형 데이터
•
고정된 필드에 저장된 데이터로 저장하는 데이터의 구조(스키마, Schema)가 미리 정의된 데이터
•
Type, Length가 미리 정의된 데이터, OLTP, OLAP 데이터 등
•
데이터의 탐색 : SQL 등 데이터베이스 언어를 주로 사용
SELECT 학번, 이름, 학과
FROM 학생_TABLE
WHERE 조건
SQL
복사
반정형 데이터
•
정형 데이터는 데이터의 스키마 정보를 관리하는 DBMS와 데이터 내용이 저장되는 데이터 저장소로 구분되지만, 반정형 데이터는 데이터 내부에 정형 데이터의 스키마에 해당되는 메타 데이터를 갖고 있으며, 일반적으로 파일 형태로 저장됨
•
사례
◦
URL 형태로 존재 - HTML
◦
오픈 API 형태로 제공 - XML, JSON
◦
로그 형태 - 웹 로그, IOT에서 제공하는 센서 데이터
비정형 데이터
•
비정형 데이터는 데이터세트가 아닌 하나의 데이터가 수집 데이터로 객체화 되어있는 비구조적 데이터
•
텍스트 데이터, 이미지, 동영상, pdf 파일 등
•
비정형 데이터의 예
◦
동영상, 이미지 : 이진 파일 형태로 저장되어 있음
◦
소셜 데이터 텍스트 : 스크립트 파일 형태