1. 데이터의 이해

1.1. 데이터와 정보

데이터의 특성
존재적 특성 객관적 사실
당위적 특성 정보의 근거

 

데이터 유형
정형 데이터 csv, 엑셀 스프레드시트, 관계형 DB 등
비정형 데이터 SNS, 영상, 음성, 댓글 등
반정형 데이터 XML, JSON, 센서 데이터 등
* [비정형] SNS 관련  [반정형] 생소한 용어들  

 

암묵지-형식지 상호작용 *내표공연
면화 출화
통화 결화

 

DIKW 피라미드
데이터 Data 객관적 사실
정보 Information 의미가 도출된 것
지식 Knowledge 경험을 결합해 지식으로 내재화된 것
지혜 Wisdom 지식의 축적과 아이디어가 결합된 창의적 산물

 

데이터 단위
bit - byte - kb - mb - gb - tb - pb - eb - zb - yb 

 

1.2. 데이터베이스

DB와 DBMS
DB 정보의 집합체
DBMS DB 관리 소프트웨어

 

DB 특징 *공통저변
여러 사용자가 공동으로 이용
중복되지 않게 통합됨
컴퓨터가 접근 가능한 저장 매체에 저장
항상 최신의 정확한 데이터 상태 유지

 

DB 설계 *개논물
념적 개념적 스키마 생성
리적 ERD를 활용한 논리적 모델링
리적 저장 구조 설계

 

기업 내부 DB
OLTP(Online Transaction Processing) 거래 단위의 데이터 처리
OLAP(Online Analytical Processing) 데이터 분석을 통한 정보 제공
EAI(Enterprise Application Intergration) 기업의 여러 서비스를 중앙에서 관리
KMS(Knowledge Management System) 모든 지식을 통합하여 문제 해결 능력을 향상시킴
SCM(Supply Chain Management) 공급망 관리
ERP(Enterprise Resource Planning) 경영 자원 통합 관리
BI(Business Intelligence) 기업의 의사결정 프로세스
RTE(Real Time Enterprise) 정보를 실시간으로 통합 및 전달하여 신속한 대응

 

DB 종류
관계형 DB(RDB) 데이블 저장, 정형 데이터 (MySQL, MariaDB, Oracle, DB2 등)
NoSQL 비정형, 대용량 데이터 (CouchDB, MongoDB, Redis, HBase, Cassandra 등)

 

데이터 웨어하우스 구성요소
ETL 추출 Extraction, 변환 Transform, 적재 Load
ODS Operational Data Store 추출한 데이터 임시저장

 

데이터 웨어하우스 특징
주체 지향성 분석 목적을 설정
데이터 통합 일관화 된 형식으로 저장
시계열성 히스토리를 가진 데이터
비휘발성 수시로 변화하지 않음

 

DW와 DL
DW(데이터 웨어하우스) 분산된 정형 데이터를 공통의 형식으로 변환해 관리하는 집합소
DL(데이터 레이크) 정형, 비정형을 막론한 다양한 형태의 로 데이터를 모은 집합소, 여러 데이터 모델링에 대응 가능

2. 데이터의 가치와 미래

2.1. 빅데이터의 이해

3V
Volume 데이터의 양
Variety 데이터의 다양성
Velocity 생성 및 처리 속도
그 외: Visualization, Variability, Value, Veracity, Volatility, Validity 등

 

빅데이터의 출현 배경
데이터의 양적 증가, 산업계 변화, 학계 변화, 관련 기술 발전
관련 기술 클라우드 컴퓨팅, CRM, 5G, IoT, 인터넷 확산, 모바일 생태계 확산, 스마트폰 보급 확대, SNS 확대 등

 

빅데이터가 만들어내는 변화 *전후양상
표본조사 → 수조사
사전처리 → 사처리
질 →
인과관계 → 관관계

 

2.2. 데이터의 가치와 미래

빅데이터 가치 산정이 어려운 이유 *활가분
데이터 용 방식 누가, 언제, 어떻게, 어디서 활용하는지 모름
가치 출 방식 기존에 없던 새로운 가치를 창출함
석 기술의 발전 분석 기술에 따라 가치 없는 데이터가 가치 있는 데이터가 될 수 있음

 

빅데이터 활용에 필요한 3요소 *인자기
력, 원(데이터),

 

빅데이터 활용 기술
연관 규칙 학습 변인 간 상관 관계, 장바구니 분석, 상품 추천
유형 분석 범주 분류
회귀 분석 독립변수와 종속변수, 변인 간 관계
유전 알고리즘 최적화 문제, 효율
머신러닝 데이터로부터 찾은 규칙을 활용해 예측
텍스트 마이닝 자연어 처리(스태밍, 코퍼스, 토큰화, 임베딩)
감정분석 비정형 데이터 마이닝, 텍스트 파일로부터 감정을 분석
소셜 네트워크 분석 사회 관계망 분석, 소셜 관계 파악(연결•근접•매개•아이겐벡터 중심성)

 

위기 요인과 통제 방안
사생활 침해 제공자의 동의 → 사용자의 책임
책임 원칙 훼손 결과 기반 책임 원칙 고수
데이터 오용 알고리즘 접근 허용, 알고리즈미스트

 

개인정보 비식별화 기술
데이터 마스킹 형식 유지, 식별할 수 없는 값으로 대체
가명 처리 다른 값으로 변경
총계 처리 총합 또는 평균 사용
데이터 값 삭제 데이터 값 일부 삭제
데이터 범주화 범위로 제공
* 가명 처리된 데이터는 동의 없이 통계, 과학적 연구, 공익적 기론 보존을 위해 활용될 수 있음

 

프라이버시 보호 모델
k-익명성 같은 값이 존재하게 하여 다른 정보로 결합 불가능하게 함
i-다양성 민감한 정보의 다양성을 높임
t-근접성 민감한 정보의 분포를 낮춤

 

2.3. 데이터 사이언스

데이터 사이언스 구성 요소, 요구 역량
하드 스킬 Analytics 수학, 통계, 분석학, 머신러닝 등
It 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 고성능 컴퓨팅 등
소프트 스킬 비즈니스 분석 창의적 사고, 호기심, 커뮤니케이션, 시각화, 스토리텔링 등

 

가치 패러다임 변화 *Digital C A mera
Digitalization(디지털화) - Connection(연결) - Agency(관리)

 

'자격증 > ADSP' 카테고리의 다른 글

[ADSP] 3과목_통계 분석  (1) 2025.11.02
[ADSP] 3과목_R기초와 데이터 마트  (0) 2025.10.27
[ADSP] 2과목  (0) 2025.10.27

+ Recent posts