eu_ak
2025. 10. 25. 17:18
2025. 10. 25. 17:18
1. 데이터의 이해
1.1. 데이터와 정보
| 데이터의 특성 |
| 존재적 특성 |
객관적 사실 |
| 당위적 특성 |
정보의 근거 |
| 데이터 유형 |
| 정형 데이터 |
csv, 엑셀 스프레드시트, 관계형 DB 등 |
| 비정형 데이터 |
SNS, 영상, 음성, 댓글 등 |
| 반정형 데이터 |
XML, JSON, 센서 데이터 등 |
| * [비정형] SNS 관련 [반정형] 생소한 용어들 |
| 암묵지-형식지 상호작용 *내표공연 |
| 내면화 |
표출화 |
| 공통화 |
연결화 |
| DIKW 피라미드 |
| 데이터 Data |
객관적 사실 |
| 정보 Information |
의미가 도출된 것 |
| 지식 Knowledge |
경험을 결합해 지식으로 내재화된 것 |
| 지혜 Wisdom |
지식의 축적과 아이디어가 결합된 창의적 산물 |
| 데이터 단위 |
| bit - byte - kb - mb - gb - tb - pb - eb - zb - yb |
1.2. 데이터베이스
| DB와 DBMS |
| DB |
정보의 집합체 |
| DBMS |
DB 관리 소프트웨어 |
| DB 특징 *공통저변 |
| 공용 |
여러 사용자가 공동으로 이용 |
| 통합 |
중복되지 않게 통합됨 |
| 저장 |
컴퓨터가 접근 가능한 저장 매체에 저장 |
| 변화 |
항상 최신의 정확한 데이터 상태 유지 |
| DB 설계 *개논물 |
| 개념적 |
개념적 스키마 생성 |
| 논리적 |
ERD를 활용한 논리적 모델링 |
| 물리적 |
저장 구조 설계 |
| 기업 내부 DB |
| OLTP(Online Transaction Processing) |
거래 단위의 데이터 처리 |
| OLAP(Online Analytical Processing) |
데이터 분석을 통한 정보 제공 |
| EAI(Enterprise Application Intergration) |
기업의 여러 서비스를 중앙에서 관리 |
| KMS(Knowledge Management System) |
모든 지식을 통합하여 문제 해결 능력을 향상시킴 |
| SCM(Supply Chain Management) |
공급망 관리 |
| ERP(Enterprise Resource Planning) |
경영 자원 통합 관리 |
| BI(Business Intelligence) |
기업의 의사결정 프로세스 |
| RTE(Real Time Enterprise) |
정보를 실시간으로 통합 및 전달하여 신속한 대응 |
| DB 종류 |
| 관계형 DB(RDB) |
데이블 저장, 정형 데이터 (MySQL, MariaDB, Oracle, DB2 등) |
| NoSQL |
비정형, 대용량 데이터 (CouchDB, MongoDB, Redis, HBase, Cassandra 등) |
| 데이터 웨어하우스 구성요소 |
| ETL |
추출 Extraction, 변환 Transform, 적재 Load |
| ODS |
Operational Data Store 추출한 데이터 임시저장 |
| 데이터 웨어하우스 특징 |
| 주체 지향성 |
분석 목적을 설정 |
| 데이터 통합 |
일관화 된 형식으로 저장 |
| 시계열성 |
히스토리를 가진 데이터 |
| 비휘발성 |
수시로 변화하지 않음 |
| DW와 DL |
| DW(데이터 웨어하우스) |
분산된 정형 데이터를 공통의 형식으로 변환해 관리하는 집합소 |
| DL(데이터 레이크) |
정형, 비정형을 막론한 다양한 형태의 로 데이터를 모은 집합소, 여러 데이터 모델링에 대응 가능 |
2. 데이터의 가치와 미래
2.1. 빅데이터의 이해
| 3V |
| Volume |
데이터의 양 |
| Variety |
데이터의 다양성 |
| Velocity |
생성 및 처리 속도 |
| 그 외: Visualization, Variability, Value, Veracity, Volatility, Validity 등 |
| 빅데이터의 출현 배경 |
| 데이터의 양적 증가, 산업계 변화, 학계 변화, 관련 기술 발전 |
| 관련 기술 |
클라우드 컴퓨팅, CRM, 5G, IoT, 인터넷 확산, 모바일 생태계 확산, 스마트폰 보급 확대, SNS 확대 등 |
| 빅데이터가 만들어내는 변화 *전후양상 |
| 표본조사 → 전수조사 |
| 사전처리 → 사후처리 |
| 질 → 양 |
| 인과관계 → 상관관계 |
2.2. 데이터의 가치와 미래
| 빅데이터 가치 산정이 어려운 이유 *활가분 |
| 데이터 활용 방식 |
누가, 언제, 어떻게, 어디서 활용하는지 모름 |
| 가치 창출 방식 |
기존에 없던 새로운 가치를 창출함 |
| 분석 기술의 발전 |
분석 기술에 따라 가치 없는 데이터가 가치 있는 데이터가 될 수 있음 |
| 빅데이터 활용에 필요한 3요소 *인자기 |
| 인력, 자원(데이터), 기술 |
| 빅데이터 활용 기술 |
| 연관 규칙 학습 |
변인 간 상관 관계, 장바구니 분석, 상품 추천 |
| 유형 분석 |
범주 분류 |
| 회귀 분석 |
독립변수와 종속변수, 변인 간 관계 |
| 유전 알고리즘 |
최적화 문제, 효율 |
| 머신러닝 |
데이터로부터 찾은 규칙을 활용해 예측 |
| 텍스트 마이닝 |
자연어 처리(스태밍, 코퍼스, 토큰화, 임베딩) |
| 감정분석 |
비정형 데이터 마이닝, 텍스트 파일로부터 감정을 분석 |
| 소셜 네트워크 분석 |
사회 관계망 분석, 소셜 관계 파악(연결•근접•매개•아이겐벡터 중심성) |
| 위기 요인과 통제 방안 |
| 사생활 침해 |
제공자의 동의 → 사용자의 책임 |
| 책임 원칙 훼손 |
결과 기반 책임 원칙 고수 |
| 데이터 오용 |
알고리즘 접근 허용, 알고리즈미스트 |
| 개인정보 비식별화 기술 |
| 데이터 마스킹 |
형식 유지, 식별할 수 없는 값으로 대체 |
| 가명 처리 |
다른 값으로 변경 |
| 총계 처리 |
총합 또는 평균 사용 |
| 데이터 값 삭제 |
데이터 값 일부 삭제 |
| 데이터 범주화 |
범위로 제공 |
| * 가명 처리된 데이터는 동의 없이 통계, 과학적 연구, 공익적 기론 보존을 위해 활용될 수 있음 |
| 프라이버시 보호 모델 |
| k-익명성 |
같은 값이 존재하게 하여 다른 정보로 결합 불가능하게 함 |
| i-다양성 |
민감한 정보의 다양성을 높임 |
| t-근접성 |
민감한 정보의 분포를 낮춤 |
2.3. 데이터 사이언스
| 데이터 사이언스 구성 요소, 요구 역량 |
| 하드 스킬 |
Analytics |
수학, 통계, 분석학, 머신러닝 등 |
| It |
시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 고성능 컴퓨팅 등 |
| 소프트 스킬 |
비즈니스 분석 |
창의적 사고, 호기심, 커뮤니케이션, 시각화, 스토리텔링 등 |
| 가치 패러다임 변화 *Digital C A mera |
| Digitalization(디지털화) - Connection(연결) - Agency(관리) |