본문 바로가기
Cloud/AWS

[AWS] Data Analytics Fundamentals 기본 정리

by 노반장 2021. 9. 7.

1. 데이터 분석 솔루션 구성 요소

 수집 > 저장 > 분석 > 시각화

2. 데이터 분석 핵심 요소 (5V)

 Volume(볼륨), Velocity(속도), Variety(다양성), Veracity(신뢰성), Value(가치)

3. 데이터 종류

 정형 데이터(RDBMS), 반정형 데이터(XML, JSON), 비정형 데이터

4. AWS 서비스

 -유입/수집 : Amazon EMR, AWS Glue, Amazon Kinesis Firehose

 -저장 : Amazon S3, Amazon S3 데이터 레이크, Amazon RDS, Amazon DynamoDB, Amazon Redshift

  • 개별 객체 또는 파일을 저장할 때는 Amazon S3를 사용
  • 반정형 및 비정형 모두 대량의 데이터를 저장할 때는 Amazon S3에 데이터 레이크를 사용
  • 복잡한 분석을 위해 대량의 정형 데이터를 저장할 때는 Amazon Redshift에 데이터를 사용
  • NoSQL 형태의 데이터는 Amazon DynamoDB에 데이터를 사용

 -전처리/분석 : Amazon ML, Amazon EMR, AWS Glue, Amazon Kinesis Data Analytics, Amazon Athena

  • 배치 분석에서 사용자 지정된 파이프라인 생성이 필요할 때는 Amazon EMR을 사용
  • 배치 분석에서 Amazon EMR의 간호화된 사용을 원할 때는 AWS Glue를 사용
  • 대화식 분석에서 S3에 SQL 쿼리를 통해 분석할 때는 Amazon Athlena를 사용
  • 실시간 검색, 탐색, 필터링, 집계 및 시각화 분석을 할 때는 Amazon ES를 사용
  • 대용량의 정형데이터에서 복잡한 쿼리 분석을 할 때는 Amazon Redshift를 사용

 -소비/시각화 : Amazon Redshift, Amazon QuickSigth, Amazon Athena

 

댓글