데이터 과학 및 분석 분야의 기반이 되는 기반을 확립하고, 나머지 부분에서 사용될 핵심 개념을 정의

데이터 수집과 문제 공식의 개념을 소개합니다. 첫째, 데이터 과학 및 분석 분야의 기반이 되는 기반을 확립하고, 나머지 부분에서 사용될 핵심 개념을 정의합니다. 이 장에서는 수집할 수 있는 데이터 유형과 데이터 분석이 사용 중인 데이터의 특성을 고려하지 않을 때 발생할 수 있는 일반적인 함정에 대해 논의하는 것으로 시작합니다. 데이터 원본과 데이터 소스를 구별하고 각 데이터 유형의 장점과 제약 사항에 대해 자세히 설명합니다.

이어서 이 장에서는 수집 및 정렬할 수 있는 데이터 유형에 대해 자세히 설명합니다. 명목, 순서, 간격 및 비율 기반 데이터 간의 차이와 연구 대상에 대한 통찰력을 얻는 데 사용할 수 있는 방법에 대해 설명합니다. 그런 다음 이 장에서는 문제 공식과 그 중요성에 대해 논의합니다. 문제를 공식화하는 것이 수집된 데이터에 영향을 미쳐 연구 프로젝트가 도달하는 결론에 영향을 미치는 방법과 이유를 설명합니다. 수학 툴킷을 사용하여 솔루션을 식별할 수 있도록 복잡한 실제 상황을 명확히 할 수 있는 프레임워크를 설명합니다. 이 장에서는 현실 세계를 이해하는 데 사용할 수 있는 의사결정 문제와 의사결정 문제를 분석하는 데 사용할 수 있는 연구 목적의 아이디어를 설명합니다.

이 장에서는 또한 데이터를 수집하고 수집할 때 직면하는 문제에 대해서도 자세히 설명합니다. 수집해야 할 데이터, 수집 방법, 품질 평가 방법, 마지막으로 가치를 잃지 않도록 데이터를 비교하는 가장 적절한 방법을 이해하는 것이 중요합니다. 이 장은 소매업계가 고객에게 보다 나은 서비스를 제공하고 고객의 선호도를 파악하기 위해 다양한 데이터 소스를 사용하는 방법에 대한 예시로 끝납니다. 데이터 관리 관계형 데이터베이스 관리 시스템은 다음과 같습니다. 이 장에서는 데이터 관리 및 스토리지에 대한 개념을 소개합니다. 이 장에서는 관계형 데이터베이스 관리 시스템 또는 RDBMS를 중점적으로 다룹니다.

RDBMS는 기업에서 가장 일반적으로 사용되는 데이터 조직 시스템입니다. 이 장에서는 전 세계에서 가장 큰 데이터 관리 시스템에서 사용되는 오픈 소스 구조 쿼리 언어인 MySQL을 사용하여 아이디어를 소개하고 설명합니다. 이 장에서는 데이터베이스 생성, 데이터 테이블 검사, 데이터 세트에 대한 기능 및 다양한 작업 수행과 같은 MySQL 서버의 기본 기능에 대해 설명합니다. 이 장에서 설명하는 첫번째 지시사항은 관계형 데이터베이스의 규칙, 정의 및 작성에 대한 것입니다. 그런 다음 MySQL Server 명령을 사용하여 테이블을 만들고 테이블에 데이터를 추가하는 방법에 대해 설명합니다. SELECT 명령을 사용하여 표에 있는 데이터를 검사하는 방법에 대해 설명합니다. 데이터 관리 빅 데이터: 이 장에서는 이전 장에서 소개한 몇 가지 개념을 기반으로 하지만 빅 데이터 툴에 중점을 둡니다. 실제로 빅 데이터를 구성하는 것이 무엇인지 설명하고 일부 빅 데이터 툴을 중점적으로 다룹니다. 이 장에서는 Hadoop, Spark 및 주변 생태계와 같은 빅데이터 툴의 기본에 대해 설명합니다.

이 장에서는 Hadoop의 용도 및 주요 기능뿐만 아니라 Hadoop과 함께 사용할 수 있는 생태계의 프로그램에 대해 설명합니다. 또한 분산 및 병렬 컴퓨팅과 빅데이터 클라우드의 개념에 대해서도 간략하게 설명합니다. 이 장에서는 Hadoop 런타임 환경의 아키텍처를 설명합니다. 먼저 데이터 액세스를 용이하게 하는 호스트 시스템 또는 노드의 집합인 클러스터를 설명합니다. 그런 다음 애플리케이션에 컴퓨팅 리소스를 제공하는 YARN 인프라로 이동합니다. YARN 인프라의 두 가지 주요 요소인 리소스 관리자와 노드 관리자에 대해 설명합니다. 그런 다음 스토리지를 제공하는 HDFS Federation에 대해 자세히 설명하고 기타 스토리지 솔루션에 대해서도 설명합니다.

마지막으로 소프트웨어 계층인 MapReduce 프레임워크에 대해 설명합니다. 다음 장에서는 MapReduce의 기능에 대해 자세히 설명합니다. MapReduce는 작업을 하위 작업으로 나누고, 효율성을 높이기 위해 이 작업을 병렬로 실행합니다. 맵리듀스가 "맵" 프로세스 및 "축소" 프로세스를 구현하여 입력 데이터 목록을 가져와서 출력 데이터 목록으로 변환하는 방법에 대해 설명합니다. 출력을 생성하기 위해 맵리듀스가 취하는 프로세스 단계를 자세히 설명하고, 워드 카운트 프로그램을 위한 맵리듀스 프로세스를 만드는 데 파이썬이 어떻게 사용될 수 있는지 설명합니다. 이 장에서는 스파크와 스파크를 사용하는 응용 프로그램에 대해 간략하게 설명합니다. 클라우드 스토리지에 대한 설명으로 마무리됩니다. 이 장에서는 Cloudera 가상 머신(VM)을 배포하여 다양한 실습 연습을 시연할 수 있도록 합니다.

알유매거진

데이터 과학 및 분석 분야의 기반이 되는 기반을 확립하고, 나머지 부분에서 사용될 핵심 개념을 정의

티스토리툴바