하둡 맵리듀스 프로그래밍 예제

augusztus 2, 2019 4:28 du. Közzétette cccccccccccccc

Hadoop은 간단한 프로그래밍 모델을 사용하여 컴퓨터 클러스터에 분산된 환경에서 빅 데이터를 저장하고 처리할 수 있는 오픈 소스 프레임워크입니다. 단일 서버에서 수천 대의 컴퓨터로 확장하도록 설계되었으며, 각 서버는 로컬 계산 및 스토리지를 제공합니다. 구글은 2004년 12월 MapReduce 기술에 대한 논문을 발표했다. 이것은 하두프 가공 모델의 기원이 되었다. 따라서 MapReduce는 거대한 데이터 집합에서 병렬 및 분산 처리를 수행할 수 있는 프로그래밍 모델입니다. 이 MapReduce 자습서 블로그에서 다룬 항목은 다음과 같습니다: Hadoop MapReduce는 응용 프로그램 작성자가 중간 맵 출력 및 작업 출력 즉 감소의 출력모두에 대한 압축을 지정하는 시설을 제공합니다. 또한 zlib 압축 알고리즘에 대한 압축 코드 구현과 함께 번들로 제공됩니다. gzip, bzip2, 스냅 및 lz4 파일 형식도 지원됩니다. 대부분의 경우 Hadoop은 컴퓨팅 시스템 제한으로 인해 단순히 사용중인 작업이 이전에 (특히 구조화되지 않은 데이터로) 수행되지 않았기 때문에 아무 것도 대체하지 않았습니다.

관계형 데이터베이스와 분산 파일 시스템은 각각 Hadoop이 할 수 있는 작업의 일부를 수행하지만 훨씬 더 작은 규모로 작동합니다. 다시 말하지만, 더 유익한 질문은 하두롭의 어떤 요소를 생태계의 다른 기술과 제품으로 대체하거나 강화할 수 있는가하는 것입니다. 하답이 빅 데이터와 어떻게 관련되어 있는지보다 더 중요한 질문일까요? Hadoop은 다른 빅 데이터 기술과 어떤 관련이 있습니까? 핵심 Hadoop 모듈과 이를 보완하고 경쟁하는 기술 및 솔루션 간의 관계는 이 가이드의 Hadoop 생태계 섹션에서 자세히 다룹니다. 이 문서에서는 Hadoop MapReduce 프레임워크의 모든 사용자 대면을 포괄적으로 설명하고 자습서 역할을 합니다. 하두프 코어라고도 하는 공통 은 다른 Hadoop 구성 요소를 지원하는 유틸리티 집합입니다. Common은 Hadoop 프레임워크에서 일반적인(일반적인) 하드웨어 오류를 관리할 수 있는 방법을 제공하기 위한 것입니다. 하두프는 원래 더그 커팅과 마이크 카파렐라에 의해 개발되었다. 전설에 따르면, 절단은 그의 아들의 장난감 코끼리의 이름을 따서 소프트웨어의 이름을 지정합니다. 코끼리의 이미지는 하두프의 상징으로 남아 있습니다. 하두프 파이프는 MapReduce 응용 프로그램(JNI가 아닌 ™ 기반)을 구현하는 SWIG 호환 C++ API입니다.

이제 여러분들은 MapReduce 프레임워크에 대한 기본적인 이해를 가지고 있습니다. MapReduce 프레임워크가 HDFS에 존재하는 거대한 데이터를 처리하기 위해 코드를 작성하는 데 어떻게 필요한지 깨달았을 것입니다. 하도프 1.x와 비교하여 하도프 2.x의 MapReduce 프레임워크에 큰 변화가 있었습니다. 이러한 변경 내용은 이 MapReduce 자습서 시리즈의 다음 블로그에서 설명합니다. 나는 바로 블로그에서 MapReduce 프로그램의 각 부분을 설명하는 다운로드 가능한 포괄적 인 가이드를 공유 할 것입니다. Hadoop 스트리밍은 사용자가 모든 실행 및 (예 : 쉘 유틸리티)을 매퍼 및 / 또는 감속기로 사용하여 작업을 만들고 실행할 수있는 유틸리티입니다. 일반적으로 계산 노드와 저장소 노드는 동일합니다. 이 구성을 통해 프레임워크는 데이터가 이미 있는 노드에서 작업을 효과적으로 예약할 수 있으므로 클러스터 전체에서 매우 높은 집계 대역폭을 사용할 수 있습니다. 이 간단한 자습서에서는 빅 데이터, MapReduce 알고리즘 및 Hadoop 분산 파일 시스템에 대한 간략한 소개를 제공합니다. Hadoop은 또한 성능 (zlib) 및 자바 라이브러리의 비 가용성의 이유로 위의 압축 코덱의 기본 구현을 제공합니다.

Kategória: Egyéb kategória

Írta: Gabor