빅 데이터 플랫폼의 핵심 소프트웨어는
먼저, 피닉스
개발자가 Apache HBase 에서 SQL 질의를 실행할 수 있도록 하는 Java 중간 계층입니다. Phoenix 는 완전히 Java 로 작성되었으며, 코드는 GitHub 에 있으며 클라이언트가 포함할 수 있는 JDBC 드라이버를 제공합니다.
Phoenix 쿼리 엔진은 SQL 쿼리를 하나 이상의 HBase 스캔으로 변환하고 표준 JDBC 결과 세트를 생성하기 위해 실행을 예약합니다. HBase API, 보조 프로세서 및 사용자 정의 필터를 직접 사용합니다. 성능 수준은 간단한 쿼리에 밀리초이고 백만 행에 대해서는 초급입니다.
둘째, 독침
처음에는 Tez 로 불렸고, 차세대 하이브, Hortonworks 가 개발을 이끌고 YARN DAG 컴퓨팅 프레임워크에서 실행되었습니다. 일부 테스트에서는 Stinger 가 약 10 배의 성능을 향상시키는 동시에 Hive 가 더 많은 SQL 을 지원할 수 있도록 합니다. 주요 장점은 사용자가 Hadoop 에서 더 많은 쿼리 일치를 얻을 수 있다는 것입니다. WHERE 쿼리를 지원하는 OVER-like 문 분석 기능을 포함하여 Hive 스타일의 시스템이 SQL 모델에 더 잘 맞도록 합니다.
셋째, 곧
페이스북 오픈 소스 데이터 조회 엔진 Presto 는 250PB 이상의 데이터를 신속하게 대화식으로 분석할 수 있습니다. 이 프로젝트는 20 12 년 가을에 개발을 시작한다. 현재 이 프로젝트는 이미 1000 명 이상의 페이스북 직원이 사용하고 있으며, 30,000 회 이상의 조회를 실행하고 있으며, 일일 데이터는 1PB 수준이다. 페이스북은 Presto 의 성능이 Hive 와 Map*Reduce 보다 10 배 낫다고 주장한다.
넷째, 상어
상어는 불꽃의 벌집이다. 기본적으로 Hive 의 HQL 구문 분석을 통해 HQL 을 Spark 의 RDD 작업으로 변환한 다음 Hive 의 메타데이터를 통해 데이터베이스의 테이블 정보를 가져옵니다. HDFS 에 대한 실제 데이터와 파일은 Shark 에서 구할 수 있으며 Spark 에서 실행됩니다.
동사 (verb 의 약자) 돼지
소개: Pig 는 Hadoop 의 일반적인 작업을 단순화하는 프로그래밍 언어입니다. Pig 는 데이터를 로드하고, 변환된 데이터를 표현하고, 최종 결과를 저장할 수 있습니다. Pig 의 내장 작업은 반정형 데이터 (예: 로그 파일) 를 의미 있게 만듭니다. 또한 Pig 는 Java 에 추가된 사용자 정의 데이터 유형의 사용을 확장하여 데이터 변환을 지원합니다.