목록빅데이터/Impala (3)
Monday
Apache Impala: 혁신적인 Hadoop SQL 쿼리 엔진의 탄생Impala의 역사적 배경Apache Impala는 2012년 10월에 처음 발표된 혁신적인 SQL 쿼리 엔진으로, 구글의 F1 쿼리 엔진에서 영감을 받아 개발되었습니다. 당시 Hadoop 생태계에서 대화형 SQL 쿼리의 성능과 속도에 대한 근본적인 한계를 극복하기 위해 탄생했습니다.Hadoop 에코시스템에서의 독특한 위치Impala는 Hadoop 에코시스템에서 매우 특별한 위치를 차지하고 있습니다. 기존의 MapReduce 기반 쿼리 처리 방식과는 근본적으로 다른 접근 방식을 채택했습니다:실시간 쿼리 처리: 기존 Hive와 달리 대화형 SQL 쿼리에 최적화분산 병렬 처리: 대규모 데이터셋을 빠르게 처리하는 MPP(Massively ..
1) Default UNION SELECT * FROM table1 UNION SELECT * FROM table2; = SELECT * FROM table1 UNION DISTINCT SELECT * FROM table2 Impala 에서 UNION = UNION DISTINCT 입니다. 2) Impala UNION 사용 조건 또한, Impala 에서 Union 사용 시 table1의 컬럼이름과, table2의 컬럼이름이 같아야 합니다. ex) SELECT zip_plus_4 AS zipcode FROM california_emp UNION DISTINCT SELECT CAST(zip AS STRING) AS zipcode FROM california_offices; 3) Union 사용 시 유의사항 ..
report.sql이란 파일이 다음과 같이 저장되어 있을 때 impala-shell을 통해서 사용하는 법을 보여드리겠습니다. # report.sql SELECT * FROM accounting.current WHERE month= '$var:month}' or # report.sql (변수 선언 포함) SET var:month = October; SELECT * FROM accounting.current WHERE month= '${var:month}' 사용법 $ impala-shell --var month="October" -f report.sql