본문 바로가기

Mining

Hadoop LZO 압축 설정


# 첨가. 

hadoop-gpl-compression 를 

https://github.com/kevinweil/hadoop-lzo 로 변경해서 설치할것. 

참고 : http://upepo.tistory.com/174

-------------------------


1. lzo 설치

# 다운로드
http://www.oberhumer.com/opensource/lzo/

# 설치
./configure --enable-shared
make
make instll

# 기타
LD_LIBRARY_PATH 설정
or
/sbin/ldconfig


2. native connector library 설치
# 다운로드
http://code.google.com/a/apache-extras.org/p/hadoop-gpl-compression/

# hadoop library 복사
hadoop.0.20.0-core.jar 를 hadoop-gpl-compression/lib/ 으로 복사

# build
cnt compile-native
ant jar


3. 설정..
# 64bit 인 경우
다음 파일들을..
hadoop-gpl-compression/build/native/Linux-amd64-64/libgplcompression.la
hadoop-gpl-compression/build/native/Linux-amd64-64/lib/*

여기로 복사
hadoop/lib/native/Linux-amd64-64/

다음 파일을
hadoop-gpl-compression/build/hadoop-gpl-compression-0.1.0-dev.jar

여기로 복사
hadoop/lib


# 32bit 인 경우
Linux-amd64-64 --> Linux-i386-32 로 해서 위와 같게..


4. .bash_profile 에 추가
JAVA_LIBRARY_PATH=$JAVA_LIBRRAY_PATH:$HADOOP_HOME/lib/native/Linux-amd64-64/
JAVA_LIBRARY_PATH=$JAVA_LIBRRAY_PATH:$HADOOP_HOME/lib/

export JAVA_LIBRARY_PATH



5. lzop 설치
http://www.lzop.org/
필요하면 설치..



6. hadoop conf
# core-site.xml
- lzo compression도 기본 코덱으로 설정
        <property>
              <name>io.compression.codecs</name>
        <value>org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
com.hadoop.compression.lzo.LzoCodec</value>
        </property>

        <property>
                <name>io.compression.codec.lzo.class</name>
                <value>com.hadoop.compression.lzo.LzoCodec</value>
        </property>

# mapred-site.xml
- map이 끝나고 압축해서 reduce로 전달
        <property>
                <name>mapred.compress.map.output</name>
                <value>true</value>
        </property>
        <property>
                <name>mapred.map.output.compression.codec</name>
                <value>com.hadoop.compression.lzo.LzoCodec</value>
        </property>

- reduce 끝나고 최종 결과 압축
        <property>
                <name>mapred.output.compress</name>
                <value>true</value>
        </property>
        <property>
                <name>mapred.output.compression.codec</name>
                <value>com.hadoop.compression.lzo.LzoCodec</value>
        </property>


...

설치 중에 문제 생기는 부분이 있으면 답글 남겨 주세요~ 


'Mining' 카테고리의 다른 글

Pig UDFs  (0) 2012.02.22
Hadoop Lzo 압축 설정 (2)  (1) 2011.07.19
로그 분석  (0) 2011.06.09
Python 하둡 스트리밍 (Hadoop Streaming) #2  (0) 2011.05.16
Python 제너레이터 재사용. (Reseting generator object)  (0) 2011.04.19