Python 하둡 스트리밍 (Hadoop Streaming) #1

# 참조
http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/

# 실행

./bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming.jar \

-file .../mapper.py -mapper .../mapper.py \

-file .../reducer.py -reducer .../reducer.py \

-input input_data \

-output output_data

# 기본 예제 : word count

1. mapper.py

#!/usr/bin/env python

import sys

for line in sys.stdin:

line = line.strip()

words = line.split()

for word in words:

print '%s\t%s' % (word,1)

2. reducer.py

#!/usr/bin/env python

import sys

from operator import itemgetter

word2count = {}

for line in sys.stdin:

line = line.strip()

word, count = line.split('\t', 1)

try:

count = int(count)

word2count[word] = word2count.get(word, 0) + count

except:

pass

# sort

sorted_word2count = sorted(word2count.items(), key=itemgetter(0))

for word, count in sorted_word2count:

print '%s\t%s' % (word, count)

#
기본 예제를 조금만 수정하면,
간단한 처리는 대부분 가능하다.

#
참조 링크에 yield 와 groupby를 이용하는 코드가 나오는데 python 스럽기도 하고,
실제도 돌려보니 속도도 조금 빠르다.

저작자표시 비영리 변경금지 (새창열림)

'Mining' 카테고리의 다른 글

Python 하둡 스트리밍 (Hadoop Streaming) #2 (0)	2011.05.16
Python 제너레이터 재사용. (Reseting generator object) (0)	2011.04.19
R - Special Values (0)	2011.04.14
R - Import data (SAS to R, DB to R) (0)	2011.04.08
R - 데이터 타입 (Data Types) (0)	2011.04.07

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

無逸

Python 하둡 스트리밍 (Hadoop Streaming) #1

'Mining' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Python 하둡 스트리밍 (Hadoop Streaming) #1

'Mining' 카테고리의 다른 글

'Mining' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역