Passion 464

Hadoop M/R 프로그래밍시 Logging 방법

하둡 개발시 디버깅은 syslog 를 이용해서 가능하다 import org.apache.commons.logging.LogFactory; import org.apache.commons.logging.Log; // 메인 클래스에 LOG라는 변수를 선언함 public class FlowMR { private static final Log LOG = LogFactory.getLog(FlowMR.class); // 실제 사용은 public void reduce(Text key, Iterable values, Context context ) throws IOException, InterruptedException { ArrayList list1 = new ArrayList(); //HashMap myMap = n..

Passion/hadoop 2011.08.18

[Hadoop] Map&Reduce

Overview: - Map : 데이터를 key : value 쌍으로 매핑하는 작업 - Reduce : Map 을 하나의 결과로 줄이는 작업 -> Map & Reduce의 개념은 정말 심플하다. Python의 Map & reduce 함수와 원리는 동일함. 계산하고자 하는 것을 컴퓨터가 잘 이해하는 방식으로 표현하고 결과를 하나의 값으로 줄이는 것이다. - MapReduce Framework에는 JobTracker라는 싱글매스터가 존재, 클러스터 노드에는한개의 slave TaskTracker가 존재 Input & Output process (input) --> MAP --> --> combine --> --> REDUCE --> (output) 즉 형식의 key, value 쌍으로 매핑한 후 하나의 값으로..

Passion/hadoop 2011.07.19

[Java] Class<T>

Class class나 interface를 표현하는 인스턴스 -Ref: http://download.oracle.com/javase/6/docs/api/java/lang/Class.html public class MyClass { private String field; public static void main(String[] args) { Class clazz = MyClass.class; // 인스턴스의 클래스 정보를 알고 싶을 때 // MyClass inst = new MyClass(); //Class clazz = inst.getClass(); System.out.println(“This class name : “ + clazz.getName()); } } [root@vm-cs-mgmt tes..

Passion/Java 2011.07.15

Matrix를 Key, Value 쌍으로 저장하는 방법

Matrix는 테이블 형식의 데이터를 저장하는 효율적인 방법이다. 하지만 과 같은 sparse matrix를 N*N 테이블에 넣으면 메모리 손실이 너무 많다. n1 n2 n3 ... n100,000 n1 1 1 n2 n3 1 1 ... n100,000 1 대용량 sparse matrix 이를 관계형 데이터베이스로 구성하면 T_ROW n1 n2 n3 ... n100,000 T_Column n1 n2 1 n1 n1000,000 1 n3 n1 1 n3 n2 1 n1000,000 n3 1 이렇게 구성하면 되나 데이터가 너무 큰 경우 db table로는 관리하기 힘들다. (주로 외래키 관리가 어려움) Bigtable과 같은 Key, value 쌍으로 표현하면 n1 n2:1 n100,000:1 n2 n3 n1:1 ..

Passion/Algorithm 2011.07.14
728x90
반응형