대체적인 구성은 다음과 같이 이전에 잡아놓은 구성과 같다.
1. Flafka를 사용.
2. Kafka partition 개수에 맞게 flume 설정의 kafka sink 개수와 kafka source, hbase sink 개수를 설정.
3. Table을 pre-split 한다. (16개로 pre-split 하였음.)
2. Kafka partition 개수에 맞게 flume 설정의 kafka sink 개수와 kafka source, hbase sink 개수를 설정.
3. Table을 pre-split 한다. (16개로 pre-split 하였음.)
다른 점은 HBase 설정을 변경한 점도 있지만 그것 외에 다른 점은 다음과 같다.
1. Kafka topic의 partition 개수를 edge node들의 총 디스크 수보다 크게 잡는다.
- Edge node가 3개에 총 15개의 디스크가 있다. 이에 따라 partition 개수를 20개로 주었다.
- 디스크 총 개수에 맞춰서 Partition개수를 맞추는 것은 놀고 있는 디스크가 생기기 않게 하기 위함이다.
- Edge node가 3개에 총 15개의 디스크가 있다. 이에 따라 partition 개수를 20개로 주었다.
- 디스크 총 개수에 맞춰서 Partition개수를 맞추는 것은 놀고 있는 디스크가 생기기 않게 하기 위함이다.
전에는 최대 write 성능이 worker node를 3대로 하든 6대로 하든 초당 16만~17만 정도였다. (WAL을 끄면 30만)
그러나 위와 같이 kafka partition을 늘려주니 hbase 성능이 초당 30만 건 정도의 write할 수 있었다.
그러나 위와 같이 kafka partition을 늘려주니 hbase 성능이 초당 30만 건 정도의 write할 수 있었다.