일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 데이터과학
- 숫자야구
- big_data
- list
- DATABASE
- 코딩야학
- hadoop
- 이토록 쉬운 통계&R
- 숫자야구소스
- 숫자야구코드
- for문
- python
- 빅데이터
- stat
- sql
- 생활코딩
- 파이썬
- 야학
- DataAnalysis
- 루비페이퍼
- 함수
- if문
- R
- 데이터사이언스
- 임경덕
- 데이터분석
- BigData
- code
- 리스트
- 하둡
Archives
- Today
- Total
yekang
하둡1 wordcount -하늘과 바람과 별과 시 (1948) 본문
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 | [hadoop@edydr1p0 ~]$ hadoop fs -put ~/download/poet.txt input put: File /home/hadoop/download/poet.txt does not exist. [hadoop@edydr1p0 ~]$ hadoop fs -put ~/download/poem.txt input [hadoop@edydr1p0 ~]$ hadoop jar /opt/hadoop/hadoop/hadoop-examples-1.2.1.jar wordcount input/poem.txt out-poem 18/01/24 17:54:20 INFO input.FileInputFormat: Total input paths to process : 1 18/01/24 17:54:20 INFO util.NativeCodeLoader: Loaded the native-hadoop library 18/01/24 17:54:20 WARN snappy.LoadSnappy: Snappy native library not loaded 18/01/24 17:54:20 INFO mapred.JobClient: Running job: job_201801241619_0007 18/01/24 17:54:21 INFO mapred.JobClient: map 0% reduce 0% 18/01/24 17:54:24 INFO mapred.JobClient: map 100% reduce 0% 18/01/24 17:54:31 INFO mapred.JobClient: map 100% reduce 33% 18/01/24 17:54:33 INFO mapred.JobClient: map 100% reduce 100% 18/01/24 17:54:34 INFO mapred.JobClient: Job complete: job_201801241619_0007 18/01/24 17:54:34 INFO mapred.JobClient: Counters: 29 18/01/24 17:54:34 INFO mapred.JobClient: Map-Reduce Framework 18/01/24 17:54:34 INFO mapred.JobClient: Spilled Records=272 18/01/24 17:54:34 INFO mapred.JobClient: Map output materialized bytes=2056 18/01/24 17:54:34 INFO mapred.JobClient: Reduce input records=136 18/01/24 17:54:34 INFO mapred.JobClient: Virtual memory (bytes) snapshot=584347648 18/01/24 17:54:34 INFO mapred.JobClient: Map input records=45 18/01/24 17:54:34 INFO mapred.JobClient: SPLIT_RAW_BYTES=113 18/01/24 17:54:34 INFO mapred.JobClient: Map output bytes=2167 18/01/24 17:54:34 INFO mapred.JobClient: Reduce shuffle bytes=2056 18/01/24 17:54:34 INFO mapred.JobClient: Physical memory (bytes) snapshot=193253376 18/01/24 17:54:34 INFO mapred.JobClient: Reduce input groups=136 18/01/24 17:54:34 INFO mapred.JobClient: Combine output records=136 18/01/24 17:54:34 INFO mapred.JobClient: Reduce output records=136 18/01/24 17:54:34 INFO mapred.JobClient: Map output records=168 18/01/24 17:54:34 INFO mapred.JobClient: Combine input records=168 18/01/24 17:54:34 INFO mapred.JobClient: CPU time spent (ms)=710 18/01/24 17:54:34 INFO mapred.JobClient: Total committed heap usage (bytes)=177016832 18/01/24 17:54:34 INFO mapred.JobClient: File Input Format Counters 18/01/24 17:54:34 INFO mapred.JobClient: Bytes Read=1565 18/01/24 17:54:34 INFO mapred.JobClient: FileSystemCounters 18/01/24 17:54:34 INFO mapred.JobClient: HDFS_BYTES_READ=1678 18/01/24 17:54:34 INFO mapred.JobClient: FILE_BYTES_WRITTEN=120229 18/01/24 17:54:34 INFO mapred.JobClient: FILE_BYTES_READ=2056 18/01/24 17:54:34 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=1506 18/01/24 17:54:34 INFO mapred.JobClient: Job Counters 18/01/24 17:54:34 INFO mapred.JobClient: Launched map tasks=1 18/01/24 17:54:34 INFO mapred.JobClient: Launched reduce tasks=1 18/01/24 17:54:34 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=8825 18/01/24 17:54:34 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0 18/01/24 17:54:34 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=2976 18/01/24 17:54:34 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0 18/01/24 17:54:34 INFO mapred.JobClient: Data-local map tasks=1 18/01/24 17:54:34 INFO mapred.JobClient: File Output Format Counters 18/01/24 17:54:34 INFO mapred.JobClient: Bytes Written=1506 [hadoop@edydr1p0 ~]$ hadoop fs -cat out-poem/part-r-00000 ~/download/poem-result.txt '라이너 1 '프랑시스 1 가난한 1 가득 1 가슴 1 가을 1 가을로 1 강아지, 1 같이 1 걱정도 1 것은 1 겨울이 1 경, 1 계십니다. 1 계집애들의 1 그러나 1 그리고 1 그리워 1 까닭이요 2 까닭입니다. 2 나는 3 나의 2 남은 1 내 2 내린 1 내일 1 너무나 1 노루, 1 노새, 1 다 3 당신은 1 덮어 1 동경과 1 둘 1 듯이. 1 듯합니다. 1 딴은 1 때 1 릴케' 1 마리아 1 많은 1 말 1 멀 1 멀리 2 못 1 무덤 1 무성할거외다. 1 무엇인지 1 묻힌 1 밤을 1 밤이 1 버리었습니다. 1 벌레는 1 벌써 1 별 7 별들을 1 별빛이 1 별에도 1 별을 1 별이 1 보고 1 봄이 1 봅니다. 2 부끄러운 1 북간도에 1 불러 2 비둘기, 1 사람들의 1 사랑과 1 새겨지는 1 새워 1 소녀들의 1 소학교 1 속에 1 속의 1 쉬이 1 슬퍼하는 1 시와 1 시인의 1 써 1 쓸쓸함과 1 아기 1 아름다운 1 아무 1 아스라이 1 아이들의 1 아직 1 아침이 1 않은 1 어머니, 2 어머니된 1 어머님, 2 언덕 2 없이 1 오는 1 오면 1 옥, 1 우는 1 우에도 1 위에 2 이 1 이국 1 이네들은 1 이런 2 이름과 1 이름과, 3 이름을 2 이름자 1 이름자를 1 이웃 1 이제 1 있습니다. 2 자랑처럼 1 잔디가 1 잠', 1 지나가는 1 지나고 1 차 1 책상을 1 청춘이 1 추억과 1 토끼, 1 파란 1 패, 1 풀이 1 피어나듯이 1 하나 1 하나에 7 하늘에는 1 하지 1 한마디씩 1 했던 1 헤는 1 헬 1 흙으로 1 계절이 1 cat: File does not exist: /home/hadoop/download/poem-result.txt [hadoop@edydr1p0 ~]$ hadoop fs -get out-poem/part-r-00000 ~/download/poem-result.txt [hadoop@edydr1p0 ~]$ | cs |
아래는 리눅스에서 받은 결과다.
word count를 활용한 현대시 분석도 간단하고 재밌었다.
휴학 중에 시인별, 시대별 현대시 분석을 한다면 꽤나 괜찮을것 같다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 | '라이너 1 '프랑시스 1 가난한 1 가득 1 가슴 1 가을 1 가을로 1 강아지, 1 같이 1 걱정도 1 것은 1 겨울이 1 경, 1 계십니다. 1 계집애들의 1 그러나 1 그리고 1 그리워 1 까닭이요 2 까닭입니다. 2 나는 3 나의 2 남은 1 내 2 내린 1 내일 1 너무나 1 노루, 1 노새, 1 다 3 당신은 1 덮어 1 동경과 1 둘 1 듯이. 1 듯합니다. 1 딴은 1 때 1 릴케' 1 마리아 1 많은 1 말 1 멀 1 멀리 2 못 1 무덤 1 무성할거외다. 1 무엇인지 1 묻힌 1 밤을 1 밤이 1 버리었습니다. 1 벌레는 1 벌써 1 별 7 별들을 1 별빛이 1 별에도 1 별을 1 별이 1 보고 1 봄이 1 봅니다. 2 부끄러운 1 북간도에 1 불러 2 비둘기, 1 사람들의 1 사랑과 1 새겨지는 1 새워 1 소녀들의 1 소학교 1 속에 1 속의 1 쉬이 1 슬퍼하는 1 시와 1 시인의 1 써 1 쓸쓸함과 1 아기 1 아름다운 1 아무 1 아스라이 1 아이들의 1 아직 1 아침이 1 않은 1 어머니, 2 어머니된 1 어머님, 2 언덕 2 없이 1 오는 1 오면 1 옥, 1 우는 1 우에도 1 위에 2 이 1 이국 1 이네들은 1 이런 2 이름과 1 이름과, 3 이름을 2 이름자 1 이름자를 1 이웃 1 이제 1 있습니다. 2 자랑처럼 1 잔디가 1 잠', 1 지나가는 1 지나고 1 차 1 책상을 1 청춘이 1 추억과 1 토끼, 1 파란 1 패, 1 풀이 1 피어나듯이 1 하나 1 하나에 7 하늘에는 1 하지 1 한마디씩 1 했던 1 헤는 1 헬 1 흙으로 1 계절이 1 | cs |
<개발 환경>
하둡 1.2.1
자바 1.8.0_161
'빅데이터' 카테고리의 다른 글
[데이터 전처리 대전] 리뷰 (0) | 2019.12.15 |
---|---|
WordCount 구현 in JAVA (0) | 2018.01.25 |
HDFS 입출력 예제 (0) | 2018.01.25 |
하둡1 wordcount - 문재인 대통령 (0) | 2018.01.24 |
빅데이터란? (0) | 2017.07.03 |
Comments