yekang

하둡1 wordcount -하늘과 바람과 별과 시 (1948) 본문

빅데이터

하둡1 wordcount -하늘과 바람과 별과 시 (1948)

예캉 2018. 1. 25. 10:09
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
[hadoop@edydr1p0 ~]$ hadoop fs -put ~/download/poet.txt input
put: File /home/hadoop/download/poet.txt does not exist.
[hadoop@edydr1p0 ~]$ hadoop fs -put ~/download/poem.txt input
[hadoop@edydr1p0 ~]$ hadoop jar /opt/hadoop/hadoop/hadoop-examples-1.2.1.jar wordcount input/poem.txt out-poem
18/01/24 17:54:20 INFO input.FileInputFormat: Total input paths to process : 1
18/01/24 17:54:20 INFO util.NativeCodeLoader: Loaded the native-hadoop library
18/01/24 17:54:20 WARN snappy.LoadSnappy: Snappy native library not loaded
18/01/24 17:54:20 INFO mapred.JobClient: Running job: job_201801241619_0007
18/01/24 17:54:21 INFO mapred.JobClient:  map 0% reduce 0%
18/01/24 17:54:24 INFO mapred.JobClient:  map 100% reduce 0%
18/01/24 17:54:31 INFO mapred.JobClient:  map 100% reduce 33%
18/01/24 17:54:33 INFO mapred.JobClient:  map 100% reduce 100%
18/01/24 17:54:34 INFO mapred.JobClient: Job complete: job_201801241619_0007
18/01/24 17:54:34 INFO mapred.JobClient: Counters: 29
18/01/24 17:54:34 INFO mapred.JobClient:   Map-Reduce Framework
18/01/24 17:54:34 INFO mapred.JobClient:     Spilled Records=272
18/01/24 17:54:34 INFO mapred.JobClient:     Map output materialized bytes=2056
18/01/24 17:54:34 INFO mapred.JobClient:     Reduce input records=136
18/01/24 17:54:34 INFO mapred.JobClient:     Virtual memory (bytes) snapshot=584347648
18/01/24 17:54:34 INFO mapred.JobClient:     Map input records=45
18/01/24 17:54:34 INFO mapred.JobClient:     SPLIT_RAW_BYTES=113
18/01/24 17:54:34 INFO mapred.JobClient:     Map output bytes=2167
18/01/24 17:54:34 INFO mapred.JobClient:     Reduce shuffle bytes=2056
18/01/24 17:54:34 INFO mapred.JobClient:     Physical memory (bytes) snapshot=193253376
18/01/24 17:54:34 INFO mapred.JobClient:     Reduce input groups=136
18/01/24 17:54:34 INFO mapred.JobClient:     Combine output records=136
18/01/24 17:54:34 INFO mapred.JobClient:     Reduce output records=136
18/01/24 17:54:34 INFO mapred.JobClient:     Map output records=168
18/01/24 17:54:34 INFO mapred.JobClient:     Combine input records=168
18/01/24 17:54:34 INFO mapred.JobClient:     CPU time spent (ms)=710
18/01/24 17:54:34 INFO mapred.JobClient:     Total committed heap usage (bytes)=177016832
18/01/24 17:54:34 INFO mapred.JobClient:   File Input Format Counters
18/01/24 17:54:34 INFO mapred.JobClient:     Bytes Read=1565
18/01/24 17:54:34 INFO mapred.JobClient:   FileSystemCounters
18/01/24 17:54:34 INFO mapred.JobClient:     HDFS_BYTES_READ=1678
18/01/24 17:54:34 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=120229
18/01/24 17:54:34 INFO mapred.JobClient:     FILE_BYTES_READ=2056
18/01/24 17:54:34 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=1506
18/01/24 17:54:34 INFO mapred.JobClient:   Job Counters
18/01/24 17:54:34 INFO mapred.JobClient:     Launched map tasks=1
18/01/24 17:54:34 INFO mapred.JobClient:     Launched reduce tasks=1
18/01/24 17:54:34 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=8825
18/01/24 17:54:34 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0
18/01/24 17:54:34 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=2976
18/01/24 17:54:34 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
18/01/24 17:54:34 INFO mapred.JobClient:     Data-local map tasks=1
18/01/24 17:54:34 INFO mapred.JobClient:   File Output Format Counters
18/01/24 17:54:34 INFO mapred.JobClient:     Bytes Written=1506
[hadoop@edydr1p0 ~]$ hadoop fs -cat out-poem/part-r-00000 ~/download/poem-result.txt
'라이너 1
'프랑시스       1
가난한  1
가득    1
가슴    1
가을    1
가을로  1
강아지, 1
같이    1
걱정도  1
것은    1
겨울이  1
경,     1
계십니다.       1
계집애들의      1
그러나  1
그리고  1
그리워  1
까닭이요        2
까닭입니다.     2
나는    3
나의    2
남은    1
내      2
내린    1
내일    1
너무나  1
노루,   1
노새,   1
다      3
당신은  1
덮어    1
동경과  1
둘      1
듯이.   1
듯합니다.       1
딴은    1
때      1
릴케'   1
마리아  1
많은    1
말      1
멀      1
멀리    2
못      1
무덤    1
무성할거외다.   1
무엇인지        1
묻힌    1
밤을    1
밤이    1
버리었습니다.   1
벌레는  1
벌써    1
별      7
별들을  1
별빛이  1
별에도  1
별을    1
별이    1
보고    1
봄이    1
봅니다. 2
부끄러운        1
북간도에        1
불러    2
비둘기, 1
사람들의        1
사랑과  1
새겨지는        1
새워    1
소녀들의        1
소학교  1
속에    1
속의    1
쉬이    1
슬퍼하는        1
시와    1
시인의  1
써      1
쓸쓸함과        1
아기    1
아름다운        1
아무    1
아스라이        1
아이들의        1
아직    1
아침이  1
않은    1
어머니, 2
어머니된        1
어머님, 2
언덕    2
없이    1
오는    1
오면    1
옥,     1
우는    1
우에도  1
위에    2
이      1
이국    1
이네들은        1
이런    2
이름과  1
이름과, 3
이름을  2
이름자  1
이름자를        1
이웃    1
이제    1
있습니다.       2
자랑처럼        1
잔디가  1
잠',    1
지나가는        1
지나고  1
차      1
책상을  1
청춘이  1
추억과  1
토끼,   1
파란    1
패,     1
풀이    1
피어나듯이      1
하나    1
하나에  7
하늘에는        1
하지    1
한마디씩        1
했던    1
헤는    1
헬      1
흙으로  1
계절이  1
cat: File does not exist: /home/hadoop/download/poem-result.txt
[hadoop@edydr1p0 ~]$ hadoop fs -get out-poem/part-r-00000 ~/download/poem-result.txt
[hadoop@edydr1p0 ~]$

cs


아래는 리눅스에서 받은 결과다.

word count를 활용한 현대시 분석도 간단하고 재밌었다.

휴학 중에 시인별, 시대별 현대시 분석을 한다면 꽤나 괜찮을것 같다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
'라이너    1
'프랑시스    1
가난한    1
가득    1
가슴    1
가을    1
가을로    1
강아지,    1
같이    1
걱정도    1
것은    1
겨울이    1
경,    1
계십니다.    1
계집애들의    1
그러나    1
그리고    1
그리워    1
까닭이요    2
까닭입니다.    2
나는    3
나의    2
남은    1
내    2
내린    1
내일    1
너무나    1
노루,    1
노새,    1
다    3
당신은    1
덮어    1
동경과    1
둘    1
듯이.    1
듯합니다.    1
딴은    1
때    1
릴케'    1
마리아    1
많은    1
말    1
멀    1
멀리    2
못    1
무덤    1
무성할거외다.    1
무엇인지    1
묻힌    1
밤을    1
밤이    1
버리었습니다.    1
벌레는    1
벌써    1
별    7
별들을    1
별빛이    1
별에도    1
별을    1
별이    1
보고    1
봄이    1
봅니다.    2
부끄러운    1
북간도에    1
불러    2
비둘기,    1
사람들의    1
사랑과    1
새겨지는    1
새워    1
소녀들의    1
소학교    1
속에    1
속의    1
쉬이    1
슬퍼하는    1
시와    1
시인의    1
써    1
쓸쓸함과    1
아기    1
아름다운    1
아무    1
아스라이    1
아이들의    1
아직    1
아침이    1
않은    1
어머니,    2
어머니된    1
어머님,    2
언덕    2
없이    1
오는    1
오면    1
옥,    1
우는    1
우에도    1
위에    2
이    1
이국    1
이네들은    1
이런    2
이름과    1
이름과,    3
이름을    2
이름자    1
이름자를    1
이웃    1
이제    1
있습니다.    2
자랑처럼    1
잔디가    1
잠',    1
지나가는    1
지나고    1
차    1
책상을    1
청춘이    1
추억과    1
토끼,    1
파란    1
패,    1
풀이    1
피어나듯이    1
하나    1
하나에    7
하늘에는    1
하지    1
한마디씩    1
했던    1
헤는    1
헬    1
흙으로    1
계절이    1
 
cs


<개발 환경>
하둡 1.2.1
자바 1.8.0_161


'빅데이터' 카테고리의 다른 글

[데이터 전처리 대전] 리뷰  (0) 2019.12.15
WordCount 구현 in JAVA  (0) 2018.01.25
HDFS 입출력 예제  (0) 2018.01.25
하둡1 wordcount - 문재인 대통령  (0) 2018.01.24
빅데이터란?  (0) 2017.07.03
Comments