SOGM'S Data

Notice

왈가왈부 x 왈왈가부 o

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (44)

SOGM'S Data

[1-4] SPARK RDD + structured data

* 본 포스트는 SK T아카데미 아파치 스파크 입문 강의를 듣고 요약 정리한 내용입니다. Directed Acyclic Graph(DAG) dag 는 lineage라고 보면됨. 각각의node들은 데이터를 transform할때마다 생기는 rdd n개의 스테이지에서 m개의 태스크로 나뉘는 모습. 스테이지를 구분은 transformation은 같은 stage 로 묶임. reduce , shuffle , join의 경우 다른 stage로 구분됨. 태스크를 나누는 구분은 executer의 개수와 관련이 있다. 가용한 executer가 100개면 100개의 태스크로 나뉨. transformation - narrow vs wide Action은 마지막 단계 . dag가 시행되는 구간임. collect , count ..

About Data/Engineering 2021. 12. 28. 00:25

[1-3]SPARK RDD 세부설명+dataframe

* 본 포스트는 SK T아카데미 아파치 스파크 입문 강의를 듣고 요약 정리한 내용입니다. RDD: spark dataframe으로 잘 안쓰게 되었지만 스팤의 구성요소이다. 스팤 코어에는 rdd가 있음. transformation 하게되면 rdd가 변경함. map-reduce의 map작업. 로그마이닝 예제이다. 파일 읽고 -> 최초 rdd생성 errors라는 에러를 필터링하고 ->새로운 trasform Rdd생성 count() -> rdd action. foo와 bar가 몇개 들어가 있는지 수 세기. 실제 예제의 구조 hdfs파일 블럭단위로 나눠져있고 (블록3개). 실제 spark이 일할때는 action에서만 일함. 드라이버(서버)로 결과를 던져줌 참고로 엔지니어링에서 언어에 대한 참고. 강사님은 분석을 ..

About Data/Engineering 2021. 12. 27. 16:07

[1-2]SPARK의 실시간 배치

* 본 포스트는 SK T아카데미 아파치 스파크 입문 강의를 듣고 요약 정리한 내용입니다. 1부 --- 부제: 빅데이터 프로세스 - 실시간 데이터를 위하여~ 빅데이터 프로세싱 3가지. 스파크 프로세스는 3번째 micro batch라고 생각하면됨. batch와 stream과의 중간. (아주작은 배치단위로 처리) 인스트림 (=네이티브스트림 )방식 source opertor : n개 동작, 데이터 수집 ex.카프카 sink operater: ex/엘라스틱서치 스파크 스트리밍의 마이크로 배치 예시 receiver나 sinkoperator는 카프가 등등 쓰이는 것은 똑같고 두 가지 차이는 앞단에 마이크로 배치로 데이터를 가지고와서 처리하는지 유무로 나뉨. Stream Processing Framework 종류 sp..

About Data/Engineering 2021. 12. 12. 17:11

[1-1].SPARK 의 개념과 활용

* 본 포스트는 SK T아카데미 아파치 스파크 입문 강의를 듣고 요약 정리한 내용입니다. HDFS : 하둡 분산 처리 파일 시스템 (Haddop distributed File System) 재연산시 신뢰성을 위해 카피 large file에 좋으나 small file과 low latency가 단점 masternode - slave node로 구성 master는 메타데이터 매니저 , slave 는 실제 storing data 온프레미스 환경에서 실제로 데이터노드 손실되는경우가 많다. 특히, 디스크 깨지는경우, 특정노드의 리카드, os fault 등등 HDFS는 이것을 막기 위해 분산 복사하여 카피 가지고 있음. 즉 랙에 중복이 없다. 하단 이미지 참조 MapReduce : 하둡 에코시스템의 간단한 프로그래밍..

About Data/Engineering 2021. 11. 30. 01:50

Docker에서 컨테이너 실행, 접속 안되는 오류 (exec 명령어)

나 같은 경우는 도커에서 exec -it 명령어로 컨테이너로 실행하여 접속하는 걸로 착각했는데 컨테이너 부팅이 안되어 방법들을 해매었다. 찾아보니 exec는 이미 실행중인 도커 컨테이너에만 사용되는 명령어였다. 만약 stop되어있는 도커 컨테이너를 run하기 위해선 docker run -it [컨테이너이름] 로 해당 컨테이너를 깨우고 아래 코드와 같이 exec -it 명령어로 실행중인 컨테이너 내의 대화형 bash 셸을 실행시키면 된다. docker exec -it [컨테이너이름] "bash" 또한 만약 도커 컨테이너를 run 하자마자 exit된다면, 기존에 있는 컨테이너를 삭제하고 다시 한 번 이미지를 가져와 도커 컨테이너를 새롭게 만들어주는 것도 방법이다. (저는 이렇게 되더라구요, 구글링해보니 방화..

About CS/Docker 2021. 10. 17. 12:59

Prev 1 2 3 4 5 6 7 ··· 9 Next

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

SOGM'S Data

목록전체 글 (44)

SOGM'S Data

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역