일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- geocoding
- BERTopic
- 클래스 분류
- NLP
- 블루 아카이브
- 문맥을 반영한 토픽모델링
- 포아송분포
- SBERT
- 피파온라인 API
- KeyBert
- 자연어 모델
- 원신
- 데이터리안
- 붕괴 스타레일
- LDA
- 옵티마이저
- 다항분포
- 코사인 유사도
- 데벨챌
- 개체명 인식
- 블루아카이브 토픽모델링
- Optimizer
- CTM
- 토픽 모델링
- 트위치
- Tableu
- 데이터넥스트레벨챌린지
- 조축회
- Roberta
- 구글 스토어 리뷰
- Today
- Total
목록Python/PySpark (2)
분석하고싶은코코

PySpark에 대해서 공부하다보니 생각보다 앞선 글에서 작성한 PySpark기본에서 너무 가볍게 다뤘다는 생각이 들었습니다. 그래서 좀 더 PySpark에 대해서 자세히 다뤄보고 정리해보기 위해서 PySpark에 대한 페이지를 만들고 Spark에 대한 내용들을 하나씩 포스팅 해보려 합니다. PySpark를 왜 사용할까? RDD에 대해서 자세히 다뤄보기 이전에 왜 Spark를 사용할까에 대한 부분을 다시 짚고 넘어가보겠습니다. 이 부분은 이전에 작성했던 포스팅에서 언급한 Apache Spark의 등장배경이랑 비슷합니다. 그런데 이번의 핵심은 기존의 하둡 시스템의 한계점을 극복하기 위한 아파치의 등장이 아닌 기존의 Python의 처리방식과 Apache Spark의 처리방식에 차이가 있고 데이터가 커질수록 ..

최근 과제를 진행하면서 로컬에서 처리할 수 없는 큰 용량의 데이터를 처리하게 되는 경험을 하면서 Pysaprk에 대해서 알아 보게 되었습니다. 어떤 데이터를 다뤘는지는 이야기할 수 없지만 제가 문제에 부딪혔던 데이터의 형태는 대충 12만*9000의 행렬을 만들다 보니 메모리에 100GB가 넘는 데이터를 들고 있어야하는 상황이 발생하였습니다. ( 120,000 * 9000 / 8 / 1024 / 1024 = 약 128?) 사실 이렇게 큰 용량을 메모리상에 들고 있어야하는 분석을 진행해본적이 없었기 때문에 굉장히 당황했었습니다. Python과 데이터 분석을 공부하면서 Pyspark의 존재해 대해서 알고 있었지만 사실 대용량 데이터를 처리하는 모듈? API?라고만 존재에 대해서만 알고 있었기 때문에 이번 과제..