'Python/PySpark' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Python/PySpark (2)

분석하고싶은코코

PySpark - Session&Context&RDD

PySpark에 대해서 공부하다보니 생각보다 앞선 글에서 작성한 PySpark기본에서 너무 가볍게 다뤘다는 생각이 들었습니다. 그래서 좀 더 PySpark에 대해서 자세히 다뤄보고 정리해보기 위해서 PySpark에 대한 페이지를 만들고 Spark에 대한 내용들을 하나씩 포스팅 해보려 합니다. PySpark를 왜 사용할까? RDD에 대해서 자세히 다뤄보기 이전에 왜 Spark를 사용할까에 대한 부분을 다시 짚고 넘어가보겠습니다. 이 부분은 이전에 작성했던 포스팅에서 언급한 Apache Spark의 등장배경이랑 비슷합니다. 그런데 이번의 핵심은 기존의 하둡 시스템의 한계점을 극복하기 위한 아파치의 등장이 아닌 기존의 Python의 처리방식과 Apache Spark의 처리방식에 차이가 있고 데이터가 커질수록 ..

Python/PySpark 2023. 11. 9. 21:17

PySpark - 빅데이터 분산 시스템

최근 과제를 진행하면서 로컬에서 처리할 수 없는 큰 용량의 데이터를 처리하게 되는 경험을 하면서 Pysaprk에 대해서 알아 보게 되었습니다. 어떤 데이터를 다뤘는지는 이야기할 수 없지만 제가 문제에 부딪혔던 데이터의 형태는 대충 12만*9000의 행렬을 만들다 보니 메모리에 100GB가 넘는 데이터를 들고 있어야하는 상황이 발생하였습니다. ( 120,000 * 9000 / 8 / 1024 / 1024 = 약 128?) 사실 이렇게 큰 용량을 메모리상에 들고 있어야하는 분석을 진행해본적이 없었기 때문에 굉장히 당황했었습니다. Python과 데이터 분석을 공부하면서 Pyspark의 존재해 대해서 알고 있었지만 사실 대용량 데이터를 처리하는 모듈? API?라고만 존재에 대해서만 알고 있었기 때문에 이번 과제..

Python/PySpark 2023. 11. 7. 15:20

이전 Prev 1 Next 다음

목록Python/PySpark (2)

분석하고싶은코코

티스토리툴바