일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 다항분포
- KeyBert
- 블루아카이브 토픽모델링
- 문맥을 반영한 토픽모델링
- Tableu
- Roberta
- SBERT
- NLP
- 데이터리안
- LDA
- 코사인 유사도
- 조축회
- 피파온라인 API
- 옵티마이저
- BERTopic
- 개체명 인식
- Optimizer
- 데벨챌
- 블루 아카이브
- CTM
- 트위치
- 원신
- 클래스 분류
- 포아송분포
- 구글 스토어 리뷰
- geocoding
- 토픽 모델링
- 자연어 모델
- 데이터넥스트레벨챌린지
- 붕괴 스타레일
- Today
- Total
목록Python (13)
분석하고싶은코코

취업하고 업무 적응하느라 정신이 없어서 대회나 서브프로젝트에 대한 포스팅을 못하고 있었는데 좀 여유가 생겨서 다시 포스팅을 시작해보려 합니다~! 오늘은 대용량 데이터를 다루는 법에 대해서 다뤄보겠습니다. 데이터 분석을 적은 데이터로 할 경우도 있지만 대용량의 고객데이터를 통해 분석을 진행할 경우가 생깁니다. csv, json 저장된 수백, 수천만개의 고객 로그 데이터를 분석을 해본적이 없기 때문에 어떻게 접근해야하는지 막막했습니다. 그래서 찾아보게된게. parquet입니다. cuDF라는 것도 있지만 이 기능은 NIVIDA GPU가 장착된 환경에서만 사용할 수 있습니다. 그저 갓비디아.... 맥 유저는 웁니다... cuDF는 추후에 다뤄보겠습니다. 여하튼 오늘 다룰 데이터는 케글에 공개되어 있는 상품 추..

PySpark에 대해서 공부하다보니 생각보다 앞선 글에서 작성한 PySpark기본에서 너무 가볍게 다뤘다는 생각이 들었습니다. 그래서 좀 더 PySpark에 대해서 자세히 다뤄보고 정리해보기 위해서 PySpark에 대한 페이지를 만들고 Spark에 대한 내용들을 하나씩 포스팅 해보려 합니다. PySpark를 왜 사용할까? RDD에 대해서 자세히 다뤄보기 이전에 왜 Spark를 사용할까에 대한 부분을 다시 짚고 넘어가보겠습니다. 이 부분은 이전에 작성했던 포스팅에서 언급한 Apache Spark의 등장배경이랑 비슷합니다. 그런데 이번의 핵심은 기존의 하둡 시스템의 한계점을 극복하기 위한 아파치의 등장이 아닌 기존의 Python의 처리방식과 Apache Spark의 처리방식에 차이가 있고 데이터가 커질수록 ..

최근 과제를 진행하면서 로컬에서 처리할 수 없는 큰 용량의 데이터를 처리하게 되는 경험을 하면서 Pysaprk에 대해서 알아 보게 되었습니다. 어떤 데이터를 다뤘는지는 이야기할 수 없지만 제가 문제에 부딪혔던 데이터의 형태는 대충 12만*9000의 행렬을 만들다 보니 메모리에 100GB가 넘는 데이터를 들고 있어야하는 상황이 발생하였습니다. ( 120,000 * 9000 / 8 / 1024 / 1024 = 약 128?) 사실 이렇게 큰 용량을 메모리상에 들고 있어야하는 분석을 진행해본적이 없었기 때문에 굉장히 당황했었습니다. Python과 데이터 분석을 공부하면서 Pyspark의 존재해 대해서 알고 있었지만 사실 대용량 데이터를 처리하는 모듈? API?라고만 존재에 대해서만 알고 있었기 때문에 이번 과제..
Python을 통해서 한글 NLP 작업을 하기 위해서 필수로 사용하게 되는게 konlpy 모듈입니다. 이 모듈 안에서도 단어를 분리해주는 모듈들이 다양한데 그 중에서 이번 글에서는 mecab에 대해서 다뤄보겠습니다. 기본적으로 pip install konlpy 를 실행하면 knolpy관련 모듈이 설치 됩니다. 이후에 from konlpy.tag import Mecab mecab = Mecab() 을 실행해서 잘되면 다행이지만.... 저는 -> 'NameError: name 'Tagger' is not defined' 에러가 발생했습니다. 그래서 mecab을 설치하는 부분부터 다시 찾아보게됐고 그 과정을 작성합니다. 순서는 아래와 같습니다. 1. mecab-ko 설치 2. mecab-dic 설치 3. me..

지난번 던파 프로젝트를 진행하고나서 더 궁금해졌던 것은 유저들의 즉각적인 반응이었다. 그래서 이번에는 던전앤파이터에서 잘 알려진 커뮤니티인 던파 조선, 지하성과 용사 마이너 갤러리, 아카라이브의 게시글을 크롤링 해보기로 했다. 그런데 문제가 생긴게 게시글에 대한 정보를 받아오고 내용을 받아오려고 하니 요청이 너무 많아져서 블락에 걸려버렸다... 그래서 해결 방법을 찾은것이 Proxy를 사용하는 것이다. 타 무료 Proxy는 사용하기에는 이미 제공을 하지 않는 것 같았다. 그러던 중에 찾은 것이 아래 사이트다. https://spys.one/en/free-proxy-list/ Free proxy list, public proxy servers list online, live proxies spys.one ..

크롤링하고 새로운 뉴스 기사에 대한 알람을 보내주는 프로젝트를 진행했다. 원래는 GPT에 대한 기사를 요약해서 보내주려고 했지만 요약하는 부분까지 구현하기에는 너무 오래걸려서 새로운 기사가 있다면 그 기사에 대한 제목을 푸시해주는 프로젝트로 변경했다. 크론탭으로 스케줄링 해두면 새로운 기사를 찾고 새로운 기사가 있다면 제목을 텔레그램으로 푸시해준다. 지금은 제목만 보냈지만 url에 대한정보도 가지고 있으니 같이 푸시해주면 쉽게 볼 수 있을듯..? 제목에 하이퍼링크를 걸어서 GPT기사만 알람을 보내도록 했다. 알람은 3분마다 신규기사를 탐색하고 1분마다 수정됐는지 확인하고 수정됐다면 GPT기사를 필터링해서 알람을 보내도록 했다. 아래 코드는 제목만 알람을 보내주는 코드입니다. 수정내용 + (4.18 수정)..
Python의 가장 쉬운 크롤링 툴인 BeautifulSoup 모듈입니다. 이 모듈을 사용해 크롤링하면 정말 간편하게 크롤링이 가능합니다! 그런데 많은양의 크롤링을 하게 되면 대기시간이 오래걸리게 됩니다. 이를 해결하기 위해서 Python의 내장 모듈인 Multiprocessing을 사용해 어느정도 해결이 가능하다고 합니다. 그 방법을 스터디하며 공유를 위한 문서를 작성하였습니다. 아래는 그 문서를 첨부합니다. HTML 삽입 미리보기할 수 없는 소스

Riot과 관련된 게임과 정보들을 받아올 수 있다. (LoL, TFT, 발로란트) Riot API로 내가 원하는 정보를 한 번에 쏙 뽑아올 수 없는 구조다. 물론 계정에 대한 기본정보만 필요하다면 그럴 수 있지만 계정에 대한 정보와 그 계정이 플레이한 게임의 정보를 알고 싶다면 여러 API를 거쳐야한다. 그 방법을 간단한 예시와 함께 정리해본다. https://developer.riotgames.com/ Riot Developer Portal About the Riot Games API With this site we hope to provide the League of Legends developer community with access to game data in a secure and reliab..