일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 붕괴 스타레일
- Roberta
- 데이터리안
- 토픽 모델링
- 데벨챌
- 조축회
- Tableu
- geocoding
- 피파온라인 API
- KeyBert
- 클래스 분류
- 코사인 유사도
- SBERT
- 트위치
- 문맥을 반영한 토픽모델링
- 개체명 인식
- 구글 스토어 리뷰
- 옵티마이저
- 다항분포
- 자연어 모델
- LDA
- 블루 아카이브
- 데이터넥스트레벨챌린지
- 블루아카이브 토픽모델링
- CTM
- BERTopic
- 포아송분포
- 원신
- Optimizer
- NLP
- Today
- Total
목록Python/크롤링 (5)
분석하고싶은코코

지난번 던파 프로젝트를 진행하고나서 더 궁금해졌던 것은 유저들의 즉각적인 반응이었다. 그래서 이번에는 던전앤파이터에서 잘 알려진 커뮤니티인 던파 조선, 지하성과 용사 마이너 갤러리, 아카라이브의 게시글을 크롤링 해보기로 했다. 그런데 문제가 생긴게 게시글에 대한 정보를 받아오고 내용을 받아오려고 하니 요청이 너무 많아져서 블락에 걸려버렸다... 그래서 해결 방법을 찾은것이 Proxy를 사용하는 것이다. 타 무료 Proxy는 사용하기에는 이미 제공을 하지 않는 것 같았다. 그러던 중에 찾은 것이 아래 사이트다. https://spys.one/en/free-proxy-list/ Free proxy list, public proxy servers list online, live proxies spys.one ..

크롤링하고 새로운 뉴스 기사에 대한 알람을 보내주는 프로젝트를 진행했다. 원래는 GPT에 대한 기사를 요약해서 보내주려고 했지만 요약하는 부분까지 구현하기에는 너무 오래걸려서 새로운 기사가 있다면 그 기사에 대한 제목을 푸시해주는 프로젝트로 변경했다. 크론탭으로 스케줄링 해두면 새로운 기사를 찾고 새로운 기사가 있다면 제목을 텔레그램으로 푸시해준다. 지금은 제목만 보냈지만 url에 대한정보도 가지고 있으니 같이 푸시해주면 쉽게 볼 수 있을듯..? 제목에 하이퍼링크를 걸어서 GPT기사만 알람을 보내도록 했다. 알람은 3분마다 신규기사를 탐색하고 1분마다 수정됐는지 확인하고 수정됐다면 GPT기사를 필터링해서 알람을 보내도록 했다. 아래 코드는 제목만 알람을 보내주는 코드입니다. 수정내용 + (4.18 수정)..
Python의 가장 쉬운 크롤링 툴인 BeautifulSoup 모듈입니다. 이 모듈을 사용해 크롤링하면 정말 간편하게 크롤링이 가능합니다! 그런데 많은양의 크롤링을 하게 되면 대기시간이 오래걸리게 됩니다. 이를 해결하기 위해서 Python의 내장 모듈인 Multiprocessing을 사용해 어느정도 해결이 가능하다고 합니다. 그 방법을 스터디하며 공유를 위한 문서를 작성하였습니다. 아래는 그 문서를 첨부합니다. HTML 삽입 미리보기할 수 없는 소스

Riot과 관련된 게임과 정보들을 받아올 수 있다. (LoL, TFT, 발로란트) Riot API로 내가 원하는 정보를 한 번에 쏙 뽑아올 수 없는 구조다. 물론 계정에 대한 기본정보만 필요하다면 그럴 수 있지만 계정에 대한 정보와 그 계정이 플레이한 게임의 정보를 알고 싶다면 여러 API를 거쳐야한다. 그 방법을 간단한 예시와 함께 정리해본다. https://developer.riotgames.com/ Riot Developer Portal About the Riot Games API With this site we hope to provide the League of Legends developer community with access to game data in a secure and reliab..
구글 API 활용해서 우리나라 주소, 위도, 경도를 불러오면 에러는 나지 않지만 이상하게 불러오는 경우가 생각보다 많았다. 만능이라 생각했지만 정확하지 못해서 찾아본 결과 Ncloud를 통해서 하면 별도 비용없이 기본 제공량으로 여유있게 Geocoding이 가능하다는 것을 알게 됨. 우리나라 지리적 정보를 가져올때는 네이버나 카카오 API를 활용하는게 맞는듯... #네이버 API import urllib.request from urllib import parse import json #이 부분은 Ncolud에서 발급 가능 api_key = '본인 API키 입력' id = '본인 ID 입력' # 원하는 주소 def naverGeo(target): # 주소를 변환 URL에서 활용을 위해 target_u = ..