일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 이분탐색
- typescript
- 구조체포인터
- BFS
- 파이썬
- javascript
- SW사관학교정글
- pintos
- malloc
- branch
- 정글
- 웹스크래핑
- 행렬제곱
- 우선순위큐
- sw사관학교 정글
- beautifulsoup
- AWS
- react
- 힙
- 포인터
- 분할정복
- BOJ
- c언어
- 개발일지
- 이진탐색트리
- Git
- 이진트리
- 클린코드
- 백준
- DFS
- Today
- Total
목록beautifulsoup (2)
대범하게
웹 스크래핑이란 : 웹 스크래핑(web scraping)은 웹 페이지에서 우리가 원하는 부분의 데이터를 수집해오는 것을 뜻한다. - 한국에서는 같은 작업을 크롤링 crawling이라는 용어로 혼용해서 쓰는 경우가 많다. - 원래 크롤링은 자동화하여 주기적으로 웹 상에서 페이지들을 돌아다니며 분류/색인하고 업데이트된 부분을 찾는 등의 일을 하는 것을 뜻한다. - 구글 검색을 할 때는 web scraping으로 검색해야 우리가 배우는 페이지 추출에 대한 결과가 나올 것이다. 웹 스크래핑 해보기 - 네이버 영화 순위 페이지에서 영화 제목들을 스크래핑해볼 것이다. 링크: https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303 1. 크롬 브..
웹 스크래핑이 머리로 잘 정리되지 않아 다시 천천히 정리한다는 마음으로 쓴 포스팅이다. 웹 스크래핑의 기본 프로세스는 대개 정해진 패턴이 있다. 따지고 보면 웹 스크래핑이라는 것은 웹페이지에서 자신이 원하는 데이터를 긁어오는 것이므로 비교적 정형화된 작업이다. 정형화된 작업은 정형화된 프로세스가 있으므로 이것을 정리해서 머리에 넣어 두는 것이 중요하다. 웹 스크래핑 코딩의 기본 프로세스 1. 대상 웹페이지를 파싱(Parsing by BeautifulSoup) (* 파싱이란 문자열데이터를 분석하고 분해하여 목적한 패턴에 맞게 문자열의 구조를 결정하는 것) 2. 파싱(Parsing)된 데이터 중에서 스크래핑하고자 하는 "전체 데이터"를 선택함 : 이때 find_all 또는 select 명령어를 사용하며 얻어..