웹스크래핑3 [Web] DB - MongoDB, pymongo DB의 종류 - RDBMS(SQL)은 행/열의 생김새가 정해진 엑셀에 데이터를 저장하는 것과 유사하다. 데이터 50만개가 적재된 상태에서, 갑자기 중간에 열을 하나 더하기는 어렵지만, 정형화되어있는 만큼 데이터가 일관적이고 분석에 용이하다. MS-SQL, My-SQL등이 여기 속한다. - NoSQL은 딕셔너리 형태로 데이터를 저장해두는 DB이다. 데이터 하나하나마다 같은 필드 값들을 가질 필요가 없어 자유로운 형태의 데이터 적재에 유리한 대신, 일관성이 부족할 수 있다. MongoDB가 이에 속한다. MongoDB => MongoDB는 다양한 플랫폼에서 사용할 수 있는 NoSQL 타입의 데이터베이스 프로그램으로, JSON과 비슷한 형태로 자료를 정리한다. - MongoDB의 자료는 각각의 딕셔너리인 도큐.. 2022. 8. 22. [Web] Python - 웹스크래핑 웹 스크래핑이란 : 웹 스크래핑(web scraping)은 웹 페이지에서 우리가 원하는 부분의 데이터를 수집해오는 것을 뜻한다. - 한국에서는 같은 작업을 크롤링 crawling이라는 용어로 혼용해서 쓰는 경우가 많다. - 원래 크롤링은 자동화하여 주기적으로 웹 상에서 페이지들을 돌아다니며 분류/색인하고 업데이트된 부분을 찾는 등의 일을 하는 것을 뜻한다. - 구글 검색을 할 때는 web scraping으로 검색해야 우리가 배우는 페이지 추출에 대한 결과가 나올 것이다. 웹 스크래핑 해보기 - 네이버 영화 순위 페이지에서 영화 제목들을 스크래핑해볼 것이다. 링크: https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303 1. 크롬 브.. 2022. 8. 22. [Web] Python - BeautifulSoup, find와 select를 사용한 웹 스크래핑 웹 스크래핑이 머리로 잘 정리되지 않아 다시 천천히 정리한다는 마음으로 쓴 포스팅이다. 웹 스크래핑의 기본 프로세스는 대개 정해진 패턴이 있다. 따지고 보면 웹 스크래핑이라는 것은 웹페이지에서 자신이 원하는 데이터를 긁어오는 것이므로 비교적 정형화된 작업이다. 정형화된 작업은 정형화된 프로세스가 있으므로 이것을 정리해서 머리에 넣어 두는 것이 중요하다. 웹 스크래핑 코딩의 기본 프로세스 1. 대상 웹페이지를 파싱(Parsing by BeautifulSoup) (* 파싱이란 문자열데이터를 분석하고 분해하여 목적한 패턴에 맞게 문자열의 구조를 결정하는 것) 2. 파싱(Parsing)된 데이터 중에서 스크래핑하고자 하는 "전체 데이터"를 선택함 : 이때 find_all 또는 select 명령어를 사용하며 얻어.. 2022. 8. 22. 이전 1 다음