[공부 내용]
정적 크롤링을 위한 라이브러리 "BeautifulSoup"가 있다
BeautifulSoup 라이브러리는 HTML 문서를 탐색해서 원하는 부분만 쉽게 뽑아낼 수 있게 해 준다.
requests 라이브러리를 통해 HTML 전체를 불러왔다면 BeautifulSoup을 이용하여 원하는 태그를 뽑아낸다.
import requests
lotto_url = 'https://dhlottery.co.kr/gameResult.do?method=byWin'
raw = requests.get(lotto_url)
print(raw.text)
위 코드는 HTML 코드 자체를 출력한 것이 아닌, HTML 코드를 문자열 타입으로 출력한 것이다.
크롤링을 위해서는 실제 HTML 코드를 다뤄야 한다.
따라서, BeautifulSoup 라이브러리를 통해 실제 코드로 변환해야 한다.
> BeautifulSoup
BeautifulSoup 은 bs4 라는 변수명을 가진다.
from bs4 import BeautifulSoup
BeautifulSoup(문자열, 'html.parser')
실제 HTML 코드.find_all('태그')
실제 HTML 코드.find_all('선택자 정보')
실제 HTML 코드.find_all(['태그','태그'])
실제 HTML 코드.find('태그')
실제 HTML 코드.find('선택자 정보')
실제 HTML 코드.find('태그','선택자 정보')
BeautifulSoup(문자열, 'html.parser') = 문자열을 HTML 코드로 해석하여 읽어라
- find_all(#) : HTML 코드에서 원하는 부분을 모두 가져온다.
해당 태그의 모든 HTML코드를 리스트 형태로 반환한다.
- find(#) : HTML 코드에서 원하는 부분을 하나만 가져온다.
따라서, find() 와 find_all() 을 적절하게 사용하여 크롤링을 해야한다.
'코린이_탈출 > 크롤링' 카테고리의 다른 글
[모각코_크롤링] 정적 크롤링 4 (1) | 2021.01.21 |
---|---|
[모각코_크롤링] 정적 크롤링 3 (0) | 2021.01.20 |
[모각코_크롤링] 정적 크롤링 1 (0) | 2021.01.18 |
[모각코_크롤링] 선택자 (0) | 2021.01.15 |
[모각코_크롤링] HTML 구조 (0) | 2021.01.14 |