[모각코_크롤링] 정적 크롤링 2

[공부 내용]

정적 크롤링을 위한 라이브러리 "BeautifulSoup"가 있다

BeautifulSoup 라이브러리는 HTML 문서를 탐색해서 원하는 부분만 쉽게 뽑아낼 수 있게 해 준다.

requests 라이브러리를 통해 HTML 전체를 불러왔다면 BeautifulSoup을 이용하여 원하는 태그를 뽑아낸다.

import requests

lotto_url = 'https://dhlottery.co.kr/gameResult.do?method=byWin'
raw = requests.get(lotto_url)
print(raw.text)

위 코드는 HTML 코드 자체를 출력한 것이 아닌, HTML 코드를 문자열 타입으로 출력한 것이다.

크롤링을 위해서는 실제 HTML 코드를 다뤄야 한다.

따라서, BeautifulSoup 라이브러리를 통해 실제 코드로 변환해야 한다.

> BeautifulSoup

BeautifulSoup 은 bs4 라는 변수명을 가진다.

from bs4 import BeautifulSoup

BeautifulSoup(문자열, 'html.parser')

실제 HTML 코드.find_all('태그')
실제 HTML 코드.find_all('선택자 정보')
실제 HTML 코드.find_all(['태그','태그'])

실제 HTML 코드.find('태그')
실제 HTML 코드.find('선택자 정보')
실제 HTML 코드.find('태그','선택자 정보')

BeautifulSoup(문자열, 'html.parser') = 문자열을 HTML 코드로 해석하여 읽어라

- find_all(#) : HTML 코드에서 원하는 부분을 모두 가져온다.

해당 태그의 모든 HTML코드를 리스트 형태로 반환한다.

- find(#) : HTML 코드에서 원하는 부분을 하나만 가져온다.

따라서, find() 와 find_all() 을 적절하게 사용하여 크롤링을 해야한다.

저작자표시 비영리 변경금지 (새창열림)

'코린이_탈출 > 크롤링' 카테고리의 다른 글

[모각코_크롤링] 정적 크롤링 4 (1)	2021.01.21
[모각코_크롤링] 정적 크롤링 3 (0)	2021.01.20
[모각코_크롤링] 정적 크롤링 1 (0)	2021.01.18
[모각코_크롤링] 선택자 (0)	2021.01.15
[모각코_크롤링] HTML 구조 (0)	2021.01.14

dlsalfkd11 코딩코딩

[모각코_크롤링] 정적 크롤링 2

'코린이_탈출 > 크롤링' 카테고리의 다른 글

티스토리툴바

[모각코_크롤링] 정적 크롤링 2

'코린이_탈출 > 크롤링' 카테고리의 다른 글

'코린이_탈출/크롤링' Related Articles

티스토리툴바