python - 웹 크롤링

728x90

# 웹 크롤링 : 웹에서 데이터 가져오는 것

# 1. HTML 소스

# ===================================

import requests

res=requests.get(url)

# ===================================

res - Response 클래스의 인스턴스

1) res.text : HTML 소스

2) res.content : 바이너리 값

2. 파싱 : 규격에 맞춰 해석함

res.text 가 python 문자덩어리라서.

# ===================================

from bs4 import Beautifulsoup

soup=Beautifulsoup(res.text, "html.parser")

# ===================================

soup : 통역가

# 3. selector : 태그를 지칭하는 방법

- 태그 그대로

- id 속성 #

- class 속성.

- 하위태그 >

# 4. soup.select(셀렉터) : Tag 클래스의 인스턴스들의 리스트

# soup.select_one(셀렉터) : Tag 클래스의 인스턴스

* Tag : class 인스턴스라면 할 수 있는 행위

.text : 텍스트 부분을 잘라 옴

.get(A) : A라는 속성의 속성값

.select(셀렉터) : 마저 자른다!

728x90

움베르토 에코의 반서재