본문 바로가기

IT&코딩/python

python - 웹 크롤링

728x90
반응형
# 웹 크롤링 : 웹에서 데이터 가져오는 것

# 1. HTML 소스

# ===================================
import requests

res=requests.get(url)
# ===================================
res - Response 클래스의 인스턴스

1) res.text : HTML 소스
2) res.content : 바이너리 값

2. 파싱 : 규격에 맞춰 해석함
res.text 가 python 문자덩어리라서.
# ===================================
from bs4 import Beautifulsoup

soup=Beautifulsoup(res.text, "html.parser")
# ===================================
soup : 통역가

# 3. selector : 태그를 지칭하는 방법

- 태그 그대로
- id 속성 #
- class 속성.
- 하위태그 >

# 4. soup.select(셀렉터)    : Tag 클래스의 인스턴스들의 리스트
#    soup.select_one(셀렉터) : Tag 클래스의 인스턴스

* Tag : class 인스턴스라면 할 수 있는 행위
 
.text : 텍스트 부분을 잘라 옴
.get(A) : A라는 속성의 속성값
.select(셀렉터) : 마저 자른다!

 

728x90
반응형

'IT&코딩 > python' 카테고리의 다른 글

가상환경 설치 (venv)  (0) 2024.01.23
python - 확률 미세조정  (0) 2022.09.13
python - 함수의 간결성을 이용한 프로그램  (0) 2022.09.13
python - 함수 심화  (0) 2022.09.13
python 4주차 복습-4  (0) 2022.08.01