728x90
반응형
# 웹 크롤링 : 웹에서 데이터 가져오는 것
# 1. HTML 소스
# ===================================
import requests
res=requests.get(url)
# ===================================
res - Response 클래스의 인스턴스
1) res.text : HTML 소스
2) res.content : 바이너리 값
2. 파싱 : 규격에 맞춰 해석함
res.text 가 python 문자덩어리라서.
# ===================================
from bs4 import Beautifulsoup
soup=Beautifulsoup(res.text, "html.parser")
# ===================================
soup : 통역가
# 3. selector : 태그를 지칭하는 방법
- 태그 그대로
- id 속성 #
- class 속성.
- 하위태그 >
# 4. soup.select(셀렉터) : Tag 클래스의 인스턴스들의 리스트
# soup.select_one(셀렉터) : Tag 클래스의 인스턴스
* Tag : class 인스턴스라면 할 수 있는 행위
.text : 텍스트 부분을 잘라 옴
.get(A) : A라는 속성의 속성값
.select(셀렉터) : 마저 자른다!
728x90
반응형
'IT&코딩 > python' 카테고리의 다른 글
가상환경 설치 (venv) (0) | 2024.01.23 |
---|---|
python - 확률 미세조정 (0) | 2022.09.13 |
python - 함수의 간결성을 이용한 프로그램 (0) | 2022.09.13 |
python - 함수 심화 (0) | 2022.09.13 |
python 4주차 복습-4 (0) | 2022.08.01 |