by CodeJin19
~1 min read

Categories

Tags

Python 설치

파이썬 공식 홈페이지 링크

위의 파이썬 공식 홈페이지 링크에 가서 설치 프로그램을 다운받자. 메인화면에 최신 버전으로 다운받을 수 있는 버튼이 있다. 설치파일을 시작하면 하단부에 “Add Python (버전) to PATH” 옵션이 있는데 이 옵션을 선택하고 설치하면 된다.


Module 설치

파이썬으로 크롤링을 하려면 requests 모듈을 써야하는데, 이 모듈을 추가로 설치해야 한다. cmd창에서 다음 명령어로 설치할 수 있다.

pip install requests

Beautiful Soup 라이브러리도 필요한데, 이 역시 추가로 설치가 필요하다. 마찬가지로 cmd창에서 다음 명령어로 설치할 수 있다.

pip install beautifulsoup4


크롤링 기초

우선 Beautiful Soup를 사용하지 않고, requests 모듈만 사용해서 크롤링을 해보자.

import requests

webpage = requests.get("https://www.naver.com/")
print(webpage.text)

위의 예제는 네이버 메인화면의 HTML 문서를 크롤링해서 출력한다. HTML문서에서 내가 원하는 데이터만 크롤링하기 위해서는 라이브러리의 도움이 필요한데, 이 역할을 하는 게 Beautiful Soup이다.


Beautiful Soup 사용하기

import requests
from bs4 import BeautifulSoup

webpage = requests.get("https://www.naver.com/")
soup = BeautifulSoup(webpage.content, "html.parser")

print(soup)