๐ [Python] ํฌ๋กค๋ง์ด ๋ญ์ง?
Crawler์ ๋ป
- ๊ธฐ๋ ๊ฒ
- ํ์ถฉ๋ฅ
๊ธฐ์ด๋ค๋๋๊ฒ ์ ํฌ์ฝ๋ง?
ํฌ๋กค๋ง์ ์ธํฐ๋ท์ ๊ธฐ์ด๋ค๋๋ฉด์
๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ณผ์ ์ด๋ค. ๊ทธ๋์ ํฌ๋กค๋ง!
์น ํฌ๋กค๋ฌ
์น ํฌ๋กค๋ฌ
๋ ์น ํ์ด์ง์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์์ฃผ๋ ์ํํธ์จ์ด์
๊ทธ๋ฌ๋ฉด? ์น ํฌ๋กค๋ง์ ํฌ๋กค๋ฌ๋ฅผ ์ฌ์ฉํด์ ์น ํ์ด์ง์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํด ๋ด๋ ํ์๋ฅผ ๋งํ๋ค!
url์์ html ๋ฐ์ดํฐ ๊ฐ์ ธ์ค๊ธฐ
import requests
url = "http://www.daum.net"
response = requests.get(url)
print(response.text)
BeautibulSoup ์ฌ์ฉํ๊ธฐ
import requests
from bs4 import BeautifulSoup
url = "http://www.daum.net/"
response = requests.get(url)
# print(response.text)
print(BeautifulSoup(response.text, 'html.parser'))
- response.text๋ ๊ฐ์ ๊ฒฐ๊ณผ๊ฐ ๋์ด!
- ๊ทผ๋ฐ? response.text์ beautifulSoup๋ก ๊ฐ์ ธ์จ ๋ฐ์ดํฐ๋ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์
html์์ ํ๊ทธ ๋ฐ์ดํฐ ๊ฐ์ ธ์ค๊ธฐ
import requests
from bs4 import BeautifulSoup
url = "http://www.daum.net/"
response = requests.get(url)
# print(response.text[:500])
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.title)
print(soup.title.string)
span ํ๊ทธ ํ์ฑํ๊ธฐ
print(soup.span)
- ์ด๋ ๊ฒ ํ๋ฉด ๊ฐ์ฅ ์๋จ์ span๋ง ๊ฐ์ ธ์ด
๋ชจ๋ span ํ์ฑํ๊ธฐ
print(soup.findAll('span'))
๋ชจ๋ ํ๊ทธ ํ์ฑํ๊ธฐ
from bs4 import BeautifulSoup
import requests
url = "http://www.daum.net/"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# file = open("daum.html","w")
# file.write(response.text)
# file.close()
# print(soup.title)
# print(soup.title.string)
# print(soup.span)
# print(soup.findAll('span'))
# html ๋ฌธ์์์ ๋ชจ๋ aํ๊ทธ๋ฅผ ๊ฐ์ ธ์ค๋ ์ฝ๋
print(soup.findAll("a","link_favorsch"))
- ๋ฌธ์์์ ๋ชจ๋ aํ๊ทธ ์ค์ link_favorsch๋ฅผ ๊ฐ์ง ๊ฒ๋ง ๊ฐ์ ธ์๋ผ
๋๊ธ๋จ๊ธฐ๊ธฐ