menu trigger
訂閱電子報
訂閱
1.3_快速開始
2019/05/24
F5 學程式

進行步驟

 


1.首先我們把requests給import進來。
2.把BeautifulSoup從bs4給import進來。
 

如下:

 

import requests
from bs4 import BeautifulSoup

 

3.將想要爬蟲的位置放入requests.get( )裡面,再存入一個變數中。

 

如下:

 

request = requests.get("https://www.youtube.com/results?search_query=%E5%91%A8%E6%9D%B0%E5%80%AB")

 

或者將url存入一個變數中再放入 requests.get( ) 裡面也可以。

 

如下:

 

url = "https://www.youtube.com/results?search_query=%E5%91%A8%E6%9D%B0%E5%80%AB"
request = requests.get(url)

 

4.再使用BeautifulSoup將內容放入,以及選擇一個解析器來解析,再存入變數當中。
 

如下:

 

soup = BeautifulSoup(requests, "html.parser")

(這邊使用"html.parser"作為解析器,因為是python內建的函式庫)

 

5.最後使用print( )來觀看結果。
 

如下:

 

print(soup)

 

結果如下:

 

<!DOCTYPE html>

<link href="/yts/cssbin/www-core-vflNpAjxo.css" name=www-core rel="stylesheet">
<link href="/yts/cssbin/www-pageframe-vflvmMK_J.css" name=www-pageframe rel="stylesheet">
<link href="/yts/cssbin/www-guide-vflJFFhnq.css" name=www-guide rel="stylesheet">
<title>周杰倫 - YouTube</title><link href="https://m.youtube.com/results?search_query=%E5%91%A8%E6%9D%B0%E5%80%AB" media="handheld" rel="alternate"><link href="https://m.youtube.com/results?search_query=%E5%91%A8%E6%9D%B0%E5%80%AB" media="only screen and (max-width: 640px)" rel="alternate"><meta content="在 YouTube 上盡情享受您喜愛的影片和音樂、上傳原創內容,並與親朋好友和全世界觀眾分享您的影片。" name=description><meta content="影片、分享、視訊電話、影像電話、免費、上傳" name=keywords><link href="/manifest.json" rel="manifest"><link href="https://www.youtube.com/opensearch?locale=zh_TW" rel="search" title="YouTube 影片搜尋" type=application/opensearchdescription+xml><link href="https://s.ytimg.com/yts/img/favicon-vflz7uhzw.ico" rel="shortcut icon" type=image/x-icon> <link href="/yts/img/favicon_32-vfl8NGn4k.png" rel="icon" sizes="32x32"><link href="/yts/img/favicon_48-vfl1s0rGh.png" rel="icon" sizes="48x48"><link href="/yts/img/favicon_96-vfldSA3ca.png" rel="icon" sizes="96x96"><link href="/yts/img/favicon_144-vflWmzoXw.png" rel="icon" sizes="144x144"><metacontent="#e62117" name=theme-color> <link href="/yts/cssbin/www-results-vfle5hDed.css" name=www-results rel="stylesheet">
<link href="/yts/cssbin/www-home-c4-vflW-Xj5P.css" name=www-home-c4 rel="stylesheet">

.........以上部分省略

 

這樣我們就成功把該頁資訊給抓取下來了。

但假如想要更精細的資訊~當然就要做更細部的處理。

 

最後程式碼:

 

import requests
from bs4 import BeautifulSoup

url = "https://www.youtube.com/results?search_query=%E5%91%A8%E6%9D%B0%E5%80%AB"
request = requests.get(url)
content = request.content
soup = BeautifulSoup(content, "html.parser")
print(soup)

 

下一篇:2.1 如何找尋所要資訊的辨別條件

上一篇:1.2 解析器之間的差異