menu trigger
訂閱電子報
訂閱
用Python爬取 Youtube 資訊
2019/05/24
F5 學程式

什麼是 BeautifulSoup4 ?


BeautifulSoup4是一個Python第三方函式庫,功能包括解析HTML、XML文檔、修復含有未閉合標籤等錯誤的檔案(此種檔案常被稱為tag soup)。這個第三方函式庫為待解析的頁面建立節點結構,以便提取其中的資訊,這在網路蒐集資訊時非常有用。 


BeautifulSoup4 可以做到...

 

BeautifulSoup4通過你喜歡的解析器實現:


資訊的組織編輯 !
資訊的爬找處理 !
資訊的內文修改 !
自動化解決這些反覆的事 !

 

這本電子書的主要內容

 

以圖文方式呈現,以便於各為快速的學習利用Beautiful Soup4 進行爬蟲,這裡將介紹了BeautifulSoup4 中幾個主要用法,並配合爬取Youtube資訊的案例,讓您熟悉Beautiful Soup的應用流程,向您展示Beautiful Soup中的函式適合做什麼、如何運作、怎樣使用,如何達到你想要的效果,以及解析器之間的差異。書中範例,同時支援python2版與python3版 !

 

沒學過Python的人,建議先看完一系列教學影片(共16集)再使用本電子書:

 

 

有Python基礎未具備網路爬蟲知識者建議觀看教學影片第14~16集

 

 

本書目錄:

 

第1章 初始準備

  1. 如何安裝Python套件
  2. 解析器之間的差異
  3. 快速開始

 


第2章 爬蟲基本常用語法

  1. 如何找尋所要資訊的辨別條件
  2. 使用 find( ) 用法
  3. 使用 find_all( ) 用法
  4. 使用 select( ) 用法
  5. 使用 get( ) 用法

 


第3章 爬蟲實戰-Youtube

  1. 抓取所有 MV
  2. 抓取影片Title
  3. 抓取影片Link
  4. 抓取影片發佈時間與觀看次數
  5. 抓取影片Img
  6. 最後統整


第4章 深入學習

  1. 參考文件

 

下一篇:1.1 如何安裝Python套件