忘了備份要如何救回部落格網站文章內容、圖片

最近接到一個比較罕見的需求，案主表示 Blogger 每篇文章設定的「搜尋說明」(可參考「Blogger 文章設定」→「六、搜尋說明」)，在今年 5~6 月間的文章都不見了，詢問有沒有辦法可以救回。

以前曾寫過「Blogger 網站消失」、「Blogger 文章誤刪」的案例，這次的案例看起來比較輕微一些，至少文章還在，只是某些資訊消失了。

由於之前的案例發生在 4~5 年前，當時還不知道「Wayback Machine」(網站時光機)這個網路服務，否則的話，這個超強的網路服務有機會可以救回所有不見的網頁內容，可以說是目前最強的網頁救援武器。

當然，建立網頁備份的觀念才是終極解決方案，但是網頁會急著需要救援一定都是還沒想到要備份之下發生的憾事，那麼本篇就來看看如何操作這個工具。

一、網站時光機 Wayback Machine

1. 簡介

可參考 Wiki 的介紹「網站時光機」，這是一個非營利組織「網際網路檔案館」提供的服務，創辦人希望為網際網路提供「普遍取得所有知識」的途徑。

構想十分偉大，因為無償需要用來儲存的伺服器空間非常巨大，該網站進入後就有個 DONATE 按鈕，WFU 因為靠這個網站救回一些重要資料，也曾贊助過表達一點心意。

2. 教學文章參考

「免費資源網路社群」曾寫過這篇「Wayback Machine 網站時光機帶你重溫那些年」，除了簡單介紹這個網站，也提供了「網頁備份」的操作步驟教學心得。

3. 優缺點說明

有的站長或許習慣使用 Google 搜尋結果的「庫存頁面」功能來救援網頁，不過「庫存頁面」能做到的其實有限，否則 WFU 也不會對 Wayback Machine 心存感激了。Google 庫存頁面的優缺點在於：

索引速度會比 Wayback Machine 快
但只有一個版本，所以只會保留最新庫存頁面狀態
萬一要救援的網頁內容，最新狀態已經被 Google 索引，也就是錯誤的頁面內容已經被索引，那麼就看不到以前的正確頁面內容了
所以救援網頁要靠「庫存頁面」的話，手腳必須比 Google 還快才行

而 Wayback Machine 雖然是目前最強的工具，也不代表他可以 100% 救回所有頁面，因為：

NGO 資源畢竟有限，不會保存世界上所有網頁
越熱門的網頁，Wayback Machine 的更新會越頻繁、保留的版本數也越多
不熱門的網頁，說不定只會有一個版本
也可能某些低流量的網頁，完全不會被 Wayback Machine 收錄

二、如何救回完整網頁內容

首先拿一篇文章當範例，說明如何利用 Wayback Machine 找回文章內容。我從 10 月的文章一路測試到 7 月底，終於找到三個月前有被收錄的文章，代表 Wayback Machine 索引速度很慢。

1. 取得網頁快取內容

範例文章為這篇「Adsense 申請 + 廣告無法顯示的各種疑難雜症整理」，在 Wayback Machine 首頁輸入該篇網址：

Wayback Machine

web-page-recover-content-image-wayback-machine-1.jpg-忘了備份要如何救回部落格網站文章內容、圖片

A：輸入要救回的網址
B：如果有被收錄的話，記下這裡的收錄日期
C：在月曆找到對應的日期，滑鼠移到日期上
D：會出現收錄的時間點，點擊這個連結，會出現快取頁面

2. 取得網頁內容

web-page-recover-content-image-wayback-machine-2.jpg-忘了備份要如何救回部落格網站文章內容、圖片

上圖是快取頁面，如果只是要取得純文字，那麼直接從頁面上選取、複製即可。

如果要取得 HTML 碼的話，有兩種方式：

按滑鼠右鍵 → 檢視網頁原始碼 → 找到文章區塊的段落來複製
使用瀏覽器，例如「Chrome 開發人員工具」，因為可以收合 HTML 內容，處理比較方便

3. 調整 HTML 內容

web-page-recover-content-image-wayback-machine-3.jpg-忘了備份要如何救回部落格網站文章內容、圖片

並不是拿到快取頁面的 HTML 就能直接拿來用，因為裡面的連結全部被加上特定的字串，必須一一去除。請見上圖：

所有紅色底線的地方，可看出圖片網址或連結網址，前面都有 "http://web.archive.org/web/xxxxxxxxx"這樣的字串
可將內容複製到文書處理軟體，用全部取代的方式，一一去除這些字串，留下原始的網址連結。
紅框處可看到 <a name="more"></a>，原本是部落格文章「繼續閱讀」的程式碼，但被轉換成這樣的 HTML
要把紅框處字串改成 才能正確變成繼續閱讀標記

主要修改的地方有這些，改完才能將這些 HTML 碼貼回網站。

三、搭配 Feedly 使用

如果你的網站是部落格，那麼還有另一個救命仙丹「Feedly RSS 閱讀器」，只要有人訂閱過網站，Feedly 就會自動保留文章備份內容。

但 Feedly 不一定有 Wayback Machine 好用，以下是優缺點：

Feedly 大致是 2013 年左右接下 Google Reader 的位置
在那個時間點之前的文章，伺服器多半沒有備份資料
所以 Feedly 能保存的資料比較少
Feedly 網頁的內容會加料，不容易直接複製 HTML 碼
只適合救回文字及(圖片)連結

因為 Wayback Machine 有可能某些網頁沒有收錄快取，那麼 Feedly 可能就會是那些頁面的救星。

四、如何救回 Blogger 搜尋說明

回到開頭的案件，Blogger 每篇文章的「搜尋說明」，在頁面上是看不到這些內容的，那麼要如何找到「搜尋說明」呢？

在 Blogger 範本中，跟搜尋說明有關的 Blogger 語法是 data:blog.metaDescription，需要先到範本中看看，這個語法出現在範本中時的前後字串、段落是什麼，再到快取頁面尋找。

例如前面的範例網頁，網頁原始碼畫面如下：

web-page-recover-content-image-wayback-machine-4.jpg-忘了備份要如何救回部落格網站文章內容、圖片

以這個案例來看，「搜尋說明」的相關語法出現在字串 og:description附近
上圖紅框標起來的字串，正是在 og:description同一行的位置
那麼這些字串就是當初所設定的「搜尋說明」字串

五、補充說明

從本篇的案例來看，如果不是自己手誤、不小心刪除文章的相關資訊，那麼很可能是 Blogger 伺服器的失誤，導致部分資訊消失。這件事告訴我們不可完全信任網路服務，站長們有必要自己執行備份的任務。

經由本篇說明，我們可以了解到 Wayback Machine + Feedly 有辦法救回多數的頁面內容，但不一定是 100%。想要萬無一失的話，必須儘早養成備份網頁的習慣，而且是同步異地備份。

可參考「自動備份 Blogger 文章」，同時採取多個自動備份的方案，就比較不用擔心任何天災人禍了。

更多「網站工具」相關文章：

忘了備份要如何救回部落格網站文章內容、圖片

一、網站時光機 Wayback Machine

二、如何救回完整網頁內容

三、搭配 Feedly 使用

四、如何救回 Blogger 搜尋說明

五、補充說明

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本