把知識從殿堂中解放出來,Internet Archive 要當人類文明的檔案管理員

| |

科技是一種不斷向前看的領域,各種新鮮事物不斷誕生,許多人都希望自己能夠活在未來。不過,在舊金山的一座古老教堂裡面,有一小群人癡迷於「囤積」過去,忙碌地將來自世界各地的大量書籍、錄音帶跟黑膠唱片轉成數位檔案;而生生不息的網頁,也在發出冷冽藍光的伺服器中留下副本。

這一切始於 25 年前,數位圖書館員 Brewster Kahle 將自己共同創辦的網站監測工具 Alexa 賣給亞馬遜之後,創立了「網際網路檔案館」——Internet Archive。他希望發揚埃及亞歷山大圖書館的理念,讓「普及所有知識」的願望透過網路成真。

根據文獻記載,亞歷山大圖書館興建於西元前三世紀的埃及港口,他們求知若渴,透過貿易、掠奪等方式蒐羅世界各地的文獻寶典,行經該港口的商船也得留下船中所有文件的手抄副本才能離去。

這座曾經擁有全世界藏書最多最豐富的圖書館早已被摧毀,但它保留資訊的方式——無論人類創造了什麼知識,通通都要拷貝一份的野心,在 2000 年後的 Internet Archive 發揚光大。

網頁收集偏執狂: Wayback Machine

Internet Archive 的拷貝行動是從網頁開始的。

史上第一個網頁在 1991 年上線,五年後 Internet Archive 的「網頁時光機(Wayback Machine)」服務就開始備份整個網際網路。

25 年來,網頁時光機累計收錄了 4750 億個網頁。而根據最新統計,目前全球可以被檢索到的網頁大約有 60 億個,這或許解釋了「網頁時光機」的重要性:你可以在「網頁時光機」裡面,找到許多本來已經消失的網頁。

Twitter 關閉川普的帳號時,大概也只有 Internet Archive 可以查到最完整的遺跡(圖片來源:Internet Archive)

網頁時光機與 Google 搜尋引擎都是爬蟲技術的運用,但不同的是,Google 比較在意網頁的最新版本,時光機則偏執地保存每個網頁的前世今生。

每天,時光機的爬蟲都會將四處採集的網頁與其 JavaScript、CSS 等檔案一同收到伺服器中,確保未來的使用者檢閱時能夠看到網頁的完整樣貌。此外,爬蟲也會盡可能順道拜訪站內所有連結,並且一併將這些連結的網頁存下來,等於複製整個網站,因此使用者在查看時,也能窺見整個網站地圖。

三創育成基金會的網站痕跡都保存在「時光機」裡面,點選日期就可以回顧先前的版本(圖片來源:Internet Archive)

除了靠著爬蟲自動採集,其實每個人也都能擔任手動備份員,只要直接在瀏覽器中安裝時光機的外掛,想要備份某個網頁時,點擊一下就能將網頁此刻的狀態收存到全世界的檔案櫃裡面,讓其他網友能夠查閱與運用,目前每個禮拜大約都有 100 萬個網頁存檔,來自網友的舉手之勞。

如果你曾仔細看過維基百科的資料引述區塊,肯定會對「網際網路檔案館」有印象,2018 年 Internet Archive 開發了維基百科機器人,探測失效連結,將 1,000 萬個失效連結自動對應回「時光機」備份的網頁網址。如果缺少網頁時光機,維基百科的信任度大概會被大幅掏空。

MSNBC 主持人 Rachel Maddow 盛讚網頁時光機是「國家寶藏」,她製作的節目已經使用「時光機」數千次找尋網頁留存的證據,「如果我們想找什麼資料但網頁被消失了,它(時光機)就是我們第一個想到的地方。」它對記者或研究人員是不可或缺的來源,台灣《報導者》網站 2019 年揭露跨國內容農場產業鍊也詳述他們如何運用網頁時光機,讓內容農場的過去無所遁形。

不過「網頁時光機」當然有其侷限,它無法做到每分每秒擷取每個網站。Brewster Kahle 解釋,除了 Google 或《紐約時報》這類具有影響力而且變動快速的網站,可能每天都會被爬蟲眷顧幾百次,其他網站就沒有那麼頻繁了。此外,如 Facebook 般的社群網站與封閉式論壇,以及築起付費牆的網站,也可能讓可以收錄的網頁數量縮水;有些網頁也會因為收到「刪除」的請求而撤除。

「時光機」無法做到盡善盡美,但無論如何,Brewster Kahle 期望全世界每個網站至少都有一個網頁被收錄。

絕版書籍、唱片與軟體進行數位重生

網頁可以交給爬蟲以及散佈在全世界各地的網友處理,Internet Archive 的 160 名員工每天最忙碌的則是把全世界捐獻的黑膠唱片、錄影帶、書籍與軟體進行數位建檔,放到網站上提供所有人查找取用。

這些貯藏知識的實體物件過去可能只能被供在地球上某座神聖殿堂,像是博物館、美術館或大學圖書館之類的地方,只有少數人才能使用。但 Brewster Kahle 相信,唯有將這些物件轉化成可在數位世界流通的形式,才能在全世界每個角落為人跟知識製造更多相遇的時刻,也唯有相遇才能產生更多新的知識、推動人類文明繼續前進。

Internet Archive 工作人員將書籍一頁一頁翻開,確保書籍每頁都被如實掃進電腦

前陣子 Internet Archive 陸續釋出書籍跟唱片數位化的實況影片,引起許多網友驚嘆。在 2021 年的今天,實體書籍數位化仍是高度的體力活,必須由志工將書本一頁一頁翻開,攤平紙張,確保每頁都被如實掃進電腦,而且文字品質清晰足以辨識。Brewster Kahle 說,「我以為來幫我們掃描書籍的人頂多只會工作幾個月,但許多人日復一日做了超過五年。他們愛書,而且想要看到書籍被保留,並且看到他們永遠存在。」

目前 Internet Archive 跟全球 500 多間圖書館、基金會合作,大多來自政府出版的書籍、絕版書,並在全球設有 33 個圖書掃描中心,每天大概以掃描 1,000 本書的速率前行。不若 Google 圖書只提供部分頁面讀取,Internet Archive 掃描的每一本書都是全文開放,讀者可以透過試閱或租借免費讀取整本書籍。不過在 Internet Archive 借書依然要遵守座實體圖書館的規則:借閱會有期限,書本數量也有限制,如果想借的書被借走了,還是要排隊等候。

除了網頁、書籍、錄像與文本,Internet Archive 最讓我驚喜的一點是它也收藏了許多遊戲跟軟體,而且大多都有提供模擬器跟映像檔,可以直接在瀏覽器上操作。

在 Internet Archive 網站上操作數十年前的試算表軟體 VisCalc(圖片來源:Internet Archive)

前陣子閱讀 Quartz 介紹試算表簡史時,一直好奇世界上第一套試算表「VisCalc」究竟是怎麼運作的?沒想到在 Internet Archive 上真的找到了這個軟體,儘管不能算是真正的應用程式,但能夠在瀏覽器中用鍵盤於試算表中輸入文字、在儲存格左右之間移動,已足以讓我對這個「全世界第一套試算表」有了「感覺」,而不是只能透過文字或靜態的圖像憑空揣想。

電玩遊戲也是 Internet Archive 備受歡迎的館藏,從 MS-DOS、如果突然想起某款 10 歲時打的電動,現在就可以直接在 Internet Archive 的軟體收藏庫裡回味俄羅斯方塊、毀滅戰士、接龍等等經典電玩。

人類文明的檔案管理員

其實在許多領域都有保存跟歸檔的作法,例如警察的案件檔案室、各大報社收存新聞剪報的知識庫、跨國生態組織也為種子建立了銀行,去年 GitHub 還宣布已把程式碼封存到 piqlFilm 膠卷中,送到北極冰存,可以留存長達 1,000 年。不過 Internet Archive 或許可以說是唯一一個對全世界開放、讓所有人能夠隨時存取的服務。

一直以來,Internet Archive 的營運都是仰賴世界各地的圖書館、基金會等機構的捐獻以及個人贊助。Brewster Kahle 懇切呼籲,如果每個曾經 Internet Archive 使用者都能捐出 5 美金,Internet Archive 就能永久持續運作,不讓資訊的保存中斷。

Internet Archive 彷彿全球知識的檔案管理員,如果想了解人類文明,這必定是一個重要入口。萬一它遭遇不測,數千億網頁、數千萬本書籍與音檔也將灰飛煙滅。因此,在舊金山總部之外,Internet Archive 也在埃及亞歷山大、荷蘭阿姆斯特丹設有分部,保留人類文明的第二、第三副本。

「如果知識沒有被數位化,那麼終將被遺忘」Brewster Kahle 說道。網頁、文本、影片、錄音、軟體和圖片的生命如蜉蝣隨時可能絕跡,但它們會永遠活在網路檔案館裡面,為研究員、新聞記者、數位偵探、以及任何求知若渴的人,做好備援。

資料來源

(文章代表圖:Photo by kdrosen7900 on Flickr

本文依 CC 創用姓名標示 - 非商業性 - 相同方式分享 4.0 國際釋出
Previous

科技創業週報 #282:從將來銀行看大型系統整合挑戰

《星箭廣播》106 集——五星推爆!聊聊生活中的評分系統 ⭐️⭐️⭐️⭐️⭐️(新角色登場!)

Next
Share via
Copy link
Powered by Social Snap