網(wǎng)頁檔案信息長期保存的策略。從國內(nèi)外網(wǎng)頁檔案長期保存的項目來看,其多為公益性項目,同時大部分的項目都是在政府部門的支持下由多個部門聯(lián)合參與或者舉辦的,如國家檔案館、高校、網(wǎng)絡(luò)中心或者信息中心、商業(yè)部門和公益性機構(gòu)。如澳大利亞的數(shù)字檔案PANDORA項目和我國的“中國Web信息博物館”項目,都是由圖書館、檔案館和高校聯(lián)合參與的;诰W(wǎng)頁采集的動態(tài)變化性和多樣性等特點,僅有檔案館或者圖書館單獨承擔這類大項目是不現(xiàn)實的,因此必須鼓勵多方力量共同參與到網(wǎng)頁長期保存中。具體來說,就是要做好職能劃分和利益分配的工作。首先,參與單位可以在法律允許的范圍內(nèi)對網(wǎng)頁檔案信息資源進行合理的利用,如圖書館和檔案館可以利用網(wǎng)頁資源進行檔案服務(wù)的深度開發(fā)與加工。其次,網(wǎng)頁檔案采集工作對技術(shù)的依賴性較高,因此還要支持和鼓勵互聯(lián)網(wǎng)企業(yè)或者信息技術(shù)企業(yè)參與到項目中,為采集項目提供技術(shù)上的支持。最后,還要不斷豐富采集項目的資金來源,利用項目眾籌和社會募捐等非政府撥款方式募集資金,為采集項目提供更多的資金支持。
當前網(wǎng)頁檔案信息的主要采集策略有兩種,分別是完全性采集策略和部分性采集策略。完全性收集策略是指對網(wǎng)頁的所有信息進行收集。目前,瑞典、奧地利和美國的多個網(wǎng)頁檔案保存項目采用了完全性采集策略。完全性采集策略的優(yōu)勢在于不需要人工對網(wǎng)頁內(nèi)容進行判斷和復(fù)制,而是完全由機器完成這一操作,因此其成本較低。對于小型的、資金較為缺乏的檔案管理部門,可適當?shù)剡x擇完全性收集策略,但需要注意對信息進行過濾。內(nèi)容結(jié)構(gòu)和類型較為單一的網(wǎng)站可通過設(shè)置關(guān)鍵詞對無用信息進行過濾,同時建立定期的人工審核機制。
部分性采集策略是指有選擇地對網(wǎng)頁的某個類型或者學(xué)科的內(nèi)容進行收集,因此其內(nèi)容的專業(yè)性較強,主題也十分鮮明。與完全性采集策略不同的是,部分性采集以價值判斷為基礎(chǔ),通過制定完善的采集標準限定采集的內(nèi)容,因此標準是否合理就成為部分性采集是否成功的決定性因素。對此,檔案管理部門在選擇部分性采集策略時,應(yīng)充分考慮到網(wǎng)頁檔案信息的動態(tài)變化性,對網(wǎng)頁信息實行動態(tài)監(jiān)控,并及時調(diào)整采集策略,不斷提高網(wǎng)頁采集的覆蓋率。