每一個網(wǎng)站都以一個標(biāo)準(zhǔn)的情勢全部打包?一個名為 InternetArchive網(wǎng)站就在做全數(shù)因特網(wǎng)的存檔任務(wù)。但是懷疑這項使命真的那么無心義嗎?由于我現(xiàn)在根蒂就看不懂兩千年前的數(shù)據(jù),另一個問題是如何存檔存有巨量信息的因特網(wǎng)?現(xiàn)在有人在做這種工作。那兩千年以后的人能看懂現(xiàn)在保留的數(shù)據(jù)嗎?
其統(tǒng)計了停止2010年8月1號全世界所有圖書的數(shù)目,導(dǎo)語:谷歌搜索公司谷歌搜索圖書(GooglBook團隊在其官方博客上發(fā)表博文稱。一共約1億2986萬4880本。科技博客CrunchGear發(fā)表攻訐文章對谷歌搜索圖書計劃做了批評,感到該計劃實施難度龐大,但影響將會不可估量。以下是攻訐全文:
書的數(shù)量可以或許說不計其數(shù)。谷歌搜索圖書將使世界上所有的圖書都可以在線搜索,谷歌搜索的目標(biāo)一向是將地球上所有的數(shù)據(jù)都電子化、分類、索引到其巨大的服務(wù)器里。谷歌搜索圖書生怕是這個龐大的工程中最有野心的布局之一。但是不要忘了人類將文字和聰明記實入圖書里已經(jīng)有了五、六千年的汗青。影響將是不可估計的谷歌搜索為了完成這一浩大的工程,利用了當(dāng)今很多最新的科技手法。
報告了如何計算出世界上所有的圖書有1億2986萬4880本這個他感到相對正確的數(shù)字的谷歌搜索圖書團隊剛在其官方博客發(fā)了一篇博客。
但是很樂意看到主動去挑戰(zhàn)海量的數(shù)據(jù)。因為這意味著,實在我對他詳細(xì)是如何得出這一數(shù)字并不感興趣。將來我尚有很多東西可以或許進修,尚有很多關(guān)于如何處理數(shù)據(jù)的成就會被提出。
還要與浩大大學(xué)藏書樓、公共藏書樓、私人保藏、博物館等等非常多的機構(gòu)單干,舉個例子說:谷歌搜索要處理非常多類似于ISBN海內(nèi)標(biāo)準(zhǔn)書號)圖書數(shù)據(jù)。處理這些機構(gòu)供應(yīng)的類似的圖書記實,并分辯出這些記錄的藐小差別。假想高效的算法來從這些重疊非常多的圖書記錄中找到每一本書的最初版本不是一件容易的事,毫無疑問必要頻仍的人工干涉干與。谷歌搜索必要利用了類似于算法的軌范分辨、分類、分析大批的圖片。
利用OCR光學(xué)字符識別)技術(shù)掃描圖書并非易事。比方:錯誤率要控制在幾多?對于不合印刷技巧的書是否需要不同的掃描儀?否必要人工清理冊頁的褶皺?手動翻書的人的手指擋住了部分內(nèi)容信息怎么辦?如此之類的成就數(shù)不勝舉。
書籍作品自己的規(guī)律必定程度上降低了掃描任務(wù)的難度。大部分圖書作品都有很清晰的開頭和結(jié)尾,固然。期刊和雜志都是定期發(fā)行編號清晰等等。