2008-04-11

[Linguistics] DOI 轉址與電子期刊


一、前言
身為網際網路的使用者,我們常常「找不到網頁」,也就是網址已經無法對應到網頁內容了(也叫做HTTP 404錯誤)。這個問題實在太容易發生了(Benbow, 1998),就連學術期刊也不例外(Harter and Kim, 1996)。

二、DOI原理
解決之道就是:透過第三方機構,將網址永久固定下來。這個機構就是DOI基金會。DOI (Digital Object Identifier)是一組數字(也可加上字母),透過DOI解析器來轉址。比方說,這是Journal of Phonetics其中一篇文章的URL:
這種網址因為是資料庫產生的,長度讓人望而生畏,打字十分不便,更別提還有URL變動的問題。所以ScienceDirect就跟DOI合作,給這篇文章一個DOI編號:
  • 10.1016/j.wocn.2007.03.001
DOI分為兩部分,斜線之前的是機構,之後的是資源(也就是這篇文章)。10表示DOI的認證機構(目前只有DOI基金會),1016表示出版商(ScienceDirect)。斜線之後的就讓出版商自行編碼,有數字、也有字母,用來指向某個網路資源(例如書籍、網頁、影片......等等)。比方"j.wocn"表示Journal of Phonetics,而"2007.03.001"表示2007年3月所接受的第1篇文章(為什麼不是依照出版日期編號呢? @_@")。

這種DOI要怎麼用呢?我們需要透過DOI解析器(resolver):http://dx.doi.org/。將剛剛的那一串DOI,加在這個網址之後,變成這樣:
這時候DOI解析器就會自動轉到上述那一長串網址。DOI是固定的,如果資料庫的網址變動了,解析器也會跟著更新,再也不需要擔心「找不到網頁」的問題。

三、DOI的缺點
當然,DOI也是要收費的,只不過它向出版商收,而不是向使用者收。所以並不是每個出版商都願意提供DOI的功能。此外,雖然DOI是永久固定的,但這並不表示它完美無缺。至少,DOI編碼缺乏一致的規劃。比方說,同樣是Journal of Phonetics的文章,但1995年和2008年的文章,DOI編碼就不一致:
還有,有的出版商完全使用數字來編碼,導致DOI不具可讀性,例如,這是一篇The Journal of the Acoustical Society of America的文章:

四、小結
每一種制度的建立,都需要漫長的時間。以現狀而言,DOI要全面普及,還有很遙遠的距離要走。網路資源的多樣性、變動性都為「永久固定網址」這個概念帶來變數。也許比較好的方法是將固定網址當成公益事業、由各國政府買單?但這恐怕比商業化還要困難。目前的作法,也算是解決了燃眉之急吧!

不過話說回來,現在的網頁伺服器都有重寫網址(rewrite URL)的功能,可以將查詢字串(query string)轉寫成靜態網址。ScienceDirect明明是數一數二的大公司,為什麼就不能把網址寫得友善一點呢?真是讓人想不透啊.....

引用文獻
  • Benbow, S.M.P. (1998). File Not Found: the problem of changing URLs for the World Wide Web. Internet Research: Network Applications and Policy, 8(3), 247-­250. DOI: 10.1108/10662249810217867
  • Harter, S and Kim, H. (1996). Electronic journals and scholarly communication: A citation and reference study. Information Research, 2(1).
    http://informationr.net/ir/2-1/paper9a.html

1 則留言:

Unknown 提到...

大大的解釋很清楚,借我引用一下,感謝啦!