江洪濤 陸振清 俞美蓮 謝坤生 呂惠琳 (上海市農(nóng)科院情報所 201106)
陳麗佩 (上海市農(nóng)科院食用菌所 201106)
摘 要:利用電子計算機進行中文信息管理,建立了中文食用菌數(shù)據(jù)庫。該數(shù)據(jù)庫能從主題詞、分類號、作者、篇名、刊名及年卷期等多種途徑進行檢索,并且該庫內(nèi)的數(shù)據(jù)能轉(zhuǎn)為ISO 2709格式,具有良好的數(shù)據(jù)共享性。該數(shù)據(jù)庫帶有較詳細的中文文摘,且檢索速度極快。該庫的建立,使食用菌信息管理朝現(xiàn)代化方面跨出了一大步。食用菌學(xué)是一門古老而又新興的學(xué)科,涉及化學(xué)、微生物學(xué)、農(nóng)業(yè)、林業(yè)、食品、土壤和氣象諸學(xué)科,因此文獻分布較分散,手工檢索較困難,而且效率低下。我國是食用菌生產(chǎn)大國,上海是我國主要生產(chǎn)研究基地之一,上海農(nóng)科院食用菌所是國內(nèi)最早成立的該專業(yè)研究所,上海農(nóng)科院情報所的館藏特色之一是食用菌文獻。因此建立《中文食用菌文獻數(shù)據(jù)庫》具有可行性、實用性和科學(xué)性。
關(guān)鍵詞:食用菌 中文文獻
1 本庫特色
(1) 近幾年來,我國建立了一系列專業(yè)數(shù)據(jù)庫和文獻庫,但大都是題錄型。雖然建庫前處理工作和輸入工作量減少了,但由于題錄所提供的信息有限,用戶須一一查找原文以確定文獻的內(nèi)容,因而影響了數(shù)據(jù)庫的實用性。眾所周知,數(shù)據(jù)庫的建庫目的為節(jié)省用戶時間,提高查全率和查準率,何況本庫的用戶對象為科研人員、農(nóng)業(yè)基層單位和專業(yè)戶,而農(nóng)業(yè)基層單位和專業(yè)戶不可能也沒必要擁有豐富的文獻資源作為文獻保障的基礎(chǔ),因此本庫以文摘型為主的特色一可節(jié)約用戶時間,二可適應(yīng)基層單位和專業(yè)戶的需要,三是本所擁有文獻和技術(shù)的優(yōu)勢,具有可行性和實用性。
(2) 由于情報專業(yè)文獻數(shù)據(jù)庫的數(shù)據(jù)量大,檢索要求高,而且其字段內(nèi)容不似數(shù)值數(shù)據(jù)庫那么等長,這就需要有一種適合作為情報文獻數(shù)據(jù)的支持軟件。MICROC-CDS/ISIS是由聯(lián)合國教科文組織提供的、經(jīng)中國科技情報研究所漢化的通用情報檢索軟件。由該軟件支持建立起來的文獻數(shù)據(jù)庫最大容量可16MB,并且字段可變長,它的每個字段長度可在1~1650范圍中自由選取,最大限度壓縮了存儲空間,達到數(shù)據(jù)庫冗余量極小的目的,這對于應(yīng)用有限內(nèi)外存空間的微機建立一個容量大、字段字符數(shù)不等長的情報專業(yè)文獻數(shù)據(jù)庫是十分重要的。該軟件還具有可在同一檢索文件中進行多字段(包括重復(fù)字段)檢索的特點,因而只須打開這唯一的檢索文件,就可方便地進行檢索,故其檢索速度特別快。MICRO C-CDS/ISIS系統(tǒng)進行時,要求漢字操作系統(tǒng)的配置中,文件數(shù)(FILES)和緩沖區(qū)數(shù)(BUFFERS)均≥20,建中文食用菌文獻數(shù)據(jù)庫配置的MSDOS為3.3,中文操作系統(tǒng)為2.13H。
2 建庫實踐
2.1 建庫思想
中文食用菌文獻數(shù)據(jù)庫是為科研人員和專業(yè)戶提供文獻資料的現(xiàn)代化服務(wù)方式,科學(xué)性和實用性是質(zhì)量的保證,所謂科學(xué)性:一是指本系統(tǒng)技術(shù)的可靠性,二是指文獻來源的真實性。所謂實用性包括兩個方面:一是內(nèi)容上要符合用戶的需要,二是方法上盡可能簡便易用。本庫重點在于文摘,使用戶檢索后基本上滿足了其信息需求。
2.2 數(shù)據(jù)前處理
數(shù)據(jù)的前處理工作包括文獻收集、篩選、著錄工作單、標引等。該工作的質(zhì)量直接影響了整個數(shù)據(jù)庫的檢索效率,它既是建庫的基礎(chǔ),又是主要工作。
2.2.1 數(shù)據(jù)收集標準
數(shù)據(jù)的質(zhì)和量是建庫的關(guān)鍵,本庫收集標準為:全而精,所謂全是指保證用戶在利用本庫后基本上不須再利用其他檢索工具,所謂精是指文獻來源的可靠性。為保證文獻的質(zhì)和量,我們采用定性分析(專家評估,讀者調(diào)查)和定量分析(引文法,相對%法,Bradford法)相結(jié)合的方法,綜合分析了150多種我國食用菌專業(yè)期刊和相關(guān)期刊,重點收集前十位的核心期刊的文獻(見附表一),約占國內(nèi)有關(guān)食用菌文獻的80%以上。
2.2.2 工作單設(shè)計
工作單是人工采集數(shù)據(jù)與計算機處理的接口,它的設(shè)計涉及到庫結(jié)構(gòu)的設(shè)計,實際上是檢索途徑和顯示內(nèi)容的總設(shè)計,因此必須慎重。本工作單設(shè)計有13項內(nèi)容,其中包括6個檢索途徑,適用于中外文圖書,期刊,資料(見附表二)。
2.2.3 文獻標引
文獻標引是前處理工作中的重中之重。在篩選數(shù)據(jù)之后,標引質(zhì)量就決定了整個庫的質(zhì)量,它直接影響到查全率和查準率。因此必須由學(xué)有專長的高級職稱人員擔(dān)任,必須熟悉食用菌專業(yè)并具有標引實踐經(jīng)驗
2.2.3.1 主題標引
主題標引包括敘詞法 關(guān)鍵詞法、單元詞法和標題法。其特點是:直觀性、專指性、適應(yīng)性、集中性、多元性??紤]到《漢語主題詞表》中有關(guān)食用菌方面的內(nèi)容過于簡單,而當時《農(nóng)業(yè)主題詞表》尚未出版,我們采用了半受控自由詞標引,主題詞采用國家標準(GB1272891),其特點是簡便、直觀易于用戶掌握。但標引時須注意:
⑴ 嚴格采用標準術(shù)語。例如:文獻中和人們?nèi)粘Ia(chǎn)習(xí)慣用“菌絲”一詞,與“菌絲體”不分,實際上,“菌絲”與“菌絲體”是有區(qū)別的。“菌絲”是指由孢子萌發(fā)后形成的芽管發(fā)展而成,它以頂端生長并分枝而為管狀多細胞組成的絲狀物,而“菌絲體”則為菌絲的集合體。在大多文獻中,多指菌絲的集合體,而文獻的標題或文獻內(nèi)容中多數(shù)寫為“菌絲”,這時,如標引為“菌絲”就不夠準確,應(yīng)按食用菌標準名詞術(shù)語來標引為“菌絲體”。
?、?慎用元詞。例如:“培育”,“融合”、“遺傳”等。元詞使用較靈活,但對復(fù)雜的詞須組配才能得到,用起來較麻煩,且有些概念組配后易搞錯。例如:“培養(yǎng)基質(zhì)”是指培養(yǎng)物賴以生存的各種物質(zhì)。如以“培養(yǎng)”、“基質(zhì)”標引,實際上已失去“培養(yǎng)”的概念。如果需查“培養(yǎng)”,“培養(yǎng)基質(zhì)”也會檢出,造成誤檢。此時應(yīng)按標題法標引,應(yīng)標為“培養(yǎng)基質(zhì)”。
⑶ 如專指詞能精確表達文獻內(nèi)容,一般就不使用泛指詞。例:雙孢蘑菇泡囊病的診治標引詞:蘑菇;雙孢蘑菇;泡囊病;真菌病;診斷;防治蘑菇是雙孢蘑菇的上位概念,用“蘑菇”可以對雙孢蘑菇的文獻進行擴檢,對最上位概念“食用菌”就不必標引了。“泡囊病”直接上位概念是“真菌病”,專指程度已較高,與標引詞“蘑菇”一樣,不必標引再上位概念。
?、?慎用和少用通用概念詞標引。如對一般通用概念主題詞也一一標上,會導(dǎo)致影響泛指性文獻的檢索,又增加了標引及輸入的勞力,還浪費了計算機的存貯空間,減慢檢索效率。本數(shù)據(jù)庫是專業(yè)文獻庫,泛指文獻較少,故“影響”、“方法”等一類通用概念基本不標(除綜述性文獻之外)。
?、?自由詞標引。自由詞標引以關(guān)鍵詞為基礎(chǔ),我們標引時先標題內(nèi)關(guān)鍵詞,當題內(nèi)關(guān)鍵詞不夠標時再選題外關(guān)鍵詞。雖然是關(guān)鍵詞,我們也絕不能隨便“自由”標引,因為計算機不能識別同義詞書寫不同型的詞,如“玉米”與“苞米”、“COLOR”與“COLOUR”,檢索詞與標引詞稍有不同,計算機就不能識別,就會造成誤檢與漏檢。我們在標引自由詞時采取了十分慎重的態(tài)度,盡量使文獻標引一致,提高查全率查準率。
?、?以食用菌標準名詞術(shù)語為基礎(chǔ),加上一些自由詞,從而逐步形成本數(shù)據(jù)庫實際使用的主題詞表,并逐步充實完整。及時提供用戶使用。
2.2.3.2 分類標引
分類法是我國傳統(tǒng)的揭示文獻內(nèi)容的標引方法,在組織書本式目錄,推薦同類文獻、驗證查全率和查準率等方面都具有獨特的優(yōu)勢,因此至今仍不失為重要的檢索途徑。本庫分類標引是在《中國圖書資料分類法》(第三版)的基礎(chǔ)上,對S646和S567.3類目作一些擴展,調(diào)整編制成“食用菌、藥用菌專業(yè)分類表(見附表三)其編制原則為:首先按真菌的科學(xué)分類為基礎(chǔ),然后再按文獻出現(xiàn)頻率排列,即科學(xué)性和實用性相結(jié)合、這樣既克服了《中圖法》某些類目設(shè)置不科學(xué),某些類目過于簡單,使得無類可歸或有類難歸,又盡可能與《中圖法》接軌,也適應(yīng)專業(yè)性很強的食用菌文獻分類。為了類分某一主題,某一方面的文獻,充分揭示文獻內(nèi)容,我們按食用菌生產(chǎn)的過程(制種、栽培、病蟲害防治、采收加工)編制了“食用菌、藥用菌專業(yè)復(fù)分表”(見附表四)。實踐證明:以上兩表基本上滿足了建庫的要求。
2.3 MICRO CCDS/ISIS軟件的二次開發(fā)
首先確立庫結(jié)構(gòu)格式(SJWX·FDT)考慮到本庫服務(wù)對象的特點,還有微機本身內(nèi)外存空間較小的因素,庫結(jié)構(gòu)的設(shè)計也應(yīng)簡潔、明了,我們定義了11個字段(見附表五),分別為:篇名、作者、譯者、刊名、分類號、年卷期、所在頁碼、館藏號、文獻代碼、主題詞、摘要。根據(jù)該軟件允許重復(fù)字段和子字段定義的特點,為方便用戶利用,我們設(shè)計了作者字段和主題詞字段為重復(fù)字段。其次設(shè)計屏幕格式文件(SJWX·FMT)與工作單相對應(yīng)。再次選擇了倒排字段表(SJWX·SFT)(見附表六)。通過選擇,用戶可通過6個途徑進行檢索(主題詞、分類號、作者、篇名、刊名及年卷期)。最后建立顯示、打印格式文件(SJWX·PFT)為:MFN……/V2“/”V4,“∥”V6,“·”V8∧a,V8∧b,“(”V8∧c“)”,“·”V9,/“館藏號”V10/“文獻代碼”V11/“分類號”V7/“摘要”V31/“主題詞”(自由詞)V21/%#。其中,“MFN”是機內(nèi)號;“Vn”表示字段標資代碼;“/”表示換行。按以上顯示,打印輸出格式文件,顯示或打印的結(jié)果是:
篇名/作者∥刊名·年卷(期)·所在頁碼
館藏號
文獻代碼
分類號
摘要
主題詞(自由詞)
利用MICRO CCDS/ISIS軟件建立上述4個文件后,則建立了本庫的框架,即可進行數(shù)據(jù)輸入,修改、檢索、顯示等工作。但由于本庫的容量較大,而C盤中系統(tǒng)文件較多,如果數(shù)據(jù)文件再存放于C盤中,則顯得外存空間較擁擠,所以我們在建庫時將數(shù)據(jù)庫文件設(shè)置在虛擬盤(D盤)中,操作員仍然在C盤中工作,而相應(yīng)數(shù)據(jù)在D盤里,由于系統(tǒng)文件與數(shù)據(jù)文件分別在二個硬盤里,故系統(tǒng)比較容易找到自己建立起來的文件,不易引起二種文件的混淆不清。
另外,我們對該軟件中所包含的文件進行了調(diào)整和調(diào)度,把ISIS的可執(zhí)行文件和系統(tǒng)參數(shù)文件歸入SYS目錄中,這樣,系統(tǒng)在運行時可在子目錄中搜尋所需文件而不設(shè)路徑,從而提高了運行速度,減少了空間的使用。
3 經(jīng)驗與反思
?。?) 本數(shù)據(jù)庫的建立和使用,成功地二次開發(fā)MICRO C-CDS/ISIS軟件,利用電子計算機進行中文信息處理,具備了維護、修正、刪除、添加、排序、檢索、瀏覽、顯示、打印等功能。由于該數(shù)據(jù)庫帶有較詳細的文摘,故實用性較強,節(jié)約了科技人員的時間,減輕了科研人員的勞動強度。該數(shù)據(jù)庫冗余量小,數(shù)據(jù)量大,檢索速度較快。庫內(nèi)數(shù)據(jù)能轉(zhuǎn)為ISO2709標準格式,具有良好的數(shù)據(jù)共享性。
?。?) 該數(shù)據(jù)庫收集了國內(nèi)有關(guān)食用菌專業(yè)期刊、微生物類期刊、農(nóng)業(yè)(設(shè)有生物專業(yè)的綜合性大學(xué))院校學(xué)報、農(nóng)業(yè)學(xué)報等學(xué)報類中有關(guān)食用菌專業(yè)的文獻。該數(shù)據(jù)庫能從主題詞、分類號、作者、篇名、刊名及年卷(期)等多種途徑進行單項或多項檢索;通過運用布爾算式,用精確詞或右截斷詞進檢索。例如檢索有關(guān)金針菇的文獻,只需打開檢索文件,鍵入“金針菇”,1s左右,屏幕即顯示出命中文獻篇數(shù),再撳〈D〉(顯示功能)鍵,則逐屏逐篇顯示有關(guān)金針菇的文獻;如鍵入“金針菇×栽培”,1s左右,屏幕即顯示出金針菇栽培方面的文獻和篇數(shù),縮小了命中范圍,提高了檢索查準率。同樣,按入〈D〉鍵,屏幕即逐篇顯示出有關(guān)金針菇栽培的文獻。其它方面查詢?nèi)缤陨蠙z索。各種查詢方式一般均可在1~2s時間內(nèi)獲得結(jié)果。該數(shù)據(jù)庫還可在限定字段中檢索。
?。?) 該數(shù)據(jù)庫采用主題標引和分類標引,既直觀明了,又能體現(xiàn)學(xué)科的系統(tǒng)和完整性。
?。?) 本數(shù)據(jù)庫的建立和使用,可為食用菌技術(shù)的開發(fā)及研究方向的確立提供依據(jù),有利于食用菌科研與開發(fā)事業(yè)的發(fā)展,具有較大的社會效益和經(jīng)濟效益。
?。?) 本庫由于建庫時間短、人員少、經(jīng)費緊張,因而存在著一些遺憾:
?、?MICRO CCDS/ISIS軟件檢索方便但排序功能差,不便于編制書本式目錄,在目前計算機尚未普及的國情下,不利于廣大老少邊窮地區(qū)用戶使用;
?、?工作單設(shè)計應(yīng)盡可能與其他數(shù)據(jù)庫靠攏,分類號應(yīng)和主題詞項目一齊放在最后,這樣一方面便于輸入,另一方面有利于標引文獻時互相借鑒,核對;
③ 分類號字段也應(yīng)設(shè)計為重復(fù)字段,這樣有利于分析分類文獻;
?、?數(shù)據(jù)收集應(yīng)注重質(zhì)量,借鑒國內(nèi)外數(shù)據(jù)庫經(jīng)驗,采用高薪聘請專業(yè)人員撰寫文摘,并建立一系列審核制度,把差錯消滅在輸入之前。
參考文獻
[1]劉波.病蟲資料數(shù)據(jù)庫結(jié)構(gòu)建立的研究.計算機農(nóng)業(yè)應(yīng)用,1990、2:13~15
[2]陳睿.情報管理系統(tǒng)軟件開發(fā)工具.情報學(xué)報,1991、10、(1):34~40
[3]王枚.標引深度的定量分析.情報學(xué)報,1993、10、(1):41~48
[4]中國科技情報所計算機室.MICRO CCDS/ISIS用戶手冊.中國科技情報研究所, 1989:23~78
PRACTICE AND INTROSPECTION OF DATABASE OF
CHINESE EDIBLE FUNGI LITERATURE
Jiang Hongtao Lu Zhengqing Yu Meilian Xie Kunshen
Lu Huilin
(Scientific and Technical Information Research Institute,Shanghai
Academy of Agricultural Sciences, Shanghai 201106)
Chen Lipei
(Edible Fungi Research Institute, Shanghai
Academy of Agricultural Sciences, Shanghai 201106)
ABSTRACT: Science and technology is developing quickly. Information work must follow this situation. We use computer to handle Chinese information. The database of Chinese Edible Fungi literature was set up. It can execute retrieval from subject words, classification number, author, title, source journal, year, volume, issue. The data in the database can return to ISO 2709 format.
KEY WORDS: computer, edible fungi, Chinese literature, database