思考:“最好”與“最壞”的時(shí)代
清代學(xué)者姚鼐對(duì)傳統(tǒng)學(xué)術(shù)有一個(gè)經(jīng)典概括,即義理、考據(jù)、辭章。近代學(xué)者陳寅恪、傅斯年等也指出史學(xué)研究的創(chuàng)新不外乎新材料、新問題和新方法三個(gè)方面,史料的整理無疑是重要的基礎(chǔ)工作。隨著史學(xué)研究視野的不斷拓展,考古遺跡與文物、口頭流傳及圖像資料等史料的利用逐漸活躍起來,但仍然無法撼動(dòng)文獻(xiàn)這一最重要史料的地位。
就科技史研究來說,整理文獻(xiàn)依然是不可或缺的基礎(chǔ)工作,理應(yīng)得到足夠的重視。英國(guó)作家狄更斯在《雙城記》的開頭富有哲理地說:“這是最好的時(shí)代,這是最壞的時(shí)代。”如今這個(gè)時(shí)代對(duì)于典籍整理來說也正是如此,一方面我們迎來了基本文獻(xiàn)占有的小康時(shí)代,另一方面,文獻(xiàn)整理研究的深度和廣度都向我們提出了更大的挑戰(zhàn)。
先來談?wù)劵疚墨I(xiàn)的占有情況,科學(xué)史所李儼圖書館近幾年的文獻(xiàn)資源建設(shè)工作就足以說明問題,作為一個(gè)科技史專業(yè)圖書館,我館的紙本書刊已達(dá)到18萬冊(cè),典藏空間成為發(fā)展瓶頸。因此,我們下大力氣引進(jìn)電子文獻(xiàn)資源。目前,已經(jīng)卓有成效地建立起覆蓋中外文科技史基本文獻(xiàn)的文獻(xiàn)資源體系。
先說中文方面:通過先后引進(jìn)雕龍、書同文、愛如生等系列古籍?dāng)?shù)據(jù)庫(kù),保障了2萬余種基本古籍的圖文檢索利用;開通晚清民國(guó)期刊全文庫(kù),幾乎覆蓋了全部近2萬種晚清民國(guó)期刊,而民國(guó)圖書庫(kù)前三期則收錄圖書15萬種,已近存世民國(guó)圖書數(shù)量的一半;在現(xiàn)刊和學(xué)位論文方面,CNKI、維普、萬方覆蓋了大陸范圍,臺(tái)灣華藝則作為臺(tái)灣地區(qū)的補(bǔ)充;通過讀秀數(shù)據(jù)庫(kù)可閱覽和申請(qǐng)文獻(xiàn)傳遞的圖書數(shù)量達(dá)到310萬冊(cè);報(bào)紙方面初步選擇了《申報(bào)》《大公報(bào)》《中央日?qǐng)?bào)》《人民日?qǐng)?bào)》《光明日?qǐng)?bào)》和近代英文報(bào)刊庫(kù)等大報(bào),以提供近現(xiàn)代重要事件人物新聞報(bào)道的查證檢索。
外文方面:我們開通了EEBO-EEB(17世紀(jì)以前英文及非英文文獻(xiàn))、ECCO、NCCO(18、19世紀(jì)英文文獻(xiàn))等數(shù)據(jù)庫(kù);通過Springer、Elsevier、Wiley、Cambridge、Oxford、JSTOR、MUSE等數(shù)據(jù)庫(kù)覆蓋近200種外文科技史及科技哲學(xué)期刊,還可通過百鏈云申請(qǐng)外文文獻(xiàn)傳遞。可以不夸張地說,這是一個(gè)基本文獻(xiàn)的“嘉年華”。
然而,面對(duì)這樣前所未有的好時(shí)代我們卻似乎高興不起來,因?yàn)楹A课墨I(xiàn)的突然涌來同樣帶給我們前所未有的挑戰(zhàn),我們?nèi)绾我砸患褐﹂喿x、挖掘和分析如此多的文獻(xiàn)?面對(duì)文獻(xiàn),我們從來都是充滿了喜悅和興奮,如今直面這個(gè)“嘉年華”卻讓我們不覺有一種困惑和迷茫。
應(yīng)該說明這里的海量數(shù)據(jù)還不能和時(shí)下流行的“大數(shù)據(jù)”相提并論,“大數(shù)據(jù)”特征經(jīng)典描述為4V:Volume(巨量),Velocity(幾何級(jí)高速增長(zhǎng)),Variety(數(shù)據(jù)類型的多樣性),Value(平均價(jià)值低),就更非我等可以想象了。
不過沒關(guān)系,回過頭人文學(xué)科畢竟有自己的看家本領(lǐng),就是經(jīng)典文獻(xiàn)的解讀和分析,這是方法論層面人文學(xué)科區(qū)別于自然科學(xué)、社會(huì)學(xué)科的最重要表現(xiàn)。而這一時(shí)代又向我們提出了更深度和廣角地分析解讀一部經(jīng)典文獻(xiàn)的挑戰(zhàn)。我們無比熟悉和親近的典籍文獻(xiàn)領(lǐng)域正在上演一部“雙城記”。
展望:科技典籍整理的未來
聚焦到科技典籍整理上來,據(jù)《中國(guó)古籍總目》,現(xiàn)存1912年以前出版的古籍約為20萬種。其中與科技相關(guān)的典籍主要分布于如下幾個(gè)類屬:史部地理類總志之屬(444種)、政書類考工之屬(81種)以及水利之屬(314種),子部農(nóng)家類(467種)、譜錄類花木鳥獸之屬(339種)、醫(yī)家類(6684種)、天算類(1656種)、新學(xué)類(884種),合計(jì)10869種。西學(xué)東漸相關(guān)典籍除此處“新學(xué)類”外,又據(jù)《近代漢譯西學(xué)書目提要(明末至1919)》計(jì)算合計(jì)1678種,其中心理學(xué)25種,地理272種,自然科學(xué)1381種。當(dāng)然,“漢譯西學(xué)”和“新學(xué)類”有部分重合,再加上以上暫時(shí)忽略的零星分布,估計(jì)現(xiàn)今留存的中國(guó)古代科技典籍?dāng)?shù)量在1.2萬種左右,約占古籍總量的6%。科技典籍中醫(yī)學(xué)類典籍因?yàn)樯婕皯?yīng)用,整理數(shù)量最多,估計(jì)超過存世數(shù)量的10%,農(nóng)學(xué)次之,其他科技典籍整理十分有限,估計(jì)不超過2%,所以科技史文獻(xiàn)的整理還是亟待解決的瓶頸問題。
在學(xué)術(shù)整理體式方面,我們通過國(guó)家古籍整理出版中長(zhǎng)期規(guī)劃項(xiàng)目“中國(guó)科技典籍選刊”做了新的嘗試,采用圖、文、校釋對(duì)排的樣式,兼顧了典籍原貌保真和整理成果呈現(xiàn)兩方面的需求,取得了不錯(cuò)的效果。 進(jìn)一步,我們認(rèn)為在定本式整理的基礎(chǔ)上附加匯校,將有益于對(duì)典籍傳播史的考察研究。
要加快推進(jìn)典籍整理工作,就要在文獻(xiàn)整理工作中充分利用信息技術(shù),開拓典籍?dāng)?shù)字化,這是如今方興未艾的“數(shù)字人文”中的一個(gè)重要方面。
在信息時(shí)代從事人文研究,人腦和電腦應(yīng)該如何分工和合作?我們認(rèn)為人腦還是研究的主導(dǎo),主要承擔(dān)的工作是理論和算法的創(chuàng)新以及具體問題的考證和分析,通俗說就是“腦力活”;而電腦的長(zhǎng)處在于檢索、計(jì)算和排列等工作,通俗說就是“體力活”,但這種“體力活”不可小覷,它可以大大縮短研究時(shí)間,節(jié)省研究者的精力,使一些費(fèi)時(shí)費(fèi)力的研究項(xiàng)目變得可行。
另外,隨著計(jì)算語言學(xué)理論的發(fā)展,電腦參與學(xué)術(shù)研究的程度必將越來越深。 典籍?dāng)?shù)字化可分為三個(gè)層次,即圖像化、全文化和數(shù)據(jù)庫(kù)化。圖像化和全文化大家都比較熟悉,尤其是全文檢索,有其優(yōu)勢(shì),但缺點(diǎn)也很明顯,即檢索失誤是不可避免的,造成檢索失誤的原因是多方面的,其中文本質(zhì)量只是一部分原因,還存在漢字的別體、語義的切分及別稱等問題,這些都會(huì)導(dǎo)致漏檢或多檢。要解決以上問題最重要的方法是實(shí)現(xiàn)文本語義的“本體化”,而“本體化”要求我們推進(jìn)典籍?dāng)?shù)據(jù)庫(kù)化。 數(shù)據(jù)庫(kù)化除了本體的結(jié)構(gòu)化,還包括由本體建構(gòu)起知識(shí)的語義網(wǎng),以達(dá)到“數(shù)字人文”可計(jì)算的目標(biāo)。科學(xué)史所與哈工大有關(guān)院系正在合作開發(fā)“典籍分析平臺(tái)”,初步設(shè)計(jì)具有目錄導(dǎo)航,圖、文、校釋對(duì)排,本體標(biāo)記與編輯等功能,還將不斷根據(jù)研究實(shí)踐推進(jìn)分析功能的開發(fā)。我們希望早日投入使用,共享給學(xué)界。■