ctext.org入門教程

此教程將會從使用者的角度簡單介紹中國哲學書電子化計劃資料庫和數位圖書館中的主要操作方法,並舉具體的操作實例以便示範系統的主要功能。

教程網址:
英文:https://dsturgeon.net/ctext
中文:https://dsturgeon.net/ctext-zh
日文:https://dsturgeon.net/ctext-ja

首次使用前的設置

  • 建立帳戶:在左手欄目中,往下捲動並點擊“登入”,然後在“若尚未建立本站的帳戶”的表格中輸入您的資料,再點“建立帳戶”。
  • 確認電腦字體是否已安裝:在左上角點“本站介紹”,再點“字體試驗頁”。

書目查詢

  • 使用左手欄目中的“書名檢索”功能。
  • 檢索結果中,“”圖標表示該文獻的內容可以直接連接到對應的掃描影印資料。
  • 此外,檢索結果中可能會看到以下圖標:
    文字版存放於原典資料庫(使用者不能直接編輯)。
    可以編輯的文字版,此文字版本是人工輸入的而不是OCR結果。
    可以編輯的文字版,此文字版本是OCR結果。
    版本的影印掃描資料。
  • 習題:
    • 找出《資暇集》的電子全文。
    • 在原典數據庫中找出先秦兩漢時代的一部經典(如:《莊子》、《荀子》等)。

全文檢索

  • 首先找出并打開想要檢索的文字版翻譯(章節或是卷),點擊 左手欄目下部的“檢索” 框。
  • 習題:
    • 找出《論語》中帶有孔子所說“君子不器”的段落。
    • 找出《莊子》中所有有提到“道”的段落。
  • 當你在文本資料庫中檢索本文得出多個結果時,可以點擊頁面右上部的“顯示統計”鏈接,打開檢索結果的互動摘要。

在主要的掃描資料中找出文本

  • 在ctext中,可以通過影印底本連結來檢索影印資料。當文字版中帶有影印連結時,書名檢索結果中會顯示“”的圖標。
  • 當文本跟掃描檔案有鏈接時,點擊左方文本中任何一個段落的“”圖標,打開對應的掃面版本。
  • 當你要在掃面文本中檢索特定的單詞或是片語,在文字版中檢索對應的單詞或是片語,點擊左方結果中的“”圖標。
  • 文字版中出現的錯誤(特別在OCR得出的文字版中)表示片語越長越不一致。如遇到這個情況,試圖檢索短一點的片語或是想要檢索的文本附近出現的單詞。
  • 習題:
    • 找出有掃描版鏈接的文本,檢索并檢視掃面版中的結果。
    • 在OCR得出的文字版中重複一次。
    • 你也可以從“圖書館”中找出掃描文本,這個檢索跟你檢索文字版鏈接會有完全一致的結果。
    • 或者,你也可以使用鏈接來讀出每一頁的掃描本。

找出與文本片語相似的文本

可以在先秦兩漢以及類書中的文本資料庫使用

  • 找出文本片語,點擊“”圖標,打開相似段落的概要。
  • 在結果一欄中,點擊標題附近的“”圖標,顯示每一個結果和它出現的文脈。
  • 習題:
    • 找出與《莊子》中“庖丁解牛”故事相似的段落。

找出兩段特定文本中的相似段落

可以在先秦兩漢以及類書中的文本資料庫使用

  • 點擊左邊一欄下部的“高級檢索”鏈接。
  • 在“1. 檢索範圍”部分中,選擇第一個種類,文本或是你想要檢索的文本單位。例如,在《莊子》中檢索時,你可以選擇“先秦和漢”,再選“道家”,再選“莊子” (第四個框中保持“[全部]”)。
  • 在“3. 檢索條件”部分中,打鉤“相似段落搜索”下面的框,然後以同樣的方法設定本文範圍(範圍亦可為文本類型、文本整體或文本部分)。
  • 點擊“Search”。結果會顯示所有包含相似段落的文本。
  • 習題:
    • 找出《論語》和“道家”類文獻中所有相似段落。
    • 當你有結果時,點擊“顯示統計”的鏈接。
    • 做同樣的檢索,這一次逆轉“檢索範圍” 和“檢索條件”,然後使用“顯示統計”。

以索引、引得編號檢索

適用於有索引、引得訊息的文本

  • 首先打開文本的頁面。頁面右手方有一個搜索框,對應著每一種支持文本的索引、引得編號。
  • 習題:
    • 在Eric Hutton的這篇論文中,作者使用了ICS系列和哈弗燕京系列中的索引、引得編號來表示文本的引用處,因而沒有直接引用中文文本,例如:


      使用索引、引得編號來找出上面所出《荀子》中對應腳註17的作者翻譯和相關資料的原檔中文。

找出文本中對應的索引、引得編號

適用於有索引、引得訊息的文本

  • 在帶有索引、引得數據的段落左手邊點擊“”圖標。
  • 在段落上移動鼠標會顯示所有對應到鼠標位置的索引、引得編號。
  • 如欲顯示與段落中特定一段的索引、引得編號時,使用鼠標點擊并將其移動到加亮為綠色的文本。所有與加亮文本有交叉的索引、引得編號會隨之顯示出來。
  • 習題:
    • 接著以上習題,找出對應於《荀子》中“人之性惡,其善者偽也。”這一段的索引、引得編號。

文本、翻譯平行檢視

對應帶有英文翻譯的文本。

  • 一般來說,當檢視帶有翻譯的文本時,緊接著中文的一個段落(可能很長),會顯示英語段落。如想讓文本和翻譯更接近地顯示(通常是一句一句),點擊文本片語左方的“”圖標。使用者也可以移動鼠標指針到中文文本來顯示字典信息。
  • 如所檢視的段落較長時,使用者可以先檢索中文句子,再點擊“”圖標如上,直接跳到對應特定中文文本的翻譯。
  • 習題:
    • 使用《莊子》的文本來做實驗。
    • 用這個功能檢視James Legge如何在同一個文本中翻譯“每至於族,吾見其難為,怵然為戒,視為止,行為遲”。

顯示注釋

對應於部分文本,例如《論語》、《孟子》、《墨子》、《道德經》等

  • 點擊文本左方的“”圖標。請注意,注釋本身也是獨立的文本,所以你可以點所顯示的注釋中的鏈接轉到注釋文本。
  • 習題:
    • 使用《論語》、《孟子》、《墨子》或是《道德經》做實驗。

找出或輸入罕見、異體字

  • 打開網站中“字典”的部分。
  • 根據所欲輸入的字的情況可用以可以選擇:
    • 直接輸入(打字)
    • 結構查詢:請參閱字典主頁上的簡要,
    • 部首查詢:先選擇部首,然後按照附加筆畫查看。你可以通過點擊“n strokes”標記來加大顯示中的文字。
  • 習題:
    • 䊫, 𥼺, 𧤴, …:在ctext.org的字典中檢索這些字(要使用上述說明的方法,不要直接從這個頁面複製粘貼)。
  • 小貼士:如果兩種組成部分都不容易輸入的話,你可以輸入包含其成分的任何其他字,通過分解,你可以找出成分,然後可以找出包含有那個特定成分的其他字。
  • ctext上的某些文本中有統一碼中不存在的漢字。這些漢字目前只能通過成分來檢索。
    • 你可以為了在ctext中使用,複製和粘貼在統一碼中不存在的漢字。當統一碼中不存在的漢字被複製時,將會變成“ctext:nnnn”識別符號(例如,ctext:1591)。在其他軟件中粘貼這類字時(例如,在Word等軟體),會粘貼識別符號,而不是字或是圖像。
    • 然而,您可以在ctext中點擊字體的右方並選擇“複製圖像”來複製字的圖像。這個可以粘貼在Word文檔(例如,通過參照“ctext:nnnn”識別符號或是提供網站鏈接)
    • 例子:ctext:4543 ctext:8668 ctext:3000 ctext:335

文本編輯

最有效編輯具有掃描版本的文本方式是通過簡單修改功能。請參閱以下步驟:

  • 找出掃描版中出現傳寫錯誤的掃描頁面。
  • 點擊“簡單修改模式”鏈接。
  • 系統會顯示可直接編輯文字內容的輸入方塊。一般來說,每一行文字對應著掃描圖像中的每一欄文字。
  • 細心修正文本保持與掃描版一致,結束後點擊“保存編輯”。
  • 如果需要輸入空格,請務必使用全角中文空格,而不是英文的半角空格。
  • 習題:
    • 選擇一件透過OCR打造的文本資料,糾正其錯誤。
  • 詳細紀錄文本中每一次的修改並提供換回到更早版本的方法,是任何一種維基系統的基礎–即所謂的“版本控制”。當您保存了修改之後:
    • 點擊“文字版” 鏈接來打開您修改的文本全文
    • 往上捲動,點擊“查看歷史”來顯示最近的歷史紀錄,您最近的修改會顯示在最上邊。
    • 每一行代表著一次修改之後的文本狀態。可以通過在表的左方選擇兩種單選按鈕,並點擊“顯示相差”來比較文本在兩個時刻的狀態。默認選擇會比較文本當前狀態和最新修改前的版本。點擊“顯示相差”來視覺化您剛剛做過的修改。

安裝和使用插件

插件可用以擴展讓網站的使用介面來支持新的功能。最常用的實例包括下載文本資料,連接到第三方提供的字典、工具等。為了使用插件,您必須先安裝插件到您的帳戶中(每一件插件只需做一次)。安裝步驟如下:

  • 打開“本站介紹” > “工具” > “插件”。
  • 找出您想要安裝的插件,點擊“安裝”。
  • 在確認頁面中再點擊“安裝”。

安裝插件之後,當您打開任何在ctext.org支持的對象時(例如, “book” 或是 “chapter”插件對應的是文本章節,“character”和“word”類插件對應的是字典中的漢字或中文單詞),對應的鏈接會顯示在屏幕上方附近的一欄中。
習題:

  • 安裝“全文輸出”插件並使用它輸出文本的一章內容。
  • 安裝“Frequencies”插件並使用它檢視文本章節中出現的漢字的頻率。
  • 安裝任何一個帶有“character” 或是“word”類的插件,在字典中找一個字,使用插件進入外部字典。

進階主題

以下將介紹比較進階的主題,這一些需要額外的努力以及(或是)超過這個教程範圍的附加專業技能。

創造新的插件

插件是為了把ctext.org的使用介面和外部資料(通常是其他網站)相鏈接的XML編碼。用戶可以通過自己的ctext.org帳戶來修改已存在的插件編碼來創造新的插件。如要檢視或修改當前所安裝插件的內容,點擊左邊欄目中的“個人設定”,然後點擊“直接修改個人插件XML檔案”鏈接。

您可以通過複製“<Plugin>…</Plugin>”代碼中的編碼,以及修改複製內容來創造新的插件。您需要從新的插件中移除“”代碼,不然,所輸入的內容將來會被舊插件的新版自動取代。您也可以創造獨立的XML文檔(參閱多數已有的例子),存放到您的服務器,然後安裝到您的ctext.org帳戶。

如果您創建的新插件或是代碼不被ctext介面接受的話,您可以使用W3C Markup Validator來確認您的插件文檔是否有效。一個有效的插件會有綠色的字體寫上“This document was successfully checked as CTPPlugin!”,看起來是這樣的頁面

程序存取

為了文本採礦和數字人文研究,網站中的文本資料可以直接通過Python等程序語言來存取。這需要一些額外的設置和時間來實行(特別對於沒有程序經驗的用戶),不過網路上也有供詳細的介紹

程序存取是通過ctext.org的應用程式介面(API)來實現的,您可以通過任何能夠發送HTTP請求的程式語言或環境實行。本網特別推薦Python,因為您可以通過已有的ctext Python module使用API,這樣可以降低程式開發上所需的時間。除了API的使用說明以外,您可以參考包括具體實例的API函數列單

Creative Commons License
This entry was posted in Chinese, Digital Humanities. Bookmark the permalink.

Comments are closed.