Digital Approaches to Text Reuse in the Early Chinese Corpus

Published in Journal of Chinese Literature and Culture 2018, 5(2) [Full paper] Observed textual similarities between different pieces of writing are frequently cited by textual scholars as grounds for interpretative stances about the meaning of a passage and its authorship, …

Accessible Text Mining with Text Tools and the Chinese Text Project

Setup Create a free account on and log in. Make sure to validate your e-mail address by opening the link the system sent you (if not, the link above will display a warning/reminder in red to do so). Enter …

SUTD Workshop

Materials from a workshop held as part of Working with different kinds of 'text' in the Digital Humanities at the Singapore University of Technology and Design. Setup Create a free account on and log in. Make sure to validate …

Large-scale Optical Character Recognition of Pre-modern Chinese Texts

This paper appears in International Journal of Buddhist Thought and Culture 28(2) (December 2018). [Full paper] Abstract Optical character recognition (OCR) – the fully automated transcription of text appearing in a digitized image – offers transformative opportunities for the scholarly …

Networks of Text Reuse in Early Chinese Literature

Poster presented at Connected Past 2018. Abstract The phenomenon of text reuse – syntactically and semantically similar fragments of text repeated apparently independently in multiple pieces of writing, and often in works purporting to be composed by entirely different authors …

Accessible digital text analysis for classical Chinese

Paper presented at Future Philologies: Digital Directions in Ancient World Text, Institute for the Study of the Ancient World, New York University, April 20 2018. Abstract Despite a growing interest in digital humanities as a field of study and focus …

Cyberinfrastructure for historical China studies

It was a pleasure to host on behalf of the Chinese Text Project (, together with Professor Peter Bol on behalf of the China Biographical Database (CBDB), the International conference on cyberinfrastructure for historical China studies, held at the Harvard …

此教程將會從使用者的角度簡單介紹中國哲學書電子化計劃資料庫和數位圖書館中的主要操作方法,並舉具體的操作實例以便示範系統的主要功能。 教程網址: 英文: 中文: 日文: 1 首次使用前的設置 建立帳戶:在左手欄目中,往下捲動並點擊“登入”,然後在“若尚未建立本站的帳戶”的表格中輸入您的資料,再點“建立帳戶”。 確認電腦字體是否已安裝:在左上角點“本站介紹”,再點“字體試驗頁”。 書目查詢 使用左手欄目中的“書名檢索”功能。 檢索結果中,“”圖標表示該文獻的內容可以直接連接到對應的掃描影印資料。 此外,檢索結果中可能會看到以下圖標: 文字版存放於原典資料庫(使用者不能直接編輯)。 可以編輯的文字版,此文字版本是人工輸入的而不是OCR結果。 可以編輯的文字版,此文字版本是OCR結果。 版本的影印掃描資料。 習題: 找出《資暇集》的電子全文。 在原典數據庫中找出先秦兩漢時代的一部經典(如:《莊子》、《荀子》等)。 全文檢索 首先找出并打開想要檢索的文字版翻譯(章節或是卷),點擊 左手欄目下部的“檢索” 框。 習題: 找出《論語》中帶有孔子所說“君子不器”的段落。 找出《莊子》中所有有提到“道”的段落。 當你在文本資料庫中檢索本文得出多個結果時,可以點擊頁面右上部的“顯示統計”鏈接,打開檢索結果的互動摘要。 在主要的掃描資料中找出文本 在ctext中,可以通過影印底本連結來檢索影印資料。當文字版中帶有影印連結時,書名檢索結果中會顯示“”的圖標。 當文本跟掃描檔案有鏈接時,點擊左方文本中任何一個段落的“”圖標,打開對應的掃面版本。 當你要在掃面文本中檢索特定的單詞或是片語,在文字版中檢索對應的單詞或是片語,點擊左方結果中的“”圖標。 文字版中出現的錯誤(特別在OCR得出的文字版中)表示片語越長越不一致。如遇到這個情況,試圖檢索短一點的片語或是想要檢索的文本附近出現的單詞。 習題: 找出有掃描版鏈接的文本,檢索并檢視掃面版中的結果。 在OCR得出的文字版中重複一次。 你也可以從“圖書館”中找出掃描文本,這個檢索跟你檢索文字版鏈接會有完全一致的結果。 或者,你也可以使用鏈接來讀出每一頁的掃描本。 2 找出與文本片語相似的文本 … Continue reading

活動時間:2017年12月21日(四) 13:00–17:00 活動地點:國立臺灣大學 集思會議中心尼采廳 台北市羅斯福路四段85號B1 活動說明:本工作坊為實作工作坊,請與會者攜帶個人筆記型電腦參加,以便於更快熟悉相關研究工具 報名網址:​ (名額有限,報名從速)​ 主辦單位:臺灣大學數位人文研究中心 哈佛大學費正清中國研究中心 協辦單位:臺灣大學圖書館 ​聯絡資訊​:臺灣大學數位人文研究中心 胡博士 TEL:02-33669847 工作坊摘要:   隨著數位技術的日益增強,數位人文工具提供了研究者許多進行古代文獻研究與分析的新方法。這些工具不但具備探索文獻的技術,也讓研究者獲得更多以往未曾發現的文獻脈絡與相互關連,甚至透過電腦收集的資料來反駁或是證明特定的假設。   但是,使用這些分析方法時,特別是在獲取數位文獻和能夠進行分析的數位工具方面,往往面臨著技術性的挑戰。在本次的實作工作坊中,主講人將詳細介紹如何透過研究工具以減少這些技術性的障礙。   工作坊的第一部分將介紹全球最大規模的中國古籍文獻全文資料庫—「中國哲學書電子化計劃」。此系統不但提供全文檢索等較常用的功能外,也能使用更進階的方法來達到使用者自定的研究目的,並讓使用者能夠直接參與新文獻的數位化。   第二部分介紹可用來分析「中國哲學書電子化計劃」中或其它來源文獻的創新分析研究工具。這些工具包括重建資料分析工具、正規表達式的全文檢索,以及各種分析結果的視覺化呈現技術。

本チュートリアルは、 データベース・デジタルライブラリーChinese Text Project(中国哲学書電子化計画)における一般的なタスク機能について、ユーザーの目線からまとめたものです。皆さんに参考となりそうなシステムの主要機能に関するタスク事例をご紹介します。 本チュートリアルのオンライン版はこちら: 英語: 中国語: 日本語: 1 初期設定 アカウントの登録:左側のペインを一番下までスクロールダウンしてください。「Log in」をクリックし、「If you do not have an account…」セクションにおいて必要事項を記入してください。 フォントサポートを確認:左上の隅に見える「About the site」の下にある「Font test page」をクリックしてください。 テキストを探す 左側のペインにある「Title search」機能をお使いください。 題目検索結果において、「」アイコンが表示されているテキストは、スキャンした資料とリンクしています。 題目検索結果において使用される主なアイコン: テキストデータベースにおける複写版(ユーザーは編集不可) ユーザーが編集可能な複写版、OCRは使用されていません ユーザーが編集可能な複写版、OCRに対応しています 特定の編集されたテキストのスキャン版 実践: 『資暇集』の複写版を検索してください テキストデータベースにて、先秦もしくは漢のテキストを検索してください。 全文検索 まず、検索したいテキスト(もしくは章や巻)を検索し、開いてください。その後、左側のペイン下部にある「Search」というボックスを使用してください。 実践: 『論語』にて、孔子が「君子不器」と述べている節を検索してください。 『莊子』の中で、「道」について書かれている節すべてを検索してください。 … Continue reading

