Author Archives: dsturgeon

Accessible Text Mining with Text Tools and the Chinese Text Project

Setup Create a free account on ctext.org and log in. Make sure to validate your e-mail address by opening the link the system sent you (if not, the link above will display a warning/reminder in red to do so). Enter … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

Text Transformation API

Draft – This is a preliminary draft specification. Please note that some implementation details will change before publication. Last updated: 22 March 2019. Overview Transformations of textual data are important processes in many natural language processing and text analysis workflows. … Continue reading

Posted in Digital Humanities | Comments Off

SUTD Workshop

Materials from a workshop held as part of Working with different kinds of ‘text’ in the Digital Humanities at the Singapore University of Technology and Design. Setup Create a free account on ctext.org and log in. Make sure to validate … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

Large-scale Optical Character Recognition of Pre-modern Chinese Texts

This paper appears in International Journal of Buddhist Thought and Culture 28(2) (December 2018). [Full paper] Abstract Optical character recognition (OCR) – the fully automated transcription of text appearing in a digitized image – offers transformative opportunities for the scholarly … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

EASTD 135: Text and Data in the Humanities

This course introduces students to key concepts and techniques fundamental to applying digital methods to the study of textual materials and other types of data in humanities subjects. The core topics covered are digital representations of data, ways of structuring … Continue reading

Posted in Courses, Digital Humanities | Comments Off

Networks of Text Reuse in Early Chinese Literature

Poster presented at Connected Past 2018. Abstract The phenomenon of text reuse – syntactically and semantically similar fragments of text repeated apparently independently in multiple pieces of writing, and often in works purporting to be composed by entirely different authors … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

Accessible digital text analysis for classical Chinese

Paper presented at Future Philologies: Digital Directions in Ancient World Text, Institute for the Study of the Ancient World, New York University, April 20 2018. Abstract Despite a growing interest in digital humanities as a field of study and focus … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

Cyberinfrastructure for historical China studies

It was a pleasure to host on behalf of the Chinese Text Project (ctext.org), together with Professor Peter Bol on behalf of the China Biographical Database (CBDB), the International conference on cyberinfrastructure for historical China studies, held at the Harvard … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

ctext.org入门教程

此教程将会从使用者的角度简单介绍中国哲学书电子化计划资料库和数位图书馆中的主要操作方法,并举具体的操作实例以便示范系统的主要功能。 教程网址: 英文:https://dsturgeon.net/ctext 中文:https://dsturgeon.net/ctext-zhs 日文:https://dsturgeon.net/ctext-ja 1 首次使用前的设置 建立帐户:在左手栏目中,往下卷动并点击“登入”,然后在“若尚未建立本站的帐户”的表格中输入您的资料,再点“建立帐户”。 确认电脑字体是否已安装:在左上角点“本站介绍”,再点“字体试验页”。 书目查询 使用左手栏目中的“书名检索”功能。 检索结果中,“”图标表示该文献的内容可以直接连接到对应的扫描影印资料。 此外,检索结果中可能会看到以下图标: 文字版存放于原典资料库(使用者不能直接编辑)。 可以编辑的文字版,此文字版本是人工输入的而不是OCR结果。 可以编辑的文字版,此文字版本是OCR结果。 版本的影印扫描资料。 习题: 找出《资暇集》的电子全文。 在原典数据库中找出先秦两汉时代的一部经典(如:《庄子》、《荀子》等)。 全文检索 首先找出并打开想要检索的文字版翻译(章节或是卷),点击 左手栏目下部的“检索” 框。 习题: 找出《论语》中带有孔子所说“君子不器”的段落。 找出《庄子》中所有有提到“道”的段落。 当你在文本资料库中检索本文得出多个结果时,可以点击页面右上部的“显示统计”链接,打开检索结果的互动摘要。 在主要的扫描资料中找出文本 在ctext中,可以通过影印底本连结来检索影印资料。当文字版中带有影印连结时,书名检索结果中会显示“”的图标。 当文本跟扫描档案有链接时,点击左方文本中任何一个段落的“”图标,打开对应的扫面版本。 当你要在扫面文本中检索特定的单词或是片语,在文字版中检索对应的单词或是片语,点击左方结果中的“”图标。 文字版中出现的错误(特别在OCR得出的文字版中)表示片语越长越不一致。如遇到这个情况,试图检索短一点的片语或是想要检索的文本附近出现的单词。 习题: 找出有扫描版链接的文本,检索并检视扫面版中的结果。 在OCR得出的文字版中重复一次。 你也可以从“图书馆”中找出扫描文本,这个检索跟你检索文字版链接会有完全一致的结果。 或者,你也可以使用链接来读出每一页的扫描本。 2 找出与文本片语相似的文本 … Continue reading

Posted in Uncategorized | Comments Off

ctext.org入門教程

此教程將會從使用者的角度簡單介紹中國哲學書電子化計劃資料庫和數位圖書館中的主要操作方法,並舉具體的操作實例以便示範系統的主要功能。 教程網址: 英文:https://dsturgeon.net/ctext 中文:https://dsturgeon.net/ctext-zh 日文:https://dsturgeon.net/ctext-ja 1 首次使用前的設置 建立帳戶:在左手欄目中,往下捲動並點擊“登入”,然後在“若尚未建立本站的帳戶”的表格中輸入您的資料,再點“建立帳戶”。 確認電腦字體是否已安裝:在左上角點“本站介紹”,再點“字體試驗頁”。 書目查詢 使用左手欄目中的“書名檢索”功能。 檢索結果中,“”圖標表示該文獻的內容可以直接連接到對應的掃描影印資料。 此外,檢索結果中可能會看到以下圖標: 文字版存放於原典資料庫(使用者不能直接編輯)。 可以編輯的文字版,此文字版本是人工輸入的而不是OCR結果。 可以編輯的文字版,此文字版本是OCR結果。 版本的影印掃描資料。 習題: 找出《資暇集》的電子全文。 在原典數據庫中找出先秦兩漢時代的一部經典(如:《莊子》、《荀子》等)。 全文檢索 首先找出并打開想要檢索的文字版翻譯(章節或是卷),點擊 左手欄目下部的“檢索” 框。 習題: 找出《論語》中帶有孔子所說“君子不器”的段落。 找出《莊子》中所有有提到“道”的段落。 當你在文本資料庫中檢索本文得出多個結果時,可以點擊頁面右上部的“顯示統計”鏈接,打開檢索結果的互動摘要。 在主要的掃描資料中找出文本 在ctext中,可以通過影印底本連結來檢索影印資料。當文字版中帶有影印連結時,書名檢索結果中會顯示“”的圖標。 當文本跟掃描檔案有鏈接時,點擊左方文本中任何一個段落的“”圖標,打開對應的掃面版本。 當你要在掃面文本中檢索特定的單詞或是片語,在文字版中檢索對應的單詞或是片語,點擊左方結果中的“”圖標。 文字版中出現的錯誤(特別在OCR得出的文字版中)表示片語越長越不一致。如遇到這個情況,試圖檢索短一點的片語或是想要檢索的文本附近出現的單詞。 習題: 找出有掃描版鏈接的文本,檢索并檢視掃面版中的結果。 在OCR得出的文字版中重複一次。 你也可以從“圖書館”中找出掃描文本,這個檢索跟你檢索文字版鏈接會有完全一致的結果。 或者,你也可以使用鏈接來讀出每一頁的掃描本。 2 找出與文本片語相似的文本 … Continue reading

Posted in Chinese, Digital Humanities | Comments Off