Category Archives: Digital Humanities

Accessible Text Mining with Text Tools and the Chinese Text Project

Setup Create a free account on ctext.org and log in. Make sure to validate your e-mail address by opening the link the system sent you (if not, the link above will display a warning/reminder in red to do so). Enter … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

Text Transformation API

Draft – This is a preliminary draft specification. Please note that some implementation details will change before publication. Last updated: 22 March 2019. Overview Transformations of textual data are important processes in many natural language processing and text analysis workflows. … Continue reading

Posted in Digital Humanities | Comments Off

SUTD Workshop

Materials from a workshop held as part of Working with different kinds of ‘text’ in the Digital Humanities at the Singapore University of Technology and Design. Setup Create a free account on ctext.org and log in. Make sure to validate … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

Large-scale Optical Character Recognition of Pre-modern Chinese Texts

This paper appears in International Journal of Buddhist Thought and Culture 28(2) (December 2018). [Full paper] Abstract Optical character recognition (OCR) – the fully automated transcription of text appearing in a digitized image – offers transformative opportunities for the scholarly … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

EASTD 135: Text and Data in the Humanities

This course introduces students to key concepts and techniques fundamental to applying digital methods to the study of textual materials and other types of data in humanities subjects. The core topics covered are digital representations of data, ways of structuring … Continue reading

Posted in Courses, Digital Humanities | Comments Off

Networks of Text Reuse in Early Chinese Literature

Poster presented at Connected Past 2018. Abstract The phenomenon of text reuse – syntactically and semantically similar fragments of text repeated apparently independently in multiple pieces of writing, and often in works purporting to be composed by entirely different authors … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

Accessible digital text analysis for classical Chinese

Paper presented at Future Philologies: Digital Directions in Ancient World Text, Institute for the Study of the Ancient World, New York University, April 20 2018. Abstract Despite a growing interest in digital humanities as a field of study and focus … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

Cyberinfrastructure for historical China studies

It was a pleasure to host on behalf of the Chinese Text Project (ctext.org), together with Professor Peter Bol on behalf of the China Biographical Database (CBDB), the International conference on cyberinfrastructure for historical China studies, held at the Harvard … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

ctext.org入門教程

此教程將會從使用者的角度簡單介紹中國哲學書電子化計劃資料庫和數位圖書館中的主要操作方法,並舉具體的操作實例以便示範系統的主要功能。 教程網址: 英文:https://dsturgeon.net/ctext 中文:https://dsturgeon.net/ctext-zh 日文:https://dsturgeon.net/ctext-ja 1 首次使用前的設置 建立帳戶:在左手欄目中,往下捲動並點擊“登入”,然後在“若尚未建立本站的帳戶”的表格中輸入您的資料,再點“建立帳戶”。 確認電腦字體是否已安裝:在左上角點“本站介紹”,再點“字體試驗頁”。 書目查詢 使用左手欄目中的“書名檢索”功能。 檢索結果中,“”圖標表示該文獻的內容可以直接連接到對應的掃描影印資料。 此外,檢索結果中可能會看到以下圖標: 文字版存放於原典資料庫(使用者不能直接編輯)。 可以編輯的文字版,此文字版本是人工輸入的而不是OCR結果。 可以編輯的文字版,此文字版本是OCR結果。 版本的影印掃描資料。 習題: 找出《資暇集》的電子全文。 在原典數據庫中找出先秦兩漢時代的一部經典(如:《莊子》、《荀子》等)。 全文檢索 首先找出并打開想要檢索的文字版翻譯(章節或是卷),點擊 左手欄目下部的“檢索” 框。 習題: 找出《論語》中帶有孔子所說“君子不器”的段落。 找出《莊子》中所有有提到“道”的段落。 當你在文本資料庫中檢索本文得出多個結果時,可以點擊頁面右上部的“顯示統計”鏈接,打開檢索結果的互動摘要。 在主要的掃描資料中找出文本 在ctext中,可以通過影印底本連結來檢索影印資料。當文字版中帶有影印連結時,書名檢索結果中會顯示“”的圖標。 當文本跟掃描檔案有鏈接時,點擊左方文本中任何一個段落的“”圖標,打開對應的掃面版本。 當你要在掃面文本中檢索特定的單詞或是片語,在文字版中檢索對應的單詞或是片語,點擊左方結果中的“”圖標。 文字版中出現的錯誤(特別在OCR得出的文字版中)表示片語越長越不一致。如遇到這個情況,試圖檢索短一點的片語或是想要檢索的文本附近出現的單詞。 習題: 找出有掃描版鏈接的文本,檢索并檢視掃面版中的結果。 在OCR得出的文字版中重複一次。 你也可以從“圖書館”中找出掃描文本,這個檢索跟你檢索文字版鏈接會有完全一致的結果。 或者,你也可以使用鏈接來讀出每一頁的掃描本。 2 找出與文本片語相似的文本 … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

中國古代文獻的數位研究工具工作坊

活動時間:2017年12月21日(四) 13:00–17:00 活動地點:國立臺灣大學 集思會議中心尼采廳 台北市羅斯福路四段85號B1 活動說明:本工作坊為實作工作坊,請與會者攜帶個人筆記型電腦參加,以便於更快熟悉相關研究工具 報名網址:https://goo.gl/KBPMGG​ (名額有限,報名從速)​ 主辦單位:臺灣大學數位人文研究中心 哈佛大學費正清中國研究中心 協辦單位:臺灣大學圖書館 ​聯絡資訊​:臺灣大學數位人文研究中心 胡博士 TEL:02-33669847 工作坊摘要:   隨著數位技術的日益增強,數位人文工具提供了研究者許多進行古代文獻研究與分析的新方法。這些工具不但具備探索文獻的技術,也讓研究者獲得更多以往未曾發現的文獻脈絡與相互關連,甚至透過電腦收集的資料來反駁或是證明特定的假設。   但是,使用這些分析方法時,特別是在獲取數位文獻和能夠進行分析的數位工具方面,往往面臨著技術性的挑戰。在本次的實作工作坊中,主講人將詳細介紹如何透過研究工具以減少這些技術性的障礙。   工作坊的第一部分將介紹全球最大規模的中國古籍文獻全文資料庫—「中國哲學書電子化計劃」。此系統不但提供全文檢索等較常用的功能外,也能使用更進階的方法來達到使用者自定的研究目的,並讓使用者能夠直接參與新文獻的數位化。   第二部分介紹可用來分析「中國哲學書電子化計劃」中或其它來源文獻的創新分析研究工具。這些工具包括重建資料分析工具、正規表達式的全文檢索,以及各種分析結果的視覺化呈現技術。

Posted in Chinese, Digital Humanities | Comments Off