Category Archives: Chinese

Accessible Text Mining with Text Tools and the Chinese Text Project

Setup Create a free account on ctext.org and log in. Make sure to validate your e-mail address by opening the link the system sent you (if not, the link above will display a warning/reminder in red to do so). Enter … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

SUTD Workshop

Materials from a workshop held as part of Working with different kinds of ‘text’ in the Digital Humanities at the Singapore University of Technology and Design. Setup Create a free account on ctext.org and log in. Make sure to validate … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

Large-scale Optical Character Recognition of Pre-modern Chinese Texts

This paper appears in International Journal of Buddhist Thought and Culture 28(2) (December 2018). [Full paper] Abstract Optical character recognition (OCR) – the fully automated transcription of text appearing in a digitized image – offers transformative opportunities for the scholarly … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

Networks of Text Reuse in Early Chinese Literature

Poster presented at Connected Past 2018. Abstract The phenomenon of text reuse – syntactically and semantically similar fragments of text repeated apparently independently in multiple pieces of writing, and often in works purporting to be composed by entirely different authors … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

Accessible digital text analysis for classical Chinese

Paper presented at Future Philologies: Digital Directions in Ancient World Text, Institute for the Study of the Ancient World, New York University, April 20 2018. Abstract Despite a growing interest in digital humanities as a field of study and focus … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

Cyberinfrastructure for historical China studies

It was a pleasure to host on behalf of the Chinese Text Project (ctext.org), together with Professor Peter Bol on behalf of the China Biographical Database (CBDB), the International conference on cyberinfrastructure for historical China studies, held at the Harvard … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

ctext.org入門教程

此教程將會從使用者的角度簡單介紹中國哲學書電子化計劃資料庫和數位圖書館中的主要操作方法,並舉具體的操作實例以便示範系統的主要功能。 教程網址: 英文:https://dsturgeon.net/ctext 中文:https://dsturgeon.net/ctext-zh 日文:https://dsturgeon.net/ctext-ja 1 首次使用前的設置 建立帳戶:在左手欄目中,往下捲動並點擊“登入”,然後在“若尚未建立本站的帳戶”的表格中輸入您的資料,再點“建立帳戶”。 確認電腦字體是否已安裝:在左上角點“本站介紹”,再點“字體試驗頁”。 書目查詢 使用左手欄目中的“書名檢索”功能。 檢索結果中,“”圖標表示該文獻的內容可以直接連接到對應的掃描影印資料。 此外,檢索結果中可能會看到以下圖標: 文字版存放於原典資料庫(使用者不能直接編輯)。 可以編輯的文字版,此文字版本是人工輸入的而不是OCR結果。 可以編輯的文字版,此文字版本是OCR結果。 版本的影印掃描資料。 習題: 找出《資暇集》的電子全文。 在原典數據庫中找出先秦兩漢時代的一部經典(如:《莊子》、《荀子》等)。 全文檢索 首先找出并打開想要檢索的文字版翻譯(章節或是卷),點擊 左手欄目下部的“檢索” 框。 習題: 找出《論語》中帶有孔子所說“君子不器”的段落。 找出《莊子》中所有有提到“道”的段落。 當你在文本資料庫中檢索本文得出多個結果時,可以點擊頁面右上部的“顯示統計”鏈接,打開檢索結果的互動摘要。 在主要的掃描資料中找出文本 在ctext中,可以通過影印底本連結來檢索影印資料。當文字版中帶有影印連結時,書名檢索結果中會顯示“”的圖標。 當文本跟掃描檔案有鏈接時,點擊左方文本中任何一個段落的“”圖標,打開對應的掃面版本。 當你要在掃面文本中檢索特定的單詞或是片語,在文字版中檢索對應的單詞或是片語,點擊左方結果中的“”圖標。 文字版中出現的錯誤(特別在OCR得出的文字版中)表示片語越長越不一致。如遇到這個情況,試圖檢索短一點的片語或是想要檢索的文本附近出現的單詞。 習題: 找出有掃描版鏈接的文本,檢索并檢視掃面版中的結果。 在OCR得出的文字版中重複一次。 你也可以從“圖書館”中找出掃描文本,這個檢索跟你檢索文字版鏈接會有完全一致的結果。 或者,你也可以使用鏈接來讀出每一頁的掃描本。 2 找出與文本片語相似的文本 … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

中國古代文獻的數位研究工具工作坊

活動時間:2017年12月21日(四) 13:00–17:00 活動地點:國立臺灣大學 集思會議中心尼采廳 台北市羅斯福路四段85號B1 活動說明:本工作坊為實作工作坊,請與會者攜帶個人筆記型電腦參加,以便於更快熟悉相關研究工具 報名網址:https://goo.gl/KBPMGG​ (名額有限,報名從速)​ 主辦單位:臺灣大學數位人文研究中心 哈佛大學費正清中國研究中心 協辦單位:臺灣大學圖書館 ​聯絡資訊​:臺灣大學數位人文研究中心 胡博士 TEL:02-33669847 工作坊摘要:   隨著數位技術的日益增強,數位人文工具提供了研究者許多進行古代文獻研究與分析的新方法。這些工具不但具備探索文獻的技術,也讓研究者獲得更多以往未曾發現的文獻脈絡與相互關連,甚至透過電腦收集的資料來反駁或是證明特定的假設。   但是,使用這些分析方法時,特別是在獲取數位文獻和能夠進行分析的數位工具方面,往往面臨著技術性的挑戰。在本次的實作工作坊中,主講人將詳細介紹如何透過研究工具以減少這些技術性的障礙。   工作坊的第一部分將介紹全球最大規模的中國古籍文獻全文資料庫—「中國哲學書電子化計劃」。此系統不但提供全文檢索等較常用的功能外,也能使用更進階的方法來達到使用者自定的研究目的,並讓使用者能夠直接參與新文獻的數位化。   第二部分介紹可用來分析「中國哲學書電子化計劃」中或其它來源文獻的創新分析研究工具。這些工具包括重建資料分析工具、正規表達式的全文檢索,以及各種分析結果的視覺化呈現技術。

Posted in Chinese, Digital Humanities | Comments Off

ctext.orgへの実践的ガイド

本チュートリアルは、 データベース・デジタルライブラリーChinese Text Project(中国哲学書電子化計画)における一般的なタスク機能について、ユーザーの目線からまとめたものです。皆さんに参考となりそうなシステムの主要機能に関するタスク事例をご紹介します。 本チュートリアルのオンライン版はこちら: 英語:https://dsturgeon.net/ctext 中国語:https://dsturgeon.net/ctext-zh 日本語:https://dsturgeon.net/ctext-ja 1 初期設定 アカウントの登録:左側のペインを一番下までスクロールダウンしてください。「Log in」をクリックし、「If you do not have an account…」セクションにおいて必要事項を記入してください。 フォントサポートを確認:左上の隅に見える「About the site」の下にある「Font test page」をクリックしてください。 テキストを探す 左側のペインにある「Title search」機能をお使いください。 題目検索結果において、「」アイコンが表示されているテキストは、スキャンした資料とリンクしています。 題目検索結果において使用される主なアイコン: テキストデータベースにおける複写版(ユーザーは編集不可) ユーザーが編集可能な複写版、OCRは使用されていません ユーザーが編集可能な複写版、OCRに対応しています 特定の編集されたテキストのスキャン版 実践: 『資暇集』の複写版を検索してください テキストデータベースにて、先秦もしくは漢のテキストを検索してください。 全文検索 まず、検索したいテキスト(もしくは章や巻)を検索し、開いてください。その後、左側のペイン下部にある「Search」というボックスを使用してください。 実践: 『論語』にて、孔子が「君子不器」と述べている節を検索してください。 『莊子』の中で、「道」について書かれている節すべてを検索してください。 … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

ctext.org テキスト・ツールズ

本チュートリアルは、 データベース・デジタルライブラリーChinese Text Project(中国哲学書電子化計画)における「テキスト・ツールズ」プラグインの主な機能について、参考となるタスクやケースを提示し、紹介します。 [本チュートリアルのオンライン版はこちら: https://dsturgeon.net/texttools-ja(日本語)、https://dsturgeon.net/texttools(英語)] 1 初期セットアップ 過去にChinese Text Projectを使用した経験のない場合、チュートリアルの「ctext.orgへの実践的な説明」を参照し、ctext.orgにおけるアカウントの設定、プラグインのインストールを行ってください。 あなたのアカウントを使用し、ログインしてください。 APIキーを取得している場合、ctext.orgアカウントの設定画面にて、APIキーを保存してください。もしくは、あなたの機関がctext.orgを購読している場合、大学の説明に従って、使用してください。その際、大学のローカルネットワークを使用するか、大学が提供しているVPNを経由してアクセスしてください。 「テキスト・ツールズ」のプラグインをインストールしてください(インストールリンク)。この作業は1回のみです。 これらのステップを完了した後、ctext.orgにおけるテキストもしくはテキストの章を開くことで、テキスト・ツールズのプラグインにアクセスするリンクが現れます。 始めましょう テキスト・ツールズプログラムは、数多くのページ(N-gramやRegexと呼ばれます)を含んでいます。これらのページは、各頁の上部にあるリンクを使うことで、切り替えることができます。各頁は、以下に記載するツールのどれかに該当しています。ただし、基本的な使用方法と各ツールのオプションを説明しているHelp pageは除きます。これらのツールは、テキスト分析及びデータの単純な可視化を可能とします。 テキスト分析のツールは、ctext.orgからAPI経由でテキストを直接読み取るか、他の場所からテキストをツールにコピーすることもできます。ctext.orgプラグインを使用してツールを開く場合、テキストは自動に読み込まれ、表示されます。追加のテキストをctextから読み込む場合、テキスト(もしくは章)のURNをテキスト・ツールズのウィンドウボックスにある「Fetch text by URN」という名のボックスにコピーし、Fetch(フェッチ)をクリックしてください。テキストが読み込まれた後、内容は、タイトルとともに表示されます。より多くのテキストを追加する場合、「Save/add another text」をクリックし、先ほどの手順を繰り返してください。現在選択されたテキストの一覧は、ウィンドウの上部に表示されます。 N-grams N-gramは、一連の連続したnのテキスト項目(文字や単語)であり、nは固定小数点整数です(例えば、n=1, n=3など)。「テキスト項目」は、通常、用語(単語)や文字であり、特に、中国語において、文字は単語と比べ、より頻繁に使用されます。その背景には、中国のテキストを正確かつ自動的に、一連の独立した単語に分割することが難しいからです。例えば、「學而時習之不亦說乎」という一文には、以下3つの文字によるgramsが含まれています(すなわち、全く同じの3つの文字が特殊な順序で配置されています):「學而時」、「而時習」、「時習之」、「習之不」、「之不亦」、「不亦說」、「亦說乎」。 テキスト・ツールズのN-gramに関する機能は、n-gramsの文字という形式に基づいて、様々な中国テキストにおける単語の使用を概観することができます。 実践: ctext から2〜3のテキストを選び、1 gramsの計算を試みてください。「Value of n」は、1で設定してください。よりよく傾向を可視化するため、Chartのリンクを使用し、生データの棒グラフを描いてください。この作業を正規化した場合と、しない場合、両方で試してください。 この作業を2及び3 gramsで繰り返してください。 上記で選んだテキストの長さがおおよそ同じである場合、もう2つ、長さ、もしくはスタイルにおいて大いに異なるテキスト(『道德經』や『紅樓夢』)を選び、正規化する場合と、しない場合に分け、どのように結果が変化するのか、実演してみてください。 ワードクラウドは、もう一つの可視化の手段であり、その基になるデータは、ラベルの大きさがそれらの発生頻度に比例して異なるテキストによって描かれています(もしくは、より多い場合、それらの対数の頻度に比例します)。通常、ワードクラウドは、文字や単語を使用した単一のテキストや結合したコーパスによって構築されていますが、一般的に同じ原理は、自然とn-grams(および通常の表現)、複数のテキストにも広がるとされています。テキスト・ツールズでは、複数のテキストを可視化することで、データ内の一つ一つの確かなテキストを異なる色で表示します。これは、正規化においても同じ事がいえます:異なるテキストが長さによって正規化されていない場合、テキストが長くなることでラベルは自然と大きくなります。 実践: 単一のテキストおよび2つもしくはより多くのテキストの為のワードクラウドを作成してください。ワードクラウドタブの設定の中にある「Use log scale」に基づいて実験してみてください。その作業によって、なぜ対数スケールがより頻繁にワードクラウドに使用されるか理解して頂けると思います。 2 … Continue reading

Posted in Chinese, Digital Humanities | Comments Off