Author Archives: dsturgeon

ctext.orgへの実践的ガイド

本チュートリアルは、 データベース・デジタルライブラリーChinese Text Project(中国哲学書電子化計画)における一般的なタスク機能について、ユーザーの目線からまとめたものです。皆さんに参考となりそうなシステムの主要機能に関するタスク事例をご紹介します。 [本チュートリアルのオンライン版はこちら: https://dsturgeon.net/ctext-ja(日本語)、 https://dsturgeon.net/ctext(英語)] 1 初期設定 アカウントの登録:左側のペインを一番下までスクロールダウンしてください。「Log in」をクリックし、「If you do not have an account…」セクションにおいて必要事項を記入してください。 フォントサポートを確認:左上の隅に見える「About the site」の下にある「Font test page」をクリックしてください。 テキストを探す 左側のペインにある「Title search」機能をお使いください。 題目検索結果において、「」アイコンが表示されているテキストは、スキャンした資料とリンクしています。 題目検索結果において使用される主なアイコン: テキストデータベースにおける複写版(ユーザーは編集不可) ユーザーが編集可能な複写版、OCRは使用されていません ユーザーが編集可能な複写版、OCRに対応しています 特定の編集されたテキストのスキャン版 実践: 『資暇集』の複写版を検索してください テキストデータベースにて、先秦もしくは漢のテキストを検索してください。 全文検索 まず、検索したいテキスト(もしくは章や巻)を検索し、開いてください。その後、左側のペイン下部にある「Search」というボックスを使用してください。 実践: 『論語』にて、孔子が「君子不器」と述べている節を検索してください。 『莊子』の中で、「道」について書かれている節すべてを検索してください。 テキストデータベースにて、テキストを検索している際、数多くの検索結果が出る事があります。その場合、右上に表示されている「Show … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

ctext.org テキスト・ツールズ

本チュートリアルは、 データベース・デジタルライブラリーChinese Text Project(中国哲学書電子化計画)における「テキスト・ツールズ」プラグインの主な機能について、参考となるタスクやケースを提示し、紹介します。 [本チュートリアルのオンライン版はこちら: https://dsturgeon.net/texttools-ja(日本語)、https://dsturgeon.net/texttools(英語)] 1 初期セットアップ 過去にChinese Text Projectを使用した経験のない場合、チュートリアルの「ctext.orgへの実践的な説明」を参照し、ctext.orgにおけるアカウントの設定、プラグインのインストールを行ってください。 あなたのアカウントを使用し、ログインしてください。 APIキーを取得している場合、ctext.orgアカウントの設定画面にて、APIキーを保存してください。もしくは、あなたの機関がctext.orgを購読している場合、大学の説明に従って、使用してください。その際、大学のローカルネットワークを使用するか、大学が提供しているVPNを経由してアクセスしてください。 「テキスト・ツールズ」のプラグインをインストールしてください(インストールリンク)。この作業は1回のみです。 これらのステップを完了した後、ctext.orgにおけるテキストもしくはテキストの章を開くことで、テキスト・ツールズのプラグインにアクセスするリンクが現れます。 始めましょう テキスト・ツールズプログラムは、数多くのページ(N-gramやRegexと呼ばれます)を含んでいます。これらのページは、各頁の上部にあるリンクを使うことで、切り替えることができます。各頁は、以下に記載するツールのどれかに該当しています。ただし、基本的な使用方法と各ツールのオプションを説明しているHelp pageは除きます。これらのツールは、テキスト分析及びデータの単純な可視化を可能とします。 テキスト分析のツールは、ctext.orgからAPI経由でテキストを直接読み取るか、他の場所からテキストをツールにコピーすることもできます。ctext.orgプラグインを使用してツールを開く場合、テキストは自動に読み込まれ、表示されます。追加のテキストをctextから読み込む場合、テキスト(もしくは章)のURNをテキスト・ツールズのウィンドウボックスにある「Fetch text by URN」という名のボックスにコピーし、Fetch(フェッチ)をクリックしてください。テキストが読み込まれた後、内容は、タイトルとともに表示されます。より多くのテキストを追加する場合、「Save/add another text」をクリックし、先ほどの手順を繰り返してください。現在選択されたテキストの一覧は、ウィンドウの上部に表示されます。 N-grams N-gramは、一連の連続したnのテキスト項目(文字や単語)であり、nは固定小数点整数です(例えば、n=1, n=3など)。「テキスト項目」は、通常、用語(単語)や文字であり、特に、中国語において、文字は単語と比べ、より頻繁に使用されます。その背景には、中国のテキストを正確かつ自動的に、一連の独立した単語に分割することが難しいからです。例えば、「學而時習之不亦說乎」という一文には、以下3つの文字によるgramsが含まれています(すなわち、全く同じの3つの文字が特殊な順序で配置されています):「學而時」、「而時習」、「時習之」、「習之不」、「之不亦」、「不亦說」、「亦說乎」。 テキスト・ツールズのN-gramに関する機能は、n-gramsの文字という形式に基づいて、様々な中国テキストにおける単語の使用を概観することができます。 実践: ctext から2〜3のテキストを選び、1 gramsの計算を試みてください。「Value of n」は、1で設定してください。よりよく傾向を可視化するため、Chartのリンクを使用し、生データの棒グラフを描いてください。この作業を正規化した場合と、しない場合、両方で試してください。 この作業を2及び3 gramsで繰り返してください。 上記で選んだテキストの長さがおおよそ同じである場合、もう2つ、長さ、もしくはスタイルにおいて大いに異なるテキスト(『道德經』や『紅樓夢』)を選び、正規化する場合と、しない場合に分け、どのように結果が変化するのか、実演してみてください。 ワードクラウドは、もう一つの可視化の手段であり、その基になるデータは、ラベルの大きさがそれらの発生頻度に比例して異なるテキストによって描かれています(もしくは、より多い場合、それらの対数の頻度に比例します)。通常、ワードクラウドは、文字や単語を使用した単一のテキストや結合したコーパスによって構築されていますが、一般的に同じ原理は、自然とn-grams(および通常の表現)、複数のテキストにも広がるとされています。テキスト・ツールズでは、複数のテキストを可視化することで、データ内の一つ一つの確かなテキストを異なる色で表示します。これは、正規化においても同じ事がいえます:異なるテキストが長さによって正規化されていない場合、テキストが長くなることでラベルは自然と大きくなります。 実践: 単一のテキストおよび2つもしくはより多くのテキストの為のワードクラウドを作成してください。ワードクラウドタブの設定の中にある「Use log scale」に基づいて実験してみてください。その作業によって、なぜ対数スケールがより頻繁にワードクラウドに使用されるか理解して頂けると思います。 2 … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

中國古代文獻的數位研究工具工作坊

活動時間:2017年12月21日(四) 13:00–17:00 活動地點:國立臺灣大學 集思會議中心尼采廳 台北市羅斯福路四段85號B1 活動說明:本工作坊為實作工作坊,請與會者攜帶個人筆記型電腦參加,以便於更快熟悉相關研究工具 報名網址:https://goo.gl/KBPMGG​ (名額有限,報名從速)​ 主辦單位:臺灣大學數位人文研究中心 哈佛大學費正清中國研究中心 協辦單位:臺灣大學圖書館 ​聯絡資訊​:臺灣大學數位人文研究中心 胡博士 TEL:02-33669847 工作坊摘要:   隨著數位技術的日益增強,數位人文工具提供了研究者許多進行古代文獻研究與分析的新方法。這些工具不但具備探索文獻的技術,也讓研究者獲得更多以往未曾發現的文獻脈絡與相互關連,甚至透過電腦收集的資料來反駁或是證明特定的假設。   但是,使用這些分析方法時,特別是在獲取數位文獻和能夠進行分析的數位工具方面,往往面臨著技術性的挑戰。在本次的實作工作坊中,主講人將詳細介紹如何透過研究工具以減少這些技術性的障礙。   工作坊的第一部分將介紹全球最大規模的中國古籍文獻全文資料庫—「中國哲學書電子化計劃」。此系統不但提供全文檢索等較常用的功能外,也能使用更進階的方法來達到使用者自定的研究目的,並讓使用者能夠直接參與新文獻的數位化。   第二部分介紹可用來分析「中國哲學書電子化計劃」中或其它來源文獻的創新分析研究工具。這些工具包括重建資料分析工具、正規表達式的全文檢索,以及各種分析結果的視覺化呈現技術。

Posted in Chinese, Digital Humanities | Comments Off

University of Tokyo Hands-on ctext.org Workshop

Thanks to the help of Professor Nagasaki Kiyonori, I am thrilled to be holding this hands-on workshop covering usage of the Chinese Text Project and Text Tools in Tokyo this December. Details follow: Digital Research Tools for Pre-modern Chinese Texts … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

Digital Research Tools for Pre-modern Chinese Texts

Interactive workshop 9:00am-12:00pm, November 18, 2017, held in B129, Northwest Building, 52 Oxford St., Cambridge, MA 02138 [Download slides] Digital methods offer increasingly powerful tools to aid in the study and analysis of historical written works, both through exploratory techniques … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

Unsupervised identification of text reuse in early Chinese literature

This paper will appear in Digital Scholarship in the Humanities (currently available in “Advance articles”). Text reuse in early Chinese transmitted texts is extensive and widespread, often reflecting complex textual histories involving repeated transcription, compilation, and editing spanning many centuries … Continue reading

Posted in Chinese, Digital Humanities | Comments Off

Linking, sharing, merging: sustainable digital infrastructure for complex biographical data

Paper to be presented at Biographical Data in a Digital World, 6 November 2017, Linz. In modeling complex humanities data, projects working within a particular domain often have overlapping but distinct priorities and goals. One common result of this is … Continue reading

Posted in Digital Humanities, Talks and conference papers | Comments Off

Pusan National University

I’m very excited to be visiting the Department of Korean Literature in Classical Chinese at Pusan National University next week to give two talks – abstracts follow: Old Meets New: Digital Opportunities in the Humanities 28th September 2017, 10am-12pm The … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

JADH Poster: DH research and teaching with digital library APIs

At this year’s Japanese Association for Digital Humanities conference, as well as giving a keynote on digital infrastructure, I also presented this poster on the specific example of full-text digital library APIs being used in ctext.org and for teaching at … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off

Collaboration at scale: emerging infrastructures for digital scholarship

Keynote lecture, Japanese Association for Digital Humanities (JADH 2017), Kyoto Abstract Modern technological society is possible only as a result of collaborations constantly taking place between countless individuals and groups working on tasks which at first glance may seem independent … Continue reading

Posted in Chinese, Digital Humanities, Talks and conference papers | Comments Off