【107-1】語料分析工具與數位人文概論

Digital Humanities Techniques for Chinese Studies

曾若涵 (國立中正大學)

      本計畫立基於數位人文的發展趨勢以及申請人本身的漢語語言學專業,擬於此次課程計畫中,將數位人文結合語言學,提供學生基礎的數位知識,以理解自然語言處理的相關問題,拓展未來職涯發展的可能...

Ch 1. 數位人文 /  曾若涵
Ch 2. 數位資源 /  曾若涵
Ch 3. 斷詞工具 /  曾若涵
Ch 4. 斷詞與語言分析嘗試 /  曾若涵
Ch 5. 斷詞與Python /  曾若涵、林哲維
Ch 6. 校內專家演講:VR專題 /  江振國
Ch 7. 文本資料視覺化 /  曾若涵
Ch 8. 文本分析 /  曾若涵
Ch 9. 期末成果1 /  曾若涵
Ch 10. 期末成果2 /  曾若涵
Ch 11. 期末成果3 /  曾若涵

計畫主持人資訊

姓 名 曾若涵
電子信箱 hannahegg@gmail.com
電 話 (05)2720411轉分機31103
服務學校 中正大學
系所單位 中文系
職 稱 助理教授

教師簡介 (更多資訊)

姓 名 曾若涵
現 職 助理教授
E-Mail hannahegg@gmail.com
連絡電話 (05)2720411轉分機31103

最高學歷

國立中山大學文學博士

研究專長

聲韻學、語言學概論、華語語音學、日本江戶韻學

近年研究主題

聲韻學、語言學概論、華語語音學、日本江戶韻學

中文課程名稱: 【107-1】語料分析工具與數位人文概論
英文課程名稱: Digital Humanities Techniques for Chinese Studies
教師姓名: 曾若涵
江振國(共同主持人)
開課學校/系所: 國立中正大學
開課學期: 1071
學分數: 3 學分
課程關鍵字: 語料分析
數位人文
文本量化分析
課程領域: 人文學
課程階層: 基礎
應用數位技術/工具:

 中研院斷詞系統
哈工大斷詞系統
python
jieba斷詞系統
庫博斷詞系統

先備課程: 1.有語言學概論之基礎為宜,或者修習過任何一門語言學相關課程。 2.願意挑戰語料庫、語料處理系統,有解決跨語言問題的信心與勇氣。
延伸課程: 參考網站 1. 教育部數位人文課程創新推廣計畫 https://www.dhci.digital.ntu.edu.tw/tools 2. 中央研究院的「中文斷詞系統」 http://ckipsvr.iis.sinica.edu.tw/ 3. 哈爾濱工業大學「語言技術平台」 https://www.ltp-cloud.com/demo/ 4. 北京清華大學的NLPIR大資料搜索與挖掘線上平臺 http://ictclas.nlpir.org/nlpir/html/jianjie-0.html 5. 結巴斷詞程式碼 https://github.com/ldkrsi/jieba-zh_TW 6. Python官網 https://www.python.org/
相關課程: 其他參考書目 3. (美)米羅斯拉夫.庫巴特(Miroslav Kubat)著;王勇、仲國強、孫鑫譯,2016,《機器學習導論》(An Introduction to Machine Learning),北京:機械工業出版社。 4. (美)哈林頓(Peter Harrington),李銳、李鵬、曲亞東、王斌譯,2013,《機器學習實踐》(Machine Learning in Action),北京:人民郵電出版社。 5. 黃安埠著,2017,《深入淺出深度學習:原理剖析與Python實踐》,北京:電子工業出版社。 6. 李博著,2017,《機器學習實踐應用》,北京:人民郵電出版社。 7. 高揚、衛崢編著,2017,《白話深度學習與Tensor Flow》,北京:人民郵電出版社。 8. 董佳蓉著,2016,《語境論視野下的人工智能範式發展趨勢研究》,北京:科學出版社。 9. 劉宇宙編著,2018,《Python 3.5從零開始學》,北京:清華大學出版社。 10. 俞征武著,2016,《發現演算法》,臺北:旗標出版社。 11. [印度]Deepti Chopra等著,王威譯,2017,《精通Python自然語言處理》,北京:人民郵電出版社。 12. 任立中總編,2016,《大數據戰略4.0》,臺北:前程文化出版社。 13. 葉蜚聲、徐通鏘,1995,《語言學綱要》,台北:書林出版社。 14. 鍾榮富,2006,《當代語言學概論》,台北:五南圖書出版公司。 15. 謝國平,1998,《語言學概要》,台北:三民書局,增訂新版。 16. Yule, G.著,張文軒譯,1999,《語言學導論》,台北:書林書版社。 17. Fromkin et al.著,黃宣範譯,2003,《語言學新引》,台北:文鶴出版社。 18. 葛本儀,2002,《語言學概論》,台北:五南圖書出版公司。 19. 劉月華等,2007,《實用現代漢語語法》,台北:師大書苑。 20. 游適宏,2009,《漢語語言學──自我評量》,台北:新學麟書局。

課程概述

      本計畫立基於數位人文的發展趨勢以及申請人本身的漢語語言學專業,擬於此次課程計畫中,將數位人文結合語言學,提供學生基礎的數位知識,以理解自然語言處理的相關問題,拓展未來職涯發展的可能。
      對中文系而言,進行各領域文本研究時,文本分析或語料處理乃是必備能力,然而整理文本往往成為最耗費心力的過程。若學生具備數位語料應用的知識與技能,必有助於往後學習,且能爭取更多深入思考的時間。在此理念上,本課程擬分三個部分執行:第一部分為中文斷詞系統與中文語料分析工具選介及探索。第二部分,試將文本投入幾個數位工具進行斷詞(分詞),帶領學生探討結果所呈現的詞彙、語法、語意等相關問題,並思考可能的問題解決或優化方案。第三部分著重於文本斷詞結果的進一步應用,如詞頻分析、語境分析、人工智能應用等面向。以上各部分之比例與難度將依實際情形進行調整,以提供適切的條件供學生實際應用。課程最後將綜合上述三部分,讓學生進行分組專題實作,並於期末發表成果。

教學目標

 1. 接觸數位語料分析工具,並有基礎的了解及應用能力。
2. 能夠利用語料分析工具來處理各種文本材料。
3. 對Python語言程式或者數位人文相關議題有基礎認識。

修課條件

 1.有語言學概論之基礎為宜,或者修習過任何一門語言學相關課程。
2.願意挑戰語料庫、語料處理系統,有解決跨語言問題的信心與勇氣。

授課方式

課堂教學

成績評量方式

■上課態度及互動20%:包含出席、課堂提問、小組討論、團體活動成績
■小考及實作練習30% ■期中考20%
■期末小組專題報告30% ■加分機制(研擬中)

教學進度

 預定每週教學進度及內容
期數(週) 單元 內容
第1週 數位人文 主題:數位人文導論
內容:何謂數位人文?現況如何?未來發展?
活動:課堂分組、對課程的期待與想像
第2週 數位資源 主題:數位資源於人文應用之可能
內容:介紹應用於人文的數位資源、軟體、網站
活動:課堂中投入文本來試用數位資源、學生分析使用成果、給予評價、問題討論
第3週 斷詞工具 主題:中文斷詞系統介紹、數位人文資料庫/語料庫介紹
內容:說明為何需要斷詞,簡介中研院、哈工大、Jieba、庫博(Corpro)等斷詞工具之特色及差異
活動:實際比較斷詞之後的文本差異並思考語言學問題所在
第4週 專題演講 主題:校內/校外專家專題演講
內容:暫定語料庫(Corpus)領域專家
第5週 斷詞與語言分析嘗試-1 主題:文本斷詞結果分析與詞彙、詞頻統計
內容:詞彙分類概念是否影響斷詞表現、如何統計詞頻
活動:根據短文本之斷詞結果實際分析並討論
第6週 斷詞與語言分析嘗試-2 主題:文本斷詞結果分析與語法
內容:漢語語法特徵是否影響斷詞表現?如何提升斷詞準確性?
活動:根據短文本之斷詞結果實際分析並討論
第7週 斷詞與語言分析嘗試-3 主題:文本斷詞結果分析與語意
內容:漢語語意特徵是否影響斷詞表現?語法及語意是否互斥?電腦如何選擇?
活動:根據短文本之斷詞結果實際分析並思考自然語言的處理難點
第8週 斷詞與語言分析嘗試-4 主題:文本斷詞結果分析與語篇
內容:漢語語篇之結構如何影響斷詞?母語者如何串聯句子?電腦能否模仿母語者?
活動:根據短文本之斷詞結果實際分析並思考語篇處理的可行方案
第9週 期中考週 期中考或專題提案報告
第10週 文本資料視覺化-1 主題:何謂文本資料視覺化?
內容:介紹文本資料視覺化的方式及工具
活動:練習操作簡單步驟
第11週 文本資料視覺化-2 主題:文本資料視覺化的幾種常用方式
內容:進一步介紹文本資料視覺化的方式及工具
活動:進一步演練操作、繳交實作作業
第12週 專題演講 主題:校內/校外專家專題演講
內容:暫定文本資料視覺化專家或VR專題
第13週 文本分析-1 主題:網路新聞語料分析
內容:利用演練過的工具綜合應用,並討論其語言學問題
活動:設計學習單提出問題、小組討論解決問題
第14週 文本分析-2 主題:現代文學語料分析
內容:利用演練過的工具綜合應用,找出並討論其語言學問題
活動:設計學習單提出問題、小組討論解決問題
第15週 文本分析-3 主題:古典文學語料分析
內容:利用演練過的工具綜合應用,找出並討論其語言學問題
活動:設計學習單提出問題、小組討論解決問題
第16週 期末成果 小組專題報告:分組報告數位人文應用成果-1
第17週 期末成果 小組專題報告:分組報告數位人文應用成果-2
第18週 期末成果 小組專題報告:分組報告數位人文應用成果-3