由於維護工作,以下日期將暫停服務。
8月12日(週一)全天
8月23日(週五)全天
由於學校放暑假,辦公室將於以下時間關閉。
8月10日星期六到8月18日星期日
■關於NINJAL-LWP for TWC
NINJAL-LWP for TWC(簡稱NLT)是從日語網站收集建構約11億個語彙的語料庫『筑波網路語料庫』(Tsukuba Web Corpus: TWC)的搜尋工具。 搜尋使用的是國立國語研究所(以下簡稱國語研)和Lago語言研究所共同開發的語料庫搜尋系統NINJAL-LWP(NINJAL-LagoWordProfiler)。 使用該系統的還有同為國語研所建構,能夠搜尋1億個語彙的『現代日語書面語均衡語料庫』(Balanced Corpus of Contemporary Written Japanese: BCCWJ)其搜尋工具NINJAL-LWP for BCCWJ(NLB)。
本工具採用語彙分析(Lexical Profiling)的手法,網羅並顯示了名詞及動詞等內容詞的共現關係及語法表現。
■使用方法
在語彙索引內輸入搜尋詞句,搜尋結果會以詞語索引列的方式呈現。NLT中首先需要選擇想要查詢的詞語(NLT中將其稱為「詞條」)來代替詞句搜尋的輸入。詞條可以選擇的詞類有名詞、動詞、形容詞、連體詞和副詞五種。
下面以查詢「走る」這一動詞為例進行說明。 首先在畫面的輸入框內輸入「走る」或「はしる」(也可輸入片假名)或者「hashiru」,點「篩選」按鈕。 下方清單顯示了讀音為「はしる」的三個詞條,點最上面的「走る」。
點了之後將打開「走る」的詞條視窗。 下面以查詢「が走る」前面可以連接哪些名詞為例進行說明。 選擇左側語法模式版面中的「組合分類」後,最上面便是【名詞+助詞<】的組合。 點選最上面的【…が走る】。
中間的搭配詞版面中將按照頻率高低依次顯示【名詞+が走る】的搭配詞。 左邊的用例畫面中顯示使用頻率最高的「車が走る」這一用例。
接下來嘗試顯示特殊的搭配詞。NLT不只可以按照使用頻率做排序,還能按照MI值進行排序。MI值為統計指標之一,越是特殊的搭配詞,其數值也會趨高。但使用頻率低的搭配詞其MI數值也會過高,因此需要排除使用頻率低的搭配詞。點選中間搭配詞版面頂端的【MI】,然後點右鍵,選擇【頻率20以上】。
如此一來【虫ずが走る】、【戦慄が走る】等【名詞+が走る】特殊的搭配詞便會被顯示在前排。
點選各搭配詞,右側版面內將顯示其用例。 這裡試著點選第7行的【閃光が走る】。 可以一個一個確認語料庫中實際使用的用例。
用例顯示以句子為單位。如果想要確認上下文關係,可以點各用例的來源部分,打開顯示前後語句的對話框。
NLT首先在搜尋視窗中選擇詞條,並在詞條視窗中來回搜尋語法模式、搭配詞和用例,進而掌握該詞條用法的整體情況。只需要點選一下,操作簡單,不會妨礙思考,能夠邊思考各種表現邊進行查閱。
詳細使用方法請詳閱使用者指南 (PDF檔, 約2.8MB, 日語)。
■筑波網路語料庫的建構
TWC ver.1.40中使用了從日語網站上收集來的11億3800萬個語彙的資料。
從網站上收集文本時,是利用搜尋引擎API收集好網頁連結後再收集該連結資料的一般方法。以下為語料庫具體的建構順序。
● | 種子及組合的生成 | |||
賦予搜尋引擎查詢參數組合構成的種子,使用了NLB開發過程中所製作的BCCWJ(2009年部分公開領域資料,約6千2百萬個語彙)的頻率清單。合併了按詞類區分的頻率清單中屬於內容詞名詞、動詞、形容詞、副詞的列表,並選擇前500個語彙作為種子。但排除了名詞中的數詞、固有名詞,同時還包含了動詞和形容詞的活用形。從這500個語彙的種子中隨機選擇3個語彙,製作合計50萬組的組合。以下為組合示例。 | ||||
| ||||
● | 利用搜尋引擎API收集連結 | |||
連結的收集使用了Yahoo!網站搜尋API。每個組合收集的連結數量為10個網頁,2012年1月上旬到下旬期間共收集了500萬個連結。刪除重複連結後的連結總數減少了約30%,總數變為約350萬個。 | ||||
● | HTML網頁的收集 | |||
每5萬個連結資料作為一組進行分組,使用3台終端設備耗費2週收集HTML頁面。 | ||||
● | 文本的提取 | |||
接著對所收集的HTML檔案進行文本提取作業。具體作業包括:刪除HTML標籤、統一文字編碼(utf8)、刪除非日語語言書寫的文本等。 | ||||
● | 排除不妥網頁 | |||
收集網路上文本的目的是採集日語用例,因此事先從語料庫資料中排除了只是單純列舉項目或連結的頁面、廣告內容過多的網頁以及難以斷句、判定為句子的頁面。 | ||||
● | 語句的提取 | |||
使用語彙分析(Lexical Profiling)工具NINJAL-LWP按照語法模式提取以語句為單位的用例中包含何種詞語搭配。因此需要事先將語料庫資料按語句單位進行分割。上一步作業中排除掉難以斷句的網頁,也是基於這一原因。 | ||||
● | 用例資料的提取 | |||
以語句為單位的資料中,包括相當於詞條的資料及相當於功能表項目的資料。語句中包含了多少名詞、是否出現動詞、是否採用了「點」或「登入」等網頁中常用的語句等等,透過多種角度,對用例的合理度加以數值化,提取出合理的資料作為用例。另外當同一網頁中出現相同語句時,只提取最初的1個例子作為用例,避免重複。 | ||||
● | 刪除重複的用例資料 | |||
上一步作業中,同一網頁中出現相同用例也不會重複提取,但在開發出將近6億個語彙的試用版NLT並實際使用後發現,同一網站上頻繁出現同一用例。因此對其進行了改良,同一個連結資訊網站上相同的用例只提取1次,最終完成了語彙數11億3781萬個、用例數4672萬7千例的筑波網路語料庫。 |
■註釋
NLT為了提取搭配詞及語法表現的資訊,為BCCWJ的資料添加註釋並進行解析。註釋所使用的解析器和詞典如下所示。
■使用注意事項
1. | 【操作環境】支援Firefox、Chrome、Safari、IE(8.0以上版本)的瀏覽器。 考慮到處理速度,推薦使用Firefox、Chrome、Safari | |
2. | 【Cookie設置】使用時請啟用瀏覽器的Cookie。未使用狀態下將無法顯示資料。關於如何啟用Cookie,請查閱各瀏覽器的說明等。 | |
3. | 【顯示結果】NLT將直接顯示機械性處理的結果。因詞素、語彙關係性解析和提取處理的準確度限制,會混入不妥的資料。敬請知悉。 | |
4. | 【發表論文和文章的情況】將NLT用於研究和教育目的並執筆論文或文章的情況,請務必按以下方式明確表示使用了NLT,並聯絡筑波大學全球溝通交流教育中心日語和日本事情遠端教育據點(jp-kyoten(小老鼠)un.tsukuba.ac.jp)。
| |
5. | 【要求刪除用例】本語料庫基於教育研究目的而從網站上收集資料。所有的用例顯示都明確標有出處網頁標題和原連結。如希望刪除從自己擁有著作權的網站所提取的用例,請以電子郵件聯絡洽詢。經確認確屬申請者本人的網頁後,將予以刪除。 |
■更新履歷
2013/4/15 | NLT ver.1.10 發佈 |
2015/3/27 | NLT ver.1.30 發佈(新增雙詞比較功能) |
2019/4/26 | 詞條頻率清單發佈 |
2020/11/16 | 網域名稱更改為tsukubawebcorpus.jp,隨時支援SSL |
2021/3/7 | NLT ver.1.40 發佈 |
2023/9/28 | 動詞詞條的「形容詞+動詞」修正 |
■洽詢
NLT相關洽詢請聯絡以下電子郵件。
jp-kyoten(小老鼠)un.tsukuba.ac.jp