由于维护工作,以下日期将暂停服务。
8月12日星期一全天
8月23日星期五全天
由于学校放暑假,办公室将于以下时间关闭。
从8月10日星期六到8月18日星期日
■关于NINJAL-LWP for TWC
《筑波网络语料库》(Tsukuba Web Corpus: TWC)是由网站所搜集的数据构建的大约有11亿词的语料库,而NINJAL-LWP for TWC(简称NLT)是该语料库的检索工具。检索工具采用的是由国立国语研究所(以下简称国语研)和Lago语言研究所共同开发的语料库检索系统NINJAL-LWP(NINJAL-LagoWordProfiler)。由国语研开发的总词数为1亿的《现代日语书面语平衡语料库》(Balanced Corpus of Contemporary Written Japanese: BCCWJ)的检索工具NINJAL-LWP for BCCWJ(NLB)也使用该系统。
该工具采用词汇分布概貌搜集(Lexical Profiling)手法,能够覆盖显示名词及动词等实词的共现关系及语法特征。
■使用方法
在索引内输入要检索的词句,其检索结果通过索引行来反馈。NLT 中首先需要选择想要检索的词(NLT 中将其称为“词条”) 而不是词句。可以选择的词条包括名词、动词、形容词、连体词和副词这五种词性的实词。
下面以检索“走る”这一动词为例进行说明。首先在画面的输入框内输入“走る”或“はしる”(也可输入片假名)或者“hashiru”,点击“筛选”按钮。下方列表显示了读音为“はしる”的三个词条,点击最上面的“走る”。
点击后将打开“走る”的词条窗口。下面以检索“が走る”前面可以连接哪些名词为例进行说明。选择左侧语法模式面板的“分组”后,最上面便是【名词+助词<】组。点击最上面的【…が走る】模式。
中间的词语搭配面板内将按照由高到低的频数依次显示【名词+が走る】的词语搭配。左侧的使用例面板内显示使用频数最高的“車が走る”这一频数。
接下来尝试频数搭配。NLT不仅可以按使用频数顺序排序,还可以按照MI值的顺序进行排序。MI值为统计指标之一,越是有特点的词语搭配,其数值也越趋高。但低频数的频数搭配数值会过高,因此需要排除低频数的词语搭配。点击词语搭配面板页眉的【MI】,然后在面板上点击右键,选择【频数20以上】。
然后【虫ずが走る】、【戦慄が走る】等【名词+が走る】这样有特点的表达会在前排显示。
点击各词语搭配,右侧面板内将显示其使用例。在这里我们点击一下第7行的【閃光が走る】。可以一个一个地确认语料库中实际使用的例子。
使用例以句子为单位显示。如果想要确认上下文,点击使用例以句子为单位显示的出处部分,将打开显示前后文的对话框。
NLT首先在检索窗口中选择词条,并在词条窗口中来回检索语法模式、词语搭配和使用例,从而掌握该词条用法的整体情况。点击即可,操作简单,可以一气呵成并且随心所欲地进行检索。
详细使用方法请查阅用户指南 (PDF文档, 约2.8MB, 日語)。
■筑波网络语料库的构建
TWC ver. 1.40中使用了从日语网站上收集来的11亿3800万个词的数据。
从网站上收集文本时采用的一般方法是,利用搜索引擎API收集网页的链接后再收集该链接里的数据。以下为具体的语料库构建步骤。
● | 种子及元组的生成 | |||
在给搜索引擎查询参数赋予元组的种子构建上,使用了NLB开发过程中所制作的BCCWJ(2009年部分公开领域数据,约6千2百万个词)的频数列表。将按照词性分类的频数列表里的实词名词、动词、形容词、副词的列表合并,并将前500个词作为种子。但排除了名词中的数词、固有名词,包含了动词和形容词的活用形。从这500个词的种子中随机选择3个词,制作了共50万组的元组。以下为元组示例。 | ||||
| ||||
● | 利用搜索引擎API收集链接 | |||
链接的收集使用了Yahoo!网站搜索API。每个元组收集的链接数量为10个网页,从2012年1月上旬到下旬共收集了500万个链接。删除重复的链接后的链接总数减少了约30%,约为350万个。 | ||||
● | HTML网页的收集 | |||
将链接数据以5万个为一组进行分割后,使用3台终端设备用2周时间收集了HTML网页。 | ||||
● | 文本抽出 | |||
接着从收集的HTML文档抽取了文本。具体包括:删除HTML标签、统一文字编码(utf8)、删除非日语语言书写的文本等。 | ||||
● | 排除不符合条件网页 | |||
收集网络上文本的目的在于采集日语使用例,因此事先从语料库数据中排除了只是单纯列举条例或链接的网页、判定为广告内容过多的网页以及难以断句的网页。 | ||||
● | 句子抽出 | |||
使用词汇分布概貌搜集(Lexical Profiling)工具NINJAL-LWP按照语法模式抽出以句子为单位的使用例中包含的词语搭配。因此需要事先将语料库数据以句子为单位进行分割。上一步中排除掉难以断句的网页,也是出于这一原因。 | ||||
● | 使用例数据抽出 | |||
以句子为单位的数据中,包括相当于词条的数据及相当于菜单项的数据。通过句子中的名词包含程度、句子中是否出现动词、是否采用了“点击”或“登录”等网页中常用的表达等多种角度,将使用例的合理度数值化,抽出合理的数据作为使用例。另外当同一网页中出现相同句子时,只提取最初的1个作为使用例,避免重复。 | ||||
● | 删除重复的使用例数据 | |||
上一步中,同一网页中出现相同使用例也不会重复抽出,但在开发出将近6亿个词语的试用版NLT并实际使用后发现,频频出现同一网站的同一使用例。因此对其进行了基于链接信息的同一网站上的同一使用例只抽取1次的改良,最终完成了词语数11亿3781万个、使用例数4672万7千例的筑波网络语料库。 |
■注释
NLT为提取词语搭配及语法特征的信息,在为BCCWJ的数据添加注释后才进行解析。注释所使用的解析器和词典如下所示。
■使用注意事项
1. | 【操作环境】支持Firefox、Chrome、Safari、IE(8.0以上版本)的浏览器,考虑到处理速度,推荐使用Firefox、Chrome、Safari。 | |
2. | 【Cookie设置】使用时请启用浏览器的Cookie,禁用状态下数据将无法显示,关于如何启用Cookie,请参考各浏览器的使用说明。 | |
3. | 【显示结果】NLT将直接显示机械性的处理结果。因词素、词语关系性解析和抽取处理的准确度限制,会混有不符合条件的数据,敬请知悉。 | |
4. | 【发表论文和文章的情况】将NLT用于研究和教育目的并执笔论文或文章时,请务必按以下方式明确表示使用了NLT,并联系筑波大学全球交流教育中心日语・日本事情远程教育基地(jp-kyoten(艾特符号)un.tsukuba.ac.jp)。
| |
5. | 【要求删除使用例】本语料库出于教育和研究目从网站上收集数据制作而成,所有的使用例都明确标有出处网页标题和原链接。如希望删除从自己拥有著作权的网站所抽取的使用例,请联系咨询用电子邮箱,经确认确属申请者本人的网页后,将予以删除。 |
■更新记录
2013/4/15 | NLT ver.1.10 发布 |
2015/3/27 | NLT ver.1.30 发布(新增双词对比功能) |
2019/4/26 | 词条频数列表发布 |
2020/11/16 | 域名更改为tsukubawebcorpus.jp,始终支持SSL |
2021/3/7 | NLT ver.1.40 发布 |
2023/9/28 | 动词词条的「形容词+动词」修正 |
■相关咨询
请联系以下邮箱进行NLT的相关咨询。
jp-kyoten(艾特符号)un.tsukuba.ac.jp