发布时间:2025-09-12
浏览次数:0
本文约 3600 字,预计阅读时间 25 分钟
01
简介
这个软件是 CZ s.r.o. 在 2003 年制作的,用于管理语料库和进行文本分析工作。它的作用是让研究语言现象的人员,包括词典编辑、语料库语言学者、翻译工作者以及语言学习者,可以借助特定的检索需求,在庞大的文本资料里找到相关内容。它能够协助人们考察词汇在各个语料库中的具体运用情形和所处的环境。它的存储量非常可观,当前已经涵盖了 101 种语言的海量资料,内置了 724 个语料库,其中规模最大的 Web 2020 () 包含 365 亿个汉字字符。凭借众多卓越性能,它适用于多种语言学探索和教学情境,诸如语言掌握、语言指导、语言转换、语言对照以及语言剖析等。
心动了吗,接着看下去吧!
02
如何进入?
官网:https://www..eu/
先去学校的数字资料中心查一下,看有没有订阅,接着可以用校内网络,或者校外链接的方式进入。
还可以在登录页面通过搜索自己的学校来进行登录:
如果学校没有订购这个资源,也可申请30天的免费试用:
进入系统后,即可看到初始页面,依据网络连接方式不同,校园网接入和个人账号登录所展现的界面内容或存有不同,现在展示的是个人账号登录后的界面情况。
初见时功能繁杂不知从何开始?首要任务是挑选一个心仪的文本资料库,此处选用 Web 2020 法语文本库作为示范。
点击 INFO 可以查看所选定的语料库详情:
此处呈现了该资料库的全部构成要素,涵盖其字数、词数、句数、节数、篇数、词性标记种类、分支资料库详情以及其他与词汇相关的要素。
03
词汇素描板块(Word )
这个名字的由来是因为它的一项核心作用,即词汇速写,这项功能会把查询词的语法特征和常见组合方式集中展示在一页上。
在这个部分,可以了解到某个词汇的详细运用说明,涵盖该词在数据集中的出现次数,惯用的句法模式,其词性归类,以及所处的具体语境等细节。这些资料有助于我们掌握该词汇在各种情境下的表达方式和内在含义。
在词汇描绘版块里的检索框中键入这个基本词形,能够查询到这个词在相关语料集合里所有的句法及组合用法,基本词形指的是单词的核心形态,而在查找信息时涵盖了该词的所有衍生形态,比如以行进为例,会检索到含有进行时态、过去式及动名词等形态的结果。图中能够观察到搜索成果达到 152 万以上,为了确保搜索成果的展示更为明了易懂,我们能够变换观察角度(view)来呈现词频(Show)。词频以外,此处还允许设定是否展示组合实例(Show)、关联程度(Show)以及内容类别(Show text types),同样能够明确排序方式。
选定之后会整合全部组合方式,依据出现次数多少或联系紧密程度进行整体排列:
选择不同的 items(相似项词群),会依照我们预设的数值将意思相近的搭配组合聚集起来,预设数值越趋近于零,密集堆叠的词群就会越庞大,其涵括的语义领域也就越宽广,词语彼此间的联系会变得更为松散;反之sketch engine类似应用,预设数值若接近一,聚合形成的词群数量就会减少,群组内词语的内涵也相对更为紧密。
若未选择这两个项目,则呈现围绕该行为主体多列的布局,这便是标准做法。
依据呈现顺序,涉及配合的宾语、主语、副词、人称代词、不定式动词、前置词、联合使用的动词及相关常见用法,通过分析这些组合出现的频次,能够掌握该动词在不同情境下的高频搭配,进而以此作为参照,评估自身表达是否自然。有些类别需要再次进行分辨和挑选,要是碰巧对某个条目好奇或存疑,能够立刻通过 或者条款编号277 来查阅所挑选到的资料内容。
图示呈现的是范例,例句可以分行呈现,或者采用关键词方式(-in-, KWIC)对例句结果实施字母排序。(这部分作用同于某个功能。)
若需探究资料来源,可点选左侧的出处标识,获取其网址,即网络路径,由此访问完整内容,我们,此次追根溯源,可助我们评定资料的品质。
大家能够留意到,每项内容旁边都附带一个图标,点击这个图标能够展示搜索结果中各个特征的条目数量统计,比如,当我们选择查看采集年份时,可以看到,在总共的277条信息里,有149条信息是在2020年采集的,另外有97条信息是在2021年采集的,所有这些特征都可以通过这种方式进行数量上的汇总分析。
进入单词速写界面,我们可要细查一下右上方这些功能按钮:
首个改动在于调整搜索机制,包含四个不同模式,第一种模式是针对单个词汇的直接查询,第二种模式是更为复杂的深度检索,第三种模式是通过组合条件进行筛选,第四种模式是对该功能模块进行说明和展示。
进阶搜索有四项可以改变的参数sketch engine类似应用,以便进行更加精准的搜索:
1 - 指定词性;
2 - 指定子语料库(在父语料库信息详情中可见);
设定最低的语料关联程度和词语出现次数,低于这个标准的组合将不会呈现出来
选定不同资料库,接着键入指定词条开展词汇描绘,两项词条的查询成效将并排呈现,例如下图所呈现的是法语和英语针对“维持”一词的部分检索成果
倘若把图示里的英文资料库换成中文版本,考虑到中文和法语在句法层面的关联尚未构建,那么生成的排序将会显得杂乱无章。
第三项是组合表格,在此处除了标定若干基础要素之外,还能选用一个文本集合作为对照开展检索,检索规范能够确立为“以某字符为起始”、“以某字符为终止”、“内含某字符”以及运用规则式样,亦可设定诸多规范加以约束。
在下图中,我指定了以 er 开头的单词,检索结果如下:
这个统计并非仅计算以 er 开头的单词出现次数,而是统计所有符合条件的单词组合情况,比如在 Web 2020 语料库中,最常见的组合是与定冠词搭配,即 l’,这种搭配并非严格符合语法规则,因此在利用检索数据时需要仔细辨别。
对于参照语料库而言,最常出现的组合是 faire ,
借助不同资料库的相互参照,能够揭示诸多值得注意的语言特征。
第二个是下载标志,能够取出此刻的查询收获,提供多种文档类型供挑选,对于学术研究者十分便利,无需再费劲地截取屏幕画面了。
第三个调整展示视角已在前面部分进行了介绍,此处不再赘述。
第四步是筛选成果,选定一个查询词汇之后,还能在所得信息里设定特定字眼加以排除。若对选用的组合不确定是否恰当,可以借助这个筛选手段来检验,假如查到的资料比较充裕,就能安心采用,此外还能参照这些信息来丰富自己的说法,增加词汇量。
这项功能能够帮助发掘其他相关词汇,用以增添文本多样性,防止内容单调,不过其产出未必完全精确,必须经过人工审核。数值调得越高,生成的词语与指定核心词的关联度就越弱。
第四个是当前搜索条件的具体呈现,如图所示,我们目前搜索呈现的是这个动作的结果,在实际体验环节并没有太大价值:
第五部分涉及数据图形化呈现,如图所示,先前展示的多项组合数据已整合为圆形统计图,用户可调整图表参数,比如标示组合词频高低,筛选特定关联类型,制作完成的图像支持保存下载。
下图为饼图的局部说明,以 shop 的搜索结果为例:
离圆心远近体现其代表性高低。比如:那个商店比这个商店更具有代表性。
圆圈的尺寸体现该组合的使用次数。比如礼品店的使用频次要高于自行车店。
圈的颜色代表它们归属的语法联系,比如主语、宾语、附加成分等。
饼状图的各个扇区面积,对应着搜索返回信息里各种语法结构分布的相对数量。
以上就是对 第一个板块的探索啦,剩余的板块敬请期待!
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码