查看原文
其他

技术应用|保姆级教程,教你如何建立自己的语料库

The following article is from 翻译圈 Author 张一孟


无论是在平常的翻译练习还是在学术研究中,语料库作为学习工具或是研究方法都不可或缺。那么,在做基于语料库方法的研究时应该如何

 


2.
 语料清洗

接下来就是语料的预处理,对语料进行校对降噪。

在这个过程中,我们需要把整理好的文本中多余的空格、空行、回车、乱码、错别字、以及其他不需要的信息(包括附录,表格,前言等)都去除掉。


推荐工具:MS Word和EmEditor(网址https://www.emeditor.com/)


P.S.在语料清洗的过程中,正则表达式是一个好帮手,在一些语料清洗工具中也提供了快捷键,不需要手动输入正则表达式,且能满足不少读者的需要。小编在这里附上示例表:


感兴趣的小伙伴可以在网址https://www.runoob.com/regexp/regexp-tutorial.html进行了解和学习~

3.
分词标注

首先请大家了解一下:

分词(tokenization)是指将一串字符转换成可以分析,容易识别的形符(token)——也就是词语——的过程;

标注(annotation)是指将文本中的词语按照各种属性(part of speech)进行标注;


但是请注意,对于汉语来说,分词是必须的,因为汉语的词语之间没有明显分隔,不进行分词的话难以识别分析;而标注不是必需步骤,在有需要时进行即可。


举个例子:

分词前

分词后

标注后



分词标注工具推荐:TreeTagger,CorpuswordParser(汉语),StanfordParser(英汉)等

以上工具都可以在http://corpus.bfsu.edu.cn/TOOLS.htm进行下载

4.
平行对齐

截止以上前三步,语料的加工基本已经完成,但如果你的语料是双语或多语,则需要对其进行对齐处理。

对齐是指将多语言语料实现句子的一一对应,也可以实现段落的一一对应,以形成规范的语对。


对齐推荐工具:memoQ,Tmxmall等


对齐完成后如图:

此图出自于上海外国语大学语料库研究院的《习近平谈治国理政》多语数据库综合平台

完成以上步骤就完成了对语料的处理和加工,成功建立了语料库!


 一些推荐


语料库建成后,小编在这里推荐两个常用的语料库检索分析工具:Antconc和Wordsmith。这两个软件可以帮助大家更好地对语料进行检索,生成词表等,是语料库人不离手的好工具!

此外,除了自建语料库,大家也要利用好现有的语料库,如:

英国国家语料库(British National Corpus,简称BNC)

http://www.natcorp.ox.ac.uk/

美国当代英语语料库(Corpus of Contemporary American English,简称COCA)

https://www.english-corpora.org/ 

SketchEngine

https://www.sketchengine.co.uk/ 

… …

以上就是本期全部内容啦,希望这篇文章可以在你探索语料库建立的途中提供一些帮助~

实践出真知,快去动手试试吧~


声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:chongchong@lingotek.cn,我们将及时调整处理。谢谢支持!


-END-
本文转载自:翻译圈转载编辑:Pickey


关注我们,获取更多资讯!

往期回顾

行业动态1. 行业动态 | 国家批准语言服务产业进入目录——政策解读
2. 行业观察 | 沈澍:AIGC是敌是友?翻译领域的机遇与挑战
3. 论坛预告 | 2023年京津冀翻译协会协同发展学术论坛4. 研究动态 | 李长栓:以实践报告展示翻译能力——论翻译硕士专业学位研究生翻译实践报告的写作
行业洞见
  1. 精彩回顾 | ChatGPT如何辅助语料库建设?语料库怎么加工?干货来啦
  2. 精彩回顾 | 王琳:ChatGPT私有化工具部署及应用
  3. 精彩回顾 | 王华树:ChatGPT助力翻译实践与教研
  4. 行业观察 | 王树槐:GPT与诗歌翻译批评:GPT与文学翻译之一


行业技术
  1. 技术应用 | Microsoft Translator Provider 错误及解决方法
  2. 行业科普 | 热点新闻编译(ATA/ITI)
  3. 重要提醒 | 多语应急科普,汛期防灾避险指南
  4. 技术应用 | 服务器内存不足,分享服务器清理技巧
  5. 行业技术 | LLMs能否替代人工评价作为对话生成质量的评估器?

精品课程
  1. 新课来袭 |ChatGPT与语料数据处理工作坊
  2. 精品小班 |  刘世界:6节语料库专题课,从入门到精通
  3. 精品课程 | GPT+:翻译、技术与语言学习工作坊
  4. 精品小班 |  探索变成辅助语料数据处理及分析无门?刘世界博士为你解秘!
  5. 精品课程|ChatGPT如何处理各类语料数据?大语言模型上大分!

资源干货
  1. 资源干货 | 语言资源服务最常用的50个核心术语
  2. 资源干货 | 最新版Z-library官方客户端和最新地址
  3. 双语干货 中华人民共和国对外关系法
  4. 双语干货 | 谢锋大使向中美媒体发表讲话
  5. 资源宝库|译者用“典”,多多益善——精选31款在线词典

招聘就业1. 
2. 招聘快报 | 中国外文局翻译院招聘外语人才3. 招聘快报 | 博硕星睿招募课程主持兼回顾文案编辑4. 招聘快报 | 哔哩哔哩招聘英语翻译5. 招聘快报 | 昆拓信诚招聘医学翻译
继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存