Modern Foreign Languages and Literatures Publications and Other Works

Source Publication (e.g., journal title)

Línguas Minoritárias e Variação Linguística

Document Type

Article

Publication Date

11-2020

DOI

10.34624/rj68-vz44

Abstract

O que faz falta para o estudo das línguas minoritarias é ainda muito. Uma das ferramentas mais importantes para o estudo de idiomas é o corpus. Embora seja bastante fácil hoje preparar um corpus básico, é bastante mais difícil criar um corpus etiquetado para a pesquisa de estruturas mais gerais, porque é preciso etiquetar as palavras nele introduzidas. Ao mesmo tempo, essas línguas também costumam estar num estado variável de normalização e estandarização, e elas e os seus falantes poderiam beneficiar de um corrector ortográfico. Proponho que, por mor de economia de recursos, é recomendável que quem quiser desenvolver um corpus também pense em fazer um corretor já que o trabalho para ambas as tarefas é muito parecido, senão quase idêntico. Este processo é aqui demostrado empregando o asturiano como exemplo.

There is much missing in the study of minority languages. One of the most important tools for the study of languages is the corpus. Although today it is easy to prepare a simple corpus, it is more difficult to create a tagged corpus because it is necessary to tag each of the words in it. At the same time, these languages tend to be in a variable state of normalization and standardization, and they and their speakers can benefit from a spell checker. I propose that, in the face of limited resources, it is best that a researcher intending to develop a corpus also consider making a spell checker, as the work for both is very similar, if not virtually identical. This process is demonstrated using Asturian as an example.

Submission Type

Publisher's Version

Files over 3MB may be slow to open. For best results, right-click and select "save as..."

Share

COinS