World Languages and Cultures Publications and Other Works
Source Publication (e.g., journal title)
Línguas Minoritárias e Variação Linguística
Document Type
Publication Date
O que faz falta para o estudo das línguas minoritarias é ainda muito. Uma das ferramentas mais importantes para o estudo de idiomas é o corpus. Embora seja bastante fácil hoje preparar um corpus básico, é bastante mais difícil criar um corpus etiquetado para a pesquisa de estruturas mais gerais, porque é preciso etiquetar as palavras nele introduzidas. Ao mesmo tempo, essas línguas também costumam estar num estado variável de normalização e estandarização, e elas e os seus falantes poderiam beneficiar de um corrector ortográfico. Proponho que, por mor de economia de recursos, é recomendável que quem quiser desenvolver um corpus também pense em fazer um corretor já que o trabalho para ambas as tarefas é muito parecido, senão quase idêntico. Este processo é aqui demostrado empregando o asturiano como exemplo.
There is much missing in the study of minority languages. One of the most important tools for the study of languages is the corpus. Although today it is easy to prepare a simple corpus, it is more difficult to create a tagged corpus because it is necessary to tag each of the words in it. At the same time, these languages tend to be in a variable state of normalization and standardization, and they and their speakers can benefit from a spell checker. I propose that, in the face of limited resources, it is best that a researcher intending to develop a corpus also consider making a spell checker, as the work for both is very similar, if not virtually identical. This process is demonstrated using Asturian as an example.
Recommended Citation
Stuckwisch, Matthew S., "Corretor ortográfico e corpus linguístico: matar dois coelhos com uma só cajadada" (2020). World Languages and Cultures Publications and Other Works.
Submission Type
Publisher's Version
Included in
Digital Humanities Commons, Modern Languages Commons, Other Languages, Societies, and Cultures Commons, Other Spanish and Portuguese Language and Literature Commons