Weba euskarazko corpus gisa
Ekaia 27 : 281-296 (2014)
Abstract
The Basque language. just as any other, needs text corpora to survive in the modern world and to be used normally. But Basque corpora are few and small compared to those in other major languages. This is so because other languages have made use of the "Web-as-Corpus" approach , which consists of using the web as a corpus or as a source of texts for corpora. ln this paper, we describe the research carried out in his PhD thesis by the first author, under the supervision of the other two authors, to use the web and automatic methods for Basque corpus building, and also the tools developed and the results obtained. Out of them we can conclude that the "Web-as-Corpus" approach is val id to improve the state of Basque corpora , since with the developed tools we have collected quality corpora of different types (very large general corpora, specialized corpora, comparable corpora ... ) and built a service to query the web as a Basque corpus.Many of these tools and services ha ve already been placed online for their public use.; Euskarak, beste edozein hizkuntzak bezala , testu-corpusak behar ditu mundu modernoan bizirauteko eta normalki erabiltzeko. Alabaina , euskarazko corpusak gutxi eta txikiak dira , beste hizkuntza handiagoenekin konparatuz gero. Hori horrela da beste hizkuntzek "Web-as-Corpus" izeneko planteamendua baliatu dutelako, hau da, weba erabili dutelako corpus gisa edo corpusak osatzeko testu-iturritzat . Artikulu honetan azaltzen dira bere doktorego-tesian lehenengo autoreak, beste bi autoreen zuzendaritzapean, euskarazko corpusgintzarako weba eta metodo automatikoak baliatzeko egindako ikerketak, aratutako tresnak eta lortutako emaitzak . Horietatik ondorioztatu daiteke "Web-as-Corpus" planteamendua baliagarria dela euskarazko corpusen egoera hobetzeko, garatu diren tresna informatikoen bidez weba corpus gisa kontsultatzeko tresna bat eraiki baita eta mota askotako eta kalitatezko corpusak lortu ahal izan baitira (corpus orokor oso handiak, corpus espezializatuak, corpus konparagarriak, .. ). Horietako asko jada online gizartearen eskura jarri dira.