Disponível para investigadores maior colecção de textos em português da Internet 22 Maio

Comments Off

A mais completa colecção de textos recolhidos da Internet em português, cerca de 3,5 milhões, está disponível gratuitamente a grupos de investigação, que a poderão usar para estudos sociológicos ou linguísticos. A iniciativa partiu do Grupo XLDB da Faculdade de Ciências da Universidade de Lisboa e da Linguateca – Centro de Recursos Distribuído para a Língua Portuguesa.


A colecção, designada por WPT 03, é a mais completa compilação de textos recolhidos da Web Portuguesa, tendo sido extraída da base de dados de informação recolhida pelo motor de pesquisa tumba! (desenvolvido pelo Grupo XLDB), explicou à Agência Lusa Nuno Cardoso, um dos responsáveis pelo projecto. A WPT 03, disponibilizada pela Linguateca, abrange todos os sítios alojados sob o domínio .pt, e todos os sítios nos domínios .com, .org, .net ou .tv escritos em língua portuguesa.Apesar da maioria dos textos ser em português, a colecção integra ainda conteúdos noutras línguas, provenientes de sítios em domínio .pt.

Além de constituir um recurso para ensaio de programas informáticos de processamento de informação da Web, a WPT 03 tem interesse para a realização de estudos noutras áreas científicas (como a sociologia ou a linguística), indicando não só a informação publicada mas também o tipo de informação que os portugueses procuram na Web, segundo Nuno Cardoso. O acesso à colecção tem que ser requerido junto do Grupo XLDB ou da Linguateca mediante o preenchimento de um formulário.

FONTE: Lusa (Notícia SIR-6048907)

Os comentarios estão fechados.

Artigos relacionados

    Investigar em RSS