English


Sobre os Corpora do CorTec


O CorTec é constituído de 5 corpora comparáveis, ou seja, com textos semelhantes, em inglês e português originais, nas seguintes áreas:

1. Culinária - Receitas Culinárias
2. Ecoturismo - Meio ambiente
3. Hipertensão - Cardiologia
4. Informática - Geral
5. Instrumentos Contratuais - Direito Contratual
6. Astronomia - Geral
7. Insuficiência Renal - Geral
8. Linguística - Geral
9. Medidores Eletromagnéticos de Vazão - Geral
10. Suplementos Nutricionais - Geral
11. Computação - Hardware
12. Café - Colheita e Processamento
13. Turismo Cultural - Geral
14. Culinária 2 - Geral
15. Prostodontia -
16. Fotografia -
17. Autoclaves -
18. Moda -
19. Turismo - Hotelaria - Turismo - Hotelaria
20. Futebol - resultados e minuto a minuto
21. Culinária Brasileira - O corpus de culinária brasileira é comparável, composto por 1.225 receitas em português e 1.450 receitas em inglês, extraídas de livros escritos originalmente nesses idiomas. O corpus contém também os textos introdutórios a esses livros e receitas, totalizando aproximadamente 430.000 em cada língua.

Cada corpus técnico é composto por aproximadamente 200.000 palavras em cada língua.


Estão disponíveis três ferramentas que podem ser aplicadas a um ou mais corpora ao mesmo tempo. São elas:

  • Concordanceador
  • Gerador de Lista de Palavras
  • Gerador de N-Gramas


  • Os Corpora Técnicos


    1 - Corpus de Culinária - Receitas (versão 1)

    O Corpus de Culinária é um corpus comparável composto de 1.555 receitas originalmente escritas em português brasileiro e 2.076 em inglês britânico, coletadas da Internet de 2000 a 2004. Todas as categorias de receitas culinárias estão representadas neste corpus, sejam doces ou salgadas.

    Culinária Inglês Português
    Ocorrências/tokens 368.227 252.149
    Formas/types 7.281 7.150
    T/T ratio 1,98 2,84

    Este corpus foi compilado por Elisa Duarte Teixeira.

    2 - Corpus de Meio Ambiente - Ecoturismo

    O corpus de Meio Ambiente é composto por textos originais de conteúdo comparável em inglês e português sobre Ecoturismo, retirados de sites do governo, de entidades ambientalistas e de agências de turismo.

    Ecoturismo Inglês Português
    Ocorrências/tokens 201,826 200,887
    Formas/types 10,009 17,938
    T/T ratio 4.96 8.93

    Este corpus foi compilado por Josimeire Martins.


    3 - Corpus de Cardiologia - Hipertensão

    O Corpus é constituído de 126 textos em inglês e 125 em português sobre hipertensão. Há mais de 300.000 palavras em cada língua. Todos os textos são da tipologia "artigo" e foram coletados de periódicos e revistas brasileiros e americanos. Não há nenhum texto traduzido, pois todos foram criteriosamente selecionados por originalidade. A subárea hipertensão pertence ao domínio da Medicina. Entretanto, pode pertencer tanto a áreas como Cardiologia, Saúde Pública, etc.

    Hipertensão Inglês Português
    Ocorrências/tokens 453,475 356,718
    Formas/types 17,808 22,000
    T/T ratio 3.93 6.17

    Este corpus foi compilado por Rosa Maria Caporrino Castanho e revisado por Luciana Latarini Ginezi.


    4 - Corpus de Informática - Geral

    O Corpus de Informática foi compilado exclusivamente com textos de publicações na Internet, tanto em inglês quanto em português. Para sua confecção e melhor equilíbrio, foi primeiramente elaborada uma árvore de domínio da área. Embora nem todas as subáreas tenham sido contempladas - o que exigiria um corpus muito maior -, acreditamos que ele seja representativo, num corte sincrônico, da área geral de Tecnologia de Informação (TI).

    Informática Inglês Português
    Ocorrências/tokens 193,877 196,604
    Formas/types 12,914 15,169
    T/T ratio 6.66 7.72

    Este corpus foi compilado por Guilherme Fromm.


    5 - Corpus de Direito Contratual - Instrumentos Contratuais

    O Corpus de Direito Contratual é composto de 134 e 48 Instrumentos Contratuais escritos originalmente em português e em inglês, respectivamente. Para a seleção dos documentos, foi usado o conceito do que é contrato no direito brasileiro, assim, dentre os contratos que compõem o corpus estão:

  • Contratos de Compra e Venda
  • Contratos de Compra e Venda
  • Contratos de Prestação de Serviços
  • Contrato de Distribuição
  • Contratos de Locação
  • Contratos de Licença
  • Contratos de Fornecimento
  • Contratos Sociais
  • Contratos Bancários
  • Contratos de Empréstimo
  • Contratos de Franquia
  • Procurações
  • Pacto Antenupcial
  • Termos de Sigilo
  •  

    Instrumentos Contratuais Inglês Português
    Ocorrências/tokens 204,249 200,588
    Formas/types 6,041 9,684
    T/T ratio 2.96 4.83

    Este corpus foi compilado por Luciana Carvalho Fonseca Corrêa Pinto.


    6 - Corpus de Astronomia - Geral

    astronomia Inglês Português

    Este corpus foi compilado por .


    7 - Corpus de Insuficiência Renal - Geral

    O corpus compõe-se de 94 textos (45 em inglês e 49 em português), num total de 184.000 palavras ativas (80.000 das quais provêm dos textos em inglês). Os textos incluem artigos, capítulos de livros, resumos e abstracts. A seleção dos textos mereceu especial cuidado. Foram obtidos em revistas indexadas e reconhecidas internacionalmente, em edições recentes de textos consagrados de medicina interna, e em publicações destinadas à atualização clínica em Nefrologia. Um nefrologista orientou e supervisionou essa seleção.

    Inglês: 200.125 palavras
    Português: 188.691 palavras

    Nota: Esse corpus possui abstracts em inglês, porém podem ter sido escritos por não nativos.

    insuficiencia Inglês Português

    Este corpus foi compilado por Inácio Abdulkader, Dora Massari Reis, Teresa Cristina S. Hilst, Maria Lúcia S. Moraes.


    8 - Corpus de Lingüística - Geral

    O corpus é composto por textos acadêmicos, todos coletados da Internet. Procurou-se abranger todas as subáreas da Lingüística num primeiro nível.

    Inglês: 1.921.811 palavras
    Português: 1.309.967 palavras

    linguistica Inglês Português

    Este corpus foi compilado por Guilherme Fromm.


    9 - Medidores Eletromagnéticos de Vazão - Geral

    medidores Inglês Português

    Este corpus foi compilado por .


    10 - Suplementos Nutricionais

    Este corpus é constituído de 133 textos em inglês e 110 em português sobre suplementos nutricionais que é uma subárea do domínio Nutrição. Os textos são constituídos da tipologia “artigo científico” e “informativo” e foram coletados pela internet através de sites americanos e brasileiros.

    Inglês: 155.348 palavras
    Português: 126.652 palavras

    Nota: Esse corpus contém muitos textos relacionados a dietas de esportistas e dietas de emagrecimento.

    suplementos Inglês Português

    Este corpus foi compilado por .


    11 - Computacao - Hardware

    O corpus é composto por textos acadêmicos e de divulgação, todos coletados da Internet. Embora a maior parte seja na subárea de hardware, outras subáreas estão inclusas (contribuindo com uma quantidade menor de textos).

    Inglês: 1.029.187 palavras
    Português: 1.055.375

    Nota: O corpus anterior (Informática) contém textos de todas as áreas desta especialidade.

    computacao Inglês Português

    Este corpus foi compilado por Guilherme Fromm.


    12 - Café - Colheita e Processamento

    Este corpus é composto de textos técnicos, voltados para profissionais da cafeicultura, coletados da internet.

    Inglês: 102.379 palavras
    Português: 100.274 palavras

    cafe Inglês Português

    Este corpus foi compilado por Luciana Ginezi.


    13 - Turismo Cultural - Geral

    � constitu�do de 945 textos, num total de 636.135 palavras, subdivididas em dois subcorpora: um de portugu�s, que conta com 427 textos (316.552 palavras) relativos �s cidades do Rio de Janeiro, Salvador e S�o Paulo, e um de ingl�s brit�nico, com 518 textos (319.583 palavras) sobre as cidades de Edinburgh, Liverpool e Londres.

    Os textos contemplam as seguintes categorias:
    - acomoda��o
    - feiras e exposi��es
    - festivais
    - informa��es gerais
    - museus
    - m�sica
    - teatro e musicais
    - tours

    Os tipos de textos s�o bastante diversificados para garantir maior variedade do vocabul�rio: empresariais, de revistas, jornais, sites do governo, ag�ncias de turismo, operadores tur�sticos, bem como de sistemas de reserva online e de sites tur�sticos informativos.

    Ingl�s: 319.583 palavras
    Portugu�s: 316.552 palavras

    turismo Ingl�s Portugu�s

    Este corpus foi compilado por Jeanette Lammel.


    14 - Culin�ria 2 - Geral

    O corpus compar�vel de culin�ria tem cerca de 1,5 milh�o de palavras em cada l�ngua e foi coletado de 2004 a 2006. Os corpora cont�m apenas receitas, mas em todas as categorias culin�rias. S�o textos retirados da Internet e de cds de receitas. O corpus de ingl�s � majoritariamente brit�nico e a maioria das receitas prov�m de dois grandes sites (o que pode favorecer a repeti��o de certos padr�es relacionados �s particularidades desses sites) - isso � devido � dificuldade de se fazer a coleta em massa de receitas em ingl�s americano por causa das configura��es de seguran�a desses sites.

    Ingl�s: 1.696.454 palavras
    Portugu�s: 1.573.591 palavras

    culinaria2 Ingl�s Portugu�s

    Este corpus foi compilado por Elisa Duarte Teixeira.


    15 - prostodontia

    DESCRI��O

    prostodontia Ingl�s Portugu�s

    Este corpus foi compilado por prostodontia.


    16 - fotografia_pt

    DESCRI��O

    fotografia_pt Ingl�s Portugu�s

    Este corpus foi compilado por fotografia_pt.


    17 - autoclaves_ptg

    DESCRI��O

    autoclaves_ptg Ingl�s Portugu�s

    Este corpus foi compilado por autoclaves_ptg.


    18 - moda_ptg

    DESCRI��O

    moda_ptg Ingl�s Portugu�s

    Este corpus foi compilado por moda_ptg.


    19 - hotelaria

    DESCRI��O

    hotelaria Ingl�s Portugu�s

    Este corpus foi compilado por hotelaria.


    20 - Futebol - Geral

    O corpus � composto de 294 textos jornal�sticos sobre futebol escritos originalmente em ingl�s e 444 em portugu�s, coletados de sites de associa��es esportivas e de jornais. Com o objetivo de compilar um corpus representativo da linguagem utilizada para falar de futebol optamos por selecionar quatro tipos de textos:
    - regras do jogo
    - textos jornal�sticos sobre resultados de partidas
    - textos jornal�sticos sobre campeonatos nacionais e internacionais
    - textos coletados sobre a copa do mundo de 2006

    Ingl�s: 163.914 palavras
    Portugu�s: 132.387 palavras

    futebol Ingl�s Portugu�s

    Este corpus foi compilado por Sabrina Matuda.


    21 - Corpus de Culinária Brasileira

    O corpus de Culinária Brasileira é composto por 1.225 receitas em português e 1.450 receitas em inglês, extraídas de livros escritos originalmente nesses idiomas. O corpus contém também os textos introdutórios a esses livros e receitas, totalizando aproximadamente 430.000 em cada língua.

    Culinária Brasileira Inglês Português
    Ocorrências/tokens 433,495 432,690
    Formas/types 17,191 27,072
    T/T ratio 3,97 6,26

    Este corpus foi compilado por Rozane Rodrigues Rebechi.

     

    Para respeitar a lei de direitos autorais, os documentos que fazem parte do CorTec não podem ser consultados na íntegra. É disponibilizado apenas um contexto com 150 caracteres de cada lado da palavra de busca. Em caso de dúvida, entre em contato com projetocomet@edu.usp.br.


    CorTec - Corpus Técnico-Científico


    Administração