Arquitecturas de Tradução Automática
-
Upload
alberto-simoes -
Category
Technology
-
view
733 -
download
12
description
Transcript of Arquitecturas de Tradução Automática
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Abordagens na Traducao Automatica
Alberto Manuel Brandao [email protected]
Escola de Verao – Junho 2009
Alberto Simoes Abordagens na Traducao Automatica (1/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
1 Arquitecturas de Traducao Automatica
2 TA baseada em regrasSistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
3 TA orientada aos dadosSistemas de Traducao EstatısticaSistemas de Traducao baseada em Exemplos
4 Conclusoes
Alberto Simoes Abordagens na Traducao Automatica (2/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Arquitecturas de Traducao Automatica
Traducao Baseada em Regras(Rule-Based Machine Translation)
Traducao directa (direct MT);Traducao por transferencia (transfer MT);Traducao por interlıngua (interlingua MT);
Traducao Orientada a Dados(Data-Driven Machine Translation)
Traducao estatıstica (Statistical MT);Traducao baseada em exemplos (Example-Based MT);Solucoes hıbridas...
Alberto Simoes Abordagens na Traducao Automatica (3/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas baseados em regras
Baseados em:
modelos formais de traducao;
conhecimento “linguıstico”;
Problemas:
caros e trabalhosos (batalhoes de linguistas);
baseiam-se em conhecimento preciso (e quem o tem? );
Vantagens:
previsıveis (as regras sao analisaveis);
erros faceis de detectar e corrigir;
Alberto Simoes Abordagens na Traducao Automatica (4/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas orientados aos dados
Baseados em:
dados (corpora);
tecnicas de aprendizagem;
Problemas:
poucos dados ou dados parciais;(corpora pequenos, corpora enviesados, ...)
dados com pouca qualidade;(fracas traducoes, maus alinhamentos, ...)
Vantagens:
precisam de pouca mao-de-obra;
sao conciliaveis com sistemas baseados em regras;(e vice-versa, claro...)
Alberto Simoes Abordagens na Traducao Automatica (5/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Ferramentas PLN na TA
A implementacao de qualquer uma destas abordagens requerferramentas de processamento de linguagem natural robustas paraas lınguas envolvidas, como sejam:
Anotadores de Part-of-Speech e lematizadores;
Analisadores sintacticos (parsers);
Classificadores semanticos;
Desambiguacao de sentidos;
Reconhecimento de Entidades Mencionadas;
Extraccao de Informacao;
. . .
Alberto Simoes Abordagens na Traducao Automatica (6/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas baseados em regras
Texto origem Texto destino
análi
segeração
Interlíngua
Sintaxe L.O. Sintaxe L.D.
Semântica L.O. Semântica L.D.
tradução directa
(representacao tıpica)
Alberto Simoes Abordagens na Traducao Automatica (7/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao Directa
TextoL.O.
TextoL.D.
L.O. -> L.D.dicionários e gramáticas
Análise e Síntese
Alberto Simoes Abordagens na Traducao Automatica (8/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao Directa
Traducao realizada palavra-a-palavra;
Pouca analise ao texto na lıngua de origem(sem analise sintactica ou semantica)
Baseia-se em grandes dicionarios bilingues:para cada palavra na lıngua de origem, o dicionario especificaum conjunto de regras para traduzir essa palavra
Apos a traducao das palavras, e realizada reordenacao simples;(por exemplo, a tıpica troca de ordem de nomes e adjectivos).
Todo este processamento e realizado numa janela deslizantecom um numero fixo de palavras.
Alberto Simoes Abordagens na Traducao Automatica (9/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao Directa
Regras para a traducao de much ou many para Russo:
Se precedida por how ⇒ skol’koSenao se precedida por as ⇒ stol’ko zheSenao se a palavra e much
Se precedida por very ⇒⊥Senao se seguida por um nome ⇒ mnogo
Senao (a palavra e many)Se precedida por preposicao e seguida por nome ⇒ mnogiiSenao ⇒ mnogo
Retirado de Jurafsky e Martin, edicao 2, capıtulo 25.Originalmente de um sistema de Panov, 1960.
Alberto Simoes Abordagens na Traducao Automatica (10/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao Directa – Vantagens
simples de aplicar tecnicas de aprendizagem automatica;(inferir regras a partir de corpora paralelos)
simples de aproveitar similaridades entre lınguas:
a similaridade nao e acidental (razoes geograficas e historicas);relativamente simples de obter um sistema directo comtraducao de qualidade para lınguas proximas;
Alberto Simoes Abordagens na Traducao Automatica (11/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao Directa – Problemas
E difıcil (ou impossıvel) de detectar reordenamentos longos:
EN: Sources said that IBM bought Lotus yesterday.JP: Sources yesterday IBM Lotus bought that said
As palavras sao traduzidas sem desambiguacao da sua funcaosintactica;
As regras sao tacticas e nao estrategicas (nao generalizam):
pouca relevancia linguıstica;
Difıcil de manter (sistemas grandes):
interaccao entre um grande numero de regras;as regras nao sao completamente independentes;
Nao ha reutilizacao de codigo!
Alberto Simoes Abordagens na Traducao Automatica (12/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao Directa
Para 5 lınguas, 5× 4 = 20 tradutores!
L1 L2
L3 L4
L5
Alberto Simoes Abordagens na Traducao Automatica (13/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao por Transferencia
TextoL.O.
TextoL.D.
dicionários egramáticas
L.O.
dicionários e gramáticas
L.D.dicionáriosL.O. -> L.D.
regras detransferência
análise síntesetransferênciarepres.
L.O.repres.
L.D.
Alberto Simoes Abordagens na Traducao Automatica (14/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao por Transferencia
Tres (ou cinco) fases na traducao:
1.a Analise MorfologicaPalavraA −→ (LemaA + Categoria + Propriedades)?
1.b Classificacao Lexical(LemaA + Cat + Prop)? −→ LemaA + Cat + Prop + Significado
2.a Transferencia LexicalLemaA + Cat + Prop + Sign −→ LemaB + Cat + Prop
2.b Transferencia Estruturalajuste de concordancias (genero e numero), reordenamento de
palavras e sintagmas.
3 Geracao MorfologicaLemaB + Categoria + Propriedades −→ PalavraB
Alberto Simoes Abordagens na Traducao Automatica (15/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao por Transferencia
As arvores de parsing podem variar de simples analisessuperficiais ate analises mais profundas.(incluindo mesmo representacoes semanticas);
As regras de transferencia podem ser comparaveis as regrasdos sistemas directos, mas podem operar sobre estruturassintacticas.(ou mesmo semanticas)
Torna-se mais simples a deteccao de reordenacao a longadistancia.
Alberto Simoes Abordagens na Traducao Automatica (16/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao por Transferencia
Exemplo de traducao (lıngua origem)
SPPPP����
NP
sources
VPPPPPP
�����VB
said
SBAR-AXXXXX�����
COMP
that
SXXXXX
�����NP-A
IBM
VPXXXXX�������
VB
bought
NP-A
Lotus
NP
yesterday
Alberto Simoes Abordagens na Traducao Automatica (17/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao por Transferencia
Exemplo de traducao (lıngua destino)
Shhhhhhhhhhh(((((((((((
NP
sources
VP ⇔XXXXX
�����SBAR-A ⇔``````
SXXXXXX��
������NP
yesterday
NP-A
IBM
VP ⇔bbb
"""
NP-A
Lotus
VB
bought
COMP
that
VB
said
Alberto Simoes Abordagens na Traducao Automatica (18/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Dicionarios: traducao directa vs transferencia
Directa1 dicionarioRU → EN
{primer → exampleprimery → examples
Transferencia3 dicionarios
RU
primer →
num → pluralcat → nomelem → primer
RU → EN{primer → example
ENlem → examplenum → singular
}→ example
lem → examplenum → plural
}→ examples
Alberto Simoes Abordagens na Traducao Automatica (19/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Dicionarios: traducao directa vs transferencia
Directa1 novo dicionario
RU → ES
{primer → ejemploprimery → ejemplos
Transferencia2 novos dicionarios
RU
primer →
num → pluralcat → nomelem → primer
RU → ES{primer → ejemplo
ENlem → ejemplonum → singular
}→ ejemplo
lem → ejemplonum → plural
}→ ejemplos
Alberto Simoes Abordagens na Traducao Automatica (20/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Vantagens dos sitemas de Transferencia
Os modulos de analise e sıntese sao reutilizaveis:
separacao de informacao especıfica da lıngua da informacaomultilingue;operacoes realizadas num nivel superior de abstraccao;
As regras podem ser generalizadas tendo em contapropriedades morfologicas, lexemas, configuracoes de arvoresde parsing, etc.
E possıvel aceder a propriedades linguısticas paradesambiguacao.
Alberto Simoes Abordagens na Traducao Automatica (21/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao por Transferencia
Para 5 lınguas, 5× 6 = 30modulos:
5 abstractores / parsers;
5× 4 modulos detransferencia;
5 geradores;
Mais modulos que numsistema de traducao directa,mas mais pequenos, simples,e reutilizaveis.
IR1 IR2
IR3 IR4
IR5
L4
L2L1
L3
L5
Alberto Simoes Abordagens na Traducao Automatica (22/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao por Interlıngua
TextoL.O.
dicionários e gramáticas
L.O
dicionários egramáticas
L.D.
Representaçãointer-língua
TextoL.D.
análise síntese
Alberto Simoes Abordagens na Traducao Automatica (23/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao por Interlıngua
Duas fases no processo de traducao:
AnaliseA frase na lıngua de origem e analisada e e criada umarepresentacao (independente de lıngua) do seu significado.
GeracaoA representacao semantica e convertida numa frase na lınguade destino.
Teoricamente nao existe informacao bilingue no sistema.
Alberto Simoes Abordagens na Traducao Automatica (24/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao por Interlıngua
Uma vantagem:
para cada lıngua adicionada ao sistema e necessariodesenvolver apenas um modulo de analise e um de geracao;
Uma maior desvantagem:
qual seria a representacao independente de lıngua?
como representar os conceitos?lınguas diferentes tem conceitos diferentes(3 vs n formas de classificar neve)sera que a representacao independente e a interseccao ou auniao de todos estes conceitos?
Alberto Simoes Abordagens na Traducao Automatica (25/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao DirectaSistemas de Traducao por TransferenciaSistemas de Traducao por Interlıngua
Sistemas de Traducao por Interlıngua
Para 5 lınguas, 5× 2 = 10 modulos:
5 abstractores / parsers;
5 geradores;
L1 L2
L3 L4
L5
IL
Infelizmente a ideia de interlıngua nao e realista.
Alberto Simoes Abordagens na Traducao Automatica (26/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao EstatısticaSistemas de Traducao baseada em Exemplos
Sistemas orientados aos dados
Texto origem Texto destino
matching recombinação
tradução à palavra
exemplo exacto existente
tradução de segmento
(representacao tıpica)
Alberto Simoes Abordagens na Traducao Automatica (27/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao EstatısticaSistemas de Traducao baseada em Exemplos
Traducao Estatıstica
TextoL.O.
Texto bilingue
L.O. / L.D.Texto na
L.D.
Candidatos aTraduçãona L.D.
TextoL.D.
análiseestatíistica
análiseestatística
Modelo de tradução
Modelolinguístico
Algoritmo de traduçãoargmaxe P(e) x P(s|e)
(Knight, 2004a)
Alberto Simoes Abordagens na Traducao Automatica (28/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao EstatısticaSistemas de Traducao baseada em Exemplos
Modelo do Canal Ruidoso (Noisy Channel Model)
Pretende-se um modelo P(e|f ) que estima a probabilidadecondicional de uma frase (traducao) e na lıngua E , dada a frase fna lıngua F .
Modelo de Lıngua
dado um segmento e na L.D. (p.e. ingles), calcular P(e);um segmento de bom ingles, entao P(e) e elevada;um segmento de mau ingles, entao P(e) e baixa;
Modelo de Traducao
dado um par de segmentos, 〈f , e〉, calcular P(f |e);se 〈f , e〉 parecem-se com traducoes, entao P(f |e) e elevada;se 〈f , e〉 nao se parecem com traducao, entao P(f |e) e baixa;
Pretende-se estimar: arg maxe P(e|f ) = arg maxe P(e)P(f |e)
Alberto Simoes Abordagens na Traducao Automatica (29/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao EstatısticaSistemas de Traducao baseada em Exemplos
Ainda sobre este modelo
Modelo de Lıngua
Pode ser implementado baseado em trigramas, e estimado dequalquer corpus (nao necessariamente paralelo);
Modelo de Traducao
E treinado a partir de um corpus paralelo nas lınguas emcausa.
Alberto Simoes Abordagens na Traducao Automatica (30/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao EstatısticaSistemas de Traducao baseada em Exemplos
Exemplo do processo SMT
Frase original:
Que hambre tengo yo
Geracao estatıstica de traducoes:
What hunger have IHungry I am soI am so hungryHave I that hunger
Alberto Simoes Abordagens na Traducao Automatica (31/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao EstatısticaSistemas de Traducao baseada em Exemplos
Exemplo do processo SMT
Que hambre tengo yo
Geracao estatıstica de traducoes com calculo da probabilidadeusando apenas o modelo de traducao:
What hunger have I 0.0000140Hungry I am so 0.0000010I am so hungry 0.0000015Have I that hunger 0.0000200
Alberto Simoes Abordagens na Traducao Automatica (32/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao EstatısticaSistemas de Traducao baseada em Exemplos
Exemplo do processo SMT
Que hambre tengo yo
Geracao estatıstica de traducoes e avaliacao com modelocompleto:
What hunger have I 0.0000140× 0.00000100Hungry I am so 0.0000010× 0.00000140I am so hungry 0.0000015× 0.00010000Have I that hunger 0.0000200× 0.00000098
Validacao arg maxe P(e)× P(s|e)
I am so hungry
(Knight, 2004a)
Alberto Simoes Abordagens na Traducao Automatica (33/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao EstatısticaSistemas de Traducao baseada em Exemplos
Traducao baseada em exemplos
TextoL.O.
Texto bilingue
L.O. / L.D.
TextoL.D.
matching
Corpora
recombinação
FragmentosL.D.
Alberto Simoes Abordagens na Traducao Automatica (34/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao EstatısticaSistemas de Traducao baseada em Exemplos
Problemas na EBMT
Principais problemas da EBMT:
procurar as maiores concordancias (matches) exactas deporcoes de texto a ser traduzido;
combinar as traducoes posteriormente;
e, para que isto funcione, e preciso determinar que pedaco datraducao na base de exemplos corresponde a porcao de textoque foi realmente encontrado (matched).
Alberto Simoes Abordagens na Traducao Automatica (35/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Sistemas de Traducao EstatısticaSistemas de Traducao baseada em Exemplos
EBMT vs SMT
Os sistemas baseados em estatıstica, sendo baseados em corpora,estao muito perto dos sistemas baseados em exemplos:
tal como os baseados em exemplos, sao treinados em corporaparalelos;
ao contrario dos baseados em exemplos, nao armazenam osexemplos originais depois de treinados;
(Brown, 2002)
Embora tenha existido uma separacao inicial na abordagem, cadavez mais se fala em Traducao Estatıstica ou Traducao Baseada emDados referindo-se ao uso conjunto destas tecnicas.
(Simoes, 2009)
Alberto Simoes Abordagens na Traducao Automatica (36/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Ferramentas Concretas
Traducao baseada em regras
traducao directa;(Systran, originalmente)
traducao por regras de transferencia;(Systran, Logos/OpenLogos, Reverso, Apertium)
traducao interlıngua;(EUROTRA)
Traducao orientada aos dados
traducao estatıstica;(Pharaoh/Moses/Phramer)
traducao baseada em exemplos;(Gaijin/MaTrEx, EDGAR)
Abordagens Hıbridas(Pangloss Mark III)
Alberto Simoes Abordagens na Traducao Automatica (37/38)
Arquitecturas de Traducao AutomaticaTA baseada em regras
TA orientada aos dadosConclusoes
Conclusoes
Aproveitar experiencia das abordagens baseadas em regras:
regras ja destiladas;recursos ja produzidos;
Aproveitar recursos bilingues existentes:
extrair dicionarios;extrair regras de traducao;extrair dados estatısticos sobre a traducao
Unir abordagens para ter sucesso.
Alberto Simoes Abordagens na Traducao Automatica (38/38)