Cifra de Vigenère Técnicas de Data Mining para cripto-análise
Joel Ribeiro
Mestrado em Sistemas de Dados e Processamento Analítico
Segurança e Privacidade em Sistemas de Armazenamento e Transporte de Dados
2006/2007
Agenda
• Introdução• Cifras de Substituição• Cifra de Vigenère
– Análise– Técnicas de cripto-análise
• Técnicas de Data Mining– Possíveis abordagens– Conceitos
• Aplicação– Definição– Algoritmo– Demonstração
• Conclusões e Trabalho Futuro
Criptologia
Criptologia
Criptografia
Cripto-análise
Códigos
Cifras
Esteganografia
Transposição
Substituição
Cifras de Substituição
Cifra de Vigenère I
Cifragem
Decifragem
26modiii ChaveTextoCifra
26modiii ChaveCifraTexto
Cifra de Vigenère II
• Cifragem
• Decifragem
Cifra de Vigenère: Análise
• Tamanho da chave– Repetições de padrões
• Valor da chave– Frequência das letras
Análise estatística
???Data Mining
Possíveis Abordagens
• Sequence Mining– Pesquisa de motifs
• Previsão– Previsão de palavras
• Graph Mining– Reposição de espaços e pontuações
• …
Objectivo
• Dada uma palavra chave e uma cifra, identificar quais as letras da chave que estão incorrectas, sugerindo a sua correcção.
Implementação
• Histograma– Frequência das letras
• Árvore n-ária– Representação de palavras
• Grafo– Relacionamento entre palavras
Conceitos
• Top-K– Estrutura que armazena os primeiros k casos mais
interessantes.
– Conceito usado em data mining– Restringe número de soluções– Elimina utilização de thresholds
Algoritmo I
Dado– Um conjunto de textos;– Um texto cifrado TC;
Executar• Fase de Treino (Aprendizagem)
• H construir histograma (frequências das letras)• A construir a árvore que representa as palavras• G construir o grafo que relaciona as palavras
• Fase de Previsão
Algoritmo II
• Fase de Previsão• TopK S Determinar o tamanho da chave• TopK PC Determinar os valores das possíveis
chaves de tamanho Sk
• TL decifrar usando TC (Cifra) e uma PC;• TopK TP determinar os 10 textos mais
similares com TL, usando G;• Usando TC e TopK TP, reconstruir cada letra da
palavra chave;
• Para TP1, calcular similaridade com TL.
Demonstração
Conclusões
• Pontos fracos– Dependência da fase de treino (aprendizagem)– Resultados não exactos
• Pontos fortes– Capacidade de resposta para cifras pequenas– Algoritmo adaptativo
Trabalho Futuro
• Implementar outras funcionalidades– Reposição de espaços e pontuações
• Implementar outros métodos– Previsão do valor da chave através de
algoritmos de força bruta baseados no texto mais similar
• Testar Desempenho e Eficácia– Comparar abordagem proposta aos métodos
tradicionais