Algoritmo Hunt-Szymanski

Na ciência da computação, o algoritmo Hunt-Szymanski,^[1]^[2] também conhecido como algoritmo Hunt-McIlroy, é uma solução para o problema de maior subsequência comum. Foi um dos primeiros algoritmos não heurísticos usados no diff. Até hoje, variações desse algoritmo são encontradas em sistemas de controle de versão incrementais, software wiki e softwares de pesquisa da filogenética molecular.

O pior caso de complexidade para este algoritmo é $O(n^{2}\log n)$ , mas na prática $O(n\log n)$ é esperado^[3]^[4]

História[editar | editar código-fonte]

O algoritmo foi proposto por Harold S. Stone como uma generalização do caso especial resolvido por Thomas G. Szymanski. James W. Hunt refinou a ideia, implementando a primeira versão do algoritmo proposto usado pelo diff em um modelo mais antigo de Douglas McIlroy^[5]^[6]^[7]

A descrição do algoritmo surgiu como um relatório técnico por Hunt e McIlroy. No ano seguinte, uma variação do algoritmo foi publicada em um artigo em conjunto de Hunt e Szymanski.

Algoritmo[editar | editar código-fonte]

O algoritmo Hunt-Szymanski é uma modificação da solução básica ao problema da maior subsequência comum, de complexidade $O(n^{2})$ . A modificação precisa de menos espaço e menos tempo para as entradas típicas.

Consideremos que $A_{i}$ seja a i-ésima linha do primeiro arquivo

E que $B_{j}$ seja a j-ésima linha do segundo arquivo.

Então $P_{ij}$ será o tamanho da maior subsequência comum para as primeiras $i$ linhas do primeiros arquivo e as primeiras $j$ linhas do segundo arquivo

$P_{ij}={\begin{cases}0&{\text{se }}i=0{\text{ ou }}j=0\\1+P_{i-1,j-1}&{\text{se }}A_{i}=B_{j}\\max(P_{i-1},P_{j-1})&{\text{se }}A_{i}\neq B_{j}\end{cases}}$

Exemplo[editar | editar código-fonte]

Considere os arquivos $A$ e $B$

$A$ contém essas 3 linhas:

$A_{1}=a$

$A_{2}=b$

$A_{3}=c$

E $B$ contém essas outras 3:

$B_{1}=a$

$B_{2}=c$

$B_{3}=b$

Os passos que o algoritmo deve seguir para determinar o tamanho da maior subsequência comum para ambos os arquivos são mostrados no diagrama. O algoritmo mostra corretamente que a maior subsequência de ambos os arquivos são 2 linhas.

Complexidade[editar | editar código-fonte]

O primeiro algoritmo tinha no pior caso uma complexidade de tempo e espaço de $O(mn)$ (veja a notação grande-O), onde $m$ é o número de linhas do arquivo $A$ e $n$ é o número de linhas para um arquivo $B$ . Enquanto o algoritmo de Hunt-Szymanski tem no pior caso uma complexidade de tempo de $O(mn\log m)$ e uma complexidade de espaço de $O(mn)$ , embora ele supere regularmente o pior caso com entradas típicas

Referências[editar | editar código-fonte]

↑ «The Hunt-Szymanski Algorithm for LCS» (PDF). Department of Mathematics and Computer Science, University of Southern Denmark. 12 de janeiro de 2017
↑ Grabowski, Szymon (2016). «New tabulation and sparse dynamic programming based techniques for sequence similarity problems». Discrete Applied Mathematics. 212 (C): 96-103. ISSN 0166-218X
↑ Aho, A.; Hirschberg, D.; Ullman, J. (1976). «Bounds on the Complexity of the Longest Common Subsequence Problem» (PDF). Journal of the ACM. 23 (1): 1-12. ISSN 0004-5411
↑ See Section 5.6 of Aho, A. V., Hopcroft, J. E., Ullman, J. D., Data Structures and Algorithms. Addison-Wesley, 1983. ISBN 0-201-00023-7
↑ Hunt, James W.; McIlroy, M. Douglas (junho de 1976). «An Algorithm for Differential File Comparison» (PDF). Bell Laboratories. Computing Science Technical Report. 41
↑ Imre Simon (2 de abril de 1988). «Sequence Comparison: Some Theory and Some Practice». Universidade de São Paulo
↑ Szymanski, T. G. (1975) A special case of the maximal common subsequence problem. Technical Report TR-170, Computer Science Lab., Princeton University.

[1] «The Hunt-Szymanski Algorithm for LCS» (PDF). Department of Mathematics and Computer Science, University of Southern Denmark. 12 de janeiro de 2017

[2] Grabowski, Szymon (2016). «New tabulation and sparse dynamic programming based techniques for sequence similarity problems». Discrete Applied Mathematics. 212 (C): 96-103. ISSN 0166-218X

[3] Aho, A.; Hirschberg, D.; Ullman, J. (1976). «Bounds on the Complexity of the Longest Common Subsequence Problem» (PDF). Journal of the ACM. 23 (1): 1-12. ISSN 0004-5411

[4] See Section 5.6 of Aho, A. V., Hopcroft, J. E., Ullman, J. D., Data Structures and Algorithms. Addison-Wesley, 1983. ISBN 0-201-00023-7

[HM76-5] Hunt, James W.; McIlroy, M. Douglas (junho de 1976). «An Algorithm for Differential File Comparison» (PDF). Bell Laboratories. Computing Science Technical Report. 41

[6] Imre Simon (2 de abril de 1988). «Sequence Comparison: Some Theory and Some Practice». Universidade de São Paulo

[7] Szymanski, T. G. (1975) A special case of the maximal common subsequence problem. Technical Report TR-170, Computer Science Lab., Princeton University.

[1]

[2]

[3]

[4]

[5]

[6]

[7]