汉明距离(Hamming Distance)
汉明距离(Hamming Distance)
定义
汉明距离以美国数学家理查德·卫斯里·汉明的名字命名,表示两个相同长度的字符串在相同位置上不同字符的个数。用d(x,y)来表示x和y两个字符串的汉明距离。汉明距离可以用来计算两个文本之间的相似度,根据不同字符的个数来判断两个文本是否相似。
d(10010,10000)=1 d(abcbc,abdab)=3
计算
根据定义,我们需要统计出相同位置上不同字符的个数,如何判断两个字符是否相同呢?如果两个字符都是数字,可以用a==b来判断,如果两个字符是非数字,可以用a.equals(b)来判断,但其实有更快速的方法。把两个字符进行异或运算,如果字符a和字符b相同,则a^b=0,我们只需要统计异或结果不为0的个数。
如果两个字符串长度不相等,则以短字符串长度截取长字符串,计算截取后的字符串与短字符串的汉明距离,加上两个字符串长度差。 以下是Java实现:
// 数组汉明距离计算 byte[] array1 = new byte[]{ 0,1,0,1,0,0,0,0,1,1,1,0,0}; byte[] array2 = new byte[]{ 1,1,0,1,1,0,0,1,0,1,0,1,0}; int count = 0; for (int i = 0; i < array1.length; i++) { if ((array1[i] ^ array2[i]) != 0) { count ++; } } System.out.println(count); // 字符串汉明距离计算,先转换成字符数组 String str1 = "abddfaerwerw"; String str2 = "abddfaerw大rw"; char[] arr1 = str1.toCharArray(); char[] arr2 = str2.toCharArray(); int count1 = 0; for (int i = 0; i < arr1.length; i++) { if ((arr1[i] ^ arr2[i]) != 0) { count1 ++; } } System.out.println(count1);
下一篇:
动态规划——下降路径最小和