Boyer-Moore算法 | 飞奔的蜗牛

                    
                                PHP
                            
                                算法
                            
                                Boyer-Moore
                            
                                算法
                            
                    发布日期:  
                    2024-11-21
                
                    文章字数:  
                    892
                
                    阅读时长:  
                    3 分
                
Boyer-Moore算法简介Boyer-Moore算法是一种高效的字符串搜索算法，它通过跳过文本中明显不匹配的部分，显著提高了搜索效率。相较于传统的暴力匹配算法，Boyer-Moore算法在大多数情况下性能更佳，尤其是在搜索较长的模式串时。
算法的核心思想：
坏字符规则： 当模式串的一个字符与文本中的字符不匹配时，模式串向右滑动，使得不匹配的字符与文本中对应的字符对齐。
好后缀规则： 当模式串的后缀与文本中的部分匹配时，模式串向右滑动，使得匹配的后缀与文本中对应的后缀对齐。
算法实现步骤构建坏字符表:对于模式串中的每个字符，记录它在模式串中最后出现的位置。
如果字符不在模式串中出现，则其位置为模式串的长度。

构建好后缀表:计算模式串的后缀与自身匹配的最长长度。

搜索过程:从模式串的末尾开始与文本进行比较。
如果不匹配，则根据坏字符规则或好后缀规则计算滑动距离，将模式串向右滑动。
重复步骤3，直到找到匹配或到达文本末尾。

PHP实现Boyer-Moore算法function boyerMooreSearch($text, $pattern) {
    $m = strlen($pattern);
    $n = strlen($text);
    $badChar = [];
    $goodSuffix = [];

    // 初始化坏字符表
    for ($i = 0; $i < 256; $i++) {
        $badChar[$i] = $m;
    }
    for ($i = 0; $i < $m - 1; $i++) {
        $badChar[ord($pattern[$i])] = $m - $i - 1;
    }

    // 初始化好后缀表（简化版）
    // 这里使用一个简单的实现，实际应用中可以优化
    for ($i = 0; $i < $m; $i++) {
        $goodSuffix[$i] = $m;
    }
    for ($i = $m - 2; $i >= 0; $i--) {
        $j = $i;
        while ($j >= 0 && $pattern[$j] === $pattern[$m - 1 - $i + $j]) {
            $goodSuffix[$j] = $i + 1;
            $j--;
        }
    }

    $i = 0;
    while ($i <= $n - $m) {
        $j = $m - 1;
        while ($j >= 0 && $pattern[$j] === $text[$i + $j]) {
            $j--;
        }

        if ($j < 0) {
            return $i; // 匹配成功
        } else {
            $i += max($badChar[ord($text[$i + $j])] - $m + 1 + $j, $goodSuffix[$j]);
        }
    }

    return -1; // 未找到匹配
}
代码解释
坏字符表: 记录每个字符在模式串中最后出现的位置。
好后缀表: 记录模式串的后缀与自身匹配的最长长度。
匹配过程: 从模式串末尾开始与文本比较，若不匹配，则根据坏字符规则或好后缀规则计算滑动距离。
算法优化坏字符表优化: 可以使用更复杂的算法来计算坏字符表，以提高算法效率。
好后缀表优化: 可以使用KMP算法的思想来计算好后缀表。
多模式匹配: 可以将Boyer-Moore算法扩展为多模式匹配算法。
算法应用场景文本搜索: 在大文本中快速查找子串。
字符串匹配: 在生物信息学、信息检索等领域有广泛应用。
数据压缩: 在压缩算法中用于查找重复模式。
算法优点效率高: 通过跳过不匹配的部分，大大提高了搜索速度。
适用于长模式串: 尤其在搜索较长的模式串时，性能优势更加明显。
算法缺点实现复杂: 算法的实现相对复杂，特别是好后缀表的计算。
总结Boyer-Moore算法是一种高效的字符串搜索算法，通过巧妙的跳跃机制，可以显著提高搜索效率。PHP实现相对简单，但要深入理解算法的原理才能进行优化和扩展。

                        文章作者:
                    
                    Crazy Boy
                
                        文章链接:
                    
                    https://crazy-boy.com/posts/boyer-moore.html
                
                        版权声明:
                    
                    本博客所有文章除特別声明外，均采用
                    CC BY 4.0
                    许可协议。转载请注明来源
                    Crazy Boy
                    !
                
                                    PHP
                                
                                    算法
                                
                                    Boyer-Moore
                                
赏感谢赞赏哦~支付宝
微 信

        评 论
    
                 上一篇

                          支付宝"碰一碰"支付：重新定义线下支付体验
                        
                            一、”碰一碰”支付的诞生与演进
2020年12月，支付宝在合作伙伴大会上正式发布了”碰一碰”支付功能，这一创新支付方式标志着中国移动支付进入了NFC无感支付的新阶段。作为国内领先的第三方支付平台，支付宝将这一技术称为”数字人民币NFC支付解
                        
                            2024-11-21
                        
                                    NFC
                                
                        碰一碰
                    
                        NFC
                    
                下一篇 
            
                          如何评判一段程序的好坏：复杂度分析
                        
                            评判一段程序的好坏，除了功能的正确性之外，算法的效率也是一个非常重要的指标。而复杂度分析就是用来衡量算法效率的一种方法。
复杂度分析是什么？复杂度分析是对算法在运行过程中所需时间资源和空间资源的数量的估算。

时间复杂度: 表示算法执行时间
                        
                                2024-11-21
                            
                                    算法
                                
                        算法
                    
                        复杂度分析
                    
                                PHP
                            
                                算法
                            
                                Boyer-Moore
                            
                                算法
                            
                    发布日期:  
                    2024-11-21
                
                    文章字数:  
                    892
                
                    阅读时长:  
                    3 分
                
Boyer-Moore算法简介Boyer-Moore算法是一种高效的字符串搜索算法，它通过跳过文本中明显不匹配的部分，显著提高了搜索效率。相较于传统的暴力匹配算法，Boyer-Moore算法在大多数情况下性能更佳，尤其是在搜索较长的模式串时。
算法的核心思想：
坏字符规则： 当模式串的一个字符与文本中的字符不匹配时，模式串向右滑动，使得不匹配的字符与文本中对应的字符对齐。
好后缀规则： 当模式串的后缀与文本中的部分匹配时，模式串向右滑动，使得匹配的后缀与文本中对应的后缀对齐。
算法实现步骤构建坏字符表:对于模式串中的每个字符，记录它在模式串中最后出现的位置。
如果字符不在模式串中出现，则其位置为模式串的长度。

构建好后缀表:计算模式串的后缀与自身匹配的最长长度。

搜索过程:从模式串的末尾开始与文本进行比较。
如果不匹配，则根据坏字符规则或好后缀规则计算滑动距离，将模式串向右滑动。
重复步骤3，直到找到匹配或到达文本末尾。

PHP实现Boyer-Moore算法function boyerMooreSearch($text, $pattern) {
    $m = strlen($pattern);
    $n = strlen($text);
    $badChar = [];
    $goodSuffix = [];

    // 初始化坏字符表
    for ($i = 0; $i < 256; $i++) {
        $badChar[$i] = $m;
    }
    for ($i = 0; $i < $m - 1; $i++) {
        $badChar[ord($pattern[$i])] = $m - $i - 1;
    }

    // 初始化好后缀表（简化版）
    // 这里使用一个简单的实现，实际应用中可以优化
    for ($i = 0; $i < $m; $i++) {
        $goodSuffix[$i] = $m;
    }
    for ($i = $m - 2; $i >= 0; $i--) {
        $j = $i;
        while ($j >= 0 && $pattern[$j] === $pattern[$m - 1 - $i + $j]) {
            $goodSuffix[$j] = $i + 1;
            $j--;
        }
    }

    $i = 0;
    while ($i <= $n - $m) {
        $j = $m - 1;
        while ($j >= 0 && $pattern[$j] === $text[$i + $j]) {
            $j--;
        }

        if ($j < 0) {
            return $i; // 匹配成功
        } else {
            $i += max($badChar[ord($text[$i + $j])] - $m + 1 + $j, $goodSuffix[$j]);
        }
    }

    return -1; // 未找到匹配
}
代码解释
坏字符表: 记录每个字符在模式串中最后出现的位置。
好后缀表: 记录模式串的后缀与自身匹配的最长长度。
匹配过程: 从模式串末尾开始与文本比较，若不匹配，则根据坏字符规则或好后缀规则计算滑动距离。
算法优化坏字符表优化: 可以使用更复杂的算法来计算坏字符表，以提高算法效率。
好后缀表优化: 可以使用KMP算法的思想来计算好后缀表。
多模式匹配: 可以将Boyer-Moore算法扩展为多模式匹配算法。
算法应用场景文本搜索: 在大文本中快速查找子串。
字符串匹配: 在生物信息学、信息检索等领域有广泛应用。
数据压缩: 在压缩算法中用于查找重复模式。
算法优点效率高: 通过跳过不匹配的部分，大大提高了搜索速度。
适用于长模式串: 尤其在搜索较长的模式串时，性能优势更加明显。
算法缺点实现复杂: 算法的实现相对复杂，特别是好后缀表的计算。
总结Boyer-Moore算法是一种高效的字符串搜索算法，通过巧妙的跳跃机制，可以显著提高搜索效率。PHP实现相对简单，但要深入理解算法的原理才能进行优化和扩展。

                        文章作者:
                    
                    Crazy Boy
                
                        文章链接:
                    
                    https://crazy-boy.com/posts/boyer-moore.html
                
                        版权声明:
                    
                    本博客所有文章除特別声明外，均采用
                    CC BY 4.0
                    许可协议。转载请注明来源
                    Crazy Boy
                    !
                
                                    PHP
                                
                                    算法
                                
                                    Boyer-Moore
                                
赏感谢赞赏哦~支付宝
微 信

        评 论
    
                 上一篇

                          支付宝"碰一碰"支付：重新定义线下支付体验
                        
                            一、”碰一碰”支付的诞生与演进
2020年12月，支付宝在合作伙伴大会上正式发布了”碰一碰”支付功能，这一创新支付方式标志着中国移动支付进入了NFC无感支付的新阶段。作为国内领先的第三方支付平台，支付宝将这一技术称为”数字人民币NFC支付解
                        
                            2024-11-21
                        
                                    NFC
                                
                        碰一碰
                    
                        NFC
                    
                下一篇 
            
                          如何评判一段程序的好坏：复杂度分析
                        
                            评判一段程序的好坏，除了功能的正确性之外，算法的效率也是一个非常重要的指标。而复杂度分析就是用来衡量算法效率的一种方法。
复杂度分析是什么？复杂度分析是对算法在运行过程中所需时间资源和空间资源的数量的估算。

时间复杂度: 表示算法执行时间
                        
                                2024-11-21
                            
                                    算法
                                
                        算法
                    
                        复杂度分析
                    
                                PHP
                            
                                算法
                            
                                Boyer-Moore
                            
                                算法
                            
                    发布日期:  
                    2024-11-21
                
                    文章字数:  
                    892
                
                    阅读时长:  
                    3 分
                
Boyer-Moore算法简介Boyer-Moore算法是一种高效的字符串搜索算法，它通过跳过文本中明显不匹配的部分，显著提高了搜索效率。相较于传统的暴力匹配算法，Boyer-Moore算法在大多数情况下性能更佳，尤其是在搜索较长的模式串时。
算法的核心思想：
坏字符规则： 当模式串的一个字符与文本中的字符不匹配时，模式串向右滑动，使得不匹配的字符与文本中对应的字符对齐。
好后缀规则： 当模式串的后缀与文本中的部分匹配时，模式串向右滑动，使得匹配的后缀与文本中对应的后缀对齐。
算法实现步骤构建坏字符表:对于模式串中的每个字符，记录它在模式串中最后出现的位置。
如果字符不在模式串中出现，则其位置为模式串的长度。

构建好后缀表:计算模式串的后缀与自身匹配的最长长度。

搜索过程:从模式串的末尾开始与文本进行比较。
如果不匹配，则根据坏字符规则或好后缀规则计算滑动距离，将模式串向右滑动。
重复步骤3，直到找到匹配或到达文本末尾。

PHP实现Boyer-Moore算法function boyerMooreSearch($text, $pattern) {
    $m = strlen($pattern);
    $n = strlen($text);
    $badChar = [];
    $goodSuffix = [];

    // 初始化坏字符表
    for ($i = 0; $i < 256; $i++) {
        $badChar[$i] = $m;
    }
    for ($i = 0; $i < $m - 1; $i++) {
        $badChar[ord($pattern[$i])] = $m - $i - 1;
    }

    // 初始化好后缀表（简化版）
    // 这里使用一个简单的实现，实际应用中可以优化
    for ($i = 0; $i < $m; $i++) {
        $goodSuffix[$i] = $m;
    }
    for ($i = $m - 2; $i >= 0; $i--) {
        $j = $i;
        while ($j >= 0 && $pattern[$j] === $pattern[$m - 1 - $i + $j]) {
            $goodSuffix[$j] = $i + 1;
            $j--;
        }
    }

    $i = 0;
    while ($i <= $n - $m) {
        $j = $m - 1;
        while ($j >= 0 && $pattern[$j] === $text[$i + $j]) {
            $j--;
        }

        if ($j < 0) {
            return $i; // 匹配成功
        } else {
            $i += max($badChar[ord($text[$i + $j])] - $m + 1 + $j, $goodSuffix[$j]);
        }
    }

    return -1; // 未找到匹配
}
代码解释
坏字符表: 记录每个字符在模式串中最后出现的位置。
好后缀表: 记录模式串的后缀与自身匹配的最长长度。
匹配过程: 从模式串末尾开始与文本比较，若不匹配，则根据坏字符规则或好后缀规则计算滑动距离。
算法优化坏字符表优化: 可以使用更复杂的算法来计算坏字符表，以提高算法效率。
好后缀表优化: 可以使用KMP算法的思想来计算好后缀表。
多模式匹配: 可以将Boyer-Moore算法扩展为多模式匹配算法。
算法应用场景文本搜索: 在大文本中快速查找子串。
字符串匹配: 在生物信息学、信息检索等领域有广泛应用。
数据压缩: 在压缩算法中用于查找重复模式。
算法优点效率高: 通过跳过不匹配的部分，大大提高了搜索速度。
适用于长模式串: 尤其在搜索较长的模式串时，性能优势更加明显。
算法缺点实现复杂: 算法的实现相对复杂，特别是好后缀表的计算。
总结Boyer-Moore算法是一种高效的字符串搜索算法，通过巧妙的跳跃机制，可以显著提高搜索效率。PHP实现相对简单，但要深入理解算法的原理才能进行优化和扩展。

                        文章作者:
                    
                    Crazy Boy
                
                        文章链接:
                    
                    https://crazy-boy.com/posts/boyer-moore.html
                
                        版权声明:
                    
                    本博客所有文章除特別声明外，均采用
                    CC BY 4.0
                    许可协议。转载请注明来源
                    Crazy Boy
                    !
                
                                    PHP
                                
                                    算法
                                
                                    Boyer-Moore
                                
赏感谢赞赏哦~支付宝
微 信

        评 论
    
                 上一篇

                          支付宝"碰一碰"支付：重新定义线下支付体验
                        
                            一、”碰一碰”支付的诞生与演进
2020年12月，支付宝在合作伙伴大会上正式发布了”碰一碰”支付功能，这一创新支付方式标志着中国移动支付进入了NFC无感支付的新阶段。作为国内领先的第三方支付平台，支付宝将这一技术称为”数字人民币NFC支付解
                        
                            2024-11-21
                        
                                    NFC
                                
                        碰一碰
                    
                        NFC
                    
                下一篇 
            
                          如何评判一段程序的好坏：复杂度分析
                        
                            评判一段程序的好坏，除了功能的正确性之外，算法的效率也是一个非常重要的指标。而复杂度分析就是用来衡量算法效率的一种方法。
复杂度分析是什么？复杂度分析是对算法在运行过程中所需时间资源和空间资源的数量的估算。

时间复杂度: 表示算法执行时间
                        
                                2024-11-21
                            
                                    算法
                                
                        算法
                    
                        复杂度分析
                    
                  目录
            
                  目录
            
                  目录
            
        hexo