php 去掉HTML代码中的HTML标签,返回纯文本

180it 2021-11-05 PM 1423℃ 0条
/**
 * 去掉HTML代码中的HTML标签,返回纯文本
 * @param string $document 待处理的字符串
 * @return string 
 */
function html2txt($document){
    $search = array ("'<script[^>]*?>.*?</>'si", // 去掉 javascript
        "'<[\/\!]*?[^<>]*?>'si", // 去掉 HTML 标记
        "'([\r\n])[\s]+'", // 去掉空白字符
        "'&(quot|#34);'i", // 替换 HTML 实体
        "'&(amp|#38);'i",
        "'&(lt|#60);'i",
        "'&(gt|#62);'i",
        "'&(nbsp|#160);'i",
        "'&(iexcl|#161);'i",
        "'&(cent|#162);'i",
        "'&(pound|#163);'i",
        "'&(copy|#169);'i", 
        // "'&#(\d+);'e");
        "'&#(\d+);'"); // 作为 PHP 代码运行
    $replace = array ("",
        "",
        "",
        "\"",
        "&",
        "<",
        ">",
        " ",
        chr(161),
        chr(162),
        chr(163),
        chr(169),
        "chr(\\1)");
    $text = preg_replace_callback ($search, function(){return $replace;}, $document);
    return $text;
} 

支付宝打赏支付宝打赏 微信打赏微信打赏

如果文章或资源对您有帮助,欢迎打赏作者。一路走来,感谢有您!

标签: none

php 去掉HTML代码中的HTML标签,返回纯文本