如何防溺水知识:提取html标记

来源:百度文库 编辑:中科新闻网 时间:2024/05/12 06:34:02
如何从一段html代码中提取出html标记和网页的内容?
用C++实现。

把所有html标签放到一个数组里,逐行分析html代码,
寻找其中的< 和 >,把其中的内容在保存html标签的数组
中检索,有那就是html标签,否则就是网页内容。

符合XML语法的xhtml可以用DOM接口提取出标记和网页内容