HTML парсинг (parsing).

Здесь я уже говорил об одном из способов преобразовать HTML в XML для упрощения дальнейшей работы с ним. Теперь я расскажу еще об одной библиотеке под названием Html Agility Pack.

Архив проекта состоит из исходного кода, документации и нескольких примеров - как конвертировать HTML в текст, RSS или XML.

Вот - небольшой пример использования парсера:

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load(“http://www.bbc.co.uk/”);

HtmlNodeCollection links =
doc.DocumentNode.SelectNodes(“//a[@href]“);

foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + “<br>”);
}

Оставить комментарий