Wat is de beste manier om html in C# te ontleden?

using mshtml;
...
object[] oPageText = { html };
HTMLDocument doc = new HTMLDocumentClass();
IHTMLDocument2 doc2 = (IHTMLDocument2)doc;
doc2.write(oPageText);

Hiermee kunt u javascript-achtige functies gebruiken zoals getElementById()

Mark Ingram · Answer 2 · 2008-09-11T09:47:26+00:00

Het probleem met het parsen van HTML is dat het geen exacte wetenschap is. Als het XHTML was dat je parseerde, dan zou het een stuk eenvoudiger zijn (zoals je al zei zou je een algemene XML parser kunnen gebruiken). Omdat HTML niet noodzakelijkerwijs goedgevormde XML is, zul je op veel problemen stuiten als je het probeert te parsen. Het moet bijna per site worden gedaan.

Corin Blaikie · Answer 3 · 2008-09-11T09:39:18+00:00

Corin Blaikie

11de3 september 2008 в 9:39

Meer

Je zou een HTML DTD kunnen gebruiken, en de generieke XML parsing libraries.

0