Ik'ben op zoek naar een library/methode om een html bestand te parsen met meer html specifieke mogelijkheden dan generieke xml parsing libraries.
U zou TidyNet.Tidy kunnen gebruiken om de HTML naar XHTML om te zetten, en dan een XML parser te gebruiken.
Een ander alternatief zou zijn om de ingebouwde engine mshtml te gebruiken:
using mshtml;
...
object[] oPageText = { html };
HTMLDocument doc = new HTMLDocumentClass();
IHTMLDocument2 doc2 = (IHTMLDocument2)doc;
doc2.write(oPageText);
Hiermee kunt u javascript-achtige functies gebruiken zoals getElementById()
Het probleem met het parsen van HTML is dat het geen exacte wetenschap is. Als het XHTML was dat je parseerde, dan zou het een stuk eenvoudiger zijn (zoals je al zei zou je een algemene XML parser kunnen gebruiken). Omdat HTML niet noodzakelijkerwijs goedgevormde XML is, zul je op veel problemen stuiten als je het probeert te parsen. Het moet bijna per site worden gedaan.