FYI, mozenda funciona muito bem e é realmente fácil de usar ... mas eles só têm uma versão de avaliação gratuita e < uma estratégia de marketing é realmente obscuro.
Eu quero colher alguns dados como este link
E insira o nome, endereço, número de telefone, e-mail, etc. em um banco de dados. Existe algum software que eu possa usar que vai ter uma página da web, deixe-me especificar alguns regexes ou algo assim, e depois cuspir todos os dados correspondentes em um CSV ou algum formato facilmente inserível em um banco de dados?
FYI, mozenda funciona muito bem e é realmente fácil de usar ... mas eles só têm uma versão de avaliação gratuita e < uma estratégia de marketing é realmente obscuro.
Uma maneira de fazer isso é personalizar seu próprio raspador. Este
using HtmlAgilityPack;
...
HtmlDocument doc = new HtmlWeb().Load("http://www.newcardealers.ca/en/Dealers/List-A.aspx");
foreach (HtmlNode td in doc.DocumentNode.SelectNodes("//td[@width='268']"))
{
Console.Write(td.SelectSingleNode("span[@class='BodyTextBold']").InnerText);
Console.WriteLine(td.SelectSingleNode("span[@class='BodyText']").InnerText.Replace("\t\t\t\t", "\r\n"));
}
produz isso
A.M. FORD SALES LIMITED
2795 Highway Drive
Trail, BC V1R2T1
Telephone : 250 364-0202 http://www.amford.com [email protected]
ABBOTSFORD CHRYSLER LTD.
30285 Automall Drive
Abbotsford, BC V2T5M1
Telephone : 604 857-8888 http://www.abbotsfordchrysler.com [email protected]
ACURA OF LANGLEY
19447 Langley ByPass
Surrey, BC V3S6K1
Telephone : 604 539-2111 http://www.acuraoflangley.com [email protected]
...
Não é perfeito, mas você vê onde isso está indo.
Não tenho certeza de como um aplicativo independente saberia analisar isso automaticamente.
Tags html web screen-scraping