Suponho que o que você quer dizer é que você quer analisar o HTML contido na resposta HTTP.
Se você estiver familiarizado com o PHP, pode usar o curl para recuperar a página e, em seguida, analisar a cadeia em sua estrutura DOM usando o PHP DOMDocument classe , então você pode recuperar o innerHTML de interesse, consultando a instância DOMDocument.
Como um script PHP de linha de comando
#!/usr/bin/php
// curl or readfile or whatever for url and assign HTML body into variable $html
$html = '<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<meta name="viewport" content="width=device-width">
<title></title>
link
</head>
<body>
<h1>stuff in directory listing</h1>
</body>
</html>
';
$DOM = @DOMDocument::loadHTML($html);
$element = $DOM->getElementsByTagName("h1")->item(0);
echo $element->nodeValue;
É assim que eu faria de qualquer maneira, e a razão é porque
- daria uma implementação flexível, na qual você pode se adaptar às diferentes respostas que os servidores da Web forneceriam a você.
- tentar analisar o conteúdo por regex seria muito difícil (supondo)
Aqui está uma demonstração - link