Algo como isso pode funcionar -
wget -r -l 2 -A doc,docx,odt http://example.com/page-to-scan.html
Receba recursivamente a página em link e siga todos os links nessa página e inclua tudo do site próximo nível. E depois jogue fora qualquer coisa que não termine em .doc, .docx ou .odt (você menciona documento, então esses são os 3 tipos - MS antigo, MS atual e Open | Libre Office)