Parece-me que você está procurando uma combinação de duas coisas:
-
Xvfb, um servidor X11 de framebuffer virtual . Ele se comporta como um servidor X comum, mas não precisa de exibição real ou mesmo de uma GPU. Só precisa de um pedaço de memória que possa usar como framebuffer.
-
uma versão do ffmpeg com o suporte ao x11grab compilado em