Oui c'est faisable, après tout dépend du type de signal provenant de la caméra, et de leur synchronisme.
En pire cas, il faudra 2x2 frame buffers pour stocker les images en provenance de la caméra (x2 pour le backbuffer), plus 1x2 pour l'image générée en sortie, soit pas mal de besoin en RAM.
Dans le meilleur cas, tu peux générer un signal synchrone avec les deux signaux en provenance de la caméra, ce qui réduit fortement les besoins en RAM.
Au niveau calcul, c'est un jeu d'enfant pour un FPGA.
---------------
sheep++