Algo

[Algo] Détecter l'orientation d'une image (et étapes intermédiaires)

Recherche :

Mot : Pseudo : Filtrer
Page : 1 2 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Algo] Détecter l'orientation d'une image (et étapes intermédiaires)

skeye

[Update du 20 mai]

Bon, comme le topic est remonté tout seul, je mets un peu à jour.
Pour voir le problème initial, il est en-dessous de l'edit, si vous voulez comprendre le début de la conversation!

Mon algorithme s'oriente actuellement vers un fonctionnement en 2 étapes:
1) Détection de l'orientation portrait / paysage (voir la 1ere idée de Mara's dad, qui donne de très bons résultats)
2) Détection du haut/bas de la page : je l'effectue actuellement en découpant l'image, puis en essayant de détecter un alignement à gauche et en analysant la répartition haut/bas et gauche/droite des pixels.
Cette méthode donne des résultats corrects, mais pas encore vraiment satisfaisants vu l'objectif.
J'oriente actuellement mes recherches vers un découpage plus efficace (détection des lignes noires, ainsi que des grandes zones blanches pour le découpage) afin d'améliorer la pertinence des calculs qui suivent.

[/update]

Bonjour,

Je dois réaliser pour une entreprise dont le service de numérisation scanne plus de 25000 pages par jour un outil qui oriente correctement toutes les images après acquisition, cad les passe en mode paysage si c'est le sens de lecture.

Ca fait un petit moment que je cogite sur les exemples de documents qu'ils traitent, et je n'arrive pas à dégager une caractéristique quelconque me permettant d'obtenir une règle de décision fiable (tourner ou ne pas tourner, là est la question...).

Je me demandais donc si d'après vous un réseau de neurones était adapté à la situation, sachant que l'on veut avoir un taux de réussite supérieur à 99% (100% est clairement l'objectif), avec si possible une probabilité d'erreur en sortie (ce qui rendrait les erreurs éventuelles plus acceptables...).

Merci de vos avis éclairés!

Message édité par skeye le 20-05-2003 à 09:56:33

Publicité

verdoux

And I'm still waiting

C'est quoi comme image ?

skeye

verdoux a écrit :

C'est quoi comme image ?

Ca peut être potentiellement n'importe-quoi, tout dépend des clients (d'où l'intéret de l'apprentissage...si ca ne marche pas du tout pour un nouveau client on recommence l'apprentissage en ajoutant des docs à lui dans la base d'apprentissage...).
Ca va dans les exemples que j'ai vus du texte (bcp) à des tableaux contenant du texte, des schémas, du texte manuscrit,...
Une reconnaissance de caractères me paraissait une solution intéressante, mais avec les manuscrits et certaines pages contenant un cartouche en portrait puis le corps du document en paysage...

[Edit]
Notez que si vous avez des solutions qui vous paraissent meilleures, je suis ouvert à toute suggestion.... :ange:

Message édité par skeye le 22-04-2003 à 12:02:05

verdoux

And I'm still waiting

Pour alimenter ton réseau de neurones, il faut quand même des indicateurs pertinents.
Tu pourrais par exemple faire des FFT 1D sur tout ou partie de l'image pour essayer de retrouver une périodicité liée aux lignes.

Le pb avec le réseau de neurones est que tu n'as aucune garantie que ça marche avec un délai de mise au point fini et une erreur acceptable. C'est risqué vis à vis du client.

Message édité par verdoux le 22-04-2003 à 12:16:52

Masure

Je vais proposer quelque chose d'un peu hors sujet peut etre mais je n'ai pas tous les parametres pour reflechir comme il faut.

Si j'ai bien compris on scanne un document quelconque et il doit etre enregistré "bien orienté".

Penchons nous sur la definition de "bien orienté".

Je pense que tu dois faire une rotation mineure pour que les bord soient verticaux et horizontaux mais que ce n'est pas la partie difficile. En gros tu regardes les bords de la feuille et tu appliques une correction.

Le gros travail est de tourner la feuille dans le bon sens de lecture (4 possibles on va pas ecrire à 45°) si je me trompe pas. Donc que ce soit, du texte, de l'image, du tableau ou un melange de tout, ton devoir et de trouver le bon sens de lecture.

Alors je réfléchie un peu et me dit :
"il doit falloir une P#!@* d'IA pour trouver ça"

Et une fois de plus j'ai l'impression qu'on restreint un problème et qu'on se dit :"bon là il nous faut un programme informatique béton pour tout faire automatiquement".

Alors j'essaie de voir si on ne peut pas regarder un peu autour.

Il va surement y avoir des inconvénients mais je propose la chose suivante :

au lieu de faire appel à un algo de fou pour trouver ce sens,n pourquoi ne pas donner a chaque rédacteur la tache d'orienter correctement la feuille ?

Exemple d'application :

- les clients envoient des documents a numeriser
- on leur fournit le support papier
- ce support est concu de facon a rendre le travail de reconnaissance trivial

ton support papier contient une entete qui lors du scan sera facilement reconnu comme le haut du document par exemple

Ca necessite un petit travail coté client (tenir sa feuille dans le bon sens des marques : tres tres dur )

Qu est ce que tu en penses ?
Meme si c'est pas totalement valable, pourquoi ne pas changer un peu l'idee pour ne pas se retrouver avec une usine a gaz de ton coté ?

Mara's dad

Yes I can !

Réseau de neurones, pourquoi pas ?

Je me suis demandé ce qui fait le sens de lecture d'une image.

Il me semble que les lignes horizontales sont la clé.

J'imagine donc un algo qui fait des cumuls des pixels par ligne et par colonne.
La répartition des cumuls des colonnes doit être beaucoup plus lisse que celle des lignes. C'est évident pour du texte, mais je me demande ce que çà pourait donner pour des photos ou des dessins.

Il reste plus qu'à trouver comment interpréter les résultats des cumuls. Une mesure de l'écart type peut-être ? C'est peut-être bien là que le réseaux de neurones serait efficace.

Reste à ne pas mettre l'image à l'envers, car comme le fait remarquer masure, il y a 4 orientations possibles.

---------------
Laissez l'Etat dans les toilettes où vous l'avez trouvé.

skeye

masure a écrit :

au lieu de faire appel à un algo de fou pour trouver ce sens,n pourquoi ne pas donner a chaque rédacteur la tache d'orienter correctement la feuille ?

Exemple d'application :

- les clients envoient des documents a numeriser
- on leur fournit le support papier
- ce support est concu de facon a rendre le travail de reconnaissance trivial

ton support papier contient une entete qui lors du scan sera facilement reconnu comme le haut du document par exemple

Ca necessite un petit travail coté client (tenir sa feuille dans le bon sens des marques : tres tres dur )

Qu est ce que tu en penses ?
Meme si c'est pas totalement valable, pourquoi ne pas changer un peu l'idee pour ne pas se retrouver avec une usine a gaz de ton coté ?

Pas possible...les documents des clients sont déjà d'origines diverses (formulaires remplis à la main, photocopies de documents divers et variés - par exemple des billets d'avion), et certains de ces clients refuseront catégoriquement ce genre de choses (administrations, entre autres).
La rotation est actuellement faite à la main, et il faudrait la faire de façon automatique:
1) pour gagner du temps
2) parce-que l'intéret de cette tache pour les opérateurs est pas évident...

De plus, fournir un papier préparé engendrerait des couts importants (les 25000 pages par jour actuellement risquent de devenir 100000 à court terme!)

skeye

Mara's dad a écrit :

Ton idée est intéressante en effet...je vais faire quelques tests là-dessus!
En ce qui concerne les 4 orientations, c'est vrai...et ça devient assez vite un cauchemard avec une page manuscrite!

skeye

verdoux a écrit :

En effet, ca parait risqué...mais j'avoue que certains cas me paraissent tellement tordus qu'une méthode permettant un apprentissage me semble être quasiment obligatoire.
J'ai à-priori largement le temps nécéssaire pour réaliser l'application, donc je peux me permettre de tatonner un peu, mais le choix des indicateurs reste en effet difficile...
Puisque tu sembles bien connaitre le sujet, saurais-tu dans quels types de cas on risque d'avoir un délai de mise au point extravagant ou une erreur énorme?

[edit]
Comme dit plus haut, les 100% de réussite sont un objectif, mais quoi qu'il arrive il existe une étape de vérification des documents avant livraison...une bonne réussite associée à une probabilité d'erreur peut donc être une solution satisfaisante, dans la mesure ou je pourrai dans ce cas indiquer les images à surveiller!

Message édité par skeye le 22-04-2003 à 13:15:06

Masure

Essaie de te tourner du coté des maths aussi. Il y a beaucoup d'outil pour le traitement, l'analyse d'image. Si tu as a ta disposition un echantillon de documents representatif de ce que tu vas trouver, tu peux peut etre degager des caracteristiques interessantes. Si tu as un prof de maths qui traine dans le coin, un gars orienté la dedans, demande.

J'ai été surpris de voir les travaux de fourrier sur lesquels un prof m'avait orienté une fois.

Et si tu as le temps scanne nous un panel representatif (comme je l'ai dit plus haut) de ce qui va passer dans tes scans, ca nous permettra de visualiser pour que les idees viennent

edit :

j'ai deja des idees de caracteristiques, qui doivent etre vrais dans tous les cas ou presque (ca c'est pour le 1%), qu'on peut facilement chiffrer avec des outils mathematiques. Balances du scan si tu peux

Message édité par Masure le 22-04-2003 à 14:00:38

Publicité

Mara's dad

Yes I can !

skeye a écrit :

Ton idée est intéressante en effet...je vais faire quelques tests là-dessus!
En ce qui concerne les 4 orientations, c'est vrai...et ça devient assez vite un cauchemard avec une page manuscrite!

J'ai fait un essai avec des images qui trainent sur mon site.
Mon algo à trouvé que la photo de mon étagère est dans le mauvais sens !
Il n'aime pas que les livres soit rangés vertivalement

---------------
Laissez l'Etat dans les toilettes où vous l'avez trouvé.

Masure

J'avais pas du tout lu la reponse de mara's dad . Oui oui lance toi dans un algo qui traque l'horizontalité, on est d'accord.

Pour les problemes que tu vas rencontrer, comme le souligne mara's avec ses bouquins, il va falloir ruser mais comme tu as le temps...

skeye

Pour les échantillons, gépaldroit! désolé...
Je suis en train de faire des tests avec l'idée de Mara's dad, les résultats sont pas mauvais du tout...merci!
Je vais en parler avec le boss demain de tte façon, histoire d'avoir son pt de vue (il connait bcp mieux les docs que je peux rencontrer que moi!)...
En ce qui concerne les outils mathématiques, vous inquiétez pas trop pour moi, je suis pas terrible en math, mais du coté de mes profs j'ai de quoi demander de l'aide (si vous êtes spécialistes de l'images vous avez p-e entendu parler de Shen...).
Pour les images du type "étagère de Mara's dad", ca représente une quantité négligeable en ce qui concerne mon travail...les données traitées sont plus dans la catégorie doc administratif que photo de vacances...:lol:

Masure

Oui je pense bien que ca represente un nombre negligeable voire nul de ce que tu peux rencontrer. Mais éprouver un algo avec les trucs les plus tordus que tu pourras trouver, ca a du bon

skeye

masure a écrit :

Oui je pense bien que ca represente un nombre negligeable voire nul de ce que tu peux rencontrer. Mais éprouver un algo avec les trucs les plus tordus que tu pourras trouver, ca a du bon

Je pense bien oui!
Mis à priori vu le débit journalier du service mon boss devrait m'en trouver pas mal de trucs tordus, déjà!:lol:

Masure

Ben alors demande lui de te filer les images les plus pourries qu'il aie et ne batie ton algo qu'autour de ça (en ne perdant pas de vue que ca doit marcher pour tout meme le plus simple :lol: ). Apres tu devrais avoir un truc du tonnerre

skeye

masure a écrit :

J'ai déjà une bonne liste de trucs pourris à tester...
En tout cas merci tout le monde, si je me décide pour le réseau de neurones je remonterai le topic...
Pour l'instant il faut que je teste un peu les trucs simples sur mes échantillons, histoire de voir!

Masure

skeye a écrit :

Ok c'est cool de filer le suivi. C'est vrai que si tu pouvais y caler un peu la theorie du reseau de neuronnes (flemme de lire des articles existant :whistle: ?) ce serait sympa, enfin fais ton taff

good luck

Mara's dad

Yes I can !

Idée pour les 4 orientations

Découper l'image à analyser en 9 zones.

1 2 3
4 5 6
7 8 9

Ensuite, ben c'est fonction du type de document.
L'idée est de chercher si les zones généralement plus remplies sont plutôt en haut, en bas, à gauche ou à droite.

On peut tirer plusieurs valeurs de comparaisons en les comparants 2 à 2, et en utilisant l'information de la première analyse qui donne une orientation horizontale ou verticale.

En faisant des rapports, tu dois aussi pouvoir donner un pourcentage de fiabilité...

---------------
Laissez l'Etat dans les toilettes où vous l'avez trouvé.

skeye

Mara's dad a écrit :

Me donne pas toutes les solutions, je sais pas ce que je vais faire pdt 5 mois sinon...:lol:
Je vous rassure, j'ai qd même autre chose à faire...
Par contre le découpage en zones ca m'étonnerait que ca marche, les documents sont bcp trop hétérogènes sur ce point.

skeye

masure a écrit :

Ya déjà énormément de doc, mais c en anglais kazi exclusivement, et soit très peu détaillé, soit bcp trop!
Si j'implémente ça j'essaierai de faire une mini-doc sur ce topic.

skeye

Si ca intéresse kk'1, je pense utiliser pour affiner un peu le fait qu'en français on écrit de gauche à droite( )...ca devrait dans la plupart des cas me donner les rotations à 180°!

Masure

skeye a écrit :

Si ca intéresse kk'1, je pense utiliser pour affiner un peu le fait qu'en français on écrit de gauche à droite( )...ca devrait dans la plupart des cas me donner les rotations à 180°!

Ah la par contre je crois que tu te trompes, le fait qu'on ecrive de gauche a droite ne limite pas la detection a 2 sens au lieu de 4.

Tu peux peut etre te servir de cette caracteristique si tu envisages de regarder l'ecart moyen en les fins de ligne et le bord de la feuille.

skeye

masure a écrit :

Ce que je voulais dire c'est que le coup des ecart-types marche dans quasiment tous les cas pour détecter s'il faut tourner à 90° ou non...
Après avoir calculé ça, en calculant le poids en pixels de chaque moitié (gauche et droite, donc) de mon image, je dois retrouver la plus "lourde" à gauche, sinon rotation à 180°...
C'est plus clair?
A mon sens ca devrait marcher pas mal...je vous dis ca quand j'ai terminé!

Masure

Marche quand le texte n'est pas justifié

Mara's dad

Yes I can !

Si je comprends bien, tes documents c'est quand même principalement du texte alors ?

---------------
Laissez l'Etat dans les toilettes où vous l'avez trouvé.

skeye

masure a écrit :

Marche quand le texte n'est pas justifié

Bonne remarque...mais tu as tjrs les titres, etc. qui sont rarement justifiés, non?
Vu qu'ils sont généralement plus gros, ils devraient faire pencher assez!
Et puis de tte façon là encore je cherche à avoir un truc qui marche souvent et qui me permette de quantifier le risque d'erreur...avec un texte justifié j'aurai des poids très proches, c'est pas dur à prendre en compte!

skeye

Mara's dad a écrit :

Si je comprends bien, tes documents c'est quand même principalement du texte alors ?

principalement oui, même si il y a des trucs tordus de temps à autres.

skeye

Et tiens ca me revient d'un coup : la justification du texte est pas gênante...je comptais surtout utiliser ca pour les manuscrits, qui restent l'un des cas les plus chiants!

Mara's dad

Yes I can !

T'as quoi comme temps de réponse ?
Quel langage tu utilise, avec quel outils (libs) sous quel OS ?

J'avais fait mon test d'écart type en PHP, avec la lib GD !
Autant dire que çà ramait à fond :lol: , mais le but était de valider le principe.

De là à traiter 100 000 Pages par jours . . .

---------------
Laissez l'Etat dans les toilettes où vous l'avez trouvé.

skeye

Mara's dad a écrit :

Sur ma machine de dev (p3 500), j'en ai pour environ 10s par image, dont la plus grande partie est prise par la lecture de l'image (je bosse en pgm pour les tests => j'ai des images de plus de 40Mo...en noir et blanc!:sweat.
Mais je vous ai pas tout dit de tte façon : le but une fois que j'aurai un truc qui marche est d'avoir un fonctionnement distribué style seti@home, histoire d'installer ca sur tout le parc info de la boite...
Partant du principe que ma machine est plutot dans le bas de l'échelle niveau perfs, ca va pour l'instant!

[edit]
Je code en C++

Message édité par skeye le 23-04-2003 à 14:44:47

Masure

evidement proposer une architecture scanner-chinois-BD (plutot que scanner, IA, BD) je suppose que c'est mal vu :ange:

C'est d'un mauvais gout :pfff:

Vilain Masure :gun:

Mara's dad

Yes I can !

pgm :??:

---------------
Laissez l'Etat dans les toilettes où vous l'avez trouvé.

skeye

masure a écrit :

evidement proposer une architecture scanner-chinois-BD (plutot que scanner, IA, BD) je suppose que c'est mal vu :ange:

C'est d'un mauvais gout :pfff:

Vilain Masure :gun:

:??:

skeye

Mara's dad a écrit :

pgm :??:

c'est foutu comme ca:
1) Magic Number (P2)
2) Taille en x, taille en y
3) Valeur maximale
4) Donnees

Tout ca en ascii...

skeye

skeye a écrit :

c'est foutu comme ca:
1) Magic Number (P2)
2) Taille en x, taille en y
3) Valeur maximale
4) Donnees

Tout ca en ascii...

Le prog final lira des fichiers TIFF group 4...c'est un peu plus complexe mais bcp moins gros...:lol:

Masure

skeye a écrit :

:??:

Ben ouais si c'etait pas de mauvais gout, ca consisterait a faire faire la detection a un chinois mais bon

skeye

masure a écrit :

Ben ouais si c'etait pas de mauvais gout, ca consisterait a faire faire la detection a un chinois mais bon

humm...en ce moment c'est un peu le principe!
Ce sont les opérateurs de numérisation qui s'en occupent!

skeye

Bon, l'utilisation du poids gauche/droite fonctionne pas top...si j'avais que du manuscrit ce serait pas mal, mais bon si j'ai du texte avec une photo sombre sur le coté droit c DMC...
Va falloir que je trouve autre chose...
Pendant que j'y pense, et le poids haut/bas? Voire une combinaison des 2...

Mon boss pensait pour les cas ou il y a un doute à essayer de reconnaitre des "modèles" tout prêts (une lettre, du papier millimétré, une photo, etc.), mais là c chaud à faire!

Remarquez, maintenant que j'ai quelques caractéristiques plus ou moins significatives pour mes images, je peux p-e m'en servir en entrée d'un réseau de neurones!

Je pourrais avoir par ex:
1) dimensions de l'image
2) Moyenne des valeurs de pix. sur l'image
3) Ecart-type correspondant
4) Le resultat de la technique de Mara's dad
5) nb de lignes horizontales et verticales
6) poids gauche/droite et haut/bas

Avec ca vous pensez que le réseau a une chance de se démerder?
Ca commence à faire pas mal de traitements...

Message édité par skeye le 24-04-2003 à 10:59:17

Masure

skeye a écrit :

Pour décider je pense que tu dois tester séparément les résultats que donne l'analyse d'une caractéristique. Tu en tires une efficacité moyenne en % (un ordre d'idees hein...) et un temps de traitement (approximatif aussi) pour cette carac. De là tu calcules des indices d'efficacité par rapport au temps (efficacité / temps). Il t'apparaitra les caractéristiques les plus interessantes a utiliser.

Ensuite tu croises les techniques retenues jusqu'à arriver à un croisement qui te donnera une efficacité >99%.

Pour l'instant comme on est parti, c'est a dire sans solution miracle, je crois que c'est comme ça qu'il faut procéder.

Etant donné que c'est une phase de test et d'etude de faisabilité, ne paufine pas tes algos pour chaque caractéristique. C'est pour voir si tu peux facilement avoir du 99% en croisant les caractéristiques.

Si tu y arrive facilement alors c'est faisable et là tu donnes tout pour optimiser (arriver a 100% et diminuer les temps).
Si tu vois qu'avec tous tes tests de croisements tu n'approcheras pas les 99% (ou alors avec des temps de m****) alors tu peux laisser tomber et tu n'auras pas passer trop de temps à optimiser.

Faudrait l'avis de mara's dad quand meme pour voir si je t'envoie pas au casse pipe pendant une semaine.

Publicité

Page : 1 2

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Programmation

Algo

[Algo] Détecter l'orientation d'une image (et étapes intermédiaires)

Sujets relatifs
[js ? vbs?] récupérer l'image associée d'un programme (icone) ?	[html]Mettre une image pour un bouton de formulaire ?
[PHP] Intercépter un chemain pour l'utiliser comme source d'une image?	Algo de Dijkstra en C : j'y arrive pas !!!!
Probleme avec JPGraph et generation d'image	[Vb.net] Intégration d'image au projet....
barre d'outil image sous IE...	[HTML/CSS] comment positionner verticalement une image ?
[Résolu] Espace non désiré sous une image dans un tableau	[algo - tris par tas] le parallèliser
Plus de sujets relatifs à : [Algo] Détecter l'orientation d'une image (et étapes intermédiaires)

Page générée en 0.129 secondes