C++

Challenge/Partage de connaissances : comment optimisez ce code?

Recherche :

Mot : Pseudo : Filtrer
Page : 1 2 3 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Challenge/Partage de connaissances : comment optimisez ce code?

skelter

Reprise du message précédent :
c'est pire, on l'a déja dit faut s'attendre à moins d'optimisations si on parcourir un tableau avec un pointeur

et accessoirement faudrais controller les allocations dynamiques

Message cité 1 fois

Publicité

chrisbk

et j'ai horreur des "+ *machin++"

alexIsBack

skelter a écrit :

c'est pire, on l'a déja dit faut s'attendre à moins d'optimisations si on parcourir un tableau avec un pointeur

et accessoirement faudrais controller les allocations dynamiques

si on déclare un tableau facon

Code :

double window[_NBrows][_NBcolumns];

est ce que l'on nottera une différence de vitesse dans la suite du code par rapport à une déclaration de type

Code :

double **window;
window=new double *[_NBrows];
for (int i=0; i<_NBcolumns;++i)
window[i]=new double [_NBcolumns];

juste pour savoir, car il doit y avoir une différence au niveau de la répartition des données en mémoire non? => plusieurs vecteurs éparpillés contre un gros bloc avec la première méthode? ca j'avoue que j'ai oublié

Message cité 1 fois
Message édité par alexIsBack le 22-02-2006 à 17:20:19

alexIsBack

on peut passer des données en double vers des long long facilement?
on y gagnerai un facteur de vitesse de 2?

bjone

Insert booze to continue

c'est mal. (le tableau de pointeur là)

bjone

Insert booze to continue

déjà t'es vraiment sûr d'avoir besoin de double ?
y'a un exemple de ton truc qui marche là ? (le binaire, une image source et traité que je comprennes ce que ton bignou fait)

Message cité 1 fois

skelter

alexIsBack a écrit :

si on déclare un tableau facon

Code :

double window[_NBrows][_NBcolumns];

est ce que l'on nottera une différence de vitesse dans la suite du code par rapport à une déclaration de type

Code :

double **window;
window=new double *[_NBrows];
for (int i=0; i<_NBcolumns;++i)
window[i]=new double [_NBcolumns];

ben ouai si tu suis le raisonennement c'est encore moins cache-friendly puisque ta matrice est fragmentée par lignes et que les données sont toujours chargées en cache par bloc contigues

Message cité 1 fois
Message édité par skelter le 22-02-2006 à 17:27:42

alexIsBack

skelter a écrit :

ben ouai si tu suis le raisonennement c'est encore moins cache-friendly puisque ta matrice est fragmentée par lignes et que les données sont toujours chargées en cache par bloc contigues

oki doki, oui, c'est en effet logique, mais au final,mieux vau une matrice 2D ou un vecteur ligne qui contient la matrice dépliée?

car metton que l'on traite comme ici présenté ligne par ligne mais aussi colonne par colonne, faudrai que l'on fasse des sauts de grande taille dans le vecteur pour rejoindre 2 éléments de lignes voisines plutôt que un saut unitaire pour passer au voisin de colonne...

chrisbk

un vecteur ligne qui contient la matrice déplié

alexIsBack

bjone a écrit :

déjà t'es vraiment sûr d'avoir besoin de double ?
y'a un exemple de ton truc qui marche là ? (le binaire, une image source et traité que je comprennes ce que ton bignou fait)

je viens de faire les tests en FLOAT, ca reste correcte, donc, oui, on peut passer en float !!!

ce que fait l'algo là?
si tu n'as pu le compiler, imagine : il balaye chaque ligne de la gauche vers la droite avec un effet filtre passe bas. donc, en gros, sur une image, ca smoothe les arrêtes d'orientation verticales et la réponse est assymétrique entre la gauche et la droite
c'est juste un algo pour tester en fait. mais c'est une bonne base pour apprende à optimiser car il y a plein de données à traiter

Message cité 1 fois

Publicité

bjone

Insert booze to continue

Code :

for (unsigned int i=0; i<NBloops; ++i)
for (IDrow=0; IDrow <_NBrows; ++IDrow)
{
value=0; // initialize la variable pour chaque nouvelle ligne traitée
for (IDcolumn=0; IDcolumn<_NBcolumns ; ++IDcolumn)
{

Code :

for (IDrow=0; IDrow <_NBrows; ++IDrow)
{
for (IDcolumn=0; IDcolumn<_NBcolumns ; ++IDcolumn)
{
for (unsigned int i=0; i<NBloops; ++i)
{
value=0;

Message cité 2 fois

bjone

Insert booze to continue

alexIsBack a écrit :

y'a rien à compiler, ton code tel quel il ne peut générér que des blobs artistiques.....

edit: en fait non c'est pas compilable si Taz passe et vois ton #include <iostream.h> et le cout atteinable comme ça il va te chier une pendule

Message édité par bjone le 22-02-2006 à 17:42:48

bjone

Insert booze to continue

bjone a écrit :

Code :

for (unsigned int i=0; i<NBloops; ++i)
for (IDrow=0; IDrow <_NBrows; ++IDrow)
{
value=0; // initialize la variable pour chaque nouvelle ligne traitée
for (IDcolumn=0; IDcolumn<_NBcolumns ; ++IDcolumn)
{

=>

?

pardon autant pour moi:

Code :

for (IDrow=0; IDrow <_NBrows; ++IDrow)
{
for (unsigned int i=0; i<NBloops; ++i)
{
value=0;
for (IDcolumn=0; IDcolumn<_NBcolumns ; ++IDcolumn)
{

alexIsBack

bjone a écrit :

Code :

for (unsigned int i=0; i<NBloops; ++i)
for (IDrow=0; IDrow <_NBrows; ++IDrow)
{
value=0; // initialize la variable pour chaque nouvelle ligne traitée
for (IDcolumn=0; IDcolumn<_NBcolumns ; ++IDcolumn)
{

Code :

for (IDrow=0; IDrow <_NBrows; ++IDrow)
{
for (IDcolumn=0; IDcolumn<_NBcolumns ; ++IDcolumn)
{
for (unsigned int i=0; i<NBloops; ++i)
{
value=0;

si tu mets le value=0 avant la 3ième boucle, ca veut dire que le premier pixel de la ligne commence avec value=0 pour lui seul, par contre, les pixels suivants connaitrons grâce à 'value' le résultat du pixel précédent d'ou un effet filtre passe bas (smooth, blur suivant le vocabulaire)

ca fait un genre de filtre pixel(i+1)= alpha*pixel(i)+(1-alpha)*nouvelleValeur

si tu met le value=0 à chaque tour de boucle...ben ca sert à rien

bjone

Insert booze to continue

oui j'ai reposté derrière.

bjone

Insert booze to continue

et mets tes tau/valeur en float.

en fait ça changera rien suivant la config du fpu (en 80x86 sans sse bien sûr).

Message cité 1 fois

alexIsBack

bjone a écrit :

et mets tes tau/valeur en float.

en fait ça changera rien suivant la config du fpu (en 80x86 sans sse bien sûr).

oui, j'ai tout repassé en float, en effet pas de changement de vitesse (je suis sur un p4)
mais il y a moyen de jouer avec les sse avec les float non, genre gérer 4 floats à la fois par opération? avec les intrinsics

bjone

Insert booze to continue

oui...

mais tu as déplacé le for( NBloops ) ?

parceque ça risque de faire une sacrée différence. (enfin j'espère )

Message cité 1 fois
Message édité par bjone le 22-02-2006 à 17:56:33

alexIsBack

bjone a écrit :

oui...

mais tu as déplacé le for( NBloops ) ?

parceque ça risque de faire une sacrée différence. (enfin j'espère )

le for( NBloops ) ne sert qu'à exécuter plusieurs fois la boucle pour avoir une valeur moyenne du temps d'éxécution, autrement cette boucle n'a pas lieu d'être

bjone

Insert booze to continue

a bon lol je suis déçu.

et bien si tu le fais, tu risques quand même de voir une différence

Joel F

Real men use unique_ptr

alexIsBack a écrit :

quelles manips effectue tu donc à la main?

Maintenant plus rien. J'ai encapsulé tout mes codes de manip matrcioielle ALtiVec dans une bibliotheque (cf ma signature)

Sve@r

alexIsBack a écrit :

Code :

unsigned int IDrow, IDcolumn, NBloops=100;
//appel de la fonction de filtrage 10 fois
for (unsigned int i=0; i<NBloops; ++i)

Moi je trouve un gain de x10 en mettant "NBloops=10" pour le faire correspondre au commentaire

Message cité 1 fois

---------------
Vous ne pouvez pas apporter la prospérité au pauvre en la retirant au riche.

alexIsBack

Sve@r a écrit :

Moi je trouve un gain de x10 en mettant "NBloops=10" pour le faire correspondre au commentaire

héhé, bien vu, je viens de corriger la bétise

alexIsBack

là, je viens de transformer la matrice en un seul vecteur et le tout en float, j'ai un gain de 1.5...

bjone

Insert booze to continue

les lignes sont les mêmes dans ton windowfilter ?

alexIsBack

dans window fillter peut se trouver n'importe quoi, une constante=>remplacer le tableau par une simple constante, oiu alors une valeur différente pour chaque pixel, ca permet de changer l'effet du filtre localement

skelter

tu peux montrer ton code actuel ?

alexIsBack

Code :

#include <iostream.h>
#include <ctime>
unsigned int _NBcolumns=640; // nombre de colonnes des buffers
unsigned int _NBrows=480; // nombre de lignes des buffers
// Entry point
int main(int argc, char *argv[])
{
// buffers d'entrée et de sortie
float outputFrame[_NBcolumns*_NBrows], inputFrame[_NBcolumns*_NBrows], windowfilter[_NBcolumns*_NBrows];
// variables/buffers utilisés dans les boucles:
float value, tau=10.0;
unsigned int IDrow, NBloops=100, index, IDstop;
cout<<"loop started"<<endl;
int startTime=clock();
//appel de la fonction de filtrage 100 fois
for (unsigned int i=0; i<NBloops; ++i)
{
/* PARTIE A OPTIMISER */
// boucle appelée pour toute nouvelle image d'entrée (inputFrame) on retyrouve le code suivant :
IDrow=_NBrows;
while((index=(--IDrow)))
{
// set init
value=0;
IDstop = _NBrows*(_NBcolumns-1)+IDrow; // calcul de l'index de fin de boucle
do
{
/* temporal effect introduced with RetinaProcessedPicture(Index) in the first line */
value = outputFrame[index]*tau + inputFrame[index] + windowfilter[index]* value;
outputFrame[index] = value;
}while((index+=_NBrows)<IDstop);
};
/* FIN DE LA PARTIE A OPTIMISER */
}
int endTime=clock();
cout<<"filtering finished, time elapsed="<<(endTime-startTime)/(NBloops)<<"clocks"<<endl;
return 0;
}

Message édité par alexIsBack le 24-02-2006 à 11:55:51

skelter

avec quoi tu compiles ? avec g++ ca ne compile pas (variables non déclarées + 4 pages de warnings)

index, result et IDstop ne sont pas déclarées, IDColumn et value ne sont pas utilisée ??

Message cité 1 fois
Message édité par skelter le 24-02-2006 à 11:33:55

alexIsBack

oups, g raté des copier coller, je remodifie

alexIsBack

skelter a écrit :

avec quoi tu compiles ? avec g++ ca ne compile pas (variables non déclarées + 4 pages de warnings)

index, result et IDstop ne sont pas déclarées, IDColumn et value ne sont pas utilisée ??

c'est fait

skelter

pour moi c'est 2x plus rapide avec ta premiere version (g++ -O3 ..., version 3.2.2)

#include <iostream.h> -> #include <iostream>

et ajoutes 'using namespace std;' au debut du main

unsigned int NBcolumns=640;
unsigned int NBrows=480;
->
// ne prefixes jamais par un _, et déclares les dans le main tant qu'a faire (toujours en portée minimale)
const size_t NBcolumns=640;
const size_t NBrows=480;

le type de retour de std::clock est std::clock_t

et surtout déclares tes variables en portée minimale et seulement dés que tu en as besoin, et utilise 'const' quand tu ne la modifies pas

Message cité 2 fois
Message édité par skelter le 24-02-2006 à 12:13:41

alexIsBack

skelter a écrit :

2*plus rapide avec la première version? c'est bizarre chez moi, c'ets limite l'inverse... avec g++ O3 sur un pentium 4 prescott

on m'a dit que avec les boucles while c'était plus rapide, est ce vrai?

en tout cas, quelle est la méthode la plus appropriée : tableau 2D ou vecteur 1D?

Message cité 1 fois

chrisbk

alexIsBack a écrit :

on m'a dit que avec les boucles while c'était plus rapide, est ce vrai?

ca sent la fumisterie. au pire desassemble, mais franchement ca sent la vieille legende facon "ok, c'est tout crado mais c'est rapide"

Message cité 1 fois

skelter

Citation :

2*plus rapide avec la première version? c'est bizarre chez moi, c'ets limite l'inverse... avec g++ O3 sur un pentium 4 prescott

pour c'est logique que le premiere soit plus rapide, apres si c'est l'inverse chez toi je peux pas dire

Citation :

en tout cas, quelle est la méthode la plus appropriée : tableau 2D ou vecteur 1D

dans ce cas je dirais tableau 2D puisque ton calcul dépend de 2 dimensions

Citation :

on m'a dit que avec les boucles while c'était plus rapide, est ce vrai?

for et while sont deux mots cles pour construire une boucle, sémantiquement un for à toujours sont équivalent en while (et inversement) il n'y a donc aucune raisons (je penses) que le code généré soit différent

alexIsBack

skelter a écrit :

le fait que ca ralentisse viens je pense du fait que les données de la dernière boucle ne sont pas contigues, (on fait des sauts de _NBrows), y a t il moyen de faire du prefectch pour mettre en cache les futures données avant le prochain tour de boucle?

Message édité par alexIsBack le 24-02-2006 à 12:47:46

skelter

dans la premiere version il n'y a pas ce probleme

essayes aussi avec une bibliothèque de templates pour gérer les matrices et autre (boost::ublas, blitz++ ou celle de joelF)

Message cité 2 fois

alexIsBack

chrisbk a écrit :

ca sent la fumisterie. au pire desassemble, mais franchement ca sent la vieille legende facon "ok, c'est tout crado mais c'est rapide"

c'est vrai que je suis assez d'accrd avec toi lol

++fab

victime du syndrome IH

skelter a écrit :

dans la premiere version il n'y a pas ce probleme
essayes aussi avec une bibliothèque de templates pour gérer les matrices et autre (boost::ublas, blitz++ ou celle de joelF)

Si le filtrage peut-etre décrit comme un produit matriciel ... Avec la réutilisation de "value", je ne sais pas ce que ça donne ...

skelter

en effet c'est le gros probleme ca, le calcul de outputFrame[n] dépend de outputFrame[n-1], ceci dit je ne connais pas trop ces bibliotèque et je sais pas si elles permettent de construire ce genre d'expressions
on peut aussi voir l'algo d'une autre facon (quitte à réorganiser les données ligne->colonne en colonne->ligne) en bouclant sur les colonne ca se résoud en une unique expression vectorielle

Code :

/*
c -> indice de la colonne
<matrice>[c] -> vecteur de données correspondant à la colonne
*/
outputFrame[0] = outputFrame[0] * tau + inputFrame[0];
for( size_t c = 1; c < NBColumns; c++ )
outputFrame[c] = outputFrame[c] * tau + inputFrame[c] + windowfilter[c] * outputFrame[c-1];

alexIsBack

oui, on peut écrire cela sous la forme que tu propose bien entendu, mais qu'est ce que ca change si on ajoute la variable temporaire value?

est ce que value permet de garder cette donnée temporaire plus proche du processeur ou est ce que l'expresiion

Code :

outputFrame[c] = outputFrame[c] * tau + inputFrame[c] + windowfilter[c] * outputFrame[c-1];

suffit?

Message cité 1 fois

Publicité

Page : 1 2 3

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Programmation

C++

Challenge/Partage de connaissances : comment optimisez ce code?

Sujets relatifs
Code asp d'un user control	Ou puis-je télécharger le code source d'un portfolio dans ce genre :
Code source GPL	comment appeler du code python dans une page web ?
Impression CODE	code vba pour inserer une ligne dans une macro
communication code php et C via sockets	[Résolu]Obtenir le code source.
[C] Partage administratif et droits d'accès	[RESOLU] Code couleur sous visual basic
Plus de sujets relatifs à : Challenge/Partage de connaissances : comment optimisez ce code?

Page générée en 0.150 secondes