optimisation SSE pour du code C (auto ou inline) [résolu]

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : optimisation SSE pour du code C (auto ou inline) [résolu]

edwoud

⭐ shériff de l'espace

Hello

Je me suis fait une petite routine ce week-end de filtrage dont voici la boucle principale. Après avoir longuement optimisé le code général, j'ai eu un gain de 30%. Bien mais pas top. Après une écriture multi-thread de l'algo, j'ai eu un gain de 300% (quadcore).

Mais en regardant le code, je suis persuadé qu'il y a moyen d'écrire du code optimisé MMX,SSE ou autre pour faire une seule instruction pour les trois couleurs. Il est évident que dans ce cas, mon tableau gaussian_matrix serait un long long (ou autre?) qui contiendrait directement le multiplicateur écrit 3 fois, prêt à l'emploi.

J'ai cru comprendre qu'il existait des macro pour les compilateurs C, voir qu'ils savaient optimiser tout seul ce genre de chose (mais là, j'ai un doute). Qu'en est-il exactement?

J'utilise gcc (ubuntu 10.10)

Si quelqu'un peut me tuyauter là dessus, même un fucking manual, ou de l'inline asm

Merci :jap:

Code :

while (sx) {
mat=gaussian_matrix[cx++];
tr+=wrkpix[pix]*mat;
tg+=wrkpix[pix+1]*mat;
tb+=wrkpix[pix+2]*mat;
pix+=3;
sx--;
}

EDIT: Apparemment, y a l'instruction PMULLD qui pourrait m'aider mais c'est sur l'écriture gcc que je cale pour le moment...

Message édité par edwoud le 12-03-2012 à 13:57:33

Publicité

xilebo

noone

Salut,

Il vaudrait mieux travailler non pas sur 3 composantes par pixel mais 4 , car les instructions MMX/SSE font des opérations sur 64/128 bits, et la mémoire a besoin d'être alignée. Ca te boufferait un peu plus de mémoire ( 33% quand même ) mais tu pourrais utiliser certaines instructions. SSE te permettra juste de travailler sur plus de pixels à la fois que MMX ( 4 pour le SSE , et 2 pour le MMX ).

Message cité 1 fois
Message édité par xilebo le 12-03-2012 à 10:50:16

edwoud

⭐ shériff de l'espace

xilebo a écrit :

Oui, bien sûr! Je pourrais aussi compléter le sous-registre MMX ou SSE par un zéro avant ma boucle.

Mais comment faire?

Je suis sur la page http://gcc.gnu.org/onlinedocs/gcc/ [...] sions.html de la doc GNU
concernant les extensions vectorielles (afin d'utiliser mmx, sse, avx en fonction de l'archi)
mais c'est vraiment très léger sur la façon de l'utiliser. Je continue de chercher :jap:

Message édité par edwoud le 12-03-2012 à 10:54:45

xilebo

noone

Alors,

imagine tu veux appliquer un coefficient sur un pixel, voici comment on pourrait procéder :

syntaxe assembleur MSVC :

Code :

movdqa xmm6, _coeff // tu charges au préalable ton coefficient sur 128 bits dans un registre. Par exemple 8 valeurs sur 16 bits contenant ton coeff 0x00C000C000C000C000C000C000C000C0
boucle :
movdqa xmm0, [edi] // tu charges dans ton registre SSE 4 pixels en même temps. On suppose que tu as chargé l'adresse de ton buffer dans edi.
pxor xmm4, xmm4 // mise à 0 du registre 4
movdqa xmm1,xmm0 // sauvegarde xmm0
punpcklbw xmm0, xmm4 // tu unpackes xmm0 combiné avec xmm4 Ceci pour les pixels 0 et 1 .Cela permet de mettre chaque composante sur 16 bits pour faire la multiplication. Voir : http://webster.cs.ucr.edu/AoA/Wind [...] Seta2.html
pmullw xmm0, xmm6 // tu multiplies chaque composante par le coeff ( pixel 0, 1 )
punpckhbw xmm1, xmm4 // unpack pixel 2 et 3 dans xmm1
pmullw xmm1, xmm6 // tu multiplies chaque composante par le coeff ( pixel 2, 3 )
psrlw xmm0, 8 // division par 256 ( pixel 0,1 )
psrlw xmm1, 8 // division par 256 ( pixel 2,3 )
packuswb xmm0, xmm1 // tu repackes
movdqa [edi], xmm0 // tu sauvegardes
add edi, 16 // tu incrémentes de 16 octets
dec ecx // compteur de boucle
jnz boucle // tu boucles

syntaxe assembleur GCC

Code :

"movdqa %3, %%xmm6 \n\t"
"movdqa (%%edi), %%xmm0 \n\t"
"pxor %%xmm4, %%xmm4 \n\t"
"movdqa %%xmm0, %%xmm1 \n\t"
"punpcklbw %%xmm4, %%xmm0 \n\t"
"pmullw %%xmm6, %%xmm0 \n\t"
"punpckhbw %%xmm4, %%xmm1 \n\t"
"pmullw %%xmm6, %%xmm1 \n\t"
"psrlw $8, %%xmm0 \n\t"
"psrlw $8, %%xmm1 \n\t"
"packuswb %%xmm1, %%xmm0 \n\t"
"movdqa %%xmm0, (%%edi) \n\t"
"addl $16, %%edi \n\t"
//
// Loop again or break.
//
"decl %%ecx \n\t"
"jnz d \n\t"

On peut même travailler sur 8 pixels car il y a assez de registres, et il y a 2 pipelines qui peuvent travailler en parallèle ( à voir si ca marche vraiment ).

Tu peux t'inspirer de ça pour écrire ton code ( il te faudra utiliser également paddsw pour faire une addition ).

Attention, tout doit être aligné sur 16 octets, ton buffer, mais également la variable 128 bits qui contiendra ton coefficient mat ( sur 16 bits donc 8 fois ) et aussi tes 3 variables tr tg tb recevant le résultat ( sinon on peut avoir des crashs ).

PS : j'ai écrit ça en recopiant du code , je ne sais pas si il est exact , mais le principe est là.

edwoud

⭐ shériff de l'espace

Merci! J'étudierai la possibilité de faire encore plus de multiplications à la fois avec des masques aussi.

De mon côté, j'ai trouvé ça qui fonctionne bien et reste indépendant de l'architecture

Code :

typedef int v4si __attribute__ ((vector_size (4*sizeof(int))));
union i4vector
{
v4si v;
int i[4];
};
dans le code on déclare comme suit
union i4vector a,b,c;
on charge comme ça
a.i[0]=pixels[pix++];
a.i[1]=pixels[pix++];
...
et pour multiplier, c'est tout con (pareil pour additions, soustractions, divisions)
c.v=a.v*b.v;
désassemblé comme suit ce qui semble optimal, 4 instructions pour charger, multiplier et décharger
4005fc: 66 0f 6f 4d d0 movdqa -0x30(%rbp),%xmm1
400601: 66 0f 6f 45 c0 movdqa -0x40(%rbp),%xmm0
400606: 66 0f 38 40 c1 pmulld %xmm1,%xmm0
40060b: 66 0f 7f 45 b0 movdqa %xmm0,-0x50(%rbp)
printf("%d %d %d %d\n",c.i[0],c.i[1],c.i[2],c.i[3]);
}

Message édité par edwoud le 24-03-2012 à 17:11:53

FORUM HardWare.fr

Programmation

optimisation SSE pour du code C (auto ou inline) [résolu]

Sujets relatifs
Aide VBA - verrouillage code et cellule	[C] Petit bogue sur un buffer
Determiner date avec mktime	[GLSL] Optimisation des shaders
Programme pour ouvrir une fenêtre miniature en fonction de la T°C	erreur d'allocation mémoire dans une application console C++
pb liste chainée et lecture de fichier C	Inverser un code
besoin d'aide programmation C
Plus de sujets relatifs à : optimisation SSE pour du code C (auto ou inline) [résolu]

Page générée en 0.054 secondes