Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
3405 connectés 

 


 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  25  26  27  ..  62  63  64  65  66  67
Auteur Sujet :

Intelligence artificielle

n°68698340
trueslash
(╯°□°)╯︵ MMM
Posté le 26-06-2023 à 18:38:45  profilanswer
 

Reprise du message précédent :

Ababakar Octopuce a écrit :


 
Mais le décoreller de quoi ? La couleur de peau (dans ce contexte, je préfère à "l'ethnie", qui est quelque chose de culturel, qui ne se voit pas sur une image), le sexe (pareil, le genre est subjectif, ça ne se voit pas sur une image), décorrélé des métiers par exemple ?  
 
Tu ne peux pas reprocher à une IA de montrer une femme dans 90% des cas quand on demande "une nurse typique en France", ni de montrer un noir ou arabe dans 90% des cas quand tu demandes "un éboueur typique de Paris", parce que c'est ça la réalité des choses (= même résultat que s'il avait tiré un individu au hasard faisant ce métier et pris une vraie photo).  
 
Tu voudrais faire des IAs qui "mentent" quand on leur pose ces questions ? Pire que ça, OBLIGER par la loi, les développeurs d'IAs à ajouter cette couche de mensonge systématique (cf. ton dernier post) ?  
 
Je ne suis pas sûr que ce soit bien pertinent, parce que ça ne peut pas être fait secrètement. Les gens sauront que les IAs sont "trafiquées" (ou le verront bien en posant ce genre de questions), et du coup, ne leur feront pas confiance sur ce genre de sujets, pour lesquels il sera connu que les réponses sont trafiquées.
 
Du coup, dans le même esprit, est-ce qu'il faut également censurer ou interdire au grand public l'accès aux statistiques du taux de nurses hommes en France, idem pour les autres métiers ? Parce que ça donne exactement la même info.


 
C'est pas grave que tu ne comprennes pas ou que tu ne vois pas l'intérêt, l'essentiel est que la recherche se fasse, je pense avoir donné assez d'exemples à ce stade. Tu as l'air d'être bloqué sur les prompts où on demande une représentation 100% précise de la réalité, ce n'est pas vraiment le cas où on a besoin de décoreller / biaser / découpler les résultats donc ça ne marche pas vraiment.

mood
Publicité
Posté le 26-06-2023 à 18:38:45  profilanswer
 

n°68698341
tarpan66
Posté le 26-06-2023 à 18:38:47  profilanswer
 

Ababakar Octopuce a écrit :

Du coup, dans le même esprit, est-ce qu'il faut également censurer ou interdire au grand public l'accès aux statistiques du taux de nurses hommes en France, idem pour les autres métiers ? Parce que ça donne exactement la même info.

On a bien interdit les statistiques "ethniques"  [:cosmoschtroumpf]  
Avec quel résultat..?  :ange:  


---------------
[TU] - Légumes Fermentés, choucroute, kimchi et autres lactos  
n°68698347
tarpan66
Posté le 26-06-2023 à 18:39:36  profilanswer
 

trueslash a écrit :

C'est pas grave que tu ne comprennes pas ou que tu ne vois pas l'intérêt, l'essentiel est que la recherche se fasse, je pense avoir donné assez d'exemples à ce stade. Tu as l'air d'être bloqué sur les prompts où on demande une représentation 100% précise de la réalité, ce n'est pas vraiment le cas où on a besoin de décoreller / biaser / découpler les résultats donc ça ne marche pas vraiment.


On est plusieurs à ne pas bien saisir le fond de ce que tu dis…


---------------
[TU] - Légumes Fermentés, choucroute, kimchi et autres lactos  
n°68698444
trueslash
(╯°□°)╯︵ MMM
Posté le 26-06-2023 à 18:56:14  profilanswer
 

tarpan66 a écrit :


On est plusieurs à ne pas bien saisir le fond de ce que tu dis…


 
Peut-être parce qu'on est parti d'un exemple bête et que ça fait butter, on pourrait reprendre la discussion en prenant un exemple plus pertinent.
 
Le fond de ce que j'essaye de faire passer c'est que les datasets utilisés pour faire du training capturent des corrélations qui peuvent avoir des effets indésirables sur les modèles que l'on produit:
- soit parce que les datasets ne sont pas représentatifs de la réalité
- soit parce que l'utilisation que l'on souhaite faire de ces modèles ne correspond pas à la représentation de ces données
 
Pour ces raisons, il est utile et important de développer des techniques qui permettent d'atténuer ou d'éliminer ces corrélations.
 
Je trouve que c'est assez simple.
 
 

n°68698625
the_fennec
f3nn3cUs z3rd4
Posté le 26-06-2023 à 19:32:45  profilanswer
 

Ababakar Octopuce a écrit :


 
Mais le décoreller de quoi ? La couleur de peau (dans ce contexte, je préfère à "l'ethnie", qui est quelque chose de culturel, qui ne se voit pas sur une image), le sexe (pareil, le genre est subjectif, ça ne se voit pas sur une image), décorrélé des métiers par exemple ?  
 
Tu ne peux pas reprocher à une IA de montrer une femme dans 90% des cas quand on demande "une nurse typique en France", ni de montrer un noir ou arabe dans 90% des cas quand tu demandes "un éboueur typique de Paris", parce que c'est ça la réalité des choses (= même résultat que s'il avait tiré un individu au hasard faisant ce métier et pris une vraie photo).  
 
Tu voudrais faire des IAs qui "mentent" quand on leur pose ces questions ? Pire que ça, OBLIGER par la loi, les développeurs d'IAs à ajouter cette couche de mensonge systématique (cf. ton dernier post) ?  
 
Je ne suis pas sûr que ce soit bien pertinent, parce que ça ne peut pas être fait secrètement. Les gens sauront que les IAs sont "trafiquées" (ou le verront bien en posant ce genre de questions), et du coup, ne leur feront pas confiance sur ce genre de sujets, pour lesquels il sera connu que les réponses sont trafiquées.
 
Du coup, dans le même esprit, est-ce qu'il faut également censurer ou interdire au grand public l'accès aux statistiques du taux de nurses hommes en France, idem pour les autres métiers ? Parce que ça donne exactement la même info.


 
C'est pourtant un domaine dans lequel la recherche en machine learning est en cours et nécessaire. Tu découvres peut-être l'AI avec le buzz autour de ChatGPT, mais le problème du biais dans les modèles de donnée n'est pas nouveau.  
 
Voila un article récent sur le problème:
https://www.bu.edu/articles/2023/do [...] l-justice/
 
ChatGPT raconte des conneries tout le temps, c'est le cas depuis le début. Encadrer tout ça n'est pas un problème, même le CEO d'OpenAI le demande:
https://edition.cnn.com/2023/06/09/ [...] -intl-hnk/
 
Les AI sont déjà "trafiquées", quand on choisis les sources, quand on construit les réseaux de neurones, avec les prompt d'init cachés et encore a beaucoup d'autres niveaux.

Message cité 1 fois
Message édité par the_fennec le 26-06-2023 à 19:33:35

---------------
Faudra que je teste un jour :o
n°68698686
trueslash
(╯°□°)╯︵ MMM
Posté le 26-06-2023 à 19:44:07  profilanswer
 

Un autre exemple: https://news.mit.edu/2022/machine-l [...] -data-0221
 
ce n'est pas vraiment un sujet nouveau ou controversé

n°68702324
Ababakar O​ctopuce
qui foule de sa sandale les
Posté le 27-06-2023 à 12:00:47  profilanswer
 

the_fennec a écrit :


C'est pourtant un domaine dans lequel la recherche en machine learning est en cours et nécessaire. Tu découvres peut-être l'AI avec le buzz autour de ChatGPT, mais le problème du biais dans les modèles de donnée n'est pas nouveau.


Je connais très bien le sujet du machine learning pour bosser dedans depuis plus de 9 ans maintenant, mais tu te trompes de discussion :
La question n'est pas de savoir s'il y a un biais dans les modèles ou pas dans le cas général (celle là, elle est vite répondue :o)

 

La question c'est : quel sens ça a de dire que le modèle est biaisé, quand pour une fois justement, on sait qu'il ne lest pas, que l'échantillon utilisé pour l'entrainement est tout à fait représentatif de la population générale ET que "un humain représentatif de la population générale", c'est précisément la question que l'on pose (demander une image d'un humain "nurse" typique).

 

Evidemment qu'il y a des tas de cas dans lesquels ces questions sont épineuses et demandent filtrage des données d'entrainement et tuning, mais PAS dans les cas dont on discute ici. Si je demande à un générateur d'image de me générer "un humain typique français qui fait tel ou tel métier", et que l'IA me fait une réponse dans laquelle l'humain en question a une apparence physique (sexe, couleur de peau) en accord avec les stats officielles sur le sujet, on ne peut pas parler de "biais". La réponse de l'IA peut mettre en évidence un problème dans la réalité, dans la société, mais dans ce cas précis, ce n'est pas un biais du modèle.

 

On discute d'un cas particulier ici, pas du cas général, et si on en discute en particulier, c'est justement parce qu'à mon avis, ce qui est vrai d'habitude ne l'est précisément plus ici.

Message cité 2 fois
Message édité par Ababakar Octopuce le 27-06-2023 à 12:05:20
n°68702359
donut78
Stop eating donuts
Posté le 27-06-2023 à 12:04:10  profilanswer
 

Ababakar Octopuce a écrit :


Je connais très bien le sujet du machine learning pour bosser dedans depuis plus de 9 ans maintenant, mais tu te trompes de discussion :
La question n'est pas de savoir s'il y a un biais dans les modèles ou pas dans le cas général (celle là, elle est vite répondue :o)
 
La question c'est : quel sens ça a de dire que le modèle est biaisé, quand pour une fois justement, on sait qu'il ne lest pas, que l'échantillon utilisé pour l'entrainement est tout à fait représentatif de la population générale ET que "un humain représentatif de la population générale", c'est précisément la question que l'on pose (demander une image d'un humain "nurse" typique).
 
Evidemment qu'il y a des tas de cas dans lesquels ces questions sont épineuses et demandent filtrage des données d'entrainement et tuning, mais PAS dans les cas dont on discute ici. Si je demande à un générateur d'image de me générer "un humain typique français qui fait tel ou tel métier", et que l'IA me fait une réponse dans laquelle l'humain en question a une apparence physique (sexe, couleur de peau) en accord avec les stats officielles sur le sujet, on ne peut pas parler de "biais". Ça traduit éventuellement un problème dans la réalité, dans la société, mais pas un biais du modèle.  
 
On discute d'un cas particulier ici, pas du cas général, et si on en discute en particulier, c'est justement parce qu'à mon avis, ce qui est vrai d'habitude ne l'est précisément plus ici.


Question de béotien. Si par exemple, il y a 80% de femmes infirmières et 20% d'hommes. Si je demande 100 fois "a nurse", est-ce que que j'aurai à peu près la même répartition ?


---------------
Du calme, pose ce poireau et tout se passera bien. Ne m'oblige pas à faire une roulade arrière ...
n°68702402
Ababakar O​ctopuce
qui foule de sa sandale les
Posté le 27-06-2023 à 12:08:41  profilanswer
 

donut78 a écrit :


Question de béotien. Si par exemple, il y a 80% de femmes infirmières et 20% d'hommes. Si je demande 100 fois "a nurse", est-ce que que j'aurai à peu près la même répartition ?

 

Ben c'est de là que part la discussion : une IA qui montrait une femme 90 fois sur 100 quand on lui demandait "a nurse", ce qui correspond effectivement au taux de nurse femmes dans la population générale.

 

Pour moi, là (dans ce cas particulier), l'IA n'est pas "biaisée" (à ce niveau là en tout cas). Si le résultat est "choquant", il ne traduit pas pour autant un problème au niveau du modèle, mais plutôt un problème au niveau de la réalité.

Message cité 2 fois
Message édité par Ababakar Octopuce le 27-06-2023 à 12:10:59
n°68702405
tarpan66
Posté le 27-06-2023 à 12:09:20  profilanswer
 

Réponse de béotien : ces générateurs fonctionnent sur des statistiques et non des probabilités, donc la statistique restera la même à chaque tirage.


---------------
[TU] - Légumes Fermentés, choucroute, kimchi et autres lactos  
mood
Publicité
Posté le 27-06-2023 à 12:09:20  profilanswer
 

n°68702434
donut78
Stop eating donuts
Posté le 27-06-2023 à 12:14:26  profilanswer
 

Ababakar Octopuce a écrit :


 
Ben c'est de là que part la discussion : une IA qui montrait une femme 90 fois sur 100 quand on lui demandait "a nurse", ce qui correspond au taux de nurse dans la population générale.
 
Pour moi, là (dans ce cas particulier), l'IA n'est pas "biaisée". Si le résultat est "choquant", il ne traduit pas pour autant un problème au niveau du modèle, mais plutôt un problème au niveau de la réalité.


Si c'es le cas d'accord. Mais on est sûr de ce résultat ? J'ai pas la source.


---------------
Du calme, pose ce poireau et tout se passera bien. Ne m'oblige pas à faire une roulade arrière ...
n°68702500
the_fennec
f3nn3cUs z3rd4
Posté le 27-06-2023 à 12:26:18  profilanswer
 

J'ai retrouvé l'article, mais j'y ai pas accès:
https://www.liberation.fr/economie/ [...] QGGSMU3SM/
 


---------------
Faudra que je teste un jour :o
n°68702508
the_fennec
f3nn3cUs z3rd4
Posté le 27-06-2023 à 12:27:53  profilanswer
 

Ababakar Octopuce a écrit :


Je connais très bien le sujet du machine learning pour bosser dedans depuis plus de 9 ans maintenant, mais tu te trompes de discussion :
La question n'est pas de savoir s'il y a un biais dans les modèles ou pas dans le cas général (celle là, elle est vite répondue :o)
 
La question c'est : quel sens ça a de dire que le modèle est biaisé, quand pour une fois justement, on sait qu'il ne lest pas, que l'échantillon utilisé pour l'entrainement est tout à fait représentatif de la population générale ET que "un humain représentatif de la population générale", c'est précisément la question que l'on pose (demander une image d'un humain "nurse" typique).
 
Evidemment qu'il y a des tas de cas dans lesquels ces questions sont épineuses et demandent filtrage des données d'entrainement et tuning, mais PAS dans les cas dont on discute ici. Si je demande à un générateur d'image de me générer "un humain typique français qui fait tel ou tel métier", et que l'IA me fait une réponse dans laquelle l'humain en question a une apparence physique (sexe, couleur de peau) en accord avec les stats officielles sur le sujet, on ne peut pas parler de "biais". La réponse de l'IA peut mettre en évidence un problème dans la réalité, dans la société, mais dans ce cas précis, ce n'est pas un biais du modèle.  
 
On discute d'un cas particulier ici, pas du cas général, et si on en discute en particulier, c'est justement parce qu'à mon avis, ce qui est vrai d'habitude ne l'est précisément plus ici.


 
Ha, OK, je pensais qu'on était partis sur un sujet plus général. J'ai pas accès a l'article donc je commenterais pas plus alors :jap:


---------------
Faudra que je teste un jour :o
n°68702818
Zorglub201​6
Posté le 27-06-2023 à 13:14:10  profilanswer
 

Ababakar Octopuce a écrit :


 l'humain en question a une apparence physique (sexe, couleur de peau) en accord avec les stats officielles sur le sujet, on ne peut pas parler de "biais".
.


Question de béotien.  
Quelle image donne une IA bien paramétrée sur des stats aux questions (montrer image de) :
Clown , d'Ongu-lé/lata,  Carnivora, Pet, Navire, Amérindien ? (Vraie question, curieux de voir l'image représentative ID)
 
J'ai éliminé clown. Je parie qu'il montrera un gars maquillé avec un nez rouge. Et pour pas abuser avec trop de questions.

Message cité 1 fois
Message édité par Zorglub2016 le 27-06-2023 à 13:30:26

---------------
"Le zigzag est le plus court chemin entre un bar et un autre: J'y ai vomi mon Cognac, j'ai vomi l'Homme, j'ai vomi sa bêtise, je vomis sa prétention."
n°68703065
tarpan66
Posté le 27-06-2023 à 13:39:54  profilanswer
 

Pour "Amérindien" , généré par Craiyon :
 
https://img.super-h.fr/images/2023/06/27/ea54b25ca7f036ae1f0a3d102ce0e1e5.md.jpg
https://img.super-h.fr/images/2023/06/27/60dae1924e212a8e62c6aad155eb28ae.md.jpg


---------------
[TU] - Légumes Fermentés, choucroute, kimchi et autres lactos  
n°68703273
Ababakar O​ctopuce
qui foule de sa sandale les
Posté le 27-06-2023 à 14:04:03  profilanswer
 

Zorglub2016 a écrit :


Question de béotien.
Quelle image donne une IA bien paramétrée sur des stats aux questions (montrer image de) :
Clown , d'Ongu-lé/lata,  Carnivora, Pet, Navire, Amérindien ? (Vraie question, curieux de voir l'image représentative ID)

 

J'ai éliminé clown. Je parie qu'il montrera un gars maquillé avec un nez rouge. Et pour pas abuser avec trop de questions.

 

Là, tout le souci est de valider ce que signifie "bien paramétrée" : on n'est pas dans le cas simple d'un critère bien défini, unique et binaire (homme/femme) dont on connait parfaitement la répartition dans la population générale considérée (les nurses, par exemple). Et justement, là, on rentre dans les cas où les biais vont être systématiques, car il sera très difficile de créer une base "objective" au sens "dont l'échantillon est réparti de façon similaire à la population générale du point de vue de chacun des paramètres (dont la plupart ne sont en plus même pas forcément identifiés/labelisés)".

 

Mais imaginons quand même qu'on y arrive, et que là aussi "bien paramétrée" signifie "base d'apprentissage = échantillon représentatif de la population générale", à quoi je m'attendrais dans chacun des cas :

 

Ongulata : déjà, ça va dépendre de quelle définition on admet. Ensuite, "bien paramétrée sur des stats", supposons que ça veuille dire que l'on dispose d'un comptage dont on sait qu'il n'a pas lui même de biais (aucun animal ne s'est caché ou n'a pas rempli sa fiche le jour du recensement :o), et qu'on a mis dans la base d'entrainement des images d'animaux au prorata du nombre d'individus de chaque espèce. Dans ce cas, je m'attends à ce que, par défaut, quand on demande un ongulé sans plus de précision et sans prompt mieux défini que ça, 90% du temps, il renvoie un animal d'élevage (cochon, boeuf...) dans son environnement naturel d'élevage intensif :o

 

Après, si on demande précisément un ongulé sauvage, toujours sans plus de précision que ça dans le prompt, bah je m'attends à ce que sa réponse suive également la répartition.

 

Pour Carnivora, pareil, mais 90% de chiens ou chats domestique. Pareil, ça deviendrait probablement plus intéressant et varié si on précise "sauvage".

 

Dans ces deux premiers cas, justement, le retour de l'IA permet peut être de prendre conscience qu'on avait nous même une vision faussée de la réalité si on s'attendait à ce que ça nous sorte un tapir ou un tigre du Bengale, et met en évidence, pour ceux pour qui se sera une surprise, à quel point l'homme a foutu le bordel là dedans. Ce qui d'un point de vue éducatif est pas mal, je trouve.

 

Pet : je vois mal sur quelle source de donner s'appuyer pour savoir quel animal émet le plus de flatulence et essayer de rendre plus souvent cet animal là, et ce serait un peu compliqué de constituer la base d'exemple car nécessaire de prendre la photo sur le vif.

 

Navire : un peu comme pour les ongulés, ça désigne un tas de bateaux différents. Mais il me semble (là j'ai pas les chiffres, je dis ça au doigt mouillé) que les plus nombreux sont les voiliers de plaisance (en nombre, j'imagine devant les bateaux de pêche et le transport maritime de produits), donc je m'attends à ce que ça me montre plus souvent ce genre de bateau.

Message cité 1 fois
Message édité par Ababakar Octopuce le 27-06-2023 à 14:13:55
n°68703396
tarpan66
Posté le 27-06-2023 à 14:17:29  profilanswer
 

Ababakar Octopuce a écrit :

Pour Carnivora, pareil, mais 90% de chiens ou chats domestique. Pareil, ça deviendrait probablement plus intéressant et varié si on précise "sauvage".


J'obtiens uniquement des tigres/léopards/hybrides…
 
Les chiens/chats sont rarement étiquetés "carnivores" mais plutôt "toutou" , "pet", "animal de compagnie" ; "carnivores" on l'emploie essentiellement en zoologie où l'on traite rarement des animaux domestiques…


---------------
[TU] - Légumes Fermentés, choucroute, kimchi et autres lactos  
n°68703601
Ababakar O​ctopuce
qui foule de sa sandale les
Posté le 27-06-2023 à 14:35:41  profilanswer
 

Non mais là c'est pour répondre à la question posée, c'est à dire qu'on se place dans le cas hypothétique d'une IA qui aurait été entrainée avec une base d'apprentissage dont la répartition correspond à la répartition dans la population générale considérée. Donc évidemment PAS les IAs génératives que tu interroges, qui n'ont pas été entrainées comme ça, et qui correspondent plutôt à ce que les gens ont en tête, en accord avec leur représentation "erronée" de la proportion animaux d'élevages/animaux sauvages.

 

Par contre, les étiquetage ne sont pas exclusifs (ce n'est pas parce qu'un chat est étiqueté "animal de compagnie" qu'il ne peut pas être aussi étiqueté "carnivore", "mammifère", "eucaryote"...), et surtout, un animal étiqueté "chat" est implicitement étiqueté "carnivora" puisque tous les chats sont des carnivores et que ce genre d'IA traite le langage donc possède cette "connaissance" implicitement.

Message cité 1 fois
Message édité par Ababakar Octopuce le 27-06-2023 à 14:43:51
n°68703953
tarpan66
Posté le 27-06-2023 à 15:09:42  profilanswer
 

Ababakar Octopuce a écrit :

Non mais là c'est pour répondre à la question posée, c'est à dire qu'on se place dans le cas hypothétique d'une IA

La question était posée au présent, pas au conditionnel… [:cosmoschtroumpf]  
 

Ababakar Octopuce a écrit :

Par contre, les étiquetage ne sont pas exclusifs (ce n'est pas parce qu'un chat est étiqueté "animal de compagnie" qu'il ne peut pas être aussi étiqueté "carnivore", "mammifère", "eucaryote"...), et surtout, un animal étiqueté "chat" est implicitement étiqueté "carnivora" puisque tous les chats sont des carnivores et que ce genre d'IA traite le langage donc possède cette "connaissance" implicitement.

C'est la fréquence d'étiquetage qui doit jouer…
En français je mets ma main à couper que "chat" est plus fréquemment associé à l'étiquette "minou" que "carnivores", et de très loin !
 
Idem, si tu demandes à des gens de te citer des espèces de "félins", tu auras rarement le chat domestique (et quasiment jamais en première position) , les IA font pareil (sur 10 espèces, le chat domestique y apparait rarement, ou dans les derniers)
 
Ce n'est pas parce qu'un chat est un félin (et même le plus connu/répandu) que le mot "félin" l'évoque en premier lieu, justement parce que cette étiquette est un terme de zoologie (comme "carnivores" ) généralement associée aux animaux sauvages d'une part, et que "chat" a d'autres étiquettes plus prépondérantes.
 
Ainsi si tu ajoutes "doux" à ta demande de "félins" les IA te sortent le chat domestique en premier.


---------------
[TU] - Légumes Fermentés, choucroute, kimchi et autres lactos  
n°68704452
Ababakar O​ctopuce
qui foule de sa sandale les
Posté le 27-06-2023 à 16:14:54  profilanswer
 

tarpan66 a écrit :

La question était posée au présent, pas au conditionnel… [:cosmoschtroumpf]

 


 

La question était "Quelle image donne une IA bien paramétrée sur des stats aux questions (montrer image de) :". Une telle IA n'existe pas (une IA paramétrée par rapport aux stats de répartition des machins cités en question), mais ça n'empêche pas de se poser la question de ce à quoi on s'attend d'une telle hypothétique IA.

 

Et puis ma réponse, dont tu quotes un extrait, commence par "Imaginons quand même qu'une telle IA existe :"

 
tarpan66 a écrit :

C'est la fréquence d'étiquetage qui doit jouer…
En français je mets ma main à couper que "chat" est plus fréquemment associé à l'étiquette "minou" que "carnivores", et de très loin !

 

Je répète que :
1) Dans une base d'apprentissage, les labelisations ne sont pas nécessairement exclusives et uniques (on peut avoir plusieurs labels associés à une même image). D'ailleurs, dans le cas des IAs dont on parle, les labels ne sont pas juste des mots uniques et exclusifs, mais plutôt des textes descriptifs de l'image.
2) Pour une IA qui traite des prompts potentiellement complexes en entrée, la partie "traitement du langage" rend implicite la relation "chat=>félin=>carnivore=>mammifère=>vertébré... etc". Autrement dit, un image de chat labelisée juste "chat" est d'une certaine façon (au sens où c'est équivalent) implicitement également labelisée par tout ce qui y est associé via le traitement du langage (inféré d'autres images avec des textes plus complets).


Message édité par Ababakar Octopuce le 27-06-2023 à 16:36:46
n°68704796
tarpan66
Posté le 27-06-2023 à 16:53:32  profilanswer
 

Tu as mal compris mon propos.

 

Evidement que plusieurs étiquettes sont associées à un item et ne sont pas exclusives.
Mais la question porte sur l'incidence de leur fréquence dans le corpus sur la sortie générée ;)

 

La preuve par l'exemple c'est que "chat" n'apparait pas dans la liste des 10 "félins" mais apparait en premier dans "félins doux".
Car chat est plus fréquemment associé à "doux" qu'à "félin" dans le corpus. (et que les autres félins sont moins associés à "doux" , ça marche dans les deux sens forcément)
Et il y a fort à parier que le lien entre "chat" et "carnivores" soit encore bien plus faible, donc le potentiel que l'IA génère une sortie "chat" suite au prompt "carnivores" est très faible (ne serait-ce que parce que ce terme sera très fortement corrélé à d'autres items qui sortiront préférentiellement)


Message édité par tarpan66 le 27-06-2023 à 16:54:27

---------------
[TU] - Légumes Fermentés, choucroute, kimchi et autres lactos  
n°68705480
Ababakar O​ctopuce
qui foule de sa sandale les
Posté le 27-06-2023 à 18:29:06  profilanswer
 

J'ai l'impression que tu as une vision du labeling, qui vient des "vieilles" IAs de détection/localisation dans les images (genre vgg, resnet, yolo... etc), avec différentes classes de sortie, qui implique un labeling explicite, par mots (ou liste de mots), correspondant à chacune des classes de sortie explicites. Je dis ça parce que dans tes réponses, ça fait deux fois que tu occultes la partie sur le traitement du prompt, et le fait que les IAs dont on parle sont entrainées à partir de description textuelles des images associées, éventuellement très détaillées (avec des notions de relation entre éléments de l'image par exemple), pas juste un ou des mots en tant que "liste d'étiquettes". C'est pourtant bien ça qui permet de capter implicitement des relation d'inclusion dans les catégories ou implicitement aussi la notion de synonymes, notions proches, et qui fait que l'IA dont on parle (celle imaginaire, cette "IA bien paramétrée sur des stats" entrainée de façon à produire des sorties dont la répartition statistique des différentes variations est identique à la répartition statistique de ces variations dans le monde réel), n'aurait pas besoin que sous chaque image de chat apparaisse dans le texte le mot "carnivore". Et même dans le cas où ces notions de catégorisations ne seraient pas "apprises implicitement" à partir des données d'entrainement, on pourrait toujours, relativement facilement, le faire dans des préprompts explicites, donc c'est vraiment un faux problème pour la question qui nous intéresse.

 

Mais de toutes façon, tout cela n'est pas important car ce n'est pas ça le sujet (ce que produit comme sortie l'IA que tu utilises et comment cette IA là a été entrainée). Je rerappelle que depuis le début (depuis le premier post de ma part que tu quotes et auquel tu réponds), on parle d'un exercice de pensée ("Imaginons que..." ), de ce que produirait comme sortie une IA avec les caractéristiques particulières évoquées, alors que tu me réponds avec des exemples de sortie d'un IA existante. Ca tape à côté. Tu me réponds en me disant que l'IA machin que tu utilises ne te sors pas de chat pour "félin", et a sûrement été entrainée avec tel ou tel "label" et pas tel autre, alors qu'on est entrain de parler de ce que sortirait une IA "entrainée de façon à produire des sorties dont la répartition statistique des différentes variations est identique à la répartition statistique de ces variations dans le monde réel pour la catégorie demandée", donc justement entrainée (ou prépromptée) différemment. Je l'ai rappelé à chaque post, j'ai pas compris pourquoi tu n'en tiens pas compte et tu continues à répondre à partir des sorties que tu produis sur je ne sais quelle IA disponible.

 

C'est un peu comme si je me demandais comment ça se piloterait une voiture à 7 roues avec une roue au milieu du chassis, qu'est ce que ça ferait dans les virages, et tout ça... et que tu me répondais "J'ai regardé sur google images, ça n'existe pas les voitures à 7 roues, les voitures ont 4 roues, parce que ceci celà", et qu'à chaque fois que je rappellerais que c'est un exercice de pensée, et que ce qui m'intéresse, c'est le comportement qu'aurait une voiture à 7 roues, tu me répondais en rentrant toujours plus dans les détails (de façon plus ou moins approximative) de pourquoi les voitures que tu vois sur google images ont 4 roues.


Message édité par Ababakar Octopuce le 27-06-2023 à 18:40:17
n°68705551
trueslash
(╯°□°)╯︵ MMM
Posté le 27-06-2023 à 18:40:39  profilanswer
 

J'ai pas encore lu le document en entier mais le AI act de l'UE parle pas mal de biais:
 

Citation :

Certain AI systems intended for the administration of justice and democratic processes
should be classified as high-risk, considering their potentially significant impact on
democracy, rule of law, individual freedoms as well as the right to an effective remedy
and to a fair trial. In particular, to address the risks of potential biases, errors and
opacity, it is appropriate to qualify as high-risk AI systems intended to assist judicial
authorities in researching and interpreting facts and the law and in applying the law to
a concrete set of facts. Such qualification should not extend, however, to AI systems
intended for purely ancillary administrative activities that do not affect the actual
administration of justice in individual cases, such as anonymisation or
pseudonymisation of judicial decisions, documents or data, communication between
personnel, administrative tasks or allocation of resources.


 

Citation :

Technical inaccuracies of AI systems intended for the remote biometric identification
of natural persons can lead to biased results and entail discriminatory effects. This is
particularly relevant when it comes to age, ethnicity, sex or disabilities. Therefore,
‘real-time’ and ‘post’ remote biometric identification systems should be classified as
high-risk. In view of the risks that they pose, both types of remote biometric
identification systems should be subject to specific requirements on logging
capabilities and human oversight


 
ca a au moins le mérite d'identifier des usages risqués, mais il va falloir que la recherche se fasse pour gérer ces risques

n°68705656
bulle_d'o
Bonne soeur
Posté le 27-06-2023 à 19:00:06  profilanswer
 

Dommage de ne retenir que l'histoire des biais de l'ia dans les extraits quotés.


---------------

n°68705907
trueslash
(╯°□°)╯︵ MMM
Posté le 27-06-2023 à 19:45:47  profilanswer
 

bulle_d'o a écrit :

Dommage de ne retenir que l'histoire des biais de l'ia dans les extraits quotés.


 
Qu'est-ce que tu aurais retenu toi ?

n°68706247
Zorglub201​6
Posté le 27-06-2023 à 20:48:12  profilanswer
 

Retenez les biais sans histoires.  :)  
 


Ah, pas mal de plumes... Et de très beaux nez, très racés.  
Moi content.  :jap:


Message édité par Zorglub2016 le 27-06-2023 à 20:50:15

---------------
"Le zigzag est le plus court chemin entre un bar et un autre: J'y ai vomi mon Cognac, j'ai vomi l'Homme, j'ai vomi sa bêtise, je vomis sa prétention."
n°68717812
bulle_d'o
Bonne soeur
Posté le 29-06-2023 à 10:52:32  profilanswer
 

trueslash a écrit :


 
Qu'est-ce que tu aurais retenu toi ?


 
La classification des "High-risk AI systems", c'est une véritable avancée au niveau de la règlementation de pouvoir directement interdire certaines IA dangereuses pour les libertés individuelles, la justice et la démocratie.
 
Les biais font partis des risques identifiés par l'IA Act, à côté des  "errors and opacity".
 
Au final pour moi ce qui est vraiment important c'est qu'il y a un garde-fou quant au but des IA. Les biais sont connus depuis longtemps, et ce n'est pas le seul danger de l'IA. Pour moi c'est surtout le côté boite noire qui est un véritable problème si on commence à l'utiliser dans des domaines qui vont impacter la vie des gens. On demande au juge de venir justifier son raisonnement pour étayer sa décision, une IA devrait être capable de justifier sa logique pour expliquer son résultat.


---------------

n°68721992
trueslash
(╯°□°)╯︵ MMM
Posté le 29-06-2023 à 17:59:04  profilanswer
 

bulle_d'o a écrit :


 
La classification des "High-risk AI systems", c'est une véritable avancée au niveau de la règlementation de pouvoir directement interdire certaines IA dangereuses pour les libertés individuelles, la justice et la démocratie.
 
Les biais font partis des risques identifiés par l'IA Act, à côté des  "errors and opacity".
 
Au final pour moi ce qui est vraiment important c'est qu'il y a un garde-fou quant au but des IA. Les biais sont connus depuis longtemps, et ce n'est pas le seul danger de l'IA. Pour moi c'est surtout le côté boite noire qui est un véritable problème si on commence à l'utiliser dans des domaines qui vont impacter la vie des gens. On demande au juge de venir justifier son raisonnement pour étayer sa décision, une IA devrait être capable de justifier sa logique pour expliquer son résultat.


 
Tu veux dires exactement ce que j'ai quoté [:ddr555] :??:
 
Pour la seconde partie de ton post, +1000, les solutions à base de "yaka donner un meilleur prompt" ne tiennnent pas la route une fois que les systèmes crées sont autonomes et interdépendants

n°68772865
bulle_d'o
Bonne soeur
Posté le 06-07-2023 à 12:00:50  profilanswer
 

C'est peut-être ma déformation de juriste mais lire une phrase qui parle de biais avec un " : " accompagné de quote, ça laissait penser que tu te focalisais dessus :o
 
Sinon, ça vous parle les données synthétiques ?  
Qu'est-ce que vous en pensez ? Elles sont maintenant générées par IA pour permettre plein d'usage dont l'entrainement des IA.


---------------

n°68773744
the_fennec
f3nn3cUs z3rd4
Posté le 06-07-2023 à 14:11:24  profilanswer
 

Ça me fait directement penser à ça:
https://tylervigen.com/spurious-correlations
 
Déjà que dans le domaine de la recherche il y a la plaie des meta-analyses, maintenant on va en plus avoir des données complètement bidon dans les analyses de base :o


---------------
Faudra que je teste un jour :o
n°68773934
bulle_d'o
Bonne soeur
Posté le 06-07-2023 à 14:38:17  profilanswer
 

Les essperts apprécieront le mépris :o
 
Les données synthétiques ne sont juste que des clones de vraies données mais qui échappent au RGPD, du coup ça fait un peu beurre et argent du beurre :o


---------------

n°68774148
the_fennec
f3nn3cUs z3rd4
Posté le 06-07-2023 à 15:01:52  profilanswer
 

Toute la valeur d'une donnée vient de sa véracité. Déjà qu'en statistique tu peux facilement perdre en précision, alors si tes données sont "générées" ça va être la fête :D Après tu peux toujours valider une recherche en refaisant les calculs pour prouver que c'est bon. C'est souvent comme ça qu'on découvre qu'une recherche est bidon. Mais si ton calcul consiste a "demander a ChatGPT", c'est mort :o


---------------
Faudra que je teste un jour :o
n°68774412
trueslash
(╯°□°)╯︵ MMM
Posté le 06-07-2023 à 15:28:34  profilanswer
 

bulle_d'o a écrit :

C'est peut-être ma déformation de juriste mais lire une phrase qui parle de biais avec un " : " accompagné de quote, ça laissait penser que tu te focalisais dessus :o
 
Sinon, ça vous parle les données synthétiques ?  
Qu'est-ce que vous en pensez ? Elles sont maintenant générées par IA pour permettre plein d'usage dont l'entrainement des IA.


 
Ya des domaines où les données synthétiques sont très utiles, ça permet d'augmenter la taille de datasets quand ils sont trop petits ou même de partager des données synthétiques en lieu et place des données originales quand celles-ci sont très sensibles.
 
Bon après ya tout un tas de problème à résoudre, c'est pas magique.

n°68774574
the_fennec
f3nn3cUs z3rd4
Posté le 06-07-2023 à 15:48:15  profilanswer
 

Je suis currieu, tu as des exemples ou c'est vraiment utile? Pour l'AI je pensais que faire du training sur des données générées donnait un modèle de (très) mauvaise qualité.


---------------
Faudra que je teste un jour :o
n°68774705
bulle_d'o
Bonne soeur
Posté le 06-07-2023 à 16:03:50  profilanswer
 

Gros potentiel pour la santé, les données médicales sont très très protégées et les synthétiser pourra permettre de les exploiter et les protéger pour les recherches/transfert vers les USA/stockage sur un cloud tout en respectant la vie privée des patients.


---------------

n°68774852
trueslash
(╯°□°)╯︵ MMM
Posté le 06-07-2023 à 16:16:27  profilanswer
 

Par exemple oui, c'est aussi assez utile avec les données bancaires, pour les techniques de détection de fraude.

n°68775551
the_fennec
f3nn3cUs z3rd4
Posté le 06-07-2023 à 17:21:28  profilanswer
 

(Pour info je fais des formations HIPAA et PCI chaque année, un plaisir a chaque fois :o)
Donc en gros tu prends des vraies données pleines de PII, ça passe dans la "moulinette IA" et ça te génère un set de données avec des infos bidon (nom, prénom, addresses, hôpitaux, etc.) de A à Z mais qui sont réalistes.
 
Après le problème est qu'il faut toujours prouver que le modèle ne contient plus les données d'origine...


---------------
Faudra que je teste un jour :o
n°68775890
bulle_d'o
Bonne soeur
Posté le 06-07-2023 à 18:06:31  profilanswer
 

Synthétiser des données ça ne reste que. une méthode d'anonymisation comme une autre. C'est donc un traitement de données en tant que tel qui doit être conforme à la réglementation du coin.
 
Il me semble que Rpgd et Hipaa sont assez cousins même si le RGPD est quand même un peu plus strict.


---------------

n°68775895
trueslash
(╯°□°)╯︵ MMM
Posté le 06-07-2023 à 18:07:59  profilanswer
 

the_fennec a écrit :

(Pour info je fais des formations HIPAA et PCI chaque année, un plaisir a chaque fois :o)
Donc en gros tu prends des vraies données pleines de PII, ça passe dans la "moulinette IA" et ça te génère un set de données avec des infos bidon (nom, prénom, addresses, hôpitaux, etc.) de A à Z mais qui sont réalistes.
 
Après le problème est qu'il faut toujours prouver que le modèle ne contient plus les données d'origine...


 
Oui c'est un des problèmes, il est possible d'extraire des données d'origine d'un GAN ou de données générées par un GAN. Ou plus simplement de savoir si un jeu de données a été utilisé pour créer le GAN, ça reste largement mieux que d'utiliser les données originales.

n°68775922
bulle_d'o
Bonne soeur
Posté le 06-07-2023 à 18:13:09  profilanswer
 

trueslash a écrit :


 
Oui c'est un des problèmes, il est possible d'extraire des données d'origine d'un GAN ou de données générées par un GAN. Ou plus simplement de savoir si un jeu de données a été utilisé pour créer le GAN, ça reste largement mieux que d'utiliser les données originales.


 
Suffit de supprimer l' algo à la fin du moulinage et on est propre niveau minimisation :o
 
Mais est ce qu'on peut régler simplement le soucis si on passe par de la confidentialité différentielle avant la "synthetisation"?


---------------

n°68775974
the_fennec
f3nn3cUs z3rd4
Posté le 06-07-2023 à 18:21:44  profilanswer
 

bulle_d'o a écrit :

Synthétiser des données ça ne reste que. une méthode d'anonymisation comme une autre. C'est donc un traitement de données en tant que tel qui doit être conforme à la réglementation du coin.
 
Il me semble que Rpgd et Hipaa sont assez cousins même si le RGPD est quand même un peu plus strict.


 
Pour info, HIPAA ne s'adresse qu'au médical (PCI au bancaire) et est centré sur l'entreprise, le but est clairement de protéger l'entreprise de problèmes légaux. La RGPD/GDPR est centrée sur l'utilisateur final et cherche à le protéger. Elle donne le droit à l'accès, la rectification et l'effacement de ses données, chose que ne font pas HIPAA et PCI. Il y a une grosse différence philosophique entre le deux et on sent clairement d'où elles viennent :o La RGPD/GDPR est aussi beaucoup plus récente, les US cherchent aussi a se doter d'une loi similaire, mais je pense qu'ils sont pas près de l'avoir...
 

trueslash a écrit :

Oui c'est un des problèmes, il est possible d'extraire des données d'origine d'un GAN ou de données générées par un GAN. Ou plus simplement de savoir si un jeu de données a été utilisé pour créer le GAN, ça reste largement mieux que d'utiliser les données originales.


 
OK, merci pour les précisions :jap:


---------------
Faudra que je teste un jour :o
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  25  26  27  ..  62  63  64  65  66  67

Aller à :
Ajouter une réponse
 

Sujets relatifs
Intelligence artificielle : conceptualisation et formulationintelligence artificielle pour jeu puissance4 avec matlab
L'intelligence artificielle est-elle la bien venue parmis les hommes.Intelligence artificielle....demain
robot et intelligence artificielleINTELLIGENCE ARTIFICIELLE
Intelligence artificielle : vous y croyez ?Intelligence artificielle
l'intelligence artificielleL'intelligence artificielle !
Plus de sujets relatifs à : Intelligence artificielle


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)