Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1631 connectés 

  FORUM HardWare.fr
  Programmation
  Divers

  [MAJ] CODAGE ISO - encodage UTF-8 dans URL.. comprends pas.

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

[MAJ] CODAGE ISO - encodage UTF-8 dans URL.. comprends pas.

n°411405
rui
Strike Out Looking..
Posté le 30-05-2003 à 11:53:57  profilanswer
 

hello.
j'ai un petit problème pour comprendre l'encodage UTF 8.
en effet, d'après ce site http://terroirs.denfrance.free.fr/ [...] utf-8.html , le codage de 'é' en utf-8 est "233" en décimal, soit "0xE9" en hexadecimal.
or si je vais sur http://www.google.com (site encodé en UTF-8), et  que je tappe

Code :
  1. é

dans le champ de saisie, puis que je valide, dans l'URL de résultat, il y a %C3%E9 en lieu et place du é.
d'où vient le %C3 ?
é étant un caractère non standard, il est codé sur 2 octets en UTF-8, sous la forme

Code :
  1. 110bbbbb 10bbbbbb

, où 'b' est un bit. Mais j'avoue que je comprends pas très bien la divergence entre ce qu'il y a dans la table et ce qu'on trouve dans l'URL...  :sweat:  
quelqu'un, d'expert ou pas, peut m'aider ??
 :hello:


Message édité par rui le 05-06-2003 à 14:16:32
mood
Publicité
Posté le 30-05-2003 à 11:53:57  profilanswer
 

n°411410
antp
Super Administrateur
Champion des excuses bidons
Posté le 30-05-2003 à 12:08:31  profilanswer
 

rui a écrit :

le codage de 'é' en utf-8 est "233" en décimal, soit "0xE9" en hexadecimal.
 


 
non le é en UTF8 c'est 0xC3 0xA9 (les caractères autre que l'ASCII 7 bits sont stockés sur 2 ou 3 octets)


Message édité par antp le 30-05-2003 à 12:08:47

---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
n°411504
rui
Strike Out Looking..
Posté le 30-05-2003 à 14:56:48  profilanswer
 

antp a écrit :


 
non le é en UTF8 c'est 0xC3 0xA9 (les caractères autre que l'ASCII 7 bits sont stockés sur 2 ou 3 octets)


oui ça je l'avais compris..
ce que je ne captais pas est pourquoi dans ce cas, le site sus-nommé indiquait une valeur décimale qui ne correspond pas dans son tableau..
 
d'après ce que tu me dit, ue fois l'ascii 7 bits épuisé, on met %C3 et hop on continue à incrémenter le code ? as-tu une table de l'unicode qui soit claire ?  
merci et désolé pour mes harcèlements de newbie.. :D :D

n°411508
antp
Super Administrateur
Champion des excuses bidons
Posté le 30-05-2003 à 15:01:15  profilanswer
 

non, pas spécialement C3
tout ce qui est entre 80 et FF annonce que le ou les octets suivants constituent la suite du caractère
ftp://ftp.rfc-editor.org/in-notes/rfc2279.txt


---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
n°411525
orazur
Posté le 30-05-2003 à 15:29:34  profilanswer
 

quel gosu ce antp quand meme :)

n°411645
rui
Strike Out Looking..
Posté le 30-05-2003 à 17:57:23  profilanswer
 

merci de ton aide antp  :hello:

n°417922
rui
Strike Out Looking..
Posté le 05-06-2003 à 14:32:37  profilanswer
 

heelo.
j'ai a nouveau un probleme d'encode..avec de l'ISO cette fois :D
un browser me renvoie en paramètre d'URL depuis une zone de saisie en ISO 8859-1, en guise de 'é' le code '%e9' .
or le code généralement trouvé dans les tables est '%E9'
dois-je considérer que ce browser ne respecte pas le standard ?
a quels documents precis/rfcs se référer sur ce point precis?
 
merci :hello:

n°417971
antp
Super Administrateur
Champion des excuses bidons
Posté le 05-06-2003 à 14:58:47  profilanswer
 

En général les codes en hexa ne sont pas case-sensitive il me semble


---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
n°417974
antp
Super Administrateur
Champion des excuses bidons
Posté le 05-06-2003 à 14:59:45  profilanswer
 

http://www.google.com/search?q=rfc [...] 8&oe=utf-8
 
1er résultat:

Citation :


URL encoding of a character consists of a "%" symbol, followed by the two-digit hexadecimal representation (case-insensitive) of the ISO-Latin code point for the character.


---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
n°418215
rui
Strike Out Looking..
Posté le 05-06-2003 à 17:27:28  profilanswer
 

antp a écrit :

http://www.google.com/search?q=rfc [...] 8&oe=utf-8
 
1er résultat:

Citation :


URL encoding of a character consists of a "%" symbol, followed by the two-digit hexadecimal representation (case-insensitive) of the ISO-Latin code point for the character.




 
merci.  :love:  
j'ai honte, j'ai pourtant cherché sur google avant et sur le site de l'isoc  :sweat: , j'ai de meme consulté la RFC de l'utf8 au cas ou.. ftp://ftp.rfc-editor.org/in-notes/rfc2279.txt  
en fait j'avais pas pensé que c'était du domaine de l'URL encoding mais du character set ...
encore merci  :hello:


Message édité par rui le 05-06-2003 à 17:29:44

Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  Divers

  [MAJ] CODAGE ISO - encodage UTF-8 dans URL.. comprends pas.

 

Sujets relatifs
[Projet] Programme d'encodage/decodage Audio/Video MPEG-1/2/4Algo pour conversion Timestamp <-> Date ISO
encodage URL et japonais[PHP/MYSQL]Parametre dans les URL, probleme de majuscules
[PHP][php.ini]Comprends pas les lignes include_path et ... ???[Delphi] MAJ d'une table..
Netscape 7 et URL vers un fichier localJe ne comprends pas cette erreur
URL -> CGI -> Chaine de caractère -> En faire une String ? 
Plus de sujets relatifs à : [MAJ] CODAGE ISO - encodage UTF-8 dans URL.. comprends pas.


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR