Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1639 connectés 

  FORUM HardWare.fr
  Hardware
  HFR

  [HFR] Actu : 76 coeurs sur le die de Knights Landing

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

[HFR] Actu : 76 coeurs sur le die de Knights Landing

n°9659245
Marc
Super Administrateur
Chasseur de joce & sly
Posté le 17-11-2015 à 10:45:02  profilanswer
1Votes positifs
 

Intel a indiqué lors du forum SC15 dédié au HPC que des prototypes de ses Xeon Phi de génération Knights Landing fonctionnaient actuellement dans plusieurs ...
Lire la suite ...


Message édité par Marc le 17-11-2015 à 11:31:13
mood
Publicité
Posté le 17-11-2015 à 10:45:02  profilanswer
 

n°9659254
Zurkum
Posté le 17-11-2015 à 10:55:50  profilanswer
0Votes positifs
 

Quel est l'intérêt de graver ce monstre en 72nm ? ( Ou l'inutilité du 14nm :??: )

n°9659257
Jerry_Cbn
Posté le 17-11-2015 à 11:01:07  profilanswer
0Votes positifs
 

Pour limiter le rebut je suppose.

n°9659261
forez1
Posté le 17-11-2015 à 11:06:39  profilanswer
0Votes positifs
 

La fréquence d'horloge est toujours aux environs de 1GHz ?

n°9659276
lars
Posté le 17-11-2015 à 11:19:31  profilanswer
0Votes positifs
 

Zurkum a écrit :

Quel est l'intérêt de graver ce monstre en 72nm ? ( Ou l'inutilité du 14nm :??: )


 
c'est une coquille je pense... a priori il est gravé en 14nm... ;)

n°9659279
maxxximato​ze
Posté le 17-11-2015 à 11:22:24  profilanswer
0Votes positifs
 

C'est peut être plutôt une coquille car il me semble bien qu'il soit gravé en 14nm
https://software.intel.com/en-us/ar [...] ts-landing

n°9659283
Crashdent
Posté le 17-11-2015 à 11:27:52  profilanswer
0Votes positifs
 

C'est marrant, Intel a choisi une architecture équivalente a celle des FX, des cœurs plus petits qui fonctionnent part paire et se partageant la mémoire cache.  :wahoo:  
 
A ce jeu les GPU sont pas plus intéressant ??  :??:


---------------
Parce que je suis un troll : j'ai déconseillé Winrar sur clubic.
n°9659284
Marc
Super Administrateur
Chasseur de joce & sly
Posté le 17-11-2015 à 11:28:37  profilanswer
2Votes positifs
 

Oui c'est 14nm désolé :D

n°9659285
Marc
Super Administrateur
Chasseur de joce & sly
Posté le 17-11-2015 à 11:29:02  profilanswer
2Votes positifs
 

forez1 a écrit :

La fréquence d'horloge est toujours aux environs de 1GHz ?


Environ 1.3 GHz parait-il.


Message édité par Marc le 17-11-2015 à 11:29:09
n°9659292
tfpsly
Sly
Posté le 17-11-2015 à 11:33:27  profilanswer
2Votes positifs
 

Crashdent a écrit :

A ce jeu les GPU sont pas plus intéressant ??  :??:


Ca dépend de l'application : les GPUs peuvent faire plus de calculs (FLOPS) en calcul répétés sur plusieurs cores; mais ils sont bien moins efficaces sur du code avec logique/branchement, accès mémoire non linéaire, travaux plus variés entre les différentes cores etc.
Les CPUs gardent un net avantage en programmation générique.

mood
Publicité
Posté le 17-11-2015 à 11:33:27  profilanswer
 

n°9659324
Marc
Super Administrateur
Chasseur de joce & sly
Posté le 17-11-2015 à 11:51:05  profilanswer
2Votes positifs
 

KL n'est pas non plus trop fait pour du code avec logique/branchement, son intérêt se situe surtout dans les unités AVX-512 qui ont grosso modo les mêmes limitations qu'un GPU il me semble.

n°9659327
Gg67500
Posté le 17-11-2015 à 11:52:56  profilanswer
0Votes positifs
 

Marc a écrit :

KL n'est pas non plus trop fait pour du code avec logique/branchement, son intérêt se situe surtout dans les unités AVX-512 qui ont grosso modo les mêmes limitations qu'un GPU il me semble.


 
On pourrait appeler cela un GPU amélioré ? (a peu prêt :o)


---------------
halte là on ne passe pas !
n°9659335
zaft
Posté le 17-11-2015 à 11:59:17  profilanswer
0Votes positifs
 

Le gros intérêt surtout, dans le domaine du HPC ou la plupart des utilisateurs ne sont pas informaticiens (mais physiciens, chercheurs, etc), est la compatibilité avec les codes classiques moyennant quelques adaptations.
Du C et par exemple de l'OpenMP ou du MPI tournant sur CPU classiques tournera ici. Cuda fait peur car beaucoup ont testé avec les versions 1 ou 2 où la gestion de la mémoire était délicate, et n'y ont pas retouché depuis.
Maintenant c'est la théorie, en pratique, tirer beaucoup de perfs de ces bestiaux est beaucoup plus dur qu'il n'y parait, en tout cas sur KC (MIC). On verra le KNL.


Message édité par zaft le 17-11-2015 à 12:00:32
n°9659462
remm
Posté le 17-11-2015 à 14:04:40  profilanswer
0Votes positifs
 

Marc a écrit :

KL n'est pas non plus trop fait pour du code avec logique/branchement, son intérêt se situe surtout dans les unités AVX-512 qui ont grosso modo les mêmes limitations qu'un GPU il me semble.


En théorie c'est du out of order silvermont, donc ça doit pas être fabuleux, mais correct.

n°9659475
Marc
Super Administrateur
Chasseur de joce & sly
Posté le 17-11-2015 à 14:11:13  profilanswer
1Votes positifs
 

Oui mais pour les perfs vectorielles ce ne sont pas les coeurs Silvermont qui entrent en jeu

n°9659484
ockiller
Posté le 17-11-2015 à 14:20:11  profilanswer
1Votes positifs
 

Crashdent a écrit :

C'est marrant, Intel a choisi une architecture équivalente a celle des FX, des cœurs plus petits qui fonctionnent part paire et se partageant la mémoire cache.  :wahoo:  
 
A ce jeu les GPU sont pas plus intéressant ??  :??:

Depuis les Core 2 (et même encore avant) le cache L2 est partagé entre deux coeurs. Mais sinon pour comparer ça à un GPU, c'est vrai que c'est un peu bâtard comme bestiole. L'idée initiale était bien d'en faire un GPU x86, ça n'a pas abouti mais ça n'était pas à jeter à la poubelle non plus, il semble qu'il y ait des cas d'utilisation.
 
Après, un GPU pur souche n'est pas très optimisé pour avoir une faible latence, c'est pas un problème si on peut alterner entre plein de threads pour éviter les attentes, mais du coup il faut plein de thread par core pour que ça fonctionne bien. L'avantage est qu'on n'a pas besoin d'une logique de contrôle évoluée ou de mémoire cache volumineuse. Pour un CPU c'est le compromis inverse, on met en place des techniques ultra-coûteuses pour être capable de traiter un thread le plus rapidement possible (on peut rarement compter sur un grand nombre de threads).
 
Un Xeon Phi a un peu le cul entre deux chaises, il a certes beaucoup de coeurs et de grosses unités vectorielles (donc il faut pouvoir traiter un grand nombre d'éléments en parallèle), mais ça a des gènes de CPU donc latence faible, d'où le besoin de moins de threads pour être efficace par rapport à un GPU.

n°9659689
Keser
Posté le 17-11-2015 à 16:32:46  profilanswer
0Votes positifs
 

On peut installer un Windows sur une machine équipé de ce processeur ? Ou il faut un OS compilé spécialement pour ?
 
Est ce qu'on peut imaginer que ce genre de processeur puisse être utilisé pour des solutions de cloud ou c'est limité au HPC ?

n°9659723
C_Wiz
Profil : Equipe HardWare.fr
Posté le 17-11-2015 à 17:12:02  profilanswer
1Votes positifs
 

Keser a écrit :

On peut installer un Windows sur une machine équipé de ce processeur ? Ou il faut un OS compilé spécialement pour ?


Je n'ai pas regardé précisément pour KNL mais sur les générations précédentes, ces puces fonctionnaient comme des coprocesseurs qui nécessitaient un CPU système.  
 
En pratique les cartes font tourner leur propre mini kernel linux qui fait tourner de son côté une sorte de système séparé et virtualisé. Les applications étaient même découpées en 2 .EXE, un qui allait sur le CPU et un autre envoyé vers le kernel, les deux pouvant communiquer pour envoyer les données etc.

n°9659727
Zurkum
Posté le 17-11-2015 à 17:14:47  profilanswer
0Votes positifs
 

Justement dans la news on parle d'un processeur à part entière sur un socket

n°9659756
C_Wiz
Profil : Equipe HardWare.fr
Posté le 17-11-2015 à 17:35:58  profilanswer
0Votes positifs
 

Oui j'aurai du relire... ;) Apparemment la mémoire interne (16 Go) sera gérée comme un cache de dernier niveau sur la version socket, et les coeurs exposés directement. Théoriquement avec des coeurs Silvermont ça devrait pouvoir booter un système x86 classique. Pour tirer plein profit, il faudra des apps compilés pour AVX512 par contre, évidemment.  
 
Extrait des disclosures Intel :  
 

Citation :

Clustering modes: (1) All-to-all: address uniformly hashed across all distributed directories (2) Quadrant: chip divided into 4 quadrants w/directory for address residing in same quadrant as memory location and software transparency (3) Sub-NUMA Clustering: each quadrant (cluster) exposed as separate NUMA domain to O/S, software visible, analogous to 4-socket Intel® Xeon® processor
 
Memory modes: cache, flat (allocation via fast Malloc / FASTMEM) and hybrid (part cache, part flat)
 
NUMA support: multiple NUMA domain support per socket


 
Pour NUMA (on en avait parlé la en bas : http://www.hardware.fr/articles/86 [...] -numa.html ), le sub clustering risque de limiter a certaines versions de Windows Server par contre (qui a des limites de licences par socket selon les versions).
 
La gestion mémoire devrait être intéréssante en tout cas.


Message édité par C_Wiz le 17-11-2015 à 17:52:32
n°9659805
gils04
le soleil du sud !
Posté le 17-11-2015 à 18:24:15  profilanswer
0Votes positifs
 

:ouch:  
 
c'est impressionnant quand même !! combien de transistors ?? on est loin du 2N 3055 bipolaire :)  
 
si tout cela fonctionne de concert , c'est vraiment une très grande maitrise de la gravure .


Message édité par gils04 le 17-11-2015 à 18:24:38
n°9659914
tuxphobos
Posté le 17-11-2015 à 19:49:03  profilanswer
0Votes positifs
 

MICROARCHITECTURE
Transitors: over 8 billion transistors per die based on Intel’s 14 nm process technology
Cores: up to 72 cores (36 tiles),Core: “Based on Intel® Atom™ core (based on Silvermont microarchitecture) with many HPC enhancements”  
4 Threads / Core
 
Faut compter comment du coups?
36*2*4
72*4
288 Threads ^^
 
Il font faire mal à IBM est ces Power8 et leur pauvre 96 threads (The cores are designed to handle clock rates between 2.5 and 5 GHz.)


---------------
Je n'ai pas peur des ordinateurs. J'ai peur qu'ils viennent à nous manquer. "Isaac Asimov"
n°9659999
theangel54​0
Posté le 17-11-2015 à 21:04:26  profilanswer
1Votes positifs
 

Tiens, la scalabilité est la marque de fabrique chère à Sun et IBM avec les Sparc et les Power.
Intel veut vraiment manger à tous les râtelier après avoir timidement loupé son Itanium avec HP.
 

n°9660097
cocto81
Posté le 17-11-2015 à 23:02:41  profilanswer
0Votes positifs
 

Intel se fatigue peu sur ce coup. Il a repris ses pentium des années 90, les a mise à jour avec les nouvelles fonctionnalités des CPU modernes, et les a mis en parallèle et gravé en 14nm.
Cette architecture est moins performante que l'architecture CPU + GPU sous OpenCL par exemple (sous Cuda certainement aussi mais sur les gros GPU Nvidia des précédentes générations non orientés seulement jeu).
Au demeurant l'AMD Fidji possède près de 9 milliards de transistors sur gravure 28nm.
Il est fort probable qu'AMD sorte un quadruple Hawaii sous 14nm. Hawaii offre une architecture performante complète en englobant en hardware les flottants double précision. D'ailleurs les fonctions AVX ne font qu'essayer de rattraper un peu sur CPU ce que permettent déjà les GPU.
Nul doute qu'un GPU de ce type ne laissera aucune chance, niveau performance, à ces Xeon.


Message édité par cocto81 le 17-11-2015 à 23:05:13
n°9660158
sligor
Posté le 18-11-2015 à 00:06:22  profilanswer
1Votes positifs
 

Si c'est basé sur du Silvermont alors c'est quand même un pipeline Out-Of-Order (http://www.realworldtech.com/silvermont/). Mais, ok, le P6 était déjà out-of-order aussi à la fin des années 90

n°9660164
Kyjja
Liquefaction imminente
Posté le 18-11-2015 à 00:16:20  profilanswer
1Votes positifs
 

On va pouvoir faire du BOINC pour tourner 72 appli en x86 là dessus ? :o


---------------
HWBot | Conso GPU | Who's who PSU | Mes BD \o/ | GReads | MSpaint
n°9660291
ockiller
Posté le 18-11-2015 à 10:14:10  profilanswer
0Votes positifs
 

@sligor: +1, c'est quand même pas rien comme ajout. Intel ne s'est peut-être pas trop fatigué pour le premier "Xeon Phi" (Larrabee) mais les Atom qui en ont découlé ont beaucoup évolué depuis.
 
Pour répondre à cocto81, pour des tâches complexes où il y a pas mal de divergence entre les éléments à traiter, les GPU commencent à avoir du mal (en lancer de rayons typiquement, les rayons secondaires sur GPU c'est un vrai problème). Un truc un peu moins bourrin qui peut rester efficace avec une granularité d'éléments à traiter plus fine peut tirer son épingle du jeu. Ça reste à voir...

n°9660304
nobe
Posté le 18-11-2015 à 10:30:06  profilanswer
0Votes positifs
 

Il y a donc en tout 144 unites vectorielles AVX512.

 

Ca m'a l'air d'etre parfait pour faire du gros traitement d'images/videos.
Est ce que ce sera plus performant que les GPU actuels ?

 

Edit: sans compter les 16 Go de RAM (cache ?) à 400Go/s ...


Message édité par nobe le 18-11-2015 à 10:35:32
n°9660418
SH4 Origon​ X
Je ne vous hais pas.
Posté le 18-11-2015 à 12:38:42  profilanswer
1Votes positifs
 

Kyjja a écrit :

On va pouvoir faire du BOINC pour tourner 72 appli en x86 là dessus ? :o


 
Faire tourner, sans problème !
Et c'est pas 72 mais 288 unités en // puisque chaque core dispose de 4 threads ;)
 
Les Xeon Phy précédent le peuvent déjà mais limités par la quantité de RAM embarquée (et avec des applis dédiées).


Message édité par SH4 Origon X le 18-11-2015 à 12:41:23

---------------
/!\ DO NOT LOOK AT, TOUCH, INGEST OR ENGAGE IN CONVERSATION WITH ANY SUBSTANCES BEYOND THIS POINT. /!\
n°9660445
Kyjja
Liquefaction imminente
Posté le 18-11-2015 à 13:03:31  profilanswer
0Votes positifs
 

Me semblait qu'il y avait un problème par rapport aux applis écrites pour du x86 "normal" et qu'on pouvait en fait utiliser ces Xeon Phi uniquement en OpenCL, donc comme des GPU.  [:kyjja:3]  
 
Ça avait été rapidement évoqué en 2012 sur un forum dédié à BOINC => http://forum.boinc-af.org/index.ph [...] #msg317192
 
Apparemment des types ont testé sur SETI, mais ça semble peu probant => http://setiathome.berkeley.edu/for [...] id=1439671
 
Je n'en sais pas plus, et saisir un Xeon Phi pour tester revient à un peu cher, m'voyez ? :D
 
Après, concernant la RAM intégré et limitée, y a des applis qui ne pompent pas des masses, en tout cas moins de 50 Mo. Mais ça posera quand même soucis sur des entrées de gamme des premières générations (3120) avec 6 GB pour 57 cores, donc si j'ai bien compris 228 threads, soit à peine 26 Mo/thread (les 31S1P ont 8 GB). Donc dans le cadre de cette utilisation, point de salut sous les 16 GB (série 7120). :/


---------------
HWBot | Conso GPU | Who's who PSU | Mes BD \o/ | GReads | MSpaint
n°9660645
Lyto
Posté le 18-11-2015 à 16:15:34  profilanswer
0Votes positifs
 

nobe a écrit :

Il y a donc en tout 144 unites vectorielles AVX512.
 
Ca m'a l'air d'etre parfait pour faire du gros traitement d'images/videos.
Est ce que ce sera plus performant que les GPU actuels ?
 
Edit: sans compter les 16 Go de RAM (cache ?) à 400Go/s ...


Visiblement c'est un type de mémoire spécifique qui peut être utilisé soit comme cache soit comme mémoire RAM. Intel l'a baptisé MCDRAM

n°9661236
aeris_vall​ee
Posté le 19-11-2015 à 10:58:12  profilanswer
0Votes positifs
 

Le principal problème avec les architectures manycore sont les accès mémoire, c'est là qu'est le défis. Un OS (et pas un simple Linux) même en répartissant les métadonnées des threads doit encore faire des synchro entre des zones éloignées du circuit et sa créé des goulot d'étranglement.
 
Tout l'intérêt de ces circuits c'est l'interconnexion, et on n'en parle pas, qu'elle est l'architecture du NoC ?


Message édité par aeris_vallee le 19-11-2015 à 10:59:23
n°9661334
Activation
21:9 kill Surround Gaming
Posté le 19-11-2015 à 12:37:37  profilanswer
0Votes positifs
 

C'est pas l'OC de gniogniotte ... Tout ces pentium 75 OC à 1000Mhz :o

n°9664747
fofo9012
Posté le 23-11-2015 à 09:27:35  profilanswer
0Votes positifs
 

Je me demande ce que donnerait ce genre d'archi dans un environnement big data / in memory.
 
Sur SAP HANA, une config "moyenne" à 4 à 8 Xeon E7-2890v2 (de 15coeurs-30threads chacun), soit 120-240 threads et 2To de RAM.
 
4 Knights landing offriraient déjà 288 coeurs et surtout 64Go de cache :)
Après je ne sais pas si HANA utilise beaucoup l'AVX, ou si ils se concentre sur des instructions x86.
 
Src : https://global.sap.com/community/eb [...] ances.html

mood
Publicité
Posté le   profilanswer
 


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Hardware
  HFR

  [HFR] Actu : 76 coeurs sur le die de Knights Landing

 

Sujets relatifs
[HFR] Actu : Quelques détails sur Kaby Lake[HFR] Actu : AMD et HPC: nouveaux outils, support de CUDA
[HFR] Actu : Samsung 750 EVO, un 850 EVO ''light''[HFR] Actu : 10 cœurs pour l'i7-6950X ?
[HFR] Actu : Nouveaux Xeon D et Pentium D[HFR] Actu : Micron en charge de la mémoire des Knights Landing
Plus de sujets relatifs à : [HFR] Actu : 76 coeurs sur le die de Knights Landing


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR