Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
3286 connectés 

 

Sujet(s) à lire :
    - Who's who@Programmation
 

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  26314  26315  26316  ..  27201  27202  27203  27204  27205  27206
Auteur Sujet :

[blabla@olympe] Le topic du modo, dieu de la fibre et du monde

n°2484527
Jubijub
Parce que je le VD bien
Posté le 14-11-2024 à 14:25:08  profilanswer
 

Reprise du message précédent :

hephaestos a écrit :


 
Aaaaaaaaaaah mais pourquoi ?!? Et pourquoi changer la façon dont on les stocke en fonction de la façon dont on les utilise ? Les données ne changent pas, les usages, si, en plus il peut y en avoir plusieurs ! C'est de la premature over engineering optimization, TNVPEAB.
 
Donc, 1. prouve-moi que tu as besoin de données non normalisées, et après on discute.


 
1/  
- d'accord pour le besoin, d'où mes questions à Much. En effet si tout ce qu'il doit faire c'est afficher les données / faire un graph des temperatures, aucun besoin
- dénormaliser c'est un gain de place, ou de réutilisabilité. Sur des time series c'est pas évident que tu vas beaucoup compresser, et pour lea réutilisabilité ça dépend de plein de facteurs. Prouve moi que tu vas devoir normaliser :o
- tu peux aussi optimiser ton stockage pour la lecture, ou pour cacher des calculs intermédiaires.
2/ si comme ça semble etre le cas d'après les infos de Much, on veut résonner sur l'état d'un système dans le temps, ou voir l'effet d'une action X sur une variable Y, tu vas sans arrêt devoir recalculer des trucs genre delta de temps depuis la dernière action de type X. Ces deltas ne vont pas changer dans le temps, donc ça fait sens de les cacher.
 
Je ne dispute pas le fait que tu puisses les stocker comme tu veux, y compris de façon normalisée. Par contre tu peux vouloir stocker une représentation intermédiaire avec ces calcules de delta déjà fait. Idéalement si le système qui fait les logs de température a accès à l'état des trucs genre valve, etc... tu peux meme calculer ces trucs en mode stream.


---------------
Jubi Photos : Flickr - 500px
mood
Publicité
Posté le 14-11-2024 à 14:25:08  profilanswer
 

n°2484528
nraynaud
lol
Posté le 14-11-2024 à 14:29:22  profilanswer
 

Jubijub a écrit :


 
+1 avec nraynaud : stocker en plusieurs tables ou pas ça change pas le fait que dans l'exemple que donne Much, la température va varier probablement en fonction du temps depuis la dernière ouverture / fermeture de vanne.
Ma première question serait : comment tu vas utiliser ces données ? si tu cherches à faire un algo de régulation, l'algo va dicter comment tes données doivent être structurées. L'autres question c'est : quelles questions tu vas avoir pour ces données ?
 
Si c'est juste du reporting je dénormaliserais le truc : table des temperatures avec des colonnes en plus indiquant l'étant du système (valve ouverte ou fermée, voir la duration depuis le dernier changement d'état, ou delta de temperature depuis le dernier changement. Encore une fois t'es pas obligé de stocker ça (tu peux garder une table par type d'évènement), mais tu vas vouloir l'avoir en mémoire pour faciliter tes analysers.


après hepha était assez rigide sur une table/dimension, et ce principe scale automatiquement avec la vitesse d'évolution de l'état du système. l'état du système est la dernière ligne de chaque table.
l'inconvénient, c'est un arbre de tri par dimension.


---------------
trainoo.com, c'est fini
n°2484529
el muchach​o
Comfortably Numb
Posté le 14-11-2024 à 14:33:55  profilanswer
 

Jubijub a écrit :

 

+1 avec nraynaud : stocker en plusieurs tables ou pas ça change pas le fait que dans l'exemple que donne Much, la température va varier probablement en fonction du temps depuis la dernière ouverture / fermeture de vanne.
Ma première question serait : comment tu vas utiliser ces données ? si tu cherches à faire un algo de régulation, l'algo va dicter comment tes données doivent être structurées. L'autres question c'est : quelles questions tu vas avoir pour ces données ?

 

Si c'est juste du reporting je dénormaliserais le truc : table des temperatures avec des colonnes en plus indiquant l'étant du système (valve ouverte ou fermée, voir la duration depuis le dernier changement d'état, ou delta de temperature depuis le dernier changement. Encore une fois t'es pas obligé de stocker ça (tu peux garder une table par type d'évènement), mais tu vas vouloir l'avoir en mémoire pour faciliter tes analysers.

 

Il y aura plusieurs usages complètement différents par des équipes différentes:
1) monitoring et alerting temps réel
2) historisation sur 10 ans du cycle de vie du matériel, de données de manufacturing, et d'exploitation en data centers (notamment pannes de matériels, calcul de coûts d'exploitation, dépense d'énergie, etc)
3) data mining dans ces données pour détecter par exemple des optimisations possibles ou des pannes systémiques dues à du matériel défaillant, estimation de MTBF, etc

 

Bref le genre de truc donc vous avez l'expertise, mais nous à une échelle 3 ordres de grandeur plus bas.

Message cité 1 fois
Message édité par el muchacho le 14-11-2024 à 15:25:27

---------------
Les aéroports où il fait bon attendre, voila un topic qu'il est bien
n°2484530
hephaestos
Sanctis Recorda, Sanctis deus.
Posté le 14-11-2024 à 14:41:03  profilanswer
 

Jubijub a écrit :


- dénormaliser c'est un gain de place, ou de réutilisabilité. Sur des time series c'est pas évident que tu vas beaucoup compresser, et pour lea réutilisabilité ça dépend de plein de facteurs. Prouve moi que tu vas devoir normaliser :o

 

Ah non, normaliser c'est pas pour optimiser la place, c'est parce que c'est la seule façon de stocker les données sans aucun risque d'ambiguïté ou d'incohérence. C'est le plus facile à faire correctement.

 

Cependant, je vois un intérêt à la dénormalisation totale, j'ai édité mon message. J'aime pas ça, mais ok. Mais j'aime pas ça.

 
Jubijub a écrit :


- tu peux aussi optimiser ton stockage pour la lecture, ou pour cacher des calculs intermédiaires.
2/ si comme ça semble etre le cas d'après les infos de Much, on veut résonner sur l'état d'un système dans le temps, ou voir l'effet d'une action X sur une variable Y, tu vas sans arrêt devoir recalculer des trucs genre delta de temps depuis la dernière action de type X. Ces deltas ne vont pas changer dans le temps, donc ça fait sens de les cacher.

 

Je ne dispute pas le fait que tu puisses les stocker comme tu veux, y compris de façon normalisée. Par contre tu peux vouloir stocker une représentation intermédiaire avec ces calcules de delta déjà fait. Idéalement si le système qui fait les logs de température a accès à l'état des trucs genre valve, etc... tu peux meme calculer ces trucs en mode stream.

 

Mais avant de cacher ou d'optimiser des calculs (4 lookups et une soustraction ? wow tu as fait une demande de TPU on risque d'être un peu short Q12025), faut voir ce qu'ils coûtent, non ?

 

Et ces optimisations peuvent très bien se faire par dessus des données normalisées, je pense que c'est presque toujours une erreur d'adapter le stockage au métier.

Message cité 1 fois
Message édité par hephaestos le 14-11-2024 à 14:47:59
n°2484531
el muchach​o
Comfortably Numb
Posté le 14-11-2024 à 14:54:18  profilanswer
 

Oui, normaliser, ça permet de garder les données parfaitement cohérentes en évitant d'avoir ç gérer des doublons dans diverses tables.
Mais là en l'occurence, ce sont des données de sources différences, temporelles, et qui ne seront pas supprimées (à moins de faire des suppressions du style "toutes les données plus anciennes que..." ), donc il n'y aura pas de doublons ou de risque d'incohérences.

Message cité 1 fois
Message édité par el muchacho le 14-11-2024 à 14:54:41

---------------
Les aéroports où il fait bon attendre, voila un topic qu'il est bien
n°2484532
Xavier_OM
Monarchiste régicide (fr quoi)
Posté le 14-11-2024 à 14:56:44  profilanswer
 

hephaestos a écrit :


 
Aaaaaaaaaaah mais pourquoi ?!? Et pourquoi changer la façon dont on les stocke en fonction de la façon dont on les utilise ? Les données ne changent pas, les usages, si, en plus il peut y en avoir plusieurs ! C'est de la premature over engineering optimization, TNVPEAB.
 
Je maintiens qu'il y a pas 36 solutions pour le stockage des données (à moins d'exigences hyper pointues, on n'est manifestement pas dans ce cas-là). Il doit être trivial à comprendre et à utiliser, donc soit c'est normalisé, soit c'est complétement dénormalisé mais c'est certainement pas un truc hybride pour soit-disant avoir le meilleur des deux mondes en rejetant la complexité sur la couche la plus profonde.


 
 
Ta Nébuleuse Vision Produit des Efforts Accrus et Bancals  :??:


---------------
Il y a autant d'atomes d'oxygène dans une molécule d'eau que d'étoiles dans le système solaire.
n°2484533
hephaestos
Sanctis Recorda, Sanctis deus.
Posté le 14-11-2024 à 15:03:45  profilanswer
 

el muchacho a écrit :

Oui, normaliser, ça permet de garder les données parfaitement cohérentes en évitant d'avoir ç gérer des doublons dans diverses tables.
Mais là en l'occurence, ce sont des données de sources différences, temporelles, et qui ne seront pas supprimées (à moins de faire des suppressions du style "toutes les données plus anciennes que..." ), donc il n'y aura pas de doublons ou de risque d'incohérences.

 

famous last words, mais aussi c'est pas le seul but, le but premier (dans ce cas) c'est la simplicité. On comprend immédiatement ce qui se passe avec des données normalisées, chaque entrée correspond à un évènement réel, on n'a pas besoin de vérifier quoi que ce soit.

Message cité 1 fois
Message édité par hephaestos le 14-11-2024 à 15:06:33
n°2484534
hephaestos
Sanctis Recorda, Sanctis deus.
Posté le 14-11-2024 à 15:07:52  profilanswer
 

Xavier_OM a écrit :


 
 
Ta Nébuleuse Vision Produit des Efforts Accrus et Bancals  :??:


 
Tu Ne Vas Pas En Avoir Besoin (YAGNI).

n°2484535
el muchach​o
Comfortably Numb
Posté le 14-11-2024 à 15:12:41  profilanswer
 

hephaestos a écrit :

 

famous last words,

 

:D

Citation :

mais aussi c'est pas le seul but, le but premier (dans ce cas) c'est la simplicité. On comprend immédiatement ce qui se passe avec des données normalisées, chaque entrée correspond à un évènement réel, on n'a pas besoin de vérifier quoi que ce soit.


Pas compris. Dans des time series aussi, chaque ligne correspond à un événement réel. D'ailleurs c'est comme ça qu'on va les conceptualiser: chaque ligne correspond à un événement dans le temps et "l'espace" (défini par un ID unique SAP).

 

(mais je te rassure, ce seront bien des tables séparées par entité, on ne va pas faire ce qu'a suggéré rufo)

Message cité 1 fois
Message édité par el muchacho le 14-11-2024 à 15:13:55

---------------
Les aéroports où il fait bon attendre, voila un topic qu'il est bien
n°2484536
hephaestos
Sanctis Recorda, Sanctis deus.
Posté le 14-11-2024 à 15:22:08  profilanswer
 

el muchacho a écrit :

 

Pas compris. Dans des time series aussi, chaque ligne correspond à un événement réel. D'ailleurs c'est comme ça qu'on va les conceptualiser: chaque ligne correspond à un événement dans le temps et "l'espace" (défini par un ID unique SAP).

 

(mais je te rassure, ce seront bien des tables séparées par entité, on ne va pas faire ce qu'a suggéré rufo)


Qu'est-ce qui est dénormalisé dans cette histoire ? Je croyais que tu voulais faire des table avec des signaux aggrégés ?

 

En l'occurence dans ton cas, il n'y a pas de relation entre les différentes données (autre que temporelle), la normalisation c'est juste qu'au lieu de stocker [t1: {s1, s2, s3}, t2: {s1', s2, s3}, t3: {s1', s2, s3'}], on stocke [t1: s1, t2: s1'], [t1: s2], [t1: s3, t3: s3']. Les deux sont bien, mais la seconde est mieux à mon avis (et tu sembles partir là-dessus, c'est tout à ton honneur :D). L'idée que je suis à peu près sûr est bien trop maline pour être bonne, c'est de stocker des sous-états.


Message édité par hephaestos le 14-11-2024 à 15:40:08
mood
Publicité
Posté le 14-11-2024 à 15:22:08  profilanswer
 

n°2484537
flo850
moi je
Posté le 14-11-2024 à 15:55:09  profilanswer
 

il y a taich qui a écrit un truc : https://guillaume.techene.net/2024/ [...] efinition/


---------------

n°2484538
Dion
Acceuil
Posté le 14-11-2024 à 15:59:08  profilanswer
 

Six ans plus tard, heureusement qu’on est dans une industrie qui n’avance pas bien vite  [:clooney19]


---------------
It is not called show art
n°2484539
flo850
moi je
Posté le 14-11-2024 à 16:05:02  profilanswer
 

et the onion qui rachete infowar. C'est vraiment du popcorn taille xxl


---------------

n°2484540
Dion
Acceuil
Posté le 14-11-2024 à 16:08:43  profilanswer
 

Encore des gauchiasses qui infiltrent les médias pour leurs guerres d'influence  [:cosmoschtroumpf]


---------------
It is not called show art
n°2484541
masklinn
í dag viðrar vel til loftárása
Posté le 14-11-2024 à 16:11:08  profilanswer
 

flo850 a écrit :

et the onion qui rachete infowar. C'est vraiment du popcorn taille xxl


 
https://theonion.com/heres-why-i-de [...] -infowars/  [:so-saugrenu18:5]


---------------
I mean, true, a cancer will probably destroy its host organism. But what about the cells whose mutations allow them to think outside the box by throwing away the limits imposed by overbearing genetic regulations? Isn't that a good thing?
n°2484542
flo850
moi je
Posté le 14-11-2024 à 16:11:12  profilanswer
 

c'est clairement un truc de gauchiste de profiter des plateformes pour vendre des services en plus  
https://france.representation.ec.eu [...] refLang=en


---------------

n°2484543
Dion
Acceuil
Posté le 14-11-2024 à 16:18:05  profilanswer
 

Notre surtaxe exceptionnelle sur les entreprises américaines fonctionne toujours :sol:
 
Les producteurs de frometon et de vinasse vont prendre cher  [:clooney31]


---------------
It is not called show art
n°2484544
rufo
Pas me confondre avec Lycos!
Posté le 14-11-2024 à 16:26:44  profilanswer
 

el muchacho a écrit :


 
Il y aura plusieurs usages complètement différents par des équipes différentes:  
1) monitoring et alerting temps réel
2) historisation sur 10 ans du cycle de vie du matériel, de données de manufacturing, et d'exploitation en data centers (notamment pannes de matériels, calcul de coûts d'exploitation, dépense d'énergie, etc)
3) data mining dans ces données pour détecter par exemple des optimisations possibles ou des pannes systémiques dues à du matériel défaillant, estimation de MTBF, etc
 
Bref le genre de truc donc vous avez l'expertise, mais nous à une échelle 3 ou 4 ordres de grandeur plus bas.


Ca ressemble quand même beaucoup à des logs d'une certaine façon. Il me semblait avoir vu que maintenant, on passait par une BD NoSQL (souvent de type document) car c'était plus performant pour le stockage et le traitement qu'un SGBDR quand il y avait des gros volumes.


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
n°2484545
el muchach​o
Comfortably Numb
Posté le 14-11-2024 à 16:41:24  profilanswer
 

rufo a écrit :


Ca ressemble quand même beaucoup à des logs d'une certaine façon. Il me semblait avoir vu que maintenant, on passait par une BD NoSQL (souvent de type document) car c'était plus performant pour le stockage et le traitement qu'un SGBDR quand il y avait des gros volumes.


Oui il y a des ressemblances: données immutables timestampées insérées en append only.
De toute façon, je viens de passer le sujet à l'équipe data dont c'est la spécialité. Ils m'ont dit que les time series et applis du genre qu'on demande étaient déjà dans leurs cordes, donc c'est un soucis en moins pour nous.
On se contentera de balancer Kafka dedans, et ils s'occupent du reste.
Ca me va très bien.

Message cité 1 fois
Message édité par el muchacho le 14-11-2024 à 16:43:43

---------------
Les aéroports où il fait bon attendre, voila un topic qu'il est bien
n°2484546
hephaestos
Sanctis Recorda, Sanctis deus.
Posté le 14-11-2024 à 16:50:44  profilanswer
 

rufo a écrit :


Ca ressemble quand même beaucoup à des logs d'une certaine façon. Il me semblait avoir vu que maintenant, on passait par une BD NoSQL (souvent de type document) car c'était plus performant pour le stockage et le traitement qu'un SGBDR quand il y avait des gros volumes.


Perdre la structure des données en foutant tout dans la même table, ce serait dommage, à moins de payer notre fournisseur au nombre de tables. C'est pas de simple logs, précisément parce que ce sont des données structurées.
 
Du NoSQL, pourquoi pas, mais en terme de techno DDT en a mentionné quelques-unes plus adaptées au besoin (et un SGBDR c'est sans doute quand même la bonne solution s'il y en a déjà un en place, à moins qu'on ait de bonnes raisons de penser que la différence de performance est un problème).

Message cité 2 fois
Message édité par hephaestos le 14-11-2024 à 17:02:31
n°2484547
Dion
Acceuil
Posté le 14-11-2024 à 17:37:19  profilanswer
 

Il y a quand même des choix audacieux  
https://img3.super-h.fr/images/2024/11/14/Untitled.gif


---------------
It is not called show art
n°2484548
sligor
Posté le 14-11-2024 à 17:38:11  profilanswer
 

c'est quoi cette UI degueulasse ? c'est linux ?


---------------
qwerty-fr
n°2484549
Dion
Acceuil
Posté le 14-11-2024 à 17:41:47  profilanswer
 

hephaestos a écrit :


Perdre la structure des données en foutant tout dans la même table, ce serait dommage, à moins de payer notre fournisseur au nombre de tables. C'est pas de simple logs, précisément parce que ce sont des données structurées.
 
Du NoSQL, pourquoi pas, mais en terme de techno DDT en a mentionné quelques-unes plus adaptées au besoin (et un SGBDR c'est sans doute quand même la bonne solution s'il y en a déjà un en place, à moins qu'on ait de bonnes raisons de penser que la différence de performance est un problème).


 
Bonjour Vulcan,
 
Je me permets de vous contacter suite à votre parcours impressionnant et à vos compétences dans le domaine de la tarification. Nous pensons que votre expérience pourrait être en parfaite adéquation avec un poste de Pricing Manager que nous avons actuellement ouvert chez ChienDonnées.
 
Chez ChienDonnées, nous sommes engagés et nous recherchons des talents comme le vôtre pour nous aider à atteindre nos objectifs ambitieux. En parcourant votre profil, j’ai particulièrement apprécié votre expérience en Pricing Management qui serait un atout précieux pour notre équipe.
 
Nous aimerions beaucoup vous en dire plus sur cette opportunité et discuter avec vous de votre parcours, de vos aspirations, et de la façon dont vous pourriez contribuer à nos projets actuels et futurs. Seriez-vous disponible pour un échange téléphonique ou une rencontre virtuelle dans les jours qui viennent ?
 
N’hésitez pas à me proposer un créneau qui vous conviendrait, ou je peux également m'adapter à vos disponibilités.
 
Dans l’attente de vous lire, je reste à votre disposition pour toute question et espère pouvoir vous en dire davantage sur cette opportunité prometteuse chez ChienDonnées.
 
Bien cordialement,


---------------
It is not called show art
n°2484550
rufo
Pas me confondre avec Lycos!
Posté le 14-11-2024 à 17:41:53  profilanswer
 

el muchacho a écrit :


Oui il y a des ressemblances: données immutables timestampées insérées en append only.
De toute façon, je viens de passer le sujet à l'équipe data dont c'est la spécialité. Ils m'ont dit que les time series et applis du genre qu'on demande étaient déjà dans leurs cordes, donc c'est un soucis en moins pour nous.
On se contentera de balancer Kafka dedans, et ils s'occupent du reste.
Ca me va très bien.


hephaestos a écrit :


Perdre la structure des données en foutant tout dans la même table, ce serait dommage, à moins de payer notre fournisseur au nombre de tables. C'est pas de simple logs, précisément parce que ce sont des données structurées.
 
Du NoSQL, pourquoi pas, mais en terme de techno DDT en a mentionné quelques-unes plus adaptées au besoin (et un SGBDR c'est sans doute quand même la bonne solution s'il y en a déjà un en place, à moins qu'on ait de bonnes raisons de penser que la différence de performance est un problème).


Ayant peu d'infos sur la nature et le volume des données, pas facile de faire une réponse pertinente. Si une équipe de ta boîte sait faire et s'en charge, c'est parfait. ;)
 
L'idée de la table unique, c'était dans le cas où tu as une liste d'événements bien identifiés et que chacun à le même nb de valeurs associées et de même nature (je t'avais posé la question mais tu ne m'as pas répondu). Ca permet d'avoir une structure unique où chaque type d'événement à un ID. Ainsi, si tu as de nouveaux événements par la suite, suffit de créer un nouvel ID et c'est tout, pas besoin de faire évoluer le code. Suivant la volumétrie et les traitements à faire dessus, tu peux partitionner la table unique sur le timestamp ou l'ID des événements (ou autre) afin de pas plomber les perfs.
 
Si les données sont de nature très différentes et en gros volume, du NoSQL peut avoir un intérêt, notamment si après, y'a une volonté de faire de la data analyse. Y'a pas mal d'outils orienté data mining qui travaillent avec du NoSQL en particulier pour le calcul distribué (Hive, HBase, Spark et tout ce qui tourne autour de Hadoop).


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
n°2484551
Dion
Acceuil
Posté le 14-11-2024 à 17:43:10  profilanswer
 

sligor a écrit :

c'est quoi cette UI degueulasse ? c'est linux ?


Non mais tu n'es pas loin, tu as du reconnaitre la patte GPL :
https://img3.super-h.fr/images/2024/11/14/Untitled2.gif


---------------
It is not called show art
n°2484552
el muchach​o
Comfortably Numb
Posté le 14-11-2024 à 18:02:40  profilanswer
 

rufo a écrit :


Si les données sont de nature très différentes et en gros volume, du NoSQL peut avoir un intérêt, notamment si après, y'a une volonté de faire de la data analyse. Y'a pas mal d'outils orienté data mining qui travaillent avec du NoSQL en particulier pour le calcul distribué (Hive, HBase, Spark et tout ce qui tourne autour de Hadoop).


 
Hint: il bosse chez Google, la boîte qui a inventé ce type de bases de données. :o


---------------
Les aéroports où il fait bon attendre, voila un topic qu'il est bien
n°2484553
el muchach​o
Comfortably Numb
Posté le 14-11-2024 à 18:03:11  profilanswer
 

Dion a écrit :


Non mais tu n'es pas loin, tu as du reconnaitre la patte GPL :
https://img3.super-h.fr/images/2024/11/14/Untitled2.gif


 
Ne dis pas de mal de MPC-HC, c'est très bien MPC-HC. :o


---------------
Les aéroports où il fait bon attendre, voila un topic qu'il est bien
n°2484554
hephaestos
Sanctis Recorda, Sanctis deus.
Posté le 14-11-2024 à 18:04:03  profilanswer
 

rufo a écrit :

 

L'idée de la table unique, c'était dans le cas où tu as une liste d'événements bien identifiés et que chacun à le même nb de valeurs associées et de même nature (je t'avais posé la question mais tu ne m'as pas répondu). Ca permet d'avoir une structure unique où chaque type d'événement à un ID. Ainsi, si tu as de nouveaux événements par la suite, suffit de créer un nouvel ID et c'est tout, pas besoin de faire évoluer le code. Suivant la volumétrie et les traitements à faire dessus, tu peux partitionner la table unique sur le timestamp ou l'ID des événements (ou autre) afin de pas plomber les perfs.

 



C'est un variant, et c'est rarement une bonne idée, parce que ça fait porter le travail d'interprétation du type au consommateur. Bien sûr qu'il faut faire évoluer le code quand on rajoute un type, ce qui n'évolue pas c'est la couche de stockage. Ça peut être valable si il y a beaucoup en commun entre les différents types d'événements, et que les consommateurs s'en tiennent en général à la partie commune. C'est toujours un risque en termes d'évolution.

n°2484555
hephaestos
Sanctis Recorda, Sanctis deus.
Posté le 14-11-2024 à 18:21:48  profilanswer
 

el muchacho a écrit :

 

Hint: il bosse chez Google, la boîte qui a inventé ce type de bases de données. :o


Oui après je ne suis pas un expert du tout. Mais justement en tant que non expert j'ai eu l'occasion de constater que c'est très dur d'atteindre les limites du gestionnaire de bases de données relationnel maison. Le choix n'est en pratique presque jamais sur la performance. Et typiquement pour un cas comme celui décrit ici, où on veut utiliser des données de plusieurs façons différentes pour moi le choix serait immédiat (Spanner, le MySql maison).

n°2484556
Kenshineuh
Posté le 14-11-2024 à 18:29:52  profilanswer
 

On utilise leveldb chez Plamcorps et putain quelle merde. Le temps perdu quand tu streams même 200000 entrées. Bon chaque entrée peut peser lourd chez nous. Mais c'etait pas le meilleur choix pour stocker des données clients. Surtout quand tu grossis à mort. La moindre recherche prend un temps fou.

n°2484557
Plam
Bear Metal
Posté le 14-11-2024 à 18:43:08  profilanswer
 

C'était pratique au départ (après c'était pas mon idée, j'y suis pour rien :o ), mais c'est clair que c'est plus du tout adapté à la taille actuelle :D

Message cité 1 fois
Message édité par Plam le 14-11-2024 à 18:43:24

---------------
Spécialiste du bear metal
n°2484558
Tibar
Posté le 14-11-2024 à 18:49:20  profilanswer
 

Je me permets un petit lien vers mon dernier message dans la catégorie SQL/NoSQL, dans lequel je me pose la question de normaliser toutes les données que je fais entrer en BDD ou plutôt de stocker "en vrac", quitte à ne structurer "à la volée" que ce qui sera utile lorsque l'utilisateur en aura besoin :  
 
https://forum.hardware.fr/hfr/Progr [...] 8609_1.htm
 
Je suis presque sûr qu'il a été lu par quelques personnes d'ici, mais pas de réponse pour le moment (et la problématique est claire dans ma tête, mais pas évidente à expliquer, du coup n'hésitez pas si vous avez des questions).
 
Merci !


Message édité par Tibar le 14-11-2024 à 18:50:14
n°2484559
Jubijub
Parce que je le VD bien
Posté le 14-11-2024 à 20:40:02  profilanswer
 

hephaestos a écrit :


 
Ah non, normaliser c'est pas pour optimiser la place, c'est parce que c'est la seule façon de stocker les données sans aucun risque d'ambiguïté ou d'incohérence. C'est le plus facile à faire correctement.
 
Mais avant de cacher ou d'optimiser des calculs (4 lookups et une soustraction ? wow tu as fait une demande de TPU on risque d'être un peu short Q12025), faut voir ce qu'ils coûtent, non ?
 
Et ces optimisations peuvent très bien se faire par dessus des données normalisées, je pense que c'est presque toujours une erreur d'adapter le stockage au métier.


1/ Je suis d’accord pour les bénéfices de la normalisation
 
2/ ça va dépendre des volumes et de la patate du serveur. Tout le monde n’a pas Spanner  
 
3/ on est d’accord c’est ce que je disais au dessus d’ailleurs
 
 

hephaestos a écrit :


Oui après je ne suis pas un expert du tout. Mais justement en tant que non expert j'ai eu l'occasion de constater que c'est très dur d'atteindre les limites du gestionnaire de bases de données relationnel maison. Le choix n'est en pratique presque jamais sur la performance. Et typiquement pour un cas comme celui décrit ici, où on veut utiliser des données de plusieurs façons différentes pour moi le choix serait immédiat (Spanner, le MySql maison).


 
Ça c’est parce que tu bosses sur des petits datasets :o
Selon comment les subqueries pour trouver la dernière fermeture de valve avant le timestamp x ça peut être lent, et ça devient vite sale si tu dois combiner plusieurs requêtes / avoir une logique pour calculer l’état actuel
 
Mais +1, j’utiliserais aussi Spanner, et vu que c’est la fête du slip je stockerais normalisé + cache des calculs, mais pour une boîte qui a un budget moins Lolilol ça me choquerait pas


---------------
Jubi Photos : Flickr - 500px
n°2484560
flo850
moi je
Posté le 14-11-2024 à 20:50:00  profilanswer
 

Kenshineuh a écrit :

On utilise leveldb chez Plamcorps et putain quelle merde. Le temps perdu quand tu streams même 200000 entrées. Bon chaque entrée peut peser lourd chez nous. Mais c'etait pas le meilleur choix pour stocker des données clients. Surtout quand tu grossis à mort. La moindre recherche prend un temps fou.


de notre côté il y a du redis et du leveldb
le nombre de fois ou on charge tout en mémoire pour faire la moindre recherche

 

edit : en fait la majeur partie des objets ne vivent qu'en mémoire (chaque VM, chaque stat, chaque disque ,.. )


Message édité par flo850 le 14-11-2024 à 20:52:13

---------------

n°2484561
Jubijub
Parce que je le VD bien
Posté le 14-11-2024 à 21:17:18  profilanswer
 

https://vm.tiktok.com/ZGdFyveJN/
 
Un Haka en pleine assemblée ça ça a de la gueule


---------------
Jubi Photos : Flickr - 500px
n°2484562
hephaestos
Sanctis Recorda, Sanctis deus.
Posté le 14-11-2024 à 21:19:42  profilanswer
 

Jubijub a écrit :

 

Ça c’est parce que tu bosses sur des petits datasets :o
Selon comment les subqueries pour trouver la dernière fermeture de valve avant le timestamp x ça peut être lent, et ça devient vite sale si tu dois combiner plusieurs requêtes / avoir une logique pour calculer l’état actuel

 

Mais +1, j’utiliserais aussi Spanner, et vu que c’est la fête du slip je stockerais normalisé + cache des calculs, mais pour une boîte qui a un budget moins Lolilol ça me choquerait pas


C'est pas une question d'avoir Spanner, c'est que c'est certain qu'il existe des systèmes de stockage qui gèrent ce genre de problème sans aucune difficulté. Spanner n'est pas le seul, il y a vraisemblablement moins cher qui fait le job (j'ai aucune idée de comment se positionne Spanner en termes de coût). Après si tu me prouves que c'est moins cher d'utiliser un nosql, pourquoi pas mais là on part sur des considérations encore bien différentes, on n'a rien qui indique que ce soit significatif. On n'est pas des animaux, si on a des données structurées, on les stocke en gardant la structure !

Message cité 2 fois
Message édité par hephaestos le 14-11-2024 à 21:21:07
n°2484563
lorill
Posté le 14-11-2024 à 21:30:33  profilanswer
 

Jubijub a écrit :

https://vm.tiktok.com/ZGdFyveJN/

 

Un Haka en pleine assemblée ça ça a de la gueule


Mais bordel, il s'arrête jamais avec ses vidéos lui. Un coup à nous pourrir les recommandations :o

n°2484564
lorill
Posté le 14-11-2024 à 21:31:02  profilanswer
 

@ratibus t'es loin de figeac ?

n°2484565
Jubijub
Parce que je le VD bien
Posté le 14-11-2024 à 21:38:33  profilanswer
 

hephaestos a écrit :


C'est pas une question d'avoir Spanner, c'est que c'est certain qu'il existe des systèmes de stockage qui gèrent ce genre de problème sans aucune difficulté. Spanner n'est pas le seul, il y a vraisemblablement moins cher qui fait le job (j'ai aucune idée de comment se positionne Spanner en termes de coût). Après si tu me prouves que c'est moins cher d'utiliser un nosql, pourquoi pas mais là on part sur des considérations encore bien différentes, on n'a rien qui indique que ce soit significatif. On n'est pas des animaux, si on a des données structurées, on les stocke en gardant la structure !


Tu te trompes de personne, j’ai jamais parlé de nosql?


---------------
Jubi Photos : Flickr - 500px
n°2484566
ratibus
Posté le 14-11-2024 à 21:49:20  profilanswer
 

lorill a écrit :

@ratibus t'es loin de figeac ?


Entre 1h et 1h30.

n°2484567
XaTriX
Posté le 14-11-2024 à 21:55:26  profilanswer
 

Dion a écrit :

Il y a défouloir et il y a des propos publics contraires à la loi pour leurs contenus sexistes, racistes, xénophobes ou diffamatoires, même si l'individu a un rôle de modérateur.

 

Machine modo ça serait quand même autre chose [:cosmoschtroumpf]


Ça m'étonne  [:transparency]
Je veux dire, à part Flaie :o, je n'ai pas vu de facho ici :o


---------------
Proxytaf ? non rien
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  26314  26315  26316  ..  27201  27202  27203  27204  27205  27206

Aller à :
Ajouter une réponse
 

Sujets relatifs
Plus de sujets relatifs à : [blabla@olympe] Le topic du modo, dieu de la fibre et du monde


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)