|
Page : 1 2 Page Précédente | |
Auteur | Sujet : Organisation de tout plein de données |
Publicité | Posté le 13-04-2012 à 11:40:10 |
el muchacho Comfortably Numb | L'intérêt d'utiliser une BD va vraiment dépendre de si les calculs demandés sont toujours les mêmes (des plages de dates et c'est tout) ou si l'utilisateur veut pouvoir varier les critères. Message édité par el muchacho le 13-04-2012 à 12:38:20 --------------- Les aéroports où il fait bon attendre, voila un topic qu'il est bien |
ratibus |
|
el muchacho Comfortably Numb | J'ai pas compris l'utilisation des données, en fait. C'est l'appli qui fait des calculs sur les indicateurs ? Les calculs ont-ils réellement besoin d'être faits sur des centaines de millions de données, ou on peut faire de l'échantillonnage (ce qui revient à prendre une granularité plus grosse) ? Quelles sont les contraintes de temps, hardware ? Message cité 1 fois Message édité par el muchacho le 13-04-2012 à 12:49:22 --------------- Les aéroports où il fait bon attendre, voila un topic qu'il est bien |
Elmoricq Modérateur | Ça dépend surtout des budgets infras dont tu disposes, et des contraintes éventuelles de temps réel. Chez nous on fait du BI dans la finance justement, à base de 2-3 milliards de lignes (pour le type de traitement le plus gros, on en a plein d'autres), à traiter au fil de l'eau, la majeure partie durant la nuit et une autre durant la journée (en fonction des closing internationaux). Mais on n'a pas de contrainte de temps réel, du coup on a une latence moy. d'environ 2-5min sur la mise à dispo des données. Par contre pour la restitution, c'est ultra rapide. Avec des contraintes TR je regarderais plutôt vers des bases in-memory qui permettent de tout charger en mémoire une base de départ, et d'y charger les MAJ ultra rapidement (sans parler des restitutions). En tout cas zieute les outils BI, j'connais pas trop ce qui se fait en opensource mais y en a, ça peut faire une bonne base de départ/de réflexion. Message cité 2 fois Message édité par Elmoricq le 13-04-2012 à 12:50:29 |
rufo Pas me confondre avec Lycos! | Suivant les traitements à effectuer, je pense que ça va se jouer entre un SGBD ou un BI (pour info, Pentaho est un BI en GPL qui est très bien). Si les tables risque d'être très grosses, il y a la solution de les partitionner (en colonnes ou en lignes) suivant des critères. --------------- Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta |
el muchacho Comfortably Numb |
edit: exemple http://wiki.pentaho.com/display/DA [...] +with+Weka
Message cité 2 fois Message édité par el muchacho le 13-04-2012 à 13:16:25 --------------- Les aéroports où il fait bon attendre, voila un topic qu'il est bien |
Elmoricq Modérateur |
On a deux modes de restitution : cubes de données consultables par les utilisateurs directement sous excel (qui a en natif des modules BI), et récupération en masse par d'autres applications des périmètres qui les intéressent.
J'ai pas le détail, je pense qu'au-delà d'une certaine masse de données ce n'est plus une solution intéressante. Mais c'est idéal pour le temps réel par contre. Sinon un autre ajout : pour les traitements en masse (insertion/restitution) et pour les requêtes par axe d'analyse (dimensions), il vaut mieux en SGBD s'orienter vers une base orientée colonne que vers une base transactionnelle classique. Message cité 1 fois Message édité par Elmoricq le 13-04-2012 à 13:32:45 |
Publicité | Posté le 13-04-2012 à 13:30:38 |
Elmoricq Modérateur | C'est ce que je mets dans mon dernier post : zieuter les DB orientés colonne. Message édité par Elmoricq le 13-04-2012 à 13:45:51 |
ratibus | T'as Infinidb aussi qui a une version community : http://infinidb.org/
|
0x90 → | Le pb est intéressant, mais c'est vraiment l'usage des données derrière qui va jouer.
--------------- Me: Django Localization, Yogo Puzzle, Chrome Grapher, C++ Signals, Brainf*ck. |
Taiche (╯°□°)╯︵ ┻━┻ | Putain, je pose une question toute conne, je pars bouffer 2h et c'est le bordel On peut pas vous faire confiance
--------------- Everyone thinks of changing the world, but no one thinks of changing himself | It is the peculiar quality of a fool to perceive the faults of others and to forget his own | Early clumsiness is not a verdict, it’s an essential ingredient. |
0x90 → |
Je stocke une version transformée de ta séquence de nombre, de taille ~équivalente, mais qui permet facilement et rapidement de récupérer un sous-ensemble de la séquence. C'est un peu dans l'esprit du tuilage google maps, mais en 1D avec des floats. Cela dit t'as l'air de plutôt viser des traitements batch plutôt que de la ballade, donc c'est pas spécialement intéressant pour toi. Message cité 1 fois Message édité par 0x90 le 13-04-2012 à 15:44:57 --------------- Me: Django Localization, Yogo Puzzle, Chrome Grapher, C++ Signals, Brainf*ck. |
Taiche (╯°□°)╯︵ ┻━┻ |
--------------- Everyone thinks of changing the world, but no one thinks of changing himself | It is the peculiar quality of a fool to perceive the faults of others and to forget his own | Early clumsiness is not a verdict, it’s an essential ingredient. |
ratibus |
|
Taiche (╯°□°)╯︵ ┻━┻ | Le symbole sous forme de numérique ? On parle de noms style "GLE" pour la Société Générale ou "AAPL" pour Apple. Des symboles Bloomberg, quoi. Possible qu'on puisse convertir ouais, mais je sais pas si c'est une suepr opération Pour la date oui, mais je sais pas jusqu'à quand le gars va vouloir remonter (y a des tarés pour remonter jusqu'au 17ème siècle, alors bon...).
--------------- Everyone thinks of changing the world, but no one thinks of changing himself | It is the peculiar quality of a fool to perceive the faults of others and to forget his own | Early clumsiness is not a verdict, it’s an essential ingredient. |
ratibus |
Je vois bien à quoi correspondent tes 4 valeurs au niveau fonctionnel, mais du coup comment tu intègres la notion de tick avec cette modélisation ? Pour reprendre ton exemple de fournisseur, ça correspond aux trade data dispo ici http://www.tickdata.com/products/equities/
Message cité 2 fois Message édité par ratibus le 13-04-2012 à 17:22:22 |
el muchacho Comfortably Numb | En l'occurence, pour optimiser l'espace, une foreign key, ça n'a pas grand intérêt parce que ça va prendre autant d'espace qu'un symbole de 3 caractères. Par contre, j'ai jamais compris pourquoi le volume n'était pas pris en compte en analyse technique. Je me suis déjà amusé à faire du backtracking dans un lointain passé sur un logiciel adhoc (AmiBroker), mais je ne faisais pas ça sur des millions de données, juste sur le cours de cloture des 10 dernières années, ce qui faisait quelques milliers de valeurs En tout cas, pour moi, vu que ce sont des données purement temporelles, une base de données n'est pas forcément nécessaire, des fichiers binaires avec un format adhoc iraient probablement aussi bien et seraient probablement ce qu'il y a de plus rapide. L'idée de compression de son de 0x90 peut sembler pas mal mais ça signifie nécessairement une perte et une granularité minimale. Un répertoire par symbole, des fichiers de données lisibles en parallèle par des threads ou en mmap (à voir si c'est possible en C#), et s'il faut faire super vite, le tout sur du raid 0 ou des disques parallèles. Les traitements en RAM par lots si la mémoire dispo n'est pas suffisante. Mais il faut bien faire attention aux limitations qu'on s'impose si on part sur ce type d'option. Hop, pour le fun, j'ai retrouvé ma formule magique de suivi de cours qui déchirait tout
Message cité 3 fois Message édité par el muchacho le 13-04-2012 à 20:27:33 --------------- Les aéroports où il fait bon attendre, voila un topic qu'il est bien |
Taiche (╯°□°)╯︵ ┻━┻ |
--------------- Everyone thinks of changing the world, but no one thinks of changing himself | It is the peculiar quality of a fool to perceive the faults of others and to forget his own | Early clumsiness is not a verdict, it’s an essential ingredient. |
Taiche (╯°□°)╯︵ ┻━┻ | Je réponds aux bouts que t'as édités
--------------- Everyone thinks of changing the world, but no one thinks of changing himself | It is the peculiar quality of a fool to perceive the faults of others and to forget his own | Early clumsiness is not a verdict, it’s an essential ingredient. |
el muchacho Comfortably Numb | Si tu codes proprement, normalement, tu peux atteindre la bande passante de ton disque, qui peut monter à 100-150 Mo/s de données, à multiplier par le nombre de disques/plateaux si tu fais du raid ou du SSD.
Message cité 1 fois Message édité par el muchacho le 13-04-2012 à 18:09:25 --------------- Les aéroports où il fait bon attendre, voila un topic qu'il est bien |
Taiche (╯°□°)╯︵ ┻━┻ |
--------------- Everyone thinks of changing the world, but no one thinks of changing himself | It is the peculiar quality of a fool to perceive the faults of others and to forget his own | Early clumsiness is not a verdict, it’s an essential ingredient. |
Elmoricq Modérateur |
|
Taiche (╯°□°)╯︵ ┻━┻ |
--------------- Everyone thinks of changing the world, but no one thinks of changing himself | It is the peculiar quality of a fool to perceive the faults of others and to forget his own | Early clumsiness is not a verdict, it’s an essential ingredient. |
el muchacho Comfortably Numb | Par contre, 64 bits obligatoires, pour les volumes de données en quesiton. --------------- Les aéroports où il fait bon attendre, voila un topic qu'il est bien |
el muchacho Comfortably Numb |
Message cité 1 fois Message édité par el muchacho le 13-04-2012 à 18:14:32 --------------- Les aéroports où il fait bon attendre, voila un topic qu'il est bien |
Taiche (╯°□°)╯︵ ┻━┻ |
--------------- Everyone thinks of changing the world, but no one thinks of changing himself | It is the peculiar quality of a fool to perceive the faults of others and to forget his own | Early clumsiness is not a verdict, it’s an essential ingredient. |
Taiche (╯°□°)╯︵ ┻━┻ |
--------------- Everyone thinks of changing the world, but no one thinks of changing himself | It is the peculiar quality of a fool to perceive the faults of others and to forget his own | Early clumsiness is not a verdict, it’s an essential ingredient. |
el muchacho Comfortably Numb |
Message édité par el muchacho le 13-04-2012 à 18:34:40 --------------- Les aéroports où il fait bon attendre, voila un topic qu'il est bien |
R3g fonctionnaire certifié ITIL |
--------------- Au royaume des sourds, les borgnes sont sourds. |
Elmoricq Modérateur |
Les futures par ex. (mais fonctionne entre autres aussi pour les options listées ou les bonds) sont fongibles, cad que tu peux les agréger par position sur un contrat+date de livraison (pour les futures), ce qui réduit le nombre de lignes à traiter de manière drastique Message édité par Elmoricq le 13-04-2012 à 19:32:51 |
el muchacho Comfortably Numb |
Message cité 1 fois Message édité par el muchacho le 14-04-2012 à 08:55:07 --------------- Les aéroports où il fait bon attendre, voila un topic qu'il est bien |
Dion Acceuil |
--------------- When it comes to business/legal topics, just assume almost everyone commenting has no idea what they’re taking about and have no background in these subjects because that’s how it really is. Harkonnen 8-> Elmoricq 8====> |
Taiche (╯°□°)╯︵ ┻━┻ |
--------------- Everyone thinks of changing the world, but no one thinks of changing himself | It is the peculiar quality of a fool to perceive the faults of others and to forget his own | Early clumsiness is not a verdict, it’s an essential ingredient. |
Publicité | Posté le |
Page : 1 2 Page Précédente |