Topic Kimsufi OVH : un serveur dédié à partir de 4.99€

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 277 278 279 .. 288 289 290 291 292 293 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Topic Kimsufi OVH : un serveur dédié à partir de 4.99€

depart

Reprise du message précédent :
A l'aide svp...
Cette nuit un de mes KS a pseudo crashé (plus de services web)
je me connecte en ssh, ça marche, je ne trouve rien de spécial. Il y a de la place sur les partitions.
Un redémarrage d'apache/php ne donne rien (ils ne veulent pas).
le debug là dessus ne m'informe pas de grand chose, je me dis, allez je fais un apt update et je reboote... mais même l'apt ne veut pas (de tête il me dit que le système est read-only).
Bon allez, un bon reboot et ça devrait plier le truc.
et là c'est le drame, plus rien
le serveur ping mais pas de ssh

reboot hard pas mieux.

Là je suis en rescue, mais je ne vois pas trop ce que je peux faire.

J'ai monté la partition système (sda1 dans /mnt) et je regarde les logs. Tout s'arrête à 23h59 (le serveur a crashé un tout petit peu après minuit sur l'aspect web, mais c'est étonnant de ne rien trouver car j'ai quand même réussi à accéder en ssh ce matin).

- dans fstab tout est normal (strictement identique à mes autres KS)
- j'ai tenté de désactiver ufw (mais il a l'air normal) et de rebooter en mode normal -> pas mieux

dans les autres logs dmesg, kern, ... je ne vois rien de spécial, surtout il n'y a rien issu de mes autres tentatives de reboot (genre le reboot hard aboutit à ce que le serveur pinge, donc l'os démarre bien un peu... mais rien dans les logs). Aucun log du 11 juillet par exemple.

Que faire ? Des suggestions ?
Et bien sûr sur les 3 que j'ai, c'est le serveur le plus important avec plein de clients qui comptent dessus...

Smartctl du disque :

Spoiler :

root@rescue-customer-eu (ns396063.ip-176-31-121.eu) /mnt/var/log # smartctl -a /dev/sda
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-5.10.18-mod-std] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: HGST Ultrastar 7K6000
Device Model: HGST HUS726020AAA610
Serial Number: N4G3ZCHUT1AYT32
LU WWN Device Id: 5 000cca 245c2afd3
Firmware Version: A5GNT920
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ATA8-ACS T13/1699-D revision 4
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Mon Jul 11 09:20:23 2022 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x80) Offline data collection activity
was never started.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 113) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 288) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 135 135 054 Pre-fail Offline - 112
3 Spin_Up_Time 0x0007 136 136 024 Pre-fail Always - 218 (Average 220)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 42
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 950
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 128 128 020 Pre-fail Offline - 18
9 Power_On_Hours 0x0012 094 094 000 Old_age Always - 43212
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 42
192 Power-Off_Retract_Count 0x0032 098 098 000 Old_age Always - 2442
193 Load_Cycle_Count 0x0012 098 098 000 Old_age Always - 2442
194 Temperature_Celsius 0x0002 095 095 000 Old_age Always - 63 (Min/Max 10/66)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 950
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 12
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 50
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0

SMART Error Log Version: 1
ATA Error Count: 104 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 104 occurred at disk power-on lifetime: 43201 hours (1800 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 43 00 00 00 00 00 Error: UNC at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 08 f0 b0 37 50 40 08 2d+04:11:28.791 READ FPDMA QUEUED
60 90 08 10 6f 79 40 08 2d+04:11:26.027 READ FPDMA QUEUED
61 08 00 00 08 10 40 08 2d+04:11:26.026 WRITE FPDMA QUEUED
ea 00 00 00 00 00 a0 08 2d+04:11:26.020 FLUSH CACHE EXT
ec 00 01 00 00 00 00 08 2d+04:11:26.020 IDENTIFY DEVICE

Error 103 occurred at disk power-on lifetime: 43201 hours (1800 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 43 00 00 00 00 00 Error: UNC at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 08 20 b0 37 50 40 08 2d+04:11:25.658 READ FPDMA QUEUED
60 20 30 08 d5 1a 40 08 2d+04:11:23.004 READ FPDMA QUEUED
60 20 28 00 34 7d 40 08 2d+04:11:23.003 READ FPDMA QUEUED
60 08 18 00 38 50 40 08 2d+04:11:22.905 READ FPDMA QUEUED
60 08 10 f8 37 50 40 08 2d+04:11:22.898 READ FPDMA QUEUED

Error 102 occurred at disk power-on lifetime: 43177 hours (1799 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 43 00 00 00 00 00 Error: UNC at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 08 90 e0 d5 ac 40 08 1d+04:11:36.359 READ FPDMA QUEUED
61 10 98 e8 88 86 40 08 1d+04:11:33.595 WRITE FPDMA QUEUED
ea 00 00 00 00 00 a0 08 1d+04:11:33.594 FLUSH CACHE EXT
47 00 01 12 00 00 a0 08 1d+04:11:33.592 READ LOG DMA EXT
47 00 01 00 00 00 a0 08 1d+04:11:33.591 READ LOG DMA EXT

Error 101 occurred at disk power-on lifetime: 43177 hours (1799 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 43 00 00 00 00 00 Error: UNC at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 08 60 e0 d5 ac 40 08 1d+04:11:33.426 READ FPDMA QUEUED
61 08 58 e8 25 17 40 08 1d+04:11:30.656 WRITE FPDMA QUEUED
ea 00 00 00 00 00 a0 08 1d+04:11:30.656 FLUSH CACHE EXT
ea 00 00 00 00 00 a0 08 1d+04:11:30.640 FLUSH CACHE EXT
61 c0 28 28 25 17 40 08 1d+04:11:30.614 WRITE FPDMA QUEUED

Error 100 occurred at disk power-on lifetime: 43177 hours (1799 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 43 00 00 00 00 00 Error: UNC at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 80 c0 f0 d4 ac 40 08 1d+04:11:30.409 READ FPDMA QUEUED
60 68 c8 80 d6 ac 40 08 1d+04:11:27.645 READ FPDMA QUEUED
60 18 b8 d8 c9 ac 40 08 1d+04:11:27.645 READ FPDMA QUEUED
ea 00 00 00 00 00 a0 08 1d+04:11:27.641 FLUSH CACHE EXT
60 20 90 d0 d4 ac 40 08 1d+04:11:27.627 READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 2486 -
# 2 Short offline Completed without error 00% 2483 -
# 3 Short offline Completed without error 00% 2483 -
# 4 Short offline Completed without error 00% 2442 -
# 5 Short offline Completed without error 00% 2434 -
# 6 Short offline Completed without error 00% 242 -
# 7 Short offline Completed without error 00% 234 -
# 8 Short offline Completed without error 00% 234 -
# 9 Short offline Completed without error 00% 229 -
#10 Short offline Completed without error 00% 229 -
#11 Short offline Completed without error 00% 226 -
#12 Short offline Completed without error 00% 226 -
#13 Short offline Completed without error 00% 136 -
#14 Short offline Completed without error 00% 26 -
#15 Short offline Completed without error 00% 18 -
#16 Short offline Completed without error 00% 1 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Message édité par depart le 11-07-2022 à 11:22:21

Publicité

burn2

Pour ceux qui viendront après

ça ressemble à un disque dur HS ça.
C'est un serveur sans RAID?

Message édité par burn2 le 11-07-2022 à 10:54:25

---------------
"C'est vrai qu'un type aussi pénible de jour on serait en droit d'espérer qu'il fasse un break de nuit mais bon …"

l0g4n

Expert en tout :o

Euh, disque plein tout simplement ?

---------------
Fort et motivé. Sauf parfois.

depart

pb disque : j'ai rajouté le smartctl.
pour l'instant en le montant en rescue je n'ai aucune erreur pour accéder à des fichiers par exemple.

l0g4n : il y a de la place (53% sur / et encore plus sur /home)

Message cité 1 fois

burn2

Pour ceux qui viendront après

63° le disque dur!
Tu m'étonnes qu'il n'ait pas tenu!

---------------
"C'est vrai qu'un type aussi pénible de jour on serait en droit d'espérer qu'il fasse un break de nuit mais bon …"

bestiauvelu

ModÃ©rateur

depart a écrit :

Faire un test long pour voir si le disque est en train de lâcher.
Contrôler la température du système aussi (CPU etc.)
Demander à OVH de vérifier les branchements du disque, la ventilation du serveur etc.

Kyjja

Y'a pot !

Oh ça va, "seulement" 950 réallocations et 12 en pending, on est dans la bonne moyenne de totow

Le skeud à 66°C c'est normal s'il est dans la même baie que celui du sieur sus-mentionné [:ddr555]

Blague à part, disque moribond.

Imho un selftest long va renvoyer un résultat bien crade.

[:haha grillaid] par bestiauvelu le temps d'écrire.

Message édité par Kyjja le 11-07-2022 à 12:13:18

bestiauvelu

ModÃ©rateur

Ah oui et : si c'est un serveur de prod (sur un Kimsufi ?! ok admettons [:galom] ), sauvegarder les données au max, avant d'aller plus loin.

depart

la température en effet !

prod + kimsufi = ben oui quand on démarre une activité avec des clients peu nombreux et qui payent peu, c'est déjà pas mal. Ca fait quelques jours que je surveille le serveur à 5€ chez oneprovider (128 de SSD ça m'irait), mais pour l'instant je n'ai pas réussi à avoir le combo "serveur dispo + moi dispo pour passer la commande".

J'ai de la redondance car j'ai plusieurs serveurs, j'ai des synchros toutes les heures du serveur "principal" vers des backups (un autre ks, un serveur chez moi...) donc pas trop de soucis de ce côté là.

Par contre pas de bascule automatique + différents services un peu pénibles à reparamétrer (serveur de mail, tâches planifiées, ...)

Bon là ovh me propose un remplacement du disque dur, après que j'ai fait mes sauvegardes... j'en déduis qu'ils ne proposent pas de mettre un nouveau hdd, dupliquer le contenu de l'ancien vers le nouveau ?

Ca serait quoi la technique pour dupliquer les données du disque actuel (je n'ai que quelques Go) vers un backup que je pourrai restaurer pour remettre le système tel quel ?

En gros j'aimerai faire
sda1 et sda2 -> generer un gros fichier par partition -> transférer ça en ssh vers un autre kimsufi - demander le changement de disque -> booter en rescue sur le serveur réinstaller --> retransférer à l'envers -> et hop le serveur redémarre comme hier à 23h59.

C'est quoi l'approche ?

mon fils de 4 ans me dit "mais moi je peux t'aider : il faut faire A, B et puis un clic sur la souris". J'ai essayé mais ça n'a pas l'air suffisant

Message édité par depart le 11-07-2022 à 13:35:42

bestiauvelu

ModÃ©rateur

Si c'est seulement quelques Go (2 ? 10 ?), un coup de zip ou tar ou autre archivage, à placer en mémoire (pas sur le disque moisi...) puis l'envoyer vers le nouveau serveur.
Ou pour une capture complète du disque, dd > ssh > fichier ou disque sur le nouveau serveur.
Enfin bref y a l'embarras du choix, reste à voir ce qui est le plus adapté selon le type de données (bdd ? fichiers ?) à sauvegarder, et le volume.

Publicité

depart

je vais tenter un truc du genre :
tar -cvpzf backup.tar.gz --exclude=/mnt/sda2/backup.tar.gz --one-file-system /mnt/sda2
en le générant sur le disque "moisi" quand même

C'est pas "critique", j'essaie de sauver les meubles pour accélérer la restauration et ne pas me taper des heures de reconfig de trucs genre postfix, mysql et compagnie
si ça passe ça sera ça de gagné, sinon tant pis je repartirais de zéro + mes notes de config + restauration à partir des backup de données

"/" c'est 8.6 Go
"/home" c'est 34 Go

Message édité par depart le 11-07-2022 à 14:24:10

bestiauvelu

ModÃ©rateur

Si c'est juste sauvegarder la config, en principe c'est pas gros et tout est dans /etc /var/lib et compagnie, donc pas besoin de sauvegarder tout le contenu des partitions.
Un "sudo tar cvzf /dev/shm/backup.tgz --sparse --one-file-system /etc /var/lib /blabla" et c'est réglé.

Pour /home, si c'est juste des fichiers (et que pourrait-il y avoir d'autre dans /home ?), un "rsync serveursource:/home serveurdest:/home" et voilà

Message édité par bestiauvelu le 11-07-2022 à 14:32:18

depart

Tiens j'ai peut-être une piste. J'ai 400 000 fichiers de sessions dans var/lib/php/sessions ça peut peut-être faire que le nombre max d'id de fichiers possibles est atteint.

bestiauvelu

ModÃ©rateur

[:futurama1:5]

depart

J'ai supprimé mes 400 000 fichiers, reboot en cours.... suspens

Bon sinon ça y est :

depart

rhaaa, pas mieux.

Le serveur répond au ping, mais pas de ssh. C'est fou ça !

De retour en rescue, je fais donc mes tar.gz / rsync

Par contre comme je suis obligé de monter la partition dans un dossier, genre /mnt/sda2 je sens le problème suivant :
je vais avoir "mnt/sda2" dans mon tar, donc à l'extraction ça va se mettre dans "/mnt/sda2" et non pas dans "/"

C'est quoi l'astuce ? "--strip-components 2" ça fait l'affaire ?

La je suis sur une Ubuntu 20.04 focal 4.9.58-xxxx-std-ipv6-64
Je peux demander le changement de disque, réinstaller une ubuntu quelconque, me loguer en rescue, monter le disque, et restaurer mon tar.gz comme ça et oh miracle j'aurai mon os tout bien reconfiguré comme avant ?

Edit : bon OVH a changé le disque dur... je réinstalle en passant via proxmox. Comme ça je pourrais foirer ma restauration plus efficacement si besoin

Message édité par depart le 11-07-2022 à 18:01:44

depart

Ce fail... 2 fois que je réinstalle une debian puis lance l'install de proxmox en suivant ce tuto : https://pve.proxmox.com/wiki/Instal [...] 1_Bullseye

La 1e fois j'avais écrasé le fichier '/etc/default/networking' lors de l'install de proxmox (il m'avait demandé, j'ai hésité). l'install s'est mal terminée, et au reboot suivant je n'avais plus accès au serveur !

Là je viens de refaire en conservant le fichier d'origine... ben ça fait pareil. l'install de proxmox se termine en cacahuète ;(

C'est reparti avec le template "proxmox" ovh... j'avais pas vu mais ils sont en version 7, je m'attendais à une antiquité genre 4

Et pendant ce temps là chez oneprovider c'est pas foufou, mon serveur est toujours en "livraison en attente" !

Message cité 1 fois
Message édité par depart le 11-07-2022 à 20:07:27

bestiauvelu

ModÃ©rateur

depart a écrit :

Et pendant ce temps là chez oneprovider c'est pas foufou, mon serveur est toujours en "livraison en attente" !

La livraison chez Online/OneProv peut mettre jusqu'à 48 heures pour se terminer.

Message cité 1 fois

Andorria

bestiauvelu a écrit :

La livraison chez Online/OneProv peut mettre jusqu'à 48 heures pour se terminer.

Pour OneProvider, c'est normal, c'est un mec au Canada qui valide la livraison.

Message cité 1 fois

bestiauvelu

ModÃ©rateur

Andorria a écrit :

Pour OneProvider, c'est normal, c'est un mec au Canada qui valide la livraison.

Ou en Italie.

depart

ok, merci

bon, installation de proxmox ok sur mon ks1...
j'ai créé un conteneur à partir du template, l'ai monté en local sur l'hôte, ait transféré mon fichier de backup de "/", l'ait extrait...

me reste plus qu'à comprendre comment lui filer un accès réseau depuis l'extérieur, genre "nat"...

Si je lui force une ip de "lan" ça ne m'avance pas trop, si j'essaye de mettre la même ip que l'hôte ça ne veut pas. je peux lui mettre avec un /24 derrière et ça passe, mais :
1/ ça me fait flipper de tout péter
2/ à première vue ça ne fonctionne pas
3/ le firewall est désactivé

C'est quoi l'astuce (je n'ai qu'une ip publique) ?

Et accessoirement je n'arrive pas à me loguer au conteneur depuis l'interface de proxmox avec les login/pass de mon backup.

Message cité 1 fois
Message édité par depart le 11-07-2022 à 21:25:55

Andorria

depart a écrit :

littéralement le premier lien qui sort en tapant "kimsufi proxmox" sur Google...
https://it.izero.fr/proxmox-cloud-s [...] r-kimsufi/

depart

Merci pour le lien, en effet parfois je cherche trop compliqué... j'étais dans les recherches "nat proxmox"

Bon le coup de la restauration du "/" on va dire que ça ne passe pas j'ai tenté pas mal de choses, ça foire...

J'ai restauré un gros backup proxmox d'un conteneur assez similaire à ma prod et qui tournait chez moi, je pars d'un peu plus loin (tout le serveur de mails notamment à me retaper) mais ça a fonctionné du premier coup contre toute attente

depart

Sinon pour la blague, le "nouveau" disque dur :
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x80) Offline data collection activity
was never started.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 28) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 335) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 137 137 054 Pre-fail Offline - 78
3 Spin_Up_Time 0x0007 100 100 024 Pre-fail Always - 390
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 108
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 142 142 020 Pre-fail Offline - 25
9 Power_On_Hours 0x0012 092 092 000 Old_age Always - 62188
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 108
192 Power-Off_Retract_Count 0x0032 099 099 000 Old_age Always - 1355
193 Load_Cycle_Count 0x0012 099 099 000 Old_age Always - 1355
194 Temperature_Celsius 0x0002 090 090 000 Old_age Always - 66 (Min/Max 21/67)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 62170 -
# 2 Short offline Completed without error 00% 62162 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

----> plus de 7 ans d'heures de vol ! sympa le remplacement.
et il fait toujours 66 degrés dans le serveur... tout va bien !

Message cité 1 fois
Message édité par depart le 11-07-2022 à 22:56:29

toTOW

http://www.fah-addict.net/

Il chauffe encore plus que le précédent ... 62 000 heures de vol quand même ...

Mais aucune erreur

---------------
[b] FAH-Addict, première source d'information francophone sur le projet Folding@Home.

depart

3h37, mon serveur est de nouveau (presque) pleinement opérationnel.

Pas mal de petites blagounettes (ip non routable, ip locale qui a changée par rapport à avant, port 25 utilisé par proxmox alors que j'en ai besoin sur le conteneur...)

vive l'administration de machine

Kyjja

Y'a pot !

En même temps Kimsufi c'est déjà la 3eme vie du matos : tu ne risques pas d'avoir un HDD flambant (haha) neuf.

Tu ne lances pas un selftest long avant de copier tes données ?

bestiauvelu

ModÃ©rateur

depart a écrit :

Sinon pour la blague, le "nouveau" disque dur :
----> plus de 7 ans d'heures de vol ! sympa le remplacement.
et il fait toujours 66 degrés dans le serveur... tout va bien !

7 ans c'est absolument rien (se souvenir de la courbe de mortalité en berceau), et ce disque dur est impeccable.

C'est comme les pilotes d'Airbus : mieux vaut un vieux pilote avec zéro crash au compteur, qu'un jeune pilote qui n'a pas encore eu le temps de s'écraser.

burn2

Pour ceux qui viendront après

Tous les dd de mes serveurs ovh ont plus de 50 000h de vol.

---------------
"C'est vrai qu'un type aussi pénible de jour on serait en droit d'espérer qu'il fasse un break de nuit mais bon …"

depart

En novembre 2017 j'ai commandé les 3 kimsufi que j'utilise encore actuellement, à quelques jours d'intervalle.
Ils avaient respectivement 2487 heures / 927 heures et... 105 heures !!!

C'était une autre époque

3615 mylife : serveur oneprovider livré, installation de proxmox en cours (le template c'est proxmox 6 par contre chez eux).

Si le serveur répond bien, je pense que je migrerai mon appli "officielle"dessus, et que je ferai en sorte de répliquer genre 1x par jour le conteneur vers le kimsufi actuel.

J'imagine que le plus pertinent c'est de le faire via proxmox backup server ?

Vous pensez que je peux installer PBS en conteneur sur le kimsufi actuel et pousser directement des backups réguliers entre oneprovider et le kimsufi ?

ça fonctionne ? c'est fiable ? ça transfère que des deltas ou le conteneur entier à chaque fois ?

Message édité par depart le 12-07-2022 à 15:59:51

depart

Sinon ça continue... loi des séries.

Je mets à jour debian 10->11 et proxmox 6->7
Tout se passe plutôt bien

A la fin je reboote comme conseillé dans la doc...et depuis le serveur ne répond plus au ping même après un hard reboot !!!

rhaaaaaaaaaaaaaaaaaa mais je suis maudit.

Edit : bon en rescue je n'arrive qu'à monter la partition de boot, c'est déjà ça

Dedans j'ai :
config-5.15.39-1-pve initrd.img-5.15.39-1-pve pve vmlinuz-5.15.39-1-pve
config-5.4.189-2-pve initrd.img-5.4.189-2-pve System.map-5.15.39-1-pve vmlinuz-5.4.189-2-pve
grub lost+found System.map-5.4.189-2-pve

virer les vieux fichiers en 5.4 ça parait une bonne idée ou pas ?
Là j'avoue qu'on a atteint mes limites de sysadmin...

Message édité par depart le 12-07-2022 à 16:18:37

depart

Je pose ça là : monter une partition lvm en mode rescue : https://www.shellhacks.com/mount-lv [...] scue-mode/

Bon dans syslog ça démarre plutôt pas mal et ça enchaine avec des :
Jul 12 16:30:22 sd-132272 systemd[1]: Finished LXC Container Initialization and Autoboot Code.
Jul 12 16:30:22 sd-132272 named[676]: network unreachable resolving './DNSKEY/IN': 2001:500:12::d0d#53

et des kilomètres de :
Jul 12 16:30:50 sd-132272 named[676]: network unreachable resolving '_.pool.ntp.org/A/IN': 2001:503:c27::2:30#53
Jul 12 16:30:50 sd-132272 named[676]: network unreachable resolving '_.pool.ntp.org/A/IN': 2001:500:1::53#53
Jul 12 16:30:50 sd-132272 ntpd[708]: error resolving pool 0.debian.pool.ntp.org: Temporary failure in name resolution (-3)
Jul 12 16:30:50 sd-132272 named[676]: network unreachable resolving './NS/IN': 2001:500:a8::e#53
Jul 12 16:30:50 sd-132272 named[676]: network unreachable resolving './NS/IN': 2001:503:ba3e::2:30#53
Jul

j'ai tenté de modifier le resolv.conf en dégageant une entrée 127.0.0.1 et en ne laissant que les 2 entrées avec des DNS valides, mais ça ne semble pas changer grand chose

ah tiens et si c'était le traditionnel problème de pas d'adresse mac dans le fichier etc/network/interfaces ?
Testons... ah bordel, c'était ça.

Bon maintenant l'étape suivante : l'imgroglio de la gestion des users : à l'install le template a créé un user linux avec mon nom, mais pour se loguer dans l'interface proxmox il fallait mettre root + le mot de passe associé au compte "monnom". Maintenant ça ne fonctionne plus... wtf

Ah j'ai changé le mot de passe root entre temps, c'est peut-être ça... il avait mis le même mot de passe aux 2... ouah...

Ah le charge de l'administration linux.

Bon ben ça tourne, plus qu'à importer un backup

Message édité par depart le 12-07-2022 à 17:31:24

valentin

Courage moi dernièrement j’ai galère avec une VM et Nodejs / yarn / npm. Un beau bordel quand on ne pratique pas tous les jours

Par contre de mon côté j’ai un peu abandonné les KS pour des VPS. C’est plus fiable niveau HW. Sauf quand ça crame visiblement

DJI-ER

Bonjour,
Idem pour moi depuis hier matin, partition / passée en read only, multiples erreurs sur le disque. J'ai finalement réussi à remettre en route le serveur mais il a de nouveau planté ce matin.
Pensant à un problème de mise à jour d'OS j'ai demandé une réinstall du serveur, j'ai dans la foulée reçu un mail m'indiquant une erreur hardware, le serveur ne démarre plus. Une intervention des techniciens a été planifiée.

Combien de temps a pris le changement de disque dur pour toi ? Y-a-t-il une demande particulière à effectuer ?

Merci,

depart

Vous allez rire. (Moi pas).. Ce matin dans ma boite mail un rapport d'erreur smart d'un autre kimsufi...
J'ai l'impression que la vague de chaleur les fait claquer comme des mouches !

Octave, allume la clim sinon ca va être l'hécatombe des petits vieux (serveurs) !

Message édité par depart le 13-07-2022 à 09:37:10

burn2

Pour ceux qui viendront après

J'ai regardé chez moi ras.
Les dd sont à 41° avec des vm qui sont en train de travailler (montée de version de debian 10 à 11)

Donc ras.

---------------
"C'est vrai qu'un type aussi pénible de jour on serait en droit d'espérer qu'il fasse un break de nuit mais bon …"

cedricdu061

Bonjour , après avoir refait mon installe sur mon petit ks1 sous ubuntu , sa roule parfaitement

Par moment Il plante et je n’ai plus accès au ssh , pourtant j’ai changer le port ssh pour être tranquille
Je suis obligé de le redémarrer via mon compte ovh

Une idée ?

Message édité par cedricdu061 le 17-07-2022 à 12:04:56

depart

regarde ce que tu peux trouver dans /var/log/syslog par exemple
il y a aussi auth.log dans le même dossier pour voir s'il se passe des trucs sur le ssh

si tu as fail2ban, regarde aussi comment il se comporte

Message édité par depart le 17-07-2022 à 13:14:55

toTOW

http://www.fah-addict.net/

Regarde tes températures CPU ... :whistle:

---------------
[b] FAH-Addict, première source d'information francophone sur le projet Folding@Home.

cedricdu061

Pour fail2ban existe t il un tutoriel pour débutant ? Je veux pas planter mon serveur

Faboss

Bye bye ''thefaboss''

Boh ça doit se trouver sur les Internet...

---------------
Ôôôôôh les beaux navions .:':. Rénovation vieilles consoles .:':. PS Vita

Publicité

Page : 1 2 3 4 5 .. 277 278 279 .. 288 289 290 291 292 293

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Réseaux grand public / SoHo

Hébergement

Topic Kimsufi OVH : un serveur dédié à partir de 4.99€

Sujets relatifs
Proxy pour tester notre serveur web depuis l'extérieur	Faire son propre serveur Web ?
iFrance, serveur public ou privée ?	Débit pour un serveur Web
documentation sur hebergement serveur	Executer un logiciel serveur d'une machine distante ?
Plus de sujets relatifs à : Topic Kimsufi OVH : un serveur dédié à partir de 4.99€

Page générée en 0.184 secondes