Busca


imprimir pdf

Modo Rescue


Descrição

Este modo rescue é destinado aos servidores Linux. Ele permite controlar em ssh a máquina e também verificar o hardware.
A vantagem é que é muito útil para o ajudar a declarar um incidente para programar uma intervenção, porque com o rescue pode realizar os seus testes quando lhe convêm mais e quando estiver a prejudicar menos o uso do seu servidor.


Software & Administração

  • lançar um fsck / e2fsck
  • consultar e analizar des logs
  • corrigir os problemas sobre os programas
  • reconstruir / verificar o RAID
  • guardar os dados
Hardware

  • memtest: para controlar a memória ( RAM )
  • cpuburn: para verificar o seu processador ( CPU )
  • fsck: para verificar o sistema de ficheiros
  • state: para verificar o disco
  • explorar: para os seus ficheiros


Se um dos testes falhar ou mostrar erros, basta ir ao manager, secção Suporte e depois a parte: declarar um incidente.
Introduza o resultado do seu teste, por exemplo: servidor crashou durante o cpu burn.
Vamos então imediatamente intervir para substituir o seu hardware.

Atenção: não se deve utilizar a interface WEB e o SSH ao mesmo tempo. Não se deve executar o check dos discos sobre a interface web e montar em ssh as partições, isto pode causar perdas dos seus dados!!

Pode também efectuar um teste de largura de banda, basta carregar no botão "start test" e aguardar os resultados.




Activar Modo Rescue


Va ao seu manager v3, secção servidor dedicado, depois serviços, categoria Netboot e escolha o 'mode rescue pro'.

Reinicia se possível a sua máquina em soft (em SSH : /sbin/reboot) e realiza o reboot hard só se não tiver outra escolha.
Vai receber um email que contem o link e a password que lhe vai permitir aceder ao seu servidor em 'rescue'.

Também pode acontecer que os nossos técnicos já interviram. Não tendo diagnosticado nenhum defeito hardware do servidor, lançam o seu servidor em mode 'rescue' afim que proceda as verificações/correcções necessárias para a sua volta normal em produção.

ManagerV5 (servidores no datacenter BHS, Canadá)
Escolha o "Servidor Dedicado" > Netboot e marque a opção "Fazer boot em modo rescue" e valide.

De seguida, faça reboot (se tiver acesso ao sistema operativo, faça um reboot "soft" em detrimento de um hard reboot a partir do Manager)

Check Hardware


Uma vez o servidor passado em mode rescue pro receberá um email que contem um link e uma password para que se ligue aos testes hardware. Vista desta interface:




Lista dos checks



  • Hard Drives: ver os discos instalados.
  • Processadores: faz o check da CPU. Aqui é possível que não lhe apareça uma indicação de erro, mas o servidor vai reinicair ou ficar estático. É sinal de um problema. Deve contactar-nos de seguida.
  • Partitions State: verificar o disco .
  • Partitions File System: verifica o sistema de ficheiros. Frequentemente inconsistências no sistema de ficheiros é confundida com um disco avariado. Note que aqui, basta muita vez reinstalar o Sistema Operativo para que tudo funciona novamente.
  • Partitions Explore: permite explorar os ficheiros. Não podemos edita-losc através desta ferramenta, mas podemos guardar por exemplo. O que é importante é que podemos ler os logs da máquina sem obrigatoriamente ir por ssh.
  • Memory: verifica a RAM. Note que memtest consome muita CPU. Se este teste freez ou faz cair a máquina é muito provável que o seu CPU arrefeceu mal ou partiu. Se a RAM é defeituosa vai ter no final do teste um relatório que contem os erros.


Todos os problemas não podem ser detectados por esta interface.
Como por exemplo os reboots irregulares etc. Não hesite de fazer o teste e de consultar depois a assistência técnica que pode o ajudar a analisar o servidor.

Atenção:
Vai sem duvida encontrar o erro seguinte para 64% do teste da RAM :
your server hasn't reacted for a least 20 seconds. it is probably down you can try to refresh the pageif the server crashed while doing a cpu test. it is possible that the cpu is faulty.
Pode clicar em ok. Muitas vez é porque o teste que se executa para os 64% dos casos demora muito.

Rescue em SSH


Ligar-se

Ligue-se por ssh a sua máquina como de costume. A única coisa que muda é a password. Tem de usar a password root temporário que lhe foi enviada por email após a passagem em rescue.
angie@amazone:~$ ssh root@213.186.xx.yy
The authenticity of host '213.186.xx.yy (213.186.xx.yy)' can't be established.
RSA key fingerprint is 02:11:f2:db:ad:42:86:de:f3:10:9a:fa:41:2d:09:77.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added '213.186.xx.yy' (RSA) to the list of known hosts.
Password:
rescue:~#


Agora, está ligado mas os seus ficheiros não estão acessíveis. Deve "montar" o sistema de ficheiro.

Montagem disco

Habitualmente, /dev/xda1 é a sua partição raiz (/) e /dev/xda2 corresponde a /home.
As devices são do tipo:


  • /dev/sd para SCSI, SATA, Raid Hard
  • /dev/hd para os discos IDE
  • /dev/md para os RAID Soft
  • /dev/rd/c0d0p para os raid Mylex

Também pode utilizar as denominações devfs.
Se não sabe qual é o disco que tem, nem qual é a sua partição utiliza os comandos fdisk ou sfdisk. Aqui está um exemplo com o comando e o que ele retorna:

rescue:~# fdisk -l

Disk /dev/hda 40.0 GB, 40020664320 bytes
255 heads, 63 sectors/track, 4865 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

Device Boot Start End Blocks Id System
/dev/hda1 * 1 1305 10482381 83 Linux
/dev/hda2 1306 4800 28073587+ 83 Linux
/dev/hda3 4801 4865 522112+ 82 Linux swap / Solaris

Disk /dev/sda 8254 MB, 8254390272 bytes
16 heads, 32 sectors/track, 31488 cylinders
Units = cylinders of 512 * 512 = 262144 bytes

Device Boot Start End Blocks Id System
/dev/sda1 1 31488 8060912 c W95 FAT32 (LBA)


Aqui o servidor esta equipado de dois devices.
Vimos o /dev/hda com o * que mostra que é o disco bootable. Em segundo, podemos ver o pen.
Para montar a / do servidor basta fazer:
rescue:~# mount /dev/hda1 /mnt/


Normalmente a /home está sobre /dev/hda2. Montamos-a após a / com o comando mount /dev/hda2 /mnt/home .
O /home não está obrigatoriamente sobre /dev/hda2 e também é possível que os seus dados estejam em /var, para plesk por exemplo. Para ter a certeza da configuração pode montar a / e depois fazer cat /mnt/etc/fstab.
Este ficheiro contem as partições do servidor quando ele arranque sobre o seu disco rígido. Aqui está um exemplo:

rescue:# cat /mnt/etc/fstab
/dev/hda1 / ext3 errors=remount-ro 0 1
#FF0000:/dev/hda2~~ /var ext3 defaults,usrquota,grpquota 1 2
/dev/hda3 swap swap defaults 0 0
/dev/devpts /dev/pts devpts gid=5,mode=620 0 0
/dev/shm /dev/shm tmpfs defaults 0 0
/dev/proc /proc proc defaults 0 0
/dev/sys /sys sysfs defaults 0 0


O /dev/hda2 é neste caso /var e não /home.
Deve então montar com: mount /dev/hda2 /mnt/var .

RPS



Para os RPS que estão em nfs basta marcar em: mount -a.
O nfs vai montar-se sozinho.


Chroot


Podemos agora editar os ficheiros utilizando o caminho /mnt/var/.... por exemplo ou ainda /mnt/etc/lilo.conf , mas para poder fazer certas coisa devemos estar em root sobre o sistema que se encontra instalado sobre o disco e que não são realizáveis com o root do rescue.
Para estas operações deve utilizar o comando chroot:

rescue:~# chroot /mnt/
rescue:/#



Vemos acima que após ter realizado o chroot o retorno de comando posiciona-me na / do servidor.
Agora posso executar os comandos sobre o meu sistema.


Exemplos


Alguns exemplos de possibilidades em rescue estão em curso de edição.
Vamos dar uma pequena lista das manipulações que nos são pedidas.


Saída do Rescue

Após as modificações, temos de voltar ao manager afim de restaurar no Boot o nosso método de boot habitual.
Uma vez o bom kernel seleccionado e validado realizamos um reboot soft da maquina.

rescue:~# /sbin/reboot
Broadcast message from root (pts/0) (Tue Apr 12 15:56:17 2005):
The system is going down for reboot NOW!



Conclusão


Se respeitar alguns gestos básicos de administração, como explicado neste guia ServidorUtil, pode a cada momento voltar a controlar a sua máquina e assim reduzir o tempo de indisponibilidade.