Alta iowait na instância do Amazon EC2 MySQL com o volume do EBS

5

Temos um servidor MySQL em execução em uma instância do Amazon EC2 c1.medium que depende de um único volume do EBS usando o sistema de arquivos ext3 para armazenamento.

Este servidor MySQL é consultado ~ 500 / ps por vários aplicativos em execução em alguns servidores da Web, que também estão no Amazon EC2.

Como você pode ver abaixo, a carga média do servidor e o tempo de inatividade do processador parecem bons, mas há algo perturbador e me preocupando agora, que é o nível alto que está experimentando.

Outro número que me preocupou muito é o número de transferências de iostat por segundo (tps), que fica acima de 450 na maior parte do tempo. Depois de fazer algumas pesquisas sobre esse tópico, vi algumas pessoas dizendo que isso é pedir muito de um volume do EBS: link

A propósito, as saídas de comando que você verá abaixo não foram capturadas em um horário de pico. É assim que o servidor se comporta / executa a maior parte do tempo.

Bem, tudo dito, aqui vão minhas perguntas:

1- É hora de pensar em mudar para uma arquitetura RAID (eu diria RAID 0)?

2- Devo gastar tempo em uma solução de clustering como o MySQL Cluster?

3- Você acredita que esse cenário está impactando strongmente nossos aplicativos? Eles teriam um desempenho muito melhor no caso de nos mudarmos para uma solução RAID 0 e / ou cluster? (Parece que os aplicativos estão felizes até agora, mas eles seriam mais felizes?)

Por favor, deixe-me saber se você precisar de mais informações.

~ # uptime 
 12:34:14 up 2 days,  4:06,  1 user,  load average: 2.24, 1.90, **1.84**

########################################################

~ # vmstat 5

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------

 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id **wa** st

 0  1     52  11168  16420 1498728    0    0  4586   231   11   81  6  3 52 39  0

 2  1     52  10460  16320 1499588    0    0 11631   397 3194 4319 10  4 47 39  0

 4  1     52  11448  16064 1499156    0    0 12231   592 2301 3331  9  5 50 36  0

 4  0     52  10328  16068 1500176    0    0  8578   392 2131 2745  8  6 49 37  0

 0  1     52  11164  15732 1499928    0    0  9604   578 2609 3510  7  4 49 40  0

 0  1     52  10824  15768 1499836    0    0  5038   634 1912 2509  8  3 47 42  0

 3  1     52  12040  15888 1498096    0    0  5068   204 1927 2531 10  8 45 37  0

 8  2     52  11252  15784 1499272    0    0  8521   390 2437 3100 14 15 39 31  0

 1  2     52  11436  15724 1499748    0    0  8287   401 2159 3113 11 10 42 36  1

 0  1     52  12016  15704 1498752    0    0 11576   499 3324 3984 16 17 31 36  0

 1  1     52  10536  15664 1500508    0    0  8430   718 2686 3265 15 14 37 34  0

 1  1     52  10300  15676 1500744    0    0 10186   720 2488 3488 16  5 45 34  0

########################################################

~ # iostat -dm 5 /dev/sdf 
Linux 2.6.21.7-2.fc8xen (database-new)  01/20/12

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn

sdf             464.81         8.84         0.33    1658860      61390

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn

sdf             402.20         7.39         0.43         36          2

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn

sdf             431.40         7.74         0.32         38          1

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn

sdf             461.40         8.26         0.39         41          1

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn

sdf             475.65         9.20         0.29         46          1

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn

sdf             534.80         9.82         0.52         49          2

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn

sdf             526.60         9.97         0.52         49          2

########################################################

~ # iostat -mdx 5 /dev/sdf 

Device:         rrqm/s   wrqm/s   r/s   w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await  svctm  %util

sdf              22.21    46.28 427.47 37.54     8.84     0.33    40.38     1.78    3.82   1.72  79.87

Device:         rrqm/s   wrqm/s   r/s   w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await  svctm  %util

sdf              22.36    80.04 450.30 60.48     9.29     0.55    39.44     1.45    2.85   1.58  80.48

Device:         rrqm/s   wrqm/s   r/s   w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await  svctm  %util

sdf              23.40    43.60 370.60 47.00     7.75     0.35    39.76     1.45    3.47   1.97  82.08

Device:         rrqm/s   wrqm/s   r/s   w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await  svctm  %util

sdf              20.20    33.20 382.60 29.60     8.02     0.25    41.05     1.31    3.17   2.11  87.12

Device:         rrqm/s   wrqm/s   r/s   w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await  svctm  %util

sdf              28.80    35.20 422.40 33.40     9.04     0.27    41.80     1.45    3.19   1.95  88.96

Device:         rrqm/s   wrqm/s   r/s   w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await  svctm  %util

sdf              14.20    45.00 291.80 51.40     5.97     0.38    37.86     1.45    4.22   2.50  85.68

Device:         rrqm/s   wrqm/s   r/s   w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await  svctm  %util

sdf              19.16    56.89 535.33 41.32    11.44     0.38    42.00     1.49    2.59   1.53  88.46

Device:         rrqm/s   wrqm/s   r/s   w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await  svctm  %util

sdf              20.40    81.40 233.00 64.40     4.86     0.57    37.39     1.74    5.84   3.18  94.72
################################################## my.cnf
[mysqld]
datadir=/var/lib/mysql
socket=/var/lib/mysql/mysql.sock
user=mysql
long_query_time=1
key_buffer = 64M
thread_cache_size = 30
table_cache = 1024
table_definition_cache = 512
query_cache_type = 1
query_cache_size = 64M
tmp_table_size = 64M
max_heap_table_size = 64M
innodb_buffer_pool_size = 512M
old_passwords=1
max_connections=400
wait_timeout=30

[mysqld_safe]
log-error=/var/log/mysqld.log
pid-file=/var/run/mysqld/mysqld.pid

[ndbd]
connect-string="nodeid=2;host=localhost:1186"

[ndb_mgm]
connect-string="host=localhost:1186"
################################################## saída de script de ajuste do sundry
~ # ./tuning-primer.sh 

    -- MYSQL PERFORMANCE TUNING PRIMER --
         - By: Matthew Montgomery -

MySQL Version 5.1.52 i686

Uptime = 0 days 1 hrs 1 min 1 sec
Avg. qps = 517
Total Questions = 1894942
Threads Connected = 94

Warning: Server has not been running for at least 48hrs.
It may not be safe to use these recommendations

To find out more information on how each of these
runtime variables effects performance visit:
http://dev.mysql.com/doc/refman/5.1/en/server-system-variables.html
Visit http://www.mysql.com/products/enterprise/advisors.html
for info about MySQL's Enterprise Monitoring and Advisory Service

SLOW QUERIES
The slow query log is NOT enabled.
Current long_query_time = 1.000000 sec.
You have 207 out of 1894981 that take longer than 1.000000 sec. to complete
Your long_query_time seems to be fine

BINARY UPDATE LOG
The binary update log is NOT enabled.
You will not be able to do point in time recovery
See http://dev.mysql.com/doc/refman/5.1/en/point-in-time-recovery.html

WORKER THREADS
Current thread_cache_size = 30
Current threads_cached = 8
Current threads_per_sec = 0
Historic threads_per_sec = 0
Your thread_cache_size is fine

MAX CONNECTIONS
Current max_connections = 400
Current threads_connected = 93
Historic max_used_connections = 195
The number of used connections is 48% of the configured maximum.
Your max_connections variable seems to be fine.

INNODB STATUS
Current InnoDB index space = 1.33 G
Current InnoDB data space = 5.04 G
Current InnoDB buffer pool free = 0 %
Current innodb_buffer_pool_size = 512 M
Depending on how much space your innodb indexes take up it may be safe
to increase this value to up to 2 / 3 of total system memory

MEMORY USAGE
Max Memory Ever Allocated : 1.13 G
Configured Max Per-thread Buffers : 1.04 G
Configured Max Global Buffers : 642 M
Configured Max Memory Limit : 1.67 G
Physical Memory : 1.70 G

Max memory limit exceeds 90% of physical memory

KEY BUFFER
Current MyISAM index space = 379 M
Current key_buffer_size = 64 M
Key cache miss rate is 1 : 162
Key buffer free ratio = 80 %
Your key_buffer_size seems to be fine

QUERY CACHE
Query cache is enabled
Current query_cache_size = 64 M
Current query_cache_used = 43 M
Current query_cache_limit = 1 M
Current Query cache Memory fill ratio = 67.44 %
Current query_cache_min_res_unit = 4 K
MySQL won't cache query results that are larger than query_cache_limit in size

SORT OPERATIONS
Current sort_buffer_size = 2 M
Current read_rnd_buffer_size = 256 K
Sort buffer seems to be fine

JOINS
Current join_buffer_size = 132.00 K
You have had 4013 queries where a join could not use an index properly
You should enable "log-queries-not-using-indexes"
Then look for non indexed joins in the slow query log.
If you are unable to optimize your queries you may want to increase your
join_buffer_size to accommodate larger joins in one pass.

Note! This script will still suggest raising the join_buffer_size when
ANY joins not using indexes are found.

OPEN FILES LIMIT
Current open_files_limit = 2458 files
The open_files_limit should typically be set to at least 2x-3x
that of table_cache if you have heavy MyISAM usage.
Your open_files_limit value seems to be fine

TABLE CACHE
Current table_open_cache = 1024 tables
Current table_definition_cache = 512 tables
You have a total of 45237 tables
You have 1024 open tables.
Current table_cache hit rate is 0%
, while 100% of your table cache is in use
You should probably increase your table_cache
You should probably increase your table_definition_cache value.

TEMP TABLES
Current max_heap_table_size = 64 M
Current tmp_table_size = 64 M
Of 38723 temp tables, 44% were created on disk
Perhaps you should increase your tmp_table_size and/or max_heap_table_size
to reduce the number of disk-based temporary tables
Note! BLOB and TEXT columns are not allow in memory tables.
If you are using these columns raising these values might not impact your 
ratio of on disk temp tables.

TABLE SCANS
Current read_buffer_size = 128 K
Current table scan ratio = 537 : 1
read_buffer_size seems to be fine

TABLE LOCKING
Current Lock Wait ratio = 1 : 954
You may benefit from selective use of InnoDB.
If you have long running SELECT's against MyISAM tables and perform
frequent updates consider setting 'low_priority_updates=1'
If you have a high concurrency of inserts on Dynamic row-length tables
consider setting 'concurrent_insert=2'.
    
por Luis Fernando Alen 20.01.2012 / 16:12

4 respostas

13

Ajudaria se você postasse seu my.cnf e se você estivesse usando tabelas InnoDB ou MyISAM e se você é uma carga de trabalho pesada para leitura ou pesada. Caso contrário, estamos apenas fazendo suposições. Aqui está o meu:

Primeiro, gostaria de verificar se suas consultas estão indexadas corretamente. A alta E / S em bancos de dados MySQL é causada pela concorrência extremamente alta, por um servidor mal-ajustado ou por consultas com desempenho insatisfatório que precisam executar varreduras completas de tabela ou índice. Algumas dicas sobre como encontrar as consultas com baixo desempenho podem ser encontradas em my postar no blog técnico da Ideeli .

Verifique seu my.cnf. Se você estiver usando o InnoDB, certifique-se de que innodb_buffer_pool_size e innodb_log_file_size sejam suficientemente grandes. Como o EBS tem essa latência variável, o máximo de innodb_log_file_size pode ter benefícios substanciais de desempenho. Se você estiver usando o MyISAM (e você não deveria), certifique-se de que o tamanho do seu key_buffer seja grande o suficiente.

Se você tiver certeza de que suas consultas estão bem otimizadas e seu servidor está bem ajustado, podemos passar para o próximo item. O ext3 é menos que ideal para bancos de dados. Uma das principais razões para isso é que o ext3 permite apenas que um único thread atualize um inode de cada vez (tentando encontrar documentação para isso). Se você não estiver executando com innodb-file-per-table, isso significa que há uma tonelada de contenção do sistema de arquivos no arquivo ibdata. O xfs não tem essa limitação e mostrou ter um desempenho muito melhor (precisa de origem) para cargas de trabalho de banco de dados.

Se você não puder mudar para o xfs, certifique-se de estar usando innodb-file-per-table e, no mínimo, certifique-se de ter noatime, nodiratime na montagem.

Em seguida, vá para o tamanho da sua instância. Um c1.medium não é um tamanho de instância ideal para a maioria dos bancos de dados, a menos que o conjunto de dados seja pequeno. O MySQL normalmente se beneficiará da memória sobre o poder computacional. c1.medium só tem 1.7GB de RAM! Qual é o tamanho do seu conjunto de dados? Em geral, um m1.large (com 7,5 GB de RAM) superará o desempenho médio, exceto em casos muito raros. Também é duas vezes mais caro, a US $ 0,34 / h.

Agora, para o RAID dos volumes do EBS. Sim, o RAID aumentará muito sua IOPS. (Como vai aumentar o tamanho da sua instância). Não RAID0 ... Se você se preocupa com seus dados, pelo menos. Expliquei isso em muitos lugares, inclusive no meu blog , como palestrante em Percona Live NYC em 2011 e aqui em serverfault . A versão curta é que os volumes do EBS falham de maneiras atípicas e a possibilidade de remover um volume do conjunto provou ser valiosa em ocasiões especiais, principalmente durante a grande interrupção do EBS de 2011, onde alguns sites ficaram offline por vários dias ... Ficamos offline por 45 minutos às 4 da manhã, apesar de ter dezenas de casos afetados pela questão do EBS.

Aqui estão alguns benchmarks para o RAIDed Volumes do EBS usando o MySQL.

Por fim, o Percona Server possui um grande número de otimizações de escalabilidade. Aqui está um white paper sobre a experiência da minha empresa quando mudando do MySQL para o Percona Server. Estávamos experimentando barracas de banco de dados e interrupções todos os dias. Simplesmente mudar para o Percona Server do MySQL resolveu esse problema literalmente durante a noite devido a uma série de melhorias de escalabilidade.

Então, em resumo ...

  • Ajustar suas consultas
  • Ajustar seu servidor
  • Obtenha melhor "hardware"
  • Use xfs, não ext3
  • RAID10, não RAID0
  • Mude do MySQL para o Percona Server

Quanto ao MySQL Cluster, ele é um animal completamente diferente do MySQL e geralmente não é adequado para a maioria dos aplicativos OLTP. Galera / Cluster de Percona XtraDB são novos e interessantes produtos de clustering também. Você tem muito de opções antes de chegar a nada disso, no entanto. Nós servimos 24k qps no pico de um único m2.4xlarge com RAID10 no EC2.

Boa sorte!

    
por 23.01.2012 / 04:34
2

Este é um problema que muitas empresas enfrentam e soluções para ele são bastante bem discutidas em vários fóruns online.

Normalmente, para aumentar o potencial de iops, dois ou mais volumes do EBS são reunidos em um array RAID0. Isso não vem sem risco, no entanto. Como você sabe, com o RAID0, basta um dos volumes membros do EBS ter um problema e seus dados são torrados. Como tal, você pode considerar usar um nível de RAID mais resiliente, digamos, RAID 10, talvez.

    
por 20.01.2012 / 16:19
1

3- Do you believe such scenario is heavily impacting our apps? Would they perform much better in case we move to a RAID 0 and/or cluster solution?

Como você está executando um servidor SQL, faria mais sentido dar uma olhada nas métricas do servidor SQL para saber se as consultas são exibidas rapidamente. Olhando para seus tempos médios de espera de um único dígito (espere), eu não acho que I / O seria uma grande preocupação ainda.

Além disso, como o que você vê principalmente é o load de leitura, você pode reduzi-lo tendo um cache maior / aumentando a quantidade de RAM e ajustando os parâmetros de cache da sua instância do MySQL. Espero que isso tenha um impacto de desempenho significativamente maior do que ter seu armazenamento alterado para lidar com mais E / Ss.

    
por 20.01.2012 / 18:20
1

Como 500gps é uma carga moderada no sql server, sugiro observar a porcentagem de tabelas temporárias criadas no disco e começar a otimizar suas consultas e configurações do servidor MySQL.

1, Não faça a abordagem Raid0, eventualmente falhará e você vai se arrepender.

2, Não, neste baixo número de consultas por segundo você não precisa do MySQL Cluster.

3, Sim, isso afeta o desempenho do aplicativo, para medir o quanto você pode ativar o log lento e ver por si mesmo.

Quanta memória está usando mysql atualmente, existe algum espaço de sobra?
Se não, você deve considerar mudar para uma instância maior e começar a otimizar as configurações com o script de ajuste mysql de diversos: link

    
por 23.01.2012 / 04:58