[OpenStack-ru] AMQP server is unreachable / AMQP server closed the connection. Check login credentials

Yura Poltoratskiy yurapoltora на gmail.com
Вт Мар 29 10:20:45 UTC 2016


Я устал отлавливать проблемы, снес все контейнеры и пересетапил ОС на
compute и network нодах, настроил все заново - и все работает.

Что это могло быть так и не понял, но точно не физика, т.к. сейчас все
нормально на тех же сервера/свичах/шнурках.

Возможно, проблема была из-за того, что я не везде сразу подключил
репозиторий cloud-archive:liberty, хотя потом точно проверил, что подключил
везде и обновился по apt-get dist-upgrade.

Всем спасибо.

25 марта 2016 г., 11:28 пользователь yashumitsu <yashumitsu на gmail.com>
написал:

> Добрый день!
>
> Нет ли у вас проблем с MTU?
>
> Попробуйте залогировать сессию tcpdump, со стороны внешнего сервера.
>
> 24 марта 2016 г., 16:32 пользователь Yura Poltoratskiy <
> yurapoltora на gmail.com> написал:
>
> В сети управления есть контейнер с dnsmasq, все узлы без проблем видят
>> друг друга, например:
>>
>> root на compute01:~# host rabbitmq01
>> rabbitmq01 has address 10.1.1.41
>>
>> root на compute01:~# ping -c 1 rabbitmq01
>> PING rabbitmq01 (10.1.1.41) 56(84) bytes of data.
>> 64 bytes from rabbitmq01 (10.1.1.41): icmp_seq=1 ttl=64 time=0.340 ms
>>
>> Но я, предполагая, что проблема может быть в этом, временно менял всем в
>> конфиге rabbit_host = 10.1.1.41, и даже заставлял rabbitmq-server слушать
>> не loopback, а именно этот адрес:
>> root на rabbitmq01:~# netstat -na | grep -w LISTEN | grep 5672
>> tcp        0      0 10.1.1.41:5672          0.0.0.0:*
>> LISTEN
>>
>> Так же возникала мысль про разбежность времени - всем установил ntp,
>> правда за временем "хожу" на стандартные сервера Ubuntu
>> х.ubuntu.pool.ntp.org <http://xn--u1a.ubuntu.pool.ntp.org>.
>>
>> Все сервер включены в cisco 2960, ничего другого не включено. На физику
>> не похоже - отвал rabbit'а переодический и не на одном сервере.
>>
>> Сейчас в конфиге так:
>> [oslo_messaging_rabbit]
>> rabbit_hosts=rabbitmq01:5672,rabbitmq02:5672,rabbitmq03:5672
>> rabbit_userid = openstack
>> rabbit_password = openstack
>> rabbit_retry_interval=1
>> rabbit_retry_backoff=2
>> rabbit_max_retries=0
>> rabbit_durable_queues=false
>> rabbit_ha_queues=true
>> heartbeat_rate = 2
>> heartbeat_timeout_threshold = 20
>> rpc_conn_pool_size = 100
>> kombu_reconnect_delay=3.0
>>
>> Другие таймауты не трогал, не подскажите какие можно "покрутить"?
>>
>> Я даже специально строил rabbitmq на отдельном сервер, чтоб исключить
>> проблемы и/или ограничения lxc.
>>
>> 24 марта 2016 г., 15:09 пользователь Nikita Burtsev <
>> nikita.burtsev на gmail.com> написал:
>>
>> А с name resolution у вас все хорошо? И время на компонентах не
>>> разбежалось в разные стороны?
>>> Вообще может быть сети не очень хорошо или машинам на которых запущены
>>> компоненты не хватает ресурсов? Не пробовали таймауты поднять?
>>>
>>> 2016-03-24 15:51 GMT+03:00 Yura Poltoratskiy <yurapoltora на gmail.com>:
>>>
>>>> Пароль и пользователя проверял и много раз. Более того, я сворачивал
>>>> все контейнеры c rabbitmq, брал отдельный сервер и без HA построил
>>>> отдельный сервер очередей - ничего не изменилось.
>>>>
>>>> К тому же, на правильность пароля указывают, строки виду:
>>>>
>>>> 2016-03-24 07:46:20.965 11111 INFO oslo.messaging._drivers.impl_rabbit
>>>> [-] Reconnected to AMQP server on rabbitmq01:5672
>>>> 2016-03-24 07:46:20.966 11111 INFO oslo.messaging._drivers.impl_rabbit
>>>> [req-8e5b0e51-ed48-48cf-9182-81b437246bcf - - - - -] Reconnected to AMQP
>>>> server on rabbitmq01:5672
>>>> 2016-03-24 07:46:20.997 11111 INFO oslo.messaging._drivers.impl_rabbit
>>>> [-] Reconnected to AMQP server on rabbitmq01:5672
>>>> 2016-03-24 07:46:21.005 11111 INFO oslo.messaging._drivers.impl_rabbit
>>>> [-] Reconnected to AMQP server on rabbitmq01:5672
>>>>
>>>> Если я правильно расцениваю Reconnect*ed*, то речь идет о успешном
>>>> переподключении.
>>>>
>>>> Еще в пользу правильности логина/пароля говорит переодический вывод
>>>> nova service-list:
>>>> nova-compute     | compute01 | nova     | enabled | up
>>>>
>>>> В конфигурационном файле nova.conf раздел rabbit выглядит так (точно
>>>> везде совпадает, т.к. вставлял через ctrl+C->ctrl+V во избежание опечаток):
>>>> [oslo_messaging_rabbit]
>>>> rabbit_hosts=rabbitmq01:5672,rabbitmq02:5672,rabbitmq03:5672
>>>> rabbit_userid = openstack
>>>> rabbit_password = openstack
>>>> rabbit_retry_interval=1
>>>> rabbit_retry_backoff=2
>>>> rabbit_max_retries=0
>>>> rabbit_durable_queues=true
>>>> rabbit_ha_queues=true
>>>>
>>>> Журнал rabbitmq:
>>>>
>>>> =INFO REPORT==== 24-Mar-2016::14:18:01 ===
>>>> accepting AMQP connection <0.2831.0> (10.1.1.101:50740 ->
>>>> 10.1.1.41:5672)
>>>>
>>>> =INFO REPORT==== 24-Mar-2016::14:18:01 ===
>>>> accepting AMQP connection <0.2828.0> (10.1.1.101:50738 ->
>>>> 10.1.1.41:5672)
>>>>
>>>> =INFO REPORT==== 24-Mar-2016::14:18:01 ===
>>>> accepting AMQP connection <0.2825.0> (10.1.1.101:50736 ->
>>>> 10.1.1.41:5672)
>>>>
>>>> =INFO REPORT==== 24-Mar-2016::14:18:01 ===
>>>> accepting AMQP connection <0.2834.0> (10.1.1.101:50742 ->
>>>> 10.1.1.41:5672)
>>>>
>>>> =INFO REPORT==== 24-Mar-2016::14:18:01 ===
>>>> Mirrored queue 'reply_6a400f775e434bafb05db9b8b1976c29' in vhost '/':
>>>> Adding mirror on node rabbit на rabbitmq02: <7323.17821.0>
>>>>
>>>> =INFO REPORT==== 24-Mar-2016::14:18:01 ===
>>>> Mirrored queue 'reply_6a400f775e434bafb05db9b8b1976c29' in vhost '/':
>>>> Adding mirror on node rabbit на rabbitmq03: <7324.18726.0>
>>>>
>>>> =INFO REPORT==== 24-Mar-2016::14:18:01 ===
>>>> Mirrored queue 'compute_fanout_aa803659695f48a2ab997e6bb8bf28bf' in
>>>> vhost '/': Adding mirror on node rabbit на rabbitmq02: <7323.17827.0>
>>>>
>>>> =INFO REPORT==== 24-Mar-2016::14:18:01 ===
>>>> Mirrored queue 'compute_fanout_aa803659695f48a2ab997e6bb8bf28bf' in
>>>> vhost '/': Adding mirror on node rabbit на rabbitmq03: <7324.18732.0>
>>>>
>>>> =ERROR REPORT==== 24-Mar-2016::14:19:41 ===
>>>> closing AMQP connection <0.2825.0> (10.1.1.101:50736 -> 10.1.1.41:5672
>>>> ):
>>>> Missed heartbeats from client, timeout: 20s
>>>>
>>>> =ERROR REPORT==== 24-Mar-2016::14:19:41 ===
>>>> closing AMQP connection <0.2834.0> (10.1.1.101:50742 -> 10.1.1.41:5672
>>>> ):
>>>> Missed heartbeats from client, timeout: 20s
>>>>
>>>> =ERROR REPORT==== 24-Mar-2016::14:20:01 ===
>>>> closing AMQP connection <0.2828.0> (10.1.1.101:50738 -> 10.1.1.41:5672
>>>> ):
>>>> Missed heartbeats from client, timeout: 20s
>>>>
>>>> =ERROR REPORT==== 24-Mar-2016::14:20:01 ===
>>>> closing AMQP connection <0.2831.0> (10.1.1.101:50740 -> 10.1.1.41:5672
>>>> ):
>>>> Missed heartbeats from client, timeout: 20s
>>>>
>>>>
>>>> compute01 - 10.1.1.101
>>>> rabbitmq01 - 10.1.1.41
>>>>
>>>> Пакетные фильтры в сети управления отключены везде.
>>>>
>>>> 24 марта 2016 г., 14:03 пользователь Ilya Alekseyev <ilya на oscloud.ru>
>>>> написал:
>>>>
>>>> Явная проблема с rabbitmq.
>>>>> Пароль и имя пользователя на rabbit проверяли?
>>>>>
>>>>> 2016-03-24 13:37 GMT+03:00 Yura Poltoratskiy <yurapoltora на gmail.com>:
>>>>>
>>>>>> вот часть neutron-server.log:
>>>>>>
>>>>>> 2016-03-24 12:27:40.140 25737 ERROR
>>>>>> oslo.messaging._drivers.impl_rabbit [-] AMQP server on rabbitmq01:5672 is
>>>>>> unreachable: [Errno 104] Connection reset by peer. Trying again in 1
>>>>>> seconds.
>>>>>> 2016-03-24 12:27:41.156 25737 ERROR
>>>>>> oslo.messaging._drivers.impl_rabbit [-] AMQP server on rabbitmq01:5672 is
>>>>>> unreachable: [Errno 111] ECONNREFUSED. Trying again in 1 seconds.
>>>>>> 2016-03-24 12:27:42.202 25737 INFO
>>>>>> oslo.messaging._drivers.impl_rabbit [-] Reconnected to AMQP server on
>>>>>> rabbitmq02:5672
>>>>>> 2016-03-24 12:27:48.786 25737 INFO
>>>>>> oslo.messaging._drivers.impl_rabbit [-] A recoverable connection/channel
>>>>>> error occurred, trying to reconnect: [Errno 104] Connection reset by peer
>>>>>> 2016-03-24 12:28:03.580 25737 ERROR
>>>>>> oslo.messaging._drivers.impl_rabbit [-] AMQP server on rabbitmq01:5672 is
>>>>>> unreachable: [Errno 32] Broken pipe. Trying again in 1 seconds.
>>>>>> 2016-03-24 12:28:04.606 25737 INFO
>>>>>> oslo.messaging._drivers.impl_rabbit [-] Reconnected to AMQP server on
>>>>>> rabbitmq01:5672
>>>>>>
>>>>>> 24 марта 2016 г., 12:24 пользователь Yura Poltoratskiy <
>>>>>> yurapoltora на gmail.com> написал:
>>>>>>
>>>>>> Приветствую, сообщество.
>>>>>>>
>>>>>>> Столкнулся с непреодолимым препятствием, поэтому прошу помочь.
>>>>>>>
>>>>>>> Собственно, имеем деплой с нуля. Архитектура кратко такая:
>>>>>>> 2 сервера - computes
>>>>>>> 3 сервера - controllers
>>>>>>> 3 сервера - storage
>>>>>>> 1 сервер - network
>>>>>>>
>>>>>>> На controller'ах запущены контейнеры по одному для каждого сервиса,
>>>>>>> в итоге получаем каждого сервиса по три (по одному на физическом сервере)
>>>>>>> для HA.
>>>>>>>
>>>>>>> Все собрано на ubuntu 14.04 с подключенным cloud-archive:liberty.
>>>>>>>
>>>>>>> Сервер сообщений - rabbitmq.
>>>>>>>
>>>>>>> Собрал по документации
>>>>>>>
>>>>>>> http://docs.openstack.org/ha-guide/controller-ha-rabbitmq.html#rabbitmq-services
>>>>>>> кластер rabbitmq.
>>>>>>>
>>>>>>> Дошел до запуска виртуальной машины, обнаружил, что все сервисы
>>>>>>> имеют проблемы с коммуникацией с rabbitmq, в логах циклически вижу такое:
>>>>>>>
>>>>>>> nova-compute:
>>>>>>>
>>>>>>> 2016-03-24 12:00:06.833 11111 ERROR
>>>>>>> oslo.messaging._drivers.impl_rabbit
>>>>>>> [req-8e5b0e51-ed48-48cf-9182-81b437246bcf - - - - -] AM
>>>>>>> QP server on rabbitmq01:5672 is unreachable: [Errno 32] Broken pipe.
>>>>>>> Trying again in 1 seconds.
>>>>>>> 2016-03-24 12:00:07.848 11111 INFO
>>>>>>> oslo.messaging._drivers.impl_rabbit [-] Reconnected to AMQP server on
>>>>>>> rabbitmq01:5672
>>>>>>>
>>>>>>> или такое
>>>>>>>
>>>>>>> 2016-03-24 12:05:23.910 11111 ERROR
>>>>>>> oslo.messaging._drivers.impl_rabbit [-] AMQP server rabbitmq01:5672 closed
>>>>>>> the connection.
>>>>>>> Check login credentials: Socket closed
>>>>>>>
>>>>>>> Вывод nova service-list
>>>>>>>
>>>>>>> +----+------------------+-----------+----------+---------+-------+----------------------------+-----------------+
>>>>>>> | Id | Binary           | Host      | Zone     | Status  | State |
>>>>>>> Updated_at                 | Disabled Reason |
>>>>>>>
>>>>>>> +----+------------------+-----------+----------+---------+-------+----------------------------+-----------------+
>>>>>>> | 1  | nova-consoleauth | nova02    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:30.000000 | -               |
>>>>>>> | 4  | nova-conductor   | nova02    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:24.000000 | -               |
>>>>>>> | 6  | nova-cert        | nova02    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:29.000000 | -               |
>>>>>>> | 9  | nova-scheduler   | nova02    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:29.000000 | -               |
>>>>>>> | 11 | nova-consoleauth | nova03    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:22.000000 | -               |
>>>>>>> | 12 | nova-cert        | nova03    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:26.000000 | -               |
>>>>>>> | 13 | nova-scheduler   | nova03    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:27.000000 | -               |
>>>>>>> | 14 | nova-conductor   | nova03    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:27.000000 | -               |
>>>>>>> | 17 | nova-conductor   | nova01    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:22.000000 | -               |
>>>>>>> | 20 | nova-scheduler   | nova01    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:25.000000 | -               |
>>>>>>> | 21 | nova-cert        | nova01    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:26.000000 | -               |
>>>>>>> | 23 | nova-consoleauth | nova01    | internal | enabled | up    |
>>>>>>> 2016-03-24T10:18:28.000000 | -               |
>>>>>>> | 27 | nova-compute     | compute02 | nova     | enabled | down  |
>>>>>>> 2016-03-24T10:15:41.000000 | -               |
>>>>>>> | 29 | nova-compute     | compute01 | nova     | enabled | down  |
>>>>>>> 2016-03-24T10:15:35.000000 | -               |
>>>>>>>
>>>>>>> +----+------------------+-----------+----------+---------+-------+----------------------------+-----------------+
>>>>>>>
>>>>>>> Переодически nova-compute становиться up.
>>>>>>>
>>>>>>> Я уже пробовал переустанавливать rabbitmq, пробовал без кластеров,
>>>>>>> пробовал на отдельном сервере, вместо контейнера, все тщетно.
>>>>>>>
>>>>>>> Подскажите, пожалуйста, в чем проблема может быть и/или как можно
>>>>>>> отловить проблему.
>>>>>>>
>>>>>>> Могу предоставить любую информацию дополнительно.
>>>>>>>
>>>>>>> Спасибо.
>>>>>>>
>>>>>>>
>>>>>>
>>>>>> _______________________________________________
>>>>>> OpenStack-ru mailing list
>>>>>> OpenStack-ru на lists.openstack.org
>>>>>> http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-ru
>>>>>>
>>>>>>
>>>>>
>>>>
>>>> _______________________________________________
>>>> OpenStack-ru mailing list
>>>> OpenStack-ru на lists.openstack.org
>>>> http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-ru
>>>>
>>>>
>>>
>>
>> _______________________________________________
>> OpenStack-ru mailing list
>> OpenStack-ru на lists.openstack.org
>> http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-ru
>>
>>
>
>
> --
> Yakov Beschasnov
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://lists.openstack.org/pipermail/openstack-ru/attachments/20160329/beeed854/attachment-0001.html>


Подробная информация о списке рассылки OpenStack-ru