<div dir="ltr"><div><div>Я устал отлавливать проблемы, снес все контейнеры и пересетапил ОС на compute и network нодах, настроил все заново - и все работает.<br><br></div>Что это могло быть так и не понял, но точно не физика, т.к. сейчас все нормально на тех же сервера/свичах/шнурках.<br><br>Возможно, проблема была из-за того, что я не везде сразу подключил репозиторий cloud-archive:liberty, хотя потом точно проверил, что подключил везде и обновился по apt-get dist-upgrade.<br><br></div>Всем спасибо.<br></div><div class="gmail_extra"><br><div class="gmail_quote">25 марта 2016 г., 11:28 пользователь yashumitsu <span dir="ltr"><<a href="mailto:yashumitsu@gmail.com" target="_blank">yashumitsu@gmail.com</a>></span> написал:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div>Добрый день!<br><br></div>Нет ли у вас проблем с MTU?<br><br></div>Попробуйте залогировать сессию tcpdump, со стороны внешнего сервера. <br></div><div class="gmail_extra"><br><div class="gmail_quote">24 марта 2016 г., 16:32 пользователь Yura Poltoratskiy <span dir="ltr"><<a href="mailto:yurapoltora@gmail.com" target="_blank">yurapoltora@gmail.com</a>></span> написал:<div><div class="h5"><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div><div><div><div>В сети управления есть контейнер с dnsmasq, все узлы без проблем видят друг друга, например:<br><br>root@compute01:~# host rabbitmq01<br>rabbitmq01 has address 10.1.1.41<br><br>root@compute01:~# ping -c 1 rabbitmq01<br>PING rabbitmq01 (10.1.1.41) 56(84) bytes of data.<br>64 bytes from rabbitmq01 (10.1.1.41): icmp_seq=1 ttl=64 time=0.340 ms<br><br></div>Но я, предполагая, что проблема может быть в этом, временно менял всем в конфиге rabbit_host = 10.1.1.41, и даже заставлял rabbitmq-server слушать не loopback, а именно этот адрес:<br>root@rabbitmq01:~# netstat -na | grep -w LISTEN | grep 5672<br>tcp        0      0 <a href="http://10.1.1.41:5672" target="_blank">10.1.1.41:5672</a>          0.0.0.0:*               LISTEN<br><br></div>Так же возникала мысль про разбежность времени - всем установил ntp, правда за временем "хожу" на стандартные сервера Ubuntu <a href="http://xn--u1a.ubuntu.pool.ntp.org" target="_blank">х.ubuntu.pool.ntp.org</a>.<br><br></div>Все сервер включены в cisco 2960, ничего другого не включено. На физику не похоже - отвал rabbit'а переодический и не на одном сервере.<br><br></div>Сейчас в конфиге так:<span><br>[oslo_messaging_rabbit]<br>rabbit_hosts=rabbitmq01:5672,rabbitmq02:5672,rabbitmq03:5672<br>rabbit_userid = openstack<br>rabbit_password = openstack<br>rabbit_retry_interval=1<br>rabbit_retry_backoff=2<br>rabbit_max_retries=0<br></span>rabbit_durable_queues=false<br>rabbit_ha_queues=true<br>heartbeat_rate = 2<br>heartbeat_timeout_threshold = 20<br>rpc_conn_pool_size = 100<br>kombu_reconnect_delay=3.0<br><br></div>Другие таймауты не трогал, не подскажите какие можно "покрутить"?<br><br></div>Я даже специально строил rabbitmq на отдельном сервер, чтоб исключить проблемы и/или ограничения lxc.<br><div><div><div><div><div><div><div><div><div class="gmail_extra"><br><div class="gmail_quote">24 марта 2016 г., 15:09 пользователь Nikita Burtsev <span dir="ltr"><<a href="mailto:nikita.burtsev@gmail.com" target="_blank">nikita.burtsev@gmail.com</a>></span> написал:<div><div><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">А с name resolution у вас все хорошо? И время на компонентах не разбежалось в разные стороны? <div>Вообще может быть сети не очень хорошо или машинам на которых запущены компоненты не хватает ресурсов? Не пробовали таймауты поднять? </div></div><div><div><div class="gmail_extra"><br><div class="gmail_quote">2016-03-24 15:51 GMT+03:00 Yura Poltoratskiy <span dir="ltr"><<a href="mailto:yurapoltora@gmail.com" target="_blank">yurapoltora@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><div>Пароль и пользователя проверял и много раз. Более того, я 
сворачивал все контейнеры c rabbitmq, брал отдельный сервер и без HA 
построил отдельный сервер очередей - ничего не изменилось.<br><br></div>К тому же, на правильность пароля указывают, строки виду:<br><br>2016-03-24 07:46:20.965 11111 INFO oslo.messaging._drivers.impl_rabbit [-] Reconnected to AMQP server on rabbitmq01:5672<br>2016-03-24 07:46:20.966 11111 INFO oslo.messaging._drivers.impl_rabbit [req-8e5b0e51-ed48-48cf-9182-81b437246bcf - - - - -] Reconnected to AMQP server on rabbitmq01:5672<br>2016-03-24 07:46:20.997 11111 INFO oslo.messaging._drivers.impl_rabbit [-] Reconnected to AMQP server on rabbitmq01:5672<br>2016-03-24 07:46:21.005 11111 INFO oslo.messaging._drivers.impl_rabbit [-] Reconnected to AMQP server on rabbitmq01:5672<br><div class="gmail_extra"><br></div><div class="gmail_extra">Если я правильно расцениваю Reconnect<b>ed</b>, то речь идет о успешном переподключении.<br><br></div><div class="gmail_extra">Еще в пользу правильности логина/пароля говорит переодический вывод nova service-list:<br>nova-compute     | compute01 | nova     | enabled | up<br><br></div><div class="gmail_extra">В
 конфигурационном файле nova.conf раздел rabbit выглядит так (точно 
везде совпадает, т.к. вставлял через ctrl+C->ctrl+V во избежание 
опечаток):<br>[oslo_messaging_rabbit]<br>rabbit_hosts=rabbitmq01:5672,rabbitmq02:5672,rabbitmq03:5672<br>rabbit_userid = openstack<br>rabbit_password = openstack<br>rabbit_retry_interval=1<br>rabbit_retry_backoff=2<br>rabbit_max_retries=0<br>rabbit_durable_queues=true<br>rabbit_ha_queues=true<br></div><div class="gmail_extra"><br></div><div class="gmail_extra">Журнал rabbitmq:<br><br>=INFO REPORT==== 24-Mar-2016::14:18:01 ===<br>accepting AMQP connection <0.2831.0> (<a href="http://10.1.1.101:50740" target="_blank">10.1.1.101:50740</a> -> <a href="http://10.1.1.41:5672" target="_blank">10.1.1.41:5672</a>)<br><br>=INFO REPORT==== 24-Mar-2016::14:18:01 ===<br>accepting AMQP connection <0.2828.0> (<a href="http://10.1.1.101:50738" target="_blank">10.1.1.101:50738</a> -> <a href="http://10.1.1.41:5672" target="_blank">10.1.1.41:5672</a>)<br><br>=INFO REPORT==== 24-Mar-2016::14:18:01 ===<br>accepting AMQP connection <0.2825.0> (<a href="http://10.1.1.101:50736" target="_blank">10.1.1.101:50736</a> -> <a href="http://10.1.1.41:5672" target="_blank">10.1.1.41:5672</a>)<br><br>=INFO REPORT==== 24-Mar-2016::14:18:01 ===<br>accepting AMQP connection <0.2834.0> (<a href="http://10.1.1.101:50742" target="_blank">10.1.1.101:50742</a> -> <a href="http://10.1.1.41:5672" target="_blank">10.1.1.41:5672</a>)<br><br>=INFO REPORT==== 24-Mar-2016::14:18:01 ===<br>Mirrored queue 'reply_6a400f775e434bafb05db9b8b1976c29' in vhost '/': Adding mirror on node rabbit@rabbitmq02: <7323.17821.0><br><br>=INFO REPORT==== 24-Mar-2016::14:18:01 ===<br>Mirrored queue 'reply_6a400f775e434bafb05db9b8b1976c29' in vhost '/': Adding mirror on node rabbit@rabbitmq03: <7324.18726.0><br><br>=INFO REPORT==== 24-Mar-2016::14:18:01 ===<br>Mirrored queue 'compute_fanout_aa803659695f48a2ab997e6bb8bf28bf' in vhost '/': Adding mirror on node rabbit@rabbitmq02: <7323.17827.0><br><br>=INFO REPORT==== 24-Mar-2016::14:18:01 ===<br>Mirrored queue 'compute_fanout_aa803659695f48a2ab997e6bb8bf28bf' in vhost '/': Adding mirror on node rabbit@rabbitmq03: <7324.18732.0><br><br>=ERROR REPORT==== 24-Mar-2016::14:19:41 ===<br>closing AMQP connection <0.2825.0> (<a href="http://10.1.1.101:50736" target="_blank">10.1.1.101:50736</a> -> <a href="http://10.1.1.41:5672" target="_blank">10.1.1.41:5672</a>):<br>Missed heartbeats from client, timeout: 20s<br><br>=ERROR REPORT==== 24-Mar-2016::14:19:41 ===<br>closing AMQP connection <0.2834.0> (<a href="http://10.1.1.101:50742" target="_blank">10.1.1.101:50742</a> -> <a href="http://10.1.1.41:5672" target="_blank">10.1.1.41:5672</a>):<br>Missed heartbeats from client, timeout: 20s<br><br>=ERROR REPORT==== 24-Mar-2016::14:20:01 ===<br>closing AMQP connection <0.2828.0> (<a href="http://10.1.1.101:50738" target="_blank">10.1.1.101:50738</a> -> <a href="http://10.1.1.41:5672" target="_blank">10.1.1.41:5672</a>):<br>Missed heartbeats from client, timeout: 20s<br><br>=ERROR REPORT==== 24-Mar-2016::14:20:01 ===<br>closing AMQP connection <0.2831.0> (<a href="http://10.1.1.101:50740" target="_blank">10.1.1.101:50740</a> -> <a href="http://10.1.1.41:5672" target="_blank">10.1.1.41:5672</a>):<br>Missed heartbeats from client, timeout: 20s<br><br><br></div><div class="gmail_extra">compute01 - 10.1.1.101<br></div>rabbitmq01 - 10.1.1.41<br><br></div>Пакетные фильтры в сети управления отключены везде.<br></div><div class="gmail_extra"><br><div class="gmail_quote">24 марта 2016 г., 14:03 пользователь Ilya Alekseyev <span dir="ltr"><<a href="mailto:ilya@oscloud.ru" target="_blank">ilya@oscloud.ru</a>></span> написал:<div><div><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Явная проблема с rabbitmq.<div>Пароль и имя пользователя на rabbit проверяли?</div></div><div class="gmail_extra"><br><div class="gmail_quote"><div><div>2016-03-24 13:37 GMT+03:00 Yura Poltoratskiy <span dir="ltr"><<a href="mailto:yurapoltora@gmail.com" target="_blank">yurapoltora@gmail.com</a>></span>:<br></div></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div><div dir="ltr">вот часть neutron-server.log:<br><br>2016-03-24 12:27:40.140 25737 ERROR oslo.messaging._drivers.impl_rabbit [-] AMQP server on rabbitmq01:5672 is unreachable: [Errno 104] Connection reset by peer. Trying again in 1 seconds.<br>2016-03-24 12:27:41.156 25737 ERROR oslo.messaging._drivers.impl_rabbit [-] AMQP server on rabbitmq01:5672 is unreachable: [Errno 111] ECONNREFUSED. Trying again in 1 seconds.<br>2016-03-24 12:27:42.202 25737 INFO oslo.messaging._drivers.impl_rabbit [-] Reconnected to AMQP server on rabbitmq02:5672<br>2016-03-24 12:27:48.786 25737 INFO oslo.messaging._drivers.impl_rabbit [-] A recoverable connection/channel error occurred, trying to reconnect: [Errno 104] Connection reset by peer<br>2016-03-24 12:28:03.580 25737 ERROR oslo.messaging._drivers.impl_rabbit [-] AMQP server on rabbitmq01:5672 is unreachable: [Errno 32] Broken pipe. Trying again in 1 seconds.<br>2016-03-24 12:28:04.606 25737 INFO oslo.messaging._drivers.impl_rabbit [-] Reconnected to AMQP server on rabbitmq01:5672<br></div><div class="gmail_extra"><br><div class="gmail_quote">24 марта 2016 г., 12:24 пользователь Yura Poltoratskiy <span dir="ltr"><<a href="mailto:yurapoltora@gmail.com" target="_blank">yurapoltora@gmail.com</a>></span> написал:<div><div><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><div><div><div><div><div><div>Приветствую, сообщество.<br><br></div>Столкнулся с непреодолимым препятствием, поэтому прошу помочь.<br><br></div>Собственно, имеем деплой с нуля. Архитектура кратко такая: <br></div>2 сервера - computes<br></div>3 сервера - controllers<br></div><div>3 сервера - storage<br></div><div>1 сервер - network<br></div><div><br></div>На controller'ах запущены контейнеры по одному для каждого сервиса, в итоге получаем каждого сервиса по три (по одному на физическом сервере) для HA.<br><br></div>Все собрано на ubuntu 14.04 с подключенным cloud-archive:liberty.<br><br></div><div>Сервер сообщений - rabbitmq.<br></div><div><br></div>Собрал по документации<br><div><div><a href="http://docs.openstack.org/ha-guide/controller-ha-rabbitmq.html#rabbitmq-services" target="_blank">http://docs.openstack.org/ha-guide/controller-ha-rabbitmq.html#rabbitmq-services</a><br></div><div>кластер rabbitmq.<br><br></div><div>Дошел до запуска виртуальной машины, обнаружил, что все сервисы имеют проблемы с коммуникацией с rabbitmq, в логах циклически вижу такое:<br></div><div><br>nova-compute:<br><br>2016-03-24 12:00:06.833 11111 ERROR oslo.messaging._drivers.impl_rabbit [req-8e5b0e51-ed48-48cf-9182-81b437246bcf - - - - -] AM<br>QP server on rabbitmq01:5672 is unreachable: [Errno 32] Broken pipe. Trying again in 1 seconds.<br>2016-03-24 12:00:07.848 11111 INFO oslo.messaging._drivers.impl_rabbit [-] Reconnected to AMQP server on rabbitmq01:5672<br></div><div><br>или такое<br><br>2016-03-24 12:05:23.910 11111 ERROR oslo.messaging._drivers.impl_rabbit [-] AMQP server rabbitmq01:5672 closed the connection. <br>Check login credentials: Socket closed<br></div><div><br></div><div>Вывод nova service-list <br>+----+------------------+-----------+----------+---------+-------+----------------------------+-----------------+<br>| Id | Binary           | Host      | Zone     | Status  | State | Updated_at                 | Disabled Reason |<br>+----+------------------+-----------+----------+---------+-------+----------------------------+-----------------+<br>| 1  | nova-consoleauth | nova02    | internal | enabled | up    | 2016-03-24T10:18:30.000000 | -               |<br>| 4  | nova-conductor   | nova02    | internal | enabled | up    | 2016-03-24T10:18:24.000000 | -               |<br>| 6  | nova-cert        | nova02    | internal | enabled | up    | 2016-03-24T10:18:29.000000 | -               |<br>| 9  | nova-scheduler   | nova02    | internal | enabled | up    | 2016-03-24T10:18:29.000000 | -               |<br>| 11 | nova-consoleauth | nova03    | internal | enabled | up    | 2016-03-24T10:18:22.000000 | -               |<br>| 12 | nova-cert        | nova03    | internal | enabled | up    | 2016-03-24T10:18:26.000000 | -               |<br>| 13 | nova-scheduler   | nova03    | internal | enabled | up    | 2016-03-24T10:18:27.000000 | -               |<br>| 14 | nova-conductor   | nova03    | internal | enabled | up    | 2016-03-24T10:18:27.000000 | -               |<br>| 17 | nova-conductor   | nova01    | internal | enabled | up    | 2016-03-24T10:18:22.000000 | -               |<br>| 20 | nova-scheduler   | nova01    | internal | enabled | up    | 2016-03-24T10:18:25.000000 | -               |<br>| 21 | nova-cert        | nova01    | internal | enabled | up    | 2016-03-24T10:18:26.000000 | -               |<br>| 23 | nova-consoleauth | nova01    | internal | enabled | up    | 2016-03-24T10:18:28.000000 | -               |<br>| 27 | nova-compute     | compute02 | nova     | enabled | down  | 2016-03-24T10:15:41.000000 | -               |<br>| 29 | nova-compute     | compute01 | nova     | enabled | down  | 2016-03-24T10:15:35.000000 | -               |<br>+----+------------------+-----------+----------+---------+-------+----------------------------+-----------------+<br><br></div><div>Переодически nova-compute становиться up.<br><br></div><div>Я уже пробовал переустанавливать rabbitmq, пробовал без кластеров, пробовал на отдельном сервере, вместо контейнера, все тщетно.<br><br></div><div>Подскажите, пожалуйста, в чем проблема может быть и/или как можно отловить проблему.<br><br></div><div>Могу предоставить любую информацию дополнительно.<br><br></div><div>Спасибо.<br></div><div><br></div></div></div>
</blockquote></div></div></div><br></div>
<br></div></div>_______________________________________________<br>
OpenStack-ru mailing list<br>
<a href="mailto:OpenStack-ru@lists.openstack.org" target="_blank">OpenStack-ru@lists.openstack.org</a><br>
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-ru" rel="noreferrer" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-ru</a><br>
<br></blockquote></div><br></div>
</blockquote></div></div></div><br></div>
<br>_______________________________________________<br>
OpenStack-ru mailing list<br>
<a href="mailto:OpenStack-ru@lists.openstack.org" target="_blank">OpenStack-ru@lists.openstack.org</a><br>
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-ru" rel="noreferrer" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-ru</a><br>
<br></blockquote></div><br></div>
</div></div></blockquote></div></div></div><br></div></div></div></div></div></div></div></div></div></div>
<br>_______________________________________________<br>
OpenStack-ru mailing list<br>
<a href="mailto:OpenStack-ru@lists.openstack.org" target="_blank">OpenStack-ru@lists.openstack.org</a><br>
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-ru" rel="noreferrer" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-ru</a><br>
<br></blockquote></div></div></div><span class="HOEnZb"><font color="#888888"><br><br clear="all"><div><br></div>-- <br><div>Yakov Beschasnov</div>
</font></span></div>
</blockquote></div><br></div>