Hi,<br><br>It looks like my rabbitmq server on nova main node keeps crashing. I keep getting messages like this on my compute nodes:<br><br>2011-08-08 09:16:31,816 ERROR nova.rpc [-] Failed to fetch message from queue: (320, u"CONNECTION_FORCED - broker forced connection closure with reason 'shutdown'", (0, 0), '')<br>
(nova.rpc): TRACE: Traceback (most recent call last):<br>(nova.rpc): TRACE:   File "/usr/lib/pymodules/python2.6/nova/rpc.py", line 126, in fetch<br>(nova.rpc): TRACE:     super(Consumer, self).fetch(no_ack, auto_ack, enable_callbacks)<br>
(nova.rpc): TRACE:   File "/usr/lib/pymodules/python2.6/carrot/messaging.py", line 304, in fetch<br>(nova.rpc): TRACE:     message = self.backend.get(self.queue, no_ack=no_ack)<br>(nova.rpc): TRACE:   File "/usr/lib/pymodules/python2.6/carrot/backends/pyamqplib.py", line 252, in get<br>
(nova.rpc): TRACE:     raw_message = self.channel.basic_get(queue, no_ack=no_ack)<br>(nova.rpc): TRACE:   File "/usr/lib/pymodules/python2.6/amqplib/client_0_8/channel.py", line 2032, in basic_get<br>(nova.rpc): TRACE:     (60, 72),    # Channel.basic_get_empty<br>
(nova.rpc): TRACE:   File "/usr/lib/pymodules/python2.6/amqplib/client_0_8/abstract_channel.py", line 89, in wait<br>(nova.rpc): TRACE:     self.channel_id, allowed_methods)<br>(nova.rpc): TRACE:   File "/usr/lib/pymodules/python2.6/amqplib/client_0_8/connection.py", line 218, in _wait_method<br>
(nova.rpc): TRACE:     self.wait()<br>(nova.rpc): TRACE:   File "/usr/lib/pymodules/python2.6/amqplib/client_0_8/abstract_channel.py", line 105, in wait<br>(nova.rpc): TRACE:     return amqp_method(self, args)<br>
(nova.rpc): TRACE:   File "/usr/lib/pymodules/python2.6/amqplib/client_0_8/connection.py", line 367, in _close<br>(nova.rpc): TRACE:     raise AMQPConnectionException(reply_code, reply_text, (class_id, method_id))<br>
(nova.rpc): TRACE: AMQPConnectionException: (320, u"CONNECTION_FORCED - broker forced connection closure with reason 'shutdown'", (0, 0), '')<br><br>Also their status in "nova-manage service list" is: nova-compute enabled  XXX<br>
<br>When I restart the rabbitmq server, I get this one:<br><br>2011-08-08 09:16:34,809 ERROR nova.rpc [-] Reconnected to queue<br>2011-08-08 09:16:34,810 ERROR nova.rpc [-] Reconnected to queue<br>2011-08-08 09:16:34,811 ERROR nova.rpc [-] Reconnected to queue<br>
<br>Looks like the node is reconnected, but its status is still XXX in nova-compute.<br><br>Can anyone give me a reasonable remedy for this issue? (the first one I can think of is a periodic restart of the rabbitmq server and nova-compute daemons on all my servers).<br>
<br>PS.<br>Searching google for "nova-compute XXX" may render different results depending on your parental filter settings ;-)<br>So it might be a good idea to change it to "OK" or whatever ;-)<br><br>
Regards,<br>-Piotr<br clear="all"><br>-- <br>checkout my blog on linux clusters:<br>-- <a href="http://linuxdatacenter.blogspot.com">linuxdatacenter.blogspot.com</a> --<br>