<div dir="auto">Hi,<div dir="auto"><br></div><div dir="auto">i read somewhere that vexxhosts kubernetes openstack-Operator is running one rabbitmq Container per Service. Just the kubernetes self healing is used as "ha" for rabbitmq.</div><div dir="auto"><br></div><div dir="auto">That seems to match with my finding: run rabbitmq standalone and use an external system to restart rabbitmq if required.</div><div dir="auto"><br></div><div dir="auto"> Fabian</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Satish Patel <<a href="mailto:satish.txt@gmail.com">satish.txt@gmail.com</a>> schrieb am Fr., 14. Aug. 2020, 16:59:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Fabian,<br>
<br>
what do you mean?<br>
<br>
>> I think vexxhost is running (1) with their openstack-operator - for reasons.<br>
<br>
On Fri, Aug 14, 2020 at 7:28 AM Fabian Zimmermann <<a href="mailto:dev.faz@gmail.com" target="_blank" rel="noreferrer">dev.faz@gmail.com</a>> wrote:<br>
><br>
> Hello again,<br>
><br>
> just a short update about the results of my tests.<br>
><br>
> I currently see 2 ways of running openstack+rabbitmq<br>
><br>
> 1. without durable-queues and without replication - just one rabbitmq-process which gets (somehow) restarted if it fails.<br>
> 2. durable-queues and replication<br>
><br>
> Any other combination of these settings leads to more or less issues with<br>
><br>
> * broken / non working bindings<br>
> * broken queues<br>
><br>
> I think vexxhost is running (1) with their openstack-operator - for reasons.<br>
><br>
> I added [kolla], because kolla-ansible is installing rabbitmq with replication but without durable-queues.<br>
><br>
> May someone point me to the best way to document these findings to some official doc?<br>
> I think a lot of installations out there will run into issues if - under load - a node fails.<br>
><br>
>  Fabian<br>
><br>
><br>
> Am Do., 13. Aug. 2020 um 15:13 Uhr schrieb Fabian Zimmermann <<a href="mailto:dev.faz@gmail.com" target="_blank" rel="noreferrer">dev.faz@gmail.com</a>>:<br>
>><br>
>> Hi,<br>
>><br>
>> just did some short tests today in our test-environment (without durable queues and without replication):<br>
>><br>
>> * started a rally task to generate some load<br>
>> * kill-9-ed rabbitmq on one node<br>
>> * rally task immediately stopped and the cloud (mostly) stopped working<br>
>><br>
>> after some debugging i found (again) exchanges which had bindings to queues, but these bindings didnt forward any msgs.<br>
>> Wrote a small script to detect these broken bindings and will now check if this is "reproducible"<br>
>><br>
>> then I will try "durable queues" and "durable queues with replication" to see if this helps. Even if I would expect<br>
>> rabbitmq should be able to handle this without these "hidden broken bindings"<br>
>><br>
>> This just FYI.<br>
>><br>
>>  Fabian<br>
</blockquote></div>