<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)">Thanks Feilong and Sven. </div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)">> If so, cluster resize should be able to bring the cluster back. And you can just resize the cluster to the current node number.  For that case, magnum should be able to fix the heat stack.</div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)">I thought this too. But when I try and run "check stack" under heat it fails. The log for this failure is that the resource is missing, ie one of the nodes is not there (which I know about). </div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)">I tried the cluster resize from horizon, to resize the cluster to the valid size / current size (without the additional node failure which is not there) and horizon immediately fails this with a red error in the corner of the web page. There's no log printed within magnum or heat logs at all. And the horizon error is not really helpful with error "<strong style="font-size:13px;box-sizing:border-box;color:rgb(169,68,66);font-family:"Helvetica Neue",Helvetica,Arial,sans-serif;background-color:rgb(242,222,222)">Error: </strong><span style="font-size:13px;color:rgb(169,68,66);font-family:"Helvetica Neue",Helvetica,Arial,sans-serif;background-color:rgb(242,222,222)">Unable to resize given cluster id: 1a8e1ed9-64b3-41b1-ab11-0f01e66da1d7.</span>".</div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)">> Are you using the magnum auto healing feature by chance?</div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)">The "repair unhealthy nodes" option was chosen for this I believe. But I didnt set up the cluster so I am not sure. </div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)">Based on your replies, I discovered how to initiate the cluster resize using the CLI. After issuing the command, the missing node was rebuilt immediately. This then appears like some sort of issue with horizon only. <br>I wanted to get the resized cluster operating successfully before I replied, but though it re-deployed the missing node, the cluster resize went timed out and failed. Aside from a quick 30 min investigation on this I've not been able to do much more with that and it's been abandoned.</div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)">Thanks all the same for your help. </div><div class="gmail_default" style="font-family:verdana,sans-serif;color:rgb(102,102,102)"> </div><div><div dir="ltr"><div dir="ltr"><div>Tony Pearce<br></div></div></div></div></div></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, 12 Aug 2021 at 05:06, feilong <<a href="mailto:feilong@catalystcloud.nz" target="_blank">feilong@catalystcloud.nz</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Let me try to explain it from a design perspective:<br>
<br>
1. Auto scaler: Now cluster auto scaler talks to Magnum resize API<br>
directly to scale, see<br>
<a href="https://github.com/kubernetes/autoscaler/blob/master/cluster-autoscaler/cloudprovider/magnum/magnum_manager_impl.go#L399" rel="noreferrer" target="_blank">https://github.com/kubernetes/autoscaler/blob/master/cluster-autoscaler/cloudprovider/magnum/magnum_manager_impl.go#L399</a><br>
<br>
2. Auto healer: As you know auto scaler only cares about the worker<br>
node, it won't scale the master nodes. However, auto healer can repair<br>
both master nodes and worker nodes. With worker nodes repairing, Magnum<br>
auto healer uses magnum resize API. But because the magnum resize api<br>
doesn't support master nodes resizing, so the master nodes repairing is<br>
done by Heat stack update. magnum auto healer will mark some resources<br>
of the master node as unhealthy, then call Heat stack update to rebuild<br>
those resources.<br>
<br>
<br>
On 11/08/21 10:25 pm, Sven Kieske wrote:<br>
> On Mi, 2021-08-11 at 10:16 +0000, Sven Kieske wrote:<br>
>> the problem is, that the kubernetes autoscaler directly talks to the openstack api, e.g.<br>
>> nova for creating and destroying instances.<br>
> Nevermind I got that wrong.<br>
><br>
> The autoscaler talks to heat, so there should no problem (but heat trips itself up on some error conditions).<br>
> I was in fact talking about the magnum auto healer (<a href="https://github.com/kubernetes/cloud-provider-openstack/blob/master/docs/magnum-auto-healer/using-magnum-auto-healer.md" rel="noreferrer" target="_blank">https://github.com/kubernetes/cloud-provider-openstack/blob/master/docs/magnum-auto-healer/using-magnum-auto-healer.md</a> )<br>
> which seems to circumvent heat and talks directly with nova.<br>
><br>
> Are you using the magnum auto healing feature by chance?<br>
><br>
> HTH<br>
><br>
-- <br>
Cheers & Best regards,<br>
------------------------------------------------------------------------------<br>
Feilong Wang (王飞龙) (he/him)<br>
Head of Research & Development<br>
<br>
Catalyst Cloud<br>
Aotearoa's own<br>
<br>
Mob: +64 21 0832 6348 | <a href="http://www.catalystcloud.nz" rel="noreferrer" target="_blank">www.catalystcloud.nz</a><br>
Level 6, 150 Willis Street, Wellington 6011, New Zealand<br>
<br>
CONFIDENTIALITY NOTICE: This email is intended for the named recipients only.<br>
It may contain privileged, confidential or copyright information. If you are <br>
not the named recipient, any use, reliance upon, disclosure or copying of this <br>
email or its attachments is unauthorised. If you have received this email in <br>
error, please reply via email or call +64 21 0832 6348.<br>
------------------------------------------------------------------------------<br>
<br>
<br>
<br>
</blockquote></div>