<div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Sep 20, 2022 at 10:39 AM Clark Boylan <<a href="mailto:cboylan@sapwetik.org">cboylan@sapwetik.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On Tue, Sep 20, 2022, at 5:01 AM, Amol Kahat wrote:<br>
> Hello All,<br>
><br>
> Description of problem:<br>
> NODE_FAILURE when running tripleo-ci-centos-9-scenario010-standalone job.<br>
><br>
> We have been seeing this failure[1] since 09/17. Logs are not present <br>
> so it's hard to say what is the root cause of this issue.<br>
<br>
NODE_FAILURE indicates that Nodepool could not boot any nodes to fulfill the nodeset requested by your job. The reason there are no job logs is that this occurs before any Zuul jobs can run. See below for the information that is available though.<br>
<br>
><br>
> This job uses nodeset: single-centos-9-node-nested-virt - so assumption <br>
> is that it's the nest-virt nodeset<br>
<br>
Fungi ended up debugging and correcting [2] this issue, but I was able to get a good idea of what might be happening using just a phone and no special access. This label is provided by four cloud providers [3][4][5][6] only two of which currently have positive max-servers values [7][8]. We can check the general health of those providers using Grafana [9]. This shows the providers idled for some reason. Finding the specific cause of that idling did require extra privileges, and fungi pasted that info for us [10].<br>
<br>
While I agree it is more difficult to say what the root cause is, there is still plenty of information to narrow the problem down and determine what might be going on. Ideally we would publish the Nodepool launcher logs too, then we wouldn't need special access to retrieve the traceback in the paste. Unfortunately, there has been a long standing concern that we might leak cloud credentials if openstacksdk or Nodepool logging do something we don't expect. There is also a Zuul spec to merge Nodepool functionality into Zuul proper [11] which should allow us to report better errors when NODE_FAILURE occurs.<br>
<br>
><br>
> [1] <br>
> <a href="https://zuul.openstack.org/builds?job_name=tripleo-ci-centos-9-scenario010-standalone+&skip=0" rel="noreferrer" target="_blank">https://zuul.openstack.org/builds?job_name=tripleo-ci-centos-9-scenario010-standalone+&skip=0</a><br>
<br>
[2] <a href="https://review.opendev.org/c/openstack/project-config/+/858523" rel="noreferrer" target="_blank">https://review.opendev.org/c/openstack/project-config/+/858523</a><br>
[3] <a href="https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl02.opendev.org.yaml#L210" rel="noreferrer" target="_blank">https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl02.opendev.org.yaml#L210</a><br>
[4] <a href="https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl03.opendev.org.yaml#L404" rel="noreferrer" target="_blank">https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl03.opendev.org.yaml#L404</a><br>
[5] <a href="https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl04.opendev.org.yaml#L174" rel="noreferrer" target="_blank">https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl04.opendev.org.yaml#L174</a><br>
[6] <a href="https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl04.opendev.org.yaml#L195" rel="noreferrer" target="_blank">https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl04.opendev.org.yaml#L195</a><br>
[7] <a href="https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl04.opendev.org.yaml#L82" rel="noreferrer" target="_blank">https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl04.opendev.org.yaml#L82</a><br>
[8] <a href="https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl04.opendev.org.yaml#L194" rel="noreferrer" target="_blank">https://opendev.org/openstack/project-config/src/branch/master/nodepool/nl04.opendev.org.yaml#L194</a><br>
[9] <a href="https://grafana.opendev.org/d/2b4dba9e25/nodepool-ovh?orgId=1&from=now-5d&to=now" rel="noreferrer" target="_blank">https://grafana.opendev.org/d/2b4dba9e25/nodepool-ovh?orgId=1&from=now-5d&to=now</a><br>
[10] <a href="https://paste.opendev.org/show/816812/" rel="noreferrer" target="_blank">https://paste.opendev.org/show/816812/</a><br>
[11] <a href="https://zuul-ci.org/docs/zuul/latest/developer/specs/nodepool-in-zuul.html" rel="noreferrer" target="_blank">https://zuul-ci.org/docs/zuul/latest/developer/specs/nodepool-in-zuul.html</a></blockquote><div><br></div><div><br></div><div>Thanks for the fix and all the above info </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><br>
<br>
><br>
> Thanks,<br>
> -- <br>
> *Amol Kahat*<br>
> Software Engineer<br>
> *Red Hat India Pvt. Ltd. Pune, India.*<br>
> <a href="mailto:akahat@redhat.com" target="_blank">akahat@redhat.com</a><br>
> B764 E6F8 F4C1 A1AF 816C  6840 FDD3 BA6C 832D 7715<br>
<br>
</blockquote></div></div>