<div dir="ltr">This is probably mostly my fault since I did not WIP or -2 my change in 532575 to keep it<div>from getting merged without some infra coordination.</div><div><br></div><div>Because of that change, it is also required that we change the user zuul-executor starts</div><div>as from root to zuul [1], and that we also open up the new default finger port on the</div><div>executors [2]. Once those are in place, we should be ok to restart the executors.</div><div><br></div><div>As for ze04, since that one restarted as the 'root' user, and never dropped privileges</div><div>to the 'zuul' user due to 532575, I'm not sure what state it is going to be in after applying</div><div>[1] and [2]. Would it create files/directories as root that would now be inaccessible if it</div><div>were to restart with the zuul user? Think logs, work dirs, etc...</div><div><br></div><div><br></div><div>-Dave</div><div><br></div><div><br></div><div>[1] <a href="https://review.openstack.org/532594">https://review.openstack.org/532594</a></div><div>[2] <a href="https://review.openstack.org/532709">https://review.openstack.org/532709</a></div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jan 10, 2018 at 11:53 PM, Ian Wienand <span dir="ltr"><<a href="mailto:iwienand@redhat.com" target="_blank">iwienand@redhat.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
To avoid you having to pull apart the logs starting ~ [1], we<br>
determined that ze04.o.o was externally rebooted at 01:00UTC (there is<br>
a rather weird support ticket which you can look at, which is assigned<br>
to a rackspace employee but in our queue, saying the host became<br>
unresponsive).<br>
<br>
Unfortunately that left a bunch of jobs orphaned and necessitated a<br>
restart of zuul.<br>
<br>
However, recent changes to not run the executor as root [2] were thus<br>
partially rolled out on ze04 as it came up after reboot.  As a<br>
consequence when the host came back up the executor was running as<br>
root with an invalid finger server.<br>
<br>
The executor on ze04 has been stopped, and the host placed in the<br>
emergency file to avoid it coming back.  There are now some in-flight<br>
patches to complete this transition, which will need to be staged a<br>
bit more manually.<br>
<br>
The other executors have been left as is, based on the KISS theory<br>
they shouldn't restart and pick up the code until this has been dealt<br>
with.<br>
<br>
Thanks,<br>
<br>
-i<br>
<br>
<br>
[1] <a href="http://eavesdrop.openstack.org/irclogs/%23openstack-infra/%23openstack-infra.2018-01-11.log.html#t2018-01-11T01:09:20" rel="noreferrer" target="_blank">http://eavesdrop.openstack.<wbr>org/irclogs/%23openstack-<wbr>infra/%23openstack-infra.2018-<wbr>01-11.log.html#t2018-01-11T01:<wbr>09:20</a><br>
[2] <a href="https://review.openstack.org/#/c/532575/" rel="noreferrer" target="_blank">https://review.openstack.org/#<wbr>/c/532575/</a><br>
<br>
______________________________<wbr>_________________<br>
OpenStack-Infra mailing list<br>
<a href="mailto:OpenStack-Infra@lists.openstack.org">OpenStack-Infra@lists.<wbr>openstack.org</a><br>
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-infra" rel="noreferrer" target="_blank">http://lists.openstack.org/<wbr>cgi-bin/mailman/listinfo/<wbr>openstack-infra</a></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div>David Shrewsbury (Shrews)<br></div></div></div>
</div>