<div dir="ltr">As an update, I tried the non-HWE kernel with the same result. Could it be a hardware/driver issue with the 10G NICs? It's so repeatable. I'll look into finding some other hardware to test with.<div><br></div><div>Has anyone else experienced such a complete failure with cloud-init and/or security groups, and do you have any advice on how I might continue to debug this?</div><div><br></div><div>Many thanks,</div><div>Tobias</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sat, Nov 12, 2022 at 12:12 PM Tobias McNulty <<a href="mailto:tobias@caktusgroup.com">tobias@caktusgroup.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi,<div><br></div><div>I'm attempting to use Kolla Ansible 14.6.0 to deploy OpenStack Yoga on a small 3-node Ubuntu 20.04 cluster. The nodes have 128 GB RAM each, dual Xeon processors, and dual 10G Intel NICs. The NICs are connected to access ports on a 10G switch with separate VLANs for the local and external networks.<div><br></div><div>All the playbooks run cleanly, but cloud-init is failing in the Ubuntu 20.04 and 22.04 VMs I attempt to boot. The VM images are unmodified from <a href="https://cloud-images.ubuntu.com/" target="_blank">https://cloud-images.ubuntu.com/</a>, and cloud-init works fine if I mount a second volume with user-data. The error is a timeout attempting to reach 169.254.169.254. This occurs both when booting a VM in an internal routed network and directly in an external network.</div><div><br></div><div>I tried various neutron plugin agents (ovn, linuxbridge, and openvswitch both with and without <a href="https://docs.openstack.org/kolla-ansible/latest/reference/networking/neutron.html#openvswitch-ml2-ovs" target="_blank">firewall_driver = openvswitch</a>) first with a clean install of the entire OS each time, all with the same result. Running tcpdump looking for 169.254.169.254 shows nothing. As a possible clue, the virtual NICs are unable to pass any traffic (e.g., to reach an external DHCP server) unless I completely disable port security on the interface (even if the associated security group is wide open). But disabling port security does not fix cloud-init (not to mention I don't really want to disable port security).</div><div><br></div><div>Are there any additional requirements related to deploying OpenStack with Kolla on Ubuntu 20.04?</div><div><br></div><div>This is a fairly vanilla configuration using the multinode inventory as a starting point. I tried to follow the <a href="https://docs.openstack.org/kolla-ansible/yoga/user/quickstart.html" target="_blank">Quick Start</a> as closely as possible; the only material difference I see is that I'm using the same 3 nodes for control + compute. I am using MAAS so it's easy to get a clean OS install on all three nodes ahead of each attempt. I plan to try again with the standard (non-HWE) kernel just in case, but otherwise I am running out of ideas. In case of any additional clues, here are my globals.yml and inventory file, along with the playbook I'm using to configure the network, images, VMs, etc., after bootstrapping the cluster:</div><div><br></div><div><a href="https://gist.github.com/tobiasmcnulty/7dbbdbc67abc08cbb013bf5983852ed6" target="_blank">https://gist.github.com/tobiasmcnulty/7dbbdbc67abc08cbb013bf5983852ed6</a></div><div><br></div><div>Thank you in advance for any advice!</div><div><br></div><div>Cheers,</div><div>Tobias</div></div></div>
</blockquote></div>