<html><head></head><body><div class="ydpdade3227yahoo-style-wrap" style="font-family:times new roman, new york, times, serif;font-size:16px;"><div id="ydpdade3227yiv5441000539"><div class="ydpdade3227yiv5441000539ydp98e41692yahoo-style-wrap" style="font-family:times new roman, new york, times, serif;font-size:16px;"><div></div>
        <div dir="ltr">Thanks Julia. </div><div dir="ltr">In addition to what you mentioned this particular issue seems to have cropped up when we added 100 more baremetal nodes.</div><div dir="ltr"><br clear="none"></div><div dir="ltr" data-setdir="false">I've also narrowed down the issue (TFTP timeouts) when 3-4 baremetal nodes are in "deploy" state and downloading the OS via iSCSI.  Each iSCSI transfer takes about 6 Gbps and thus with four transfers we are over our 20Gbps capacity of the leaf-spine links.    We are slowly migrating to iPXE so it should help.</div><div dir="ltr" data-setdir="false"><br></div><div dir="ltr" data-setdir="false">That being said is there a document on large scale ironic design architectures?</div><div dir="ltr" data-setdir="false">We are looking into a DC design (primarily for baremetals) for upto 2500 nodes.</div><div dir="ltr" data-setdir="false"><br></div><div dir="ltr" data-setdir="false">thanks,</div><div dir="ltr" data-setdir="false">Fred,</div><div dir="ltr"><br clear="none"></div><div><br clear="none"></div>
        
        </div></div></div><div class="ydp9a5378ceyiv5441000539yqt8240505982" id="ydp9a5378ceyiv5441000539yqt82021"><div class="ydp9a5378ceyiv5441000539ydpf1639418yahoo_quoted" id="ydp9a5378ceyiv5441000539ydpf1639418yahoo_quoted_2740241859">
            <div style="font-family:'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:13px;color:#26282a;">
                
                <div>
                    On Wednesday, October 23, 2019, 03:19:41 PM PDT, Julia Kreger <juliaashleykreger@gmail.com> wrote:
                </div>
                <div><br clear="none"></div>
                <div><br clear="none"></div>
                <div><div id="ydp9a5378ceyiv5441000539ydpf1639418yiv7157133432"><div><div dir="ltr"><div>Greetings Fred!</div><div><br clear="none"></div><div>Reply in-line.</div><br clear="none"><div class="ydp9a5378ceyiv5441000539ydpf1639418yiv7157133432gmail_quote"><div class="ydp9a5378ceyiv5441000539ydpf1639418yiv7157133432gmail_attr" dir="ltr">On Tue, Oct 22, 2019 at 12:47 PM <a shape="rect" href="mailto:fsbiz@yahoo.com" rel="nofollow" target="_blank">fsbiz@yahoo.com</a> <<a shape="rect" href="mailto:fsbiz@yahoo.com" rel="nofollow" target="_blank">fsbiz@yahoo.com</a>> wrote:<br clear="none"></div><div><br clear="none"></div><div>[trim] </div><blockquote class="ydp9a5378ceyiv5441000539ydpf1639418yiv7157133432gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex;"><div><div><div dir="ltr"></div><div dir="ltr"><br clear="none"></div><div dir="ltr"><br clear="none"></div><div dir="ltr">TFTP logs: shows TFTP client timed out (weird).  Any pointers here?</div></div></div></blockquote><div><br clear="none"></div><div>Sadly this is one of those things that comes with using TFTP. Issues like this is why the community tends to recommend using ipxe.efi to chainload as you can perform transport over TCP as opposed to UDP where in something might happen mid-transport.</div><div> <br clear="none"></div><blockquote class="ydp9a5378ceyiv5441000539ydpf1639418yiv7157133432gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex;"><div><div><div dir="ltr">tftpd shows ramdisk_deployed completed.  Then, it reports that the client timed out.</div></div></div></blockquote><div><br clear="none"></div><div>Grub does tend to be very abrupt and not wrap up very final actions. I suspect it may just never be sending the ack back and the transfer may be completing. I'm afraid this is one of those things you really need to see on the console what is going on. My guess would be that your deploy_ramdisk lost a packet in transfer or that it was corrupted in transport. It would be interesting to know if the network card stack is performing checksum validation, but for IPv4 it is optional.</div><div> </div><div> </div><div><span>[trim]</span></div><div class="ydp9a5378ceyiv5441000539ydpf1639418yiv7157133432yqt4342199810" id="ydp9a5378ceyiv5441000539ydpf1639418yiv7157133432yqtfd91488"><div> </div><blockquote class="ydp9a5378ceyiv5441000539ydpf1639418yiv7157133432gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex;"><div><div><div dir="ltr"><br clear="none"></div><div dir="ltr">This has me stumped here.  This exact failure seems to be happening 3 to 4 times a week on different nodes.</div><div dir="ltr">Any pointers appreciated.</div><div dir="ltr"><br clear="none"></div><div dir="ltr">thanks,</div><div dir="ltr">Fred.</div><div dir="ltr"><br clear="none"></div><div dir="ltr"><br clear="none"></div></div></div></blockquote></div></div></div></div></div></div>
            </div>
        </div></div></body></html>