[openstack-de] Performance Regression im Linux 4.1 bonding

Sven Michels smichels at sectoor.de
Wed Mar 23 21:52:53 UTC 2016


Hallo Bernd,

Am 23.03.2016 um 22:21 schrieb Bernd Eckenfels:
> schön dass es die neue Liste gibt. Eigentlich würde ich die Frage ja wo
> anders stellen, aber um die Liste etwas anzukurbeln:

Danke :) Mal schauen ob wir helfen koennen.


> Das Bonding Interface ist im
> 
>  Bonding Mode: IEEE 802.3ad Dynamic link
>  aggregation Transmit Hash Policy: layer3+4 (1)
> 
> Im OpenStack setzen wir OpenVSwitch und GRE Tunnels ein, allerdings
> haben wir das Bonding Problem auf den physikalischen links. Das
> testnetz ist ein bond0.2254 VLAN interface.

...

> Wenn ich mit iperf einen Test mit 4 Streams mache so komme ich auf
> 18-20GBits mit Kernel 3.16.
> 
> Wenn ich aber den 4.1 kernel starte (sonst gleiche config) so
> komme ich nur auf die Hälfte.
> 
> Das Bonding funktioniert allerdings - der
> Durchsatz ist ok wenn ich zu mehr als einem Zielrechner teste. Eine Idee
> woher das kommen könnte? (beide haben die gleiche hashing policy
> konfiguriert udn diese greift eigentlich bei multiplen TCP connections
> die iperf aufbaut.

So wie Du das beschreibst, klingt es in erster Linie danach, als wuerde die
Hashing Policy nicht greifen oder nicht sauber gesetzt sein. Vlt. kannst Du noch
mal darauf achten, wie die Interfaceauslastung bei iperf wirklich ist? Also werden
wirklich beide Links genutzt oder evtl. nur einer mit Kernel 4.1?
Welche exakten Kernel Versionen werden denn genutzt? Ich erinner mich dunkel
daran, das in dem Bereich einige Aenderungen am Kernel stattgefunden haben, die
dafuer verantwortlich sein koennten.

Um das Problem ein bisschen einzugrenzen, sofern es Deine Zeit zulaesst, kann man
folgende Punkte testen um vlt. ein paar Dinge auszuschliessen oder eben einen
Ansatz zu finden wo man weiter suchen sollte:
- ohne VLAN tagging testen
- Wie sehen die Offloading Settings der Karten aus?
- LACP nochmal verifizieren (bei 4.1 wurde port churn-maschine implementiert,
  vlt. klemmts da)
- CPU Auslastung bei den Tests mit 3.16 vs. 4.1
- Energiesparmodi im Bios etc. deaktivieren

Beim Offloading z.B. weiss ich, das mit den Intel Treibern + Bridge die Performace
unterirdisch sein kann. IIRC war das beim Bonding genauso. TSO aus half (falls
mich meine Erinnerung nicht verlassen hat).

Bzgl. Energiesparmodi: einige Server schalten nicht aus dem Energiesparmodus und
versauen die Performance. Gerade bei "nur ein iperf" kommt das zum tragen. Daher
zum Testen abschalten und gucken ob das was bewirkt.

Hoffe das hilft.

Gruesse,
Sven
-- 
sectoor GmbH - Sven Michels           <*>   E-Mail:       smichels(at)sectoor.de
Mainzer Landstrasse 351-353           <*>   WWW   :        http://www.sectoor.de
D - 60326 Frankfurt am Main           <*>   Tel   :        +49 (0)69 678 3075  0
Amtsgericht Frankfurt / HRB 57106     <*>   Fax   :        +49 (0)69 678 3075 99
Geschaeftsfuehrer/CEO: Sven Michels   <*>   USt-Id:                 DE 228966361



More information about the openstack-de mailing list