12 years ago[dhcp] Add preliminary support for PXE Boot Servers
Michael Brown [Wed, 21 Jan 2009 03:43:26 +0000 (03:43 +0000)]
[dhcp] Add preliminary support for PXE Boot Servers

Some PXE configurations require us to perform a third DHCP transaction
(in addition to the real DHCP transaction and the ProxyDHCP
transaction) in order to retrieve information from a "Boot Server".

This is an experimental implementation, since the actual behaviour is
not well specified in the PXE spec.

12 years ago[tcpip] Allow for transmission to multicast IPv4 addresses
Michael Brown [Wed, 21 Jan 2009 03:40:39 +0000 (03:40 +0000)]
[tcpip] Allow for transmission to multicast IPv4 addresses

When sending to a multicast address, it may be necessary to specify
the source address explicitly, since the multicast destination address
does not provide enough information to deduce the source address via
the miniroute table.

Allow the source address specified via the data-xfer metadata to be
passed down through the TCP/IP stack to the IPv4 layer, which can use
it as a default source address.

12 years ago[ethernet] Fix eth_mc_hash() return status
Michael Brown [Wed, 21 Jan 2009 03:37:36 +0000 (03:37 +0000)]
[ethernet] Fix eth_mc_hash() return status

eth_mc_hash() was missing a return within a switch statement, and so
always falling through to the default case and returning failure.

12 years ago[dhcp] Centralise DHCP successful state transitions
Michael Brown [Wed, 21 Jan 2009 01:28:18 +0000 (01:28 +0000)]
[dhcp] Centralise DHCP successful state transitions

Move all the DHCP state transition logic into a single function
dhcp_next_state().  This will make it easier to add support for PXE
Boot Servers, since it abstracts away the difference between "mark
DHCP as complete" and "transition to boot server discovery".

12 years ago[dhcp] Allow for missing server ID in ProxyDHCPACK
Michael Brown [Wed, 21 Jan 2009 00:55:42 +0000 (00:55 +0000)]
[dhcp] Allow for missing server ID in ProxyDHCPACK

The Linux PXE server ( does not
set the server identifier in its ProxyDHCP responses.  If the server
ID is missing, do not treat this as an error.

This resolves the "vague and unsettling memory" mentioned in commit
fdb8481d ("[dhcp] Verify server identifier on ProxyDHCPACKs").

Note that we already accept ProxyDHCPOFFERs without a server
identifier; they get treated as potential BOOTP packets.

12 years ago[efi] Expose both GUIDs for the EFI_NETWORK_INTERFACE_IDENTIFIER_PROTOCOL
Michael Brown [Mon, 12 Jan 2009 20:53:38 +0000 (20:53 +0000)]

At some point, it seems that someone decided to change the GUID for
ignore the older GUID, older EFI builds ignore the newer GUID, so we
have to expose both.

12 years ago[efi] Add an EFI_NETWORK_INTERFACE_IDENTIFIER_PROTOCOL interface
Michael Brown [Mon, 12 Jan 2009 05:22:40 +0000 (05:22 +0000)]

This allegedly optional interface seems to be compulsory if you want
EFI's PXE code to bother trying to use your network interface.

12 years ago[efi] Provide component name protocol and device path protocol interfaces
Michael Brown [Sat, 10 Jan 2009 00:21:38 +0000 (00:21 +0000)]
[efi] Provide component name protocol and device path protocol interfaces

Include a minimal component name protocol so that the driver name
shows up as something other than "<UNKNOWN>" in the driver list, and a
device path protocol so that the network interface shows up as a
separate device in the device list, rather than being attached
directly to the PCI device.

Incidentally, the EFI component name protocol reaches new depths for
signal-to-noise ratio in program code.  A typical instance within the
EFI development kit will use an additional 300 lines of code to
provide slightly less functionality than GNU gettext achieves with
three additional characters.

12 years ago[efi] Ensure EFI ROM checksum is zero
Michael Brown [Fri, 9 Jan 2009 20:52:26 +0000 (20:52 +0000)]
[efi] Ensure EFI ROM checksum is zero

The UEFI specification does not mention ROM checksums, and reassigns
the field typically used as a checksum byte.  The UEFI shell
"loadpcirom" utility does not verify ROM checksums, but it seems that
some UEFI BIOSes do.

12 years ago[util] Tidy up output of
Michael Brown [Fri, 9 Jan 2009 19:38:53 +0000 (19:38 +0000)]
[util] Tidy up output of

12 years ago[dhcp] Include gPXE version number within DHCP request
Michael Brown [Thu, 8 Jan 2009 08:39:05 +0000 (08:39 +0000)]
[dhcp] Include gPXE version number within DHCP request

12 years ago[main] Print an "initialising devices" banner
Michael Brown [Thu, 8 Jan 2009 03:48:30 +0000 (03:48 +0000)]
[main] Print an "initialising devices" banner

Some devices take a very long time to initialise.  This can make it
difficult to visually distinguish between the error cases of failing
to start executing C code and failing to initialise a device.

Add a "gPXE initialising devices..." message.  The trailing ellipsis
indicates to the user that this may take some time, and the presence
of the message indicates to the developer that relocation etc. all

12 years ago[efi] Add efirom utility and .efirom image format
Michael Brown [Thu, 8 Jan 2009 02:19:18 +0000 (02:19 +0000)]
[efi] Add efirom utility and .efirom image format

12 years ago[efi] Allow for .efidrv images as well as .efi images
Michael Brown [Wed, 7 Jan 2009 23:43:26 +0000 (23:43 +0000)]
[efi] Allow for .efidrv images as well as .efi images

Merge in the changes that allow for building EFI driver images (that
can be loaded using the EFI shell's "load" command) as well as EFI

12 years ago[efi] Use elf2efi utility in place of efilink
Michael Brown [Wed, 7 Jan 2009 02:05:51 +0000 (02:05 +0000)]
[efi] Use elf2efi utility in place of efilink

elf2efi converts a suitable ELF executable (containing relocation
information, and with appropriate virtual addresses) into an EFI
executable.  It is less tightly coupled with the gPXE build process
and, in particular, does not require the use of a hand-crafted PE
image header in efiprefix.S.

elf2efi correctly handles .bss sections, which significantly reduces
the size of the gPXE EFI executable.

12 years ago[build] Avoid strict-aliasing warnings when building with gcc 4.4
Michael Brown [Tue, 6 Jan 2009 03:19:23 +0000 (19:19 -0800)]
[build] Avoid strict-aliasing warnings when building with gcc 4.4

Conventional usage of the various struct sockaddr_xxx types involves
liberal use of casting, which tends to trigger strict-aliasing
warnings from gcc.  Avoid these now and in future by marking all the
relevant types with __attribute__((may_alias)).

12 years ago[efi] Inhibit harmless ld warning on unresolved symbol check
Michael Brown [Mon, 5 Jan 2009 20:54:40 +0000 (12:54 -0800)]
[efi] Inhibit harmless ld warning on unresolved symbol check

The check for unresolved symbols does not explicitly specify an output
architecture format, and so causes a warning when building an i386 EFI
binary on an x86_64 platform.  This warning is harmless, and
specifying the output architecture in multiple places is cumbersome,
so just inhibit the warning.

12 years ago[infiniband] Call ib_open() only when opening the IPoIB net device
Michael Brown [Fri, 2 Jan 2009 21:04:31 +0000 (21:04 +0000)]
[infiniband] Call ib_open() only when opening the IPoIB net device

Defer the call to ib_open() until we want to actually open the device,
rather than when the device is registered.

12 years ago[pcbios] Add additional sanity check for bogus e820 map
Marty Connor [Thu, 18 Dec 2008 04:28:27 +0000 (23:28 -0500)]
[pcbios] Add additional sanity check for bogus e820 map

At POST time some BIOSes return invalid e820 maps even though
they indicate that the data is valid.  We add a check that the first
region returned by e820 is RAM type and declare the map to be invalid
if it is not.

This extends the sanity checks from 8b20e5d ("[pcbios] Sanity-check
the INT15,e820 and INT15,e801 memory maps").

12 years ago[etherfabric] Make use of pci_bar_start() 64-bit clean
Michael Brown [Fri, 12 Dec 2008 19:18:04 +0000 (19:18 +0000)]
[etherfabric] Make use of pci_bar_start() 64-bit clean

Driver was storing the result of pci_bar_start() and pci_bar_size() in
an int, rather than an unsigned long.

(Bug was introduced in the vendor's tree in commit eac85cd "Port
etherfabric driver to net_device api".)

12 years ago[pci] Enable memory cycles in adjust_pci_device()
Michael Brown [Fri, 12 Dec 2008 19:15:00 +0000 (19:15 +0000)]
[pci] Enable memory cycles in adjust_pci_device()

adjust_pci_device() has historically enabled bus-mastering and I/O
cycles, but has never previously needed to enable memory cycles.  Some
EFI systems seem not to enable memory cycles by default, so add that
to the list of PCI command register bits that we force on.

12 years ago[e1000] Use PCI_BASE_ADDRESS_* symbols instead of integers
Marty Connor [Fri, 5 Dec 2008 14:42:46 +0000 (09:42 -0500)]
[e1000] Use PCI_BASE_ADDRESS_* symbols instead of integers

When compiling for the Linux kernel, PCI_BASE_ADDRESS_0 == 0, and
PCI_BASE_ADDRESS_1 == 1.  This is not so when compiling for gPXE.  We
must use the symbolic names rather than integers to get the correct

Bug identified and patch supplied by:

   George Chou <>

12 years ago[x86_64] Add support for compilation as an x86_64 binary
Michael Brown [Tue, 18 Nov 2008 22:30:37 +0000 (14:30 -0800)]
[x86_64] Add support for compilation as an x86_64 binary

Currently the only supported platform for x86_64 is EFI.

Building an EFI64 gPXE requires a version of gcc that supports
__attribute__((ms_abi)).  This currently means a development build of
gcc; the feature should be present when gcc 4.4 is released.

In the meantime; you can grab a suitable gcc tree from


12 years ago[hermon] Fix permissions broken in 3a799e9 ("Add PCI ID for ConnectX QDR card")
Michael Brown [Thu, 4 Dec 2008 23:27:21 +0000 (23:27 +0000)]
[hermon] Fix permissions broken in 3a799e9 ("Add PCI ID for ConnectX QDR card")

The patch file supplied for commit 3a799e9 ("[hermon] Add PCI ID for
ConnectX QDR card") accidentally marked drivers/infiniband/hermon.c as
being executable.

12 years ago[efi] Use EFI-native mechanism for accessing SMBIOS table
Michael Brown [Thu, 4 Dec 2008 23:09:48 +0000 (23:09 +0000)]
[efi] Use EFI-native mechanism for accessing SMBIOS table

EFI provides a copy of the SMBIOS table accessible via the EFI system
table, which we should use instead of manually scanning through the
F000:0000 segment.

12 years ago[efi] Allow use of EFI configuration tables
Michael Brown [Thu, 4 Dec 2008 04:04:54 +0000 (04:04 +0000)]
[efi] Allow use of EFI configuration tables

EFI passes in copies of SMBIOS and other system configuration tables
via the EFI system table.  Allow configuration tables to be requested
using a mechanism similar to the current method for requesting EFI

12 years ago[hermon] Add PCI ID for ConnectX QDR card
Michael Brown [Thu, 4 Dec 2008 20:48:53 +0000 (20:48 +0000)]
[hermon] Add PCI ID for ConnectX QDR card

Patch provided by Itay Gazit <>.

12 years ago[romprefix] Change from opt-in to opt-out when booting via INT19
Michael Brown [Thu, 4 Dec 2008 16:46:16 +0000 (16:46 +0000)]
[romprefix] Change from opt-in to opt-out when booting via INT19

On non-BBS systems, we have to hook INT 19 in order to be able to boot
from the gPXE ROM at all.  However, doing this unconditionally will
prevent the user from booting via any other devices.

Previously, the INT 19 entry point would prompt the user to press B in
order to boot from gPXE, which makes it impossible to perform an
unattended network boot.  We now prompt the user to press N to skip
booting from gPXE, which allows for unattended operation.

This should be a better match for most real-world scenarios.  Most
modern systems support BBS and so are unaffected by this change.  Very
old (non-BBS) systems tend not to have PXE ROMs by default anyway; if
the user has added a gPXE ROM then they probably do want to boot from
the network.  Newer non-BBS systems are essentially limited to IBM
servers, which will recapture the INT 19 vector anyway and implement
their own boot-ordering selection mechanism.

12 years ago[release] Update version to 0.9.6+ post release
Marty Connor [Sun, 23 Nov 2008 22:01:17 +0000 (17:01 -0500)]
[release] Update version to 0.9.6+ post release

12 years ago[release] Update version to 0.9.6 for release v0.9.6
Marty Connor [Sun, 23 Nov 2008 21:44:45 +0000 (16:44 -0500)]
[release] Update version to 0.9.6 for release

12 years ago[b44] Add driver for Broadcom bcm44xx cards
Pantelis Koukousoulas [Fri, 21 Nov 2008 21:19:37 +0000 (23:19 +0200)]
[b44] Add driver for Broadcom bcm44xx cards

This driver is based on Stefan Hajnoczi's summer work, which
is in turn based on version 1.01 of the linux b44 driver.
I just assembled the pieces and fixed/added a few pieces
here and there to make it work for my hardware.

The most major limitation is that this driver won't work
on systems with >1GB RAM due to the card not having enough
address bits for that and gPXE not working around this

Still, other than that the driver works well enough for
at least 2 users :) and the above limitation can always
be fixed when somebody wants it bad enough :)

Signed-off-by: Pantelis Koukousoulas <>
12 years ago[netdevice] Kill off the various guess_boot_netdev() functions
Michael Brown [Fri, 21 Nov 2008 20:34:42 +0000 (20:34 +0000)]
[netdevice] Kill off the various guess_boot_netdev() functions

Remove the assortment of miscellaneous hacks to guess the "network
boot device", and replace them each with a call to last_opened_netdev().

It still isn't guaranteed correct, but it won't be any worse than
before, and it will at least be consistent.

12 years ago[netdevice] Provide function to retrieve the most recently opened net device
Michael Brown [Fri, 21 Nov 2008 20:31:12 +0000 (20:31 +0000)]
[netdevice] Provide function to retrieve the most recently opened net device

There are currently four places within the codebase that use a
heuristic to guess the "boot network device", with varying degrees of
success.  Add a feature to the net device core to maintain a list of
open network devices, in order of opening, and provide a function
last_opened_netdev() to retrieve the most recently opened net device.
This should do a better job than the current assortment of
guess_boot_netdev() functions.

12 years ago[pxe] Select the correct network device on multiport cards
Michael Brown [Fri, 21 Nov 2008 19:45:05 +0000 (19:45 +0000)]
[pxe] Select the correct network device on multiport cards

When trying to find the "first open network device", it helps to
actually check the NETDEV_OPEN flag.

12 years ago[aoe] Use an AoE config query to identify the target MAC address
Michael Brown [Wed, 19 Nov 2008 21:42:33 +0000 (21:42 +0000)]
[aoe] Use an AoE config query to identify the target MAC address

The AoE spec does not specify that the source MAC address of a
received packet actually matches the MAC address of the AoE target.
In principle an AoE server can respond to an AoE request on any
interface available to it, which may not be an address configured to
accept AoE requests.

This issue is resolved by implementing AoE device discovery.  The
purpose of AoE discovery is to find out which addresses an AoE target
can use for requests.  An AoE configuration command is sent when the
AoE attach is attempted.  The AoE target must respond to that
configuration query from an interface that can accept requests.

Based on a patch from Ryan Thomas <>

12 years ago[blockdev] Move block device operations to structure block_device_operations
Laurent Vivier [Wed, 19 Nov 2008 16:31:07 +0000 (17:31 +0100)]
[blockdev] Move block device operations to structure block_device_operations

Signed-off-by: Laurent Vivier <>
12 years ago[virtio] Split virtio-net.c into several files.
Laurent Vivier [Wed, 19 Nov 2008 16:28:29 +0000 (17:28 +0100)]
[virtio] Split virtio-net.c into several files.

Signed-off-by: Laurent Vivier <>
12 years ago[virtio] Consolidate virtio-net static data into a struct vring_virtqueue
Laurent Vivier [Wed, 19 Nov 2008 16:28:28 +0000 (17:28 +0100)]
[virtio] Consolidate virtio-net static data into a struct vring_virtqueue

Signed-off-by: Laurent Vivier <>
12 years ago[virtio] Remove dependency on nic for virtio PCI functions
Laurent Vivier [Wed, 19 Nov 2008 16:28:27 +0000 (17:28 +0100)]
[virtio] Remove dependency on nic for virtio PCI functions

Signed-off-by: Laurent Vivier <>
12 years ago[virtio] Consolidate vring_get_buf() by using a buffer list to add to the vring
Laurent Vivier [Wed, 19 Nov 2008 16:28:26 +0000 (17:28 +0100)]
[virtio] Consolidate vring_get_buf() by using a buffer list to add to the vring

Signed-off-by: Laurent Vivier <>
12 years ago[virtio] Move virtio-pci.h and virtio-ring.h to include/gpxe
Laurent Vivier [Wed, 19 Nov 2008 16:28:25 +0000 (17:28 +0100)]
[virtio] Move virtio-pci.h and virtio-ring.h to include/gpxe

Signed-off-by: Laurent Vivier <>
12 years ago[x86_64] Fix assorted 64-bit compilation errors and warnings
Michael Brown [Wed, 19 Nov 2008 19:33:05 +0000 (19:33 +0000)]
[x86_64] Fix assorted 64-bit compilation errors and warnings

Remove various 32-bit assumptions scattered throughout the codebase.
The code is still not necessarily 64-bit clean, but will at least

12 years ago[build] Explicitly link efilink against -liberty
Michael Brown [Wed, 19 Nov 2008 03:47:03 +0000 (19:47 -0800)]
[build] Explicitly link efilink against -liberty

On some systems, libbfd is supplied only as a static library; linking
will fail unless -liberty is also specified.

12 years ago[efi] Add efi_strerror()
Michael Brown [Wed, 19 Nov 2008 03:45:44 +0000 (19:45 -0800)]
[efi] Add efi_strerror()

EFI_STATUS is defined as an INTN, which maps to UINT32 (i.e. unsigned
int) on i386 and UINT64 (i.e. unsigned long) on x86_64.  This would
require a cast each time the error status is printed.

Add efi_strerror() to avoid this ickiness and simultaneously enable
prettier reporting of EFI status codes.

12 years ago[i386] Move iSCSI and AoE boot code to arch/i386/interface/pcbios
Michael Brown [Wed, 19 Nov 2008 03:16:42 +0000 (19:16 -0800)]
[i386] Move iSCSI and AoE boot code to arch/i386/interface/pcbios

12 years ago[i386] Change [u]int32_t to [unsigned] int, rather than [unsigned] long
Michael Brown [Wed, 19 Nov 2008 02:22:56 +0000 (18:22 -0800)]
[i386] Change [u]int32_t to [unsigned] int, rather than [unsigned] long

This brings us in to line with Linux definitions, and also simplifies
adding x86_64 support since both platforms have 2-byte shorts, 4-byte
ints and 8-byte long longs.

12 years ago[libgcc] Make __libgcc architecture-specific
Michael Brown [Wed, 19 Nov 2008 00:37:15 +0000 (16:37 -0800)]
[libgcc] Make __libgcc architecture-specific

12 years ago[i386] Rename __cdecl to __asmcall
Michael Brown [Wed, 19 Nov 2008 00:18:32 +0000 (16:18 -0800)]
[i386] Rename __cdecl to __asmcall

__cdecl is a misleading name, since it currently encapsulates both
cdecl and regparm(0) attributes.  Rename to __asmcall.

12 years ago[pxe] Move all PXE files to arch/i386
Michael Brown [Tue, 18 Nov 2008 22:27:02 +0000 (22:27 +0000)]
[pxe] Move all PXE files to arch/i386

The initial PXE implementation in Etherboot had the goal of being
architecture-agnostic, but this goal has not been realised.

12 years ago[elf] Kill off unused <bits/elf.h> and <bits/elf_x.h> header files
Michael Brown [Tue, 18 Nov 2008 22:16:15 +0000 (22:16 +0000)]
[elf] Kill off unused <bits/elf.h> and <bits/elf_x.h> header files

12 years ago[efi] Update to latest UEFI headers
Michael Brown [Tue, 18 Nov 2008 21:54:51 +0000 (21:54 +0000)]
[efi] Update to latest UEFI headers

12 years ago[i386] Free allocated base memory on exit, if possible
Michael Brown [Tue, 18 Nov 2008 19:43:13 +0000 (19:43 +0000)]
[i386] Free allocated base memory on exit, if possible

Code paths that automatically allocate memory from the FBMS at 40:13
should also free it, if possible.

Freeing this memory will not be possible if either

  1. The FBMS has been modified since our allocation, or

  2. We have not been able to unhook one or more BIOS interrupt vectors.

12 years ago[r8169] New rtl8169 family driver
Marty Connor [Tue, 18 Nov 2008 04:04:07 +0000 (04:04 +0000)]
[r8169] New rtl8169 family driver

This is a completely rewritten version of the rtl8169 family driver
using the gPXE driver API.

12 years ago[build] Fix calculation of _filesz
Michael Brown [Tue, 18 Nov 2008 03:58:02 +0000 (19:58 -0800)]
[build] Fix calculation of _filesz

_filesz was incorrectly forced to be aligned up to MAX_ALIGN.  In a
non-compressed build, this would cause a build failure unless _filesz
happened to already be aligned to MAX_ALIGN.

12 years ago[build] Discard junk sections created by newer gcc versions
Michael Brown [Tue, 18 Nov 2008 03:46:27 +0000 (03:46 +0000)]
[build] Discard junk sections created by newer gcc versions

12 years ago[build] Keep gcc 4.4 happy
Michael Brown [Tue, 18 Nov 2008 01:52:40 +0000 (01:52 +0000)]
[build] Keep gcc 4.4 happy

gcc 4.4 adds another few warnings, and also seems to complain if we
place %ebp in the clobber list for any inline asm.

12 years ago[linda] Add missing copyright notices
Michael Brown [Tue, 18 Nov 2008 00:14:10 +0000 (00:14 +0000)]
[linda] Add missing copyright notices

12 years ago[linda] Purge references to 8051
Michael Brown [Mon, 17 Nov 2008 23:55:43 +0000 (23:55 +0000)]
[linda] Purge references to 8051

12 years ago[infiniband] Respect hop pointer when building directed route SMP return path
Michael Brown [Wed, 12 Nov 2008 15:35:45 +0000 (15:35 +0000)]
[infiniband] Respect hop pointer when building directed route SMP return path

The return path in directed route SMPs lists the egress ports in order
from SM to node, rather than from node to SM.

To write to the correct offset within the return path, we need to
parse the hop pointer.  This is held within the class-specific data
portion of the MAD header, which was previously unused by us and
defined to be a uint16_t.  Define this field to be a union type; this
requires some rearrangement of ib_mad.h and corresponding changes to

12 years ago[romprefix] Use smaller PMM allocations if possible
Michael Brown [Tue, 11 Nov 2008 20:00:13 +0000 (20:00 +0000)]
[romprefix] Use smaller PMM allocations if possible

The only way that PMM allows us to request a block in a region with
A20=0 is to ask for a block with an alignment of 2MB.  Due to the PMM
API design, the only way we can do this is to ask for a block with a
size of 2MB.

Unfortunately, some BIOSes will hit problems if we allocate a 2MB
block.  In particular, it may not be possible to enter the BIOS setup
screen; the BIOS setup code attempts a PMM allocation, fails, and
hangs the machine.

We now try allocating only as much as we need via PMM.  If the
allocated block has A20=1, we free the allocated block, double the
allocation size, and try again.  Repeat until either we obtain a block
with A20=0 or allocation fails.  (This is guaranteed to terminate by
the time we reach an allocation size of 2MB.)

12 years ago[linda] Add support for QLogic 7220-based Infiniband HCAs
Michael Brown [Fri, 7 Nov 2008 08:47:21 +0000 (08:47 +0000)]
[linda] Add support for QLogic 7220-based Infiniband HCAs

These cards very nearly support our current IB Verbs model.  There is
one minor difference: multicast packets will always be delivered by
the hardware to QP0, so the driver has to redirect them to the
appropriate QP.  This means that QP owners may see receive completions
for buffers that they never posted.  Nothing in our current codebase
will break because of this.

12 years ago[infiniband] Add raw packet parser and constructor
Michael Brown [Fri, 7 Nov 2008 08:39:40 +0000 (08:39 +0000)]
[infiniband] Add raw packet parser and constructor

This can be used with cards that require the driver to construct and
parse packet headers manually.  Headers are optionally handled
out-of-line from the packet payload, since some such cards will split
received headers into a separate ring buffer.

12 years ago[infiniband] Add a standalone subnet management agent
Michael Brown [Fri, 7 Nov 2008 05:39:42 +0000 (05:39 +0000)]
[infiniband] Add a standalone subnet management agent

This generic SMA code can be used for any cards that do not provide
firmware-based embedded SMAs.

12 years ago[ipoib] Kill off the IPoIB pseudo-header
Michael Brown [Fri, 7 Nov 2008 03:26:35 +0000 (03:26 +0000)]
[ipoib] Kill off the IPoIB pseudo-header

Some Infiniband cards will not be as accommodating as the Arbel and
Hermon cards in providing enough space for us to push a fake extra
header at the start of the received packet.  We must therefore make do
with squeezing enough information to identify source and destination
addresses into the two bytes of padding within a genuine IPoIB
link-layer header.

12 years ago[infiniband] Split subnet management agent client out into ib_smc.c
Michael Brown [Thu, 6 Nov 2008 22:31:19 +0000 (22:31 +0000)]
[infiniband] Split subnet management agent client out into ib_smc.c

Not all Infiniband cards have embedded subnet management agents.
Split out the code that communicates with such an embedded SMA into a
separate ib_smc.c file, and have drivers call ib_smc_update()
explicitly when they suspect that the answers given by the embedded
SMA may have changed.

12 years ago[infiniband] Pass address vector in receive completions
Michael Brown [Thu, 6 Nov 2008 21:20:30 +0000 (21:20 +0000)]
[infiniband] Pass address vector in receive completions

Receive completion handlers now get passed an address vector
containing the information extracted from the packet headers
(including the GRH, if present), and only the payload remains in the
I/O buffer.

This breaks the symmetry between transmit and receive completions, so
remove the ib_completer_t type and use an ib_completion_queue_operations
structure instead.

Rename the "destination QPN" and "destination LID" fields in struct
ib_address_vector to reflect its new dual usage.

Since the ib_completion structure now contains only an IB status code,
("syndrome") replace it with a generic gPXE integer status code.

12 years ago[infiniband] Maintain queue fill level as a property of a work queue
Michael Brown [Fri, 3 Oct 2008 02:04:21 +0000 (03:04 +0100)]
[infiniband] Maintain queue fill level as a property of a work queue

Both queue owners and drivers often need to keep track of the fill
level, so let's make it a generic property.

12 years ago[infiniband] Flush uncompleted work queue entries at QP teardown
Michael Brown [Thu, 2 Oct 2008 23:07:52 +0000 (00:07 +0100)]
[infiniband] Flush uncompleted work queue entries at QP teardown

Avoid leaking I/O buffers in ib_destroy_qp() by completing any
outstanding work queue entries with a generic error code.  This
requires the completion handlers to be available to ib_destroy_qp(),
which is done by making them static configuration parameters of the CQ
(set by ib_create_cq()) rather than being provided on each call to

This mimics the functionality of netdev_{tx,rx}_flush().  The netdev
flush functions would previously have been catching any I/O buffers
leaked by the IPoIB data queue (though not by the IPoIB metadata

12 years ago[ne2k_isa] Restore support for ne2k isa cards
Pantelis Koukousoulas [Sat, 8 Nov 2008 07:11:47 +0000 (09:11 +0200)]
[ne2k_isa] Restore support for ne2k isa cards

Add the simplified ne2k_isa driver.  It is just a selective copy+paste
of the relevant parts from ns8390.c plus a little trivial hacking to
make it actually work.

It is true that the code is pretty ugly, but:
  a) ns8390.c is worse
  b) It is only 372 lines and no #ifdefs
  c) It works both in qemu/bochs and in real hardware
     and we all know it is easier to cleanup working code

Hope someone will find the time to rewrite this driver properly,
but until then at least for me this is an ok solution.

Signed-off-by: Pantelis Koukousoulas <>
12 years ago[isa] Fix a small typo in isa.c.
Pantelis Koukousoulas [Fri, 7 Nov 2008 18:18:28 +0000 (20:18 +0200)]
[isa] Fix a small typo in isa.c.

With this patch ISA drivers actually get probed so they have a fair
chance of working now.

Signed-off-by: Pantelis Koukousoulas <>
12 years ago[netdevice] Retain and report detailed error breakdowns
Michael Brown [Sat, 8 Nov 2008 02:18:30 +0000 (02:18 +0000)]
[netdevice] Retain and report detailed error breakdowns

netdev_rx_err() and netdev_tx_complete_err() get passed the error
code, but currently use it only in debug messages.

Retain error numbers and frequencey counts for up to
NETDEV_MAX_UNIQUE_ERRORS (4) different errors for each of TX and RX.
This allows the "ifstat" command to report the reasons for TX/RX
errors in most cases, even in non-debug builds.

12 years ago[phantom] Do not halt PEGs on driver shutdown
Michael Brown [Sat, 8 Nov 2008 05:10:23 +0000 (05:10 +0000)]
[phantom] Do not halt PEGs on driver shutdown

Halting the PEGs breaks platforms where there is sideband access to
the NIC (e.g. HP machines using iLO).  (We have to retain the
unhalting code because on some other platforms (e.g. IBM blades with
BOFM) the pre-PXE firmware must halt the PEGs to avoid issues with the
BIOS rereading via the expansion ROM BAR.)

12 years ago[aoe] Start retry timer before potential temporary transmission failure
Michael Brown [Sat, 8 Nov 2008 04:36:42 +0000 (04:36 +0000)]
[aoe] Start retry timer before potential temporary transmission failure

The retry timer needs to be running as soon as we know that we are
trying to transmit a command.  If transmission fails because of a
temporary error condition, then the timer will allow us to retry the
transmission later.

12 years ago[settings] Ensure fetch_string_setting() returns a NUL-terminated string
Michael Brown [Fri, 7 Nov 2008 03:46:21 +0000 (03:46 +0000)]
[settings] Ensure fetch_string_setting() returns a NUL-terminated string

This fixes a regression introduced in commit 612f4e7:

  [settings] Avoid returning uninitialised data on error in fetch_xxx_setting()

in which the memset() was moved from fetch_string_setting() to
fetch_setting(), in order that it would be useful for non-string
setting types.  However, this neglects to take into account the fact
that fetch_string_setting() shrinks its buffer by one byte (to allow
for the NUL) before calling fetch_setting().

Restore the memset() in fetch_string_setting(), so that the
terminating NUL is guaranteed to actually be a NUL.

12 years ago[i386] Add data32 prefixes to all lgdt/lidt instructions
Michael Brown [Thu, 6 Nov 2008 23:08:10 +0000 (23:08 +0000)]
[i386] Add data32 prefixes to all lgdt/lidt instructions

With a 16-bit operand, lgdt/lidt will load only a 24-bit base address,
ignoring the high-order bits.  This meant that we could fail to fully
restore the GDT across a call into gPXE, if the GDT happened to be
located above the 16MB mark.

Not all of our lgdt/lidt instructions require a data32 prefix (for
example, reloading the real-mode IDT can never require a 32-bit base
address), but by adding them everywhere we will hopefully not forget
the necessary ones in future.

12 years ago[phantom] Allow for PXE boot to be enabled/disabled on a per-port basis
Michael Brown [Sat, 1 Nov 2008 01:55:13 +0000 (01:55 +0000)]
[phantom] Allow for PXE boot to be enabled/disabled on a per-port basis

This is something of an ugly hack to accommodate an OEM requirement.
The NIC has only one expansion ROM BAR, rather than one per port.  To
allow individual ports to be selectively enabled/disabled for PXE boot
(as required), we must therefore leave the expansion ROM always
enabled, and place the per-port enable/disable logic within the gPXE

12 years ago[romprefix] Add vendor branding facilities and guidelines
Michael Brown [Fri, 31 Oct 2008 19:10:28 +0000 (19:10 +0000)]
[romprefix] Add vendor branding facilities and guidelines

Some hardware vendors have been known to remove all gPXE-related
branding from ROMs that they build.  While this is not prohibited by
the GPL, it is a little impolite.

Add a facility for adding branding messages via two #defines
(PRODUCT_NAME and PRODUCT_SHORT_NAME) in config/general.h.  This
should accommodate all known OEM-mandated branding requirements.
Vendors with branding requirements that cannot be satisfied by using
PRODUCT_NAME and/or PRODUCT_SHORT_NAME should contact us so that we
can extended this facility as necessary.

12 years ago[phantom] Assume one net device per PCI function
Michael Brown [Fri, 31 Oct 2008 01:52:55 +0000 (01:52 +0000)]
[phantom] Assume one net device per PCI function

The Phantom firmware selectively disables PCI functions based on the
board type, with the end result that we see one PCI function for each
network port.  This allows us to eliminate the code for reading from
flash and, more importantly, removes knowledge of the board type magic
number from the gPXE driver.

12 years ago[hacks] Improve the guess_boot_netdev() logic
Michael Brown [Fri, 31 Oct 2008 01:51:26 +0000 (01:51 +0000)]
[hacks] Improve the guess_boot_netdev() logic

This function is a major kludge, but can be made slightly more
accurate by ignoring net devices that aren't open.  Eventually it
needs to be removed entirely.

12 years ago[settings] Add the notion of a "tag magic" to numbered settings
Michael Brown [Wed, 29 Oct 2008 18:17:02 +0000 (18:17 +0000)]
[settings] Add the notion of a "tag magic" to numbered settings

Settings can be constructed using a dotted-decimal notation, to allow
for access to unnamed settings.  The default interpretation is as a
DHCP option number (with encapsulated options represented as
"<encapsulating option>.<encapsulated option>".

In several contexts (e.g. SMBIOS, Phantom CLP), it is useful to
interpret the dotted-decimal notation as referring to non-DHCP
options.  In this case, it becomes necessary for these contexts to
ignore standard DHCP options, otherwise we end up trying to, for
example, retrieve the boot filename from SMBIOS.

Allow settings blocks to specify a "tag magic".  When dotted-decimal
notation is used to construct a setting, the tag magic value of the
originating settings block will be ORed in to the tag number.
Store/fetch methods can then check for the magic number before
interpreting arbitrarily-numbered settings.

12 years ago[romprefix] Further sanity checks for the PCI 3 runtime segment address
Michael Brown [Wed, 29 Oct 2008 01:10:33 +0000 (01:10 +0000)]
[romprefix] Further sanity checks for the PCI 3 runtime segment address

This extends the sanity checks on the runtime segment address provided
in %bx, first implemented in commit 5600955.

We now allow the ROM to be placed anywhere above a000:0000 (rather
than c000:0000, as before), since this is the region allowed by the
PCI 3 spec.  If the BIOS asks us to place the runtime image such that
it would overlap with the init-time image (which is explicitly
prohibited by the PCI 3 spec), then we assume that the BIOS is faulty
and ignore the provided runtime segment address.

Testing on a SuperMicro BIOS providing overlapping segment addresses
shows that ignoring the provided runtime segment address is safe to do
in these circumstances.

12 years ago[phantom] Add CLP settings interface
Michael Brown [Tue, 28 Oct 2008 18:49:58 +0000 (18:49 +0000)]
[phantom] Add CLP settings interface

This interface provides access to firmware settings (e.g. MAC address)
that will apply to all drivers loaded for the duration of the current
system boot.

12 years ago[phantom] Unhalt/halt all PEGs during driver startup/shutdown
Michael Brown [Fri, 24 Oct 2008 02:49:11 +0000 (03:49 +0100)]
[phantom] Unhalt/halt all PEGs during driver startup/shutdown

A hardware bug means that reads through the expansion ROM BAR can
return corrupted data if the PEGs are running.  This breaks platforms
that re-read the expansion ROM after invoking gPXE code, such as IBM
blade servers.

Halt PEGs during driver shutdown, and unhalt PEGs during driver
startup if we detect that this is not the first startup since

12 years ago[phantom] Add line count limit to phantom_dmesg()
Michael Brown [Fri, 24 Oct 2008 20:41:58 +0000 (21:41 +0100)]
[phantom] Add line count limit to phantom_dmesg()

The Phantom firmware debug logs can be extremely long, so add the
ability to restrict the output to the last N lines.

12 years ago[ioapi] Fix broken implementation of insX() in the x86 I/O API
Michael Brown [Mon, 27 Oct 2008 00:29:16 +0000 (00:29 +0000)]
[ioapi] Fix broken implementation of insX() in the x86 I/O API

12 years ago[uri] Avoid interpreting DOS-style path names as opaque URIs
Michael Brown [Fri, 24 Oct 2008 03:08:43 +0000 (04:08 +0100)]
[uri] Avoid interpreting DOS-style path names as opaque URIs

A DOS-style full path name such as "C:\Program Files\tftpboot\nbp.0"
satisfies the syntax requirements for a URI with a scheme of "C" and
an opaque portion of "\Program Files\tftpboot\nbp.0".

Add a check in parse_uri() to ignore schemes that are apparently only
a single character long; this avoids interpreting DOS-style paths in
this way, and shouldn't affect any practical URI scheme.

12 years ago[phantom] Change register space abstraction to match other drivers
Michael Brown [Thu, 23 Oct 2008 22:35:01 +0000 (23:35 +0100)]
[phantom] Change register space abstraction to match other drivers

Most other Phantom drivers define a register space in terms of a 64M
virtual address space.  While this doesn't map in any meaningful way
to the actual addresses used on the latest cards, it makes maintenance
easier if we do the same.

12 years ago[pcbios] Guard against register corruption in INT 15,e820 implementations
Michael Brown [Thu, 23 Oct 2008 03:16:31 +0000 (04:16 +0100)]
[pcbios] Guard against register corruption in INT 15,e820 implementations

Someone at Dell must have a full-time job designing ways to screw up
implementations of INT 15,e820.  This latest gem is courtesy of a Dell
Xanadu system, which arbitrarily decides to obliterate the contents of

Preserve %esi, %edi and %ebp across calls to INT 15,e820, in case
someone tries a variation on this trick in future.

12 years ago[settings] Avoid returning uninitialised data on error in fetch_xxx_setting()
Michael Brown [Wed, 22 Oct 2008 20:18:15 +0000 (21:18 +0100)]
[settings] Avoid returning uninitialised data on error in fetch_xxx_setting()

Callers (e.g. usr/autoboot.c) may not check the return values from
fetch_xxx_setting(), assuming that in error cases the returned setting
value will be "empty" (for some sensible value of "empty").

In particular, if the DHCP server did not specify a next-server
address, this would result in gPXE using uninitialised data for the
TFTP server IP address.

12 years ago[tftp] Add EUNIQ_xx values to differentiate the many EINVAL errors
Michael Brown [Tue, 21 Oct 2008 22:00:13 +0000 (23:00 +0100)]
[tftp] Add EUNIQ_xx values to differentiate the many EINVAL errors

12 years ago[tg3] Add PCI ID for BCM5786
Michael Brown [Tue, 21 Oct 2008 21:31:10 +0000 (22:31 +0100)]
[tg3] Add PCI ID for BCM5786

Contributed by Steve Cayford <>

12 years ago[contrib] Add patch to enable writable ROM images in bochs
Michael Brown [Tue, 21 Oct 2008 19:49:10 +0000 (20:49 +0100)]
[contrib] Add patch to enable writable ROM images in bochs

Some of the gPXE romprefix.S code attempts to write to the ROM image,
as allowed by the PCI spec.  We do gracefully handle the case of
read-only ROM images (for ISA ROMs and for normal bochs/qemu
operation), but it can be handy to be able to use bochs to debug the
code paths that depend on writable ROM images.

12 years ago[build] Fix building on FreeBSD
Michael Brown [Fri, 17 Oct 2008 17:24:04 +0000 (18:24 +0100)]
[build] Fix building on FreeBSD

FreeBSD requires the object format to be specified as elf_i386_fbsd,
rather than elf_i386.

Based on a patch from Eygene Ryabinkin <>

12 years ago[romprefix] Sanity-check the runtime segment address for PCI 3
Michael Brown [Fri, 17 Oct 2008 17:12:24 +0000 (18:12 +0100)]
[romprefix] Sanity-check the runtime segment address for PCI 3

Some PCI 3 BIOSes seem to provide a garbage value in %bx, which should
contain the runtime segment address.  Perform a basic sanity check: we
reject the segment if it is below the start of option ROM space.  If
the sanity check fails, we assume that the BIOS was not expecting us
to be a PCI 3 ROM, and we just leave our image in situ.

12 years ago[build] Use ".bss.*" names for uninitialised-data sections
Michael Brown [Fri, 17 Oct 2008 02:12:11 +0000 (03:12 +0100)]
[build] Use ".bss.*" names for uninitialised-data sections

The section name seems to have significance for some versions of

There is no way to instruct gcc that sections such as .bss16 contain
uninitialised data; it will emit them with contents explicitly set to
zero.  We therefore have to rely on the linker script to force these
sections to become uninitialised-data sections.  We do this by marking
them as NOLOAD; this seems to be the closest semantic equivalent in the
linker script language.

However, this gets ignored by some versions of ld (including 2.17 as
shipped with Debian Etch), which mark the resulting sections with
(CONTENTS,ALLOC,LOAD,DATA).  Combined with the fact that this version of
ld seems to ignore the specified LMA for these sections, this means that
they end up overlapping other sections, and so parts of .prefix (for
example) get obliterated by .data16's bss section.

Rename the .bss sections from .section_bss to .bss.section; this seems to
cause these versions of ld to treat them as uninitialised data.

12 years ago[build] Fix building on Ubuntu 8.04
Michael Brown [Fri, 17 Oct 2008 00:39:48 +0000 (20:39 -0400)]
[build] Fix building on Ubuntu 8.04

Not fully understood, but it seems that the LMA of bss sections matters
for some newer binutils builds.  Force all bss sections to have an LMA
at the end of the file, so that they don't interfere with other

The symptom was that objcopy -O binary -j .zinfo would extract the
.zinfo section from bin/xxx.tmp as a blob of the correct length, but
with zero contents.  This would then cause the [ZBIN] stage of the
build to fail.

Also explicitly state that .zinfo(.*) sections have @progbits, in case
some future assembler or linker variant decides to omit them.

12 years ago[etherfabric] Merge changes from vendor tree
Michael Brown [Thu, 16 Oct 2008 16:21:48 +0000 (17:21 +0100)]
[etherfabric] Merge changes from vendor tree

Also clean up minor errors in the use of debug macros.

12 years agovirtio-net: Fix kick/wait logic
Eduardo Habkost [Wed, 8 Oct 2008 20:02:33 +0000 (17:02 -0300)]
virtio-net: Fix kick/wait logic

The virtnet_transmit() logic for waiting the packet to be transmitted is
reversed: we can't wait the packet to be transmitted if we didn't kick()
the ring yet. The vring_more_used() while loop logic is reversed also,
that explains why the code works today.

The current code risks trying to free a buffer from the used ring
when none was available, that will happen most times because KVM
doesn't handle the packet immediately on kick(). Luckily it was working
because it was unlikely to have a buffer still queued for transmit when
virtnet_transmit() was called.

Also, adds a BUG_ON() to vring_get_buf(), to catch cases where we try
to free a buffer from the used ring when there was none available.

Patch for Etherboot. gPXE has the same problem on the code, but I hadn't
a chance to test gPXE using virtio-net yet.

Signed-off-by: Eduardo Habkost <>
Signed-off-by: Stefan Hajnoczi <>
12 years ago[efi] Add basic implementation of EFI SIMPLE_NETWORK_PROTOCOL
Michael Brown [Thu, 16 Oct 2008 04:38:23 +0000 (05:38 +0100)]
[efi] Add basic implementation of EFI SIMPLE_NETWORK_PROTOCOL

This implementation is tested and working, but not currently tied in
to the EFI build.

12 years ago[netdevice] Change link-layer push() and pull() methods to take raw types
Michael Brown [Wed, 15 Oct 2008 03:17:48 +0000 (04:17 +0100)]
[netdevice] Change link-layer push() and pull() methods to take raw types

EFI requires us to be able to specify the source address for
individual transmitted packets, and to be able to extract the
destination address on received packets.

Take advantage of this to rationalise the push() and pull() methods so
that push() takes a (dest,source,proto) tuple and pull() returns a
(dest,source,proto) tuple.