[Infiniband] Move event-queue process from driver to Infiniband core
[people/mdeck/gpxe.git] / src / net / infiniband.c
1 /*
2  * Copyright (C) 2007 Michael Brown <mbrown@fensystems.co.uk>.
3  *
4  * This program is free software; you can redistribute it and/or
5  * modify it under the terms of the GNU General Public License as
6  * published by the Free Software Foundation; either version 2 of the
7  * License, or any later version.
8  *
9  * This program is distributed in the hope that it will be useful, but
10  * WITHOUT ANY WARRANTY; without even the implied warranty of
11  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
12  * General Public License for more details.
13  *
14  * You should have received a copy of the GNU General Public License
15  * along with this program; if not, write to the Free Software
16  * Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
17  */
18
19 #include <stdint.h>
20 #include <stdlib.h>
21 #include <stdio.h>
22 #include <string.h>
23 #include <unistd.h>
24 #include <byteswap.h>
25 #include <errno.h>
26 #include <assert.h>
27 #include <gpxe/list.h>
28 #include <gpxe/if_arp.h>
29 #include <gpxe/netdevice.h>
30 #include <gpxe/iobuf.h>
31 #include <gpxe/ipoib.h>
32 #include <gpxe/process.h>
33 #include <gpxe/infiniband.h>
34
35 /** @file
36  *
37  * Infiniband protocol
38  *
39  */
40
41 /** List of Infiniband devices */
42 struct list_head ib_devices = LIST_HEAD_INIT ( ib_devices );
43
44 /**
45  * Create completion queue
46  *
47  * @v ibdev             Infiniband device
48  * @v num_cqes          Number of completion queue entries
49  * @ret cq              New completion queue
50  */
51 struct ib_completion_queue * ib_create_cq ( struct ib_device *ibdev,
52                                             unsigned int num_cqes ) {
53         struct ib_completion_queue *cq;
54         int rc;
55
56         DBGC ( ibdev, "IBDEV %p creating completion queue\n", ibdev );
57
58         /* Allocate and initialise data structure */
59         cq = zalloc ( sizeof ( *cq ) );
60         if ( ! cq )
61                 return NULL;
62         cq->num_cqes = num_cqes;
63         INIT_LIST_HEAD ( &cq->work_queues );
64
65         /* Perform device-specific initialisation and get CQN */
66         if ( ( rc = ibdev->op->create_cq ( ibdev, cq ) ) != 0 ) {
67                 DBGC ( ibdev, "IBDEV %p could not initialise completion "
68                        "queue: %s\n", ibdev, strerror ( rc ) );
69                 free ( cq );
70                 return NULL;
71         }
72
73         DBGC ( ibdev, "IBDEV %p created %d-entry completion queue %p (%p) "
74                "with CQN %#lx\n", ibdev, num_cqes, cq,
75                ib_cq_get_drvdata ( cq ), cq->cqn );
76         return cq;
77 }
78
79 /**
80  * Destroy completion queue
81  *
82  * @v ibdev             Infiniband device
83  * @v cq                Completion queue
84  */
85 void ib_destroy_cq ( struct ib_device *ibdev,
86                      struct ib_completion_queue *cq ) {
87         DBGC ( ibdev, "IBDEV %p destroying completion queue %#lx\n",
88                ibdev, cq->cqn );
89         assert ( list_empty ( &cq->work_queues ) );
90         ibdev->op->destroy_cq ( ibdev, cq );
91         free ( cq );
92 }
93
94 /**
95  * Create queue pair
96  *
97  * @v ibdev             Infiniband device
98  * @v num_send_wqes     Number of send work queue entries
99  * @v send_cq           Send completion queue
100  * @v num_recv_wqes     Number of receive work queue entries
101  * @v recv_cq           Receive completion queue
102  * @v qkey              Queue key
103  * @ret qp              Queue pair
104  */
105 struct ib_queue_pair * ib_create_qp ( struct ib_device *ibdev,
106                                       unsigned int num_send_wqes,
107                                       struct ib_completion_queue *send_cq,
108                                       unsigned int num_recv_wqes,
109                                       struct ib_completion_queue *recv_cq,
110                                       unsigned long qkey ) {
111         struct ib_queue_pair *qp;
112         size_t total_size;
113         int rc;
114
115         DBGC ( ibdev, "IBDEV %p creating queue pair\n", ibdev );
116
117         /* Allocate and initialise data structure */
118         total_size = ( sizeof ( *qp ) +
119                        ( num_send_wqes * sizeof ( qp->send.iobufs[0] ) ) +
120                        ( num_recv_wqes * sizeof ( qp->recv.iobufs[0] ) ) );
121         qp = zalloc ( total_size );
122         if ( ! qp )
123                 return NULL;
124         qp->qkey = qkey;
125         qp->send.qp = qp;
126         qp->send.is_send = 1;
127         qp->send.cq = send_cq;
128         list_add ( &qp->send.list, &send_cq->work_queues );
129         qp->send.num_wqes = num_send_wqes;
130         qp->send.iobufs = ( ( ( void * ) qp ) + sizeof ( *qp ) );
131         qp->recv.qp = qp;
132         qp->recv.cq = recv_cq;
133         list_add ( &qp->recv.list, &recv_cq->work_queues );
134         qp->recv.num_wqes = num_recv_wqes;
135         qp->recv.iobufs = ( ( ( void * ) qp ) + sizeof ( *qp ) +
136                             ( num_send_wqes * sizeof ( qp->send.iobufs[0] ) ));
137
138         /* Perform device-specific initialisation and get QPN */
139         if ( ( rc = ibdev->op->create_qp ( ibdev, qp ) ) != 0 ) {
140                 DBGC ( ibdev, "IBDEV %p could not initialise queue pair: "
141                        "%s\n", ibdev, strerror ( rc ) );
142                 list_del ( &qp->send.list );
143                 list_del ( &qp->recv.list );
144                 free ( qp );
145                 return NULL;
146         }
147
148         DBGC ( ibdev, "IBDEV %p created queue pair %p (%p) with QPN %#lx\n",
149                ibdev, qp, ib_qp_get_drvdata ( qp ), qp->qpn );
150         DBGC ( ibdev, "IBDEV %p QPN %#lx has %d send entries at [%p,%p)\n",
151                ibdev, qp->qpn, num_send_wqes, qp->send.iobufs,
152                qp->recv.iobufs );
153         DBGC ( ibdev, "IBDEV %p QPN %#lx has %d receive entries at [%p,%p)\n",
154                ibdev, qp->qpn, num_recv_wqes, qp->recv.iobufs,
155                ( ( ( void * ) qp ) + total_size ) );
156         return qp;
157 }
158
159 /**
160  * Modify queue pair
161  *
162  * @v ibdev             Infiniband device
163  * @v qp                Queue pair
164  * @v mod_list          Modification list
165  * @v qkey              New queue key, if applicable
166  * @ret rc              Return status code
167  */
168 int ib_modify_qp ( struct ib_device *ibdev, struct ib_queue_pair *qp,
169                    unsigned long mod_list, unsigned long qkey ) {
170         int rc;
171
172         DBGC ( ibdev, "IBDEV %p modifying QPN %#lx\n", ibdev, qp->qpn );
173
174         if ( mod_list & IB_MODIFY_QKEY )
175                 qp->qkey = qkey;
176
177         if ( ( rc = ibdev->op->modify_qp ( ibdev, qp, mod_list ) ) != 0 ) {
178                 DBGC ( ibdev, "IBDEV %p could not modify QPN %#lx: %s\n",
179                        ibdev, qp->qpn, strerror ( rc ) );
180                 return rc;
181         }
182
183         return 0;
184 }
185
186 /**
187  * Destroy queue pair
188  *
189  * @v ibdev             Infiniband device
190  * @v qp                Queue pair
191  */
192 void ib_destroy_qp ( struct ib_device *ibdev, struct ib_queue_pair *qp ) {
193         DBGC ( ibdev, "IBDEV %p destroying QPN %#lx\n",
194                ibdev, qp->qpn );
195         ibdev->op->destroy_qp ( ibdev, qp );
196         list_del ( &qp->send.list );
197         list_del ( &qp->recv.list );
198         free ( qp );
199 }
200
201 /**
202  * Find work queue belonging to completion queue
203  *
204  * @v cq                Completion queue
205  * @v qpn               Queue pair number
206  * @v is_send           Find send work queue (rather than receive)
207  * @ret wq              Work queue, or NULL if not found
208  */
209 struct ib_work_queue * ib_find_wq ( struct ib_completion_queue *cq,
210                                     unsigned long qpn, int is_send ) {
211         struct ib_work_queue *wq;
212
213         list_for_each_entry ( wq, &cq->work_queues, list ) {
214                 if ( ( wq->qp->qpn == qpn ) && ( wq->is_send == is_send ) )
215                         return wq;
216         }
217         return NULL;
218 }
219
220 /***************************************************************************
221  *
222  * Management datagram operations
223  *
224  ***************************************************************************
225  */
226
227 /**
228  * Get port information
229  *
230  * @v ibdev             Infiniband device
231  * @v port_info         Port information datagram to fill in
232  * @ret rc              Return status code
233  */
234 static int ib_get_port_info ( struct ib_device *ibdev,
235                               struct ib_mad_port_info *port_info ) {
236         struct ib_mad_hdr *hdr = &port_info->mad_hdr;
237         int rc;
238
239         /* Construct MAD */
240         memset ( port_info, 0, sizeof ( *port_info ) );
241         hdr->base_version = IB_MGMT_BASE_VERSION;
242         hdr->mgmt_class = IB_MGMT_CLASS_SUBN_LID_ROUTED;
243         hdr->class_version = 1;
244         hdr->method = IB_MGMT_METHOD_GET;
245         hdr->attr_id = htons ( IB_SMP_ATTR_PORT_INFO );
246         hdr->attr_mod = htonl ( ibdev->port );
247
248         if ( ( rc = ib_mad ( ibdev, hdr, sizeof ( *port_info ) ) ) != 0 ) {
249                 DBGC ( ibdev, "IBDEV %p could not get port info: %s\n",
250                        ibdev, strerror ( rc ) );
251                 return rc;
252         }
253         return 0;
254 }
255
256 /**
257  * Get GUID information
258  *
259  * @v ibdev             Infiniband device
260  * @v guid_info         GUID information datagram to fill in
261  * @ret rc              Return status code
262  */
263 static int ib_get_guid_info ( struct ib_device *ibdev,
264                               struct ib_mad_guid_info *guid_info ) {
265         struct ib_mad_hdr *hdr = &guid_info->mad_hdr;
266         int rc;
267
268         /* Construct MAD */
269         memset ( guid_info, 0, sizeof ( *guid_info ) );
270         hdr->base_version = IB_MGMT_BASE_VERSION;
271         hdr->mgmt_class = IB_MGMT_CLASS_SUBN_LID_ROUTED;
272         hdr->class_version = 1;
273         hdr->method = IB_MGMT_METHOD_GET;
274         hdr->attr_id = htons ( IB_SMP_ATTR_GUID_INFO );
275
276         if ( ( rc = ib_mad ( ibdev, hdr, sizeof ( *guid_info ) ) ) != 0 ) {
277                 DBGC ( ibdev, "IBDEV %p could not get GUID info: %s\n",
278                        ibdev, strerror ( rc ) );
279                 return rc;
280         }
281         return 0;
282 }
283
284 /**
285  * Get partition key table
286  *
287  * @v ibdev             Infiniband device
288  * @v guid_info         Partition key table datagram to fill in
289  * @ret rc              Return status code
290  */
291 static int ib_get_pkey_table ( struct ib_device *ibdev,
292                                struct ib_mad_pkey_table *pkey_table ) {
293         struct ib_mad_hdr *hdr = &pkey_table->mad_hdr;
294         int rc;
295
296         /* Construct MAD */
297         memset ( pkey_table, 0, sizeof ( *pkey_table ) );
298         hdr->base_version = IB_MGMT_BASE_VERSION;
299         hdr->mgmt_class = IB_MGMT_CLASS_SUBN_LID_ROUTED;
300         hdr->class_version = 1;
301         hdr->method = IB_MGMT_METHOD_GET;
302         hdr->attr_id = htons ( IB_SMP_ATTR_PKEY_TABLE );
303
304         if ( ( rc = ib_mad ( ibdev, hdr, sizeof ( *pkey_table ) ) ) != 0 ) {
305                 DBGC ( ibdev, "IBDEV %p could not get pkey table: %s\n",
306                        ibdev, strerror ( rc ) );
307                 return rc;
308         }
309         return 0;
310 }
311
312 /**
313  * Get MAD parameters
314  *
315  * @v ibdev             Infiniband device
316  * @ret rc              Return status code
317  */
318 static int ib_get_mad_params ( struct ib_device *ibdev ) {
319         union {
320                 /* This union exists just to save stack space */
321                 struct ib_mad_port_info port_info;
322                 struct ib_mad_guid_info guid_info;
323                 struct ib_mad_pkey_table pkey_table;
324         } u;
325         int rc;
326
327         /* Port info gives us the link state, the first half of the
328          * port GID and the SM LID.
329          */
330         if ( ( rc = ib_get_port_info ( ibdev, &u.port_info ) ) != 0 )
331                 return rc;
332         ibdev->link_up = ( ( u.port_info.port_state__link_speed_supported
333                              & 0xf ) == 4 );
334         memcpy ( &ibdev->port_gid.u.bytes[0], u.port_info.gid_prefix, 8 );
335         ibdev->sm_lid = ntohs ( u.port_info.mastersm_lid );
336
337         /* GUID info gives us the second half of the port GID */
338         if ( ( rc = ib_get_guid_info ( ibdev, &u.guid_info ) ) != 0 )
339                 return rc;
340         memcpy ( &ibdev->port_gid.u.bytes[8], u.guid_info.gid_local, 8 );
341
342         /* Get partition key */
343         if ( ( rc = ib_get_pkey_table ( ibdev, &u.pkey_table ) ) != 0 )
344                 return rc;
345         ibdev->pkey = ntohs ( u.pkey_table.pkey[0][0] );
346
347         DBGC ( ibdev, "IBDEV %p port GID is %08lx:%08lx:%08lx:%08lx\n",
348                ibdev, htonl ( ibdev->port_gid.u.dwords[0] ),
349                htonl ( ibdev->port_gid.u.dwords[1] ),
350                htonl ( ibdev->port_gid.u.dwords[2] ),
351                htonl ( ibdev->port_gid.u.dwords[3] ) );
352
353         return 0;
354 }
355
356 /***************************************************************************
357  *
358  * Event queues
359  *
360  ***************************************************************************
361  */
362
363 /**
364  * Handle Infiniband link state change
365  *
366  * @v ibdev             Infiniband device
367  */
368 void ib_link_state_changed ( struct ib_device *ibdev ) {
369         int rc;
370
371         /* Update MAD parameters */
372         if ( ( rc = ib_get_mad_params ( ibdev ) ) != 0 ) {
373                 DBGC ( ibdev, "IBDEV %p could not update MAD parameters: %s\n",
374                        ibdev, strerror ( rc ) );
375                 return;
376         }
377
378         /* Notify IPoIB of link state change */
379         ipoib_link_state_changed ( ibdev );
380 }
381
382 /**
383  * Single-step the Infiniband event queue
384  *
385  * @v process           Infiniband event queue process
386  */
387 static void ib_step ( struct process *process __unused ) {
388         struct ib_device *ibdev;
389
390         list_for_each_entry ( ibdev, &ib_devices, list ) {
391                 ibdev->op->poll_eq ( ibdev );
392         }
393 }
394
395 /** Infiniband event queue process */
396 struct process ib_process __permanent_process = {
397         .step = ib_step,
398 };
399
400 /***************************************************************************
401  *
402  * Infiniband device creation/destruction
403  *
404  ***************************************************************************
405  */
406
407 /**
408  * Allocate Infiniband device
409  *
410  * @v priv_size         Size of driver private data area
411  * @ret ibdev           Infiniband device, or NULL
412  */
413 struct ib_device * alloc_ibdev ( size_t priv_size ) {
414         struct ib_device *ibdev;
415         void *drv_priv;
416         size_t total_len;
417
418         total_len = ( sizeof ( *ibdev ) + priv_size );
419         ibdev = zalloc ( total_len );
420         if ( ibdev ) {
421                 drv_priv = ( ( ( void * ) ibdev ) + sizeof ( *ibdev ) );
422                 ib_set_drvdata ( ibdev, drv_priv );
423         }
424         return ibdev;
425 }
426
427 /**
428  * Register Infiniband device
429  *
430  * @v ibdev             Infiniband device
431  * @ret rc              Return status code
432  */
433 int register_ibdev ( struct ib_device *ibdev ) {
434         int rc;
435
436         /* Add to device list */
437         ibdev_get ( ibdev );
438         list_add_tail ( &ibdev->list, &ib_devices );
439
440         /* Open link */
441         if ( ( rc = ib_open ( ibdev ) ) != 0 )
442                 goto err_open;
443
444         /* Get MAD parameters */
445         if ( ( rc = ib_get_mad_params ( ibdev ) ) != 0 )
446                 goto err_get_mad_params;
447
448         /* Add IPoIB device */
449         if ( ( rc = ipoib_probe ( ibdev ) ) != 0 ) {
450                 DBGC ( ibdev, "IBDEV %p could not add IPoIB device: %s\n",
451                        ibdev, strerror ( rc ) );
452                 goto err_ipoib_probe;
453         }
454
455         DBGC ( ibdev, "IBDEV %p registered (phys %s)\n", ibdev,
456                ibdev->dev->name );
457         return 0;
458
459  err_ipoib_probe:
460  err_get_mad_params:
461         ib_close ( ibdev );
462  err_open:
463         list_del ( &ibdev->list );
464         ibdev_put ( ibdev );
465         return rc;
466 }
467
468 /**
469  * Unregister Infiniband device
470  *
471  * @v ibdev             Infiniband device
472  */
473 void unregister_ibdev ( struct ib_device *ibdev ) {
474
475         /* Close device */
476         ipoib_remove ( ibdev );
477         ib_close ( ibdev );
478
479         /* Remove from device list */
480         list_del ( &ibdev->list );
481         ibdev_put ( ibdev );
482         DBGC ( ibdev, "IBDEV %p unregistered\n", ibdev );
483 }