Multicast join now works.
[people/xl0/gpxe.git] / src / drivers / net / mlx_ipoib / mt25218.c
1 /**************************************************************************
2 Etherboot -  BOOTP/TFTP Bootstrap Program
3 Skeleton NIC driver for Etherboot
4 ***************************************************************************/
5
6 /*
7  * This program is free software; you can redistribute it and/or
8  * modify it under the terms of the GNU General Public License as
9  * published by the Free Software Foundation; either version 2, or (at
10  * your option) any later version.
11  */
12
13 #include <errno.h>
14 #include <gpxe/pci.h>
15 #include <gpxe/malloc.h>
16 #include <gpxe/iobuf.h>
17 #include <gpxe/netdevice.h>
18 #include <gpxe/infiniband.h>
19
20 /* to get some global routines like printf */
21 #include "etherboot.h"
22 /* to get the interface to the body of the program */
23 #include "nic.h"
24
25 #define CREATE_OWN 1
26
27 #include "mt25218_imp.c"
28
29 #include "arbel.h"
30
31
32 static const struct ib_gid arbel_no_gid = {
33         { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2 }
34 };
35
36
37 #define MLX_RX_MAX_FILL NUM_IPOIB_RCV_WQES
38
39 struct mlx_nic {
40 #if ! CREATE_OWN
41         /** Queue pair handle */
42         udqp_t ipoib_qph;
43         /** Send completion queue */
44         cq_t snd_cqh;
45         /** Receive completion queue */
46         cq_t rcv_cqh;
47 #endif
48         /** Broadcast Address Vector */
49         ud_av_t bcast_av;
50
51         /** RX fill level */
52         unsigned int rx_fill;
53
54 #if CREATE_OWN
55         struct ib_completion_queue *own_send_cq;
56         struct ib_completion_queue *own_recv_cq;
57         struct ib_queue_pair *own_qp;
58 #endif
59 };
60
61
62 static struct io_buffer *static_ipoib_tx_ring[NUM_IPOIB_SND_WQES];
63 static struct io_buffer *static_ipoib_rx_ring[NUM_IPOIB_RCV_WQES];
64
65 static struct arbel static_arbel;
66
67 #if ! CREATE_OWN
68
69 static struct arbel_completion_queue static_arbel_ipoib_send_cq = {
70         .ci_doorbell_idx = IPOIB_SND_CQ_CI_DB_IDX,
71 };
72 static struct ib_completion_queue static_ipoib_send_cq = {
73         .cqn = 1234, /* Only used for debug messages */
74         .num_cqes = NUM_IPOIB_SND_CQES,
75         .work_queues = LIST_HEAD_INIT ( static_ipoib_send_cq.work_queues ),
76         .dev_priv = &static_arbel_ipoib_send_cq,
77 };
78
79 static struct arbel_completion_queue static_arbel_ipoib_recv_cq = {
80         .ci_doorbell_idx = IPOIB_RCV_CQ_CI_DB_IDX,
81 };
82 static struct ib_completion_queue static_ipoib_recv_cq = {
83         .cqn = 2345, /* Only used for debug messages */
84         .num_cqes = NUM_IPOIB_RCV_CQES,
85         .work_queues = LIST_HEAD_INIT ( static_ipoib_recv_cq.work_queues ),
86         .dev_priv = &static_arbel_ipoib_recv_cq,
87 };
88
89 static struct arbel_queue_pair static_arbel_ipoib_qp = {
90         .send = {
91                 .doorbell_idx = IPOIB_SND_QP_DB_IDX,
92         },
93         .recv = {
94                 .doorbell_idx = IPOIB_RCV_QP_DB_IDX,
95         },
96 };
97 static struct ib_queue_pair static_ipoib_qp = {
98         .send = {
99                 .qp = &static_ipoib_qp,
100                 .is_send = 1,
101                 .cq = &static_ipoib_send_cq,
102                 .num_wqes = NUM_IPOIB_SND_WQES,
103                 .iobufs = static_ipoib_tx_ring,
104                 .list = LIST_HEAD_INIT (static_ipoib_qp.send.list),
105                 .dev_priv = &static_arbel_ipoib_qp.send,
106         },
107         .recv = {
108                 .qp = &static_ipoib_qp,
109                 .is_send = 0,
110                 .cq = &static_ipoib_recv_cq,
111                 .num_wqes = NUM_IPOIB_RCV_WQES,
112                 .iobufs = static_ipoib_rx_ring,
113                 .list = LIST_HEAD_INIT (static_ipoib_qp.recv.list),
114                 .dev_priv = &static_arbel_ipoib_qp.recv,
115         },
116         .dev_priv = &static_arbel_ipoib_qp,
117 };
118
119 #endif
120
121
122 static struct ib_device static_ibdev = {
123         .dev_priv = &static_arbel,
124 };
125
126
127 /**
128  * Open network device
129  *
130  * @v netdev            Network device
131  * @ret rc              Return status code
132  */
133 static int mlx_open ( struct net_device *netdev ) {
134
135         ( void ) netdev;
136
137         return 0;
138 }
139
140 /**
141  * Close network device
142  *
143  * @v netdev            Network device
144  */
145 static void mlx_close ( struct net_device *netdev ) {
146
147         ( void ) netdev;
148
149 }
150
151 static int arbel_post_send ( struct ib_device *ibdev,
152                              struct ib_queue_pair *qp,
153                              struct ib_address_vector *av,
154                              struct io_buffer *iobuf );
155
156 static int mlx_transmit_direct ( struct net_device *netdev,
157                                  struct io_buffer *iobuf ) {
158         struct mlx_nic *mlx = netdev->priv;
159         int rc;
160
161         struct ud_av_st *bcast_av = mlx->bcast_av;
162         struct arbelprm_ud_address_vector *bav =
163                 ( struct arbelprm_ud_address_vector * ) &bcast_av->av;
164         struct ib_address_vector av = {
165                 .dest_qp = bcast_av->dest_qp,
166                 .qkey = bcast_av->qkey,
167                 .dlid = MLX_GET ( bav, rlid ),
168                 .rate = ( MLX_GET ( bav, max_stat_rate ) ? 1 : 4 ),
169                 .sl = MLX_GET ( bav, sl ),
170                 .gid_present = 1,
171         };
172         memcpy ( &av.gid, ( ( void * ) bav ) + 16, 16 );
173
174         rc = arbel_post_send ( &static_ibdev,
175 #if CREATE_OWN
176                                mlx->own_qp,
177 #else
178                                &static_ipoib_qp,
179 #endif
180                                &av, iobuf );
181
182         return rc;
183 }
184
185 static void arbel_poll_cq ( struct ib_device *ibdev,
186                             struct ib_completion_queue *cq,
187                             ib_completer_t complete_send,
188                             ib_completer_t complete_recv );
189
190 static void temp_complete_send ( struct ib_device *ibdev __unused,
191                                  struct ib_queue_pair *qp,
192                                  struct ib_completion *completion,
193                                  struct io_buffer *iobuf ) {
194         struct net_device *netdev = qp->owner_priv;
195
196         DBG ( "Wahey! TX completion\n" );
197         netdev_tx_complete_err ( netdev, iobuf,
198                                  ( completion->syndrome ? -EIO : 0 ) );
199 }
200
201 static void temp_complete_recv ( struct ib_device *ibdev __unused,
202                                  struct ib_queue_pair *qp,
203                                  struct ib_completion *completion,
204                                  struct io_buffer *iobuf ) {
205         struct net_device *netdev = qp->owner_priv;
206         struct mlx_nic *mlx = netdev->priv;
207
208         DBG ( "Yay! RX completion on %p len %zx:\n", iobuf, completion->len );
209         if ( completion->syndrome ) {
210                 netdev_rx_err ( netdev, iobuf, -EIO );
211         } else {
212                 iob_put ( iobuf, completion->len );
213                 iob_pull ( iobuf, sizeof ( struct ib_global_route_header ) );
214                 netdev_rx ( netdev, iobuf );
215         }
216
217         mlx->rx_fill--;
218 }
219
220 static int arbel_post_recv ( struct ib_device *ibdev,
221                              struct ib_queue_pair *qp,
222                              struct io_buffer *iobuf );
223
224 static void mlx_refill_rx ( struct net_device *netdev ) {
225         struct mlx_nic *mlx = netdev->priv;
226         struct io_buffer *iobuf;
227         int rc;
228
229         while ( mlx->rx_fill < MLX_RX_MAX_FILL ) {
230                 iobuf = alloc_iob ( 2048 );
231                 if ( ! iobuf )
232                         break;
233                 DBG ( "Posting RX buffer %p:\n", iobuf );
234                 if ( ( rc = arbel_post_recv ( &static_ibdev,
235 #if CREATE_OWN
236                                               mlx->own_qp,
237 #else
238                                               &static_ipoib_qp,
239 #endif
240                                               iobuf ) ) != 0 ) {
241                         free_iob ( iobuf );
242                         break;
243                 }
244                 mlx->rx_fill++;
245         }
246 }
247
248 /**
249  * Poll for completed and received packets
250  *
251  * @v netdev            Network device
252  */
253 static void mlx_poll ( struct net_device *netdev ) {
254         struct mlx_nic *mlx = netdev->priv;
255         int rc;
256
257         if ( ( rc = poll_error_buf() ) != 0 ) {
258                 DBG ( "poll_error_buf() failed: %s\n", strerror ( rc ) );
259                 return;
260         }
261
262         /* Drain event queue.  We can ignore events, since we're going
263          * to just poll all completion queues anyway.
264          */
265         if ( ( rc = drain_eq() ) != 0 ) {
266                 DBG ( "drain_eq() failed: %s\n", strerror ( rc ) );
267                 return;
268         }
269
270         /* Poll completion queues */
271         arbel_poll_cq ( &static_ibdev,
272 #if CREATE_OWN
273                         mlx->own_send_cq,
274 #else
275                         &static_ipoib_send_cq,
276 #endif
277                         temp_complete_send, temp_complete_recv );
278         arbel_poll_cq ( &static_ibdev,
279 #if CREATE_OWN
280                         mlx->own_recv_cq,
281 #else
282                         &static_ipoib_recv_cq,
283 #endif
284                         temp_complete_send, temp_complete_recv );
285
286         mlx_refill_rx ( netdev );
287 }
288
289 /**
290  * Enable or disable interrupts
291  *
292  * @v netdev            Network device
293  * @v enable            Interrupts should be enabled
294  */
295 static void mlx_irq ( struct net_device *netdev, int enable ) {
296
297         ( void ) netdev;
298         ( void ) enable;
299
300 }
301
302 static struct net_device_operations mlx_operations = {
303         .open           = mlx_open,
304         .close          = mlx_close,
305         .transmit       = mlx_transmit_direct,
306         .poll           = mlx_poll,
307         .irq            = mlx_irq,
308 };
309
310
311
312
313 /***************************************************************************
314  *
315  * Queue number allocation
316  *
317  ***************************************************************************
318  */
319
320 /**
321  * Allocate queue number
322  *
323  * @v q_inuse           Queue usage bitmask
324  * @v max_inuse         Maximum number of in-use queues
325  * @ret qn_offset       Free queue number offset, or negative error
326  */
327 static int arbel_alloc_qn_offset ( arbel_bitmask_t *q_inuse,
328                                    unsigned int max_inuse ) {
329         unsigned int qn_offset = 0;
330         arbel_bitmask_t mask = 1;
331
332         while ( qn_offset < max_inuse ) {
333                 if ( ( mask & *q_inuse ) == 0 ) {
334                         *q_inuse |= mask;
335                         return qn_offset;
336                 }
337                 qn_offset++;
338                 mask <<= 1;
339                 if ( ! mask ) {
340                         mask = 1;
341                         q_inuse++;
342                 }
343         }
344         return -ENFILE;
345 }
346
347 /**
348  * Free queue number
349  *
350  * @v q_inuse           Queue usage bitmask
351  * @v qn_offset         Queue number offset
352  */
353 static void arbel_free_qn_offset ( arbel_bitmask_t *q_inuse, int qn_offset ) {
354         arbel_bitmask_t mask;
355
356         mask = ( 1 << ( qn_offset % ( 8 * sizeof ( mask ) ) ) );
357         q_inuse += ( qn_offset / ( 8 * sizeof ( mask ) ) );
358         *q_inuse &= ~mask;
359 }
360
361 /***************************************************************************
362  *
363  * HCA commands
364  *
365  ***************************************************************************
366  */
367
368 /**
369  * Wait for Arbel command completion
370  *
371  * @v arbel             Arbel device
372  * @ret rc              Return status code
373  */
374 static int arbel_cmd_wait ( struct arbel *arbel,
375                             struct arbelprm_hca_command_register *hcr ) {
376         unsigned int wait;
377
378         for ( wait = ARBEL_HCR_MAX_WAIT_MS ; wait ; wait-- ) {
379                 hcr->u.dwords[6] =
380                         readl ( arbel->config + ARBEL_HCR_REG ( 6 ) );
381                 if ( MLX_GET ( hcr, go ) == 0 )
382                         return 0;
383                 mdelay ( 1 );
384         }
385         return -EBUSY;
386 }
387
388 /**
389  * Issue HCA command
390  *
391  * @v arbel             Arbel device
392  * @v command           Command opcode, flags and input/output lengths
393  * @v op_mod            Opcode modifier (0 if no modifier applicable)
394  * @v in                Input parameters
395  * @v in_mod            Input modifier (0 if no modifier applicable)
396  * @v out               Output parameters
397  * @ret rc              Return status code
398  */
399 static int arbel_cmd ( struct arbel *arbel, unsigned long command,
400                        unsigned int op_mod, const void *in,
401                        unsigned int in_mod, void *out ) {
402         struct arbelprm_hca_command_register hcr;
403         unsigned int opcode = ARBEL_HCR_OPCODE ( command );
404         size_t in_len = ARBEL_HCR_IN_LEN ( command );
405         size_t out_len = ARBEL_HCR_OUT_LEN ( command );
406         void *in_buffer;
407         void *out_buffer;
408         unsigned int status;
409         unsigned int i;
410         int rc;
411
412         DBGC ( arbel, "Arbel %p command %02x in %zx%s out %zx%s\n",
413                arbel, opcode, in_len,
414                ( ( command & ARBEL_HCR_IN_MBOX ) ? "(mbox)" : "" ), out_len,
415                ( ( command & ARBEL_HCR_OUT_MBOX ) ? "(mbox)" : "" ) );
416
417         /* Check that HCR is free */
418         if ( ( rc = arbel_cmd_wait ( arbel, &hcr ) ) != 0 ) {
419                 DBGC ( arbel, "Arbel %p command interface locked\n", arbel );
420                 return rc;
421         }
422
423         /* Prepare HCR */
424         memset ( &hcr, 0, sizeof ( hcr ) );
425         in_buffer = &hcr.u.dwords[0];
426         if ( in_len && ( command & ARBEL_HCR_IN_MBOX ) ) {
427                 in_buffer = arbel->mailbox_in;
428                 MLX_FILL_1 ( &hcr, 1, in_param_l, virt_to_bus ( in_buffer ) );
429         }
430         memcpy ( in_buffer, in, in_len );
431         MLX_FILL_1 ( &hcr, 2, input_modifier, in_mod );
432         out_buffer = &hcr.u.dwords[3];
433         if ( out_len && ( command & ARBEL_HCR_OUT_MBOX ) ) {
434                 out_buffer = arbel->mailbox_out;
435                 MLX_FILL_1 ( &hcr, 4, out_param_l,
436                              virt_to_bus ( out_buffer ) );
437         }
438         MLX_FILL_3 ( &hcr, 6,
439                      opcode, opcode,
440                      opcode_modifier, op_mod,
441                      go, 1 );
442
443         DBG_HD ( &hcr, sizeof ( hcr ) );
444         if ( in_len ) {
445                 size_t dump_len = in_len;
446                 if ( dump_len > 256 )
447                         dump_len = 256;
448                 DBG ( "Input:\n" );
449                 DBG_HD ( in, dump_len );
450         }
451
452         /* Issue command */
453         for ( i = 0 ; i < ( sizeof ( hcr ) / sizeof ( hcr.u.dwords[0] ) ) ;
454               i++ ) {
455                 writel ( hcr.u.dwords[i],
456                          arbel->config + ARBEL_HCR_REG ( i ) );
457                 barrier();
458         }
459
460         /* Wait for command completion */
461         if ( ( rc = arbel_cmd_wait ( arbel, &hcr ) ) != 0 ) {
462                 DBGC ( arbel, "Arbel %p timed out waiting for command:\n",
463                        arbel );
464                 DBGC_HD ( arbel, &hcr, sizeof ( hcr ) );
465                 return rc;
466         }
467
468         /* Check command status */
469         status = MLX_GET ( &hcr, status );
470         if ( status != 0 ) {
471                 DBGC ( arbel, "Arbel %p command failed with status %02x:\n",
472                        arbel, status );
473                 DBGC_HD ( arbel, &hcr, sizeof ( hcr ) );
474                 return -EIO;
475         }
476
477         /* Read output parameters, if any */
478         hcr.u.dwords[3] = readl ( arbel->config + ARBEL_HCR_REG ( 3 ) );
479         hcr.u.dwords[4] = readl ( arbel->config + ARBEL_HCR_REG ( 4 ) );
480         memcpy ( out, out_buffer, out_len );
481
482         if ( out_len ) {
483                 size_t dump_len = out_len;
484                 if ( dump_len > 256 )
485                         dump_len = 256;
486                 DBG ( "Output:\n" );
487                 DBG_HD ( out, dump_len );
488         }
489
490         return 0;
491 }
492
493 static inline int
494 arbel_cmd_query_dev_lim ( struct arbel *arbel,
495                           struct arbelprm_query_dev_lim *dev_lim ) {
496         return arbel_cmd ( arbel,
497                            ARBEL_HCR_OUT_CMD ( ARBEL_HCR_QUERY_DEV_LIM, 
498                                                1, sizeof ( *dev_lim ) ),
499                            0, NULL, 0, dev_lim );
500 }
501
502 static inline int
503 arbel_cmd_sw2hw_cq ( struct arbel *arbel, unsigned long cqn,
504                      const struct arbelprm_completion_queue_context *cqctx ) {
505         return arbel_cmd ( arbel,
506                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_SW2HW_CQ,
507                                               1, sizeof ( *cqctx ) ),
508                            0, cqctx, cqn, NULL );
509 }
510
511 static inline int
512 arbel_cmd_hw2sw_cq ( struct arbel *arbel, unsigned long cqn ) {
513         return arbel_cmd ( arbel,
514                            ARBEL_HCR_VOID_CMD ( ARBEL_HCR_HW2SW_CQ ),
515                            1, NULL, cqn, NULL );
516 }
517
518 static inline int
519 arbel_cmd_rst2init_qpee ( struct arbel *arbel, unsigned long qpn,
520                           const struct arbelprm_qp_ee_state_transitions *ctx ){
521         return arbel_cmd ( arbel,
522                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_RST2INIT_QPEE,
523                                               1, sizeof ( *ctx ) ),
524                            0, ctx, qpn, NULL );
525 }
526
527 static inline int
528 arbel_cmd_init2rtr_qpee ( struct arbel *arbel, unsigned long qpn,
529                           const struct arbelprm_qp_ee_state_transitions *ctx ){
530         return arbel_cmd ( arbel,
531                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_INIT2RTR_QPEE,
532                                               1, sizeof ( *ctx ) ),
533                            0, ctx, qpn, NULL );
534 }
535
536 static inline int
537 arbel_cmd_rtr2rts_qpee ( struct arbel *arbel, unsigned long qpn,
538                          const struct arbelprm_qp_ee_state_transitions *ctx ) {
539         return arbel_cmd ( arbel,
540                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_RTR2RTS_QPEE,
541                                               1, sizeof ( *ctx ) ),
542                            0, ctx, qpn, NULL );
543 }
544
545 static inline int
546 arbel_cmd_2rst_qpee ( struct arbel *arbel, unsigned long qpn ) {
547         return arbel_cmd ( arbel,
548                            ARBEL_HCR_VOID_CMD ( ARBEL_HCR_2RST_QPEE ),
549                            0x03, NULL, qpn, NULL );
550 }
551
552 static inline int
553 arbel_cmd_read_mgm ( struct arbel *arbel, unsigned int index,
554                      struct arbelprm_mgm_entry *mgm ) {
555         return arbel_cmd ( arbel,
556                            ARBEL_HCR_OUT_CMD ( ARBEL_HCR_READ_MGM,
557                                                1, sizeof ( *mgm ) ),
558                            0, NULL, index, mgm );
559 }
560
561 static inline int
562 arbel_cmd_write_mgm ( struct arbel *arbel, unsigned int index,
563                       const struct arbelprm_mgm_entry *mgm ) {
564         return arbel_cmd ( arbel,
565                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_WRITE_MGM,
566                                               1, sizeof ( *mgm ) ),
567                            0, mgm, index, NULL );
568 }
569
570 static inline int
571 arbel_cmd_mgid_hash ( struct arbel *arbel, const struct ib_gid *gid,
572                       struct arbelprm_mgm_hash *hash ) {
573         return arbel_cmd ( arbel,
574                            ARBEL_HCR_INOUT_CMD ( ARBEL_HCR_MGID_HASH,
575                                                  1, sizeof ( *gid ),
576                                                  0, sizeof ( *hash ) ),
577                            0, gid, 0, hash );
578 }
579
580 /***************************************************************************
581  *
582  * Completion queue operations
583  *
584  ***************************************************************************
585  */
586
587 /**
588  * Create completion queue
589  *
590  * @v ibdev             Infiniband device
591  * @v cq                Completion queue
592  * @ret rc              Return status code
593  */
594 static int arbel_create_cq ( struct ib_device *ibdev,
595                              struct ib_completion_queue *cq ) {
596         struct arbel *arbel = ibdev->dev_priv;
597         struct arbel_completion_queue *arbel_cq;
598         struct arbelprm_completion_queue_context cqctx;
599         struct arbelprm_cq_ci_db_record *ci_db_rec;
600         struct arbelprm_cq_arm_db_record *arm_db_rec;
601         int cqn_offset;
602         unsigned int i;
603         int rc;
604
605         /* Find a free completion queue number */
606         cqn_offset = arbel_alloc_qn_offset ( arbel->cq_inuse, ARBEL_MAX_CQS );
607         if ( cqn_offset < 0 ) {
608                 DBGC ( arbel, "Arbel %p out of completion queues\n", arbel );
609                 rc = cqn_offset;
610                 goto err_cqn_offset;
611         }
612         cq->cqn = ( arbel->limits.reserved_cqs + cqn_offset );
613
614         /* Allocate control structures */
615         arbel_cq = zalloc ( sizeof ( *arbel_cq ) );
616         if ( ! arbel_cq ) {
617                 rc = -ENOMEM;
618                 goto err_arbel_cq;
619         }
620         arbel_cq->ci_doorbell_idx = arbel_cq_ci_doorbell_idx ( cqn_offset );
621         arbel_cq->arm_doorbell_idx = arbel_cq_arm_doorbell_idx ( cqn_offset );
622
623         /* Allocate completion queue itself */
624         arbel_cq->cqe_size = ( cq->num_cqes * sizeof ( arbel_cq->cqe[0] ) );
625         arbel_cq->cqe = malloc_dma ( arbel_cq->cqe_size,
626                                      sizeof ( arbel_cq->cqe[0] ) );
627         if ( ! arbel_cq->cqe ) {
628                 rc = -ENOMEM;
629                 goto err_cqe;
630         }
631         memset ( arbel_cq->cqe, 0, arbel_cq->cqe_size );
632         for ( i = 0 ; i < cq->num_cqes ; i++ ) {
633                 MLX_FILL_1 ( &arbel_cq->cqe[i].normal, 7, owner, 1 );
634         }
635         barrier();
636
637         /* Initialise doorbell records */
638         ci_db_rec = &arbel->db_rec[arbel_cq->ci_doorbell_idx].cq_ci;
639         MLX_FILL_1 ( ci_db_rec, 0, counter, 0 );
640         MLX_FILL_2 ( ci_db_rec, 1,
641                      res, ARBEL_UAR_RES_CQ_CI,
642                      cq_number, cq->cqn );
643         arm_db_rec = &arbel->db_rec[arbel_cq->arm_doorbell_idx].cq_arm;
644         MLX_FILL_1 ( arm_db_rec, 0, counter, 0 );
645         MLX_FILL_2 ( arm_db_rec, 1,
646                      res, ARBEL_UAR_RES_CQ_ARM,
647                      cq_number, cq->cqn );
648
649         /* Hand queue over to hardware */
650         memset ( &cqctx, 0, sizeof ( cqctx ) );
651         MLX_FILL_1 ( &cqctx, 0, st, 0xa /* "Event fired" */ );
652         MLX_FILL_1 ( &cqctx, 2, start_address_l,
653                      virt_to_bus ( arbel_cq->cqe ) );
654         MLX_FILL_2 ( &cqctx, 3,
655                      usr_page, arbel->limits.reserved_uars,
656                      log_cq_size, fls ( cq->num_cqes - 1 ) );
657         MLX_FILL_1 ( &cqctx, 5, c_eqn, arbel->eqn );
658         MLX_FILL_1 ( &cqctx, 6, pd, ARBEL_GLOBAL_PD );
659         MLX_FILL_1 ( &cqctx, 7, l_key, arbel->reserved_lkey );
660         MLX_FILL_1 ( &cqctx, 12, cqn, cq->cqn );
661         MLX_FILL_1 ( &cqctx, 13,
662                      cq_ci_db_record, arbel_cq->ci_doorbell_idx );
663         MLX_FILL_1 ( &cqctx, 14,
664                      cq_state_db_record, arbel_cq->arm_doorbell_idx );
665         if ( ( rc = arbel_cmd_sw2hw_cq ( arbel, cq->cqn, &cqctx ) ) != 0 ) {
666                 DBGC ( arbel, "Arbel %p SW2HW_CQ failed: %s\n",
667                        arbel, strerror ( rc ) );
668                 goto err_sw2hw_cq;
669         }
670
671         cq->dev_priv = arbel_cq;
672         return 0;
673
674  err_sw2hw_cq:
675         MLX_FILL_1 ( ci_db_rec, 1, res, ARBEL_UAR_RES_NONE );
676         MLX_FILL_1 ( arm_db_rec, 1, res, ARBEL_UAR_RES_NONE );
677         free_dma ( arbel_cq->cqe, arbel_cq->cqe_size );
678  err_cqe:
679         free ( arbel_cq );
680  err_arbel_cq:
681         arbel_free_qn_offset ( arbel->cq_inuse, cqn_offset );
682  err_cqn_offset:
683         return rc;
684 }
685
686 /**
687  * Destroy completion queue
688  *
689  * @v ibdev             Infiniband device
690  * @v cq                Completion queue
691  */
692 static void arbel_destroy_cq ( struct ib_device *ibdev,
693                                struct ib_completion_queue *cq ) {
694         struct arbel *arbel = ibdev->dev_priv;
695         struct arbel_completion_queue *arbel_cq = cq->dev_priv;
696         struct arbelprm_cq_ci_db_record *ci_db_rec;
697         struct arbelprm_cq_arm_db_record *arm_db_rec;
698         int cqn_offset;
699         int rc;
700
701         /* Take ownership back from hardware */
702         if ( ( rc = arbel_cmd_hw2sw_cq ( arbel, cq->cqn ) ) != 0 ) {
703                 DBGC ( arbel, "Arbel %p FATAL HW2SW_CQ failed on CQN %#lx: "
704                        "%s\n", arbel, cq->cqn, strerror ( rc ) );
705                 /* Leak memory and return; at least we avoid corruption */
706                 return;
707         }
708
709         /* Clear doorbell records */
710         ci_db_rec = &arbel->db_rec[arbel_cq->ci_doorbell_idx].cq_ci;
711         arm_db_rec = &arbel->db_rec[arbel_cq->arm_doorbell_idx].cq_arm;
712         MLX_FILL_1 ( ci_db_rec, 1, res, ARBEL_UAR_RES_NONE );
713         MLX_FILL_1 ( arm_db_rec, 1, res, ARBEL_UAR_RES_NONE );
714
715         /* Free memory */
716         free_dma ( arbel_cq->cqe, arbel_cq->cqe_size );
717         free ( arbel_cq );
718
719         /* Mark queue number as free */
720         cqn_offset = ( cq->cqn - arbel->limits.reserved_cqs );
721         arbel_free_qn_offset ( arbel->cq_inuse, cqn_offset );
722
723         cq->dev_priv = NULL;
724 }
725
726 /***************************************************************************
727  *
728  * Queue pair operations
729  *
730  ***************************************************************************
731  */
732
733 /**
734  * Create send work queue
735  *
736  * @v arbel_send_wq     Send work queue
737  * @v num_wqes          Number of work queue entries
738  * @ret rc              Return status code
739  */
740 static int arbel_create_send_wq ( struct arbel_send_work_queue *arbel_send_wq,
741                                   unsigned int num_wqes ) {
742         struct arbelprm_ud_send_wqe *wqe;
743         struct arbelprm_ud_send_wqe *next_wqe;
744         unsigned int wqe_idx_mask;
745         unsigned int i;
746
747         /* Allocate work queue */
748         arbel_send_wq->wqe_size = ( num_wqes *
749                                     sizeof ( arbel_send_wq->wqe[0] ) );
750         arbel_send_wq->wqe = malloc_dma ( arbel_send_wq->wqe_size,
751                                           sizeof ( arbel_send_wq->wqe[0] ) );
752         if ( ! arbel_send_wq->wqe )
753                 return -ENOMEM;
754         memset ( arbel_send_wq->wqe, 0, arbel_send_wq->wqe_size );
755
756         /* Link work queue entries */
757         wqe_idx_mask = ( num_wqes - 1 );
758         for ( i = 0 ; i < num_wqes ; i++ ) {
759                 wqe = &arbel_send_wq->wqe[i].ud;
760                 next_wqe = &arbel_send_wq->wqe[ ( i + 1 ) & wqe_idx_mask ].ud;
761                 MLX_FILL_1 ( &wqe->next, 0, nda_31_6,
762                              ( virt_to_bus ( next_wqe ) >> 6 ) );
763         }
764         
765         return 0;
766 }
767
768 /**
769  * Create receive work queue
770  *
771  * @v arbel_recv_wq     Receive work queue
772  * @v num_wqes          Number of work queue entries
773  * @ret rc              Return status code
774  */
775 static int arbel_create_recv_wq ( struct arbel_recv_work_queue *arbel_recv_wq,
776                                   unsigned int num_wqes ) {
777         struct arbelprm_recv_wqe *wqe;
778         struct arbelprm_recv_wqe *next_wqe;
779         unsigned int wqe_idx_mask;
780         size_t nds;
781         unsigned int i;
782         unsigned int j;
783
784         /* Allocate work queue */
785         arbel_recv_wq->wqe_size = ( num_wqes *
786                                     sizeof ( arbel_recv_wq->wqe[0] ) );
787         arbel_recv_wq->wqe = malloc_dma ( arbel_recv_wq->wqe_size,
788                                           sizeof ( arbel_recv_wq->wqe[0] ) );
789         if ( ! arbel_recv_wq->wqe )
790                 return -ENOMEM;
791         memset ( arbel_recv_wq->wqe, 0, arbel_recv_wq->wqe_size );
792
793         /* Link work queue entries */
794         wqe_idx_mask = ( num_wqes - 1 );
795         nds = ( ( offsetof ( typeof ( *wqe ), data ) +
796                   sizeof ( wqe->data[0] ) ) >> 4 );
797         for ( i = 0 ; i < num_wqes ; i++ ) {
798                 wqe = &arbel_recv_wq->wqe[i].recv;
799                 next_wqe = &arbel_recv_wq->wqe[( i + 1 ) & wqe_idx_mask].recv;
800                 MLX_FILL_1 ( &wqe->next, 0, nda_31_6,
801                              ( virt_to_bus ( next_wqe ) >> 6 ) );
802                 MLX_FILL_1 ( &wqe->next, 1, nds, ( sizeof ( *wqe ) / 16 ) );
803                 for ( j = 0 ; ( ( ( void * ) &wqe->data[j] ) <
804                                 ( ( void * ) ( wqe + 1 ) ) ) ; j++ ) {
805                         MLX_FILL_1 ( &wqe->data[j], 1,
806                                      l_key, ARBEL_INVALID_LKEY );
807                 }
808         }
809         
810         return 0;
811 }
812
813 /**
814  * Create queue pair
815  *
816  * @v ibdev             Infiniband device
817  * @v qp                Queue pair
818  * @ret rc              Return status code
819  */
820 static int arbel_create_qp ( struct ib_device *ibdev,
821                              struct ib_queue_pair *qp ) {
822         struct arbel *arbel = ibdev->dev_priv;
823         struct arbel_queue_pair *arbel_qp;
824         struct arbelprm_qp_ee_state_transitions qpctx;
825         struct arbelprm_qp_db_record *send_db_rec;
826         struct arbelprm_qp_db_record *recv_db_rec;
827         int qpn_offset;
828         int rc;
829
830         /* Find a free queue pair number */
831         qpn_offset = arbel_alloc_qn_offset ( arbel->qp_inuse, ARBEL_MAX_QPS );
832         if ( qpn_offset < 0 ) {
833                 DBGC ( arbel, "Arbel %p out of queue pairs\n", arbel );
834                 rc = qpn_offset;
835                 goto err_qpn_offset;
836         }
837         qp->qpn = ( ARBEL_QPN_BASE + arbel->limits.reserved_qps + qpn_offset );
838
839         /* Allocate control structures */
840         arbel_qp = zalloc ( sizeof ( *arbel_qp ) );
841         if ( ! arbel_qp ) {
842                 rc = -ENOMEM;
843                 goto err_arbel_qp;
844         }
845         arbel_qp->send.doorbell_idx = arbel_send_doorbell_idx ( qpn_offset );
846         arbel_qp->recv.doorbell_idx = arbel_recv_doorbell_idx ( qpn_offset );
847
848         /* Create send and receive work queues */
849         if ( ( rc = arbel_create_send_wq ( &arbel_qp->send,
850                                            qp->send.num_wqes ) ) != 0 )
851                 goto err_create_send_wq;
852         if ( ( rc = arbel_create_recv_wq ( &arbel_qp->recv,
853                                            qp->recv.num_wqes ) ) != 0 )
854                 goto err_create_recv_wq;
855
856         /* Initialise doorbell records */
857         send_db_rec = &arbel->db_rec[arbel_qp->send.doorbell_idx].qp;
858         MLX_FILL_1 ( send_db_rec, 0, counter, 0 );
859         MLX_FILL_2 ( send_db_rec, 1,
860                      res, ARBEL_UAR_RES_SQ,
861                      qp_number, qp->qpn );
862         recv_db_rec = &arbel->db_rec[arbel_qp->recv.doorbell_idx].qp;
863         MLX_FILL_1 ( recv_db_rec, 0, counter, 0 );
864         MLX_FILL_2 ( recv_db_rec, 1,
865                      res, ARBEL_UAR_RES_RQ,
866                      qp_number, qp->qpn );
867
868         /* Hand queue over to hardware */
869         memset ( &qpctx, 0, sizeof ( qpctx ) );
870         MLX_FILL_3 ( &qpctx, 2,
871                      qpc_eec_data.de, 1,
872                      qpc_eec_data.pm_state, 0x03 /* Always 0x03 for UD */,
873                      qpc_eec_data.st, ARBEL_ST_UD );
874         MLX_FILL_6 ( &qpctx, 4,
875                      qpc_eec_data.mtu, ARBEL_MTU_2048,
876                      qpc_eec_data.msg_max, 11 /* 2^11 = 2048 */,
877                      qpc_eec_data.log_rq_size, fls ( qp->recv.num_wqes - 1 ),
878                      qpc_eec_data.log_rq_stride,
879                      ( fls ( sizeof ( arbel_qp->recv.wqe[0] ) - 1 ) - 4 ),
880                      qpc_eec_data.log_sq_size, fls ( qp->send.num_wqes - 1 ),
881                      qpc_eec_data.log_sq_stride,
882                      ( fls ( sizeof ( arbel_qp->send.wqe[0] ) - 1 ) - 4 ) );
883         MLX_FILL_1 ( &qpctx, 5,
884                      qpc_eec_data.usr_page, arbel->limits.reserved_uars );
885         MLX_FILL_1 ( &qpctx, 10, qpc_eec_data.primary_address_path.port_number,
886                      PXE_IB_PORT );
887         MLX_FILL_1 ( &qpctx, 27, qpc_eec_data.pd, ARBEL_GLOBAL_PD );
888         MLX_FILL_1 ( &qpctx, 29, qpc_eec_data.wqe_lkey, arbel->reserved_lkey );
889         MLX_FILL_1 ( &qpctx, 30, qpc_eec_data.ssc, 1 );
890         MLX_FILL_1 ( &qpctx, 33, qpc_eec_data.cqn_snd, qp->send.cq->cqn );
891         MLX_FILL_1 ( &qpctx, 34, qpc_eec_data.snd_wqe_base_adr_l,
892                      ( virt_to_bus ( arbel_qp->send.wqe ) >> 6 ) );
893         MLX_FILL_1 ( &qpctx, 35, qpc_eec_data.snd_db_record_index,
894                      arbel_qp->send.doorbell_idx );
895         MLX_FILL_1 ( &qpctx, 38, qpc_eec_data.rsc, 1 );
896         MLX_FILL_1 ( &qpctx, 41, qpc_eec_data.cqn_rcv, qp->recv.cq->cqn );
897         MLX_FILL_1 ( &qpctx, 42, qpc_eec_data.rcv_wqe_base_adr_l,
898                      ( virt_to_bus ( arbel_qp->recv.wqe ) >> 6 ) );
899         MLX_FILL_1 ( &qpctx, 43, qpc_eec_data.rcv_db_record_index,
900                      arbel_qp->recv.doorbell_idx );
901         MLX_FILL_1 ( &qpctx, 44, qpc_eec_data.q_key, qp->qkey );
902         if ( ( rc = arbel_cmd_rst2init_qpee ( arbel, qp->qpn, &qpctx )) != 0 ){
903                 DBGC ( arbel, "Arbel %p RST2INIT_QPEE failed: %s\n",
904                        arbel, strerror ( rc ) );
905                 goto err_rst2init_qpee;
906         }
907         memset ( &qpctx, 0, sizeof ( qpctx ) );
908         MLX_FILL_2 ( &qpctx, 4,
909                      qpc_eec_data.mtu, ARBEL_MTU_2048,
910                      qpc_eec_data.msg_max, 11 /* 2^11 = 2048 */ );
911         if ( ( rc = arbel_cmd_init2rtr_qpee ( arbel, qp->qpn, &qpctx )) != 0 ){
912                 DBGC ( arbel, "Arbel %p INIT2RTR_QPEE failed: %s\n",
913                        arbel, strerror ( rc ) );
914                 goto err_init2rtr_qpee;
915         }
916         memset ( &qpctx, 0, sizeof ( qpctx ) );
917         if ( ( rc = arbel_cmd_rtr2rts_qpee ( arbel, qp->qpn, &qpctx ) ) != 0 ){
918                 DBGC ( arbel, "Arbel %p RTR2RTS_QPEE failed: %s\n",
919                        arbel, strerror ( rc ) );
920                 goto err_rtr2rts_qpee;
921         }
922
923         qp->dev_priv = arbel_qp;
924         return 0;
925
926  err_rtr2rts_qpee:
927  err_init2rtr_qpee:
928         arbel_cmd_2rst_qpee ( arbel, qp->qpn );
929  err_rst2init_qpee:
930         MLX_FILL_1 ( send_db_rec, 1, res, ARBEL_UAR_RES_NONE );
931         MLX_FILL_1 ( recv_db_rec, 1, res, ARBEL_UAR_RES_NONE );
932         free_dma ( arbel_qp->recv.wqe, arbel_qp->recv.wqe_size );
933  err_create_recv_wq:
934         free_dma ( arbel_qp->send.wqe, arbel_qp->send.wqe_size );
935  err_create_send_wq:
936         free ( arbel_qp );
937  err_arbel_qp:
938         arbel_free_qn_offset ( arbel->qp_inuse, qpn_offset );
939  err_qpn_offset:
940         return rc;
941 }
942
943 /**
944  * Destroy queue pair
945  *
946  * @v ibdev             Infiniband device
947  * @v qp                Queue pair
948  */
949 static void arbel_destroy_qp ( struct ib_device *ibdev,
950                                struct ib_queue_pair *qp ) {
951         struct arbel *arbel = ibdev->dev_priv;
952         struct arbel_queue_pair *arbel_qp = qp->dev_priv;
953         struct arbelprm_qp_db_record *send_db_rec;
954         struct arbelprm_qp_db_record *recv_db_rec;
955         int qpn_offset;
956         int rc;
957
958         /* Take ownership back from hardware */
959         if ( ( rc = arbel_cmd_2rst_qpee ( arbel, qp->qpn ) ) != 0 ) {
960                 DBGC ( arbel, "Arbel %p FATAL 2RST_QPEE failed on QPN %#lx: "
961                        "%s\n", arbel, qp->qpn, strerror ( rc ) );
962                 /* Leak memory and return; at least we avoid corruption */
963                 return;
964         }
965
966         /* Clear doorbell records */
967         send_db_rec = &arbel->db_rec[arbel_qp->send.doorbell_idx].qp;
968         recv_db_rec = &arbel->db_rec[arbel_qp->recv.doorbell_idx].qp;
969         MLX_FILL_1 ( send_db_rec, 1, res, ARBEL_UAR_RES_NONE );
970         MLX_FILL_1 ( recv_db_rec, 1, res, ARBEL_UAR_RES_NONE );
971
972         /* Free memory */
973         free_dma ( arbel_qp->send.wqe, arbel_qp->send.wqe_size );
974         free_dma ( arbel_qp->recv.wqe, arbel_qp->recv.wqe_size );
975         free ( arbel_qp );
976
977         /* Mark queue number as free */
978         qpn_offset = ( qp->qpn - ARBEL_QPN_BASE - arbel->limits.reserved_qps );
979         arbel_free_qn_offset ( arbel->qp_inuse, qpn_offset );
980
981         qp->dev_priv = NULL;
982 }
983
984 /***************************************************************************
985  *
986  * Work request operations
987  *
988  ***************************************************************************
989  */
990
991 /**
992  * Ring doorbell register in UAR
993  *
994  * @v arbel             Arbel device
995  * @v db_reg            Doorbell register structure
996  * @v offset            Address of doorbell
997  */
998 static void arbel_ring_doorbell ( struct arbel *arbel,
999                                   union arbelprm_doorbell_register *db_reg,
1000                                   unsigned int offset ) {
1001
1002         DBG ( "arbel_ring_doorbell %08lx:%08lx to %lx\n",
1003               db_reg->dword[0], db_reg->dword[1],
1004               virt_to_phys ( arbel->uar + offset ) );
1005
1006         barrier();
1007         writel ( db_reg->dword[0], ( arbel->uar + offset + 0 ) );
1008         barrier();
1009         writel ( db_reg->dword[1], ( arbel->uar + offset + 4 ) );
1010 }
1011
1012 /**
1013  * Post send work queue entry
1014  *
1015  * @v ibdev             Infiniband device
1016  * @v qp                Queue pair
1017  * @v av                Address vector
1018  * @v iobuf             I/O buffer
1019  * @ret rc              Return status code
1020  */
1021 static int arbel_post_send ( struct ib_device *ibdev,
1022                              struct ib_queue_pair *qp,
1023                              struct ib_address_vector *av,
1024                              struct io_buffer *iobuf ) {
1025         struct arbel *arbel = ibdev->dev_priv;
1026         struct arbel_queue_pair *arbel_qp = qp->dev_priv;
1027         struct ib_work_queue *wq = &qp->send;
1028         struct arbel_send_work_queue *arbel_send_wq = &arbel_qp->send;
1029         struct arbelprm_ud_send_wqe *prev_wqe;
1030         struct arbelprm_ud_send_wqe *wqe;
1031         struct arbelprm_qp_db_record *qp_db_rec;
1032         union arbelprm_doorbell_register db_reg;
1033         const struct ib_gid *gid;
1034         unsigned int wqe_idx_mask;
1035         size_t nds;
1036
1037         /* Allocate work queue entry */
1038         wqe_idx_mask = ( wq->num_wqes - 1 );
1039         if ( wq->iobufs[wq->next_idx & wqe_idx_mask] ) {
1040                 DBGC ( arbel, "Arbel %p send queue full", arbel );
1041                 return -ENOBUFS;
1042         }
1043         wq->iobufs[wq->next_idx & wqe_idx_mask] = iobuf;
1044         prev_wqe = &arbel_send_wq->wqe[(wq->next_idx - 1) & wqe_idx_mask].ud;
1045         wqe = &arbel_send_wq->wqe[wq->next_idx & wqe_idx_mask].ud;
1046
1047         /* Construct work queue entry */
1048         MLX_FILL_1 ( &wqe->next, 1, always1, 1 );
1049         memset ( &wqe->ctrl, 0, sizeof ( wqe->ctrl ) );
1050         MLX_FILL_1 ( &wqe->ctrl, 0, always1, 1 );
1051         memset ( &wqe->ud, 0, sizeof ( wqe->ud ) );
1052         MLX_FILL_2 ( &wqe->ud, 0,
1053                      ud_address_vector.pd, ARBEL_GLOBAL_PD,
1054                      ud_address_vector.port_number, PXE_IB_PORT );
1055         MLX_FILL_2 ( &wqe->ud, 1,
1056                      ud_address_vector.rlid, av->dlid,
1057                      ud_address_vector.g, av->gid_present );
1058         MLX_FILL_2 ( &wqe->ud, 2,
1059                      ud_address_vector.max_stat_rate,
1060                          ( ( av->rate >= 3 ) ? 0 : 1 ),
1061                      ud_address_vector.msg, 3 );
1062         MLX_FILL_1 ( &wqe->ud, 3, ud_address_vector.sl, av->sl );
1063         gid = ( av->gid_present ? &av->gid : &arbel_no_gid );
1064         memcpy ( &wqe->ud.u.dwords[4], gid, sizeof ( *gid ) );
1065         MLX_FILL_1 ( &wqe->ud, 8, destination_qp, av->dest_qp );
1066         MLX_FILL_1 ( &wqe->ud, 9, q_key, av->qkey );
1067         MLX_FILL_1 ( &wqe->data[0], 0, byte_count, iob_len ( iobuf ) );
1068         MLX_FILL_1 ( &wqe->data[0], 1, l_key, arbel->reserved_lkey );
1069         MLX_FILL_1 ( &wqe->data[0], 3,
1070                      local_address_l, virt_to_bus ( iobuf->data ) );
1071
1072         /* Update previous work queue entry's "next" field */
1073         nds = ( ( offsetof ( typeof ( *wqe ), data ) +
1074                   sizeof ( wqe->data[0] ) ) >> 4 );
1075         MLX_SET ( &prev_wqe->next, nopcode, ARBEL_OPCODE_SEND );
1076         MLX_FILL_3 ( &prev_wqe->next, 1,
1077                      nds, nds,
1078                      f, 1,
1079                      always1, 1 );
1080
1081         /* Update doorbell record */
1082         barrier();
1083         qp_db_rec = &arbel->db_rec[arbel_send_wq->doorbell_idx].qp;
1084         MLX_FILL_1 ( qp_db_rec, 0,
1085                      counter, ( ( wq->next_idx + 1 ) & 0xffff ) );
1086
1087         /* Ring doorbell register */
1088         MLX_FILL_4 ( &db_reg.send, 0,
1089                      nopcode, ARBEL_OPCODE_SEND,
1090                      f, 1,
1091                      wqe_counter, ( wq->next_idx & 0xffff ),
1092                      wqe_cnt, 1 );
1093         MLX_FILL_2 ( &db_reg.send, 1,
1094                      nds, nds,
1095                      qpn, qp->qpn );
1096         arbel_ring_doorbell ( arbel, &db_reg, POST_SND_OFFSET );
1097
1098         /* Update work queue's index */
1099         wq->next_idx++;
1100
1101         return 0;
1102 }
1103
1104 /**
1105  * Post receive work queue entry
1106  *
1107  * @v ibdev             Infiniband device
1108  * @v qp                Queue pair
1109  * @v iobuf             I/O buffer
1110  * @ret rc              Return status code
1111  */
1112 static int arbel_post_recv ( struct ib_device *ibdev,
1113                              struct ib_queue_pair *qp,
1114                              struct io_buffer *iobuf ) {
1115         struct arbel *arbel = ibdev->dev_priv;
1116         struct arbel_queue_pair *arbel_qp = qp->dev_priv;
1117         struct ib_work_queue *wq = &qp->recv;
1118         struct arbel_recv_work_queue *arbel_recv_wq = &arbel_qp->recv;
1119         struct arbelprm_recv_wqe *wqe;
1120         union arbelprm_doorbell_record *db_rec;
1121         unsigned int wqe_idx_mask;
1122
1123         /* Allocate work queue entry */
1124         wqe_idx_mask = ( wq->num_wqes - 1 );
1125         if ( wq->iobufs[wq->next_idx & wqe_idx_mask] ) {
1126                 DBGC ( arbel, "Arbel %p receive queue full", arbel );
1127                 return -ENOBUFS;
1128         }
1129         wq->iobufs[wq->next_idx & wqe_idx_mask] = iobuf;
1130         wqe = &arbel_recv_wq->wqe[wq->next_idx & wqe_idx_mask].recv;
1131
1132         /* Construct work queue entry */
1133         MLX_FILL_1 ( &wqe->data[0], 0, byte_count, iob_tailroom ( iobuf ) );
1134         MLX_FILL_1 ( &wqe->data[0], 1, l_key, arbel->reserved_lkey );
1135         MLX_FILL_1 ( &wqe->data[0], 3,
1136                      local_address_l, virt_to_bus ( iobuf->data ) );
1137
1138         /* Update doorbell record */
1139         barrier();
1140         db_rec = &arbel->db_rec[arbel_recv_wq->doorbell_idx];
1141         MLX_FILL_1 ( &db_rec->qp, 0,
1142                      counter, ( ( wq->next_idx + 1 ) & 0xffff ) );      
1143
1144         /* Update work queue's index */
1145         wq->next_idx++;
1146
1147         return 0;       
1148 }
1149
1150 /**
1151  * Handle completion
1152  *
1153  * @v ibdev             Infiniband device
1154  * @v cq                Completion queue
1155  * @v cqe               Hardware completion queue entry
1156  * @v complete_send     Send completion handler
1157  * @v complete_recv     Receive completion handler
1158  * @ret rc              Return status code
1159  */
1160 static int arbel_complete ( struct ib_device *ibdev,
1161                             struct ib_completion_queue *cq,
1162                             union arbelprm_completion_entry *cqe,
1163                             ib_completer_t complete_send,
1164                             ib_completer_t complete_recv ) {
1165         struct arbel *arbel = ibdev->dev_priv;
1166         struct ib_completion completion;
1167         struct ib_work_queue *wq;
1168         struct ib_queue_pair *qp;
1169         struct arbel_queue_pair *arbel_qp;
1170         struct arbel_send_work_queue *arbel_send_wq;
1171         struct arbel_recv_work_queue *arbel_recv_wq;
1172         struct io_buffer *iobuf;
1173         ib_completer_t complete;
1174         unsigned int opcode;
1175         unsigned long qpn;
1176         int is_send;
1177         unsigned long wqe_adr;
1178         unsigned int wqe_idx;
1179         int rc = 0;
1180
1181         /* Parse completion */
1182         memset ( &completion, 0, sizeof ( completion ) );
1183         completion.len = MLX_GET ( &cqe->normal, byte_cnt );
1184         qpn = MLX_GET ( &cqe->normal, my_qpn );
1185         is_send = MLX_GET ( &cqe->normal, s );
1186         wqe_adr = ( MLX_GET ( &cqe->normal, wqe_adr ) << 6 );
1187         opcode = MLX_GET ( &cqe->normal, opcode );
1188         if ( opcode >= ARBEL_OPCODE_RECV_ERROR ) {
1189                 /* "s" field is not valid for error opcodes */
1190                 is_send = ( opcode == ARBEL_OPCODE_SEND_ERROR );
1191                 completion.syndrome = MLX_GET ( &cqe->error, syndrome );
1192                 DBGC ( arbel, "Arbel %p CPN %lx syndrome %x vendor %lx\n",
1193                        arbel, cq->cqn, completion.syndrome,
1194                        MLX_GET ( &cqe->error, vendor_code ) );
1195                 rc = -EIO;
1196                 /* Don't return immediately; propagate error to completer */
1197         }
1198
1199         /* Identify work queue */
1200         wq = ib_find_wq ( cq, qpn, is_send );
1201         if ( ! wq ) {
1202                 DBGC ( arbel, "Arbel %p CQN %lx unknown %s QPN %lx\n",
1203                        arbel, cq->cqn, ( is_send ? "send" : "recv" ), qpn );
1204                 return -EIO;
1205         }
1206         qp = wq->qp;
1207         arbel_qp = qp->dev_priv;
1208
1209         /* Identify work queue entry index */
1210         if ( is_send ) {
1211                 arbel_send_wq = &arbel_qp->send;
1212                 wqe_idx = ( ( wqe_adr - virt_to_bus ( arbel_send_wq->wqe ) ) /
1213                             sizeof ( arbel_send_wq->wqe[0] ) );
1214         } else {
1215                 arbel_recv_wq = &arbel_qp->recv;
1216                 wqe_idx = ( ( wqe_adr - virt_to_bus ( arbel_recv_wq->wqe ) ) /
1217                             sizeof ( arbel_recv_wq->wqe[0] ) );
1218         }
1219
1220         /* Identify I/O buffer */
1221         iobuf = wq->iobufs[wqe_idx];
1222         if ( ! iobuf ) {
1223                 DBGC ( arbel, "Arbel %p CQN %lx QPN %lx empty WQE %x\n",
1224                        arbel, cq->cqn, qpn, wqe_idx );
1225                 return -EIO;
1226         }
1227         wq->iobufs[wqe_idx] = NULL;
1228
1229         /* Pass off to caller's completion handler */
1230         complete = ( is_send ? complete_send : complete_recv );
1231         complete ( ibdev, qp, &completion, iobuf );
1232
1233         return rc;
1234 }                            
1235
1236 /**
1237  * Poll completion queue
1238  *
1239  * @v ibdev             Infiniband device
1240  * @v cq                Completion queue
1241  * @v complete_send     Send completion handler
1242  * @v complete_recv     Receive completion handler
1243  */
1244 static void arbel_poll_cq ( struct ib_device *ibdev,
1245                             struct ib_completion_queue *cq,
1246                             ib_completer_t complete_send,
1247                             ib_completer_t complete_recv ) {
1248         struct arbel *arbel = ibdev->dev_priv;
1249         struct arbel_completion_queue *arbel_cq = cq->dev_priv;
1250         struct arbelprm_cq_ci_db_record *ci_db_rec;
1251         union arbelprm_completion_entry *cqe;
1252         unsigned int cqe_idx_mask;
1253         int rc;
1254
1255         while ( 1 ) {
1256                 /* Look for completion entry */
1257                 cqe_idx_mask = ( cq->num_cqes - 1 );
1258                 cqe = &arbel_cq->cqe[cq->next_idx & cqe_idx_mask];
1259                 if ( MLX_GET ( &cqe->normal, owner ) != 0 ) {
1260                         /* Entry still owned by hardware; end of poll */
1261                         break;
1262                 }
1263
1264                 /* Handle completion */
1265                 if ( ( rc = arbel_complete ( ibdev, cq, cqe, complete_send,
1266                                              complete_recv ) ) != 0 ) {
1267                         DBGC ( arbel, "Arbel %p failed to complete: %s\n",
1268                                arbel, strerror ( rc ) );
1269                         DBGC_HD ( arbel, cqe, sizeof ( *cqe ) );
1270                 }
1271
1272                 /* Return ownership to hardware */
1273                 MLX_FILL_1 ( &cqe->normal, 7, owner, 1 );
1274                 barrier();
1275                 /* Update completion queue's index */
1276                 cq->next_idx++;
1277                 /* Update doorbell record */
1278                 ci_db_rec = &arbel->db_rec[arbel_cq->ci_doorbell_idx].cq_ci;
1279                 MLX_FILL_1 ( ci_db_rec, 0,
1280                              counter, ( cq->next_idx & 0xffffffffUL ) );
1281         }
1282 }
1283
1284 /***************************************************************************
1285  *
1286  * Multicast group operations
1287  *
1288  ***************************************************************************
1289  */
1290
1291 /**
1292  * Attach to multicast group
1293  *
1294  * @v ibdev             Infiniband device
1295  * @v qp                Queue pair
1296  * @v gid               Multicast GID
1297  * @ret rc              Return status code
1298  */
1299 static int arbel_mcast_attach ( struct ib_device *ibdev,
1300                                 struct ib_queue_pair *qp,
1301                                 struct ib_gid *gid ) {
1302         struct arbel *arbel = ibdev->dev_priv;
1303         struct arbelprm_mgm_hash hash;
1304         struct arbelprm_mgm_entry mgm;
1305         unsigned int index;
1306         int rc;
1307
1308         /* Generate hash table index */
1309         if ( ( rc = arbel_cmd_mgid_hash ( arbel, gid, &hash ) ) != 0 ) {
1310                 DBGC ( arbel, "Arbel %p could not hash GID: %s\n",
1311                        arbel, strerror ( rc ) );
1312                 return rc;
1313         }
1314         index = MLX_GET ( &hash, hash );
1315
1316         /* Check for existing hash table entry */
1317         if ( ( rc = arbel_cmd_read_mgm ( arbel, index, &mgm ) ) != 0 ) {
1318                 DBGC ( arbel, "Arbel %p could not read MGM %#x: %s\n",
1319                        arbel, index, strerror ( rc ) );
1320                 return rc;
1321         }
1322         if ( MLX_GET ( &mgm, mgmqp_0.qi ) != 0 ) {
1323                 /* FIXME: this implementation allows only a single QP
1324                  * per multicast group, and doesn't handle hash
1325                  * collisions.  Sufficient for IPoIB but may need to
1326                  * be extended in future.
1327                  */
1328                 DBGC ( arbel, "Arbel %p MGID index %#x already in use\n",
1329                        arbel, index );
1330                 return -EBUSY;
1331         }
1332
1333         /* Update hash table entry */
1334         MLX_FILL_2 ( &mgm, 8,
1335                      mgmqp_0.qpn_i, qp->qpn,
1336                      mgmqp_0.qi, 1 );
1337         memcpy ( &mgm.u.dwords[4], gid, sizeof ( *gid ) );
1338         if ( ( rc = arbel_cmd_write_mgm ( arbel, index, &mgm ) ) != 0 ) {
1339                 DBGC ( arbel, "Arbel %p could not write MGM %#x: %s\n",
1340                        arbel, index, strerror ( rc ) );
1341                 return rc;
1342         }
1343
1344         return 0;
1345 }
1346
1347 /**
1348  * Detach from multicast group
1349  *
1350  * @v ibdev             Infiniband device
1351  * @v qp                Queue pair
1352  * @v gid               Multicast GID
1353  */
1354 static void arbel_mcast_detach ( struct ib_device *ibdev,
1355                                  struct ib_queue_pair *qp __unused,
1356                                  struct ib_gid *gid ) {
1357         struct arbel *arbel = ibdev->dev_priv;
1358         struct arbelprm_mgm_hash hash;
1359         struct arbelprm_mgm_entry mgm;
1360         unsigned int index;
1361         int rc;
1362
1363         /* Generate hash table index */
1364         if ( ( rc = arbel_cmd_mgid_hash ( arbel, gid, &hash ) ) != 0 ) {
1365                 DBGC ( arbel, "Arbel %p could not hash GID: %s\n",
1366                        arbel, strerror ( rc ) );
1367                 return;
1368         }
1369         index = MLX_GET ( &hash, hash );
1370
1371         /* Clear hash table entry */
1372         memset ( &mgm, 0, sizeof ( mgm ) );
1373         if ( ( rc = arbel_cmd_write_mgm ( arbel, index, &mgm ) ) != 0 ) {
1374                 DBGC ( arbel, "Arbel %p could not write MGM %#x: %s\n",
1375                        arbel, index, strerror ( rc ) );
1376                 return;
1377         }
1378 }
1379
1380
1381
1382 /** Arbel Infiniband operations */
1383 static struct ib_device_operations arbel_ib_operations = {
1384         .create_cq      = arbel_create_cq,
1385         .destroy_cq     = arbel_destroy_cq,
1386         .create_qp      = arbel_create_qp,
1387         .destroy_qp     = arbel_destroy_qp,
1388         .post_send      = arbel_post_send,
1389         .post_recv      = arbel_post_recv,
1390         .poll_cq        = arbel_poll_cq,
1391         .mcast_attach   = arbel_mcast_attach,
1392         .mcast_detach   = arbel_mcast_detach,
1393 };
1394
1395 /**
1396  * Remove PCI device
1397  *
1398  * @v pci               PCI device
1399  */
1400 static void arbel_remove ( struct pci_device *pci ) {
1401         struct net_device *netdev = pci_get_drvdata ( pci );
1402
1403         unregister_netdev ( netdev );
1404         ib_driver_close ( 0 );
1405         netdev_nullify ( netdev );
1406         netdev_put ( netdev );
1407 }
1408
1409 /**
1410  * Probe PCI device
1411  *
1412  * @v pci               PCI device
1413  * @v id                PCI ID
1414  * @ret rc              Return status code
1415  */
1416 static int arbel_probe ( struct pci_device *pci,
1417                          const struct pci_device_id *id __unused ) {
1418         struct net_device *netdev;
1419         struct arbelprm_query_dev_lim dev_lim;
1420         struct arbel *arbel = &static_arbel;
1421         struct mlx_nic *mlx;
1422         struct ib_mac *mac;
1423         udqp_t qph;
1424         int rc;
1425
1426         /* Allocate net device */
1427         netdev = alloc_ibdev ( sizeof ( *mlx ) );
1428         if ( ! netdev )
1429                 return -ENOMEM;
1430         netdev_init ( netdev, &mlx_operations );
1431         mlx = netdev->priv;
1432         pci_set_drvdata ( pci, netdev );
1433         netdev->dev = &pci->dev;
1434         memset ( mlx, 0, sizeof ( *mlx ) );
1435
1436         /* Fix up PCI device */
1437         adjust_pci_device ( pci );
1438
1439         /* Initialise hardware */
1440         if ( ( rc = ib_driver_init ( pci, &qph ) ) != 0 )
1441                 goto err_ipoib_init;
1442         mlx->bcast_av = ib_data.bcast_av;
1443 #if ! CREATE_OWN
1444         mlx->ipoib_qph = qph;
1445         mlx->snd_cqh = ib_data.ipoib_snd_cq;
1446         mlx->rcv_cqh = ib_data.ipoib_rcv_cq;
1447         mac = ( ( struct ib_mac * ) netdev->ll_addr );
1448         mac->qpn = htonl ( ib_get_qpn ( mlx->ipoib_qph ) );
1449         memcpy ( &mac->gid, ib_data.port_gid.raw, sizeof ( mac->gid ) );
1450 #endif
1451
1452         /* Hack up IB structures */
1453         arbel->config = memfree_pci_dev.cr_space;
1454         arbel->mailbox_in = dev_buffers_p->inprm_buf;
1455         arbel->mailbox_out = dev_buffers_p->outprm_buf;
1456         arbel->uar = memfree_pci_dev.uar;
1457         arbel->db_rec = dev_ib_data.uar_context_base;
1458         arbel->reserved_lkey = dev_ib_data.mkey;
1459         arbel->eqn = dev_ib_data.eq.eqn;
1460 #if ! CREATE_OWN
1461         static_arbel_ipoib_qp.send.wqe =
1462                 ( ( struct udqp_st * ) qph )->snd_wq;
1463         static_arbel_ipoib_qp.recv.wqe =
1464                 ( ( struct udqp_st * ) qph )->rcv_wq;
1465         static_arbel_ipoib_send_cq.cqe =
1466                 ( ( struct cq_st * ) ib_data.ipoib_snd_cq )->cq_buf;
1467         static_arbel_ipoib_recv_cq.cqe =
1468                 ( ( struct cq_st * ) ib_data.ipoib_rcv_cq )->cq_buf;
1469         static_ipoib_qp.qpn = ib_get_qpn ( qph );
1470         static_ipoib_qp.owner_priv = netdev;
1471         list_add ( &static_ipoib_qp.send.list,
1472                    &static_ipoib_send_cq.work_queues );
1473         list_add ( &static_ipoib_qp.recv.list,
1474                    &static_ipoib_recv_cq.work_queues );
1475 #endif
1476         static_ibdev.op = &arbel_ib_operations;
1477
1478         /* Get device limits */
1479         if ( ( rc = arbel_cmd_query_dev_lim ( arbel, &dev_lim ) ) != 0 ) {
1480                 DBGC ( arbel, "Arbel %p could not get device limits: %s\n",
1481                        arbel, strerror ( rc ) );
1482                 goto err_query_dev_lim;
1483         }
1484         arbel->limits.reserved_uars = MLX_GET ( &dev_lim, num_rsvd_uars );
1485         arbel->limits.reserved_cqs =
1486                 ( 1 << MLX_GET ( &dev_lim, log2_rsvd_cqs ) );
1487         arbel->limits.reserved_qps =
1488                 ( 1 << MLX_GET ( &dev_lim, log2_rsvd_qps ) );
1489
1490 #if CREATE_OWN
1491         struct ib_device *ibdev = &static_ibdev;
1492         mlx->own_send_cq = ib_create_cq ( ibdev, 32 );
1493         if ( ! mlx->own_send_cq ) {
1494                 DBG ( "Could not create send CQ\n" );
1495                 return -EIO;
1496         }
1497         mlx->own_recv_cq = ib_create_cq ( ibdev, 32 );
1498         if ( ! mlx->own_recv_cq ) {
1499                 DBG ( "Could not create send CQ\n" );
1500                 return -EIO;
1501         }
1502         mlx->own_qp = ib_create_qp ( ibdev, NUM_IPOIB_SND_WQES,
1503                                      mlx->own_send_cq, NUM_IPOIB_RCV_WQES,
1504                                      mlx->own_recv_cq, ipoib_qkey );
1505         if ( ! mlx->own_qp ) {
1506                 DBG ( "Could not create QP\n" );
1507                 return -EIO;
1508         }
1509         mlx->own_qp->owner_priv = netdev;
1510         struct ib_gid *bcast_gid = ( struct ib_gid * ) &ib_data.bcast_gid;
1511         if ( ( rc = ib_mcast_attach ( ibdev, mlx->own_qp,
1512                                       bcast_gid ) ) != 0 ) {
1513                 DBG ( "Could not attach to broadcast GID: %s\n",
1514                       strerror ( rc ) );
1515                 return rc;
1516         }
1517                                       
1518
1519         mac = ( ( struct ib_mac * ) netdev->ll_addr );
1520         mac->qpn = htonl ( mlx->own_qp->qpn );
1521         memcpy ( &mac->gid, ib_data.port_gid.raw, sizeof ( mac->gid ) );        
1522 #endif
1523
1524 #if 0
1525         DBG ( "MADS SND CQN = %#lx\n", dev_ib_data.mads_qp.snd_cq.cqn );
1526         struct ib_completion_queue *test_cq;
1527         test_cq = ib_create_cq ( &static_ibdev, 32 );
1528         if ( test_cq ) {
1529                 DBG ( "Woot: create_cq() passed!\n" );
1530         }
1531 #endif
1532
1533         /* Register network device */
1534         if ( ( rc = register_netdev ( netdev ) ) != 0 )
1535                 goto err_register_netdev;
1536
1537         return 0;
1538
1539  err_query_dev_lim:
1540  err_register_netdev:
1541  err_ipoib_init:
1542         ib_driver_close ( 0 );
1543         netdev_nullify ( netdev );
1544         netdev_put ( netdev );
1545         return rc;
1546 }
1547
1548 static struct pci_device_id arbel_nics[] = {
1549         PCI_ROM ( 0x15b3, 0x6282, "MT25218", "MT25218 HCA driver" ),
1550         PCI_ROM ( 0x15b3, 0x6274, "MT25204", "MT25204 HCA driver" ),
1551 };
1552
1553 struct pci_driver arbel_driver __pci_driver = {
1554         .ids = arbel_nics,
1555         .id_count = ( sizeof ( arbel_nics ) / sizeof ( arbel_nics[0] ) ),
1556         .probe = arbel_probe,
1557         .remove = arbel_remove,
1558 };