ICM allocation code in place; about to start test-and-compare runs.
[people/xl0/gpxe.git] / src / drivers / net / mlx_ipoib / mt25218.c
1 /**************************************************************************
2 Etherboot -  BOOTP/TFTP Bootstrap Program
3 Skeleton NIC driver for Etherboot
4 ***************************************************************************/
5
6 /*
7  * This program is free software; you can redistribute it and/or
8  * modify it under the terms of the GNU General Public License as
9  * published by the Free Software Foundation; either version 2, or (at
10  * your option) any later version.
11  */
12
13 #include <errno.h>
14 #include <gpxe/pci.h>
15 #include <gpxe/malloc.h>
16 #include <gpxe/iobuf.h>
17 #include <gpxe/netdevice.h>
18 #include <gpxe/infiniband.h>
19 #include <gpxe/ipoib.h>
20
21 /* to get some global routines like printf */
22 #include "etherboot.h"
23 /* to get the interface to the body of the program */
24 #include "nic.h"
25
26 #define CREATE_OWN 1
27
28 #include "mt25218_imp.c"
29
30 #include "arbel.h"
31
32
33
34
35
36
37 /***************************************************************************
38  *
39  * Queue number allocation
40  *
41  ***************************************************************************
42  */
43
44 /**
45  * Allocate queue number
46  *
47  * @v q_inuse           Queue usage bitmask
48  * @v max_inuse         Maximum number of in-use queues
49  * @ret qn_offset       Free queue number offset, or negative error
50  */
51 static int arbel_alloc_qn_offset ( arbel_bitmask_t *q_inuse,
52                                    unsigned int max_inuse ) {
53         unsigned int qn_offset = 0;
54         arbel_bitmask_t mask = 1;
55
56         while ( qn_offset < max_inuse ) {
57                 if ( ( mask & *q_inuse ) == 0 ) {
58                         *q_inuse |= mask;
59                         return qn_offset;
60                 }
61                 qn_offset++;
62                 mask <<= 1;
63                 if ( ! mask ) {
64                         mask = 1;
65                         q_inuse++;
66                 }
67         }
68         return -ENFILE;
69 }
70
71 /**
72  * Free queue number
73  *
74  * @v q_inuse           Queue usage bitmask
75  * @v qn_offset         Queue number offset
76  */
77 static void arbel_free_qn_offset ( arbel_bitmask_t *q_inuse, int qn_offset ) {
78         arbel_bitmask_t mask;
79
80         mask = ( 1 << ( qn_offset % ( 8 * sizeof ( mask ) ) ) );
81         q_inuse += ( qn_offset / ( 8 * sizeof ( mask ) ) );
82         *q_inuse &= ~mask;
83 }
84
85 /***************************************************************************
86  *
87  * HCA commands
88  *
89  ***************************************************************************
90  */
91
92 /**
93  * Wait for Arbel command completion
94  *
95  * @v arbel             Arbel device
96  * @ret rc              Return status code
97  */
98 static int arbel_cmd_wait ( struct arbel *arbel,
99                             struct arbelprm_hca_command_register *hcr ) {
100         unsigned int wait;
101
102         for ( wait = ARBEL_HCR_MAX_WAIT_MS ; wait ; wait-- ) {
103                 hcr->u.dwords[6] =
104                         readl ( arbel->config + ARBEL_HCR_REG ( 6 ) );
105                 if ( MLX_GET ( hcr, go ) == 0 )
106                         return 0;
107                 mdelay ( 1 );
108         }
109         return -EBUSY;
110 }
111
112 /**
113  * Issue HCA command
114  *
115  * @v arbel             Arbel device
116  * @v command           Command opcode, flags and input/output lengths
117  * @v op_mod            Opcode modifier (0 if no modifier applicable)
118  * @v in                Input parameters
119  * @v in_mod            Input modifier (0 if no modifier applicable)
120  * @v out               Output parameters
121  * @ret rc              Return status code
122  */
123 static int arbel_cmd ( struct arbel *arbel, unsigned long command,
124                        unsigned int op_mod, const void *in,
125                        unsigned int in_mod, void *out ) {
126         struct arbelprm_hca_command_register hcr;
127         unsigned int opcode = ARBEL_HCR_OPCODE ( command );
128         size_t in_len = ARBEL_HCR_IN_LEN ( command );
129         size_t out_len = ARBEL_HCR_OUT_LEN ( command );
130         void *in_buffer;
131         void *out_buffer;
132         unsigned int status;
133         unsigned int i;
134         int rc;
135
136         assert ( in_len <= ARBEL_MBOX_SIZE );
137         assert ( out_len <= ARBEL_MBOX_SIZE );
138
139         DBGC2 ( arbel, "Arbel %p command %02x in %zx%s out %zx%s\n",
140                 arbel, opcode, in_len,
141                 ( ( command & ARBEL_HCR_IN_MBOX ) ? "(mbox)" : "" ), out_len,
142                 ( ( command & ARBEL_HCR_OUT_MBOX ) ? "(mbox)" : "" ) );
143
144         /* Check that HCR is free */
145         if ( ( rc = arbel_cmd_wait ( arbel, &hcr ) ) != 0 ) {
146                 DBGC ( arbel, "Arbel %p command interface locked\n", arbel );
147                 return rc;
148         }
149
150         /* Prepare HCR */
151         memset ( &hcr, 0, sizeof ( hcr ) );
152         in_buffer = &hcr.u.dwords[0];
153         if ( in_len && ( command & ARBEL_HCR_IN_MBOX ) ) {
154                 in_buffer = arbel->mailbox_in;
155                 MLX_FILL_1 ( &hcr, 1, in_param_l, virt_to_bus ( in_buffer ) );
156         }
157         memcpy ( in_buffer, in, in_len );
158         MLX_FILL_1 ( &hcr, 2, input_modifier, in_mod );
159         out_buffer = &hcr.u.dwords[3];
160         if ( out_len && ( command & ARBEL_HCR_OUT_MBOX ) ) {
161                 out_buffer = arbel->mailbox_out;
162                 MLX_FILL_1 ( &hcr, 4, out_param_l,
163                              virt_to_bus ( out_buffer ) );
164         }
165         MLX_FILL_3 ( &hcr, 6,
166                      opcode, opcode,
167                      opcode_modifier, op_mod,
168                      go, 1 );
169         DBGC2_HD ( arbel, &hcr, sizeof ( hcr ) );
170         if ( in_len ) {
171                 DBGC2 ( arbel, "Input:\n" );
172                 DBGC2_HD ( arbel, in, ( ( in_len < 256 ) ? in_len : 256 ) );
173         }
174
175         /* Issue command */
176         for ( i = 0 ; i < ( sizeof ( hcr ) / sizeof ( hcr.u.dwords[0] ) ) ;
177               i++ ) {
178                 writel ( hcr.u.dwords[i],
179                          arbel->config + ARBEL_HCR_REG ( i ) );
180                 barrier();
181         }
182
183         /* Wait for command completion */
184         if ( ( rc = arbel_cmd_wait ( arbel, &hcr ) ) != 0 ) {
185                 DBGC ( arbel, "Arbel %p timed out waiting for command:\n",
186                        arbel );
187                 DBGC_HD ( arbel, &hcr, sizeof ( hcr ) );
188                 return rc;
189         }
190
191         /* Check command status */
192         status = MLX_GET ( &hcr, status );
193         if ( status != 0 ) {
194                 DBGC ( arbel, "Arbel %p command failed with status %02x:\n",
195                        arbel, status );
196                 DBGC_HD ( arbel, &hcr, sizeof ( hcr ) );
197                 return -EIO;
198         }
199
200         /* Read output parameters, if any */
201         hcr.u.dwords[3] = readl ( arbel->config + ARBEL_HCR_REG ( 3 ) );
202         hcr.u.dwords[4] = readl ( arbel->config + ARBEL_HCR_REG ( 4 ) );
203         memcpy ( out, out_buffer, out_len );
204         if ( out_len ) {
205                 DBGC2 ( arbel, "Output:\n" );
206                 DBGC2_HD ( arbel, out, ( ( out_len < 256 ) ? out_len : 256 ) );
207         }
208
209         return 0;
210 }
211
212 static inline int
213 arbel_cmd_query_dev_lim ( struct arbel *arbel,
214                           struct arbelprm_query_dev_lim *dev_lim ) {
215         return arbel_cmd ( arbel,
216                            ARBEL_HCR_OUT_CMD ( ARBEL_HCR_QUERY_DEV_LIM,
217                                                1, sizeof ( *dev_lim ) ),
218                            0, NULL, 0, dev_lim );
219 }
220
221 static inline int
222 arbel_cmd_query_fw ( struct arbel *arbel, struct arbelprm_query_fw *fw ) {
223         return arbel_cmd ( arbel,
224                            ARBEL_HCR_OUT_CMD ( ARBEL_HCR_QUERY_FW, 
225                                                1, sizeof ( *fw ) ),
226                            0, NULL, 0, fw );
227 }
228
229 static inline int
230 arbel_cmd_init_hca ( struct arbel *arbel,
231                      const struct arbelprm_init_hca *init_hca ) {
232         return arbel_cmd ( arbel,
233                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_INIT_HCA,
234                                               1, sizeof ( *init_hca ) ),
235                            0, init_hca, 0, NULL );
236 }
237
238 static inline int
239 arbel_cmd_sw2hw_cq ( struct arbel *arbel, unsigned long cqn,
240                      const struct arbelprm_completion_queue_context *cqctx ) {
241         return arbel_cmd ( arbel,
242                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_SW2HW_CQ,
243                                               1, sizeof ( *cqctx ) ),
244                            0, cqctx, cqn, NULL );
245 }
246
247 static inline int
248 arbel_cmd_hw2sw_cq ( struct arbel *arbel, unsigned long cqn,
249                      struct arbelprm_completion_queue_context *cqctx) {
250         return arbel_cmd ( arbel,
251                            ARBEL_HCR_OUT_CMD ( ARBEL_HCR_HW2SW_CQ,
252                                                1, sizeof ( *cqctx ) ),
253                            0, NULL, cqn, cqctx );
254 }
255
256 static inline int
257 arbel_cmd_rst2init_qpee ( struct arbel *arbel, unsigned long qpn,
258                           const struct arbelprm_qp_ee_state_transitions *ctx ){
259         return arbel_cmd ( arbel,
260                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_RST2INIT_QPEE,
261                                               1, sizeof ( *ctx ) ),
262                            0, ctx, qpn, NULL );
263 }
264
265 static inline int
266 arbel_cmd_init2rtr_qpee ( struct arbel *arbel, unsigned long qpn,
267                           const struct arbelprm_qp_ee_state_transitions *ctx ){
268         return arbel_cmd ( arbel,
269                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_INIT2RTR_QPEE,
270                                               1, sizeof ( *ctx ) ),
271                            0, ctx, qpn, NULL );
272 }
273
274 static inline int
275 arbel_cmd_rtr2rts_qpee ( struct arbel *arbel, unsigned long qpn,
276                          const struct arbelprm_qp_ee_state_transitions *ctx ) {
277         return arbel_cmd ( arbel,
278                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_RTR2RTS_QPEE,
279                                               1, sizeof ( *ctx ) ),
280                            0, ctx, qpn, NULL );
281 }
282
283 static inline int
284 arbel_cmd_2rst_qpee ( struct arbel *arbel, unsigned long qpn ) {
285         return arbel_cmd ( arbel,
286                            ARBEL_HCR_VOID_CMD ( ARBEL_HCR_2RST_QPEE ),
287                            0x03, NULL, qpn, NULL );
288 }
289
290 static inline int
291 arbel_cmd_mad_ifc ( struct arbel *arbel, union arbelprm_mad *mad ) {
292         return arbel_cmd ( arbel,
293                            ARBEL_HCR_INOUT_CMD ( ARBEL_HCR_MAD_IFC,
294                                                  1, sizeof ( *mad ),
295                                                  1, sizeof ( *mad ) ),
296                            0x03, mad, PXE_IB_PORT, mad );
297 }
298
299 static inline int
300 arbel_cmd_read_mgm ( struct arbel *arbel, unsigned int index,
301                      struct arbelprm_mgm_entry *mgm ) {
302         return arbel_cmd ( arbel,
303                            ARBEL_HCR_OUT_CMD ( ARBEL_HCR_READ_MGM,
304                                                1, sizeof ( *mgm ) ),
305                            0, NULL, index, mgm );
306 }
307
308 static inline int
309 arbel_cmd_write_mgm ( struct arbel *arbel, unsigned int index,
310                       const struct arbelprm_mgm_entry *mgm ) {
311         return arbel_cmd ( arbel,
312                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_WRITE_MGM,
313                                               1, sizeof ( *mgm ) ),
314                            0, mgm, index, NULL );
315 }
316
317 static inline int
318 arbel_cmd_mgid_hash ( struct arbel *arbel, const struct ib_gid *gid,
319                       struct arbelprm_mgm_hash *hash ) {
320         return arbel_cmd ( arbel,
321                            ARBEL_HCR_INOUT_CMD ( ARBEL_HCR_MGID_HASH,
322                                                  1, sizeof ( *gid ),
323                                                  0, sizeof ( *hash ) ),
324                            0, gid, 0, hash );
325 }
326
327 static inline int
328 arbel_cmd_run_fw ( struct arbel *arbel ) {
329         return arbel_cmd ( arbel,
330                            ARBEL_HCR_VOID_CMD ( ARBEL_HCR_RUN_FW ),
331                            0, NULL, 0, NULL );
332 }
333
334 static inline int
335 arbel_cmd_unmap_icm ( struct arbel *arbel, unsigned int page_count ) {
336         return arbel_cmd ( arbel,
337                            ARBEL_HCR_VOID_CMD ( ARBEL_HCR_UNMAP_ICM ),
338                            0, NULL, page_count, NULL );
339 }
340
341 static inline int
342 arbel_cmd_map_icm ( struct arbel *arbel,
343                     const struct arbelprm_virtual_physical_mapping *map ) {
344         return arbel_cmd ( arbel,
345                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_MAP_ICM,
346                                               1, sizeof ( *map ) ),
347                            0, map, 1, NULL );
348 }
349
350 static inline int
351 arbel_cmd_unmap_icm_aux ( struct arbel *arbel ) {
352         return arbel_cmd ( arbel,
353                            ARBEL_HCR_VOID_CMD ( ARBEL_HCR_UNMAP_ICM_AUX ),
354                            0, NULL, 0, NULL );
355 }
356
357 static inline int
358 arbel_cmd_map_icm_aux ( struct arbel *arbel,
359                         const struct arbelprm_virtual_physical_mapping *map ) {
360         return arbel_cmd ( arbel,
361                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_MAP_ICM_AUX,
362                                               1, sizeof ( *map ) ),
363                            0, map, 1, NULL );
364 }
365
366 static inline int
367 arbel_cmd_set_icm_size ( struct arbel *arbel,
368                          const struct arbelprm_scalar_parameter *icm_size,
369                          struct arbelprm_scalar_parameter *icm_aux_size ) {
370         return arbel_cmd ( arbel,
371                            ARBEL_HCR_INOUT_CMD ( ARBEL_HCR_SET_ICM_SIZE,
372                                                  0, sizeof ( *icm_size ),
373                                                  0, sizeof ( *icm_aux_size ) ),
374                            0, icm_size, 0, icm_aux_size );
375 }
376
377 static inline int
378 arbel_cmd_unmap_fa ( struct arbel *arbel ) {
379         return arbel_cmd ( arbel,
380                            ARBEL_HCR_VOID_CMD ( ARBEL_HCR_UNMAP_FA ),
381                            0, NULL, 0, NULL );
382 }
383
384 static inline int
385 arbel_cmd_map_fa ( struct arbel *arbel,
386                    const struct arbelprm_virtual_physical_mapping *map ) {
387         return arbel_cmd ( arbel,
388                            ARBEL_HCR_IN_CMD ( ARBEL_HCR_MAP_FA,
389                                               1, sizeof ( *map ) ),
390                            0, map, 1, NULL );
391 }
392
393 /***************************************************************************
394  *
395  * Completion queue operations
396  *
397  ***************************************************************************
398  */
399
400 /**
401  * Create completion queue
402  *
403  * @v ibdev             Infiniband device
404  * @v cq                Completion queue
405  * @ret rc              Return status code
406  */
407 static int arbel_create_cq ( struct ib_device *ibdev,
408                              struct ib_completion_queue *cq ) {
409         struct arbel *arbel = ibdev->dev_priv;
410         struct arbel_completion_queue *arbel_cq;
411         struct arbelprm_completion_queue_context cqctx;
412         struct arbelprm_cq_ci_db_record *ci_db_rec;
413         struct arbelprm_cq_arm_db_record *arm_db_rec;
414         int cqn_offset;
415         unsigned int i;
416         int rc;
417
418         /* Find a free completion queue number */
419         cqn_offset = arbel_alloc_qn_offset ( arbel->cq_inuse, ARBEL_MAX_CQS );
420         if ( cqn_offset < 0 ) {
421                 DBGC ( arbel, "Arbel %p out of completion queues\n", arbel );
422                 rc = cqn_offset;
423                 goto err_cqn_offset;
424         }
425         cq->cqn = ( arbel->limits.reserved_cqs + cqn_offset );
426
427         /* Allocate control structures */
428         arbel_cq = zalloc ( sizeof ( *arbel_cq ) );
429         if ( ! arbel_cq ) {
430                 rc = -ENOMEM;
431                 goto err_arbel_cq;
432         }
433         arbel_cq->ci_doorbell_idx = arbel_cq_ci_doorbell_idx ( cqn_offset );
434         arbel_cq->arm_doorbell_idx = arbel_cq_arm_doorbell_idx ( cqn_offset );
435
436         /* Allocate completion queue itself */
437         arbel_cq->cqe_size = ( cq->num_cqes * sizeof ( arbel_cq->cqe[0] ) );
438         arbel_cq->cqe = malloc_dma ( arbel_cq->cqe_size,
439                                      sizeof ( arbel_cq->cqe[0] ) );
440         if ( ! arbel_cq->cqe ) {
441                 rc = -ENOMEM;
442                 goto err_cqe;
443         }
444         memset ( arbel_cq->cqe, 0, arbel_cq->cqe_size );
445         for ( i = 0 ; i < cq->num_cqes ; i++ ) {
446                 MLX_FILL_1 ( &arbel_cq->cqe[i].normal, 7, owner, 1 );
447         }
448         barrier();
449
450         /* Initialise doorbell records */
451         ci_db_rec = &arbel->db_rec[arbel_cq->ci_doorbell_idx].cq_ci;
452         MLX_FILL_1 ( ci_db_rec, 0, counter, 0 );
453         MLX_FILL_2 ( ci_db_rec, 1,
454                      res, ARBEL_UAR_RES_CQ_CI,
455                      cq_number, cq->cqn );
456         arm_db_rec = &arbel->db_rec[arbel_cq->arm_doorbell_idx].cq_arm;
457         MLX_FILL_1 ( arm_db_rec, 0, counter, 0 );
458         MLX_FILL_2 ( arm_db_rec, 1,
459                      res, ARBEL_UAR_RES_CQ_ARM,
460                      cq_number, cq->cqn );
461
462         /* Hand queue over to hardware */
463         memset ( &cqctx, 0, sizeof ( cqctx ) );
464         MLX_FILL_1 ( &cqctx, 0, st, 0xa /* "Event fired" */ );
465         MLX_FILL_1 ( &cqctx, 2, start_address_l,
466                      virt_to_bus ( arbel_cq->cqe ) );
467         MLX_FILL_2 ( &cqctx, 3,
468                      usr_page, arbel->limits.reserved_uars,
469                      log_cq_size, fls ( cq->num_cqes - 1 ) );
470         MLX_FILL_1 ( &cqctx, 5, c_eqn, arbel->eqn );
471         MLX_FILL_1 ( &cqctx, 6, pd, ARBEL_GLOBAL_PD );
472         MLX_FILL_1 ( &cqctx, 7, l_key, arbel->reserved_lkey );
473         MLX_FILL_1 ( &cqctx, 12, cqn, cq->cqn );
474         MLX_FILL_1 ( &cqctx, 13,
475                      cq_ci_db_record, arbel_cq->ci_doorbell_idx );
476         MLX_FILL_1 ( &cqctx, 14,
477                      cq_state_db_record, arbel_cq->arm_doorbell_idx );
478         if ( ( rc = arbel_cmd_sw2hw_cq ( arbel, cq->cqn, &cqctx ) ) != 0 ) {
479                 DBGC ( arbel, "Arbel %p SW2HW_CQ failed: %s\n",
480                        arbel, strerror ( rc ) );
481                 goto err_sw2hw_cq;
482         }
483
484         DBGC ( arbel, "Arbel %p CQN %#lx ring at [%p,%p)\n",
485                arbel, cq->cqn, arbel_cq->cqe,
486                ( ( ( void * ) arbel_cq->cqe ) + arbel_cq->cqe_size ) );
487         cq->dev_priv = arbel_cq;
488         return 0;
489
490  err_sw2hw_cq:
491         MLX_FILL_1 ( ci_db_rec, 1, res, ARBEL_UAR_RES_NONE );
492         MLX_FILL_1 ( arm_db_rec, 1, res, ARBEL_UAR_RES_NONE );
493         free_dma ( arbel_cq->cqe, arbel_cq->cqe_size );
494  err_cqe:
495         free ( arbel_cq );
496  err_arbel_cq:
497         arbel_free_qn_offset ( arbel->cq_inuse, cqn_offset );
498  err_cqn_offset:
499         return rc;
500 }
501
502 /**
503  * Destroy completion queue
504  *
505  * @v ibdev             Infiniband device
506  * @v cq                Completion queue
507  */
508 static void arbel_destroy_cq ( struct ib_device *ibdev,
509                                struct ib_completion_queue *cq ) {
510         struct arbel *arbel = ibdev->dev_priv;
511         struct arbel_completion_queue *arbel_cq = cq->dev_priv;
512         struct arbelprm_completion_queue_context cqctx;
513         struct arbelprm_cq_ci_db_record *ci_db_rec;
514         struct arbelprm_cq_arm_db_record *arm_db_rec;
515         int cqn_offset;
516         int rc;
517
518         /* Take ownership back from hardware */
519         if ( ( rc = arbel_cmd_hw2sw_cq ( arbel, cq->cqn, &cqctx ) ) != 0 ) {
520                 DBGC ( arbel, "Arbel %p FATAL HW2SW_CQ failed on CQN %#lx: "
521                        "%s\n", arbel, cq->cqn, strerror ( rc ) );
522                 /* Leak memory and return; at least we avoid corruption */
523                 return;
524         }
525
526         /* Clear doorbell records */
527         ci_db_rec = &arbel->db_rec[arbel_cq->ci_doorbell_idx].cq_ci;
528         arm_db_rec = &arbel->db_rec[arbel_cq->arm_doorbell_idx].cq_arm;
529         MLX_FILL_1 ( ci_db_rec, 1, res, ARBEL_UAR_RES_NONE );
530         MLX_FILL_1 ( arm_db_rec, 1, res, ARBEL_UAR_RES_NONE );
531
532         /* Free memory */
533         free_dma ( arbel_cq->cqe, arbel_cq->cqe_size );
534         free ( arbel_cq );
535
536         /* Mark queue number as free */
537         cqn_offset = ( cq->cqn - arbel->limits.reserved_cqs );
538         arbel_free_qn_offset ( arbel->cq_inuse, cqn_offset );
539
540         cq->dev_priv = NULL;
541 }
542
543 /***************************************************************************
544  *
545  * Queue pair operations
546  *
547  ***************************************************************************
548  */
549
550 /**
551  * Create send work queue
552  *
553  * @v arbel_send_wq     Send work queue
554  * @v num_wqes          Number of work queue entries
555  * @ret rc              Return status code
556  */
557 static int arbel_create_send_wq ( struct arbel_send_work_queue *arbel_send_wq,
558                                   unsigned int num_wqes ) {
559         struct arbelprm_ud_send_wqe *wqe;
560         struct arbelprm_ud_send_wqe *next_wqe;
561         unsigned int wqe_idx_mask;
562         unsigned int i;
563
564         /* Allocate work queue */
565         arbel_send_wq->wqe_size = ( num_wqes *
566                                     sizeof ( arbel_send_wq->wqe[0] ) );
567         arbel_send_wq->wqe = malloc_dma ( arbel_send_wq->wqe_size,
568                                           sizeof ( arbel_send_wq->wqe[0] ) );
569         if ( ! arbel_send_wq->wqe )
570                 return -ENOMEM;
571         memset ( arbel_send_wq->wqe, 0, arbel_send_wq->wqe_size );
572
573         /* Link work queue entries */
574         wqe_idx_mask = ( num_wqes - 1 );
575         for ( i = 0 ; i < num_wqes ; i++ ) {
576                 wqe = &arbel_send_wq->wqe[i].ud;
577                 next_wqe = &arbel_send_wq->wqe[ ( i + 1 ) & wqe_idx_mask ].ud;
578                 MLX_FILL_1 ( &wqe->next, 0, nda_31_6,
579                              ( virt_to_bus ( next_wqe ) >> 6 ) );
580         }
581         
582         return 0;
583 }
584
585 /**
586  * Create receive work queue
587  *
588  * @v arbel_recv_wq     Receive work queue
589  * @v num_wqes          Number of work queue entries
590  * @ret rc              Return status code
591  */
592 static int arbel_create_recv_wq ( struct arbel_recv_work_queue *arbel_recv_wq,
593                                   unsigned int num_wqes ) {
594         struct arbelprm_recv_wqe *wqe;
595         struct arbelprm_recv_wqe *next_wqe;
596         unsigned int wqe_idx_mask;
597         size_t nds;
598         unsigned int i;
599         unsigned int j;
600
601         /* Allocate work queue */
602         arbel_recv_wq->wqe_size = ( num_wqes *
603                                     sizeof ( arbel_recv_wq->wqe[0] ) );
604         arbel_recv_wq->wqe = malloc_dma ( arbel_recv_wq->wqe_size,
605                                           sizeof ( arbel_recv_wq->wqe[0] ) );
606         if ( ! arbel_recv_wq->wqe )
607                 return -ENOMEM;
608         memset ( arbel_recv_wq->wqe, 0, arbel_recv_wq->wqe_size );
609
610         /* Link work queue entries */
611         wqe_idx_mask = ( num_wqes - 1 );
612         nds = ( ( offsetof ( typeof ( *wqe ), data ) +
613                   sizeof ( wqe->data[0] ) ) >> 4 );
614         for ( i = 0 ; i < num_wqes ; i++ ) {
615                 wqe = &arbel_recv_wq->wqe[i].recv;
616                 next_wqe = &arbel_recv_wq->wqe[( i + 1 ) & wqe_idx_mask].recv;
617                 MLX_FILL_1 ( &wqe->next, 0, nda_31_6,
618                              ( virt_to_bus ( next_wqe ) >> 6 ) );
619                 MLX_FILL_1 ( &wqe->next, 1, nds, ( sizeof ( *wqe ) / 16 ) );
620                 for ( j = 0 ; ( ( ( void * ) &wqe->data[j] ) <
621                                 ( ( void * ) ( wqe + 1 ) ) ) ; j++ ) {
622                         MLX_FILL_1 ( &wqe->data[j], 1,
623                                      l_key, ARBEL_INVALID_LKEY );
624                 }
625         }
626         
627         return 0;
628 }
629
630 /**
631  * Create queue pair
632  *
633  * @v ibdev             Infiniband device
634  * @v qp                Queue pair
635  * @ret rc              Return status code
636  */
637 static int arbel_create_qp ( struct ib_device *ibdev,
638                              struct ib_queue_pair *qp ) {
639         struct arbel *arbel = ibdev->dev_priv;
640         struct arbel_queue_pair *arbel_qp;
641         struct arbelprm_qp_ee_state_transitions qpctx;
642         struct arbelprm_qp_db_record *send_db_rec;
643         struct arbelprm_qp_db_record *recv_db_rec;
644         int qpn_offset;
645         int rc;
646
647         /* Find a free queue pair number */
648         qpn_offset = arbel_alloc_qn_offset ( arbel->qp_inuse, ARBEL_MAX_QPS );
649         if ( qpn_offset < 0 ) {
650                 DBGC ( arbel, "Arbel %p out of queue pairs\n", arbel );
651                 rc = qpn_offset;
652                 goto err_qpn_offset;
653         }
654         qp->qpn = ( ARBEL_QPN_BASE + arbel->limits.reserved_qps + qpn_offset );
655
656         /* Allocate control structures */
657         arbel_qp = zalloc ( sizeof ( *arbel_qp ) );
658         if ( ! arbel_qp ) {
659                 rc = -ENOMEM;
660                 goto err_arbel_qp;
661         }
662         arbel_qp->send.doorbell_idx = arbel_send_doorbell_idx ( qpn_offset );
663         arbel_qp->recv.doorbell_idx = arbel_recv_doorbell_idx ( qpn_offset );
664
665         /* Create send and receive work queues */
666         if ( ( rc = arbel_create_send_wq ( &arbel_qp->send,
667                                            qp->send.num_wqes ) ) != 0 )
668                 goto err_create_send_wq;
669         if ( ( rc = arbel_create_recv_wq ( &arbel_qp->recv,
670                                            qp->recv.num_wqes ) ) != 0 )
671                 goto err_create_recv_wq;
672
673         /* Initialise doorbell records */
674         send_db_rec = &arbel->db_rec[arbel_qp->send.doorbell_idx].qp;
675         MLX_FILL_1 ( send_db_rec, 0, counter, 0 );
676         MLX_FILL_2 ( send_db_rec, 1,
677                      res, ARBEL_UAR_RES_SQ,
678                      qp_number, qp->qpn );
679         recv_db_rec = &arbel->db_rec[arbel_qp->recv.doorbell_idx].qp;
680         MLX_FILL_1 ( recv_db_rec, 0, counter, 0 );
681         MLX_FILL_2 ( recv_db_rec, 1,
682                      res, ARBEL_UAR_RES_RQ,
683                      qp_number, qp->qpn );
684
685         /* Hand queue over to hardware */
686         memset ( &qpctx, 0, sizeof ( qpctx ) );
687         MLX_FILL_3 ( &qpctx, 2,
688                      qpc_eec_data.de, 1,
689                      qpc_eec_data.pm_state, 0x03 /* Always 0x03 for UD */,
690                      qpc_eec_data.st, ARBEL_ST_UD );
691         MLX_FILL_6 ( &qpctx, 4,
692                      qpc_eec_data.mtu, ARBEL_MTU_2048,
693                      qpc_eec_data.msg_max, 11 /* 2^11 = 2048 */,
694                      qpc_eec_data.log_rq_size, fls ( qp->recv.num_wqes - 1 ),
695                      qpc_eec_data.log_rq_stride,
696                      ( fls ( sizeof ( arbel_qp->recv.wqe[0] ) - 1 ) - 4 ),
697                      qpc_eec_data.log_sq_size, fls ( qp->send.num_wqes - 1 ),
698                      qpc_eec_data.log_sq_stride,
699                      ( fls ( sizeof ( arbel_qp->send.wqe[0] ) - 1 ) - 4 ) );
700         MLX_FILL_1 ( &qpctx, 5,
701                      qpc_eec_data.usr_page, arbel->limits.reserved_uars );
702         MLX_FILL_1 ( &qpctx, 10, qpc_eec_data.primary_address_path.port_number,
703                      PXE_IB_PORT );
704         MLX_FILL_1 ( &qpctx, 27, qpc_eec_data.pd, ARBEL_GLOBAL_PD );
705         MLX_FILL_1 ( &qpctx, 29, qpc_eec_data.wqe_lkey, arbel->reserved_lkey );
706         MLX_FILL_1 ( &qpctx, 30, qpc_eec_data.ssc, 1 );
707         MLX_FILL_1 ( &qpctx, 33, qpc_eec_data.cqn_snd, qp->send.cq->cqn );
708         MLX_FILL_1 ( &qpctx, 34, qpc_eec_data.snd_wqe_base_adr_l,
709                      ( virt_to_bus ( arbel_qp->send.wqe ) >> 6 ) );
710         MLX_FILL_1 ( &qpctx, 35, qpc_eec_data.snd_db_record_index,
711                      arbel_qp->send.doorbell_idx );
712         MLX_FILL_1 ( &qpctx, 38, qpc_eec_data.rsc, 1 );
713         MLX_FILL_1 ( &qpctx, 41, qpc_eec_data.cqn_rcv, qp->recv.cq->cqn );
714         MLX_FILL_1 ( &qpctx, 42, qpc_eec_data.rcv_wqe_base_adr_l,
715                      ( virt_to_bus ( arbel_qp->recv.wqe ) >> 6 ) );
716         MLX_FILL_1 ( &qpctx, 43, qpc_eec_data.rcv_db_record_index,
717                      arbel_qp->recv.doorbell_idx );
718         MLX_FILL_1 ( &qpctx, 44, qpc_eec_data.q_key, qp->qkey );
719         if ( ( rc = arbel_cmd_rst2init_qpee ( arbel, qp->qpn, &qpctx )) != 0 ){
720                 DBGC ( arbel, "Arbel %p RST2INIT_QPEE failed: %s\n",
721                        arbel, strerror ( rc ) );
722                 goto err_rst2init_qpee;
723         }
724         memset ( &qpctx, 0, sizeof ( qpctx ) );
725         MLX_FILL_2 ( &qpctx, 4,
726                      qpc_eec_data.mtu, ARBEL_MTU_2048,
727                      qpc_eec_data.msg_max, 11 /* 2^11 = 2048 */ );
728         if ( ( rc = arbel_cmd_init2rtr_qpee ( arbel, qp->qpn, &qpctx )) != 0 ){
729                 DBGC ( arbel, "Arbel %p INIT2RTR_QPEE failed: %s\n",
730                        arbel, strerror ( rc ) );
731                 goto err_init2rtr_qpee;
732         }
733         memset ( &qpctx, 0, sizeof ( qpctx ) );
734         if ( ( rc = arbel_cmd_rtr2rts_qpee ( arbel, qp->qpn, &qpctx ) ) != 0 ){
735                 DBGC ( arbel, "Arbel %p RTR2RTS_QPEE failed: %s\n",
736                        arbel, strerror ( rc ) );
737                 goto err_rtr2rts_qpee;
738         }
739
740         DBGC ( arbel, "Arbel %p QPN %#lx send ring at [%p,%p)\n",
741                arbel, qp->qpn, arbel_qp->send.wqe,
742                ( ( (void *) arbel_qp->send.wqe ) + arbel_qp->send.wqe_size ) );
743         DBGC ( arbel, "Arbel %p QPN %#lx receive ring at [%p,%p)\n",
744                arbel, qp->qpn, arbel_qp->recv.wqe,
745                ( ( (void *) arbel_qp->recv.wqe ) + arbel_qp->recv.wqe_size ) );
746         qp->dev_priv = arbel_qp;
747         return 0;
748
749  err_rtr2rts_qpee:
750  err_init2rtr_qpee:
751         arbel_cmd_2rst_qpee ( arbel, qp->qpn );
752  err_rst2init_qpee:
753         MLX_FILL_1 ( send_db_rec, 1, res, ARBEL_UAR_RES_NONE );
754         MLX_FILL_1 ( recv_db_rec, 1, res, ARBEL_UAR_RES_NONE );
755         free_dma ( arbel_qp->recv.wqe, arbel_qp->recv.wqe_size );
756  err_create_recv_wq:
757         free_dma ( arbel_qp->send.wqe, arbel_qp->send.wqe_size );
758  err_create_send_wq:
759         free ( arbel_qp );
760  err_arbel_qp:
761         arbel_free_qn_offset ( arbel->qp_inuse, qpn_offset );
762  err_qpn_offset:
763         return rc;
764 }
765
766 /**
767  * Destroy queue pair
768  *
769  * @v ibdev             Infiniband device
770  * @v qp                Queue pair
771  */
772 static void arbel_destroy_qp ( struct ib_device *ibdev,
773                                struct ib_queue_pair *qp ) {
774         struct arbel *arbel = ibdev->dev_priv;
775         struct arbel_queue_pair *arbel_qp = qp->dev_priv;
776         struct arbelprm_qp_db_record *send_db_rec;
777         struct arbelprm_qp_db_record *recv_db_rec;
778         int qpn_offset;
779         int rc;
780
781         /* Take ownership back from hardware */
782         if ( ( rc = arbel_cmd_2rst_qpee ( arbel, qp->qpn ) ) != 0 ) {
783                 DBGC ( arbel, "Arbel %p FATAL 2RST_QPEE failed on QPN %#lx: "
784                        "%s\n", arbel, qp->qpn, strerror ( rc ) );
785                 /* Leak memory and return; at least we avoid corruption */
786                 return;
787         }
788
789         /* Clear doorbell records */
790         send_db_rec = &arbel->db_rec[arbel_qp->send.doorbell_idx].qp;
791         recv_db_rec = &arbel->db_rec[arbel_qp->recv.doorbell_idx].qp;
792         MLX_FILL_1 ( send_db_rec, 1, res, ARBEL_UAR_RES_NONE );
793         MLX_FILL_1 ( recv_db_rec, 1, res, ARBEL_UAR_RES_NONE );
794
795         /* Free memory */
796         free_dma ( arbel_qp->send.wqe, arbel_qp->send.wqe_size );
797         free_dma ( arbel_qp->recv.wqe, arbel_qp->recv.wqe_size );
798         free ( arbel_qp );
799
800         /* Mark queue number as free */
801         qpn_offset = ( qp->qpn - ARBEL_QPN_BASE - arbel->limits.reserved_qps );
802         arbel_free_qn_offset ( arbel->qp_inuse, qpn_offset );
803
804         qp->dev_priv = NULL;
805 }
806
807 /***************************************************************************
808  *
809  * Work request operations
810  *
811  ***************************************************************************
812  */
813
814 /**
815  * Ring doorbell register in UAR
816  *
817  * @v arbel             Arbel device
818  * @v db_reg            Doorbell register structure
819  * @v offset            Address of doorbell
820  */
821 static void arbel_ring_doorbell ( struct arbel *arbel,
822                                   union arbelprm_doorbell_register *db_reg,
823                                   unsigned int offset ) {
824
825         DBGC2 ( arbel, "Arbel %p ringing doorbell %08lx:%08lx at %lx\n",
826                 arbel, db_reg->dword[0], db_reg->dword[1],
827                 virt_to_phys ( arbel->uar + offset ) );
828
829         barrier();
830         writel ( db_reg->dword[0], ( arbel->uar + offset + 0 ) );
831         barrier();
832         writel ( db_reg->dword[1], ( arbel->uar + offset + 4 ) );
833 }
834
835 /** GID used for GID-less send work queue entries */
836 static const struct ib_gid arbel_no_gid = {
837         { { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0 } }
838 };
839
840 /**
841  * Post send work queue entry
842  *
843  * @v ibdev             Infiniband device
844  * @v qp                Queue pair
845  * @v av                Address vector
846  * @v iobuf             I/O buffer
847  * @ret rc              Return status code
848  */
849 static int arbel_post_send ( struct ib_device *ibdev,
850                              struct ib_queue_pair *qp,
851                              struct ib_address_vector *av,
852                              struct io_buffer *iobuf ) {
853         struct arbel *arbel = ibdev->dev_priv;
854         struct arbel_queue_pair *arbel_qp = qp->dev_priv;
855         struct ib_work_queue *wq = &qp->send;
856         struct arbel_send_work_queue *arbel_send_wq = &arbel_qp->send;
857         struct arbelprm_ud_send_wqe *prev_wqe;
858         struct arbelprm_ud_send_wqe *wqe;
859         struct arbelprm_qp_db_record *qp_db_rec;
860         union arbelprm_doorbell_register db_reg;
861         const struct ib_gid *gid;
862         unsigned int wqe_idx_mask;
863         size_t nds;
864
865         /* Allocate work queue entry */
866         wqe_idx_mask = ( wq->num_wqes - 1 );
867         if ( wq->iobufs[wq->next_idx & wqe_idx_mask] ) {
868                 DBGC ( arbel, "Arbel %p send queue full", arbel );
869                 return -ENOBUFS;
870         }
871         wq->iobufs[wq->next_idx & wqe_idx_mask] = iobuf;
872         prev_wqe = &arbel_send_wq->wqe[(wq->next_idx - 1) & wqe_idx_mask].ud;
873         wqe = &arbel_send_wq->wqe[wq->next_idx & wqe_idx_mask].ud;
874
875         /* Construct work queue entry */
876         MLX_FILL_1 ( &wqe->next, 1, always1, 1 );
877         memset ( &wqe->ctrl, 0, sizeof ( wqe->ctrl ) );
878         MLX_FILL_1 ( &wqe->ctrl, 0, always1, 1 );
879         memset ( &wqe->ud, 0, sizeof ( wqe->ud ) );
880         MLX_FILL_2 ( &wqe->ud, 0,
881                      ud_address_vector.pd, ARBEL_GLOBAL_PD,
882                      ud_address_vector.port_number, PXE_IB_PORT );
883         MLX_FILL_2 ( &wqe->ud, 1,
884                      ud_address_vector.rlid, av->dlid,
885                      ud_address_vector.g, av->gid_present );
886         MLX_FILL_2 ( &wqe->ud, 2,
887                      ud_address_vector.max_stat_rate,
888                          ( ( av->rate >= 3 ) ? 0 : 1 ),
889                      ud_address_vector.msg, 3 );
890         MLX_FILL_1 ( &wqe->ud, 3, ud_address_vector.sl, av->sl );
891         gid = ( av->gid_present ? &av->gid : &arbel_no_gid );
892         memcpy ( &wqe->ud.u.dwords[4], gid, sizeof ( *gid ) );
893         MLX_FILL_1 ( &wqe->ud, 8, destination_qp, av->dest_qp );
894         MLX_FILL_1 ( &wqe->ud, 9, q_key, av->qkey );
895         MLX_FILL_1 ( &wqe->data[0], 0, byte_count, iob_len ( iobuf ) );
896         MLX_FILL_1 ( &wqe->data[0], 1, l_key, arbel->reserved_lkey );
897         MLX_FILL_1 ( &wqe->data[0], 3,
898                      local_address_l, virt_to_bus ( iobuf->data ) );
899
900         /* Update previous work queue entry's "next" field */
901         nds = ( ( offsetof ( typeof ( *wqe ), data ) +
902                   sizeof ( wqe->data[0] ) ) >> 4 );
903         MLX_SET ( &prev_wqe->next, nopcode, ARBEL_OPCODE_SEND );
904         MLX_FILL_3 ( &prev_wqe->next, 1,
905                      nds, nds,
906                      f, 1,
907                      always1, 1 );
908
909         /* Update doorbell record */
910         barrier();
911         qp_db_rec = &arbel->db_rec[arbel_send_wq->doorbell_idx].qp;
912         MLX_FILL_1 ( qp_db_rec, 0,
913                      counter, ( ( wq->next_idx + 1 ) & 0xffff ) );
914
915         /* Ring doorbell register */
916         MLX_FILL_4 ( &db_reg.send, 0,
917                      nopcode, ARBEL_OPCODE_SEND,
918                      f, 1,
919                      wqe_counter, ( wq->next_idx & 0xffff ),
920                      wqe_cnt, 1 );
921         MLX_FILL_2 ( &db_reg.send, 1,
922                      nds, nds,
923                      qpn, qp->qpn );
924         arbel_ring_doorbell ( arbel, &db_reg, POST_SND_OFFSET );
925
926         /* Update work queue's index */
927         wq->next_idx++;
928
929         return 0;
930 }
931
932 /**
933  * Post receive work queue entry
934  *
935  * @v ibdev             Infiniband device
936  * @v qp                Queue pair
937  * @v iobuf             I/O buffer
938  * @ret rc              Return status code
939  */
940 static int arbel_post_recv ( struct ib_device *ibdev,
941                              struct ib_queue_pair *qp,
942                              struct io_buffer *iobuf ) {
943         struct arbel *arbel = ibdev->dev_priv;
944         struct arbel_queue_pair *arbel_qp = qp->dev_priv;
945         struct ib_work_queue *wq = &qp->recv;
946         struct arbel_recv_work_queue *arbel_recv_wq = &arbel_qp->recv;
947         struct arbelprm_recv_wqe *wqe;
948         union arbelprm_doorbell_record *db_rec;
949         unsigned int wqe_idx_mask;
950
951         /* Allocate work queue entry */
952         wqe_idx_mask = ( wq->num_wqes - 1 );
953         if ( wq->iobufs[wq->next_idx & wqe_idx_mask] ) {
954                 DBGC ( arbel, "Arbel %p receive queue full", arbel );
955                 return -ENOBUFS;
956         }
957         wq->iobufs[wq->next_idx & wqe_idx_mask] = iobuf;
958         wqe = &arbel_recv_wq->wqe[wq->next_idx & wqe_idx_mask].recv;
959
960         /* Construct work queue entry */
961         MLX_FILL_1 ( &wqe->data[0], 0, byte_count, iob_tailroom ( iobuf ) );
962         MLX_FILL_1 ( &wqe->data[0], 1, l_key, arbel->reserved_lkey );
963         MLX_FILL_1 ( &wqe->data[0], 3,
964                      local_address_l, virt_to_bus ( iobuf->data ) );
965
966         /* Update doorbell record */
967         barrier();
968         db_rec = &arbel->db_rec[arbel_recv_wq->doorbell_idx];
969         MLX_FILL_1 ( &db_rec->qp, 0,
970                      counter, ( ( wq->next_idx + 1 ) & 0xffff ) );      
971
972         /* Update work queue's index */
973         wq->next_idx++;
974
975         return 0;       
976 }
977
978 /**
979  * Handle completion
980  *
981  * @v ibdev             Infiniband device
982  * @v cq                Completion queue
983  * @v cqe               Hardware completion queue entry
984  * @v complete_send     Send completion handler
985  * @v complete_recv     Receive completion handler
986  * @ret rc              Return status code
987  */
988 static int arbel_complete ( struct ib_device *ibdev,
989                             struct ib_completion_queue *cq,
990                             union arbelprm_completion_entry *cqe,
991                             ib_completer_t complete_send,
992                             ib_completer_t complete_recv ) {
993         struct arbel *arbel = ibdev->dev_priv;
994         struct ib_completion completion;
995         struct ib_work_queue *wq;
996         struct ib_queue_pair *qp;
997         struct arbel_queue_pair *arbel_qp;
998         struct arbel_send_work_queue *arbel_send_wq;
999         struct arbel_recv_work_queue *arbel_recv_wq;
1000         struct arbelprm_recv_wqe *recv_wqe;
1001         struct io_buffer *iobuf;
1002         ib_completer_t complete;
1003         unsigned int opcode;
1004         unsigned long qpn;
1005         int is_send;
1006         unsigned long wqe_adr;
1007         unsigned int wqe_idx;
1008         int rc = 0;
1009
1010         /* Parse completion */
1011         memset ( &completion, 0, sizeof ( completion ) );
1012         qpn = MLX_GET ( &cqe->normal, my_qpn );
1013         is_send = MLX_GET ( &cqe->normal, s );
1014         wqe_adr = ( MLX_GET ( &cqe->normal, wqe_adr ) << 6 );
1015         opcode = MLX_GET ( &cqe->normal, opcode );
1016         if ( opcode >= ARBEL_OPCODE_RECV_ERROR ) {
1017                 /* "s" field is not valid for error opcodes */
1018                 is_send = ( opcode == ARBEL_OPCODE_SEND_ERROR );
1019                 completion.syndrome = MLX_GET ( &cqe->error, syndrome );
1020                 DBGC ( arbel, "Arbel %p CPN %lx syndrome %x vendor %lx\n",
1021                        arbel, cq->cqn, completion.syndrome,
1022                        MLX_GET ( &cqe->error, vendor_code ) );
1023                 rc = -EIO;
1024                 /* Don't return immediately; propagate error to completer */
1025         }
1026
1027         /* Identify work queue */
1028         wq = ib_find_wq ( cq, qpn, is_send );
1029         if ( ! wq ) {
1030                 DBGC ( arbel, "Arbel %p CQN %lx unknown %s QPN %lx\n",
1031                        arbel, cq->cqn, ( is_send ? "send" : "recv" ), qpn );
1032                 return -EIO;
1033         }
1034         qp = wq->qp;
1035         arbel_qp = qp->dev_priv;
1036         arbel_send_wq = &arbel_qp->send;
1037         arbel_recv_wq = &arbel_qp->recv;
1038
1039         /* Identify work queue entry index */
1040         if ( is_send ) {
1041                 wqe_idx = ( ( wqe_adr - virt_to_bus ( arbel_send_wq->wqe ) ) /
1042                             sizeof ( arbel_send_wq->wqe[0] ) );
1043                 assert ( wqe_idx < qp->send.num_wqes );
1044         } else {
1045                 wqe_idx = ( ( wqe_adr - virt_to_bus ( arbel_recv_wq->wqe ) ) /
1046                             sizeof ( arbel_recv_wq->wqe[0] ) );
1047                 assert ( wqe_idx < qp->recv.num_wqes );
1048         }
1049
1050         /* Identify I/O buffer */
1051         iobuf = wq->iobufs[wqe_idx];
1052         if ( ! iobuf ) {
1053                 DBGC ( arbel, "Arbel %p CQN %lx QPN %lx empty WQE %x\n",
1054                        arbel, cq->cqn, qpn, wqe_idx );
1055                 return -EIO;
1056         }
1057         wq->iobufs[wqe_idx] = NULL;
1058
1059         /* Fill in length for received packets */
1060         if ( ! is_send ) {
1061                 completion.len = MLX_GET ( &cqe->normal, byte_cnt );
1062                 recv_wqe = &arbel_recv_wq->wqe[wqe_idx].recv;
1063                 assert ( MLX_GET ( &recv_wqe->data[0], local_address_l ) ==
1064                          virt_to_bus ( iobuf->data ) );
1065                 assert ( MLX_GET ( &recv_wqe->data[0], byte_count ) ==
1066                          iob_tailroom ( iobuf ) );
1067                 MLX_FILL_1 ( &recv_wqe->data[0], 0, byte_count, 0 );
1068                 MLX_FILL_1 ( &recv_wqe->data[0], 1,
1069                              l_key, ARBEL_INVALID_LKEY );
1070                 if ( completion.len > iob_tailroom ( iobuf ) ) {
1071                         DBGC ( arbel, "Arbel %p CQN %lx QPN %lx IDX %x "
1072                                "overlength received packet length %zd\n",
1073                                arbel, cq->cqn, qpn, wqe_idx, completion.len );
1074                         return -EIO;
1075                 }
1076         }
1077
1078         /* Pass off to caller's completion handler */
1079         complete = ( is_send ? complete_send : complete_recv );
1080         complete ( ibdev, qp, &completion, iobuf );
1081
1082         return rc;
1083 }                            
1084
1085 /**
1086  * Drain event queue
1087  *
1088  * @v arbel             Arbel device
1089  */
1090 static void arbel_drain_eq ( struct arbel *arbel ) {
1091 #warning "drain the event queue"
1092         drain_eq();
1093 }
1094
1095 /**
1096  * Poll completion queue
1097  *
1098  * @v ibdev             Infiniband device
1099  * @v cq                Completion queue
1100  * @v complete_send     Send completion handler
1101  * @v complete_recv     Receive completion handler
1102  */
1103 static void arbel_poll_cq ( struct ib_device *ibdev,
1104                             struct ib_completion_queue *cq,
1105                             ib_completer_t complete_send,
1106                             ib_completer_t complete_recv ) {
1107         struct arbel *arbel = ibdev->dev_priv;
1108         struct arbel_completion_queue *arbel_cq = cq->dev_priv;
1109         struct arbelprm_cq_ci_db_record *ci_db_rec;
1110         union arbelprm_completion_entry *cqe;
1111         unsigned int cqe_idx_mask;
1112         int rc;
1113
1114         /* Drain the event queue */
1115         arbel_drain_eq ( arbel );
1116
1117         while ( 1 ) {
1118                 /* Look for completion entry */
1119                 cqe_idx_mask = ( cq->num_cqes - 1 );
1120                 cqe = &arbel_cq->cqe[cq->next_idx & cqe_idx_mask];
1121                 if ( MLX_GET ( &cqe->normal, owner ) != 0 ) {
1122                         /* Entry still owned by hardware; end of poll */
1123                         break;
1124                 }
1125
1126                 /* Handle completion */
1127                 if ( ( rc = arbel_complete ( ibdev, cq, cqe, complete_send,
1128                                              complete_recv ) ) != 0 ) {
1129                         DBGC ( arbel, "Arbel %p failed to complete: %s\n",
1130                                arbel, strerror ( rc ) );
1131                         DBGC_HD ( arbel, cqe, sizeof ( *cqe ) );
1132                 }
1133
1134                 /* Return ownership to hardware */
1135                 MLX_FILL_1 ( &cqe->normal, 7, owner, 1 );
1136                 barrier();
1137                 /* Update completion queue's index */
1138                 cq->next_idx++;
1139                 /* Update doorbell record */
1140                 ci_db_rec = &arbel->db_rec[arbel_cq->ci_doorbell_idx].cq_ci;
1141                 MLX_FILL_1 ( ci_db_rec, 0,
1142                              counter, ( cq->next_idx & 0xffffffffUL ) );
1143         }
1144 }
1145
1146 /***************************************************************************
1147  *
1148  * Multicast group operations
1149  *
1150  ***************************************************************************
1151  */
1152
1153 /**
1154  * Attach to multicast group
1155  *
1156  * @v ibdev             Infiniband device
1157  * @v qp                Queue pair
1158  * @v gid               Multicast GID
1159  * @ret rc              Return status code
1160  */
1161 static int arbel_mcast_attach ( struct ib_device *ibdev,
1162                                 struct ib_queue_pair *qp,
1163                                 struct ib_gid *gid ) {
1164         struct arbel *arbel = ibdev->dev_priv;
1165         struct arbelprm_mgm_hash hash;
1166         struct arbelprm_mgm_entry mgm;
1167         unsigned int index;
1168         int rc;
1169
1170         /* Generate hash table index */
1171         if ( ( rc = arbel_cmd_mgid_hash ( arbel, gid, &hash ) ) != 0 ) {
1172                 DBGC ( arbel, "Arbel %p could not hash GID: %s\n",
1173                        arbel, strerror ( rc ) );
1174                 return rc;
1175         }
1176         index = MLX_GET ( &hash, hash );
1177
1178         /* Check for existing hash table entry */
1179         if ( ( rc = arbel_cmd_read_mgm ( arbel, index, &mgm ) ) != 0 ) {
1180                 DBGC ( arbel, "Arbel %p could not read MGM %#x: %s\n",
1181                        arbel, index, strerror ( rc ) );
1182                 return rc;
1183         }
1184         if ( MLX_GET ( &mgm, mgmqp_0.qi ) != 0 ) {
1185                 /* FIXME: this implementation allows only a single QP
1186                  * per multicast group, and doesn't handle hash
1187                  * collisions.  Sufficient for IPoIB but may need to
1188                  * be extended in future.
1189                  */
1190                 DBGC ( arbel, "Arbel %p MGID index %#x already in use\n",
1191                        arbel, index );
1192                 return -EBUSY;
1193         }
1194
1195         /* Update hash table entry */
1196         MLX_FILL_2 ( &mgm, 8,
1197                      mgmqp_0.qpn_i, qp->qpn,
1198                      mgmqp_0.qi, 1 );
1199         memcpy ( &mgm.u.dwords[4], gid, sizeof ( *gid ) );
1200         if ( ( rc = arbel_cmd_write_mgm ( arbel, index, &mgm ) ) != 0 ) {
1201                 DBGC ( arbel, "Arbel %p could not write MGM %#x: %s\n",
1202                        arbel, index, strerror ( rc ) );
1203                 return rc;
1204         }
1205
1206         return 0;
1207 }
1208
1209 /**
1210  * Detach from multicast group
1211  *
1212  * @v ibdev             Infiniband device
1213  * @v qp                Queue pair
1214  * @v gid               Multicast GID
1215  */
1216 static void arbel_mcast_detach ( struct ib_device *ibdev,
1217                                  struct ib_queue_pair *qp __unused,
1218                                  struct ib_gid *gid ) {
1219         struct arbel *arbel = ibdev->dev_priv;
1220         struct arbelprm_mgm_hash hash;
1221         struct arbelprm_mgm_entry mgm;
1222         unsigned int index;
1223         int rc;
1224
1225         /* Generate hash table index */
1226         if ( ( rc = arbel_cmd_mgid_hash ( arbel, gid, &hash ) ) != 0 ) {
1227                 DBGC ( arbel, "Arbel %p could not hash GID: %s\n",
1228                        arbel, strerror ( rc ) );
1229                 return;
1230         }
1231         index = MLX_GET ( &hash, hash );
1232
1233         /* Clear hash table entry */
1234         memset ( &mgm, 0, sizeof ( mgm ) );
1235         if ( ( rc = arbel_cmd_write_mgm ( arbel, index, &mgm ) ) != 0 ) {
1236                 DBGC ( arbel, "Arbel %p could not write MGM %#x: %s\n",
1237                        arbel, index, strerror ( rc ) );
1238                 return;
1239         }
1240 }
1241
1242 /** Arbel Infiniband operations */
1243 static struct ib_device_operations arbel_ib_operations = {
1244         .create_cq      = arbel_create_cq,
1245         .destroy_cq     = arbel_destroy_cq,
1246         .create_qp      = arbel_create_qp,
1247         .destroy_qp     = arbel_destroy_qp,
1248         .post_send      = arbel_post_send,
1249         .post_recv      = arbel_post_recv,
1250         .poll_cq        = arbel_poll_cq,
1251         .mcast_attach   = arbel_mcast_attach,
1252         .mcast_detach   = arbel_mcast_detach,
1253 };
1254
1255 /***************************************************************************
1256  *
1257  * MAD IFC operations
1258  *
1259  ***************************************************************************
1260  */
1261
1262 static int arbel_mad_ifc ( struct arbel *arbel,
1263                            union arbelprm_mad *mad ) {
1264         struct ib_mad_hdr *hdr = &mad->mad.mad_hdr;
1265         int rc;
1266
1267         hdr->base_version = IB_MGMT_BASE_VERSION;
1268         if ( ( rc = arbel_cmd_mad_ifc ( arbel, mad ) ) != 0 ) {
1269                 DBGC ( arbel, "Arbel %p could not issue MAD IFC: %s\n",
1270                        arbel, strerror ( rc ) );
1271                 return rc;
1272         }
1273         if ( hdr->status != 0 ) {
1274                 DBGC ( arbel, "Arbel %p MAD IFC status %04x\n",
1275                        arbel, ntohs ( hdr->status ) );
1276                 return -EIO;
1277         }
1278         return 0;
1279 }
1280
1281 static int arbel_get_port_info ( struct arbel *arbel,
1282                                  struct ib_mad_port_info *port_info ) {
1283         union arbelprm_mad mad;
1284         struct ib_mad_hdr *hdr = &mad.mad.mad_hdr;
1285         int rc;
1286
1287         memset ( &mad, 0, sizeof ( mad ) );
1288         hdr->mgmt_class = IB_MGMT_CLASS_SUBN_LID_ROUTED;
1289         hdr->class_version = 1;
1290         hdr->method = IB_MGMT_METHOD_GET;
1291         hdr->attr_id = htons ( IB_SMP_ATTR_PORT_INFO );
1292         hdr->attr_mod = htonl ( PXE_IB_PORT );
1293         if ( ( rc = arbel_mad_ifc ( arbel, &mad ) ) != 0 ) {
1294                 DBGC ( arbel, "Arbel %p could not get port info: %s\n",
1295                        arbel, strerror ( rc ) );
1296                 return rc;
1297         }
1298         memcpy ( port_info, &mad.mad.port_info, sizeof ( *port_info ) );
1299         return 0;
1300 }
1301
1302 static int arbel_get_guid_info ( struct arbel *arbel,
1303                                  struct ib_mad_guid_info *guid_info ) {
1304         union arbelprm_mad mad;
1305         struct ib_mad_hdr *hdr = &mad.mad.mad_hdr;
1306         int rc;
1307
1308         memset ( &mad, 0, sizeof ( mad ) );
1309         hdr->mgmt_class = IB_MGMT_CLASS_SUBN_LID_ROUTED;
1310         hdr->class_version = 1;
1311         hdr->method = IB_MGMT_METHOD_GET;
1312         hdr->attr_id = htons ( IB_SMP_ATTR_GUID_INFO );
1313         if ( ( rc = arbel_mad_ifc ( arbel, &mad ) ) != 0 ) {
1314                 DBGC ( arbel, "Arbel %p could not get GUID info: %s\n",
1315                        arbel, strerror ( rc ) );
1316                 return rc;
1317         }
1318         memcpy ( guid_info, &mad.mad.guid_info, sizeof ( *guid_info ) );
1319         return 0;
1320 }
1321
1322 static int arbel_get_pkey_table ( struct arbel *arbel,
1323                                   struct ib_mad_pkey_table *pkey_table ) {
1324         union arbelprm_mad mad;
1325         struct ib_mad_hdr *hdr = &mad.mad.mad_hdr;
1326         int rc;
1327
1328         memset ( &mad, 0, sizeof ( mad ) );
1329         hdr->mgmt_class = IB_MGMT_CLASS_SUBN_LID_ROUTED;
1330         hdr->class_version = 1;
1331         hdr->method = IB_MGMT_METHOD_GET;
1332         hdr->attr_id = htons ( IB_SMP_ATTR_PKEY_TABLE );
1333         if ( ( rc = arbel_mad_ifc ( arbel, &mad ) ) != 0 ) {
1334                 DBGC ( arbel, "Arbel %p could not get pkey table: %s\n",
1335                        arbel, strerror ( rc ) );
1336                 return rc;
1337         }
1338         memcpy ( pkey_table, &mad.mad.pkey_table, sizeof ( *pkey_table ) );
1339         return 0;
1340 }
1341
1342 static int arbel_get_port_gid ( struct arbel *arbel,
1343                                 struct ib_gid *port_gid ) {
1344         union {
1345                 /* This union exists just to save stack space */
1346                 struct ib_mad_port_info port_info;
1347                 struct ib_mad_guid_info guid_info;
1348         } u;
1349         int rc;
1350
1351         /* Port info gives us the first half of the port GID */
1352         if ( ( rc = arbel_get_port_info ( arbel, &u.port_info ) ) != 0 )
1353                 return rc;
1354         memcpy ( &port_gid->u.bytes[0], u.port_info.gid_prefix, 8 );
1355         
1356         /* GUID info gives us the second half of the port GID */
1357         if ( ( rc = arbel_get_guid_info ( arbel, &u.guid_info ) ) != 0 )
1358                 return rc;
1359         memcpy ( &port_gid->u.bytes[8], u.guid_info.gid_local, 8 );
1360
1361         return 0;
1362 }
1363
1364 static int arbel_get_sm_lid ( struct arbel *arbel,
1365                               unsigned long *sm_lid ) {
1366         struct ib_mad_port_info port_info;
1367         int rc;
1368
1369         if ( ( rc = arbel_get_port_info ( arbel, &port_info ) ) != 0 )
1370                 return rc;
1371         *sm_lid = ntohs ( port_info.mastersm_lid );
1372         return 0;
1373 }
1374
1375 static int arbel_get_pkey ( struct arbel *arbel, unsigned int *pkey ) {
1376         struct ib_mad_pkey_table pkey_table;
1377         int rc;
1378
1379         if ( ( rc = arbel_get_pkey_table ( arbel, &pkey_table ) ) != 0 )
1380                 return rc;
1381         *pkey = ntohs ( pkey_table.pkey[0][0] );
1382         return 0;
1383 }
1384
1385 /**
1386  * Get MAD parameters
1387  *
1388  * @v arbel             Arbel device
1389  * @ret rc              Return status code
1390  */
1391 static int arbel_get_mad_params ( struct ib_device *ibdev ) {
1392         struct arbel *arbel = ibdev->dev_priv;
1393         int rc;
1394
1395         /* Get subnet manager LID */
1396         if ( ( rc = arbel_get_sm_lid ( arbel, &ibdev->sm_lid ) ) != 0 ) {
1397                 DBGC ( arbel, "Arbel %p could not determine subnet manager "
1398                        "LID: %s\n", arbel, strerror ( rc ) );
1399                 return rc;
1400         }
1401
1402         /* Get port GID */
1403         if ( ( rc = arbel_get_port_gid ( arbel, &ibdev->port_gid ) ) != 0 ) {
1404                 DBGC ( arbel, "Arbel %p could not determine port GID: %s\n",
1405                        arbel, strerror ( rc ) );
1406                 return rc;
1407         }
1408
1409         /* Get partition key */
1410         if ( ( rc = arbel_get_pkey ( arbel, &ibdev->pkey ) ) != 0 ) {
1411                 DBGC ( arbel, "Arbel %p could not determine partition key: "
1412                        "%s\n", arbel, strerror ( rc ) );
1413                 return rc;
1414         }
1415
1416         return 0;
1417 }
1418
1419 /***************************************************************************
1420  *
1421  * Firmware control
1422  *
1423  ***************************************************************************
1424  */
1425
1426 /**
1427  * Start firmware running
1428  *
1429  * @v arbel             Arbel device
1430  * @ret rc              Return status code
1431  */
1432 static int arbel_start_firmware ( struct arbel *arbel ) {
1433         struct arbelprm_query_fw fw;
1434         struct arbelprm_virtual_physical_mapping map_fa;
1435         unsigned int fw_pages;
1436         unsigned int log2_fw_pages;
1437         size_t fw_size;
1438         physaddr_t fw_base;
1439         int rc;
1440
1441         /* Get firmware parameters */
1442         if ( ( rc = arbel_cmd_query_fw ( arbel, &fw ) ) != 0 ) {
1443                 DBGC ( arbel, "Arbel %p could not query firmware: %s\n",
1444                        arbel, strerror ( rc ) );
1445                 goto err_query_fw;
1446         }
1447         DBGC ( arbel, "Arbel %p firmware version %ld.%ld.%ld\n", arbel,
1448                MLX_GET ( &fw, fw_rev_major ), MLX_GET ( &fw, fw_rev_minor ),
1449                MLX_GET ( &fw, fw_rev_subminor ) );
1450         fw_pages = MLX_GET ( &fw, fw_pages );
1451         log2_fw_pages = fls ( fw_pages - 1 );
1452         fw_pages = ( 1 << log2_fw_pages );
1453         DBGC ( arbel, "Arbel %p requires %d kB for firmware\n",
1454                arbel, ( fw_pages * 4 ) );
1455
1456         /* Allocate firmware pages and map firmware area */
1457         fw_size = ( fw_pages * 4096 );
1458         arbel->firmware_area = umalloc ( fw_size );
1459         if ( ! arbel->firmware_area ) {
1460                 rc = -ENOMEM;
1461                 goto err_alloc_fa;
1462         }
1463         fw_base = ( user_to_phys ( arbel->firmware_area, fw_size ) &
1464                     ~( fw_size - 1 ) );
1465         DBGC ( arbel, "Arbel %p firmware area at physical [%lx,%lx)\n",
1466                arbel, fw_base, ( fw_base + fw_size ) );
1467         memset ( &map_fa, 0, sizeof ( map_fa ) );
1468         MLX_FILL_2 ( &map_fa, 3,
1469                      log2size, log2_fw_pages,
1470                      pa_l, ( fw_base >> 12 ) );
1471         if ( ( rc = arbel_cmd_map_fa ( arbel, &map_fa ) ) != 0 ) {
1472                 DBGC ( arbel, "Arbel %p could not map firmware: %s\n",
1473                        arbel, strerror ( rc ) );
1474                 goto err_map_fa;
1475         }
1476
1477         /* Start firmware */
1478         if ( ( rc = arbel_cmd_run_fw ( arbel ) ) != 0 ) {
1479                 DBGC ( arbel, "Arbel %p could not run firmware: %s\n",
1480                        arbel, strerror ( rc ) );
1481                 goto err_run_fw;
1482         }
1483
1484         DBGC ( arbel, "Arbel %p firmware started\n", arbel );
1485         return 0;
1486
1487  err_run_fw:
1488         arbel_cmd_unmap_fa ( arbel );
1489  err_map_fa:
1490         ufree ( arbel->firmware_area );
1491         arbel->firmware_area = UNULL;
1492  err_alloc_fa:
1493  err_query_fw:
1494         return rc;
1495 }
1496
1497 /**
1498  * Stop firmware running
1499  *
1500  * @v arbel             Arbel device
1501  */
1502 static void arbel_stop_firmware ( struct arbel *arbel ) {
1503         int rc;
1504
1505         if ( ( rc = arbel_cmd_unmap_fa ( arbel ) ) != 0 ) {
1506                 DBGC ( arbel, "Arbel %p FATAL could not stop firmware: %s\n",
1507                        arbel, strerror ( rc ) );
1508                 /* Leak memory and return; at least we avoid corruption */
1509                 return;
1510         }
1511         ufree ( arbel->firmware_area );
1512         arbel->firmware_area = UNULL;
1513 }
1514
1515 /***************************************************************************
1516  *
1517  * Infinihost Context Memory management
1518  *
1519  ***************************************************************************
1520  */
1521
1522 /**
1523  * Get device limits
1524  *
1525  * @v arbel             Arbel device
1526  * @ret rc              Return status code
1527  */
1528 static int arbel_get_limits ( struct arbel *arbel ) {
1529         struct arbelprm_query_dev_lim dev_lim;
1530         int rc;
1531
1532         if ( ( rc = arbel_cmd_query_dev_lim ( arbel, &dev_lim ) ) != 0 ) {
1533                 DBGC ( arbel, "Arbel %p could not get device limits: %s\n",
1534                        arbel, strerror ( rc ) );
1535                 return rc;
1536         }
1537
1538         arbel->limits.reserved_qps =
1539                 ( 1 << MLX_GET ( &dev_lim, log2_rsvd_qps ) );
1540         arbel->limits.qpc_entry_size = MLX_GET ( &dev_lim, qpc_entry_sz );
1541         arbel->limits.eqpc_entry_size = MLX_GET ( &dev_lim, eqpc_entry_sz );
1542         arbel->limits.reserved_srqs =
1543                 ( 1 << MLX_GET ( &dev_lim, log2_rsvd_srqs ) );
1544         arbel->limits.srqc_entry_size = MLX_GET ( &dev_lim, srq_entry_sz );
1545         arbel->limits.reserved_ees =
1546                 ( 1 << MLX_GET ( &dev_lim, log2_rsvd_ees ) );
1547         arbel->limits.eec_entry_size = MLX_GET ( &dev_lim, eec_entry_sz );
1548         arbel->limits.eeec_entry_size = MLX_GET ( &dev_lim, eeec_entry_sz );
1549         arbel->limits.reserved_cqs =
1550                 ( 1 << MLX_GET ( &dev_lim, log2_rsvd_cqs ) );
1551         arbel->limits.cqc_entry_size = MLX_GET ( &dev_lim, cqc_entry_sz );
1552         arbel->limits.reserved_mtts =
1553                 ( 1 << MLX_GET ( &dev_lim, log2_rsvd_mtts ) );
1554         arbel->limits.mtt_entry_size = MLX_GET ( &dev_lim, mtt_entry_sz );
1555         arbel->limits.reserved_mrws =
1556                 ( 1 << MLX_GET ( &dev_lim, log2_rsvd_mrws ) );
1557         arbel->limits.mpt_entry_size = MLX_GET ( &dev_lim, mpt_entry_sz );
1558         arbel->limits.reserved_rdbs =
1559                 ( 1 << MLX_GET ( &dev_lim, log2_rsvd_rdbs ) );
1560         arbel->limits.eqc_entry_size = MLX_GET ( &dev_lim, eqc_entry_sz );
1561         arbel->limits.reserved_uars = MLX_GET ( &dev_lim, num_rsvd_uars );
1562
1563         return 0;
1564 }
1565
1566 /**
1567  * Get ICM usage
1568  *
1569  * @v log_num_entries   Log2 of the number of entries
1570  * @v entry_size        Entry size
1571  * @ret usage           Usage size in ICM
1572  */
1573 static size_t icm_usage ( unsigned int log_num_entries, size_t entry_size ) {
1574         size_t usage;
1575
1576         usage = ( ( 1 << log_num_entries ) * entry_size );
1577         usage = ( ( usage + 4095 ) & ~4095 );
1578         return usage;
1579 }
1580
1581 /**
1582  * Allocate ICM
1583  *
1584  * @v arbel             Arbel device
1585  * @v init_hca          INIT_HCA structure to fill in
1586  * @ret rc              Return status code
1587  */
1588 static int arbel_alloc_icm ( struct arbel *arbel,
1589                              struct arbelprm_init_hca *init_hca ) {
1590         struct arbelprm_scalar_parameter icm_size;
1591         struct arbelprm_scalar_parameter icm_aux_size;
1592         struct arbelprm_virtual_physical_mapping map_icm_aux;
1593         struct arbelprm_virtual_physical_mapping map_icm;
1594         size_t icm_offset = 0;
1595         unsigned int log_num_qps, log_num_srqs, log_num_ees, log_num_cqs;
1596         unsigned int log_num_mtts, log_num_mpts, log_num_rdbs, log_num_eqs;
1597         int rc;
1598
1599         icm_offset = ( ( arbel->limits.reserved_uars + 1 ) << 12 );
1600
1601         /* Queue pair contexts */
1602         log_num_qps = fls ( arbel->limits.reserved_qps + ARBEL_MAX_QPS - 1 );
1603         MLX_FILL_2 ( init_hca, 13,
1604                      qpc_eec_cqc_eqc_rdb_parameters.qpc_base_addr_l,
1605                      ( icm_offset >> 7 ),
1606                      qpc_eec_cqc_eqc_rdb_parameters.log_num_of_qp,
1607                      log_num_qps );
1608         icm_offset += icm_usage ( log_num_qps, arbel->limits.qpc_entry_size );
1609
1610         /* Extended queue pair contexts */
1611         MLX_FILL_1 ( init_hca, 25,
1612                      qpc_eec_cqc_eqc_rdb_parameters.eqpc_base_addr_l,
1613                      icm_offset );
1614         icm_offset += icm_usage ( log_num_qps, arbel->limits.eqpc_entry_size );
1615
1616         /* Shared receive queue contexts */
1617         log_num_srqs = fls ( arbel->limits.reserved_srqs - 1 );
1618         MLX_FILL_2 ( init_hca, 19,
1619                      qpc_eec_cqc_eqc_rdb_parameters.srqc_base_addr_l,
1620                      ( icm_offset >> 5 ),
1621                      qpc_eec_cqc_eqc_rdb_parameters.log_num_of_srq,
1622                      log_num_srqs );
1623         icm_offset += icm_usage ( log_num_srqs, arbel->limits.srqc_entry_size );
1624
1625         /* End-to-end contexts */
1626         log_num_ees = fls ( arbel->limits.reserved_ees - 1 );
1627         MLX_FILL_2 ( init_hca, 17,
1628                      qpc_eec_cqc_eqc_rdb_parameters.eec_base_addr_l,
1629                      ( icm_offset >> 7 ),
1630                      qpc_eec_cqc_eqc_rdb_parameters.log_num_of_ee,
1631                      log_num_ees );
1632         icm_offset += icm_usage ( log_num_ees, arbel->limits.eec_entry_size );
1633
1634         /* Extended end-to-end contexts */
1635         MLX_FILL_1 ( init_hca, 29,
1636                      qpc_eec_cqc_eqc_rdb_parameters.eeec_base_addr_l,
1637                      icm_offset );
1638         icm_offset += icm_usage ( log_num_ees, arbel->limits.eeec_entry_size );
1639
1640         /* Completion queue contexts */
1641         log_num_cqs = fls ( arbel->limits.reserved_cqs + ARBEL_MAX_CQS - 1 );
1642         MLX_FILL_2 ( init_hca, 21,
1643                      qpc_eec_cqc_eqc_rdb_parameters.cqc_base_addr_l,
1644                      ( icm_offset >> 6 ),
1645                      qpc_eec_cqc_eqc_rdb_parameters.log_num_of_cq,
1646                      log_num_cqs );
1647         icm_offset += icm_usage ( log_num_cqs, arbel->limits.cqc_entry_size );
1648
1649         /* Memory translation table */
1650         log_num_mtts = fls ( arbel->limits.reserved_mtts - 1 );
1651         MLX_FILL_1 ( init_hca, 65,
1652                      tpt_parameters.mtt_base_addr_l, icm_offset );
1653         icm_offset += icm_usage ( log_num_mtts, arbel->limits.mtt_entry_size );
1654
1655         /* Memory protection table */
1656         log_num_mpts = fls ( arbel->limits.reserved_mrws - 1 );
1657         MLX_FILL_1 ( init_hca, 61,
1658                      tpt_parameters.mpt_base_adr_l, icm_offset );
1659         MLX_FILL_1 ( init_hca, 62,
1660                      tpt_parameters.log_mpt_sz, log_num_mpts );
1661         icm_offset += icm_usage ( log_num_mpts, arbel->limits.mpt_entry_size );
1662
1663         /* RDMA something or other */
1664         log_num_rdbs = fls ( arbel->limits.reserved_rdbs - 1 );
1665         MLX_FILL_1 ( init_hca, 37,
1666                      qpc_eec_cqc_eqc_rdb_parameters.rdb_base_addr_l,
1667                      icm_offset );
1668         icm_offset += icm_usage ( log_num_rdbs, 32 );
1669
1670         /* Event queue contexts */
1671         log_num_eqs = 6;
1672         MLX_FILL_2 ( init_hca, 33,
1673                      qpc_eec_cqc_eqc_rdb_parameters.eqc_base_addr_l,
1674                      ( icm_offset >> 6 ),
1675                      qpc_eec_cqc_eqc_rdb_parameters.log_num_eq,
1676                      log_num_eqs );
1677         icm_offset += ( ( 1 << log_num_eqs ) * arbel->limits.eqc_entry_size );
1678
1679         /* Multicast table */
1680         MLX_FILL_1 ( init_hca, 49,
1681                      multicast_parameters.mc_base_addr_l, icm_offset );
1682         MLX_FILL_1 ( init_hca, 52,
1683                      multicast_parameters.log_mc_table_entry_sz,
1684                      fls ( sizeof ( struct arbelprm_mgm_entry ) - 1 ) );
1685         MLX_FILL_1 ( init_hca, 53,
1686                      multicast_parameters.mc_table_hash_sz, 8 );
1687         MLX_FILL_1 ( init_hca, 54,
1688                      multicast_parameters.log_mc_table_sz, 3 );
1689         icm_offset += ( 8 * sizeof ( struct arbelprm_mgm_entry ) );
1690
1691         arbel->icm_len = icm_offset;
1692         arbel->icm_len = ( ( arbel->icm_len + 4095 ) & ~4095 );
1693
1694         /* Get ICM auxiliary area size */
1695         memset ( &icm_size, 0, sizeof ( icm_size ) );
1696         MLX_FILL_1 ( &icm_size, 1, value, arbel->icm_len );
1697         if ( ( rc = arbel_cmd_set_icm_size ( arbel, &icm_size,
1698                                              &icm_aux_size ) ) != 0 ) {
1699                 DBGC ( arbel, "Arbel %p could not set ICM size: %s\n",
1700                        arbel, strerror ( rc ) );
1701                 goto err_set_icm_size;
1702         }
1703         arbel->icm_aux_len = MLX_GET ( &icm_aux_size, value );
1704
1705         /* Allocate ICM data and auxiliary area */
1706         arbel->icm_aux_len = ( ( arbel->icm_aux_len + 4095 ) & ~4095 );
1707         DBGC ( arbel, "Arbel %p requires %zd kB ICM and %zd kB AUX ICM\n",
1708                arbel, ( arbel->icm_len / 1024 ),
1709                ( arbel->icm_aux_len / 1024 ) );
1710         arbel->icm = umalloc ( arbel->icm_len + arbel->icm_aux_len );
1711         if ( ! arbel->icm ) {
1712                 rc = -ENOMEM;
1713                 goto err_alloc;
1714         }
1715
1716         /* Map ICM auxiliary area */
1717         memset ( &map_icm_aux, 0, sizeof ( map_icm_aux ) );
1718         MLX_FILL_2 ( &map_icm_aux, 3,
1719                      log2size, fls ( ( arbel->icm_aux_len / 4096 ) - 1 ),
1720                      pa_l, user_to_phys ( arbel->icm, arbel->icm_len ) );
1721         if ( ( rc = arbel_cmd_map_icm_aux ( arbel, &map_icm_aux ) ) != 0 ) {
1722                 DBGC ( arbel, "Arbel %p could not map AUX ICM: %s\n",
1723                        arbel, strerror ( rc ) );
1724                 goto err_map_icm_aux;
1725         }
1726
1727         /* MAP ICM area */
1728         memset ( &map_icm, 0, sizeof ( map_icm ) );
1729         MLX_FILL_2 ( &map_icm, 3,
1730                      log2size, fls ( ( arbel->icm_len / 4096 ) - 1 ),
1731                      pa_l, user_to_phys ( arbel->icm, 0 ) );
1732         if ( ( rc = arbel_cmd_map_icm ( arbel, &map_icm ) ) != 0 ) {
1733                 DBGC ( arbel, "Arbel %p could not map ICM: %s\n",
1734                        arbel, strerror ( rc ) );
1735                 goto err_map_icm;
1736         }
1737
1738         return 0;
1739
1740         arbel_cmd_unmap_icm ( arbel, ( arbel->icm_len / 4096 ) );
1741  err_map_icm:
1742         arbel_cmd_unmap_icm_aux ( arbel );
1743  err_map_icm_aux:
1744         ufree ( arbel->icm );
1745         arbel->icm = UNULL;
1746  err_alloc:
1747  err_set_icm_size:
1748         return rc;
1749 }
1750
1751 /**
1752  * Free ICM
1753  *
1754  * @v arbel             Arbel device
1755  */
1756 static void arbel_free_icm ( struct arbel *arbel ) {
1757         arbel_cmd_unmap_icm ( arbel, ( arbel->icm_len / 4096 ) );
1758         arbel_cmd_unmap_icm_aux ( arbel );
1759         ufree ( arbel->icm );
1760         arbel->icm = UNULL;
1761 }
1762
1763 /***************************************************************************
1764  *
1765  * PCI interface
1766  *
1767  ***************************************************************************
1768  */
1769
1770 /**
1771  * Probe PCI device
1772  *
1773  * @v pci               PCI device
1774  * @v id                PCI ID
1775  * @ret rc              Return status code
1776  */
1777 static int arbel_probe ( struct pci_device *pci,
1778                          const struct pci_device_id *id __unused ) {
1779         struct ib_device *ibdev;
1780         struct arbel *arbel;
1781         struct arbelprm_init_hca init_hca;
1782         int rc;
1783
1784         /* Allocate Infiniband device */
1785         ibdev = alloc_ibdev ( sizeof ( *arbel ) );
1786         if ( ! ibdev ) {
1787                 rc = -ENOMEM;
1788                 goto err_ibdev;
1789         }
1790         ibdev->op = &arbel_ib_operations;
1791         pci_set_drvdata ( pci, ibdev );
1792         ibdev->dev = &pci->dev;
1793         arbel = ibdev->dev_priv;
1794         memset ( arbel, 0, sizeof ( *arbel ) );
1795
1796         /* Fix up PCI device */
1797         adjust_pci_device ( pci );
1798
1799         /* Get PCI BARs */
1800         arbel->config = ioremap ( pci_bar_start ( pci, ARBEL_PCI_CONFIG_BAR ),
1801                                   ARBEL_PCI_CONFIG_BAR_SIZE );
1802         arbel->uar = ioremap ( ( pci_bar_start ( pci, ARBEL_PCI_UAR_BAR ) +
1803                                  ARBEL_PCI_UAR_IDX * ARBEL_PCI_UAR_SIZE ),
1804                                ARBEL_PCI_UAR_SIZE );
1805
1806         /* Allocate space for mailboxes */
1807         arbel->mailbox_in = malloc_dma ( ARBEL_MBOX_SIZE, ARBEL_MBOX_ALIGN );
1808         if ( ! arbel->mailbox_in ) {
1809                 rc = -ENOMEM;
1810                 goto err_mailbox_in;
1811         }
1812         arbel->mailbox_out = malloc_dma ( ARBEL_MBOX_SIZE, ARBEL_MBOX_ALIGN );
1813         if ( ! arbel->mailbox_out ) {
1814                 rc = -ENOMEM;
1815                 goto err_mailbox_out;
1816         }
1817
1818 #define SELF_INIT 0
1819
1820 #if SELF_INIT
1821         /* Start firmware */
1822         if ( ( rc = arbel_start_firmware ( arbel ) ) != 0 )
1823                 goto err_start_firmware;
1824 #else
1825         /* Initialise hardware */
1826         udqp_t qph;
1827         if ( ( rc = ib_driver_init ( pci, &qph ) ) != 0 )
1828                 goto err_ib_driver_init;
1829 #endif
1830
1831         /* Get device limits */
1832         if ( ( rc = arbel_get_limits ( arbel ) ) != 0 )
1833                 goto err_get_limits;
1834
1835 #if SELF_INIT
1836         /* Allocate ICM */
1837         memset ( &init_hca, 0, sizeof ( init_hca ) );
1838         if ( ( rc = arbel_alloc_icm ( arbel, &init_hca ) ) != 0 )
1839                 goto err_alloc_icm;
1840
1841         /* Initialise HCA */
1842         if ( ( rc = arbel_cmd_init_hca ( arbel, &init_hca ) ) != 0 ) {
1843                 DBGC ( arbel, "Arbel %p could not initialise HCA: %s\n",
1844                        arbel, strerror ( rc ) );
1845                 goto err_init_hca;
1846         }
1847 #endif
1848
1849
1850
1851         /* Hack up IB structures */
1852 #if 0
1853         arbel->config = memfree_pci_dev.cr_space;
1854         arbel->uar = memfree_pci_dev.uar;
1855         arbel->mailbox_in = dev_buffers_p->inprm_buf;
1856         arbel->mailbox_out = dev_buffers_p->outprm_buf;
1857 #endif
1858         arbel->db_rec = dev_ib_data.uar_context_base;
1859         arbel->reserved_lkey = dev_ib_data.mkey;
1860         arbel->eqn = dev_ib_data.eq.eqn;
1861
1862
1863         /* Get MAD parameters */
1864         if ( ( rc = arbel_get_mad_params ( ibdev ) ) != 0 )
1865                 goto err_get_mad_params;
1866
1867         /* Add IPoIB device */
1868         if ( ( rc = ipoib_probe ( ibdev ) ) != 0 ) {
1869                 DBGC ( arbel, "Arbel %p could not add IPoIB device: %s\n",
1870                        arbel, strerror ( rc ) );
1871                 goto err_ipoib_probe;
1872         }
1873
1874         return 0;
1875
1876  err_ipoib_probe:
1877  err_get_mad_params:
1878         ib_driver_close ( 0 );
1879  err_ib_driver_init:
1880
1881         
1882  err_init_hca:
1883         arbel_free_icm ( arbel );
1884  err_alloc_icm:
1885  err_get_limits:
1886         arbel_stop_firmware ( arbel );
1887  err_start_firmware:
1888         free_dma ( arbel->mailbox_out, ARBEL_MBOX_SIZE );
1889  err_mailbox_out:
1890         free_dma ( arbel->mailbox_in, ARBEL_MBOX_SIZE );
1891  err_mailbox_in:
1892         free_ibdev ( ibdev );
1893  err_ibdev:
1894         return rc;
1895 }
1896
1897 /**
1898  * Remove PCI device
1899  *
1900  * @v pci               PCI device
1901  */
1902 static void arbel_remove ( struct pci_device *pci ) {
1903         struct ib_device *ibdev = pci_get_drvdata ( pci );
1904         struct arbel *arbel = ibdev->dev_priv;
1905
1906
1907 #warning "check error sequence for probe()"
1908         ipoib_remove ( ibdev );
1909         ib_driver_close ( 0 );
1910         arbel_stop_firmware ( arbel );
1911         free_dma ( arbel->mailbox_out, ARBEL_MBOX_SIZE );
1912         free_dma ( arbel->mailbox_in, ARBEL_MBOX_SIZE );
1913         free_ibdev ( ibdev );
1914 }
1915
1916 static struct pci_device_id arbel_nics[] = {
1917         PCI_ROM ( 0x15b3, 0x6282, "MT25218", "MT25218 HCA driver" ),
1918         PCI_ROM ( 0x15b3, 0x6274, "MT25204", "MT25204 HCA driver" ),
1919 };
1920
1921 struct pci_driver arbel_driver __pci_driver = {
1922         .ids = arbel_nics,
1923         .id_count = ( sizeof ( arbel_nics ) / sizeof ( arbel_nics[0] ) ),
1924         .probe = arbel_probe,
1925         .remove = arbel_remove,
1926 };