Blame - crypto/bn/asm/x86_64-mont.pl - boringssl.git

blob: 38039286be72f3e86b65c9e85e0a85727016b516 [file] [log] [blame]

Adam Langley	95c29f3	2014-06-20 12:00:00 -0700	[diff] [blame]	1	#!/usr/bin/env perl
				2
				3	# ====================================================================
				4	# Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
				5	# project. The module is, however, dual licensed under OpenSSL and
				6	# CRYPTOGAMS licenses depending on where you obtain it. For further
				7	# details see http://www.openssl.org/~appro/cryptogams/.
				8	# ====================================================================
				9
				10	# October 2005.
				11	#
				12	# Montgomery multiplication routine for x86_64. While it gives modest
				13	# 9% improvement of rsa4096 sign on Opteron, rsa512 sign runs more
				14	# than twice, >2x, as fast. Most common rsa1024 sign is improved by
				15	# respectful 50%. It remains to be seen if loop unrolling and
				16	# dedicated squaring routine can provide further improvement...
				17
				18	# July 2011.
				19	#
				20	# Add dedicated squaring procedure. Performance improvement varies
				21	# from platform to platform, but in average it's ~5%/15%/25%/33%
				22	# for 512-/1024-/2048-/4096-bit RSA sign benchmarks respectively.
				23
				24	# August 2011.
				25	#
				26	# Unroll and modulo-schedule inner loops in such manner that they
				27	# are "fallen through" for input lengths of 8, which is critical for
				28	# 1024-bit RSA sign. Average performance improvement in comparison
				29	# to initial version of this module from 2005 is ~0%/30%/40%/45%
				30	# for 512-/1024-/2048-/4096-bit RSA sign benchmarks respectively.
				31
				32	# June 2013.
				33	#
				34	# Optimize reduction in squaring procedure and improve 1024+-bit RSA
				35	# sign performance by 10-16% on Intel Sandy Bridge and later
				36	# (virtually same on non-Intel processors).
				37
				38	# August 2013.
				39	#
				40	# Add MULX/ADOX/ADCX code path.
				41
				42	$flavour = shift;
				43	$output = shift;
				44	if ($flavour =~ /\./) { $output = $flavour; undef $flavour; }
				45
				46	$win64=0; $win64=1 if ($flavour =~ /[nm]asm\|mingw64/ \|\| $output =~ /\.asm$/);
				47
				48	$0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
				49	( $xlate="${dir}x86_64-xlate.pl" and -f $xlate ) or
				50	( $xlate="${dir}../../perlasm/x86_64-xlate.pl" and -f $xlate) or
				51	die "can't locate x86_64-xlate.pl";
				52
				53	open OUT,"\| \"$^X\" $xlate $flavour $output";
				54	STDOUT=OUT;
				55
				56	if (`$ENV{CC} -Wa,-v -c -o /dev/null -x assembler /dev/null 2>&1`
				57	=~ /GNU assembler version ([2-9]\.[0-9]+)/) {
				58	$addx = ($1>=2.23);
				59	}
				60
				61	if (!$addx && $win64 && ($flavour =~ /nasm/ \|\| $ENV{ASM} =~ /nasm/) &&
				62	`nasm -v 2>&1` =~ /NASM version ([2-9]\.[0-9]+)/) {
				63	$addx = ($1>=2.10);
				64	}
				65
				66	if (!$addx && $win64 && ($flavour =~ /masm/ \|\| $ENV{ASM} =~ /ml64/) &&
				67	`ml64 2>&1` =~ /Version ([0-9]+)\./) {
				68	$addx = ($1>=11);
				69	}
				70
				71	# int bn_mul_mont(
				72	$rp="%rdi"; # BN_ULONG *rp,
				73	$ap="%rsi"; # const BN_ULONG *ap,
				74	$bp="%rdx"; # const BN_ULONG *bp,
				75	$np="%rcx"; # const BN_ULONG *np,
				76	$n0="%r8"; # const BN_ULONG *n0,
				77	$num="%r9"; # int num);
				78	$lo0="%r10";
				79	$hi0="%r11";
				80	$hi1="%r13";
				81	$i="%r14";
				82	$j="%r15";
				83	$m0="%rbx";
				84	$m1="%rbp";
				85
				86	$code=<<___;
				87	.text
				88
				89	.extern OPENSSL_ia32cap_P
				90
				91	.globl bn_mul_mont
				92	.type bn_mul_mont,\@function,6
				93	.align 16
				94	bn_mul_mont:
				95	test \$3,${num}d
				96	jnz .Lmul_enter
				97	cmp \$8,${num}d
				98	jb .Lmul_enter
				99	___
				100	$code.=<<___ if ($addx);
				101	mov OPENSSL_ia32cap_P+8(%rip),%r11d
				102	___
				103	$code.=<<___;
				104	cmp $ap,$bp
				105	jne .Lmul4x_enter
				106	test \$7,${num}d
				107	jz .Lsqr8x_enter
				108	jmp .Lmul4x_enter
				109
				110	.align 16
				111	.Lmul_enter:
				112	push %rbx
				113	push %rbp
				114	push %r12
				115	push %r13
				116	push %r14
				117	push %r15
				118
				119	mov ${num}d,${num}d
				120	lea 2($num),%r10
				121	mov %rsp,%r11
				122	neg %r10
				123	lea (%rsp,%r10,8),%rsp # tp=alloca(8*(num+2))
				124	and \$-1024,%rsp # minimize TLB usage
				125
				126	mov %r11,8(%rsp,$num,8) # tp[num+1]=%rsp
				127	.Lmul_body:
				128	mov $bp,%r12 # reassign $bp
				129	___
				130	$bp="%r12";
				131	$code.=<<___;
				132	mov ($n0),$n0 # pull n0[0] value
				133	mov ($bp),$m0 # m0=bp[0]
				134	mov ($ap),%rax
				135
				136	xor $i,$i # i=0
				137	xor $j,$j # j=0
				138
				139	mov $n0,$m1
				140	mulq $m0 # ap[0]*bp[0]
				141	mov %rax,$lo0
				142	mov ($np),%rax
				143
				144	imulq $lo0,$m1 # "tp[0]"*n0
				145	mov %rdx,$hi0
				146
				147	mulq $m1 # np[0]*m1
				148	add %rax,$lo0 # discarded
				149	mov 8($ap),%rax
				150	adc \$0,%rdx
				151	mov %rdx,$hi1
				152
				153	lea 1($j),$j # j++
				154	jmp .L1st_enter
				155
				156	.align 16
				157	.L1st:
				158	add %rax,$hi1
				159	mov ($ap,$j,8),%rax
				160	adc \$0,%rdx
				161	add $hi0,$hi1 # np[j]m1+ap[j]bp[0]
				162	mov $lo0,$hi0
				163	adc \$0,%rdx
				164	mov $hi1,-16(%rsp,$j,8) # tp[j-1]
				165	mov %rdx,$hi1
				166
				167	.L1st_enter:
				168	mulq $m0 # ap[j]*bp[0]
				169	add %rax,$hi0
				170	mov ($np,$j,8),%rax
				171	adc \$0,%rdx
				172	lea 1($j),$j # j++
				173	mov %rdx,$lo0
				174
				175	mulq $m1 # np[j]*m1
				176	cmp $num,$j
				177	jne .L1st
				178
				179	add %rax,$hi1
				180	mov ($ap),%rax # ap[0]
				181	adc \$0,%rdx
				182	add $hi0,$hi1 # np[j]m1+ap[j]bp[0]
				183	adc \$0,%rdx
				184	mov $hi1,-16(%rsp,$j,8) # tp[j-1]
				185	mov %rdx,$hi1
				186	mov $lo0,$hi0
				187
				188	xor %rdx,%rdx
				189	add $hi0,$hi1
				190	adc \$0,%rdx
				191	mov $hi1,-8(%rsp,$num,8)
				192	mov %rdx,(%rsp,$num,8) # store upmost overflow bit
				193
				194	lea 1($i),$i # i++
				195	jmp .Louter
				196	.align 16
				197	.Louter:
				198	mov ($bp,$i,8),$m0 # m0=bp[i]
				199	xor $j,$j # j=0
				200	mov $n0,$m1
				201	mov (%rsp),$lo0
				202	mulq $m0 # ap[0]*bp[i]
				203	add %rax,$lo0 # ap[0]*bp[i]+tp[0]
				204	mov ($np),%rax
				205	adc \$0,%rdx
				206
				207	imulq $lo0,$m1 # tp[0]*n0
				208	mov %rdx,$hi0
				209
				210	mulq $m1 # np[0]*m1
				211	add %rax,$lo0 # discarded
				212	mov 8($ap),%rax
				213	adc \$0,%rdx
				214	mov 8(%rsp),$lo0 # tp[1]
				215	mov %rdx,$hi1
				216
				217	lea 1($j),$j # j++
				218	jmp .Linner_enter
				219
				220	.align 16
				221	.Linner:
				222	add %rax,$hi1
				223	mov ($ap,$j,8),%rax
				224	adc \$0,%rdx
				225	add $lo0,$hi1 # np[j]m1+ap[j]bp[i]+tp[j]
				226	mov (%rsp,$j,8),$lo0
				227	adc \$0,%rdx
				228	mov $hi1,-16(%rsp,$j,8) # tp[j-1]
				229	mov %rdx,$hi1
				230
				231	.Linner_enter:
				232	mulq $m0 # ap[j]*bp[i]
				233	add %rax,$hi0
				234	mov ($np,$j,8),%rax
				235	adc \$0,%rdx
				236	add $hi0,$lo0 # ap[j]*bp[i]+tp[j]
				237	mov %rdx,$hi0
				238	adc \$0,$hi0
				239	lea 1($j),$j # j++
				240
				241	mulq $m1 # np[j]*m1
				242	cmp $num,$j
				243	jne .Linner
				244
				245	add %rax,$hi1
				246	mov ($ap),%rax # ap[0]
				247	adc \$0,%rdx
				248	add $lo0,$hi1 # np[j]m1+ap[j]bp[i]+tp[j]
				249	mov (%rsp,$j,8),$lo0
				250	adc \$0,%rdx
				251	mov $hi1,-16(%rsp,$j,8) # tp[j-1]
				252	mov %rdx,$hi1
				253
				254	xor %rdx,%rdx
				255	add $hi0,$hi1
				256	adc \$0,%rdx
				257	add $lo0,$hi1 # pull upmost overflow bit
				258	adc \$0,%rdx
				259	mov $hi1,-8(%rsp,$num,8)
				260	mov %rdx,(%rsp,$num,8) # store upmost overflow bit
				261
				262	lea 1($i),$i # i++
				263	cmp $num,$i
				264	jb .Louter
				265
				266	xor $i,$i # i=0 and clear CF!
				267	mov (%rsp),%rax # tp[0]
				268	lea (%rsp),$ap # borrow ap for tp
				269	mov $num,$j # j=num
				270	jmp .Lsub
				271	.align 16
				272	.Lsub: sbb ($np,$i,8),%rax
				273	mov %rax,($rp,$i,8) # rp[i]=tp[i]-np[i]
				274	mov 8($ap,$i,8),%rax # tp[i+1]
				275	lea 1($i),$i # i++
				276	dec $j # doesnn't affect CF!
				277	jnz .Lsub
				278
				279	sbb \$0,%rax # handle upmost overflow bit
				280	xor $i,$i
				281	and %rax,$ap
				282	not %rax
				283	mov $rp,$np
				284	and %rax,$np
				285	mov $num,$j # j=num
				286	or $np,$ap # ap=borrow?tp:rp
				287	.align 16
				288	.Lcopy: # copy or in-place refresh
				289	mov ($ap,$i,8),%rax
				290	mov $i,(%rsp,$i,8) # zap temporary vector
				291	mov %rax,($rp,$i,8) # rp[i]=tp[i]
				292	lea 1($i),$i
				293	sub \$1,$j
				294	jnz .Lcopy
				295
				296	mov 8(%rsp,$num,8),%rsi # restore %rsp
				297	mov \$1,%rax
				298	mov (%rsi),%r15
				299	mov 8(%rsi),%r14
				300	mov 16(%rsi),%r13
				301	mov 24(%rsi),%r12
				302	mov 32(%rsi),%rbp
				303	mov 40(%rsi),%rbx
				304	lea 48(%rsi),%rsp
				305	.Lmul_epilogue:
				306	ret
				307	.size bn_mul_mont,.-bn_mul_mont
				308	___
				309	{{{
				310	my @A=("%r10","%r11");
				311	my @N=("%r13","%rdi");
				312	$code.=<<___;
				313	.type bn_mul4x_mont,\@function,6
				314	.align 16
				315	bn_mul4x_mont:
				316	.Lmul4x_enter:
				317	___
				318	$code.=<<___ if ($addx);
				319	and \$0x80100,%r11d
				320	cmp \$0x80100,%r11d
				321	je .Lmulx4x_enter
				322	___
				323	$code.=<<___;
				324	push %rbx
				325	push %rbp
				326	push %r12
				327	push %r13
				328	push %r14
				329	push %r15
				330
				331	mov ${num}d,${num}d
				332	lea 4($num),%r10
				333	mov %rsp,%r11
				334	neg %r10
				335	lea (%rsp,%r10,8),%rsp # tp=alloca(8*(num+4))
				336	and \$-1024,%rsp # minimize TLB usage
				337
				338	mov %r11,8(%rsp,$num,8) # tp[num+1]=%rsp
				339	.Lmul4x_body:
				340	mov $rp,16(%rsp,$num,8) # tp[num+2]=$rp
				341	mov %rdx,%r12 # reassign $bp
				342	___
				343	$bp="%r12";
				344	$code.=<<___;
				345	mov ($n0),$n0 # pull n0[0] value
				346	mov ($bp),$m0 # m0=bp[0]
				347	mov ($ap),%rax
				348
				349	xor $i,$i # i=0
				350	xor $j,$j # j=0
				351
				352	mov $n0,$m1
				353	mulq $m0 # ap[0]*bp[0]
				354	mov %rax,$A[0]
				355	mov ($np),%rax
				356
				357	imulq $A[0],$m1 # "tp[0]"*n0
				358	mov %rdx,$A[1]
				359
				360	mulq $m1 # np[0]*m1
				361	add %rax,$A[0] # discarded
				362	mov 8($ap),%rax
				363	adc \$0,%rdx
				364	mov %rdx,$N[1]
				365
				366	mulq $m0
				367	add %rax,$A[1]
				368	mov 8($np),%rax
				369	adc \$0,%rdx
				370	mov %rdx,$A[0]
				371
				372	mulq $m1
				373	add %rax,$N[1]
				374	mov 16($ap),%rax
				375	adc \$0,%rdx
				376	add $A[1],$N[1]
				377	lea 4($j),$j # j++
				378	adc \$0,%rdx
				379	mov $N[1],(%rsp)
				380	mov %rdx,$N[0]
				381	jmp .L1st4x
				382	.align 16
				383	.L1st4x:
				384	mulq $m0 # ap[j]*bp[0]
				385	add %rax,$A[0]
				386	mov -16($np,$j,8),%rax
				387	adc \$0,%rdx
				388	mov %rdx,$A[1]
				389
				390	mulq $m1 # np[j]*m1
				391	add %rax,$N[0]
				392	mov -8($ap,$j,8),%rax
				393	adc \$0,%rdx
				394	add $A[0],$N[0] # np[j]m1+ap[j]bp[0]
				395	adc \$0,%rdx
				396	mov $N[0],-24(%rsp,$j,8) # tp[j-1]
				397	mov %rdx,$N[1]
				398
				399	mulq $m0 # ap[j]*bp[0]
				400	add %rax,$A[1]
				401	mov -8($np,$j,8),%rax
				402	adc \$0,%rdx
				403	mov %rdx,$A[0]
				404
				405	mulq $m1 # np[j]*m1
				406	add %rax,$N[1]
				407	mov ($ap,$j,8),%rax
				408	adc \$0,%rdx
				409	add $A[1],$N[1] # np[j]m1+ap[j]bp[0]
				410	adc \$0,%rdx
				411	mov $N[1],-16(%rsp,$j,8) # tp[j-1]
				412	mov %rdx,$N[0]
				413
				414	mulq $m0 # ap[j]*bp[0]
				415	add %rax,$A[0]
				416	mov ($np,$j,8),%rax
				417	adc \$0,%rdx
				418	mov %rdx,$A[1]
				419
				420	mulq $m1 # np[j]*m1
				421	add %rax,$N[0]
				422	mov 8($ap,$j,8),%rax
				423	adc \$0,%rdx
				424	add $A[0],$N[0] # np[j]m1+ap[j]bp[0]
				425	adc \$0,%rdx
				426	mov $N[0],-8(%rsp,$j,8) # tp[j-1]
				427	mov %rdx,$N[1]
				428
				429	mulq $m0 # ap[j]*bp[0]
				430	add %rax,$A[1]
				431	mov 8($np,$j,8),%rax
				432	adc \$0,%rdx
				433	lea 4($j),$j # j++
				434	mov %rdx,$A[0]
				435
				436	mulq $m1 # np[j]*m1
				437	add %rax,$N[1]
				438	mov -16($ap,$j,8),%rax
				439	adc \$0,%rdx
				440	add $A[1],$N[1] # np[j]m1+ap[j]bp[0]
				441	adc \$0,%rdx
				442	mov $N[1],-32(%rsp,$j,8) # tp[j-1]
				443	mov %rdx,$N[0]
				444	cmp $num,$j
				445	jb .L1st4x
				446
				447	mulq $m0 # ap[j]*bp[0]
				448	add %rax,$A[0]
				449	mov -16($np,$j,8),%rax
				450	adc \$0,%rdx
				451	mov %rdx,$A[1]
				452
				453	mulq $m1 # np[j]*m1
				454	add %rax,$N[0]
				455	mov -8($ap,$j,8),%rax
				456	adc \$0,%rdx
				457	add $A[0],$N[0] # np[j]m1+ap[j]bp[0]
				458	adc \$0,%rdx
				459	mov $N[0],-24(%rsp,$j,8) # tp[j-1]
				460	mov %rdx,$N[1]
				461
				462	mulq $m0 # ap[j]*bp[0]
				463	add %rax,$A[1]
				464	mov -8($np,$j,8),%rax
				465	adc \$0,%rdx
				466	mov %rdx,$A[0]
				467
				468	mulq $m1 # np[j]*m1
				469	add %rax,$N[1]
				470	mov ($ap),%rax # ap[0]
				471	adc \$0,%rdx
				472	add $A[1],$N[1] # np[j]m1+ap[j]bp[0]
				473	adc \$0,%rdx
				474	mov $N[1],-16(%rsp,$j,8) # tp[j-1]
				475	mov %rdx,$N[0]
				476
				477	xor $N[1],$N[1]
				478	add $A[0],$N[0]
				479	adc \$0,$N[1]
				480	mov $N[0],-8(%rsp,$j,8)
				481	mov $N[1],(%rsp,$j,8) # store upmost overflow bit
				482
				483	lea 1($i),$i # i++
				484	.align 4
				485	.Louter4x:
				486	mov ($bp,$i,8),$m0 # m0=bp[i]
				487	xor $j,$j # j=0
				488	mov (%rsp),$A[0]
				489	mov $n0,$m1
				490	mulq $m0 # ap[0]*bp[i]
				491	add %rax,$A[0] # ap[0]*bp[i]+tp[0]
				492	mov ($np),%rax
				493	adc \$0,%rdx
				494
				495	imulq $A[0],$m1 # tp[0]*n0
				496	mov %rdx,$A[1]
				497
				498	mulq $m1 # np[0]*m1
				499	add %rax,$A[0] # "$N[0]", discarded
				500	mov 8($ap),%rax
				501	adc \$0,%rdx
				502	mov %rdx,$N[1]
				503
				504	mulq $m0 # ap[j]*bp[i]
				505	add %rax,$A[1]
				506	mov 8($np),%rax
				507	adc \$0,%rdx
				508	add 8(%rsp),$A[1] # +tp[1]
				509	adc \$0,%rdx
				510	mov %rdx,$A[0]
				511
				512	mulq $m1 # np[j]*m1
				513	add %rax,$N[1]
				514	mov 16($ap),%rax
				515	adc \$0,%rdx
				516	add $A[1],$N[1] # np[j]m1+ap[j]bp[i]+tp[j]
				517	lea 4($j),$j # j+=2
				518	adc \$0,%rdx
				519	mov $N[1],(%rsp) # tp[j-1]
				520	mov %rdx,$N[0]
				521	jmp .Linner4x
				522	.align 16
				523	.Linner4x:
				524	mulq $m0 # ap[j]*bp[i]
				525	add %rax,$A[0]
				526	mov -16($np,$j,8),%rax
				527	adc \$0,%rdx
				528	add -16(%rsp,$j,8),$A[0] # ap[j]*bp[i]+tp[j]
				529	adc \$0,%rdx
				530	mov %rdx,$A[1]
				531
				532	mulq $m1 # np[j]*m1
				533	add %rax,$N[0]
				534	mov -8($ap,$j,8),%rax
				535	adc \$0,%rdx
				536	add $A[0],$N[0]
				537	adc \$0,%rdx
				538	mov $N[0],-24(%rsp,$j,8) # tp[j-1]
				539	mov %rdx,$N[1]
				540
				541	mulq $m0 # ap[j]*bp[i]
				542	add %rax,$A[1]
				543	mov -8($np,$j,8),%rax
				544	adc \$0,%rdx
				545	add -8(%rsp,$j,8),$A[1]
				546	adc \$0,%rdx
				547	mov %rdx,$A[0]
				548
				549	mulq $m1 # np[j]*m1
				550	add %rax,$N[1]
				551	mov ($ap,$j,8),%rax
				552	adc \$0,%rdx
				553	add $A[1],$N[1]
				554	adc \$0,%rdx
				555	mov $N[1],-16(%rsp,$j,8) # tp[j-1]
				556	mov %rdx,$N[0]
				557
				558	mulq $m0 # ap[j]*bp[i]
				559	add %rax,$A[0]
				560	mov ($np,$j,8),%rax
				561	adc \$0,%rdx
				562	add (%rsp,$j,8),$A[0] # ap[j]*bp[i]+tp[j]
				563	adc \$0,%rdx
				564	mov %rdx,$A[1]
				565
				566	mulq $m1 # np[j]*m1
				567	add %rax,$N[0]
				568	mov 8($ap,$j,8),%rax
				569	adc \$0,%rdx
				570	add $A[0],$N[0]
				571	adc \$0,%rdx
				572	mov $N[0],-8(%rsp,$j,8) # tp[j-1]
				573	mov %rdx,$N[1]
				574
				575	mulq $m0 # ap[j]*bp[i]
				576	add %rax,$A[1]
				577	mov 8($np,$j,8),%rax
				578	adc \$0,%rdx
				579	add 8(%rsp,$j,8),$A[1]
				580	adc \$0,%rdx
				581	lea 4($j),$j # j++
				582	mov %rdx,$A[0]
				583
				584	mulq $m1 # np[j]*m1
				585	add %rax,$N[1]
				586	mov -16($ap,$j,8),%rax
				587	adc \$0,%rdx
				588	add $A[1],$N[1]
				589	adc \$0,%rdx
				590	mov $N[1],-32(%rsp,$j,8) # tp[j-1]
				591	mov %rdx,$N[0]
				592	cmp $num,$j
				593	jb .Linner4x
				594
				595	mulq $m0 # ap[j]*bp[i]
				596	add %rax,$A[0]
				597	mov -16($np,$j,8),%rax
				598	adc \$0,%rdx
				599	add -16(%rsp,$j,8),$A[0] # ap[j]*bp[i]+tp[j]
				600	adc \$0,%rdx
				601	mov %rdx,$A[1]
				602
				603	mulq $m1 # np[j]*m1
				604	add %rax,$N[0]
				605	mov -8($ap,$j,8),%rax
				606	adc \$0,%rdx
				607	add $A[0],$N[0]
				608	adc \$0,%rdx
				609	mov $N[0],-24(%rsp,$j,8) # tp[j-1]
				610	mov %rdx,$N[1]
				611
				612	mulq $m0 # ap[j]*bp[i]
				613	add %rax,$A[1]
				614	mov -8($np,$j,8),%rax
				615	adc \$0,%rdx
				616	add -8(%rsp,$j,8),$A[1]
				617	adc \$0,%rdx
				618	lea 1($i),$i # i++
				619	mov %rdx,$A[0]
				620
				621	mulq $m1 # np[j]*m1
				622	add %rax,$N[1]
				623	mov ($ap),%rax # ap[0]
				624	adc \$0,%rdx
				625	add $A[1],$N[1]
				626	adc \$0,%rdx
				627	mov $N[1],-16(%rsp,$j,8) # tp[j-1]
				628	mov %rdx,$N[0]
				629
				630	xor $N[1],$N[1]
				631	add $A[0],$N[0]
				632	adc \$0,$N[1]
				633	add (%rsp,$num,8),$N[0] # pull upmost overflow bit
				634	adc \$0,$N[1]
				635	mov $N[0],-8(%rsp,$j,8)
				636	mov $N[1],(%rsp,$j,8) # store upmost overflow bit
				637
				638	cmp $num,$i
				639	jb .Louter4x
				640	___
				641	{
				642	my @ri=("%rax","%rdx",$m0,$m1);
				643	$code.=<<___;
				644	mov 16(%rsp,$num,8),$rp # restore $rp
				645	mov 0(%rsp),@ri[0] # tp[0]
				646	pxor %xmm0,%xmm0
				647	mov 8(%rsp),@ri[1] # tp[1]
				648	shr \$2,$num # num/=4
				649	lea (%rsp),$ap # borrow ap for tp
				650	xor $i,$i # i=0 and clear CF!
				651
				652	sub 0($np),@ri[0]
				653	mov 16($ap),@ri[2] # tp[2]
				654	mov 24($ap),@ri[3] # tp[3]
				655	sbb 8($np),@ri[1]
				656	lea -1($num),$j # j=num/4-1
				657	jmp .Lsub4x
				658	.align 16
				659	.Lsub4x:
				660	mov @ri[0],0($rp,$i,8) # rp[i]=tp[i]-np[i]
				661	mov @ri[1],8($rp,$i,8) # rp[i]=tp[i]-np[i]
				662	sbb 16($np,$i,8),@ri[2]
				663	mov 32($ap,$i,8),@ri[0] # tp[i+1]
				664	mov 40($ap,$i,8),@ri[1]
				665	sbb 24($np,$i,8),@ri[3]
				666	mov @ri[2],16($rp,$i,8) # rp[i]=tp[i]-np[i]
				667	mov @ri[3],24($rp,$i,8) # rp[i]=tp[i]-np[i]
				668	sbb 32($np,$i,8),@ri[0]
				669	mov 48($ap,$i,8),@ri[2]
				670	mov 56($ap,$i,8),@ri[3]
				671	sbb 40($np,$i,8),@ri[1]
				672	lea 4($i),$i # i++
				673	dec $j # doesnn't affect CF!
				674	jnz .Lsub4x
				675
				676	mov @ri[0],0($rp,$i,8) # rp[i]=tp[i]-np[i]
				677	mov 32($ap,$i,8),@ri[0] # load overflow bit
				678	sbb 16($np,$i,8),@ri[2]
				679	mov @ri[1],8($rp,$i,8) # rp[i]=tp[i]-np[i]
				680	sbb 24($np,$i,8),@ri[3]
				681	mov @ri[2],16($rp,$i,8) # rp[i]=tp[i]-np[i]
				682
				683	sbb \$0,@ri[0] # handle upmost overflow bit
				684	mov @ri[3],24($rp,$i,8) # rp[i]=tp[i]-np[i]
				685	xor $i,$i # i=0
				686	and @ri[0],$ap
				687	not @ri[0]
				688	mov $rp,$np
				689	and @ri[0],$np
				690	lea -1($num),$j
				691	or $np,$ap # ap=borrow?tp:rp
				692
				693	movdqu ($ap),%xmm1
				694	movdqa %xmm0,(%rsp)
				695	movdqu %xmm1,($rp)
				696	jmp .Lcopy4x
				697	.align 16
				698	.Lcopy4x: # copy or in-place refresh
				699	movdqu 16($ap,$i),%xmm2
				700	movdqu 32($ap,$i),%xmm1
				701	movdqa %xmm0,16(%rsp,$i)
				702	movdqu %xmm2,16($rp,$i)
				703	movdqa %xmm0,32(%rsp,$i)
				704	movdqu %xmm1,32($rp,$i)
				705	lea 32($i),$i
				706	dec $j
				707	jnz .Lcopy4x
				708
				709	shl \$2,$num
				710	movdqu 16($ap,$i),%xmm2
				711	movdqa %xmm0,16(%rsp,$i)
				712	movdqu %xmm2,16($rp,$i)
				713	___
				714	}
				715	$code.=<<___;
				716	mov 8(%rsp,$num,8),%rsi # restore %rsp
				717	mov \$1,%rax
				718	mov (%rsi),%r15
				719	mov 8(%rsi),%r14
				720	mov 16(%rsi),%r13
				721	mov 24(%rsi),%r12
				722	mov 32(%rsi),%rbp
				723	mov 40(%rsi),%rbx
				724	lea 48(%rsi),%rsp
				725	.Lmul4x_epilogue:
				726	ret
				727	.size bn_mul4x_mont,.-bn_mul4x_mont
				728	___
				729	}}}
				730	{{{
				731	######################################################################
				732	# void bn_sqr8x_mont(
				733	my $rptr="%rdi"; # const BN_ULONG *rptr,
				734	my $aptr="%rsi"; # const BN_ULONG *aptr,
				735	my $bptr="%rdx"; # not used
				736	my $nptr="%rcx"; # const BN_ULONG *nptr,
				737	my $n0 ="%r8"; # const BN_ULONG *n0);
				738	my $num ="%r9"; # int num, has to be divisible by 8
				739
				740	my ($i,$j,$tptr)=("%rbp","%rcx",$rptr);
				741	my @A0=("%r10","%r11");
				742	my @A1=("%r12","%r13");
				743	my ($a0,$a1,$ai)=("%r14","%r15","%rbx");
				744
				745	$code.=<<___;
				746	.extern bn_sqr8x_internal # see x86_64-mont5 module
				747	.extern bn_sqrx8x_internal # see x86_64-mont5 module
				748
				749	.type bn_sqr8x_mont,\@function,6
				750	.align 32
				751	bn_sqr8x_mont:
				752	.Lsqr8x_enter:
				753	mov %rsp,%rax
				754	push %rbx
				755	push %rbp
				756	push %r12
				757	push %r13
				758	push %r14
				759	push %r15
				760
				761	mov ${num}d,%r10d
				762	shl \$3,${num}d # convert $num to bytes
				763	shl \$3+2,%r10 # 4*$num
				764	neg $num
				765
				766	##############################################################
				767	# ensure that stack frame doesn't alias with $aptr modulo
				768	# 4096. this is done to allow memory disambiguation logic
				769	# do its job.
				770	#
				771	lea -64(%rsp,$num,4),%r11
				772	mov ($n0),$n0 # *n0
				773	sub $aptr,%r11
				774	and \$4095,%r11
				775	cmp %r11,%r10
				776	jb .Lsqr8x_sp_alt
				777	sub %r11,%rsp # align with $aptr
				778	lea -64(%rsp,$num,4),%rsp # alloca(frame+4*$num)
				779	jmp .Lsqr8x_sp_done
				780
				781	.align 32
				782	.Lsqr8x_sp_alt:
				783	lea 4096-64(,$num,4),%r10 # 4096-frame-4*$num
				784	lea -64(%rsp,$num,4),%rsp # alloca(frame+4*$num)
				785	sub %r10,%r11
				786	mov \$0,%r10
				787	cmovc %r10,%r11
				788	sub %r11,%rsp
				789	.Lsqr8x_sp_done:
				790	and \$-64,%rsp
				791	mov $num,%r10
				792	neg $num
				793
				794	lea 64(%rsp,$num,2),%r11 # copy of modulus
				795	mov $n0, 32(%rsp)
				796	mov %rax, 40(%rsp) # save original %rsp
				797	.Lsqr8x_body:
				798
				799	mov $num,$i
				800	movq %r11, %xmm2 # save pointer to modulus copy
				801	shr \$3+2,$i
				802	mov OPENSSL_ia32cap_P+8(%rip),%eax
				803	jmp .Lsqr8x_copy_n
				804
				805	.align 32
				806	.Lsqr8x_copy_n:
				807	movq 8*0($nptr),%xmm0
				808	movq 8*1($nptr),%xmm1
				809	movq 8*2($nptr),%xmm3
				810	movq 8*3($nptr),%xmm4
				811	lea 8*4($nptr),$nptr
				812	movdqa %xmm0,16*0(%r11)
				813	movdqa %xmm1,16*1(%r11)
				814	movdqa %xmm3,16*2(%r11)
				815	movdqa %xmm4,16*3(%r11)
				816	lea 16*4(%r11),%r11
				817	dec $i
				818	jnz .Lsqr8x_copy_n
				819
				820	pxor %xmm0,%xmm0
				821	movq $rptr,%xmm1 # save $rptr
				822	movq %r10, %xmm3 # -$num
				823	___
				824	$code.=<<___ if ($addx);
				825	and \$0x80100,%eax
				826	cmp \$0x80100,%eax
				827	jne .Lsqr8x_nox
				828
				829	call bn_sqrx8x_internal # see x86_64-mont5 module
				830
				831	pxor %xmm0,%xmm0
				832	lea 48(%rsp),%rax
				833	lea 64(%rsp,$num,2),%rdx
				834	shr \$3+2,$num
				835	mov 40(%rsp),%rsi # restore %rsp
				836	jmp .Lsqr8x_zero
				837
				838	.align 32
				839	.Lsqr8x_nox:
				840	___
				841	$code.=<<___;
				842	call bn_sqr8x_internal # see x86_64-mont5 module
				843
				844	pxor %xmm0,%xmm0
				845	lea 48(%rsp),%rax
				846	lea 64(%rsp,$num,2),%rdx
				847	shr \$3+2,$num
				848	mov 40(%rsp),%rsi # restore %rsp
				849	jmp .Lsqr8x_zero
				850
				851	.align 32
				852	.Lsqr8x_zero:
				853	movdqa %xmm0,16*0(%rax) # wipe t
				854	movdqa %xmm0,16*1(%rax)
				855	movdqa %xmm0,16*2(%rax)
				856	movdqa %xmm0,16*3(%rax)
				857	lea 16*4(%rax),%rax
				858	movdqa %xmm0,16*0(%rdx) # wipe n
				859	movdqa %xmm0,16*1(%rdx)
				860	movdqa %xmm0,16*2(%rdx)
				861	movdqa %xmm0,16*3(%rdx)
				862	lea 16*4(%rdx),%rdx
				863	dec $num
				864	jnz .Lsqr8x_zero
				865
				866	mov \$1,%rax
				867	mov -48(%rsi),%r15
				868	mov -40(%rsi),%r14
				869	mov -32(%rsi),%r13
				870	mov -24(%rsi),%r12
				871	mov -16(%rsi),%rbp
				872	mov -8(%rsi),%rbx
				873	lea (%rsi),%rsp
				874	.Lsqr8x_epilogue:
				875	ret
				876	.size bn_sqr8x_mont,.-bn_sqr8x_mont
				877	___
				878	}}}
				879
				880	if ($addx) {{{
				881	my $bp="%rdx"; # original value
				882
				883	$code.=<<___;
				884	.type bn_mulx4x_mont,\@function,6
				885	.align 32
				886	bn_mulx4x_mont:
				887	.Lmulx4x_enter:
				888	mov %rsp,%rax
				889	push %rbx
				890	push %rbp
				891	push %r12
				892	push %r13
				893	push %r14
				894	push %r15
				895
				896	shl \$3,${num}d # convert $num to bytes
				897	.byte 0x67
				898	xor %r10,%r10
				899	sub $num,%r10 # -$num
				900	mov ($n0),$n0 # *n0
				901	lea -72(%rsp,%r10),%rsp # alloca(frame+$num+8)
				902	lea ($bp,$num),%r10
				903	and \$-128,%rsp
				904	##############################################################
				905	# Stack layout
				906	# +0 num
				907	# +8 off-loaded &b[i]
				908	# +16 end of b[num]
				909	# +24 saved n0
				910	# +32 saved rp
				911	# +40 saved %rsp
				912	# +48 inner counter
				913	# +56
				914	# +64 tmp[num+1]
				915	#
				916	mov $num,0(%rsp) # save $num
				917	shr \$5,$num
				918	mov %r10,16(%rsp) # end of b[num]
				919	sub \$1,$num
				920	mov $n0, 24(%rsp) # save *n0
				921	mov $rp, 32(%rsp) # save $rp
				922	mov %rax,40(%rsp) # save original %rsp
				923	mov $num,48(%rsp) # inner counter
				924	jmp .Lmulx4x_body
				925
				926	.align 32
				927	.Lmulx4x_body:
				928	___
				929	my ($aptr, $bptr, $nptr, $tptr, $mi, $bi, $zero, $num)=
				930	("%rsi","%rdi","%rcx","%rbx","%r8","%r9","%rbp","%rax");
				931	my $rptr=$bptr;
				932	$code.=<<___;
				933	lea 8($bp),$bptr
				934	mov ($bp),%rdx # b[0], $bp==%rdx actually
				935	lea 64+32(%rsp),$tptr
				936	mov %rdx,$bi
				937
				938	mulx 08($aptr),$mi,%rax # a[0]b[0]
				939	mulx 18($aptr),%r11,%r14 # a[1]b[0]
				940	add %rax,%r11
				941	mov $bptr,8(%rsp) # off-load &b[i]
				942	mulx 2*8($aptr),%r12,%r13 # ...
				943	adc %r14,%r12
				944	adc \$0,%r13
				945
				946	mov $mi,$bptr # borrow $bptr
				947	imulq 24(%rsp),$mi # "t[0]"*n0
				948	xor $zero,$zero # cf=0, of=0
				949
				950	mulx 3*8($aptr),%rax,%r14
				951	mov $mi,%rdx
				952	lea 4*8($aptr),$aptr
				953	adcx %rax,%r13
				954	adcx $zero,%r14 # cf=0
				955
				956	mulx 0*8($nptr),%rax,%r10
				957	adcx %rax,$bptr # discarded
				958	adox %r11,%r10
				959	mulx 1*8($nptr),%rax,%r11
				960	adcx %rax,%r10
				961	adox %r12,%r11
				962	.byte 0xc4,0x62,0xfb,0xf6,0xa1,0x10,0x00,0x00,0x00 # mulx 2*8($nptr),%rax,%r12
				963	mov 48(%rsp),$bptr # counter value
				964	mov %r10,-4*8($tptr)
				965	adcx %rax,%r11
				966	adox %r13,%r12
				967	mulx 3*8($nptr),%rax,%r15
				968	mov $bi,%rdx
				969	mov %r11,-3*8($tptr)
				970	adcx %rax,%r12
				971	adox $zero,%r15 # of=0
				972	lea 4*8($nptr),$nptr
				973	mov %r12,-2*8($tptr)
				974
				975	jmp .Lmulx4x_1st
				976
				977	.align 32
				978	.Lmulx4x_1st:
				979	adcx $zero,%r15 # cf=0, modulo-scheduled
				980	mulx 08($aptr),%r10,%rax # a[4]b[0]
				981	adcx %r14,%r10
				982	mulx 18($aptr),%r11,%r14 # a[5]b[0]
				983	adcx %rax,%r11
				984	mulx 2*8($aptr),%r12,%rax # ...
				985	adcx %r14,%r12
				986	mulx 3*8($aptr),%r13,%r14
				987	.byte 0x67,0x67
				988	mov $mi,%rdx
				989	adcx %rax,%r13
				990	adcx $zero,%r14 # cf=0
				991	lea 4*8($aptr),$aptr
				992	lea 4*8($tptr),$tptr
				993
				994	adox %r15,%r10
				995	mulx 0*8($nptr),%rax,%r15
				996	adcx %rax,%r10
				997	adox %r15,%r11
				998	mulx 1*8($nptr),%rax,%r15
				999	adcx %rax,%r11
				1000	adox %r15,%r12
				1001	mulx 2*8($nptr),%rax,%r15
				1002	mov %r10,-5*8($tptr)
				1003	adcx %rax,%r12
				1004	mov %r11,-4*8($tptr)
				1005	adox %r15,%r13
				1006	mulx 3*8($nptr),%rax,%r15
				1007	mov $bi,%rdx
				1008	mov %r12,-3*8($tptr)
				1009	adcx %rax,%r13
				1010	adox $zero,%r15
				1011	lea 4*8($nptr),$nptr
				1012	mov %r13,-2*8($tptr)
				1013
				1014	dec $bptr # of=0, pass cf
				1015	jnz .Lmulx4x_1st
				1016
				1017	mov 0(%rsp),$num # load num
				1018	mov 8(%rsp),$bptr # re-load &b[i]
				1019	adc $zero,%r15 # modulo-scheduled
				1020	add %r15,%r14
				1021	sbb %r15,%r15 # top-most carry
				1022	mov %r14,-1*8($tptr)
				1023	jmp .Lmulx4x_outer
				1024
				1025	.align 32
				1026	.Lmulx4x_outer:
				1027	mov ($bptr),%rdx # b[i]
				1028	lea 8($bptr),$bptr # b++
				1029	sub $num,$aptr # rewind $aptr
				1030	mov %r15,($tptr) # save top-most carry
				1031	lea 64+4*8(%rsp),$tptr
				1032	sub $num,$nptr # rewind $nptr
				1033
				1034	mulx 08($aptr),$mi,%r11 # a[0]b[i]
				1035	xor %ebp,%ebp # xor $zero,$zero # cf=0, of=0
				1036	mov %rdx,$bi
				1037	mulx 18($aptr),%r14,%r12 # a[1]b[i]
				1038	adox -4*8($tptr),$mi
				1039	adcx %r14,%r11
				1040	mulx 2*8($aptr),%r15,%r13 # ...
				1041	adox -3*8($tptr),%r11
				1042	adcx %r15,%r12
				1043	adox $zero,%r12
				1044	adcx $zero,%r13
				1045
				1046	mov $bptr,8(%rsp) # off-load &b[i]
				1047	.byte 0x67
				1048	mov $mi,%r15
				1049	imulq 24(%rsp),$mi # "t[0]"*n0
				1050	xor %ebp,%ebp # xor $zero,$zero # cf=0, of=0
				1051
				1052	mulx 3*8($aptr),%rax,%r14
				1053	mov $mi,%rdx
				1054	adox -2*8($tptr),%r12
				1055	adcx %rax,%r13
				1056	adox -1*8($tptr),%r13
				1057	adcx $zero,%r14
				1058	lea 4*8($aptr),$aptr
				1059	adox $zero,%r14
				1060
				1061	mulx 0*8($nptr),%rax,%r10
				1062	adcx %rax,%r15 # discarded
				1063	adox %r11,%r10
				1064	mulx 1*8($nptr),%rax,%r11
				1065	adcx %rax,%r10
				1066	adox %r12,%r11
				1067	mulx 2*8($nptr),%rax,%r12
				1068	mov %r10,-4*8($tptr)
				1069	adcx %rax,%r11
				1070	adox %r13,%r12
				1071	mulx 3*8($nptr),%rax,%r15
				1072	mov $bi,%rdx
				1073	mov %r11,-3*8($tptr)
				1074	lea 4*8($nptr),$nptr
				1075	adcx %rax,%r12
				1076	adox $zero,%r15 # of=0
				1077	mov 48(%rsp),$bptr # counter value
				1078	mov %r12,-2*8($tptr)
				1079
				1080	jmp .Lmulx4x_inner
				1081
				1082	.align 32
				1083	.Lmulx4x_inner:
				1084	mulx 08($aptr),%r10,%rax # a[4]b[i]
				1085	adcx $zero,%r15 # cf=0, modulo-scheduled
				1086	adox %r14,%r10
				1087	mulx 18($aptr),%r11,%r14 # a[5]b[i]
				1088	adcx 0*8($tptr),%r10
				1089	adox %rax,%r11
				1090	mulx 2*8($aptr),%r12,%rax # ...
				1091	adcx 1*8($tptr),%r11
				1092	adox %r14,%r12
				1093	mulx 3*8($aptr),%r13,%r14
				1094	mov $mi,%rdx
				1095	adcx 2*8($tptr),%r12
				1096	adox %rax,%r13
				1097	adcx 3*8($tptr),%r13
				1098	adox $zero,%r14 # of=0
				1099	lea 4*8($aptr),$aptr
				1100	lea 4*8($tptr),$tptr
				1101	adcx $zero,%r14 # cf=0
				1102
				1103	adox %r15,%r10
				1104	mulx 0*8($nptr),%rax,%r15
				1105	adcx %rax,%r10
				1106	adox %r15,%r11
				1107	mulx 1*8($nptr),%rax,%r15
				1108	adcx %rax,%r11
				1109	adox %r15,%r12
				1110	mulx 2*8($nptr),%rax,%r15
				1111	mov %r10,-5*8($tptr)
				1112	adcx %rax,%r12
				1113	adox %r15,%r13
				1114	mulx 3*8($nptr),%rax,%r15
				1115	mov $bi,%rdx
				1116	mov %r11,-4*8($tptr)
				1117	mov %r12,-3*8($tptr)
				1118	adcx %rax,%r13
				1119	adox $zero,%r15
				1120	lea 4*8($nptr),$nptr
				1121	mov %r13,-2*8($tptr)
				1122
				1123	dec $bptr # of=0, pass cf
				1124	jnz .Lmulx4x_inner
				1125
				1126	mov 0(%rsp),$num # load num
				1127	mov 8(%rsp),$bptr # re-load &b[i]
				1128	adc $zero,%r15 # modulo-scheduled
				1129	sub 0*8($tptr),$zero # pull top-most carry
				1130	adc %r15,%r14
				1131	mov -8($nptr),$mi
				1132	sbb %r15,%r15 # top-most carry
				1133	mov %r14,-1*8($tptr)
				1134
				1135	cmp 16(%rsp),$bptr
				1136	jne .Lmulx4x_outer
				1137
				1138	sub %r14,$mi # compare top-most words
				1139	sbb $mi,$mi
				1140	or $mi,%r15
				1141
				1142	neg $num
				1143	xor %rdx,%rdx
				1144	mov 32(%rsp),$rptr # restore rp
				1145	lea 64(%rsp),$tptr
				1146
				1147	pxor %xmm0,%xmm0
				1148	mov 0*8($nptr,$num),%r8
				1149	mov 1*8($nptr,$num),%r9
				1150	neg %r8
				1151	jmp .Lmulx4x_sub_entry
				1152
				1153	.align 32
				1154	.Lmulx4x_sub:
				1155	mov 0*8($nptr,$num),%r8
				1156	mov 1*8($nptr,$num),%r9
				1157	not %r8
				1158	.Lmulx4x_sub_entry:
				1159	mov 2*8($nptr,$num),%r10
				1160	not %r9
				1161	and %r15,%r8
				1162	mov 3*8($nptr,$num),%r11
				1163	not %r10
				1164	and %r15,%r9
				1165	not %r11
				1166	and %r15,%r10
				1167	and %r15,%r11
				1168
				1169	neg %rdx # mov %rdx,%cf
				1170	adc 0*8($tptr),%r8
				1171	adc 1*8($tptr),%r9
				1172	movdqa %xmm0,($tptr)
				1173	adc 2*8($tptr),%r10
				1174	adc 3*8($tptr),%r11
				1175	movdqa %xmm0,16($tptr)
				1176	lea 4*8($tptr),$tptr
				1177	sbb %rdx,%rdx # mov %cf,%rdx
				1178
				1179	mov %r8,0*8($rptr)
				1180	mov %r9,1*8($rptr)
				1181	mov %r10,2*8($rptr)
				1182	mov %r11,3*8($rptr)
				1183	lea 4*8($rptr),$rptr
				1184
				1185	add \$32,$num
				1186	jnz .Lmulx4x_sub
				1187
				1188	mov 40(%rsp),%rsi # restore %rsp
				1189	mov \$1,%rax
				1190	mov -48(%rsi),%r15
				1191	mov -40(%rsi),%r14
				1192	mov -32(%rsi),%r13
				1193	mov -24(%rsi),%r12
				1194	mov -16(%rsi),%rbp
				1195	mov -8(%rsi),%rbx
				1196	lea (%rsi),%rsp
				1197	.Lmulx4x_epilogue:
				1198	ret
				1199	.size bn_mulx4x_mont,.-bn_mulx4x_mont
				1200	___
				1201	}}}
				1202	$code.=<<___;
				1203	.asciz "Montgomery Multiplication for x86_64, CRYPTOGAMS by <appro\@openssl.org>"
				1204	.align 16
				1205	___
				1206
				1207	# EXCEPTION_DISPOSITION handler (EXCEPTION_RECORD *rec,ULONG64 frame,
				1208	# CONTEXT context,DISPATCHER_CONTEXT disp)
				1209	if ($win64) {
				1210	$rec="%rcx";
				1211	$frame="%rdx";
				1212	$context="%r8";
				1213	$disp="%r9";
				1214
				1215	$code.=<<___;
				1216	.extern __imp_RtlVirtualUnwind
				1217	.type mul_handler,\@abi-omnipotent
				1218	.align 16
				1219	mul_handler:
				1220	push %rsi
				1221	push %rdi
				1222	push %rbx
				1223	push %rbp
				1224	push %r12
				1225	push %r13
				1226	push %r14
				1227	push %r15
				1228	pushfq
				1229	sub \$64,%rsp
				1230
				1231	mov 120($context),%rax # pull context->Rax
				1232	mov 248($context),%rbx # pull context->Rip
				1233
				1234	mov 8($disp),%rsi # disp->ImageBase
				1235	mov 56($disp),%r11 # disp->HandlerData
				1236
				1237	mov 0(%r11),%r10d # HandlerData[0]
				1238	lea (%rsi,%r10),%r10 # end of prologue label
				1239	cmp %r10,%rbx # context->Rip<end of prologue label
				1240	jb .Lcommon_seh_tail
				1241
				1242	mov 152($context),%rax # pull context->Rsp
				1243
				1244	mov 4(%r11),%r10d # HandlerData[1]
				1245	lea (%rsi,%r10),%r10 # epilogue label
				1246	cmp %r10,%rbx # context->Rip>=epilogue label
				1247	jae .Lcommon_seh_tail
				1248
				1249	mov 192($context),%r10 # pull $num
				1250	mov 8(%rax,%r10,8),%rax # pull saved stack pointer
				1251	lea 48(%rax),%rax
				1252
				1253	mov -8(%rax),%rbx
				1254	mov -16(%rax),%rbp
				1255	mov -24(%rax),%r12
				1256	mov -32(%rax),%r13
				1257	mov -40(%rax),%r14
				1258	mov -48(%rax),%r15
				1259	mov %rbx,144($context) # restore context->Rbx
				1260	mov %rbp,160($context) # restore context->Rbp
				1261	mov %r12,216($context) # restore context->R12
				1262	mov %r13,224($context) # restore context->R13
				1263	mov %r14,232($context) # restore context->R14
				1264	mov %r15,240($context) # restore context->R15
				1265
				1266	jmp .Lcommon_seh_tail
				1267	.size mul_handler,.-mul_handler
				1268
				1269	.type sqr_handler,\@abi-omnipotent
				1270	.align 16
				1271	sqr_handler:
				1272	push %rsi
				1273	push %rdi
				1274	push %rbx
				1275	push %rbp
				1276	push %r12
				1277	push %r13
				1278	push %r14
				1279	push %r15
				1280	pushfq
				1281	sub \$64,%rsp
				1282
				1283	mov 120($context),%rax # pull context->Rax
				1284	mov 248($context),%rbx # pull context->Rip
				1285
				1286	mov 8($disp),%rsi # disp->ImageBase
				1287	mov 56($disp),%r11 # disp->HandlerData
				1288
				1289	mov 0(%r11),%r10d # HandlerData[0]
				1290	lea (%rsi,%r10),%r10 # end of prologue label
				1291	cmp %r10,%rbx # context->Rip<.Lsqr_body
				1292	jb .Lcommon_seh_tail
				1293
				1294	mov 152($context),%rax # pull context->Rsp
				1295
				1296	mov 4(%r11),%r10d # HandlerData[1]
				1297	lea (%rsi,%r10),%r10 # epilogue label
				1298	cmp %r10,%rbx # context->Rip>=.Lsqr_epilogue
				1299	jae .Lcommon_seh_tail
				1300
				1301	mov 40(%rax),%rax # pull saved stack pointer
				1302
				1303	mov -8(%rax),%rbx
				1304	mov -16(%rax),%rbp
				1305	mov -24(%rax),%r12
				1306	mov -32(%rax),%r13
				1307	mov -40(%rax),%r14
				1308	mov -48(%rax),%r15
				1309	mov %rbx,144($context) # restore context->Rbx
				1310	mov %rbp,160($context) # restore context->Rbp
				1311	mov %r12,216($context) # restore context->R12
				1312	mov %r13,224($context) # restore context->R13
				1313	mov %r14,232($context) # restore context->R14
				1314	mov %r15,240($context) # restore context->R15
				1315
				1316	.Lcommon_seh_tail:
				1317	mov 8(%rax),%rdi
				1318	mov 16(%rax),%rsi
				1319	mov %rax,152($context) # restore context->Rsp
				1320	mov %rsi,168($context) # restore context->Rsi
				1321	mov %rdi,176($context) # restore context->Rdi
				1322
				1323	mov 40($disp),%rdi # disp->ContextRecord
				1324	mov $context,%rsi # context
				1325	mov \$154,%ecx # sizeof(CONTEXT)
				1326	.long 0xa548f3fc # cld; rep movsq
				1327
				1328	mov $disp,%rsi
				1329	xor %rcx,%rcx # arg1, UNW_FLAG_NHANDLER
				1330	mov 8(%rsi),%rdx # arg2, disp->ImageBase
				1331	mov 0(%rsi),%r8 # arg3, disp->ControlPc
				1332	mov 16(%rsi),%r9 # arg4, disp->FunctionEntry
				1333	mov 40(%rsi),%r10 # disp->ContextRecord
				1334	lea 56(%rsi),%r11 # &disp->HandlerData
				1335	lea 24(%rsi),%r12 # &disp->EstablisherFrame
				1336	mov %r10,32(%rsp) # arg5
				1337	mov %r11,40(%rsp) # arg6
				1338	mov %r12,48(%rsp) # arg7
				1339	mov %rcx,56(%rsp) # arg8, (NULL)
				1340	call *__imp_RtlVirtualUnwind(%rip)
				1341
				1342	mov \$1,%eax # ExceptionContinueSearch
				1343	add \$64,%rsp
				1344	popfq
				1345	pop %r15
				1346	pop %r14
				1347	pop %r13
				1348	pop %r12
				1349	pop %rbp
				1350	pop %rbx
				1351	pop %rdi
				1352	pop %rsi
				1353	ret
				1354	.size sqr_handler,.-sqr_handler
				1355
				1356	.section .pdata
				1357	.align 4
				1358	.rva .LSEH_begin_bn_mul_mont
				1359	.rva .LSEH_end_bn_mul_mont
				1360	.rva .LSEH_info_bn_mul_mont
				1361
				1362	.rva .LSEH_begin_bn_mul4x_mont
				1363	.rva .LSEH_end_bn_mul4x_mont
				1364	.rva .LSEH_info_bn_mul4x_mont
				1365
				1366	.rva .LSEH_begin_bn_sqr8x_mont
				1367	.rva .LSEH_end_bn_sqr8x_mont
				1368	.rva .LSEH_info_bn_sqr8x_mont
				1369	___
				1370	$code.=<<___ if ($addx);
				1371	.rva .LSEH_begin_bn_mulx4x_mont
				1372	.rva .LSEH_end_bn_mulx4x_mont
				1373	.rva .LSEH_info_bn_mulx4x_mont
				1374	___
				1375	$code.=<<___;
				1376	.section .xdata
				1377	.align 8
				1378	.LSEH_info_bn_mul_mont:
				1379	.byte 9,0,0,0
				1380	.rva mul_handler
				1381	.rva .Lmul_body,.Lmul_epilogue # HandlerData[]
				1382	.LSEH_info_bn_mul4x_mont:
				1383	.byte 9,0,0,0
				1384	.rva mul_handler
				1385	.rva .Lmul4x_body,.Lmul4x_epilogue # HandlerData[]
				1386	.LSEH_info_bn_sqr8x_mont:
				1387	.byte 9,0,0,0
				1388	.rva sqr_handler
				1389	.rva .Lsqr8x_body,.Lsqr8x_epilogue # HandlerData[]
				1390	___
				1391	$code.=<<___ if ($addx);
				1392	.LSEH_info_bn_mulx4x_mont:
				1393	.byte 9,0,0,0
				1394	.rva sqr_handler
				1395	.rva .Lmulx4x_body,.Lmulx4x_epilogue # HandlerData[]
				1396	___
				1397	}
				1398
				1399	print $code;
				1400	close STDOUT;