Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
   {src_offset = 16, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 0 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 88CD1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
 0008 7C00A000 88CD1002 00080010   VFETCH         R2.xyzw, R0.x +16b,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
   {src_offset = 16, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_SINT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 1 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 88CD1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
 0008 7C00A000 D88D1002 00080010   VFETCH         R2.xyzw, R0.x +16b,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:34 NUM:1 COMP:1 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
   {src_offset = 16, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_UINT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 2 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 88CD1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
 0008 7C00A000 988D1002 00080010   VFETCH         R2.xyzw, R0.x +16b,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:34 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 3 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 93564001 00080000   VFETCH         R1.x001, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:13 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 4 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 97561001 00080000   VFETCH         R1.xy01, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:29 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 5 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 9BD51001 00080000   VFETCH         R1.xyz1, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:47 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 6 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 988D1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:34 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[0]
  0: MOV OUT[0], IN[0]
  1: MOV OUT[1], IN[1]
  2: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = insertelement <4 x float> undef, float %0, i32 0
  %9 = insertelement <4 x float> %8, float %1, i32 1
  %10 = insertelement <4 x float> %9, float %2, i32 2
  %11 = insertelement <4 x float> %10, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %11, i32 60, i32 1)
  %12 = insertelement <4 x float> undef, float %4, i32 0
  %13 = insertelement <4 x float> %12, float %5, i32 1
  %14 = insertelement <4 x float> %13, float %6, i32 2
  %15 = insertelement <4 x float> %14, float %7, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %15, i32 0, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 8 dw -- 3 gprs -- 1 nstack -------------
shader 7 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL OUT[0], POSITION
  0: MOV OUT[0], IN[0]
  1: END
STREAMOUT
  0: MEM_STREAM0_BUF0[0..0] <- OUT[0].x
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = insertelement <4 x float> undef, float %0, i32 0
  %5 = insertelement <4 x float> %4, float %1, i32 1
  %6 = insertelement <4 x float> %5, float %2, i32 2
  %7 = insertelement <4 x float> %6, float %3, i32 3
  call void @llvm.R600.store.stream.output(<4 x float> %7, i32 0, i32 0, i32 1)
  %8 = insertelement <4 x float> undef, float %0, i32 0
  %9 = insertelement <4 x float> %8, float %1, i32 1
  %10 = insertelement <4 x float> %9, float %2, i32 2
  %11 = insertelement <4 x float> %10, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %11, i32 60, i32 1)
  call void @llvm.R600.store.dummy(i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.stream.output(<4 x float>, i32, i32, i32)

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

declare void @llvm.R600.store.dummy(i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 12 dw -- 2 gprs -- 1 nstack -------------
shader 8 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
DCL IN[0], GENERIC[0], CONSTANT
  0: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  call void @llvm.R600.store.dummy(i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.dummy(i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 4 dw -- 1 gprs -- 1 nstack -------------
shader 9 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
   {src_offset = 16, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 10 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 88CD1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
 0008 7C00A000 88CD1002 00080010   VFETCH         R2.xyzw, R0.x +16b,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
   {src_offset = 16, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_SINT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 11 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 88CD1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
 0008 7C00A000 D88D1002 00080010   VFETCH         R2.xyzw, R0.x +16b,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:34 NUM:1 COMP:1 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
   {src_offset = 16, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_UINT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 12 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 88CD1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
 0008 7C00A000 988D1002 00080010   VFETCH         R2.xyzw, R0.x +16b,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:34 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 13 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 93564001 00080000   VFETCH         R1.x001, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:13 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 14 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 97561001 00080000   VFETCH         R1.xy01, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:29 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 15 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 9BD51001 00080000   VFETCH         R1.xyz1, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:47 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 16 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 988D1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:34 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[0]
  0: MOV OUT[0], IN[0]
  1: MOV OUT[1], IN[1]
  2: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = insertelement <4 x float> undef, float %0, i32 0
  %9 = insertelement <4 x float> %8, float %1, i32 1
  %10 = insertelement <4 x float> %9, float %2, i32 2
  %11 = insertelement <4 x float> %10, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %11, i32 60, i32 1)
  %12 = insertelement <4 x float> undef, float %4, i32 0
  %13 = insertelement <4 x float> %12, float %5, i32 1
  %14 = insertelement <4 x float> %13, float %6, i32 2
  %15 = insertelement <4 x float> %14, float %7, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %15, i32 0, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 8 dw -- 3 gprs -- 1 nstack -------------
shader 17 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL OUT[0], POSITION
  0: MOV OUT[0], IN[0]
  1: END
STREAMOUT
  0: MEM_STREAM0_BUF0[0..0] <- OUT[0].x
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = insertelement <4 x float> undef, float %0, i32 0
  %5 = insertelement <4 x float> %4, float %1, i32 1
  %6 = insertelement <4 x float> %5, float %2, i32 2
  %7 = insertelement <4 x float> %6, float %3, i32 3
  call void @llvm.R600.store.stream.output(<4 x float> %7, i32 0, i32 0, i32 1)
  %8 = insertelement <4 x float> undef, float %0, i32 0
  %9 = insertelement <4 x float> %8, float %1, i32 1
  %10 = insertelement <4 x float> %9, float %2, i32 2
  %11 = insertelement <4 x float> %10, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %11, i32 60, i32 1)
  call void @llvm.R600.store.dummy(i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.stream.output(<4 x float>, i32, i32, i32)

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

declare void @llvm.R600.store.dummy(i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 12 dw -- 2 gprs -- 1 nstack -------------
shader 18 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
DCL IN[0], GENERIC[0], CONSTANT
  0: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  call void @llvm.R600.store.dummy(i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.dummy(i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 4 dw -- 1 gprs -- 1 nstack -------------
shader 19 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
   {src_offset = 16, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 20 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 88CD1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
 0008 7C00A000 88CD1002 00080010   VFETCH         R2.xyzw, R0.x +16b,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
   {src_offset = 16, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_SINT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 21 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 88CD1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
 0008 7C00A000 D88D1002 00080010   VFETCH         R2.xyzw, R0.x +16b,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:34 NUM:1 COMP:1 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
   {src_offset = 16, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_UINT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 22 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 88CD1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
 0008 7C00A000 988D1002 00080010   VFETCH         R2.xyzw, R0.x +16b,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:34 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 23 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 93564001 00080000   VFETCH         R1.x001, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:13 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 24 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 97561001 00080000   VFETCH         R1.xy01, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:29 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 25 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 9BD51001 00080000   VFETCH         R1.xyz1, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:47 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_UINT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 26 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 988D1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:34 NUM:1 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[0]
  0: MOV OUT[0], IN[0]
  1: MOV OUT[1], IN[1]
  2: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = insertelement <4 x float> undef, float %0, i32 0
  %9 = insertelement <4 x float> %8, float %1, i32 1
  %10 = insertelement <4 x float> %9, float %2, i32 2
  %11 = insertelement <4 x float> %10, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %11, i32 60, i32 1)
  %12 = insertelement <4 x float> undef, float %4, i32 0
  %13 = insertelement <4 x float> %12, float %5, i32 1
  %14 = insertelement <4 x float> %13, float %6, i32 2
  %15 = insertelement <4 x float> %14, float %7, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %15, i32 0, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 8 dw -- 3 gprs -- 1 nstack -------------
shader 27 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL OUT[0], POSITION
  0: MOV OUT[0], IN[0]
  1: END
STREAMOUT
  0: MEM_STREAM0_BUF0[0..0] <- OUT[0].x
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = insertelement <4 x float> undef, float %0, i32 0
  %5 = insertelement <4 x float> %4, float %1, i32 1
  %6 = insertelement <4 x float> %5, float %2, i32 2
  %7 = insertelement <4 x float> %6, float %3, i32 3
  call void @llvm.R600.store.stream.output(<4 x float> %7, i32 0, i32 0, i32 1)
  %8 = insertelement <4 x float> undef, float %0, i32 0
  %9 = insertelement <4 x float> %8, float %1, i32 1
  %10 = insertelement <4 x float> %9, float %2, i32 2
  %11 = insertelement <4 x float> %10, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %11, i32 60, i32 1)
  call void @llvm.R600.store.dummy(i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.stream.output(<4 x float>, i32, i32, i32)

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

declare void @llvm.R600.store.dummy(i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 12 dw -- 2 gprs -- 1 nstack -------------
shader 28 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
DCL IN[0], GENERIC[0], CONSTANT
  0: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  call void @llvm.R600.store.dummy(i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.dummy(i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 4 dw -- 1 gprs -- 1 nstack -------------
shader 29 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
PROPERTY FS_COLOR0_WRITES_ALL_CBUFS 1
DCL IN[0], COLOR, COLOR
DCL OUT[0], COLOR
  0: MOV OUT[0], IN[0]
  1: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = insertelement <4 x float> undef, float %0, i32 0
  %5 = insertelement <4 x float> %4, float %1, i32 1
  %6 = insertelement <4 x float> %5, float %2, i32 2
  %7 = insertelement <4 x float> %6, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %7, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 4 dw -- 1 gprs -- 1 nstack -------------
shader 30 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL OUT[0], POSITION
DCL OUT[1], COLOR
DCL CONST[0..3]
DCL TEMP[0]
  0: MUL TEMP[0], IN[0].xxxx, CONST[0]
  1: MAD TEMP[0], IN[0].yyyy, CONST[1], TEMP[0]
  2: MAD TEMP[0], IN[0].zzzz, CONST[2], TEMP[0]
  3: MAD OUT[0], IN[0].wwww, CONST[3], TEMP[0]
  4: MOV_SAT OUT[1], IN[1]
  5: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = load <4 x float> addrspace(8)* null
  %9 = extractelement <4 x float> %8, i32 0
  %10 = fmul float %0, %9
  %11 = load <4 x float> addrspace(8)* null
  %12 = extractelement <4 x float> %11, i32 1
  %13 = fmul float %0, %12
  %14 = load <4 x float> addrspace(8)* null
  %15 = extractelement <4 x float> %14, i32 2
  %16 = fmul float %0, %15
  %17 = load <4 x float> addrspace(8)* null
  %18 = extractelement <4 x float> %17, i32 3
  %19 = fmul float %0, %18
  %20 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %21 = extractelement <4 x float> %20, i32 0
  %22 = fmul float %1, %21
  %23 = fadd float %22, %10
  %24 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %25 = extractelement <4 x float> %24, i32 1
  %26 = fmul float %1, %25
  %27 = fadd float %26, %13
  %28 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %29 = extractelement <4 x float> %28, i32 2
  %30 = fmul float %1, %29
  %31 = fadd float %30, %16
  %32 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %33 = extractelement <4 x float> %32, i32 3
  %34 = fmul float %1, %33
  %35 = fadd float %34, %19
  %36 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %37 = extractelement <4 x float> %36, i32 0
  %38 = fmul float %2, %37
  %39 = fadd float %38, %23
  %40 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %41 = extractelement <4 x float> %40, i32 1
  %42 = fmul float %2, %41
  %43 = fadd float %42, %27
  %44 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %45 = extractelement <4 x float> %44, i32 2
  %46 = fmul float %2, %45
  %47 = fadd float %46, %31
  %48 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %49 = extractelement <4 x float> %48, i32 3
  %50 = fmul float %2, %49
  %51 = fadd float %50, %35
  %52 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %53 = extractelement <4 x float> %52, i32 0
  %54 = fmul float %3, %53
  %55 = fadd float %54, %39
  %56 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %57 = extractelement <4 x float> %56, i32 1
  %58 = fmul float %3, %57
  %59 = fadd float %58, %43
  %60 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %61 = extractelement <4 x float> %60, i32 2
  %62 = fmul float %3, %61
  %63 = fadd float %62, %47
  %64 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %65 = extractelement <4 x float> %64, i32 3
  %66 = fmul float %3, %65
  %67 = fadd float %66, %51
  %68 = call float @llvm.AMDIL.clamp.(float %4, float 0,000000e+00, float 0x3FF0000000000000)
  %69 = call float @llvm.AMDIL.clamp.(float %5, float 0,000000e+00, float 0x3FF0000000000000)
  %70 = call float @llvm.AMDIL.clamp.(float %6, float 0,000000e+00, float 0x3FF0000000000000)
  %71 = call float @llvm.AMDIL.clamp.(float %7, float 0,000000e+00, float 0x3FF0000000000000)
  %72 = insertelement <4 x float> undef, float %55, i32 0
  %73 = insertelement <4 x float> %72, float %59, i32 1
  %74 = insertelement <4 x float> %73, float %63, i32 2
  %75 = insertelement <4 x float> %74, float %67, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %75, i32 60, i32 1)
  %76 = insertelement <4 x float> undef, float %68, i32 0
  %77 = insertelement <4 x float> %76, float %69, i32 1
  %78 = insertelement <4 x float> %77, float %70, i32 2
  %79 = insertelement <4 x float> %78, float %71, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %79, i32 0, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

; Function Attrs: readnone
declare float @llvm.AMDIL.clamp.(float, float, float) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 52 dw -- 5 gprs -- 1 nstack -------------
shader 31 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
DCL IN[0], GENERIC[0], LINEAR
DCL OUT[0], COLOR
  0: MOV OUT[0], IN[0]
  1: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = insertelement <4 x float> undef, float %0, i32 0
  %5 = insertelement <4 x float> %4, float %1, i32 1
  %6 = insertelement <4 x float> %5, float %2, i32 2
  %7 = insertelement <4 x float> %6, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %7, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 4 dw -- 1 gprs -- 1 nstack -------------
shader 32 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
DCL IN[0], GENERIC[0], LINEAR
DCL OUT[0], COLOR
DCL SAMP[0]
  0: TEX OUT[0], IN[0], SAMP[0], 2D
  1: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = insertelement <4 x float> undef, float %0, i32 0
  %5 = insertelement <4 x float> %4, float %1, i32 1
  %6 = insertelement <4 x float> %5, float %2, i32 2
  %7 = insertelement <4 x float> %6, float %3, i32 3
  %8 = extractelement <4 x float> %7, i32 0
  %9 = extractelement <4 x float> %7, i32 1
  %10 = insertelement <4 x float> undef, float %8, i32 0
  %11 = insertelement <4 x float> %10, float %9, i32 1
  %12 = insertelement <4 x float> %11, float undef, i32 2
  %13 = insertelement <4 x float> %12, float undef, i32 3
  %14 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %13, i32 16, i32 0, i32 2)
  %15 = extractelement <4 x float> %14, i32 0
  %16 = extractelement <4 x float> %14, i32 1
  %17 = extractelement <4 x float> %14, i32 2
  %18 = extractelement <4 x float> %14, i32 3
  %19 = insertelement <4 x float> undef, float %15, i32 0
  %20 = insertelement <4 x float> %19, float %16, i32 1
  %21 = insertelement <4 x float> %20, float %17, i32 2
  %22 = insertelement <4 x float> %21, float %18, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %22, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

; Function Attrs: readnone
declare <4 x float> @llvm.AMDGPU.tex(<4 x float>, i32, i32, i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 12 dw -- 1 gprs -- 1 nstack -------------
shader 33 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
   {src_offset = 16, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 34 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 88CD1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
 0008 7C00A000 88CD1002 00080010   VFETCH         R2.xyzw, R0.x +16b,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
PROPERTY FS_COLOR0_WRITES_ALL_CBUFS 1
DCL IN[0], GENERIC[0], CONSTANT
DCL OUT[0], COLOR
  0: MOV OUT[0], IN[0]
  1: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = insertelement <4 x float> undef, float %0, i32 0
  %5 = insertelement <4 x float> %4, float %1, i32 1
  %6 = insertelement <4 x float> %5, float %2, i32 2
  %7 = insertelement <4 x float> %6, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %7, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 4 dw -- 1 gprs -- 1 nstack -------------
shader 35 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[0]
  0: MOV OUT[0], IN[0]
  1: MOV OUT[1], IN[1]
  2: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = insertelement <4 x float> undef, float %0, i32 0
  %9 = insertelement <4 x float> %8, float %1, i32 1
  %10 = insertelement <4 x float> %9, float %2, i32 2
  %11 = insertelement <4 x float> %10, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %11, i32 60, i32 1)
  %12 = insertelement <4 x float> undef, float %4, i32 0
  %13 = insertelement <4 x float> %12, float %5, i32 1
  %14 = insertelement <4 x float> %13, float %6, i32 2
  %15 = insertelement <4 x float> %14, float %7, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %15, i32 0, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 8 dw -- 3 gprs -- 1 nstack -------------
shader 36 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
PROPERTY FS_COLOR0_WRITES_ALL_CBUFS 1
DCL IN[0], GENERIC[19], PERSPECTIVE
DCL OUT[0], COLOR
DCL CONST[0]
DCL TEMP[0..1], LOCAL
IMM[0] FLT32 {16777216,0000, 65536,0000,   256,0000,     1,0000}
IMM[1] FLT32 {    0,0000,     0,0039,     0,0000,     0,0000}
  0: ABS TEMP[0].x, IN[0].yyyy
  1: RCP TEMP[1].x, CONST[0].xxxx
  2: MUL TEMP[0].x, TEMP[0].xxxx, TEMP[1].xxxx
  3: MUL TEMP[0], TEMP[0].xxxx, IMM[0]
  4: FRC TEMP[0], TEMP[0]
  5: MUL TEMP[1], TEMP[0].xxyz, IMM[1].xyyy
  6: ADD TEMP[0], TEMP[0], -TEMP[1]
  7: MOV OUT[0], TEMP[0]
  8: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = call float @fabs(float %1)
  %5 = load <4 x float> addrspace(8)* null
  %6 = extractelement <4 x float> %5, i32 0
  %7 = fdiv float 0x3FF0000000000000, %6
  %8 = fmul float %4, %7
  %9 = fmul float %8, 0x4170000000000000
  %10 = fmul float %8, 0x40F0000000000000
  %11 = fmul float %8, 0x4070000000000000
  %12 = fmul float %8, 0x3FF0000000000000
  %13 = call float @llvm.AMDIL.fraction.(float %9)
  %14 = call float @llvm.AMDIL.fraction.(float %10)
  %15 = call float @llvm.AMDIL.fraction.(float %11)
  %16 = call float @llvm.AMDIL.fraction.(float %12)
  %17 = fmul float %13, 0,000000e+00
  %18 = fmul float %13, 0x3F70000000000000
  %19 = fmul float %14, 0x3F70000000000000
  %20 = fmul float %15, 0x3F70000000000000
  %21 = fsub float -0,000000e+00, %17
  %22 = fadd float %13, %21
  %23 = fsub float -0,000000e+00, %18
  %24 = fadd float %14, %23
  %25 = fsub float -0,000000e+00, %19
  %26 = fadd float %15, %25
  %27 = fsub float -0,000000e+00, %20
  %28 = fadd float %16, %27
  %29 = insertelement <4 x float> undef, float %22, i32 0
  %30 = insertelement <4 x float> %29, float %24, i32 1
  %31 = insertelement <4 x float> %30, float %26, i32 2
  %32 = insertelement <4 x float> %31, float %28, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %32, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

; Function Attrs: readonly
declare float @fabs(float) #2

; Function Attrs: readnone
declare float @llvm.AMDIL.fraction.(float) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
attributes #2 = { readonly }
--------------------------------------------------------------
bytecode 40 dw -- 3 gprs -- 1 nstack -------------
shader 37 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[19]
DCL CONST[0..7]
DCL TEMP[0..1], LOCAL
  0: MUL TEMP[0], CONST[0], IN[0].xxxx
  1: MAD TEMP[0], CONST[1], IN[0].yyyy, TEMP[0]
  2: MAD TEMP[0], CONST[2], IN[0].zzzz, TEMP[0]
  3: ADD TEMP[0], TEMP[0], CONST[3]
  4: MUL TEMP[1], CONST[4], TEMP[0].xxxx
  5: MAD TEMP[1], CONST[5], TEMP[0].yyyy, TEMP[1]
  6: MAD TEMP[1], CONST[6], TEMP[0].zzzz, TEMP[1]
  7: MAD TEMP[1], CONST[7], TEMP[0].wwww, TEMP[1]
  8: MOV OUT[1], TEMP[0]
  9: MOV OUT[0], TEMP[1]
 10: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = load <4 x float> addrspace(8)* null
  %5 = extractelement <4 x float> %4, i32 0
  %6 = fmul float %5, %0
  %7 = load <4 x float> addrspace(8)* null
  %8 = extractelement <4 x float> %7, i32 1
  %9 = fmul float %8, %0
  %10 = load <4 x float> addrspace(8)* null
  %11 = extractelement <4 x float> %10, i32 2
  %12 = fmul float %11, %0
  %13 = load <4 x float> addrspace(8)* null
  %14 = extractelement <4 x float> %13, i32 3
  %15 = fmul float %14, %0
  %16 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %17 = extractelement <4 x float> %16, i32 0
  %18 = fmul float %17, %1
  %19 = fadd float %18, %6
  %20 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %21 = extractelement <4 x float> %20, i32 1
  %22 = fmul float %21, %1
  %23 = fadd float %22, %9
  %24 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %25 = extractelement <4 x float> %24, i32 2
  %26 = fmul float %25, %1
  %27 = fadd float %26, %12
  %28 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %29 = extractelement <4 x float> %28, i32 3
  %30 = fmul float %29, %1
  %31 = fadd float %30, %15
  %32 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %33 = extractelement <4 x float> %32, i32 0
  %34 = fmul float %33, %2
  %35 = fadd float %34, %19
  %36 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %37 = extractelement <4 x float> %36, i32 1
  %38 = fmul float %37, %2
  %39 = fadd float %38, %23
  %40 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %41 = extractelement <4 x float> %40, i32 2
  %42 = fmul float %41, %2
  %43 = fadd float %42, %27
  %44 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %45 = extractelement <4 x float> %44, i32 3
  %46 = fmul float %45, %2
  %47 = fadd float %46, %31
  %48 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %49 = extractelement <4 x float> %48, i32 0
  %50 = fadd float %35, %49
  %51 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %52 = extractelement <4 x float> %51, i32 1
  %53 = fadd float %39, %52
  %54 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %55 = extractelement <4 x float> %54, i32 2
  %56 = fadd float %43, %55
  %57 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %58 = extractelement <4 x float> %57, i32 3
  %59 = fadd float %47, %58
  %60 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %61 = extractelement <4 x float> %60, i32 0
  %62 = fmul float %61, %50
  %63 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %64 = extractelement <4 x float> %63, i32 1
  %65 = fmul float %64, %50
  %66 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %67 = extractelement <4 x float> %66, i32 2
  %68 = fmul float %67, %50
  %69 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %70 = extractelement <4 x float> %69, i32 3
  %71 = fmul float %70, %50
  %72 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %73 = extractelement <4 x float> %72, i32 0
  %74 = fmul float %73, %53
  %75 = fadd float %74, %62
  %76 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %77 = extractelement <4 x float> %76, i32 1
  %78 = fmul float %77, %53
  %79 = fadd float %78, %65
  %80 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %81 = extractelement <4 x float> %80, i32 2
  %82 = fmul float %81, %53
  %83 = fadd float %82, %68
  %84 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %85 = extractelement <4 x float> %84, i32 3
  %86 = fmul float %85, %53
  %87 = fadd float %86, %71
  %88 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %89 = extractelement <4 x float> %88, i32 0
  %90 = fmul float %89, %56
  %91 = fadd float %90, %75
  %92 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %93 = extractelement <4 x float> %92, i32 1
  %94 = fmul float %93, %56
  %95 = fadd float %94, %79
  %96 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %97 = extractelement <4 x float> %96, i32 2
  %98 = fmul float %97, %56
  %99 = fadd float %98, %83
  %100 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %101 = extractelement <4 x float> %100, i32 3
  %102 = fmul float %101, %56
  %103 = fadd float %102, %87
  %104 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %105 = extractelement <4 x float> %104, i32 0
  %106 = fmul float %105, %59
  %107 = fadd float %106, %91
  %108 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %109 = extractelement <4 x float> %108, i32 1
  %110 = fmul float %109, %59
  %111 = fadd float %110, %95
  %112 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %113 = extractelement <4 x float> %112, i32 2
  %114 = fmul float %113, %59
  %115 = fadd float %114, %99
  %116 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %117 = extractelement <4 x float> %116, i32 3
  %118 = fmul float %117, %59
  %119 = fadd float %118, %103
  %120 = insertelement <4 x float> undef, float %107, i32 0
  %121 = insertelement <4 x float> %120, float %111, i32 1
  %122 = insertelement <4 x float> %121, float %115, i32 2
  %123 = insertelement <4 x float> %122, float %119, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %123, i32 60, i32 1)
  %124 = insertelement <4 x float> undef, float %50, i32 0
  %125 = insertelement <4 x float> %124, float %53, i32 1
  %126 = insertelement <4 x float> %125, float %56, i32 2
  %127 = insertelement <4 x float> %126, float %59, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %127, i32 0, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 76 dw -- 4 gprs -- 1 nstack -------------
shader 38 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32_FLOAT, }
bytecode 8 dw -- 2 gprs -- 0 nstack -------------
shader 39 -- 6
0000 00000002 81000000  VTX 1 @4 
 0004 7C00A000 8C151001 00080000   VFETCH         R1.xyz1, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:48 NUM:0 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
DCL IN[0], GENERIC[0], LINEAR
DCL OUT[0], COLOR
DCL SAMP[0]
  0: TEX OUT[0], IN[0], SAMP[0], 2D
  1: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = insertelement <4 x float> undef, float %0, i32 0
  %5 = insertelement <4 x float> %4, float %1, i32 1
  %6 = insertelement <4 x float> %5, float %2, i32 2
  %7 = insertelement <4 x float> %6, float %3, i32 3
  %8 = extractelement <4 x float> %7, i32 0
  %9 = extractelement <4 x float> %7, i32 1
  %10 = insertelement <4 x float> undef, float %8, i32 0
  %11 = insertelement <4 x float> %10, float %9, i32 1
  %12 = insertelement <4 x float> %11, float undef, i32 2
  %13 = insertelement <4 x float> %12, float undef, i32 3
  %14 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %13, i32 16, i32 0, i32 2)
  %15 = extractelement <4 x float> %14, i32 0
  %16 = extractelement <4 x float> %14, i32 1
  %17 = extractelement <4 x float> %14, i32 2
  %18 = extractelement <4 x float> %14, i32 3
  %19 = insertelement <4 x float> undef, float %15, i32 0
  %20 = insertelement <4 x float> %19, float %16, i32 1
  %21 = insertelement <4 x float> %20, float %17, i32 2
  %22 = insertelement <4 x float> %21, float %18, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %22, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

; Function Attrs: readnone
declare <4 x float> @llvm.AMDGPU.tex(<4 x float>, i32, i32, i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 12 dw -- 1 gprs -- 1 nstack -------------
shader 40 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[0]
  0: MOV OUT[0], IN[0]
  1: MOV OUT[1], IN[1]
  2: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = insertelement <4 x float> undef, float %0, i32 0
  %9 = insertelement <4 x float> %8, float %1, i32 1
  %10 = insertelement <4 x float> %9, float %2, i32 2
  %11 = insertelement <4 x float> %10, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %11, i32 60, i32 1)
  %12 = insertelement <4 x float> undef, float %4, i32 0
  %13 = insertelement <4 x float> %12, float %5, i32 1
  %14 = insertelement <4 x float> %13, float %6, i32 2
  %15 = insertelement <4 x float> %14, float %7, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %15, i32 0, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 8 dw -- 3 gprs -- 1 nstack -------------
shader 41 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
PROPERTY FS_COLOR0_WRITES_ALL_CBUFS 1
DCL IN[0], GENERIC[19], PERSPECTIVE
DCL OUT[0], COLOR
DCL SAMP[0]
DCL TEMP[0], LOCAL
  0: MOV TEMP[0].xy, IN[0].xyyy
  1: TEX TEMP[0], TEMP[0], SAMP[0], 2D
  2: MOV OUT[0], TEMP[0]
  3: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = insertelement <4 x float> undef, float %0, i32 0
  %5 = insertelement <4 x float> %4, float %1, i32 1
  %6 = insertelement <4 x float> %5, float 0,000000e+00, i32 2
  %7 = insertelement <4 x float> %6, float 0,000000e+00, i32 3
  %8 = extractelement <4 x float> %7, i32 0
  %9 = extractelement <4 x float> %7, i32 1
  %10 = insertelement <4 x float> undef, float %8, i32 0
  %11 = insertelement <4 x float> %10, float %9, i32 1
  %12 = insertelement <4 x float> %11, float undef, i32 2
  %13 = insertelement <4 x float> %12, float undef, i32 3
  %14 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %13, i32 16, i32 0, i32 2)
  %15 = extractelement <4 x float> %14, i32 0
  %16 = extractelement <4 x float> %14, i32 1
  %17 = extractelement <4 x float> %14, i32 2
  %18 = extractelement <4 x float> %14, i32 3
  %19 = insertelement <4 x float> undef, float %15, i32 0
  %20 = insertelement <4 x float> %19, float %16, i32 1
  %21 = insertelement <4 x float> %20, float %17, i32 2
  %22 = insertelement <4 x float> %21, float %18, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %22, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

; Function Attrs: readnone
declare <4 x float> @llvm.AMDGPU.tex(<4 x float>, i32, i32, i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 12 dw -- 1 gprs -- 1 nstack -------------
shader 42 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[19]
DCL CONST[0..11]
DCL TEMP[0..6], LOCAL
  0: MUL TEMP[0], CONST[4], CONST[8].xxxx
  1: MAD TEMP[0], CONST[5], CONST[8].yyyy, TEMP[0]
  2: MAD TEMP[0], CONST[6], CONST[8].zzzz, TEMP[0]
  3: MAD TEMP[0], CONST[7], CONST[8].wwww, TEMP[0]
  4: MUL TEMP[1], CONST[4], CONST[9].xxxx
  5: MAD TEMP[1], CONST[5], CONST[9].yyyy, TEMP[1]
  6: MAD TEMP[1], CONST[6], CONST[9].zzzz, TEMP[1]
  7: MAD TEMP[1], CONST[7], CONST[9].wwww, TEMP[1]
  8: MUL TEMP[2], CONST[4], CONST[10].xxxx
  9: MAD TEMP[2], CONST[5], CONST[10].yyyy, TEMP[2]
 10: MAD TEMP[2], CONST[6], CONST[10].zzzz, TEMP[2]
 11: MAD TEMP[2], CONST[7], CONST[10].wwww, TEMP[2]
 12: MUL TEMP[3], CONST[4], CONST[11].xxxx
 13: MAD TEMP[3], CONST[5], CONST[11].yyyy, TEMP[3]
 14: MAD TEMP[3], CONST[6], CONST[11].zzzz, TEMP[3]
 15: MAD TEMP[3], CONST[7], CONST[11].wwww, TEMP[3]
 16: MUL TEMP[4], TEMP[0], CONST[2].xxxx
 17: MAD TEMP[4], TEMP[1], CONST[2].yyyy, TEMP[4]
 18: MAD TEMP[4], TEMP[2], CONST[2].zzzz, TEMP[4]
 19: MAD TEMP[4], TEMP[3], CONST[2].wwww, TEMP[4]
 20: MUL TEMP[5], TEMP[0], CONST[1].xxxx
 21: MAD TEMP[5], TEMP[1], CONST[1].yyyy, TEMP[5]
 22: MAD TEMP[5], TEMP[2], CONST[1].zzzz, TEMP[5]
 23: MAD TEMP[5], TEMP[3], CONST[1].wwww, TEMP[5]
 24: MUL TEMP[6], TEMP[0], CONST[0].xxxx
 25: MAD TEMP[6], TEMP[1], CONST[0].yyyy, TEMP[6]
 26: MAD TEMP[6], TEMP[2], CONST[0].zzzz, TEMP[6]
 27: MAD TEMP[6], TEMP[3], CONST[0].wwww, TEMP[6]
 28: MUL TEMP[6], TEMP[6], IN[1].xxxx
 29: MAD TEMP[5], TEMP[5], IN[1].yyyy, TEMP[6]
 30: MAD TEMP[4], TEMP[4], IN[1].zzzz, TEMP[5]
 31: MUL TEMP[0], TEMP[0], CONST[3].xxxx
 32: MAD TEMP[0], TEMP[1], CONST[3].yyyy, TEMP[0]
 33: MAD TEMP[0], TEMP[2], CONST[3].zzzz, TEMP[0]
 34: MAD TEMP[0], TEMP[3], CONST[3].wwww, TEMP[0]
 35: ADD TEMP[0], TEMP[4], TEMP[0]
 36: MOV TEMP[1].xy, IN[0].xyxx
 37: MOV OUT[0], TEMP[0]
 38: MOV OUT[1], TEMP[1]
 39: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %9 = extractelement <4 x float> %8, i32 0
  %10 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %11 = extractelement <4 x float> %10, i32 0
  %12 = fmul float %9, %11
  %13 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %14 = extractelement <4 x float> %13, i32 1
  %15 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %16 = extractelement <4 x float> %15, i32 0
  %17 = fmul float %14, %16
  %18 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %19 = extractelement <4 x float> %18, i32 2
  %20 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %21 = extractelement <4 x float> %20, i32 0
  %22 = fmul float %19, %21
  %23 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %24 = extractelement <4 x float> %23, i32 3
  %25 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %26 = extractelement <4 x float> %25, i32 0
  %27 = fmul float %24, %26
  %28 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %29 = extractelement <4 x float> %28, i32 0
  %30 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %31 = extractelement <4 x float> %30, i32 1
  %32 = fmul float %29, %31
  %33 = fadd float %32, %12
  %34 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %35 = extractelement <4 x float> %34, i32 1
  %36 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %37 = extractelement <4 x float> %36, i32 1
  %38 = fmul float %35, %37
  %39 = fadd float %38, %17
  %40 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %41 = extractelement <4 x float> %40, i32 2
  %42 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %43 = extractelement <4 x float> %42, i32 1
  %44 = fmul float %41, %43
  %45 = fadd float %44, %22
  %46 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %47 = extractelement <4 x float> %46, i32 3
  %48 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %49 = extractelement <4 x float> %48, i32 1
  %50 = fmul float %47, %49
  %51 = fadd float %50, %27
  %52 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %53 = extractelement <4 x float> %52, i32 0
  %54 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %55 = extractelement <4 x float> %54, i32 2
  %56 = fmul float %53, %55
  %57 = fadd float %56, %33
  %58 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %59 = extractelement <4 x float> %58, i32 1
  %60 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %61 = extractelement <4 x float> %60, i32 2
  %62 = fmul float %59, %61
  %63 = fadd float %62, %39
  %64 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %65 = extractelement <4 x float> %64, i32 2
  %66 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %67 = extractelement <4 x float> %66, i32 2
  %68 = fmul float %65, %67
  %69 = fadd float %68, %45
  %70 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %71 = extractelement <4 x float> %70, i32 3
  %72 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %73 = extractelement <4 x float> %72, i32 2
  %74 = fmul float %71, %73
  %75 = fadd float %74, %51
  %76 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %77 = extractelement <4 x float> %76, i32 0
  %78 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %79 = extractelement <4 x float> %78, i32 3
  %80 = fmul float %77, %79
  %81 = fadd float %80, %57
  %82 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %83 = extractelement <4 x float> %82, i32 1
  %84 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %85 = extractelement <4 x float> %84, i32 3
  %86 = fmul float %83, %85
  %87 = fadd float %86, %63
  %88 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %89 = extractelement <4 x float> %88, i32 2
  %90 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %91 = extractelement <4 x float> %90, i32 3
  %92 = fmul float %89, %91
  %93 = fadd float %92, %69
  %94 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %95 = extractelement <4 x float> %94, i32 3
  %96 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %97 = extractelement <4 x float> %96, i32 3
  %98 = fmul float %95, %97
  %99 = fadd float %98, %75
  %100 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %101 = extractelement <4 x float> %100, i32 0
  %102 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %103 = extractelement <4 x float> %102, i32 0
  %104 = fmul float %101, %103
  %105 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %106 = extractelement <4 x float> %105, i32 1
  %107 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %108 = extractelement <4 x float> %107, i32 0
  %109 = fmul float %106, %108
  %110 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %111 = extractelement <4 x float> %110, i32 2
  %112 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %113 = extractelement <4 x float> %112, i32 0
  %114 = fmul float %111, %113
  %115 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %116 = extractelement <4 x float> %115, i32 3
  %117 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %118 = extractelement <4 x float> %117, i32 0
  %119 = fmul float %116, %118
  %120 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %121 = extractelement <4 x float> %120, i32 0
  %122 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %123 = extractelement <4 x float> %122, i32 1
  %124 = fmul float %121, %123
  %125 = fadd float %124, %104
  %126 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %127 = extractelement <4 x float> %126, i32 1
  %128 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %129 = extractelement <4 x float> %128, i32 1
  %130 = fmul float %127, %129
  %131 = fadd float %130, %109
  %132 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %133 = extractelement <4 x float> %132, i32 2
  %134 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %135 = extractelement <4 x float> %134, i32 1
  %136 = fmul float %133, %135
  %137 = fadd float %136, %114
  %138 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %139 = extractelement <4 x float> %138, i32 3
  %140 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %141 = extractelement <4 x float> %140, i32 1
  %142 = fmul float %139, %141
  %143 = fadd float %142, %119
  %144 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %145 = extractelement <4 x float> %144, i32 0
  %146 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %147 = extractelement <4 x float> %146, i32 2
  %148 = fmul float %145, %147
  %149 = fadd float %148, %125
  %150 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %151 = extractelement <4 x float> %150, i32 1
  %152 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %153 = extractelement <4 x float> %152, i32 2
  %154 = fmul float %151, %153
  %155 = fadd float %154, %131
  %156 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %157 = extractelement <4 x float> %156, i32 2
  %158 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %159 = extractelement <4 x float> %158, i32 2
  %160 = fmul float %157, %159
  %161 = fadd float %160, %137
  %162 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %163 = extractelement <4 x float> %162, i32 3
  %164 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %165 = extractelement <4 x float> %164, i32 2
  %166 = fmul float %163, %165
  %167 = fadd float %166, %143
  %168 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %169 = extractelement <4 x float> %168, i32 0
  %170 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %171 = extractelement <4 x float> %170, i32 3
  %172 = fmul float %169, %171
  %173 = fadd float %172, %149
  %174 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %175 = extractelement <4 x float> %174, i32 1
  %176 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %177 = extractelement <4 x float> %176, i32 3
  %178 = fmul float %175, %177
  %179 = fadd float %178, %155
  %180 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %181 = extractelement <4 x float> %180, i32 2
  %182 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %183 = extractelement <4 x float> %182, i32 3
  %184 = fmul float %181, %183
  %185 = fadd float %184, %161
  %186 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %187 = extractelement <4 x float> %186, i32 3
  %188 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %189 = extractelement <4 x float> %188, i32 3
  %190 = fmul float %187, %189
  %191 = fadd float %190, %167
  %192 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %193 = extractelement <4 x float> %192, i32 0
  %194 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %195 = extractelement <4 x float> %194, i32 0
  %196 = fmul float %193, %195
  %197 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %198 = extractelement <4 x float> %197, i32 1
  %199 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %200 = extractelement <4 x float> %199, i32 0
  %201 = fmul float %198, %200
  %202 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %203 = extractelement <4 x float> %202, i32 2
  %204 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %205 = extractelement <4 x float> %204, i32 0
  %206 = fmul float %203, %205
  %207 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %208 = extractelement <4 x float> %207, i32 3
  %209 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %210 = extractelement <4 x float> %209, i32 0
  %211 = fmul float %208, %210
  %212 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %213 = extractelement <4 x float> %212, i32 0
  %214 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %215 = extractelement <4 x float> %214, i32 1
  %216 = fmul float %213, %215
  %217 = fadd float %216, %196
  %218 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %219 = extractelement <4 x float> %218, i32 1
  %220 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %221 = extractelement <4 x float> %220, i32 1
  %222 = fmul float %219, %221
  %223 = fadd float %222, %201
  %224 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %225 = extractelement <4 x float> %224, i32 2
  %226 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %227 = extractelement <4 x float> %226, i32 1
  %228 = fmul float %225, %227
  %229 = fadd float %228, %206
  %230 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %231 = extractelement <4 x float> %230, i32 3
  %232 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %233 = extractelement <4 x float> %232, i32 1
  %234 = fmul float %231, %233
  %235 = fadd float %234, %211
  %236 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %237 = extractelement <4 x float> %236, i32 0
  %238 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %239 = extractelement <4 x float> %238, i32 2
  %240 = fmul float %237, %239
  %241 = fadd float %240, %217
  %242 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %243 = extractelement <4 x float> %242, i32 1
  %244 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %245 = extractelement <4 x float> %244, i32 2
  %246 = fmul float %243, %245
  %247 = fadd float %246, %223
  %248 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %249 = extractelement <4 x float> %248, i32 2
  %250 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %251 = extractelement <4 x float> %250, i32 2
  %252 = fmul float %249, %251
  %253 = fadd float %252, %229
  %254 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %255 = extractelement <4 x float> %254, i32 3
  %256 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %257 = extractelement <4 x float> %256, i32 2
  %258 = fmul float %255, %257
  %259 = fadd float %258, %235
  %260 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %261 = extractelement <4 x float> %260, i32 0
  %262 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %263 = extractelement <4 x float> %262, i32 3
  %264 = fmul float %261, %263
  %265 = fadd float %264, %241
  %266 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %267 = extractelement <4 x float> %266, i32 1
  %268 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %269 = extractelement <4 x float> %268, i32 3
  %270 = fmul float %267, %269
  %271 = fadd float %270, %247
  %272 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %273 = extractelement <4 x float> %272, i32 2
  %274 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %275 = extractelement <4 x float> %274, i32 3
  %276 = fmul float %273, %275
  %277 = fadd float %276, %253
  %278 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %279 = extractelement <4 x float> %278, i32 3
  %280 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %281 = extractelement <4 x float> %280, i32 3
  %282 = fmul float %279, %281
  %283 = fadd float %282, %259
  %284 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %285 = extractelement <4 x float> %284, i32 0
  %286 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %287 = extractelement <4 x float> %286, i32 0
  %288 = fmul float %285, %287
  %289 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %290 = extractelement <4 x float> %289, i32 1
  %291 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %292 = extractelement <4 x float> %291, i32 0
  %293 = fmul float %290, %292
  %294 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %295 = extractelement <4 x float> %294, i32 2
  %296 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %297 = extractelement <4 x float> %296, i32 0
  %298 = fmul float %295, %297
  %299 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %300 = extractelement <4 x float> %299, i32 3
  %301 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %302 = extractelement <4 x float> %301, i32 0
  %303 = fmul float %300, %302
  %304 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %305 = extractelement <4 x float> %304, i32 0
  %306 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %307 = extractelement <4 x float> %306, i32 1
  %308 = fmul float %305, %307
  %309 = fadd float %308, %288
  %310 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %311 = extractelement <4 x float> %310, i32 1
  %312 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %313 = extractelement <4 x float> %312, i32 1
  %314 = fmul float %311, %313
  %315 = fadd float %314, %293
  %316 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %317 = extractelement <4 x float> %316, i32 2
  %318 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %319 = extractelement <4 x float> %318, i32 1
  %320 = fmul float %317, %319
  %321 = fadd float %320, %298
  %322 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %323 = extractelement <4 x float> %322, i32 3
  %324 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %325 = extractelement <4 x float> %324, i32 1
  %326 = fmul float %323, %325
  %327 = fadd float %326, %303
  %328 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %329 = extractelement <4 x float> %328, i32 0
  %330 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %331 = extractelement <4 x float> %330, i32 2
  %332 = fmul float %329, %331
  %333 = fadd float %332, %309
  %334 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %335 = extractelement <4 x float> %334, i32 1
  %336 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %337 = extractelement <4 x float> %336, i32 2
  %338 = fmul float %335, %337
  %339 = fadd float %338, %315
  %340 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %341 = extractelement <4 x float> %340, i32 2
  %342 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %343 = extractelement <4 x float> %342, i32 2
  %344 = fmul float %341, %343
  %345 = fadd float %344, %321
  %346 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %347 = extractelement <4 x float> %346, i32 3
  %348 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %349 = extractelement <4 x float> %348, i32 2
  %350 = fmul float %347, %349
  %351 = fadd float %350, %327
  %352 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %353 = extractelement <4 x float> %352, i32 0
  %354 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %355 = extractelement <4 x float> %354, i32 3
  %356 = fmul float %353, %355
  %357 = fadd float %356, %333
  %358 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %359 = extractelement <4 x float> %358, i32 1
  %360 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %361 = extractelement <4 x float> %360, i32 3
  %362 = fmul float %359, %361
  %363 = fadd float %362, %339
  %364 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %365 = extractelement <4 x float> %364, i32 2
  %366 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %367 = extractelement <4 x float> %366, i32 3
  %368 = fmul float %365, %367
  %369 = fadd float %368, %345
  %370 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %371 = extractelement <4 x float> %370, i32 3
  %372 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %373 = extractelement <4 x float> %372, i32 3
  %374 = fmul float %371, %373
  %375 = fadd float %374, %351
  %376 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %377 = extractelement <4 x float> %376, i32 0
  %378 = fmul float %81, %377
  %379 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %380 = extractelement <4 x float> %379, i32 0
  %381 = fmul float %87, %380
  %382 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %383 = extractelement <4 x float> %382, i32 0
  %384 = fmul float %93, %383
  %385 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %386 = extractelement <4 x float> %385, i32 0
  %387 = fmul float %99, %386
  %388 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %389 = extractelement <4 x float> %388, i32 1
  %390 = fmul float %173, %389
  %391 = fadd float %390, %378
  %392 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %393 = extractelement <4 x float> %392, i32 1
  %394 = fmul float %179, %393
  %395 = fadd float %394, %381
  %396 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %397 = extractelement <4 x float> %396, i32 1
  %398 = fmul float %185, %397
  %399 = fadd float %398, %384
  %400 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %401 = extractelement <4 x float> %400, i32 1
  %402 = fmul float %191, %401
  %403 = fadd float %402, %387
  %404 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %405 = extractelement <4 x float> %404, i32 2
  %406 = fmul float %265, %405
  %407 = fadd float %406, %391
  %408 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %409 = extractelement <4 x float> %408, i32 2
  %410 = fmul float %271, %409
  %411 = fadd float %410, %395
  %412 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %413 = extractelement <4 x float> %412, i32 2
  %414 = fmul float %277, %413
  %415 = fadd float %414, %399
  %416 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %417 = extractelement <4 x float> %416, i32 2
  %418 = fmul float %283, %417
  %419 = fadd float %418, %403
  %420 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %421 = extractelement <4 x float> %420, i32 3
  %422 = fmul float %357, %421
  %423 = fadd float %422, %407
  %424 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %425 = extractelement <4 x float> %424, i32 3
  %426 = fmul float %363, %425
  %427 = fadd float %426, %411
  %428 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %429 = extractelement <4 x float> %428, i32 3
  %430 = fmul float %369, %429
  %431 = fadd float %430, %415
  %432 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %433 = extractelement <4 x float> %432, i32 3
  %434 = fmul float %375, %433
  %435 = fadd float %434, %419
  %436 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %437 = extractelement <4 x float> %436, i32 0
  %438 = fmul float %81, %437
  %439 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %440 = extractelement <4 x float> %439, i32 0
  %441 = fmul float %87, %440
  %442 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %443 = extractelement <4 x float> %442, i32 0
  %444 = fmul float %93, %443
  %445 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %446 = extractelement <4 x float> %445, i32 0
  %447 = fmul float %99, %446
  %448 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %449 = extractelement <4 x float> %448, i32 1
  %450 = fmul float %173, %449
  %451 = fadd float %450, %438
  %452 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %453 = extractelement <4 x float> %452, i32 1
  %454 = fmul float %179, %453
  %455 = fadd float %454, %441
  %456 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %457 = extractelement <4 x float> %456, i32 1
  %458 = fmul float %185, %457
  %459 = fadd float %458, %444
  %460 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %461 = extractelement <4 x float> %460, i32 1
  %462 = fmul float %191, %461
  %463 = fadd float %462, %447
  %464 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %465 = extractelement <4 x float> %464, i32 2
  %466 = fmul float %265, %465
  %467 = fadd float %466, %451
  %468 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %469 = extractelement <4 x float> %468, i32 2
  %470 = fmul float %271, %469
  %471 = fadd float %470, %455
  %472 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %473 = extractelement <4 x float> %472, i32 2
  %474 = fmul float %277, %473
  %475 = fadd float %474, %459
  %476 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %477 = extractelement <4 x float> %476, i32 2
  %478 = fmul float %283, %477
  %479 = fadd float %478, %463
  %480 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %481 = extractelement <4 x float> %480, i32 3
  %482 = fmul float %357, %481
  %483 = fadd float %482, %467
  %484 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %485 = extractelement <4 x float> %484, i32 3
  %486 = fmul float %363, %485
  %487 = fadd float %486, %471
  %488 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %489 = extractelement <4 x float> %488, i32 3
  %490 = fmul float %369, %489
  %491 = fadd float %490, %475
  %492 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %493 = extractelement <4 x float> %492, i32 3
  %494 = fmul float %375, %493
  %495 = fadd float %494, %479
  %496 = load <4 x float> addrspace(8)* null
  %497 = extractelement <4 x float> %496, i32 0
  %498 = fmul float %81, %497
  %499 = load <4 x float> addrspace(8)* null
  %500 = extractelement <4 x float> %499, i32 0
  %501 = fmul float %87, %500
  %502 = load <4 x float> addrspace(8)* null
  %503 = extractelement <4 x float> %502, i32 0
  %504 = fmul float %93, %503
  %505 = load <4 x float> addrspace(8)* null
  %506 = extractelement <4 x float> %505, i32 0
  %507 = fmul float %99, %506
  %508 = load <4 x float> addrspace(8)* null
  %509 = extractelement <4 x float> %508, i32 1
  %510 = fmul float %173, %509
  %511 = fadd float %510, %498
  %512 = load <4 x float> addrspace(8)* null
  %513 = extractelement <4 x float> %512, i32 1
  %514 = fmul float %179, %513
  %515 = fadd float %514, %501
  %516 = load <4 x float> addrspace(8)* null
  %517 = extractelement <4 x float> %516, i32 1
  %518 = fmul float %185, %517
  %519 = fadd float %518, %504
  %520 = load <4 x float> addrspace(8)* null
  %521 = extractelement <4 x float> %520, i32 1
  %522 = fmul float %191, %521
  %523 = fadd float %522, %507
  %524 = load <4 x float> addrspace(8)* null
  %525 = extractelement <4 x float> %524, i32 2
  %526 = fmul float %265, %525
  %527 = fadd float %526, %511
  %528 = load <4 x float> addrspace(8)* null
  %529 = extractelement <4 x float> %528, i32 2
  %530 = fmul float %271, %529
  %531 = fadd float %530, %515
  %532 = load <4 x float> addrspace(8)* null
  %533 = extractelement <4 x float> %532, i32 2
  %534 = fmul float %277, %533
  %535 = fadd float %534, %519
  %536 = load <4 x float> addrspace(8)* null
  %537 = extractelement <4 x float> %536, i32 2
  %538 = fmul float %283, %537
  %539 = fadd float %538, %523
  %540 = load <4 x float> addrspace(8)* null
  %541 = extractelement <4 x float> %540, i32 3
  %542 = fmul float %357, %541
  %543 = fadd float %542, %527
  %544 = load <4 x float> addrspace(8)* null
  %545 = extractelement <4 x float> %544, i32 3
  %546 = fmul float %363, %545
  %547 = fadd float %546, %531
  %548 = load <4 x float> addrspace(8)* null
  %549 = extractelement <4 x float> %548, i32 3
  %550 = fmul float %369, %549
  %551 = fadd float %550, %535
  %552 = load <4 x float> addrspace(8)* null
  %553 = extractelement <4 x float> %552, i32 3
  %554 = fmul float %375, %553
  %555 = fadd float %554, %539
  %556 = fmul float %543, %4
  %557 = fmul float %547, %4
  %558 = fmul float %551, %4
  %559 = fmul float %555, %4
  %560 = fmul float %483, %5
  %561 = fadd float %560, %556
  %562 = fmul float %487, %5
  %563 = fadd float %562, %557
  %564 = fmul float %491, %5
  %565 = fadd float %564, %558
  %566 = fmul float %495, %5
  %567 = fadd float %566, %559
  %568 = fmul float %423, %6
  %569 = fadd float %568, %561
  %570 = fmul float %427, %6
  %571 = fadd float %570, %563
  %572 = fmul float %431, %6
  %573 = fadd float %572, %565
  %574 = fmul float %435, %6
  %575 = fadd float %574, %567
  %576 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %577 = extractelement <4 x float> %576, i32 0
  %578 = fmul float %81, %577
  %579 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %580 = extractelement <4 x float> %579, i32 0
  %581 = fmul float %87, %580
  %582 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %583 = extractelement <4 x float> %582, i32 0
  %584 = fmul float %93, %583
  %585 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %586 = extractelement <4 x float> %585, i32 0
  %587 = fmul float %99, %586
  %588 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %589 = extractelement <4 x float> %588, i32 1
  %590 = fmul float %173, %589
  %591 = fadd float %590, %578
  %592 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %593 = extractelement <4 x float> %592, i32 1
  %594 = fmul float %179, %593
  %595 = fadd float %594, %581
  %596 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %597 = extractelement <4 x float> %596, i32 1
  %598 = fmul float %185, %597
  %599 = fadd float %598, %584
  %600 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %601 = extractelement <4 x float> %600, i32 1
  %602 = fmul float %191, %601
  %603 = fadd float %602, %587
  %604 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %605 = extractelement <4 x float> %604, i32 2
  %606 = fmul float %265, %605
  %607 = fadd float %606, %591
  %608 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %609 = extractelement <4 x float> %608, i32 2
  %610 = fmul float %271, %609
  %611 = fadd float %610, %595
  %612 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %613 = extractelement <4 x float> %612, i32 2
  %614 = fmul float %277, %613
  %615 = fadd float %614, %599
  %616 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %617 = extractelement <4 x float> %616, i32 2
  %618 = fmul float %283, %617
  %619 = fadd float %618, %603
  %620 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %621 = extractelement <4 x float> %620, i32 3
  %622 = fmul float %357, %621
  %623 = fadd float %622, %607
  %624 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %625 = extractelement <4 x float> %624, i32 3
  %626 = fmul float %363, %625
  %627 = fadd float %626, %611
  %628 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %629 = extractelement <4 x float> %628, i32 3
  %630 = fmul float %369, %629
  %631 = fadd float %630, %615
  %632 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %633 = extractelement <4 x float> %632, i32 3
  %634 = fmul float %375, %633
  %635 = fadd float %634, %619
  %636 = fadd float %569, %623
  %637 = fadd float %571, %627
  %638 = fadd float %573, %631
  %639 = fadd float %575, %635
  %640 = insertelement <4 x float> undef, float %636, i32 0
  %641 = insertelement <4 x float> %640, float %637, i32 1
  %642 = insertelement <4 x float> %641, float %638, i32 2
  %643 = insertelement <4 x float> %642, float %639, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %643, i32 60, i32 1)
  %644 = insertelement <4 x float> undef, float %0, i32 0
  %645 = insertelement <4 x float> %644, float %1, i32 1
  %646 = insertelement <4 x float> %645, float %185, i32 2
  %647 = insertelement <4 x float> %646, float %191, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %647, i32 0, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 300 dw -- 10 gprs -- 1 nstack -------------
shader 43 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32_FLOAT, }
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 1, src_format = PIPE_FORMAT_R32G32B32_FLOAT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 44 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 87961001 00080000   VFETCH         R1.xy01, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:30 NUM:0 COMP:0 MODE:1)
 0008 7C00A100 8C151002 00080000   VFETCH         R2.xyz1, R0.x,  RID:161 VERTEX MFC:31 UCF:0 FMT(DTA:48 NUM:0 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
PROPERTY FS_COLOR0_WRITES_ALL_CBUFS 1
DCL IN[0], GENERIC[19], PERSPECTIVE
DCL IN[1], GENERIC[20], PERSPECTIVE
DCL IN[2], GENERIC[21], PERSPECTIVE
DCL OUT[0], COLOR
DCL SAMP[0]
DCL CONST[0..3]
DCL TEMP[0..6], LOCAL
IMM[0] FLT32 {    0,7500,     0,2500,     0,0000,     2,0000}
  0: MOV TEMP[0].z, IN[1].xxxx
  1: MOV TEMP[0].xy, IN[0].zwzz
  2: MOV TEMP[1].xy, IN[0].xyyy
  3: TEX TEMP[1], TEMP[1], SAMP[0], 2D
  4: MOV TEMP[2], CONST[3]
  5: DP3 TEMP[3].x, IN[2].xyzz, IN[2].xyzz
  6: RSQ TEMP[3].x, TEMP[3].xxxx
  7: MUL TEMP[3].xyz, IN[2].xyzz, TEMP[3].xxxx
  8: DP3 TEMP[4].x, IN[1].yzww, IN[1].yzww
  9: RSQ TEMP[4].x, TEMP[4].xxxx
 10: MUL TEMP[4].xyz, IN[1].yzww, TEMP[4].xxxx
 11: DP3 TEMP[5].x, TEMP[3].xyzz, TEMP[4].xyzz
 12: MAD TEMP[5].x, TEMP[5].xxxx, IMM[0].xxxx, IMM[0].yyyy
 13: SLT TEMP[6].x, IMM[0].zzzz, TEMP[5].xxxx
 14: F2I TEMP[6].x, -TEMP[6]
 15: UIF TEMP[6].xxxx :0
 16:   MUL TEMP[5], CONST[2], TEMP[5].xxxx
 17:   MAD TEMP[2], TEMP[5], IMM[0].wwww, CONST[3]
 18:   MOV TEMP[4].xyz, -TEMP[4].xyzx
 19:   DP3 TEMP[5].x, TEMP[3].xyzz, TEMP[4].xyzz
 20:   MUL TEMP[3].xyz, TEMP[5].xxxx, TEMP[3].xyzz
 21:   MUL TEMP[3].xyz, IMM[0].wwww, TEMP[3].xyzz
 22:   ADD TEMP[3].xyz, TEMP[4].xyzz, -TEMP[3].xyzz
 23:   DP3 TEMP[4].x, TEMP[0].xyzz, TEMP[0].xyzz
 24:   RSQ TEMP[4].x, TEMP[4].xxxx
 25:   MUL TEMP[0].xyz, TEMP[0].xyzz, TEMP[4].xxxx
 26:   DP3_SAT TEMP[0].x, TEMP[3].xyzz, TEMP[0].xyzz
 27:   POW TEMP[0].x, TEMP[0].xxxx, CONST[0].xxxx
 28:   MAD TEMP[2].xyz, CONST[1], TEMP[0].xxxx, TEMP[2]
 29: ENDIF
 30: MUL TEMP[0].xyz, TEMP[1].xyzz, TEMP[2].xyzz
 31: MOV TEMP[0].w, TEMP[1].wwww
 32: MOV OUT[0], TEMP[0]
 33: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = call float @llvm.R600.load.input(i32 4)
  %5 = call float @llvm.R600.load.input(i32 5)
  %6 = call float @llvm.R600.load.input(i32 6)
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = call float @llvm.R600.load.input(i32 8)
  %9 = call float @llvm.R600.load.input(i32 9)
  %10 = call float @llvm.R600.load.input(i32 10)
  %11 = call float @llvm.R600.load.input(i32 11)
  %12 = insertelement <4 x float> undef, float %0, i32 0
  %13 = insertelement <4 x float> %12, float %1, i32 1
  %14 = insertelement <4 x float> %13, float 0,000000e+00, i32 2
  %15 = insertelement <4 x float> %14, float 0,000000e+00, i32 3
  %16 = extractelement <4 x float> %15, i32 0
  %17 = extractelement <4 x float> %15, i32 1
  %18 = insertelement <4 x float> undef, float %16, i32 0
  %19 = insertelement <4 x float> %18, float %17, i32 1
  %20 = insertelement <4 x float> %19, float undef, i32 2
  %21 = insertelement <4 x float> %20, float undef, i32 3
  %22 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %21, i32 16, i32 0, i32 2)
  %23 = extractelement <4 x float> %22, i32 0
  %24 = extractelement <4 x float> %22, i32 1
  %25 = extractelement <4 x float> %22, i32 2
  %26 = extractelement <4 x float> %22, i32 3
  %27 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %28 = extractelement <4 x float> %27, i32 0
  %29 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %30 = extractelement <4 x float> %29, i32 1
  %31 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %32 = extractelement <4 x float> %31, i32 2
  %33 = insertelement <4 x float> undef, float %8, i32 0
  %34 = insertelement <4 x float> %33, float %9, i32 1
  %35 = insertelement <4 x float> %34, float %10, i32 2
  %36 = insertelement <4 x float> %35, float 0,000000e+00, i32 3
  %37 = insertelement <4 x float> undef, float %8, i32 0
  %38 = insertelement <4 x float> %37, float %9, i32 1
  %39 = insertelement <4 x float> %38, float %10, i32 2
  %40 = insertelement <4 x float> %39, float 0,000000e+00, i32 3
  %41 = call float @llvm.AMDGPU.dp4(<4 x float> %36, <4 x float> %40)
  %42 = call float @fabs(float %41)
  %43 = call float @llvm.AMDGPU.rsq(float %42)
  %44 = fmul float %8, %43
  %45 = fmul float %9, %43
  %46 = fmul float %10, %43
  %47 = insertelement <4 x float> undef, float %5, i32 0
  %48 = insertelement <4 x float> %47, float %6, i32 1
  %49 = insertelement <4 x float> %48, float %7, i32 2
  %50 = insertelement <4 x float> %49, float 0,000000e+00, i32 3
  %51 = insertelement <4 x float> undef, float %5, i32 0
  %52 = insertelement <4 x float> %51, float %6, i32 1
  %53 = insertelement <4 x float> %52, float %7, i32 2
  %54 = insertelement <4 x float> %53, float 0,000000e+00, i32 3
  %55 = call float @llvm.AMDGPU.dp4(<4 x float> %50, <4 x float> %54)
  %56 = call float @fabs(float %55)
  %57 = call float @llvm.AMDGPU.rsq(float %56)
  %58 = fmul float %5, %57
  %59 = fmul float %6, %57
  %60 = fmul float %7, %57
  %61 = insertelement <4 x float> undef, float %44, i32 0
  %62 = insertelement <4 x float> %61, float %45, i32 1
  %63 = insertelement <4 x float> %62, float %46, i32 2
  %64 = insertelement <4 x float> %63, float 0,000000e+00, i32 3
  %65 = insertelement <4 x float> undef, float %58, i32 0
  %66 = insertelement <4 x float> %65, float %59, i32 1
  %67 = insertelement <4 x float> %66, float %60, i32 2
  %68 = insertelement <4 x float> %67, float 0,000000e+00, i32 3
  %69 = call float @llvm.AMDGPU.dp4(<4 x float> %64, <4 x float> %68)
  %70 = fmul float %69, 0x3FE8000000000000
  %71 = fadd float %70, 0x3FD0000000000000
  %72 = fcmp ult float 0,000000e+00, %71
  %73 = select i1 %72, float 0x3FF0000000000000, float 0,000000e+00
  %74 = fsub float -0,000000e+00, %73
  %75 = fptosi float %74 to i32
  %76 = bitcast i32 %75 to float
  %77 = bitcast float %76 to i32
  %78 = icmp ne i32 %77, 0
  br i1 %78, label %IF, label %ENDIF

IF:                                               ; preds = %main_body
  %79 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %80 = extractelement <4 x float> %79, i32 0
  %81 = fmul float %80, %71
  %82 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %83 = extractelement <4 x float> %82, i32 1
  %84 = fmul float %83, %71
  %85 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %86 = extractelement <4 x float> %85, i32 2
  %87 = fmul float %86, %71
  %88 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %89 = extractelement <4 x float> %88, i32 0
  %90 = fmul float %81, 0x4000000000000000
  %91 = fadd float %90, %89
  %92 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %93 = extractelement <4 x float> %92, i32 1
  %94 = fmul float %84, 0x4000000000000000
  %95 = fadd float %94, %93
  %96 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %97 = extractelement <4 x float> %96, i32 2
  %98 = fmul float %87, 0x4000000000000000
  %99 = fadd float %98, %97
  %100 = fsub float -0,000000e+00, %58
  %101 = fsub float -0,000000e+00, %59
  %102 = fsub float -0,000000e+00, %60
  %103 = insertelement <4 x float> undef, float %44, i32 0
  %104 = insertelement <4 x float> %103, float %45, i32 1
  %105 = insertelement <4 x float> %104, float %46, i32 2
  %106 = insertelement <4 x float> %105, float 0,000000e+00, i32 3
  %107 = insertelement <4 x float> undef, float %100, i32 0
  %108 = insertelement <4 x float> %107, float %101, i32 1
  %109 = insertelement <4 x float> %108, float %102, i32 2
  %110 = insertelement <4 x float> %109, float 0,000000e+00, i32 3
  %111 = call float @llvm.AMDGPU.dp4(<4 x float> %106, <4 x float> %110)
  %112 = fmul float %111, %44
  %113 = fmul float %111, %45
  %114 = fmul float %111, %46
  %115 = fmul float 0x4000000000000000, %112
  %116 = fmul float 0x4000000000000000, %113
  %117 = fmul float 0x4000000000000000, %114
  %118 = fsub float -0,000000e+00, %115
  %119 = fadd float %100, %118
  %120 = fsub float -0,000000e+00, %116
  %121 = fadd float %101, %120
  %122 = fsub float -0,000000e+00, %117
  %123 = fadd float %102, %122
  %124 = insertelement <4 x float> undef, float %2, i32 0
  %125 = insertelement <4 x float> %124, float %3, i32 1
  %126 = insertelement <4 x float> %125, float %4, i32 2
  %127 = insertelement <4 x float> %126, float 0,000000e+00, i32 3
  %128 = insertelement <4 x float> undef, float %2, i32 0
  %129 = insertelement <4 x float> %128, float %3, i32 1
  %130 = insertelement <4 x float> %129, float %4, i32 2
  %131 = insertelement <4 x float> %130, float 0,000000e+00, i32 3
  %132 = call float @llvm.AMDGPU.dp4(<4 x float> %127, <4 x float> %131)
  %133 = call float @fabs(float %132)
  %134 = call float @llvm.AMDGPU.rsq(float %133)
  %135 = fmul float %2, %134
  %136 = fmul float %3, %134
  %137 = fmul float %4, %134
  %138 = insertelement <4 x float> undef, float %119, i32 0
  %139 = insertelement <4 x float> %138, float %121, i32 1
  %140 = insertelement <4 x float> %139, float %123, i32 2
  %141 = insertelement <4 x float> %140, float 0,000000e+00, i32 3
  %142 = insertelement <4 x float> undef, float %135, i32 0
  %143 = insertelement <4 x float> %142, float %136, i32 1
  %144 = insertelement <4 x float> %143, float %137, i32 2
  %145 = insertelement <4 x float> %144, float 0,000000e+00, i32 3
  %146 = call float @llvm.AMDGPU.dp4(<4 x float> %141, <4 x float> %145)
  %147 = call float @llvm.AMDIL.clamp.(float %146, float 0,000000e+00, float 0x3FF0000000000000)
  %148 = load <4 x float> addrspace(8)* null
  %149 = extractelement <4 x float> %148, i32 0
  %150 = call float @llvm.pow.f32(float %147, float %149)
  %151 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %152 = extractelement <4 x float> %151, i32 0
  %153 = fmul float %152, %150
  %154 = fadd float %153, %91
  %155 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %156 = extractelement <4 x float> %155, i32 1
  %157 = fmul float %156, %150
  %158 = fadd float %157, %95
  %159 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %160 = extractelement <4 x float> %159, i32 2
  %161 = fmul float %160, %150
  %162 = fadd float %161, %99
  br label %ENDIF

ENDIF:                                            ; preds = %main_body, %IF
  %temp8.0 = phi float [ %154, %IF ], [ %28, %main_body ]
  %temp9.0 = phi float [ %158, %IF ], [ %30, %main_body ]
  %temp10.0 = phi float [ %162, %IF ], [ %32, %main_body ]
  %163 = fmul float %23, %temp8.0
  %164 = fmul float %24, %temp9.0
  %165 = fmul float %25, %temp10.0
  %166 = insertelement <4 x float> undef, float %163, i32 0
  %167 = insertelement <4 x float> %166, float %164, i32 1
  %168 = insertelement <4 x float> %167, float %165, i32 2
  %169 = insertelement <4 x float> %168, float %26, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %169, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

; Function Attrs: readnone
declare <4 x float> @llvm.AMDGPU.tex(<4 x float>, i32, i32, i32) #1

; Function Attrs: readnone
declare float @llvm.AMDGPU.dp4(<4 x float>, <4 x float>) #1

; Function Attrs: readonly
declare float @fabs(float) #2

; Function Attrs: readnone
declare float @llvm.AMDGPU.rsq(float) #1

; Function Attrs: readnone
declare float @llvm.AMDIL.clamp.(float, float, float) #1

; Function Attrs: nounwind readonly
declare float @llvm.pow.f32(float, float) #3

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
attributes #2 = { readonly }
attributes #3 = { nounwind readonly }
--------------------------------------------------------------
bytecode 210 dw -- 9 gprs -- 1 nstack -------------
shader 45 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL IN[2]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[19]
DCL OUT[2], GENERIC[20]
DCL OUT[3], GENERIC[21]
DCL CONST[0..13]
DCL TEMP[0..4], LOCAL
  0: MUL TEMP[0], CONST[2], IN[2].xxxx
  1: MAD TEMP[0], CONST[3], IN[2].yyyy, TEMP[0]
  2: MAD TEMP[0], CONST[4], IN[2].zzzz, TEMP[0]
  3: ADD TEMP[0], TEMP[0], CONST[5]
  4: MUL TEMP[1], CONST[6], CONST[13].xxxx
  5: MAD TEMP[1], CONST[7], CONST[13].yyyy, TEMP[1]
  6: MAD TEMP[1], CONST[8], CONST[13].zzzz, TEMP[1]
  7: MAD TEMP[1], CONST[9], CONST[13].wwww, TEMP[1]
  8: MUL TEMP[2], CONST[6], CONST[12].xxxx
  9: MAD TEMP[2], CONST[7], CONST[12].yyyy, TEMP[2]
 10: MAD TEMP[2], CONST[8], CONST[12].zzzz, TEMP[2]
 11: MAD TEMP[2], CONST[9], CONST[12].wwww, TEMP[2]
 12: MUL TEMP[3], CONST[6], CONST[11].xxxx
 13: MAD TEMP[3], CONST[7], CONST[11].yyyy, TEMP[3]
 14: MAD TEMP[3], CONST[8], CONST[11].zzzz, TEMP[3]
 15: MAD TEMP[3], CONST[9], CONST[11].wwww, TEMP[3]
 16: MUL TEMP[4], CONST[6], CONST[10].xxxx
 17: MAD TEMP[4], CONST[7], CONST[10].yyyy, TEMP[4]
 18: MAD TEMP[4], CONST[8], CONST[10].zzzz, TEMP[4]
 19: MAD TEMP[4], CONST[9], CONST[10].wwww, TEMP[4]
 20: MUL TEMP[4], TEMP[4], TEMP[0].xxxx
 21: MAD TEMP[3], TEMP[3], TEMP[0].yyyy, TEMP[4]
 22: MAD TEMP[2], TEMP[2], TEMP[0].zzzz, TEMP[3]
 23: MAD TEMP[1], TEMP[1], TEMP[0].wwww, TEMP[2]
 24: ADD TEMP[0].xyz, CONST[1].xyzz, -TEMP[0].xyzz
 25: MOV TEMP[2].xy, IN[0].xyxx
 26: MOV TEMP[2].zw, TEMP[0].yyxy
 27: MOV TEMP[0].x, TEMP[0].zzzz
 28: MOV TEMP[0].yzw, CONST[0].yxyz
 29: MUL TEMP[3], CONST[2], IN[1].xxxx
 30: MAD TEMP[3], CONST[3], IN[1].yyyy, TEMP[3]
 31: MAD TEMP[3].xyz, CONST[4], IN[1].zzzz, TEMP[3]
 32: MOV TEMP[3].xyz, TEMP[3].xyzx
 33: MOV OUT[3], TEMP[3]
 34: MOV OUT[2], TEMP[0]
 35: MOV OUT[1], TEMP[2]
 36: MOV OUT[0], TEMP[1]
 37: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = call float @llvm.R600.load.input(i32 12)
  %9 = call float @llvm.R600.load.input(i32 13)
  %10 = call float @llvm.R600.load.input(i32 14)
  %11 = call float @llvm.R600.load.input(i32 15)
  %12 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %13 = extractelement <4 x float> %12, i32 0
  %14 = fmul float %13, %8
  %15 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %16 = extractelement <4 x float> %15, i32 1
  %17 = fmul float %16, %8
  %18 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %19 = extractelement <4 x float> %18, i32 2
  %20 = fmul float %19, %8
  %21 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %22 = extractelement <4 x float> %21, i32 3
  %23 = fmul float %22, %8
  %24 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %25 = extractelement <4 x float> %24, i32 0
  %26 = fmul float %25, %9
  %27 = fadd float %26, %14
  %28 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %29 = extractelement <4 x float> %28, i32 1
  %30 = fmul float %29, %9
  %31 = fadd float %30, %17
  %32 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %33 = extractelement <4 x float> %32, i32 2
  %34 = fmul float %33, %9
  %35 = fadd float %34, %20
  %36 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %37 = extractelement <4 x float> %36, i32 3
  %38 = fmul float %37, %9
  %39 = fadd float %38, %23
  %40 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %41 = extractelement <4 x float> %40, i32 0
  %42 = fmul float %41, %10
  %43 = fadd float %42, %27
  %44 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %45 = extractelement <4 x float> %44, i32 1
  %46 = fmul float %45, %10
  %47 = fadd float %46, %31
  %48 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %49 = extractelement <4 x float> %48, i32 2
  %50 = fmul float %49, %10
  %51 = fadd float %50, %35
  %52 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %53 = extractelement <4 x float> %52, i32 3
  %54 = fmul float %53, %10
  %55 = fadd float %54, %39
  %56 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %57 = extractelement <4 x float> %56, i32 0
  %58 = fadd float %43, %57
  %59 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %60 = extractelement <4 x float> %59, i32 1
  %61 = fadd float %47, %60
  %62 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %63 = extractelement <4 x float> %62, i32 2
  %64 = fadd float %51, %63
  %65 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %66 = extractelement <4 x float> %65, i32 3
  %67 = fadd float %55, %66
  %68 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %69 = extractelement <4 x float> %68, i32 0
  %70 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %71 = extractelement <4 x float> %70, i32 0
  %72 = fmul float %69, %71
  %73 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %74 = extractelement <4 x float> %73, i32 1
  %75 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %76 = extractelement <4 x float> %75, i32 0
  %77 = fmul float %74, %76
  %78 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %79 = extractelement <4 x float> %78, i32 2
  %80 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %81 = extractelement <4 x float> %80, i32 0
  %82 = fmul float %79, %81
  %83 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %84 = extractelement <4 x float> %83, i32 3
  %85 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %86 = extractelement <4 x float> %85, i32 0
  %87 = fmul float %84, %86
  %88 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %89 = extractelement <4 x float> %88, i32 0
  %90 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %91 = extractelement <4 x float> %90, i32 1
  %92 = fmul float %89, %91
  %93 = fadd float %92, %72
  %94 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %95 = extractelement <4 x float> %94, i32 1
  %96 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %97 = extractelement <4 x float> %96, i32 1
  %98 = fmul float %95, %97
  %99 = fadd float %98, %77
  %100 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %101 = extractelement <4 x float> %100, i32 2
  %102 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %103 = extractelement <4 x float> %102, i32 1
  %104 = fmul float %101, %103
  %105 = fadd float %104, %82
  %106 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %107 = extractelement <4 x float> %106, i32 3
  %108 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %109 = extractelement <4 x float> %108, i32 1
  %110 = fmul float %107, %109
  %111 = fadd float %110, %87
  %112 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %113 = extractelement <4 x float> %112, i32 0
  %114 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %115 = extractelement <4 x float> %114, i32 2
  %116 = fmul float %113, %115
  %117 = fadd float %116, %93
  %118 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %119 = extractelement <4 x float> %118, i32 1
  %120 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %121 = extractelement <4 x float> %120, i32 2
  %122 = fmul float %119, %121
  %123 = fadd float %122, %99
  %124 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %125 = extractelement <4 x float> %124, i32 2
  %126 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %127 = extractelement <4 x float> %126, i32 2
  %128 = fmul float %125, %127
  %129 = fadd float %128, %105
  %130 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %131 = extractelement <4 x float> %130, i32 3
  %132 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %133 = extractelement <4 x float> %132, i32 2
  %134 = fmul float %131, %133
  %135 = fadd float %134, %111
  %136 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %137 = extractelement <4 x float> %136, i32 0
  %138 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %139 = extractelement <4 x float> %138, i32 3
  %140 = fmul float %137, %139
  %141 = fadd float %140, %117
  %142 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %143 = extractelement <4 x float> %142, i32 1
  %144 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %145 = extractelement <4 x float> %144, i32 3
  %146 = fmul float %143, %145
  %147 = fadd float %146, %123
  %148 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %149 = extractelement <4 x float> %148, i32 2
  %150 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %151 = extractelement <4 x float> %150, i32 3
  %152 = fmul float %149, %151
  %153 = fadd float %152, %129
  %154 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %155 = extractelement <4 x float> %154, i32 3
  %156 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %157 = extractelement <4 x float> %156, i32 3
  %158 = fmul float %155, %157
  %159 = fadd float %158, %135
  %160 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %161 = extractelement <4 x float> %160, i32 0
  %162 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %163 = extractelement <4 x float> %162, i32 0
  %164 = fmul float %161, %163
  %165 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %166 = extractelement <4 x float> %165, i32 1
  %167 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %168 = extractelement <4 x float> %167, i32 0
  %169 = fmul float %166, %168
  %170 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %171 = extractelement <4 x float> %170, i32 2
  %172 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %173 = extractelement <4 x float> %172, i32 0
  %174 = fmul float %171, %173
  %175 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %176 = extractelement <4 x float> %175, i32 3
  %177 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %178 = extractelement <4 x float> %177, i32 0
  %179 = fmul float %176, %178
  %180 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %181 = extractelement <4 x float> %180, i32 0
  %182 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %183 = extractelement <4 x float> %182, i32 1
  %184 = fmul float %181, %183
  %185 = fadd float %184, %164
  %186 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %187 = extractelement <4 x float> %186, i32 1
  %188 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %189 = extractelement <4 x float> %188, i32 1
  %190 = fmul float %187, %189
  %191 = fadd float %190, %169
  %192 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %193 = extractelement <4 x float> %192, i32 2
  %194 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %195 = extractelement <4 x float> %194, i32 1
  %196 = fmul float %193, %195
  %197 = fadd float %196, %174
  %198 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %199 = extractelement <4 x float> %198, i32 3
  %200 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %201 = extractelement <4 x float> %200, i32 1
  %202 = fmul float %199, %201
  %203 = fadd float %202, %179
  %204 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %205 = extractelement <4 x float> %204, i32 0
  %206 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %207 = extractelement <4 x float> %206, i32 2
  %208 = fmul float %205, %207
  %209 = fadd float %208, %185
  %210 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %211 = extractelement <4 x float> %210, i32 1
  %212 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %213 = extractelement <4 x float> %212, i32 2
  %214 = fmul float %211, %213
  %215 = fadd float %214, %191
  %216 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %217 = extractelement <4 x float> %216, i32 2
  %218 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %219 = extractelement <4 x float> %218, i32 2
  %220 = fmul float %217, %219
  %221 = fadd float %220, %197
  %222 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %223 = extractelement <4 x float> %222, i32 3
  %224 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %225 = extractelement <4 x float> %224, i32 2
  %226 = fmul float %223, %225
  %227 = fadd float %226, %203
  %228 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %229 = extractelement <4 x float> %228, i32 0
  %230 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %231 = extractelement <4 x float> %230, i32 3
  %232 = fmul float %229, %231
  %233 = fadd float %232, %209
  %234 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %235 = extractelement <4 x float> %234, i32 1
  %236 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %237 = extractelement <4 x float> %236, i32 3
  %238 = fmul float %235, %237
  %239 = fadd float %238, %215
  %240 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %241 = extractelement <4 x float> %240, i32 2
  %242 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %243 = extractelement <4 x float> %242, i32 3
  %244 = fmul float %241, %243
  %245 = fadd float %244, %221
  %246 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %247 = extractelement <4 x float> %246, i32 3
  %248 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %249 = extractelement <4 x float> %248, i32 3
  %250 = fmul float %247, %249
  %251 = fadd float %250, %227
  %252 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %253 = extractelement <4 x float> %252, i32 0
  %254 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %255 = extractelement <4 x float> %254, i32 0
  %256 = fmul float %253, %255
  %257 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %258 = extractelement <4 x float> %257, i32 1
  %259 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %260 = extractelement <4 x float> %259, i32 0
  %261 = fmul float %258, %260
  %262 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %263 = extractelement <4 x float> %262, i32 2
  %264 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %265 = extractelement <4 x float> %264, i32 0
  %266 = fmul float %263, %265
  %267 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %268 = extractelement <4 x float> %267, i32 3
  %269 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %270 = extractelement <4 x float> %269, i32 0
  %271 = fmul float %268, %270
  %272 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %273 = extractelement <4 x float> %272, i32 0
  %274 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %275 = extractelement <4 x float> %274, i32 1
  %276 = fmul float %273, %275
  %277 = fadd float %276, %256
  %278 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %279 = extractelement <4 x float> %278, i32 1
  %280 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %281 = extractelement <4 x float> %280, i32 1
  %282 = fmul float %279, %281
  %283 = fadd float %282, %261
  %284 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %285 = extractelement <4 x float> %284, i32 2
  %286 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %287 = extractelement <4 x float> %286, i32 1
  %288 = fmul float %285, %287
  %289 = fadd float %288, %266
  %290 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %291 = extractelement <4 x float> %290, i32 3
  %292 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %293 = extractelement <4 x float> %292, i32 1
  %294 = fmul float %291, %293
  %295 = fadd float %294, %271
  %296 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %297 = extractelement <4 x float> %296, i32 0
  %298 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %299 = extractelement <4 x float> %298, i32 2
  %300 = fmul float %297, %299
  %301 = fadd float %300, %277
  %302 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %303 = extractelement <4 x float> %302, i32 1
  %304 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %305 = extractelement <4 x float> %304, i32 2
  %306 = fmul float %303, %305
  %307 = fadd float %306, %283
  %308 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %309 = extractelement <4 x float> %308, i32 2
  %310 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %311 = extractelement <4 x float> %310, i32 2
  %312 = fmul float %309, %311
  %313 = fadd float %312, %289
  %314 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %315 = extractelement <4 x float> %314, i32 3
  %316 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %317 = extractelement <4 x float> %316, i32 2
  %318 = fmul float %315, %317
  %319 = fadd float %318, %295
  %320 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %321 = extractelement <4 x float> %320, i32 0
  %322 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %323 = extractelement <4 x float> %322, i32 3
  %324 = fmul float %321, %323
  %325 = fadd float %324, %301
  %326 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %327 = extractelement <4 x float> %326, i32 1
  %328 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %329 = extractelement <4 x float> %328, i32 3
  %330 = fmul float %327, %329
  %331 = fadd float %330, %307
  %332 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %333 = extractelement <4 x float> %332, i32 2
  %334 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %335 = extractelement <4 x float> %334, i32 3
  %336 = fmul float %333, %335
  %337 = fadd float %336, %313
  %338 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %339 = extractelement <4 x float> %338, i32 3
  %340 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %341 = extractelement <4 x float> %340, i32 3
  %342 = fmul float %339, %341
  %343 = fadd float %342, %319
  %344 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %345 = extractelement <4 x float> %344, i32 0
  %346 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %347 = extractelement <4 x float> %346, i32 0
  %348 = fmul float %345, %347
  %349 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %350 = extractelement <4 x float> %349, i32 1
  %351 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %352 = extractelement <4 x float> %351, i32 0
  %353 = fmul float %350, %352
  %354 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %355 = extractelement <4 x float> %354, i32 2
  %356 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %357 = extractelement <4 x float> %356, i32 0
  %358 = fmul float %355, %357
  %359 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %360 = extractelement <4 x float> %359, i32 3
  %361 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %362 = extractelement <4 x float> %361, i32 0
  %363 = fmul float %360, %362
  %364 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %365 = extractelement <4 x float> %364, i32 0
  %366 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %367 = extractelement <4 x float> %366, i32 1
  %368 = fmul float %365, %367
  %369 = fadd float %368, %348
  %370 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %371 = extractelement <4 x float> %370, i32 1
  %372 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %373 = extractelement <4 x float> %372, i32 1
  %374 = fmul float %371, %373
  %375 = fadd float %374, %353
  %376 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %377 = extractelement <4 x float> %376, i32 2
  %378 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %379 = extractelement <4 x float> %378, i32 1
  %380 = fmul float %377, %379
  %381 = fadd float %380, %358
  %382 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %383 = extractelement <4 x float> %382, i32 3
  %384 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %385 = extractelement <4 x float> %384, i32 1
  %386 = fmul float %383, %385
  %387 = fadd float %386, %363
  %388 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %389 = extractelement <4 x float> %388, i32 0
  %390 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %391 = extractelement <4 x float> %390, i32 2
  %392 = fmul float %389, %391
  %393 = fadd float %392, %369
  %394 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %395 = extractelement <4 x float> %394, i32 1
  %396 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %397 = extractelement <4 x float> %396, i32 2
  %398 = fmul float %395, %397
  %399 = fadd float %398, %375
  %400 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %401 = extractelement <4 x float> %400, i32 2
  %402 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %403 = extractelement <4 x float> %402, i32 2
  %404 = fmul float %401, %403
  %405 = fadd float %404, %381
  %406 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %407 = extractelement <4 x float> %406, i32 3
  %408 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %409 = extractelement <4 x float> %408, i32 2
  %410 = fmul float %407, %409
  %411 = fadd float %410, %387
  %412 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %413 = extractelement <4 x float> %412, i32 0
  %414 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %415 = extractelement <4 x float> %414, i32 3
  %416 = fmul float %413, %415
  %417 = fadd float %416, %393
  %418 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %419 = extractelement <4 x float> %418, i32 1
  %420 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %421 = extractelement <4 x float> %420, i32 3
  %422 = fmul float %419, %421
  %423 = fadd float %422, %399
  %424 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %425 = extractelement <4 x float> %424, i32 2
  %426 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %427 = extractelement <4 x float> %426, i32 3
  %428 = fmul float %425, %427
  %429 = fadd float %428, %405
  %430 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %431 = extractelement <4 x float> %430, i32 3
  %432 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %433 = extractelement <4 x float> %432, i32 3
  %434 = fmul float %431, %433
  %435 = fadd float %434, %411
  %436 = fmul float %417, %58
  %437 = fmul float %423, %58
  %438 = fmul float %429, %58
  %439 = fmul float %435, %58
  %440 = fmul float %325, %61
  %441 = fadd float %440, %436
  %442 = fmul float %331, %61
  %443 = fadd float %442, %437
  %444 = fmul float %337, %61
  %445 = fadd float %444, %438
  %446 = fmul float %343, %61
  %447 = fadd float %446, %439
  %448 = fmul float %233, %64
  %449 = fadd float %448, %441
  %450 = fmul float %239, %64
  %451 = fadd float %450, %443
  %452 = fmul float %245, %64
  %453 = fadd float %452, %445
  %454 = fmul float %251, %64
  %455 = fadd float %454, %447
  %456 = fmul float %141, %67
  %457 = fadd float %456, %449
  %458 = fmul float %147, %67
  %459 = fadd float %458, %451
  %460 = fmul float %153, %67
  %461 = fadd float %460, %453
  %462 = fmul float %159, %67
  %463 = fadd float %462, %455
  %464 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %465 = extractelement <4 x float> %464, i32 0
  %466 = fsub float -0,000000e+00, %58
  %467 = fadd float %465, %466
  %468 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %469 = extractelement <4 x float> %468, i32 1
  %470 = fsub float -0,000000e+00, %61
  %471 = fadd float %469, %470
  %472 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %473 = extractelement <4 x float> %472, i32 2
  %474 = fsub float -0,000000e+00, %64
  %475 = fadd float %473, %474
  %476 = load <4 x float> addrspace(8)* null
  %477 = extractelement <4 x float> %476, i32 0
  %478 = load <4 x float> addrspace(8)* null
  %479 = extractelement <4 x float> %478, i32 1
  %480 = load <4 x float> addrspace(8)* null
  %481 = extractelement <4 x float> %480, i32 2
  %482 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %483 = extractelement <4 x float> %482, i32 0
  %484 = fmul float %483, %4
  %485 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %486 = extractelement <4 x float> %485, i32 1
  %487 = fmul float %486, %4
  %488 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %489 = extractelement <4 x float> %488, i32 2
  %490 = fmul float %489, %4
  %491 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %492 = extractelement <4 x float> %491, i32 3
  %493 = fmul float %492, %4
  %494 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %495 = extractelement <4 x float> %494, i32 0
  %496 = fmul float %495, %5
  %497 = fadd float %496, %484
  %498 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %499 = extractelement <4 x float> %498, i32 1
  %500 = fmul float %499, %5
  %501 = fadd float %500, %487
  %502 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %503 = extractelement <4 x float> %502, i32 2
  %504 = fmul float %503, %5
  %505 = fadd float %504, %490
  %506 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %507 = extractelement <4 x float> %506, i32 3
  %508 = fmul float %507, %5
  %509 = fadd float %508, %493
  %510 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %511 = extractelement <4 x float> %510, i32 0
  %512 = fmul float %511, %6
  %513 = fadd float %512, %497
  %514 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %515 = extractelement <4 x float> %514, i32 1
  %516 = fmul float %515, %6
  %517 = fadd float %516, %501
  %518 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %519 = extractelement <4 x float> %518, i32 2
  %520 = fmul float %519, %6
  %521 = fadd float %520, %505
  %522 = insertelement <4 x float> undef, float %457, i32 0
  %523 = insertelement <4 x float> %522, float %459, i32 1
  %524 = insertelement <4 x float> %523, float %461, i32 2
  %525 = insertelement <4 x float> %524, float %463, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %525, i32 60, i32 1)
  %526 = insertelement <4 x float> undef, float %0, i32 0
  %527 = insertelement <4 x float> %526, float %1, i32 1
  %528 = insertelement <4 x float> %527, float %467, i32 2
  %529 = insertelement <4 x float> %528, float %471, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %529, i32 0, i32 2)
  %530 = insertelement <4 x float> undef, float %475, i32 0
  %531 = insertelement <4 x float> %530, float %477, i32 1
  %532 = insertelement <4 x float> %531, float %479, i32 2
  %533 = insertelement <4 x float> %532, float %481, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %533, i32 1, i32 2)
  %534 = insertelement <4 x float> undef, float %513, i32 0
  %535 = insertelement <4 x float> %534, float %517, i32 1
  %536 = insertelement <4 x float> %535, float %521, i32 2
  %537 = insertelement <4 x float> %536, float %509, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %537, i32 2, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 242 dw -- 8 gprs -- 1 nstack -------------
shader 46 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32_FLOAT, }
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 1, src_format = PIPE_FORMAT_R32G32B32_FLOAT, }
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 2, src_format = PIPE_FORMAT_R32G32B32_FLOAT, }
bytecode 16 dw -- 4 gprs -- 0 nstack -------------
shader 47 -- 6
0000 00000002 81000800  VTX 3 @4 
 0004 7C00A000 87961001 00080000   VFETCH         R1.xy01, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:30 NUM:0 COMP:0 MODE:1)
 0008 7C00A100 8C151002 00080000   VFETCH         R2.xyz1, R0.x,  RID:161 VERTEX MFC:31 UCF:0 FMT(DTA:48 NUM:0 COMP:0 MODE:1)
 0012 7C00A200 8C151003 00080000   VFETCH         R3.xyz1, R0.x,  RID:162 VERTEX MFC:31 UCF:0 FMT(DTA:48 NUM:0 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
PROPERTY FS_COLOR0_WRITES_ALL_CBUFS 1
DCL IN[0], GENERIC[19], PERSPECTIVE
DCL IN[1], GENERIC[20], PERSPECTIVE
DCL OUT[0], COLOR
DCL SAMP[0]
DCL CONST[0..1]
DCL TEMP[0..4], LOCAL
IMM[0] FLT32 {    0,7500,     0,2500,     0,0000,     2,0000}
  0: MOV TEMP[0].z, IN[1].xxxx
  1: MOV TEMP[0].xy, IN[0].zwzz
  2: MOV TEMP[1].xy, IN[0].xyyy
  3: TEX TEMP[1], TEMP[1], SAMP[0], 2D
  4: MOV TEMP[2].xyz, CONST[1]
  5: DP3 TEMP[3].x, IN[1].yzww, IN[1].yzww
  6: RSQ TEMP[3].x, TEMP[3].xxxx
  7: MUL TEMP[3].xyz, IN[1].yzww, TEMP[3].xxxx
  8: DP3 TEMP[4].x, TEMP[0].xyzz, TEMP[0].xyzz
  9: RSQ TEMP[4].x, TEMP[4].xxxx
 10: MUL TEMP[0].xyz, TEMP[0].xyzz, TEMP[4].xxxx
 11: DP3 TEMP[0].x, TEMP[3].xyzz, TEMP[0].xyzz
 12: MAD TEMP[0].x, TEMP[0].xxxx, IMM[0].xxxx, IMM[0].yyyy
 13: SLT TEMP[3].x, IMM[0].zzzz, TEMP[0].xxxx
 14: F2I TEMP[3].x, -TEMP[3]
 15: UIF TEMP[3].xxxx :0
 16:   MUL TEMP[0], CONST[0], TEMP[0].xxxx
 17:   MAD TEMP[2].xyz, TEMP[0], IMM[0].wwww, CONST[1]
 18: ENDIF
 19: MUL TEMP[0].xyz, TEMP[1].xyzz, TEMP[2].xyzz
 20: MOV TEMP[0].w, TEMP[1].wwww
 21: MOV OUT[0], TEMP[0]
 22: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = call float @llvm.R600.load.input(i32 4)
  %5 = call float @llvm.R600.load.input(i32 5)
  %6 = call float @llvm.R600.load.input(i32 6)
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> undef, float %0, i32 0
  %9 = insertelement <4 x float> %8, float %1, i32 1
  %10 = insertelement <4 x float> %9, float 0,000000e+00, i32 2
  %11 = insertelement <4 x float> %10, float 0,000000e+00, i32 3
  %12 = extractelement <4 x float> %11, i32 0
  %13 = extractelement <4 x float> %11, i32 1
  %14 = insertelement <4 x float> undef, float %12, i32 0
  %15 = insertelement <4 x float> %14, float %13, i32 1
  %16 = insertelement <4 x float> %15, float undef, i32 2
  %17 = insertelement <4 x float> %16, float undef, i32 3
  %18 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %17, i32 16, i32 0, i32 2)
  %19 = extractelement <4 x float> %18, i32 0
  %20 = extractelement <4 x float> %18, i32 1
  %21 = extractelement <4 x float> %18, i32 2
  %22 = extractelement <4 x float> %18, i32 3
  %23 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %24 = extractelement <4 x float> %23, i32 0
  %25 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %26 = extractelement <4 x float> %25, i32 1
  %27 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %28 = extractelement <4 x float> %27, i32 2
  %29 = insertelement <4 x float> undef, float %5, i32 0
  %30 = insertelement <4 x float> %29, float %6, i32 1
  %31 = insertelement <4 x float> %30, float %7, i32 2
  %32 = insertelement <4 x float> %31, float 0,000000e+00, i32 3
  %33 = insertelement <4 x float> undef, float %5, i32 0
  %34 = insertelement <4 x float> %33, float %6, i32 1
  %35 = insertelement <4 x float> %34, float %7, i32 2
  %36 = insertelement <4 x float> %35, float 0,000000e+00, i32 3
  %37 = call float @llvm.AMDGPU.dp4(<4 x float> %32, <4 x float> %36)
  %38 = call float @fabs(float %37)
  %39 = call float @llvm.AMDGPU.rsq(float %38)
  %40 = fmul float %5, %39
  %41 = fmul float %6, %39
  %42 = fmul float %7, %39
  %43 = insertelement <4 x float> undef, float %2, i32 0
  %44 = insertelement <4 x float> %43, float %3, i32 1
  %45 = insertelement <4 x float> %44, float %4, i32 2
  %46 = insertelement <4 x float> %45, float 0,000000e+00, i32 3
  %47 = insertelement <4 x float> undef, float %2, i32 0
  %48 = insertelement <4 x float> %47, float %3, i32 1
  %49 = insertelement <4 x float> %48, float %4, i32 2
  %50 = insertelement <4 x float> %49, float 0,000000e+00, i32 3
  %51 = call float @llvm.AMDGPU.dp4(<4 x float> %46, <4 x float> %50)
  %52 = call float @fabs(float %51)
  %53 = call float @llvm.AMDGPU.rsq(float %52)
  %54 = fmul float %2, %53
  %55 = fmul float %3, %53
  %56 = fmul float %4, %53
  %57 = insertelement <4 x float> undef, float %40, i32 0
  %58 = insertelement <4 x float> %57, float %41, i32 1
  %59 = insertelement <4 x float> %58, float %42, i32 2
  %60 = insertelement <4 x float> %59, float 0,000000e+00, i32 3
  %61 = insertelement <4 x float> undef, float %54, i32 0
  %62 = insertelement <4 x float> %61, float %55, i32 1
  %63 = insertelement <4 x float> %62, float %56, i32 2
  %64 = insertelement <4 x float> %63, float 0,000000e+00, i32 3
  %65 = call float @llvm.AMDGPU.dp4(<4 x float> %60, <4 x float> %64)
  %66 = fmul float %65, 0x3FE8000000000000
  %67 = fadd float %66, 0x3FD0000000000000
  %68 = fcmp ult float 0,000000e+00, %67
  %69 = select i1 %68, float 0x3FF0000000000000, float 0,000000e+00
  %70 = fsub float -0,000000e+00, %69
  %71 = fptosi float %70 to i32
  %72 = bitcast i32 %71 to float
  %73 = bitcast float %72 to i32
  %74 = icmp ne i32 %73, 0
  br i1 %74, label %IF, label %ENDIF

IF:                                               ; preds = %main_body
  %75 = load <4 x float> addrspace(8)* null
  %76 = extractelement <4 x float> %75, i32 0
  %77 = fmul float %76, %67
  %78 = load <4 x float> addrspace(8)* null
  %79 = extractelement <4 x float> %78, i32 1
  %80 = fmul float %79, %67
  %81 = load <4 x float> addrspace(8)* null
  %82 = extractelement <4 x float> %81, i32 2
  %83 = fmul float %82, %67
  %84 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %85 = extractelement <4 x float> %84, i32 0
  %86 = fmul float %77, 0x4000000000000000
  %87 = fadd float %86, %85
  %88 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %89 = extractelement <4 x float> %88, i32 1
  %90 = fmul float %80, 0x4000000000000000
  %91 = fadd float %90, %89
  %92 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %93 = extractelement <4 x float> %92, i32 2
  %94 = fmul float %83, 0x4000000000000000
  %95 = fadd float %94, %93
  br label %ENDIF

ENDIF:                                            ; preds = %main_body, %IF
  %temp8.0 = phi float [ %87, %IF ], [ %24, %main_body ]
  %temp9.0 = phi float [ %91, %IF ], [ %26, %main_body ]
  %temp10.0 = phi float [ %95, %IF ], [ %28, %main_body ]
  %96 = fmul float %19, %temp8.0
  %97 = fmul float %20, %temp9.0
  %98 = fmul float %21, %temp10.0
  %99 = insertelement <4 x float> undef, float %96, i32 0
  %100 = insertelement <4 x float> %99, float %97, i32 1
  %101 = insertelement <4 x float> %100, float %98, i32 2
  %102 = insertelement <4 x float> %101, float %22, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %102, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

; Function Attrs: readnone
declare <4 x float> @llvm.AMDGPU.tex(<4 x float>, i32, i32, i32) #1

; Function Attrs: readnone
declare float @llvm.AMDGPU.dp4(<4 x float>, <4 x float>) #1

; Function Attrs: readonly
declare float @fabs(float) #2

; Function Attrs: readnone
declare float @llvm.AMDGPU.rsq(float) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
attributes #2 = { readonly }
--------------------------------------------------------------
bytecode 120 dw -- 7 gprs -- 1 nstack -------------
shader 48 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL IN[2]
DCL IN[3]
DCL IN[4]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[19]
DCL OUT[2], GENERIC[20]
DCL CONST[0..192]
DCL TEMP[0..3], ARRAY(1), LOCAL
DCL TEMP[4..7], ARRAY(2), LOCAL
DCL TEMP[8..10], LOCAL
DCL TEMP[11..14], ARRAY(3), LOCAL
DCL TEMP[15..18], ARRAY(4), LOCAL
DCL TEMP[19..22], ARRAY(5), LOCAL
DCL TEMP[23..26], ARRAY(6), LOCAL
DCL TEMP[27..29], LOCAL
DCL ADDR[0]
IMM[0] FLT32 {    0,0000,     0,0000,     0,0000,     0,0000}
IMM[1] INT32 {0, 44, 4, 0}
  0: MOV TEMP[0], IMM[0].xxxx
  1: MOV TEMP[1], IMM[0].xxxx
  2: MOV TEMP[2], IMM[0].xxxx
  3: MOV TEMP[3], IMM[0].xxxx
  4: MOV TEMP[4], TEMP[0]
  5: MOV TEMP[5], TEMP[1]
  6: MOV TEMP[6], TEMP[2]
  7: MOV TEMP[7], TEMP[3]
  8: F2I TEMP[8].x, IN[0].xxxx
  9: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
 10: UIF TEMP[9].xxxx :0
 11:   MOV TEMP[9].x, IMM[1].xxxx
 12: ELSE :0
 13:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
 14:   UIF TEMP[10].xxxx :0
 15:     MOV TEMP[10].x, IMM[1].yyyy
 16:   ELSE :0
 17:     MOV TEMP[10].x, TEMP[8].xxxx
 18:   ENDIF
 19:   MOV TEMP[9].x, TEMP[10].xxxx
 20: ENDIF
 21: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 22: UARL ADDR[0].x, TEMP[8].xxxx
 23: UARL ADDR[0].x, TEMP[8].xxxx
 24: MAD TEMP[11], CONST[ADDR[0].x+1], IN[1].xxxx, TEMP[4]
 25: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 26: UARL ADDR[0].x, TEMP[8].xxxx
 27: UARL ADDR[0].x, TEMP[8].xxxx
 28: MAD TEMP[12], CONST[ADDR[0].x+2], IN[1].xxxx, TEMP[5]
 29: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 30: UARL ADDR[0].x, TEMP[8].xxxx
 31: UARL ADDR[0].x, TEMP[8].xxxx
 32: MAD TEMP[13], CONST[ADDR[0].x+3], IN[1].xxxx, TEMP[6]
 33: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 34: UARL ADDR[0].x, TEMP[8].xxxx
 35: UARL ADDR[0].x, TEMP[8].xxxx
 36: MAD TEMP[14], CONST[ADDR[0].x+4], IN[1].xxxx, TEMP[7]
 37: MOV TEMP[4], TEMP[11]
 38: MOV TEMP[5], TEMP[12]
 39: MOV TEMP[6], TEMP[13]
 40: MOV TEMP[7], TEMP[14]
 41: F2I TEMP[8].x, IN[0].yyyy
 42: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
 43: UIF TEMP[9].xxxx :0
 44:   MOV TEMP[9].x, IMM[1].xxxx
 45: ELSE :0
 46:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
 47:   UIF TEMP[10].xxxx :0
 48:     MOV TEMP[10].x, IMM[1].yyyy
 49:   ELSE :0
 50:     MOV TEMP[10].x, TEMP[8].xxxx
 51:   ENDIF
 52:   MOV TEMP[9].x, TEMP[10].xxxx
 53: ENDIF
 54: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 55: UARL ADDR[0].x, TEMP[8].xxxx
 56: UARL ADDR[0].x, TEMP[8].xxxx
 57: MAD TEMP[15], CONST[ADDR[0].x+1], IN[1].yyyy, TEMP[11]
 58: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 59: UARL ADDR[0].x, TEMP[8].xxxx
 60: UARL ADDR[0].x, TEMP[8].xxxx
 61: MAD TEMP[16], CONST[ADDR[0].x+2], IN[1].yyyy, TEMP[12]
 62: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 63: UARL ADDR[0].x, TEMP[8].xxxx
 64: UARL ADDR[0].x, TEMP[8].xxxx
 65: MAD TEMP[17], CONST[ADDR[0].x+3], IN[1].yyyy, TEMP[13]
 66: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 67: UARL ADDR[0].x, TEMP[8].xxxx
 68: UARL ADDR[0].x, TEMP[8].xxxx
 69: MAD TEMP[18], CONST[ADDR[0].x+4], IN[1].yyyy, TEMP[14]
 70: MOV TEMP[4], TEMP[15]
 71: MOV TEMP[5], TEMP[16]
 72: MOV TEMP[6], TEMP[17]
 73: MOV TEMP[7], TEMP[18]
 74: F2I TEMP[8].x, IN[0].zzzz
 75: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
 76: UIF TEMP[9].xxxx :0
 77:   MOV TEMP[9].x, IMM[1].xxxx
 78: ELSE :0
 79:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
 80:   UIF TEMP[10].xxxx :0
 81:     MOV TEMP[10].x, IMM[1].yyyy
 82:   ELSE :0
 83:     MOV TEMP[10].x, TEMP[8].xxxx
 84:   ENDIF
 85:   MOV TEMP[9].x, TEMP[10].xxxx
 86: ENDIF
 87: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 88: UARL ADDR[0].x, TEMP[8].xxxx
 89: UARL ADDR[0].x, TEMP[8].xxxx
 90: MAD TEMP[19], CONST[ADDR[0].x+1], IN[1].zzzz, TEMP[15]
 91: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 92: UARL ADDR[0].x, TEMP[8].xxxx
 93: UARL ADDR[0].x, TEMP[8].xxxx
 94: MAD TEMP[20], CONST[ADDR[0].x+2], IN[1].zzzz, TEMP[16]
 95: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 96: UARL ADDR[0].x, TEMP[8].xxxx
 97: UARL ADDR[0].x, TEMP[8].xxxx
 98: MAD TEMP[21], CONST[ADDR[0].x+3], IN[1].zzzz, TEMP[17]
 99: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
100: UARL ADDR[0].x, TEMP[8].xxxx
101: UARL ADDR[0].x, TEMP[8].xxxx
102: MAD TEMP[22], CONST[ADDR[0].x+4], IN[1].zzzz, TEMP[18]
103: MOV TEMP[4], TEMP[19]
104: MOV TEMP[5], TEMP[20]
105: MOV TEMP[6], TEMP[21]
106: MOV TEMP[7], TEMP[22]
107: F2I TEMP[8].x, IN[0].wwww
108: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
109: UIF TEMP[9].xxxx :0
110:   MOV TEMP[9].x, IMM[1].xxxx
111: ELSE :0
112:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
113:   UIF TEMP[10].xxxx :0
114:     MOV TEMP[10].x, IMM[1].yyyy
115:   ELSE :0
116:     MOV TEMP[10].x, TEMP[8].xxxx
117:   ENDIF
118:   MOV TEMP[9].x, TEMP[10].xxxx
119: ENDIF
120: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
121: UARL ADDR[0].x, TEMP[8].xxxx
122: UARL ADDR[0].x, TEMP[8].xxxx
123: MAD TEMP[23], CONST[ADDR[0].x+1], IN[1].wwww, TEMP[19]
124: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
125: UARL ADDR[0].x, TEMP[8].xxxx
126: UARL ADDR[0].x, TEMP[8].xxxx
127: MAD TEMP[24], CONST[ADDR[0].x+2], IN[1].wwww, TEMP[20]
128: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
129: UARL ADDR[0].x, TEMP[8].xxxx
130: UARL ADDR[0].x, TEMP[8].xxxx
131: MAD TEMP[25], CONST[ADDR[0].x+3], IN[1].wwww, TEMP[21]
132: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
133: UARL ADDR[0].x, TEMP[8].xxxx
134: UARL ADDR[0].x, TEMP[8].xxxx
135: MAD TEMP[26], CONST[ADDR[0].x+4], IN[1].wwww, TEMP[22]
136: MOV TEMP[4], TEMP[23]
137: MOV TEMP[5], TEMP[24]
138: MOV TEMP[6], TEMP[25]
139: MOV TEMP[7], TEMP[26]
140: MUL TEMP[8], CONST[181], TEMP[25].xxxx
141: MAD TEMP[8], CONST[182], TEMP[25].yyyy, TEMP[8]
142: MAD TEMP[8], CONST[183], TEMP[25].zzzz, TEMP[8]
143: MAD TEMP[8], CONST[184], TEMP[25].wwww, TEMP[8]
144: MUL TEMP[9], CONST[181], TEMP[24].xxxx
145: MAD TEMP[9], CONST[182], TEMP[24].yyyy, TEMP[9]
146: MAD TEMP[9], CONST[183], TEMP[24].zzzz, TEMP[9]
147: MAD TEMP[9], CONST[184], TEMP[24].wwww, TEMP[9]
148: MUL TEMP[10], CONST[181], TEMP[23].xxxx
149: MAD TEMP[10], CONST[182], TEMP[23].yyyy, TEMP[10]
150: MAD TEMP[10], CONST[183], TEMP[23].zzzz, TEMP[10]
151: MAD TEMP[10], CONST[184], TEMP[23].wwww, TEMP[10]
152: MUL TEMP[10], TEMP[10], IN[4].xxxx
153: MAD TEMP[9], TEMP[9], IN[4].yyyy, TEMP[10]
154: MAD TEMP[8], TEMP[8], IN[4].zzzz, TEMP[9]
155: MUL TEMP[9], CONST[181], TEMP[26].xxxx
156: MAD TEMP[9], CONST[182], TEMP[26].yyyy, TEMP[9]
157: MAD TEMP[9], CONST[183], TEMP[26].zzzz, TEMP[9]
158: MAD TEMP[9], CONST[184], TEMP[26].wwww, TEMP[9]
159: ADD TEMP[8], TEMP[8], TEMP[9]
160: MUL TEMP[9], CONST[185], CONST[192].xxxx
161: MAD TEMP[9], CONST[186], CONST[192].yyyy, TEMP[9]
162: MAD TEMP[9], CONST[187], CONST[192].zzzz, TEMP[9]
163: MAD TEMP[9], CONST[188], CONST[192].wwww, TEMP[9]
164: MUL TEMP[10], CONST[185], CONST[191].xxxx
165: MAD TEMP[10], CONST[186], CONST[191].yyyy, TEMP[10]
166: MAD TEMP[10], CONST[187], CONST[191].zzzz, TEMP[10]
167: MAD TEMP[10], CONST[188], CONST[191].wwww, TEMP[10]
168: MUL TEMP[27], CONST[185], CONST[190].xxxx
169: MAD TEMP[27], CONST[186], CONST[190].yyyy, TEMP[27]
170: MAD TEMP[27], CONST[187], CONST[190].zzzz, TEMP[27]
171: MAD TEMP[27], CONST[188], CONST[190].wwww, TEMP[27]
172: MUL TEMP[28], CONST[185], CONST[189].xxxx
173: MAD TEMP[28], CONST[186], CONST[189].yyyy, TEMP[28]
174: MAD TEMP[28], CONST[187], CONST[189].zzzz, TEMP[28]
175: MAD TEMP[28], CONST[188], CONST[189].wwww, TEMP[28]
176: MUL TEMP[28], TEMP[28], TEMP[8].xxxx
177: MAD TEMP[27], TEMP[27], TEMP[8].yyyy, TEMP[28]
178: MAD TEMP[10], TEMP[10], TEMP[8].zzzz, TEMP[27]
179: MAD TEMP[8], TEMP[9], TEMP[8].wwww, TEMP[10]
180: MOV TEMP[9].xy, IN[2].xyxx
181: MOV TEMP[9].zw, CONST[0].yyxy
182: MOV TEMP[10].x, CONST[0].zzzz
183: MUL TEMP[27], CONST[181], TEMP[25].xxxx
184: MAD TEMP[27], CONST[182], TEMP[25].yyyy, TEMP[27]
185: MAD TEMP[27], CONST[183], TEMP[25].zzzz, TEMP[27]
186: MAD TEMP[27], CONST[184], TEMP[25].wwww, TEMP[27]
187: MUL TEMP[28], CONST[181], TEMP[24].xxxx
188: MAD TEMP[28], CONST[182], TEMP[24].yyyy, TEMP[28]
189: MAD TEMP[28], CONST[183], TEMP[24].zzzz, TEMP[28]
190: MAD TEMP[28], CONST[184], TEMP[24].wwww, TEMP[28]
191: MUL TEMP[29], CONST[181], TEMP[23].xxxx
192: MAD TEMP[29], CONST[182], TEMP[23].yyyy, TEMP[29]
193: MAD TEMP[29], CONST[183], TEMP[23].zzzz, TEMP[29]
194: MAD TEMP[29], CONST[184], TEMP[23].wwww, TEMP[29]
195: MUL TEMP[29], TEMP[29], IN[3].xxxx
196: MAD TEMP[28], TEMP[28], IN[3].yyyy, TEMP[29]
197: MAD TEMP[27].xyz, TEMP[27], IN[3].zzzz, TEMP[28]
198: MOV TEMP[10].yzw, TEMP[27].yxyz
199: MOV OUT[1], TEMP[9]
200: MOV OUT[2], TEMP[10]
201: MOV OUT[0], TEMP[8]
202: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = call float @llvm.R600.load.input(i32 12)
  %9 = call float @llvm.R600.load.input(i32 13)
  %10 = call float @llvm.R600.load.input(i32 14)
  %11 = call float @llvm.R600.load.input(i32 15)
  %12 = call float @llvm.R600.load.input(i32 16)
  %13 = call float @llvm.R600.load.input(i32 17)
  %14 = call float @llvm.R600.load.input(i32 18)
  %15 = call float @llvm.R600.load.input(i32 19)
  %16 = call float @llvm.R600.load.input(i32 20)
  %17 = call float @llvm.R600.load.input(i32 21)
  %18 = call float @llvm.R600.load.input(i32 22)
  %19 = call float @llvm.R600.load.input(i32 23)
  %20 = fptosi float %0 to i32
  %21 = bitcast i32 %20 to float
  %22 = bitcast float %21 to i32
  %23 = icmp slt i32 %22, 0
  %24 = sext i1 %23 to i32
  %25 = bitcast i32 %24 to float
  %26 = bitcast float %25 to i32
  %27 = icmp ne i32 %26, 0
  br i1 %27, label %ENDIF, label %ELSE

ELSE:                                             ; preds = %main_body
  %28 = bitcast float %21 to i32
  %29 = icmp slt i32 44, %28
  %30 = sext i1 %29 to i32
  %31 = bitcast i32 %30 to float
  %32 = bitcast float %31 to i32
  %33 = icmp ne i32 %32, 0
  %. = select i1 %33, float 0,000000e+00, float %21
  br label %ENDIF

ENDIF:                                            ; preds = %main_body, %ELSE
  %temp36.0 = phi float [ %., %ELSE ], [ 0,000000e+00, %main_body ]
  %34 = bitcast float %temp36.0 to i32
  %35 = mul i32 %34, 4
  %36 = bitcast i32 %35 to float
  %37 = bitcast float %36 to i32
  %38 = add i32 1, %37
  %39 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %38
  %40 = load <4 x float> addrspace(8)* %39
  %41 = extractelement <4 x float> %40, i32 0
  %42 = fmul float %41, %4
  %43 = fadd float %42, 0,000000e+00
  %44 = add i32 1, %37
  %45 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %44
  %46 = load <4 x float> addrspace(8)* %45
  %47 = extractelement <4 x float> %46, i32 1
  %48 = fmul float %47, %4
  %49 = fadd float %48, 0,000000e+00
  %50 = add i32 1, %37
  %51 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %50
  %52 = load <4 x float> addrspace(8)* %51
  %53 = extractelement <4 x float> %52, i32 2
  %54 = fmul float %53, %4
  %55 = fadd float %54, 0,000000e+00
  %56 = add i32 1, %37
  %57 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %56
  %58 = load <4 x float> addrspace(8)* %57
  %59 = extractelement <4 x float> %58, i32 3
  %60 = fmul float %59, %4
  %61 = fadd float %60, 0,000000e+00
  %62 = bitcast float %temp36.0 to i32
  %63 = mul i32 %62, 4
  %64 = bitcast i32 %63 to float
  %65 = bitcast float %64 to i32
  %66 = add i32 2, %65
  %67 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %66
  %68 = load <4 x float> addrspace(8)* %67
  %69 = extractelement <4 x float> %68, i32 0
  %70 = fmul float %69, %4
  %71 = fadd float %70, 0,000000e+00
  %72 = add i32 2, %65
  %73 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %72
  %74 = load <4 x float> addrspace(8)* %73
  %75 = extractelement <4 x float> %74, i32 1
  %76 = fmul float %75, %4
  %77 = fadd float %76, 0,000000e+00
  %78 = add i32 2, %65
  %79 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %78
  %80 = load <4 x float> addrspace(8)* %79
  %81 = extractelement <4 x float> %80, i32 2
  %82 = fmul float %81, %4
  %83 = fadd float %82, 0,000000e+00
  %84 = add i32 2, %65
  %85 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %84
  %86 = load <4 x float> addrspace(8)* %85
  %87 = extractelement <4 x float> %86, i32 3
  %88 = fmul float %87, %4
  %89 = fadd float %88, 0,000000e+00
  %90 = bitcast float %temp36.0 to i32
  %91 = mul i32 %90, 4
  %92 = bitcast i32 %91 to float
  %93 = bitcast float %92 to i32
  %94 = add i32 3, %93
  %95 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %94
  %96 = load <4 x float> addrspace(8)* %95
  %97 = extractelement <4 x float> %96, i32 0
  %98 = fmul float %97, %4
  %99 = fadd float %98, 0,000000e+00
  %100 = add i32 3, %93
  %101 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %100
  %102 = load <4 x float> addrspace(8)* %101
  %103 = extractelement <4 x float> %102, i32 1
  %104 = fmul float %103, %4
  %105 = fadd float %104, 0,000000e+00
  %106 = add i32 3, %93
  %107 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %106
  %108 = load <4 x float> addrspace(8)* %107
  %109 = extractelement <4 x float> %108, i32 2
  %110 = fmul float %109, %4
  %111 = fadd float %110, 0,000000e+00
  %112 = add i32 3, %93
  %113 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %112
  %114 = load <4 x float> addrspace(8)* %113
  %115 = extractelement <4 x float> %114, i32 3
  %116 = fmul float %115, %4
  %117 = fadd float %116, 0,000000e+00
  %118 = bitcast float %temp36.0 to i32
  %119 = mul i32 %118, 4
  %120 = bitcast i32 %119 to float
  %121 = bitcast float %120 to i32
  %122 = add i32 4, %121
  %123 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %122
  %124 = load <4 x float> addrspace(8)* %123
  %125 = extractelement <4 x float> %124, i32 0
  %126 = fmul float %125, %4
  %127 = fadd float %126, 0,000000e+00
  %128 = add i32 4, %121
  %129 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %128
  %130 = load <4 x float> addrspace(8)* %129
  %131 = extractelement <4 x float> %130, i32 1
  %132 = fmul float %131, %4
  %133 = fadd float %132, 0,000000e+00
  %134 = add i32 4, %121
  %135 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %134
  %136 = load <4 x float> addrspace(8)* %135
  %137 = extractelement <4 x float> %136, i32 2
  %138 = fmul float %137, %4
  %139 = fadd float %138, 0,000000e+00
  %140 = add i32 4, %121
  %141 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %140
  %142 = load <4 x float> addrspace(8)* %141
  %143 = extractelement <4 x float> %142, i32 3
  %144 = fmul float %143, %4
  %145 = fadd float %144, 0,000000e+00
  %146 = fptosi float %1 to i32
  %147 = bitcast i32 %146 to float
  %148 = bitcast float %147 to i32
  %149 = icmp slt i32 %148, 0
  %150 = sext i1 %149 to i32
  %151 = bitcast i32 %150 to float
  %152 = bitcast float %151 to i32
  %153 = icmp ne i32 %152, 0
  br i1 %153, label %ENDIF123, label %ELSE125

ELSE125:                                          ; preds = %ENDIF
  %154 = bitcast float %147 to i32
  %155 = icmp slt i32 44, %154
  %156 = sext i1 %155 to i32
  %157 = bitcast i32 %156 to float
  %158 = bitcast float %157 to i32
  %159 = icmp ne i32 %158, 0
  %.141 = select i1 %159, float 0,000000e+00, float %147
  br label %ENDIF123

ENDIF123:                                         ; preds = %ENDIF, %ELSE125
  %temp36.1 = phi float [ %.141, %ELSE125 ], [ 0,000000e+00, %ENDIF ]
  %160 = bitcast float %temp36.1 to i32
  %161 = mul i32 %160, 4
  %162 = bitcast i32 %161 to float
  %163 = bitcast float %162 to i32
  %164 = add i32 1, %163
  %165 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %164
  %166 = load <4 x float> addrspace(8)* %165
  %167 = extractelement <4 x float> %166, i32 0
  %168 = fmul float %167, %5
  %169 = fadd float %168, %43
  %170 = add i32 1, %163
  %171 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %170
  %172 = load <4 x float> addrspace(8)* %171
  %173 = extractelement <4 x float> %172, i32 1
  %174 = fmul float %173, %5
  %175 = fadd float %174, %49
  %176 = add i32 1, %163
  %177 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %176
  %178 = load <4 x float> addrspace(8)* %177
  %179 = extractelement <4 x float> %178, i32 2
  %180 = fmul float %179, %5
  %181 = fadd float %180, %55
  %182 = add i32 1, %163
  %183 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %182
  %184 = load <4 x float> addrspace(8)* %183
  %185 = extractelement <4 x float> %184, i32 3
  %186 = fmul float %185, %5
  %187 = fadd float %186, %61
  %188 = bitcast float %temp36.1 to i32
  %189 = mul i32 %188, 4
  %190 = bitcast i32 %189 to float
  %191 = bitcast float %190 to i32
  %192 = add i32 2, %191
  %193 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %192
  %194 = load <4 x float> addrspace(8)* %193
  %195 = extractelement <4 x float> %194, i32 0
  %196 = fmul float %195, %5
  %197 = fadd float %196, %71
  %198 = add i32 2, %191
  %199 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %198
  %200 = load <4 x float> addrspace(8)* %199
  %201 = extractelement <4 x float> %200, i32 1
  %202 = fmul float %201, %5
  %203 = fadd float %202, %77
  %204 = add i32 2, %191
  %205 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %204
  %206 = load <4 x float> addrspace(8)* %205
  %207 = extractelement <4 x float> %206, i32 2
  %208 = fmul float %207, %5
  %209 = fadd float %208, %83
  %210 = add i32 2, %191
  %211 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %210
  %212 = load <4 x float> addrspace(8)* %211
  %213 = extractelement <4 x float> %212, i32 3
  %214 = fmul float %213, %5
  %215 = fadd float %214, %89
  %216 = bitcast float %temp36.1 to i32
  %217 = mul i32 %216, 4
  %218 = bitcast i32 %217 to float
  %219 = bitcast float %218 to i32
  %220 = add i32 3, %219
  %221 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %220
  %222 = load <4 x float> addrspace(8)* %221
  %223 = extractelement <4 x float> %222, i32 0
  %224 = fmul float %223, %5
  %225 = fadd float %224, %99
  %226 = add i32 3, %219
  %227 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %226
  %228 = load <4 x float> addrspace(8)* %227
  %229 = extractelement <4 x float> %228, i32 1
  %230 = fmul float %229, %5
  %231 = fadd float %230, %105
  %232 = add i32 3, %219
  %233 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %232
  %234 = load <4 x float> addrspace(8)* %233
  %235 = extractelement <4 x float> %234, i32 2
  %236 = fmul float %235, %5
  %237 = fadd float %236, %111
  %238 = add i32 3, %219
  %239 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %238
  %240 = load <4 x float> addrspace(8)* %239
  %241 = extractelement <4 x float> %240, i32 3
  %242 = fmul float %241, %5
  %243 = fadd float %242, %117
  %244 = bitcast float %temp36.1 to i32
  %245 = mul i32 %244, 4
  %246 = bitcast i32 %245 to float
  %247 = bitcast float %246 to i32
  %248 = add i32 4, %247
  %249 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %248
  %250 = load <4 x float> addrspace(8)* %249
  %251 = extractelement <4 x float> %250, i32 0
  %252 = fmul float %251, %5
  %253 = fadd float %252, %127
  %254 = add i32 4, %247
  %255 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %254
  %256 = load <4 x float> addrspace(8)* %255
  %257 = extractelement <4 x float> %256, i32 1
  %258 = fmul float %257, %5
  %259 = fadd float %258, %133
  %260 = add i32 4, %247
  %261 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %260
  %262 = load <4 x float> addrspace(8)* %261
  %263 = extractelement <4 x float> %262, i32 2
  %264 = fmul float %263, %5
  %265 = fadd float %264, %139
  %266 = add i32 4, %247
  %267 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %266
  %268 = load <4 x float> addrspace(8)* %267
  %269 = extractelement <4 x float> %268, i32 3
  %270 = fmul float %269, %5
  %271 = fadd float %270, %145
  %272 = fptosi float %2 to i32
  %273 = bitcast i32 %272 to float
  %274 = bitcast float %273 to i32
  %275 = icmp slt i32 %274, 0
  %276 = sext i1 %275 to i32
  %277 = bitcast i32 %276 to float
  %278 = bitcast float %277 to i32
  %279 = icmp ne i32 %278, 0
  br i1 %279, label %ENDIF129, label %ELSE131

ELSE131:                                          ; preds = %ENDIF123
  %280 = bitcast float %273 to i32
  %281 = icmp slt i32 44, %280
  %282 = sext i1 %281 to i32
  %283 = bitcast i32 %282 to float
  %284 = bitcast float %283 to i32
  %285 = icmp ne i32 %284, 0
  %.142 = select i1 %285, float 0,000000e+00, float %273
  br label %ENDIF129

ENDIF129:                                         ; preds = %ENDIF123, %ELSE131
  %temp36.2 = phi float [ %.142, %ELSE131 ], [ 0,000000e+00, %ENDIF123 ]
  %286 = bitcast float %temp36.2 to i32
  %287 = mul i32 %286, 4
  %288 = bitcast i32 %287 to float
  %289 = bitcast float %288 to i32
  %290 = add i32 1, %289
  %291 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %290
  %292 = load <4 x float> addrspace(8)* %291
  %293 = extractelement <4 x float> %292, i32 0
  %294 = fmul float %293, %6
  %295 = fadd float %294, %169
  %296 = add i32 1, %289
  %297 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %296
  %298 = load <4 x float> addrspace(8)* %297
  %299 = extractelement <4 x float> %298, i32 1
  %300 = fmul float %299, %6
  %301 = fadd float %300, %175
  %302 = add i32 1, %289
  %303 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %302
  %304 = load <4 x float> addrspace(8)* %303
  %305 = extractelement <4 x float> %304, i32 2
  %306 = fmul float %305, %6
  %307 = fadd float %306, %181
  %308 = add i32 1, %289
  %309 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %308
  %310 = load <4 x float> addrspace(8)* %309
  %311 = extractelement <4 x float> %310, i32 3
  %312 = fmul float %311, %6
  %313 = fadd float %312, %187
  %314 = bitcast float %temp36.2 to i32
  %315 = mul i32 %314, 4
  %316 = bitcast i32 %315 to float
  %317 = bitcast float %316 to i32
  %318 = add i32 2, %317
  %319 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %318
  %320 = load <4 x float> addrspace(8)* %319
  %321 = extractelement <4 x float> %320, i32 0
  %322 = fmul float %321, %6
  %323 = fadd float %322, %197
  %324 = add i32 2, %317
  %325 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %324
  %326 = load <4 x float> addrspace(8)* %325
  %327 = extractelement <4 x float> %326, i32 1
  %328 = fmul float %327, %6
  %329 = fadd float %328, %203
  %330 = add i32 2, %317
  %331 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %330
  %332 = load <4 x float> addrspace(8)* %331
  %333 = extractelement <4 x float> %332, i32 2
  %334 = fmul float %333, %6
  %335 = fadd float %334, %209
  %336 = add i32 2, %317
  %337 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %336
  %338 = load <4 x float> addrspace(8)* %337
  %339 = extractelement <4 x float> %338, i32 3
  %340 = fmul float %339, %6
  %341 = fadd float %340, %215
  %342 = bitcast float %temp36.2 to i32
  %343 = mul i32 %342, 4
  %344 = bitcast i32 %343 to float
  %345 = bitcast float %344 to i32
  %346 = add i32 3, %345
  %347 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %346
  %348 = load <4 x float> addrspace(8)* %347
  %349 = extractelement <4 x float> %348, i32 0
  %350 = fmul float %349, %6
  %351 = fadd float %350, %225
  %352 = add i32 3, %345
  %353 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %352
  %354 = load <4 x float> addrspace(8)* %353
  %355 = extractelement <4 x float> %354, i32 1
  %356 = fmul float %355, %6
  %357 = fadd float %356, %231
  %358 = add i32 3, %345
  %359 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %358
  %360 = load <4 x float> addrspace(8)* %359
  %361 = extractelement <4 x float> %360, i32 2
  %362 = fmul float %361, %6
  %363 = fadd float %362, %237
  %364 = add i32 3, %345
  %365 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %364
  %366 = load <4 x float> addrspace(8)* %365
  %367 = extractelement <4 x float> %366, i32 3
  %368 = fmul float %367, %6
  %369 = fadd float %368, %243
  %370 = bitcast float %temp36.2 to i32
  %371 = mul i32 %370, 4
  %372 = bitcast i32 %371 to float
  %373 = bitcast float %372 to i32
  %374 = add i32 4, %373
  %375 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %374
  %376 = load <4 x float> addrspace(8)* %375
  %377 = extractelement <4 x float> %376, i32 0
  %378 = fmul float %377, %6
  %379 = fadd float %378, %253
  %380 = add i32 4, %373
  %381 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %380
  %382 = load <4 x float> addrspace(8)* %381
  %383 = extractelement <4 x float> %382, i32 1
  %384 = fmul float %383, %6
  %385 = fadd float %384, %259
  %386 = add i32 4, %373
  %387 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %386
  %388 = load <4 x float> addrspace(8)* %387
  %389 = extractelement <4 x float> %388, i32 2
  %390 = fmul float %389, %6
  %391 = fadd float %390, %265
  %392 = add i32 4, %373
  %393 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %392
  %394 = load <4 x float> addrspace(8)* %393
  %395 = extractelement <4 x float> %394, i32 3
  %396 = fmul float %395, %6
  %397 = fadd float %396, %271
  %398 = fptosi float %3 to i32
  %399 = bitcast i32 %398 to float
  %400 = bitcast float %399 to i32
  %401 = icmp slt i32 %400, 0
  %402 = sext i1 %401 to i32
  %403 = bitcast i32 %402 to float
  %404 = bitcast float %403 to i32
  %405 = icmp ne i32 %404, 0
  br i1 %405, label %ENDIF135, label %ELSE137

ELSE137:                                          ; preds = %ENDIF129
  %406 = bitcast float %399 to i32
  %407 = icmp slt i32 44, %406
  %408 = sext i1 %407 to i32
  %409 = bitcast i32 %408 to float
  %410 = bitcast float %409 to i32
  %411 = icmp ne i32 %410, 0
  %.143 = select i1 %411, float 0,000000e+00, float %399
  br label %ENDIF135

ENDIF135:                                         ; preds = %ENDIF129, %ELSE137
  %temp36.3 = phi float [ %.143, %ELSE137 ], [ 0,000000e+00, %ENDIF129 ]
  %412 = bitcast float %temp36.3 to i32
  %413 = mul i32 %412, 4
  %414 = bitcast i32 %413 to float
  %415 = bitcast float %414 to i32
  %416 = add i32 1, %415
  %417 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %416
  %418 = load <4 x float> addrspace(8)* %417
  %419 = extractelement <4 x float> %418, i32 0
  %420 = fmul float %419, %7
  %421 = fadd float %420, %295
  %422 = add i32 1, %415
  %423 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %422
  %424 = load <4 x float> addrspace(8)* %423
  %425 = extractelement <4 x float> %424, i32 1
  %426 = fmul float %425, %7
  %427 = fadd float %426, %301
  %428 = add i32 1, %415
  %429 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %428
  %430 = load <4 x float> addrspace(8)* %429
  %431 = extractelement <4 x float> %430, i32 2
  %432 = fmul float %431, %7
  %433 = fadd float %432, %307
  %434 = add i32 1, %415
  %435 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %434
  %436 = load <4 x float> addrspace(8)* %435
  %437 = extractelement <4 x float> %436, i32 3
  %438 = fmul float %437, %7
  %439 = fadd float %438, %313
  %440 = bitcast float %temp36.3 to i32
  %441 = mul i32 %440, 4
  %442 = bitcast i32 %441 to float
  %443 = bitcast float %442 to i32
  %444 = add i32 2, %443
  %445 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %444
  %446 = load <4 x float> addrspace(8)* %445
  %447 = extractelement <4 x float> %446, i32 0
  %448 = fmul float %447, %7
  %449 = fadd float %448, %323
  %450 = add i32 2, %443
  %451 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %450
  %452 = load <4 x float> addrspace(8)* %451
  %453 = extractelement <4 x float> %452, i32 1
  %454 = fmul float %453, %7
  %455 = fadd float %454, %329
  %456 = add i32 2, %443
  %457 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %456
  %458 = load <4 x float> addrspace(8)* %457
  %459 = extractelement <4 x float> %458, i32 2
  %460 = fmul float %459, %7
  %461 = fadd float %460, %335
  %462 = add i32 2, %443
  %463 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %462
  %464 = load <4 x float> addrspace(8)* %463
  %465 = extractelement <4 x float> %464, i32 3
  %466 = fmul float %465, %7
  %467 = fadd float %466, %341
  %468 = bitcast float %temp36.3 to i32
  %469 = mul i32 %468, 4
  %470 = bitcast i32 %469 to float
  %471 = bitcast float %470 to i32
  %472 = add i32 3, %471
  %473 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %472
  %474 = load <4 x float> addrspace(8)* %473
  %475 = extractelement <4 x float> %474, i32 0
  %476 = fmul float %475, %7
  %477 = fadd float %476, %351
  %478 = add i32 3, %471
  %479 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %478
  %480 = load <4 x float> addrspace(8)* %479
  %481 = extractelement <4 x float> %480, i32 1
  %482 = fmul float %481, %7
  %483 = fadd float %482, %357
  %484 = add i32 3, %471
  %485 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %484
  %486 = load <4 x float> addrspace(8)* %485
  %487 = extractelement <4 x float> %486, i32 2
  %488 = fmul float %487, %7
  %489 = fadd float %488, %363
  %490 = add i32 3, %471
  %491 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %490
  %492 = load <4 x float> addrspace(8)* %491
  %493 = extractelement <4 x float> %492, i32 3
  %494 = fmul float %493, %7
  %495 = fadd float %494, %369
  %496 = bitcast float %temp36.3 to i32
  %497 = mul i32 %496, 4
  %498 = bitcast i32 %497 to float
  %499 = bitcast float %498 to i32
  %500 = add i32 4, %499
  %501 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %500
  %502 = load <4 x float> addrspace(8)* %501
  %503 = extractelement <4 x float> %502, i32 0
  %504 = fmul float %503, %7
  %505 = fadd float %504, %379
  %506 = add i32 4, %499
  %507 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %506
  %508 = load <4 x float> addrspace(8)* %507
  %509 = extractelement <4 x float> %508, i32 1
  %510 = fmul float %509, %7
  %511 = fadd float %510, %385
  %512 = add i32 4, %499
  %513 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %512
  %514 = load <4 x float> addrspace(8)* %513
  %515 = extractelement <4 x float> %514, i32 2
  %516 = fmul float %515, %7
  %517 = fadd float %516, %391
  %518 = add i32 4, %499
  %519 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %518
  %520 = load <4 x float> addrspace(8)* %519
  %521 = extractelement <4 x float> %520, i32 3
  %522 = fmul float %521, %7
  %523 = fadd float %522, %397
  %524 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %525 = extractelement <4 x float> %524, i32 0
  %526 = fmul float %525, %477
  %527 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %528 = extractelement <4 x float> %527, i32 1
  %529 = fmul float %528, %477
  %530 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %531 = extractelement <4 x float> %530, i32 2
  %532 = fmul float %531, %477
  %533 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %534 = extractelement <4 x float> %533, i32 3
  %535 = fmul float %534, %477
  %536 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %537 = extractelement <4 x float> %536, i32 0
  %538 = fmul float %537, %483
  %539 = fadd float %538, %526
  %540 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %541 = extractelement <4 x float> %540, i32 1
  %542 = fmul float %541, %483
  %543 = fadd float %542, %529
  %544 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %545 = extractelement <4 x float> %544, i32 2
  %546 = fmul float %545, %483
  %547 = fadd float %546, %532
  %548 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %549 = extractelement <4 x float> %548, i32 3
  %550 = fmul float %549, %483
  %551 = fadd float %550, %535
  %552 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %553 = extractelement <4 x float> %552, i32 0
  %554 = fmul float %553, %489
  %555 = fadd float %554, %539
  %556 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %557 = extractelement <4 x float> %556, i32 1
  %558 = fmul float %557, %489
  %559 = fadd float %558, %543
  %560 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %561 = extractelement <4 x float> %560, i32 2
  %562 = fmul float %561, %489
  %563 = fadd float %562, %547
  %564 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %565 = extractelement <4 x float> %564, i32 3
  %566 = fmul float %565, %489
  %567 = fadd float %566, %551
  %568 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %569 = extractelement <4 x float> %568, i32 0
  %570 = fmul float %569, %495
  %571 = fadd float %570, %555
  %572 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %573 = extractelement <4 x float> %572, i32 1
  %574 = fmul float %573, %495
  %575 = fadd float %574, %559
  %576 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %577 = extractelement <4 x float> %576, i32 2
  %578 = fmul float %577, %495
  %579 = fadd float %578, %563
  %580 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %581 = extractelement <4 x float> %580, i32 3
  %582 = fmul float %581, %495
  %583 = fadd float %582, %567
  %584 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %585 = extractelement <4 x float> %584, i32 0
  %586 = fmul float %585, %449
  %587 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %588 = extractelement <4 x float> %587, i32 1
  %589 = fmul float %588, %449
  %590 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %591 = extractelement <4 x float> %590, i32 2
  %592 = fmul float %591, %449
  %593 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %594 = extractelement <4 x float> %593, i32 3
  %595 = fmul float %594, %449
  %596 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %597 = extractelement <4 x float> %596, i32 0
  %598 = fmul float %597, %455
  %599 = fadd float %598, %586
  %600 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %601 = extractelement <4 x float> %600, i32 1
  %602 = fmul float %601, %455
  %603 = fadd float %602, %589
  %604 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %605 = extractelement <4 x float> %604, i32 2
  %606 = fmul float %605, %455
  %607 = fadd float %606, %592
  %608 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %609 = extractelement <4 x float> %608, i32 3
  %610 = fmul float %609, %455
  %611 = fadd float %610, %595
  %612 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %613 = extractelement <4 x float> %612, i32 0
  %614 = fmul float %613, %461
  %615 = fadd float %614, %599
  %616 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %617 = extractelement <4 x float> %616, i32 1
  %618 = fmul float %617, %461
  %619 = fadd float %618, %603
  %620 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %621 = extractelement <4 x float> %620, i32 2
  %622 = fmul float %621, %461
  %623 = fadd float %622, %607
  %624 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %625 = extractelement <4 x float> %624, i32 3
  %626 = fmul float %625, %461
  %627 = fadd float %626, %611
  %628 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %629 = extractelement <4 x float> %628, i32 0
  %630 = fmul float %629, %467
  %631 = fadd float %630, %615
  %632 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %633 = extractelement <4 x float> %632, i32 1
  %634 = fmul float %633, %467
  %635 = fadd float %634, %619
  %636 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %637 = extractelement <4 x float> %636, i32 2
  %638 = fmul float %637, %467
  %639 = fadd float %638, %623
  %640 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %641 = extractelement <4 x float> %640, i32 3
  %642 = fmul float %641, %467
  %643 = fadd float %642, %627
  %644 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %645 = extractelement <4 x float> %644, i32 0
  %646 = fmul float %645, %421
  %647 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %648 = extractelement <4 x float> %647, i32 1
  %649 = fmul float %648, %421
  %650 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %651 = extractelement <4 x float> %650, i32 2
  %652 = fmul float %651, %421
  %653 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %654 = extractelement <4 x float> %653, i32 3
  %655 = fmul float %654, %421
  %656 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %657 = extractelement <4 x float> %656, i32 0
  %658 = fmul float %657, %427
  %659 = fadd float %658, %646
  %660 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %661 = extractelement <4 x float> %660, i32 1
  %662 = fmul float %661, %427
  %663 = fadd float %662, %649
  %664 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %665 = extractelement <4 x float> %664, i32 2
  %666 = fmul float %665, %427
  %667 = fadd float %666, %652
  %668 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %669 = extractelement <4 x float> %668, i32 3
  %670 = fmul float %669, %427
  %671 = fadd float %670, %655
  %672 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %673 = extractelement <4 x float> %672, i32 0
  %674 = fmul float %673, %433
  %675 = fadd float %674, %659
  %676 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %677 = extractelement <4 x float> %676, i32 1
  %678 = fmul float %677, %433
  %679 = fadd float %678, %663
  %680 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %681 = extractelement <4 x float> %680, i32 2
  %682 = fmul float %681, %433
  %683 = fadd float %682, %667
  %684 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %685 = extractelement <4 x float> %684, i32 3
  %686 = fmul float %685, %433
  %687 = fadd float %686, %671
  %688 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %689 = extractelement <4 x float> %688, i32 0
  %690 = fmul float %689, %439
  %691 = fadd float %690, %675
  %692 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %693 = extractelement <4 x float> %692, i32 1
  %694 = fmul float %693, %439
  %695 = fadd float %694, %679
  %696 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %697 = extractelement <4 x float> %696, i32 2
  %698 = fmul float %697, %439
  %699 = fadd float %698, %683
  %700 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %701 = extractelement <4 x float> %700, i32 3
  %702 = fmul float %701, %439
  %703 = fadd float %702, %687
  %704 = fmul float %691, %16
  %705 = fmul float %695, %16
  %706 = fmul float %699, %16
  %707 = fmul float %703, %16
  %708 = fmul float %631, %17
  %709 = fadd float %708, %704
  %710 = fmul float %635, %17
  %711 = fadd float %710, %705
  %712 = fmul float %639, %17
  %713 = fadd float %712, %706
  %714 = fmul float %643, %17
  %715 = fadd float %714, %707
  %716 = fmul float %571, %18
  %717 = fadd float %716, %709
  %718 = fmul float %575, %18
  %719 = fadd float %718, %711
  %720 = fmul float %579, %18
  %721 = fadd float %720, %713
  %722 = fmul float %583, %18
  %723 = fadd float %722, %715
  %724 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %725 = extractelement <4 x float> %724, i32 0
  %726 = fmul float %725, %505
  %727 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %728 = extractelement <4 x float> %727, i32 1
  %729 = fmul float %728, %505
  %730 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %731 = extractelement <4 x float> %730, i32 2
  %732 = fmul float %731, %505
  %733 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %734 = extractelement <4 x float> %733, i32 3
  %735 = fmul float %734, %505
  %736 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %737 = extractelement <4 x float> %736, i32 0
  %738 = fmul float %737, %511
  %739 = fadd float %738, %726
  %740 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %741 = extractelement <4 x float> %740, i32 1
  %742 = fmul float %741, %511
  %743 = fadd float %742, %729
  %744 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %745 = extractelement <4 x float> %744, i32 2
  %746 = fmul float %745, %511
  %747 = fadd float %746, %732
  %748 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %749 = extractelement <4 x float> %748, i32 3
  %750 = fmul float %749, %511
  %751 = fadd float %750, %735
  %752 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %753 = extractelement <4 x float> %752, i32 0
  %754 = fmul float %753, %517
  %755 = fadd float %754, %739
  %756 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %757 = extractelement <4 x float> %756, i32 1
  %758 = fmul float %757, %517
  %759 = fadd float %758, %743
  %760 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %761 = extractelement <4 x float> %760, i32 2
  %762 = fmul float %761, %517
  %763 = fadd float %762, %747
  %764 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %765 = extractelement <4 x float> %764, i32 3
  %766 = fmul float %765, %517
  %767 = fadd float %766, %751
  %768 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %769 = extractelement <4 x float> %768, i32 0
  %770 = fmul float %769, %523
  %771 = fadd float %770, %755
  %772 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %773 = extractelement <4 x float> %772, i32 1
  %774 = fmul float %773, %523
  %775 = fadd float %774, %759
  %776 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %777 = extractelement <4 x float> %776, i32 2
  %778 = fmul float %777, %523
  %779 = fadd float %778, %763
  %780 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %781 = extractelement <4 x float> %780, i32 3
  %782 = fmul float %781, %523
  %783 = fadd float %782, %767
  %784 = fadd float %717, %771
  %785 = fadd float %719, %775
  %786 = fadd float %721, %779
  %787 = fadd float %723, %783
  %788 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %789 = extractelement <4 x float> %788, i32 0
  %790 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %791 = extractelement <4 x float> %790, i32 0
  %792 = fmul float %789, %791
  %793 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %794 = extractelement <4 x float> %793, i32 1
  %795 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %796 = extractelement <4 x float> %795, i32 0
  %797 = fmul float %794, %796
  %798 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %799 = extractelement <4 x float> %798, i32 2
  %800 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %801 = extractelement <4 x float> %800, i32 0
  %802 = fmul float %799, %801
  %803 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %804 = extractelement <4 x float> %803, i32 3
  %805 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %806 = extractelement <4 x float> %805, i32 0
  %807 = fmul float %804, %806
  %808 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %809 = extractelement <4 x float> %808, i32 0
  %810 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %811 = extractelement <4 x float> %810, i32 1
  %812 = fmul float %809, %811
  %813 = fadd float %812, %792
  %814 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %815 = extractelement <4 x float> %814, i32 1
  %816 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %817 = extractelement <4 x float> %816, i32 1
  %818 = fmul float %815, %817
  %819 = fadd float %818, %797
  %820 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %821 = extractelement <4 x float> %820, i32 2
  %822 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %823 = extractelement <4 x float> %822, i32 1
  %824 = fmul float %821, %823
  %825 = fadd float %824, %802
  %826 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %827 = extractelement <4 x float> %826, i32 3
  %828 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %829 = extractelement <4 x float> %828, i32 1
  %830 = fmul float %827, %829
  %831 = fadd float %830, %807
  %832 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %833 = extractelement <4 x float> %832, i32 0
  %834 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %835 = extractelement <4 x float> %834, i32 2
  %836 = fmul float %833, %835
  %837 = fadd float %836, %813
  %838 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %839 = extractelement <4 x float> %838, i32 1
  %840 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %841 = extractelement <4 x float> %840, i32 2
  %842 = fmul float %839, %841
  %843 = fadd float %842, %819
  %844 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %845 = extractelement <4 x float> %844, i32 2
  %846 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %847 = extractelement <4 x float> %846, i32 2
  %848 = fmul float %845, %847
  %849 = fadd float %848, %825
  %850 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %851 = extractelement <4 x float> %850, i32 3
  %852 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %853 = extractelement <4 x float> %852, i32 2
  %854 = fmul float %851, %853
  %855 = fadd float %854, %831
  %856 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %857 = extractelement <4 x float> %856, i32 0
  %858 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %859 = extractelement <4 x float> %858, i32 3
  %860 = fmul float %857, %859
  %861 = fadd float %860, %837
  %862 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %863 = extractelement <4 x float> %862, i32 1
  %864 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %865 = extractelement <4 x float> %864, i32 3
  %866 = fmul float %863, %865
  %867 = fadd float %866, %843
  %868 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %869 = extractelement <4 x float> %868, i32 2
  %870 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %871 = extractelement <4 x float> %870, i32 3
  %872 = fmul float %869, %871
  %873 = fadd float %872, %849
  %874 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %875 = extractelement <4 x float> %874, i32 3
  %876 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 192)
  %877 = extractelement <4 x float> %876, i32 3
  %878 = fmul float %875, %877
  %879 = fadd float %878, %855
  %880 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %881 = extractelement <4 x float> %880, i32 0
  %882 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %883 = extractelement <4 x float> %882, i32 0
  %884 = fmul float %881, %883
  %885 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %886 = extractelement <4 x float> %885, i32 1
  %887 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %888 = extractelement <4 x float> %887, i32 0
  %889 = fmul float %886, %888
  %890 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %891 = extractelement <4 x float> %890, i32 2
  %892 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %893 = extractelement <4 x float> %892, i32 0
  %894 = fmul float %891, %893
  %895 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %896 = extractelement <4 x float> %895, i32 3
  %897 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %898 = extractelement <4 x float> %897, i32 0
  %899 = fmul float %896, %898
  %900 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %901 = extractelement <4 x float> %900, i32 0
  %902 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %903 = extractelement <4 x float> %902, i32 1
  %904 = fmul float %901, %903
  %905 = fadd float %904, %884
  %906 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %907 = extractelement <4 x float> %906, i32 1
  %908 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %909 = extractelement <4 x float> %908, i32 1
  %910 = fmul float %907, %909
  %911 = fadd float %910, %889
  %912 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %913 = extractelement <4 x float> %912, i32 2
  %914 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %915 = extractelement <4 x float> %914, i32 1
  %916 = fmul float %913, %915
  %917 = fadd float %916, %894
  %918 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %919 = extractelement <4 x float> %918, i32 3
  %920 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %921 = extractelement <4 x float> %920, i32 1
  %922 = fmul float %919, %921
  %923 = fadd float %922, %899
  %924 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %925 = extractelement <4 x float> %924, i32 0
  %926 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %927 = extractelement <4 x float> %926, i32 2
  %928 = fmul float %925, %927
  %929 = fadd float %928, %905
  %930 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %931 = extractelement <4 x float> %930, i32 1
  %932 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %933 = extractelement <4 x float> %932, i32 2
  %934 = fmul float %931, %933
  %935 = fadd float %934, %911
  %936 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %937 = extractelement <4 x float> %936, i32 2
  %938 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %939 = extractelement <4 x float> %938, i32 2
  %940 = fmul float %937, %939
  %941 = fadd float %940, %917
  %942 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %943 = extractelement <4 x float> %942, i32 3
  %944 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %945 = extractelement <4 x float> %944, i32 2
  %946 = fmul float %943, %945
  %947 = fadd float %946, %923
  %948 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %949 = extractelement <4 x float> %948, i32 0
  %950 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %951 = extractelement <4 x float> %950, i32 3
  %952 = fmul float %949, %951
  %953 = fadd float %952, %929
  %954 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %955 = extractelement <4 x float> %954, i32 1
  %956 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %957 = extractelement <4 x float> %956, i32 3
  %958 = fmul float %955, %957
  %959 = fadd float %958, %935
  %960 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %961 = extractelement <4 x float> %960, i32 2
  %962 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %963 = extractelement <4 x float> %962, i32 3
  %964 = fmul float %961, %963
  %965 = fadd float %964, %941
  %966 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %967 = extractelement <4 x float> %966, i32 3
  %968 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 191)
  %969 = extractelement <4 x float> %968, i32 3
  %970 = fmul float %967, %969
  %971 = fadd float %970, %947
  %972 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %973 = extractelement <4 x float> %972, i32 0
  %974 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %975 = extractelement <4 x float> %974, i32 0
  %976 = fmul float %973, %975
  %977 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %978 = extractelement <4 x float> %977, i32 1
  %979 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %980 = extractelement <4 x float> %979, i32 0
  %981 = fmul float %978, %980
  %982 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %983 = extractelement <4 x float> %982, i32 2
  %984 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %985 = extractelement <4 x float> %984, i32 0
  %986 = fmul float %983, %985
  %987 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %988 = extractelement <4 x float> %987, i32 3
  %989 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %990 = extractelement <4 x float> %989, i32 0
  %991 = fmul float %988, %990
  %992 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %993 = extractelement <4 x float> %992, i32 0
  %994 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %995 = extractelement <4 x float> %994, i32 1
  %996 = fmul float %993, %995
  %997 = fadd float %996, %976
  %998 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %999 = extractelement <4 x float> %998, i32 1
  %1000 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %1001 = extractelement <4 x float> %1000, i32 1
  %1002 = fmul float %999, %1001
  %1003 = fadd float %1002, %981
  %1004 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %1005 = extractelement <4 x float> %1004, i32 2
  %1006 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %1007 = extractelement <4 x float> %1006, i32 1
  %1008 = fmul float %1005, %1007
  %1009 = fadd float %1008, %986
  %1010 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %1011 = extractelement <4 x float> %1010, i32 3
  %1012 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %1013 = extractelement <4 x float> %1012, i32 1
  %1014 = fmul float %1011, %1013
  %1015 = fadd float %1014, %991
  %1016 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %1017 = extractelement <4 x float> %1016, i32 0
  %1018 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %1019 = extractelement <4 x float> %1018, i32 2
  %1020 = fmul float %1017, %1019
  %1021 = fadd float %1020, %997
  %1022 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %1023 = extractelement <4 x float> %1022, i32 1
  %1024 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %1025 = extractelement <4 x float> %1024, i32 2
  %1026 = fmul float %1023, %1025
  %1027 = fadd float %1026, %1003
  %1028 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %1029 = extractelement <4 x float> %1028, i32 2
  %1030 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %1031 = extractelement <4 x float> %1030, i32 2
  %1032 = fmul float %1029, %1031
  %1033 = fadd float %1032, %1009
  %1034 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %1035 = extractelement <4 x float> %1034, i32 3
  %1036 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %1037 = extractelement <4 x float> %1036, i32 2
  %1038 = fmul float %1035, %1037
  %1039 = fadd float %1038, %1015
  %1040 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %1041 = extractelement <4 x float> %1040, i32 0
  %1042 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %1043 = extractelement <4 x float> %1042, i32 3
  %1044 = fmul float %1041, %1043
  %1045 = fadd float %1044, %1021
  %1046 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %1047 = extractelement <4 x float> %1046, i32 1
  %1048 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %1049 = extractelement <4 x float> %1048, i32 3
  %1050 = fmul float %1047, %1049
  %1051 = fadd float %1050, %1027
  %1052 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %1053 = extractelement <4 x float> %1052, i32 2
  %1054 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %1055 = extractelement <4 x float> %1054, i32 3
  %1056 = fmul float %1053, %1055
  %1057 = fadd float %1056, %1033
  %1058 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %1059 = extractelement <4 x float> %1058, i32 3
  %1060 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 190)
  %1061 = extractelement <4 x float> %1060, i32 3
  %1062 = fmul float %1059, %1061
  %1063 = fadd float %1062, %1039
  %1064 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %1065 = extractelement <4 x float> %1064, i32 0
  %1066 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1067 = extractelement <4 x float> %1066, i32 0
  %1068 = fmul float %1065, %1067
  %1069 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %1070 = extractelement <4 x float> %1069, i32 1
  %1071 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1072 = extractelement <4 x float> %1071, i32 0
  %1073 = fmul float %1070, %1072
  %1074 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %1075 = extractelement <4 x float> %1074, i32 2
  %1076 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1077 = extractelement <4 x float> %1076, i32 0
  %1078 = fmul float %1075, %1077
  %1079 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 185)
  %1080 = extractelement <4 x float> %1079, i32 3
  %1081 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1082 = extractelement <4 x float> %1081, i32 0
  %1083 = fmul float %1080, %1082
  %1084 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %1085 = extractelement <4 x float> %1084, i32 0
  %1086 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1087 = extractelement <4 x float> %1086, i32 1
  %1088 = fmul float %1085, %1087
  %1089 = fadd float %1088, %1068
  %1090 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %1091 = extractelement <4 x float> %1090, i32 1
  %1092 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1093 = extractelement <4 x float> %1092, i32 1
  %1094 = fmul float %1091, %1093
  %1095 = fadd float %1094, %1073
  %1096 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %1097 = extractelement <4 x float> %1096, i32 2
  %1098 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1099 = extractelement <4 x float> %1098, i32 1
  %1100 = fmul float %1097, %1099
  %1101 = fadd float %1100, %1078
  %1102 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 186)
  %1103 = extractelement <4 x float> %1102, i32 3
  %1104 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1105 = extractelement <4 x float> %1104, i32 1
  %1106 = fmul float %1103, %1105
  %1107 = fadd float %1106, %1083
  %1108 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %1109 = extractelement <4 x float> %1108, i32 0
  %1110 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1111 = extractelement <4 x float> %1110, i32 2
  %1112 = fmul float %1109, %1111
  %1113 = fadd float %1112, %1089
  %1114 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %1115 = extractelement <4 x float> %1114, i32 1
  %1116 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1117 = extractelement <4 x float> %1116, i32 2
  %1118 = fmul float %1115, %1117
  %1119 = fadd float %1118, %1095
  %1120 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %1121 = extractelement <4 x float> %1120, i32 2
  %1122 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1123 = extractelement <4 x float> %1122, i32 2
  %1124 = fmul float %1121, %1123
  %1125 = fadd float %1124, %1101
  %1126 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 187)
  %1127 = extractelement <4 x float> %1126, i32 3
  %1128 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1129 = extractelement <4 x float> %1128, i32 2
  %1130 = fmul float %1127, %1129
  %1131 = fadd float %1130, %1107
  %1132 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %1133 = extractelement <4 x float> %1132, i32 0
  %1134 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1135 = extractelement <4 x float> %1134, i32 3
  %1136 = fmul float %1133, %1135
  %1137 = fadd float %1136, %1113
  %1138 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %1139 = extractelement <4 x float> %1138, i32 1
  %1140 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1141 = extractelement <4 x float> %1140, i32 3
  %1142 = fmul float %1139, %1141
  %1143 = fadd float %1142, %1119
  %1144 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %1145 = extractelement <4 x float> %1144, i32 2
  %1146 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1147 = extractelement <4 x float> %1146, i32 3
  %1148 = fmul float %1145, %1147
  %1149 = fadd float %1148, %1125
  %1150 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 188)
  %1151 = extractelement <4 x float> %1150, i32 3
  %1152 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 189)
  %1153 = extractelement <4 x float> %1152, i32 3
  %1154 = fmul float %1151, %1153
  %1155 = fadd float %1154, %1131
  %1156 = fmul float %1137, %784
  %1157 = fmul float %1143, %784
  %1158 = fmul float %1149, %784
  %1159 = fmul float %1155, %784
  %1160 = fmul float %1045, %785
  %1161 = fadd float %1160, %1156
  %1162 = fmul float %1051, %785
  %1163 = fadd float %1162, %1157
  %1164 = fmul float %1057, %785
  %1165 = fadd float %1164, %1158
  %1166 = fmul float %1063, %785
  %1167 = fadd float %1166, %1159
  %1168 = fmul float %953, %786
  %1169 = fadd float %1168, %1161
  %1170 = fmul float %959, %786
  %1171 = fadd float %1170, %1163
  %1172 = fmul float %965, %786
  %1173 = fadd float %1172, %1165
  %1174 = fmul float %971, %786
  %1175 = fadd float %1174, %1167
  %1176 = fmul float %861, %787
  %1177 = fadd float %1176, %1169
  %1178 = fmul float %867, %787
  %1179 = fadd float %1178, %1171
  %1180 = fmul float %873, %787
  %1181 = fadd float %1180, %1173
  %1182 = fmul float %879, %787
  %1183 = fadd float %1182, %1175
  %1184 = load <4 x float> addrspace(8)* null
  %1185 = extractelement <4 x float> %1184, i32 0
  %1186 = load <4 x float> addrspace(8)* null
  %1187 = extractelement <4 x float> %1186, i32 1
  %1188 = load <4 x float> addrspace(8)* null
  %1189 = extractelement <4 x float> %1188, i32 2
  %1190 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %1191 = extractelement <4 x float> %1190, i32 0
  %1192 = fmul float %1191, %477
  %1193 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %1194 = extractelement <4 x float> %1193, i32 1
  %1195 = fmul float %1194, %477
  %1196 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %1197 = extractelement <4 x float> %1196, i32 2
  %1198 = fmul float %1197, %477
  %1199 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %1200 = extractelement <4 x float> %1199, i32 0
  %1201 = fmul float %1200, %483
  %1202 = fadd float %1201, %1192
  %1203 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %1204 = extractelement <4 x float> %1203, i32 1
  %1205 = fmul float %1204, %483
  %1206 = fadd float %1205, %1195
  %1207 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %1208 = extractelement <4 x float> %1207, i32 2
  %1209 = fmul float %1208, %483
  %1210 = fadd float %1209, %1198
  %1211 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %1212 = extractelement <4 x float> %1211, i32 0
  %1213 = fmul float %1212, %489
  %1214 = fadd float %1213, %1202
  %1215 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %1216 = extractelement <4 x float> %1215, i32 1
  %1217 = fmul float %1216, %489
  %1218 = fadd float %1217, %1206
  %1219 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %1220 = extractelement <4 x float> %1219, i32 2
  %1221 = fmul float %1220, %489
  %1222 = fadd float %1221, %1210
  %1223 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %1224 = extractelement <4 x float> %1223, i32 0
  %1225 = fmul float %1224, %495
  %1226 = fadd float %1225, %1214
  %1227 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %1228 = extractelement <4 x float> %1227, i32 1
  %1229 = fmul float %1228, %495
  %1230 = fadd float %1229, %1218
  %1231 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %1232 = extractelement <4 x float> %1231, i32 2
  %1233 = fmul float %1232, %495
  %1234 = fadd float %1233, %1222
  %1235 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %1236 = extractelement <4 x float> %1235, i32 0
  %1237 = fmul float %1236, %449
  %1238 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %1239 = extractelement <4 x float> %1238, i32 1
  %1240 = fmul float %1239, %449
  %1241 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %1242 = extractelement <4 x float> %1241, i32 2
  %1243 = fmul float %1242, %449
  %1244 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %1245 = extractelement <4 x float> %1244, i32 0
  %1246 = fmul float %1245, %455
  %1247 = fadd float %1246, %1237
  %1248 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %1249 = extractelement <4 x float> %1248, i32 1
  %1250 = fmul float %1249, %455
  %1251 = fadd float %1250, %1240
  %1252 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %1253 = extractelement <4 x float> %1252, i32 2
  %1254 = fmul float %1253, %455
  %1255 = fadd float %1254, %1243
  %1256 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %1257 = extractelement <4 x float> %1256, i32 0
  %1258 = fmul float %1257, %461
  %1259 = fadd float %1258, %1247
  %1260 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %1261 = extractelement <4 x float> %1260, i32 1
  %1262 = fmul float %1261, %461
  %1263 = fadd float %1262, %1251
  %1264 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %1265 = extractelement <4 x float> %1264, i32 2
  %1266 = fmul float %1265, %461
  %1267 = fadd float %1266, %1255
  %1268 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %1269 = extractelement <4 x float> %1268, i32 0
  %1270 = fmul float %1269, %467
  %1271 = fadd float %1270, %1259
  %1272 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %1273 = extractelement <4 x float> %1272, i32 1
  %1274 = fmul float %1273, %467
  %1275 = fadd float %1274, %1263
  %1276 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %1277 = extractelement <4 x float> %1276, i32 2
  %1278 = fmul float %1277, %467
  %1279 = fadd float %1278, %1267
  %1280 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %1281 = extractelement <4 x float> %1280, i32 0
  %1282 = fmul float %1281, %421
  %1283 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %1284 = extractelement <4 x float> %1283, i32 1
  %1285 = fmul float %1284, %421
  %1286 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 181)
  %1287 = extractelement <4 x float> %1286, i32 2
  %1288 = fmul float %1287, %421
  %1289 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %1290 = extractelement <4 x float> %1289, i32 0
  %1291 = fmul float %1290, %427
  %1292 = fadd float %1291, %1282
  %1293 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %1294 = extractelement <4 x float> %1293, i32 1
  %1295 = fmul float %1294, %427
  %1296 = fadd float %1295, %1285
  %1297 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 182)
  %1298 = extractelement <4 x float> %1297, i32 2
  %1299 = fmul float %1298, %427
  %1300 = fadd float %1299, %1288
  %1301 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %1302 = extractelement <4 x float> %1301, i32 0
  %1303 = fmul float %1302, %433
  %1304 = fadd float %1303, %1292
  %1305 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %1306 = extractelement <4 x float> %1305, i32 1
  %1307 = fmul float %1306, %433
  %1308 = fadd float %1307, %1296
  %1309 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 183)
  %1310 = extractelement <4 x float> %1309, i32 2
  %1311 = fmul float %1310, %433
  %1312 = fadd float %1311, %1300
  %1313 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %1314 = extractelement <4 x float> %1313, i32 0
  %1315 = fmul float %1314, %439
  %1316 = fadd float %1315, %1304
  %1317 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %1318 = extractelement <4 x float> %1317, i32 1
  %1319 = fmul float %1318, %439
  %1320 = fadd float %1319, %1308
  %1321 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 184)
  %1322 = extractelement <4 x float> %1321, i32 2
  %1323 = fmul float %1322, %439
  %1324 = fadd float %1323, %1312
  %1325 = fmul float %1316, %12
  %1326 = fmul float %1320, %12
  %1327 = fmul float %1324, %12
  %1328 = fmul float %1271, %13
  %1329 = fadd float %1328, %1325
  %1330 = fmul float %1275, %13
  %1331 = fadd float %1330, %1326
  %1332 = fmul float %1279, %13
  %1333 = fadd float %1332, %1327
  %1334 = fmul float %1226, %14
  %1335 = fadd float %1334, %1329
  %1336 = fmul float %1230, %14
  %1337 = fadd float %1336, %1331
  %1338 = fmul float %1234, %14
  %1339 = fadd float %1338, %1333
  %1340 = insertelement <4 x float> undef, float %1177, i32 0
  %1341 = insertelement <4 x float> %1340, float %1179, i32 1
  %1342 = insertelement <4 x float> %1341, float %1181, i32 2
  %1343 = insertelement <4 x float> %1342, float %1183, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %1343, i32 60, i32 1)
  %1344 = insertelement <4 x float> undef, float %8, i32 0
  %1345 = insertelement <4 x float> %1344, float %9, i32 1
  %1346 = insertelement <4 x float> %1345, float %1185, i32 2
  %1347 = insertelement <4 x float> %1346, float %1187, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %1347, i32 0, i32 2)
  %1348 = insertelement <4 x float> undef, float %1189, i32 0
  %1349 = insertelement <4 x float> %1348, float %1335, i32 1
  %1350 = insertelement <4 x float> %1349, float %1337, i32 2
  %1351 = insertelement <4 x float> %1350, float %1339, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %1351, i32 1, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 758 dw -- 20 gprs -- 1 nstack -------------
shader 49 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R16G16B16A16_SSCALED, }
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 1, src_format = PIPE_FORMAT_R32G32B32A32_FLOAT, }
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 2, src_format = PIPE_FORMAT_R32G32_FLOAT, }
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 3, src_format = PIPE_FORMAT_R32G32B32_FLOAT, }
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 4, src_format = PIPE_FORMAT_R32G32B32_FLOAT, }
bytecode 24 dw -- 6 gprs -- 0 nstack -------------
shader 50 -- 6
0000 00000002 81001000  VTX 5 @4 
 0004 7C00A000 E7CD1001 00080000   VFETCH         R1.xyzw, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:31 NUM:2 COMP:1 MODE:1)
 0008 7C00A100 88CD1002 00080000   VFETCH         R2.xyzw, R0.x,  RID:161 VERTEX MFC:31 UCF:0 FMT(DTA:35 NUM:0 COMP:0 MODE:1)
 0012 7C00A200 87961003 00080000   VFETCH         R3.xy01, R0.x,  RID:162 VERTEX MFC:31 UCF:0 FMT(DTA:30 NUM:0 COMP:0 MODE:1)
 0016 7C00A300 8C151004 00080000   VFETCH         R4.xyz1, R0.x,  RID:163 VERTEX MFC:31 UCF:0 FMT(DTA:48 NUM:0 COMP:0 MODE:1)
 0020 7C00A400 8C151005 00080000   VFETCH         R5.xyz1, R0.x,  RID:164 VERTEX MFC:31 UCF:0 FMT(DTA:48 NUM:0 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
PROPERTY FS_COLOR0_WRITES_ALL_CBUFS 1
DCL IN[0], GENERIC[19], PERSPECTIVE
DCL IN[1], GENERIC[20], PERSPECTIVE
DCL OUT[0], COLOR
DCL SAMP[0]
DCL CONST[0..1]
DCL TEMP[0..4], LOCAL
IMM[0] FLT32 {    0,7500,     0,2500,     0,0000,     2,0000}
  0: MOV TEMP[0].z, IN[1].xxxx
  1: MOV TEMP[0].xy, IN[0].zwzz
  2: MOV TEMP[1].xy, IN[0].xyyy
  3: TEX TEMP[1], TEMP[1], SAMP[0], 2D
  4: MOV TEMP[2].xyz, CONST[1]
  5: DP3 TEMP[3].x, IN[1].yzww, IN[1].yzww
  6: RSQ TEMP[3].x, TEMP[3].xxxx
  7: MUL TEMP[3].xyz, IN[1].yzww, TEMP[3].xxxx
  8: DP3 TEMP[4].x, TEMP[0].xyzz, TEMP[0].xyzz
  9: RSQ TEMP[4].x, TEMP[4].xxxx
 10: MUL TEMP[0].xyz, TEMP[0].xyzz, TEMP[4].xxxx
 11: DP3 TEMP[0].x, TEMP[3].xyzz, TEMP[0].xyzz
 12: MAD TEMP[0].x, TEMP[0].xxxx, IMM[0].xxxx, IMM[0].yyyy
 13: SLT TEMP[3].x, IMM[0].zzzz, TEMP[0].xxxx
 14: F2I TEMP[3].x, -TEMP[3]
 15: UIF TEMP[3].xxxx :0
 16:   MUL TEMP[0], CONST[0], TEMP[0].xxxx
 17:   MAD TEMP[2].xyz, TEMP[0], IMM[0].wwww, CONST[1]
 18: ENDIF
 19: MUL TEMP[0].xyz, TEMP[1].xyzz, TEMP[2].xyzz
 20: MOV TEMP[0].w, TEMP[1].wwww
 21: MOV OUT[0], TEMP[0]
 22: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = call float @llvm.R600.load.input(i32 4)
  %5 = call float @llvm.R600.load.input(i32 5)
  %6 = call float @llvm.R600.load.input(i32 6)
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> undef, float %0, i32 0
  %9 = insertelement <4 x float> %8, float %1, i32 1
  %10 = insertelement <4 x float> %9, float 0,000000e+00, i32 2
  %11 = insertelement <4 x float> %10, float 0,000000e+00, i32 3
  %12 = extractelement <4 x float> %11, i32 0
  %13 = extractelement <4 x float> %11, i32 1
  %14 = insertelement <4 x float> undef, float %12, i32 0
  %15 = insertelement <4 x float> %14, float %13, i32 1
  %16 = insertelement <4 x float> %15, float undef, i32 2
  %17 = insertelement <4 x float> %16, float undef, i32 3
  %18 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %17, i32 16, i32 0, i32 2)
  %19 = extractelement <4 x float> %18, i32 0
  %20 = extractelement <4 x float> %18, i32 1
  %21 = extractelement <4 x float> %18, i32 2
  %22 = extractelement <4 x float> %18, i32 3
  %23 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %24 = extractelement <4 x float> %23, i32 0
  %25 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %26 = extractelement <4 x float> %25, i32 1
  %27 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %28 = extractelement <4 x float> %27, i32 2
  %29 = insertelement <4 x float> undef, float %5, i32 0
  %30 = insertelement <4 x float> %29, float %6, i32 1
  %31 = insertelement <4 x float> %30, float %7, i32 2
  %32 = insertelement <4 x float> %31, float 0,000000e+00, i32 3
  %33 = insertelement <4 x float> undef, float %5, i32 0
  %34 = insertelement <4 x float> %33, float %6, i32 1
  %35 = insertelement <4 x float> %34, float %7, i32 2
  %36 = insertelement <4 x float> %35, float 0,000000e+00, i32 3
  %37 = call float @llvm.AMDGPU.dp4(<4 x float> %32, <4 x float> %36)
  %38 = call float @fabs(float %37)
  %39 = call float @llvm.AMDGPU.rsq(float %38)
  %40 = fmul float %5, %39
  %41 = fmul float %6, %39
  %42 = fmul float %7, %39
  %43 = insertelement <4 x float> undef, float %2, i32 0
  %44 = insertelement <4 x float> %43, float %3, i32 1
  %45 = insertelement <4 x float> %44, float %4, i32 2
  %46 = insertelement <4 x float> %45, float 0,000000e+00, i32 3
  %47 = insertelement <4 x float> undef, float %2, i32 0
  %48 = insertelement <4 x float> %47, float %3, i32 1
  %49 = insertelement <4 x float> %48, float %4, i32 2
  %50 = insertelement <4 x float> %49, float 0,000000e+00, i32 3
  %51 = call float @llvm.AMDGPU.dp4(<4 x float> %46, <4 x float> %50)
  %52 = call float @fabs(float %51)
  %53 = call float @llvm.AMDGPU.rsq(float %52)
  %54 = fmul float %2, %53
  %55 = fmul float %3, %53
  %56 = fmul float %4, %53
  %57 = insertelement <4 x float> undef, float %40, i32 0
  %58 = insertelement <4 x float> %57, float %41, i32 1
  %59 = insertelement <4 x float> %58, float %42, i32 2
  %60 = insertelement <4 x float> %59, float 0,000000e+00, i32 3
  %61 = insertelement <4 x float> undef, float %54, i32 0
  %62 = insertelement <4 x float> %61, float %55, i32 1
  %63 = insertelement <4 x float> %62, float %56, i32 2
  %64 = insertelement <4 x float> %63, float 0,000000e+00, i32 3
  %65 = call float @llvm.AMDGPU.dp4(<4 x float> %60, <4 x float> %64)
  %66 = fmul float %65, 0x3FE8000000000000
  %67 = fadd float %66, 0x3FD0000000000000
  %68 = fcmp ult float 0,000000e+00, %67
  %69 = select i1 %68, float 0x3FF0000000000000, float 0,000000e+00
  %70 = fsub float -0,000000e+00, %69
  %71 = fptosi float %70 to i32
  %72 = bitcast i32 %71 to float
  %73 = bitcast float %72 to i32
  %74 = icmp ne i32 %73, 0
  br i1 %74, label %IF, label %ENDIF

IF:                                               ; preds = %main_body
  %75 = load <4 x float> addrspace(8)* null
  %76 = extractelement <4 x float> %75, i32 0
  %77 = fmul float %76, %67
  %78 = load <4 x float> addrspace(8)* null
  %79 = extractelement <4 x float> %78, i32 1
  %80 = fmul float %79, %67
  %81 = load <4 x float> addrspace(8)* null
  %82 = extractelement <4 x float> %81, i32 2
  %83 = fmul float %82, %67
  %84 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %85 = extractelement <4 x float> %84, i32 0
  %86 = fmul float %77, 0x4000000000000000
  %87 = fadd float %86, %85
  %88 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %89 = extractelement <4 x float> %88, i32 1
  %90 = fmul float %80, 0x4000000000000000
  %91 = fadd float %90, %89
  %92 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %93 = extractelement <4 x float> %92, i32 2
  %94 = fmul float %83, 0x4000000000000000
  %95 = fadd float %94, %93
  br label %ENDIF

ENDIF:                                            ; preds = %main_body, %IF
  %temp8.0 = phi float [ %87, %IF ], [ %24, %main_body ]
  %temp9.0 = phi float [ %91, %IF ], [ %26, %main_body ]
  %temp10.0 = phi float [ %95, %IF ], [ %28, %main_body ]
  %96 = fmul float %19, %temp8.0
  %97 = fmul float %20, %temp9.0
  %98 = fmul float %21, %temp10.0
  %99 = insertelement <4 x float> undef, float %96, i32 0
  %100 = insertelement <4 x float> %99, float %97, i32 1
  %101 = insertelement <4 x float> %100, float %98, i32 2
  %102 = insertelement <4 x float> %101, float %22, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %102, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

; Function Attrs: readnone
declare <4 x float> @llvm.AMDGPU.tex(<4 x float>, i32, i32, i32) #1

; Function Attrs: readnone
declare float @llvm.AMDGPU.dp4(<4 x float>, <4 x float>) #1

; Function Attrs: readonly
declare float @fabs(float) #2

; Function Attrs: readnone
declare float @llvm.AMDGPU.rsq(float) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
attributes #2 = { readonly }
--------------------------------------------------------------
bytecode 120 dw -- 7 gprs -- 1 nstack -------------
shader 51 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL IN[2]
DCL IN[3]
DCL IN[4]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[19]
DCL OUT[2], GENERIC[20]
DCL CONST[0..60]
DCL TEMP[0..3], ARRAY(1), LOCAL
DCL TEMP[4..7], ARRAY(2), LOCAL
DCL TEMP[8..10], LOCAL
DCL TEMP[11..14], ARRAY(3), LOCAL
DCL TEMP[15..18], ARRAY(4), LOCAL
DCL TEMP[19..22], ARRAY(5), LOCAL
DCL TEMP[23..26], ARRAY(6), LOCAL
DCL TEMP[27..29], LOCAL
DCL ADDR[0]
IMM[0] FLT32 {    0,0000,     0,0000,     0,0000,     0,0000}
IMM[1] INT32 {0, 11, 4, 0}
  0: MOV TEMP[0], IMM[0].xxxx
  1: MOV TEMP[1], IMM[0].xxxx
  2: MOV TEMP[2], IMM[0].xxxx
  3: MOV TEMP[3], IMM[0].xxxx
  4: MOV TEMP[4], TEMP[0]
  5: MOV TEMP[5], TEMP[1]
  6: MOV TEMP[6], TEMP[2]
  7: MOV TEMP[7], TEMP[3]
  8: F2I TEMP[8].x, IN[0].xxxx
  9: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
 10: UIF TEMP[9].xxxx :0
 11:   MOV TEMP[9].x, IMM[1].xxxx
 12: ELSE :0
 13:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
 14:   UIF TEMP[10].xxxx :0
 15:     MOV TEMP[10].x, IMM[1].yyyy
 16:   ELSE :0
 17:     MOV TEMP[10].x, TEMP[8].xxxx
 18:   ENDIF
 19:   MOV TEMP[9].x, TEMP[10].xxxx
 20: ENDIF
 21: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 22: UARL ADDR[0].x, TEMP[8].xxxx
 23: UARL ADDR[0].x, TEMP[8].xxxx
 24: MAD TEMP[11], CONST[ADDR[0].x+1], IN[1].xxxx, TEMP[4]
 25: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 26: UARL ADDR[0].x, TEMP[8].xxxx
 27: UARL ADDR[0].x, TEMP[8].xxxx
 28: MAD TEMP[12], CONST[ADDR[0].x+2], IN[1].xxxx, TEMP[5]
 29: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 30: UARL ADDR[0].x, TEMP[8].xxxx
 31: UARL ADDR[0].x, TEMP[8].xxxx
 32: MAD TEMP[13], CONST[ADDR[0].x+3], IN[1].xxxx, TEMP[6]
 33: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 34: UARL ADDR[0].x, TEMP[8].xxxx
 35: UARL ADDR[0].x, TEMP[8].xxxx
 36: MAD TEMP[14], CONST[ADDR[0].x+4], IN[1].xxxx, TEMP[7]
 37: MOV TEMP[4], TEMP[11]
 38: MOV TEMP[5], TEMP[12]
 39: MOV TEMP[6], TEMP[13]
 40: MOV TEMP[7], TEMP[14]
 41: F2I TEMP[8].x, IN[0].yyyy
 42: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
 43: UIF TEMP[9].xxxx :0
 44:   MOV TEMP[9].x, IMM[1].xxxx
 45: ELSE :0
 46:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
 47:   UIF TEMP[10].xxxx :0
 48:     MOV TEMP[10].x, IMM[1].yyyy
 49:   ELSE :0
 50:     MOV TEMP[10].x, TEMP[8].xxxx
 51:   ENDIF
 52:   MOV TEMP[9].x, TEMP[10].xxxx
 53: ENDIF
 54: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 55: UARL ADDR[0].x, TEMP[8].xxxx
 56: UARL ADDR[0].x, TEMP[8].xxxx
 57: MAD TEMP[15], CONST[ADDR[0].x+1], IN[1].yyyy, TEMP[11]
 58: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 59: UARL ADDR[0].x, TEMP[8].xxxx
 60: UARL ADDR[0].x, TEMP[8].xxxx
 61: MAD TEMP[16], CONST[ADDR[0].x+2], IN[1].yyyy, TEMP[12]
 62: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 63: UARL ADDR[0].x, TEMP[8].xxxx
 64: UARL ADDR[0].x, TEMP[8].xxxx
 65: MAD TEMP[17], CONST[ADDR[0].x+3], IN[1].yyyy, TEMP[13]
 66: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 67: UARL ADDR[0].x, TEMP[8].xxxx
 68: UARL ADDR[0].x, TEMP[8].xxxx
 69: MAD TEMP[18], CONST[ADDR[0].x+4], IN[1].yyyy, TEMP[14]
 70: MOV TEMP[4], TEMP[15]
 71: MOV TEMP[5], TEMP[16]
 72: MOV TEMP[6], TEMP[17]
 73: MOV TEMP[7], TEMP[18]
 74: F2I TEMP[8].x, IN[0].zzzz
 75: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
 76: UIF TEMP[9].xxxx :0
 77:   MOV TEMP[9].x, IMM[1].xxxx
 78: ELSE :0
 79:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
 80:   UIF TEMP[10].xxxx :0
 81:     MOV TEMP[10].x, IMM[1].yyyy
 82:   ELSE :0
 83:     MOV TEMP[10].x, TEMP[8].xxxx
 84:   ENDIF
 85:   MOV TEMP[9].x, TEMP[10].xxxx
 86: ENDIF
 87: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 88: UARL ADDR[0].x, TEMP[8].xxxx
 89: UARL ADDR[0].x, TEMP[8].xxxx
 90: MAD TEMP[19], CONST[ADDR[0].x+1], IN[1].zzzz, TEMP[15]
 91: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 92: UARL ADDR[0].x, TEMP[8].xxxx
 93: UARL ADDR[0].x, TEMP[8].xxxx
 94: MAD TEMP[20], CONST[ADDR[0].x+2], IN[1].zzzz, TEMP[16]
 95: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 96: UARL ADDR[0].x, TEMP[8].xxxx
 97: UARL ADDR[0].x, TEMP[8].xxxx
 98: MAD TEMP[21], CONST[ADDR[0].x+3], IN[1].zzzz, TEMP[17]
 99: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
100: UARL ADDR[0].x, TEMP[8].xxxx
101: UARL ADDR[0].x, TEMP[8].xxxx
102: MAD TEMP[22], CONST[ADDR[0].x+4], IN[1].zzzz, TEMP[18]
103: MOV TEMP[4], TEMP[19]
104: MOV TEMP[5], TEMP[20]
105: MOV TEMP[6], TEMP[21]
106: MOV TEMP[7], TEMP[22]
107: F2I TEMP[8].x, IN[0].wwww
108: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
109: UIF TEMP[9].xxxx :0
110:   MOV TEMP[9].x, IMM[1].xxxx
111: ELSE :0
112:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
113:   UIF TEMP[10].xxxx :0
114:     MOV TEMP[10].x, IMM[1].yyyy
115:   ELSE :0
116:     MOV TEMP[10].x, TEMP[8].xxxx
117:   ENDIF
118:   MOV TEMP[9].x, TEMP[10].xxxx
119: ENDIF
120: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
121: UARL ADDR[0].x, TEMP[8].xxxx
122: UARL ADDR[0].x, TEMP[8].xxxx
123: MAD TEMP[23], CONST[ADDR[0].x+1], IN[1].wwww, TEMP[19]
124: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
125: UARL ADDR[0].x, TEMP[8].xxxx
126: UARL ADDR[0].x, TEMP[8].xxxx
127: MAD TEMP[24], CONST[ADDR[0].x+2], IN[1].wwww, TEMP[20]
128: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
129: UARL ADDR[0].x, TEMP[8].xxxx
130: UARL ADDR[0].x, TEMP[8].xxxx
131: MAD TEMP[25], CONST[ADDR[0].x+3], IN[1].wwww, TEMP[21]
132: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
133: UARL ADDR[0].x, TEMP[8].xxxx
134: UARL ADDR[0].x, TEMP[8].xxxx
135: MAD TEMP[26], CONST[ADDR[0].x+4], IN[1].wwww, TEMP[22]
136: MOV TEMP[4], TEMP[23]
137: MOV TEMP[5], TEMP[24]
138: MOV TEMP[6], TEMP[25]
139: MOV TEMP[7], TEMP[26]
140: MUL TEMP[8], CONST[49], TEMP[25].xxxx
141: MAD TEMP[8], CONST[50], TEMP[25].yyyy, TEMP[8]
142: MAD TEMP[8], CONST[51], TEMP[25].zzzz, TEMP[8]
143: MAD TEMP[8], CONST[52], TEMP[25].wwww, TEMP[8]
144: MUL TEMP[9], CONST[49], TEMP[24].xxxx
145: MAD TEMP[9], CONST[50], TEMP[24].yyyy, TEMP[9]
146: MAD TEMP[9], CONST[51], TEMP[24].zzzz, TEMP[9]
147: MAD TEMP[9], CONST[52], TEMP[24].wwww, TEMP[9]
148: MUL TEMP[10], CONST[49], TEMP[23].xxxx
149: MAD TEMP[10], CONST[50], TEMP[23].yyyy, TEMP[10]
150: MAD TEMP[10], CONST[51], TEMP[23].zzzz, TEMP[10]
151: MAD TEMP[10], CONST[52], TEMP[23].wwww, TEMP[10]
152: MUL TEMP[10], TEMP[10], IN[4].xxxx
153: MAD TEMP[9], TEMP[9], IN[4].yyyy, TEMP[10]
154: MAD TEMP[8], TEMP[8], IN[4].zzzz, TEMP[9]
155: MUL TEMP[9], CONST[49], TEMP[26].xxxx
156: MAD TEMP[9], CONST[50], TEMP[26].yyyy, TEMP[9]
157: MAD TEMP[9], CONST[51], TEMP[26].zzzz, TEMP[9]
158: MAD TEMP[9], CONST[52], TEMP[26].wwww, TEMP[9]
159: ADD TEMP[8], TEMP[8], TEMP[9]
160: MUL TEMP[9], CONST[53], CONST[60].xxxx
161: MAD TEMP[9], CONST[54], CONST[60].yyyy, TEMP[9]
162: MAD TEMP[9], CONST[55], CONST[60].zzzz, TEMP[9]
163: MAD TEMP[9], CONST[56], CONST[60].wwww, TEMP[9]
164: MUL TEMP[10], CONST[53], CONST[59].xxxx
165: MAD TEMP[10], CONST[54], CONST[59].yyyy, TEMP[10]
166: MAD TEMP[10], CONST[55], CONST[59].zzzz, TEMP[10]
167: MAD TEMP[10], CONST[56], CONST[59].wwww, TEMP[10]
168: MUL TEMP[27], CONST[53], CONST[58].xxxx
169: MAD TEMP[27], CONST[54], CONST[58].yyyy, TEMP[27]
170: MAD TEMP[27], CONST[55], CONST[58].zzzz, TEMP[27]
171: MAD TEMP[27], CONST[56], CONST[58].wwww, TEMP[27]
172: MUL TEMP[28], CONST[53], CONST[57].xxxx
173: MAD TEMP[28], CONST[54], CONST[57].yyyy, TEMP[28]
174: MAD TEMP[28], CONST[55], CONST[57].zzzz, TEMP[28]
175: MAD TEMP[28], CONST[56], CONST[57].wwww, TEMP[28]
176: MUL TEMP[28], TEMP[28], TEMP[8].xxxx
177: MAD TEMP[27], TEMP[27], TEMP[8].yyyy, TEMP[28]
178: MAD TEMP[10], TEMP[10], TEMP[8].zzzz, TEMP[27]
179: MAD TEMP[8], TEMP[9], TEMP[8].wwww, TEMP[10]
180: MOV TEMP[9].xy, IN[2].xyxx
181: MOV TEMP[9].zw, CONST[0].yyxy
182: MOV TEMP[10].x, CONST[0].zzzz
183: MUL TEMP[27], CONST[49], TEMP[25].xxxx
184: MAD TEMP[27], CONST[50], TEMP[25].yyyy, TEMP[27]
185: MAD TEMP[27], CONST[51], TEMP[25].zzzz, TEMP[27]
186: MAD TEMP[27], CONST[52], TEMP[25].wwww, TEMP[27]
187: MUL TEMP[28], CONST[49], TEMP[24].xxxx
188: MAD TEMP[28], CONST[50], TEMP[24].yyyy, TEMP[28]
189: MAD TEMP[28], CONST[51], TEMP[24].zzzz, TEMP[28]
190: MAD TEMP[28], CONST[52], TEMP[24].wwww, TEMP[28]
191: MUL TEMP[29], CONST[49], TEMP[23].xxxx
192: MAD TEMP[29], CONST[50], TEMP[23].yyyy, TEMP[29]
193: MAD TEMP[29], CONST[51], TEMP[23].zzzz, TEMP[29]
194: MAD TEMP[29], CONST[52], TEMP[23].wwww, TEMP[29]
195: MUL TEMP[29], TEMP[29], IN[3].xxxx
196: MAD TEMP[28], TEMP[28], IN[3].yyyy, TEMP[29]
197: MAD TEMP[27].xyz, TEMP[27], IN[3].zzzz, TEMP[28]
198: MOV TEMP[10].yzw, TEMP[27].yxyz
199: MOV OUT[1], TEMP[9]
200: MOV OUT[2], TEMP[10]
201: MOV OUT[0], TEMP[8]
202: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = call float @llvm.R600.load.input(i32 12)
  %9 = call float @llvm.R600.load.input(i32 13)
  %10 = call float @llvm.R600.load.input(i32 14)
  %11 = call float @llvm.R600.load.input(i32 15)
  %12 = call float @llvm.R600.load.input(i32 16)
  %13 = call float @llvm.R600.load.input(i32 17)
  %14 = call float @llvm.R600.load.input(i32 18)
  %15 = call float @llvm.R600.load.input(i32 19)
  %16 = call float @llvm.R600.load.input(i32 20)
  %17 = call float @llvm.R600.load.input(i32 21)
  %18 = call float @llvm.R600.load.input(i32 22)
  %19 = call float @llvm.R600.load.input(i32 23)
  %20 = fptosi float %0 to i32
  %21 = bitcast i32 %20 to float
  %22 = bitcast float %21 to i32
  %23 = icmp slt i32 %22, 0
  %24 = sext i1 %23 to i32
  %25 = bitcast i32 %24 to float
  %26 = bitcast float %25 to i32
  %27 = icmp ne i32 %26, 0
  br i1 %27, label %ENDIF, label %ELSE

ELSE:                                             ; preds = %main_body
  %28 = bitcast float %21 to i32
  %29 = icmp slt i32 11, %28
  %30 = sext i1 %29 to i32
  %31 = bitcast i32 %30 to float
  %32 = bitcast float %31 to i32
  %33 = icmp ne i32 %32, 0
  %. = select i1 %33, float 0,000000e+00, float %21
  br label %ENDIF

ENDIF:                                            ; preds = %main_body, %ELSE
  %temp36.0 = phi float [ %., %ELSE ], [ 0,000000e+00, %main_body ]
  %34 = bitcast float %temp36.0 to i32
  %35 = mul i32 %34, 4
  %36 = bitcast i32 %35 to float
  %37 = bitcast float %36 to i32
  %38 = add i32 1, %37
  %39 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %38
  %40 = load <4 x float> addrspace(8)* %39
  %41 = extractelement <4 x float> %40, i32 0
  %42 = fmul float %41, %4
  %43 = fadd float %42, 0,000000e+00
  %44 = add i32 1, %37
  %45 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %44
  %46 = load <4 x float> addrspace(8)* %45
  %47 = extractelement <4 x float> %46, i32 1
  %48 = fmul float %47, %4
  %49 = fadd float %48, 0,000000e+00
  %50 = add i32 1, %37
  %51 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %50
  %52 = load <4 x float> addrspace(8)* %51
  %53 = extractelement <4 x float> %52, i32 2
  %54 = fmul float %53, %4
  %55 = fadd float %54, 0,000000e+00
  %56 = add i32 1, %37
  %57 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %56
  %58 = load <4 x float> addrspace(8)* %57
  %59 = extractelement <4 x float> %58, i32 3
  %60 = fmul float %59, %4
  %61 = fadd float %60, 0,000000e+00
  %62 = bitcast float %temp36.0 to i32
  %63 = mul i32 %62, 4
  %64 = bitcast i32 %63 to float
  %65 = bitcast float %64 to i32
  %66 = add i32 2, %65
  %67 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %66
  %68 = load <4 x float> addrspace(8)* %67
  %69 = extractelement <4 x float> %68, i32 0
  %70 = fmul float %69, %4
  %71 = fadd float %70, 0,000000e+00
  %72 = add i32 2, %65
  %73 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %72
  %74 = load <4 x float> addrspace(8)* %73
  %75 = extractelement <4 x float> %74, i32 1
  %76 = fmul float %75, %4
  %77 = fadd float %76, 0,000000e+00
  %78 = add i32 2, %65
  %79 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %78
  %80 = load <4 x float> addrspace(8)* %79
  %81 = extractelement <4 x float> %80, i32 2
  %82 = fmul float %81, %4
  %83 = fadd float %82, 0,000000e+00
  %84 = add i32 2, %65
  %85 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %84
  %86 = load <4 x float> addrspace(8)* %85
  %87 = extractelement <4 x float> %86, i32 3
  %88 = fmul float %87, %4
  %89 = fadd float %88, 0,000000e+00
  %90 = bitcast float %temp36.0 to i32
  %91 = mul i32 %90, 4
  %92 = bitcast i32 %91 to float
  %93 = bitcast float %92 to i32
  %94 = add i32 3, %93
  %95 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %94
  %96 = load <4 x float> addrspace(8)* %95
  %97 = extractelement <4 x float> %96, i32 0
  %98 = fmul float %97, %4
  %99 = fadd float %98, 0,000000e+00
  %100 = add i32 3, %93
  %101 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %100
  %102 = load <4 x float> addrspace(8)* %101
  %103 = extractelement <4 x float> %102, i32 1
  %104 = fmul float %103, %4
  %105 = fadd float %104, 0,000000e+00
  %106 = add i32 3, %93
  %107 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %106
  %108 = load <4 x float> addrspace(8)* %107
  %109 = extractelement <4 x float> %108, i32 2
  %110 = fmul float %109, %4
  %111 = fadd float %110, 0,000000e+00
  %112 = add i32 3, %93
  %113 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %112
  %114 = load <4 x float> addrspace(8)* %113
  %115 = extractelement <4 x float> %114, i32 3
  %116 = fmul float %115, %4
  %117 = fadd float %116, 0,000000e+00
  %118 = bitcast float %temp36.0 to i32
  %119 = mul i32 %118, 4
  %120 = bitcast i32 %119 to float
  %121 = bitcast float %120 to i32
  %122 = add i32 4, %121
  %123 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %122
  %124 = load <4 x float> addrspace(8)* %123
  %125 = extractelement <4 x float> %124, i32 0
  %126 = fmul float %125, %4
  %127 = fadd float %126, 0,000000e+00
  %128 = add i32 4, %121
  %129 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %128
  %130 = load <4 x float> addrspace(8)* %129
  %131 = extractelement <4 x float> %130, i32 1
  %132 = fmul float %131, %4
  %133 = fadd float %132, 0,000000e+00
  %134 = add i32 4, %121
  %135 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %134
  %136 = load <4 x float> addrspace(8)* %135
  %137 = extractelement <4 x float> %136, i32 2
  %138 = fmul float %137, %4
  %139 = fadd float %138, 0,000000e+00
  %140 = add i32 4, %121
  %141 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %140
  %142 = load <4 x float> addrspace(8)* %141
  %143 = extractelement <4 x float> %142, i32 3
  %144 = fmul float %143, %4
  %145 = fadd float %144, 0,000000e+00
  %146 = fptosi float %1 to i32
  %147 = bitcast i32 %146 to float
  %148 = bitcast float %147 to i32
  %149 = icmp slt i32 %148, 0
  %150 = sext i1 %149 to i32
  %151 = bitcast i32 %150 to float
  %152 = bitcast float %151 to i32
  %153 = icmp ne i32 %152, 0
  br i1 %153, label %ENDIF123, label %ELSE125

ELSE125:                                          ; preds = %ENDIF
  %154 = bitcast float %147 to i32
  %155 = icmp slt i32 11, %154
  %156 = sext i1 %155 to i32
  %157 = bitcast i32 %156 to float
  %158 = bitcast float %157 to i32
  %159 = icmp ne i32 %158, 0
  %.141 = select i1 %159, float 0,000000e+00, float %147
  br label %ENDIF123

ENDIF123:                                         ; preds = %ENDIF, %ELSE125
  %temp36.1 = phi float [ %.141, %ELSE125 ], [ 0,000000e+00, %ENDIF ]
  %160 = bitcast float %temp36.1 to i32
  %161 = mul i32 %160, 4
  %162 = bitcast i32 %161 to float
  %163 = bitcast float %162 to i32
  %164 = add i32 1, %163
  %165 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %164
  %166 = load <4 x float> addrspace(8)* %165
  %167 = extractelement <4 x float> %166, i32 0
  %168 = fmul float %167, %5
  %169 = fadd float %168, %43
  %170 = add i32 1, %163
  %171 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %170
  %172 = load <4 x float> addrspace(8)* %171
  %173 = extractelement <4 x float> %172, i32 1
  %174 = fmul float %173, %5
  %175 = fadd float %174, %49
  %176 = add i32 1, %163
  %177 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %176
  %178 = load <4 x float> addrspace(8)* %177
  %179 = extractelement <4 x float> %178, i32 2
  %180 = fmul float %179, %5
  %181 = fadd float %180, %55
  %182 = add i32 1, %163
  %183 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %182
  %184 = load <4 x float> addrspace(8)* %183
  %185 = extractelement <4 x float> %184, i32 3
  %186 = fmul float %185, %5
  %187 = fadd float %186, %61
  %188 = bitcast float %temp36.1 to i32
  %189 = mul i32 %188, 4
  %190 = bitcast i32 %189 to float
  %191 = bitcast float %190 to i32
  %192 = add i32 2, %191
  %193 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %192
  %194 = load <4 x float> addrspace(8)* %193
  %195 = extractelement <4 x float> %194, i32 0
  %196 = fmul float %195, %5
  %197 = fadd float %196, %71
  %198 = add i32 2, %191
  %199 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %198
  %200 = load <4 x float> addrspace(8)* %199
  %201 = extractelement <4 x float> %200, i32 1
  %202 = fmul float %201, %5
  %203 = fadd float %202, %77
  %204 = add i32 2, %191
  %205 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %204
  %206 = load <4 x float> addrspace(8)* %205
  %207 = extractelement <4 x float> %206, i32 2
  %208 = fmul float %207, %5
  %209 = fadd float %208, %83
  %210 = add i32 2, %191
  %211 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %210
  %212 = load <4 x float> addrspace(8)* %211
  %213 = extractelement <4 x float> %212, i32 3
  %214 = fmul float %213, %5
  %215 = fadd float %214, %89
  %216 = bitcast float %temp36.1 to i32
  %217 = mul i32 %216, 4
  %218 = bitcast i32 %217 to float
  %219 = bitcast float %218 to i32
  %220 = add i32 3, %219
  %221 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %220
  %222 = load <4 x float> addrspace(8)* %221
  %223 = extractelement <4 x float> %222, i32 0
  %224 = fmul float %223, %5
  %225 = fadd float %224, %99
  %226 = add i32 3, %219
  %227 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %226
  %228 = load <4 x float> addrspace(8)* %227
  %229 = extractelement <4 x float> %228, i32 1
  %230 = fmul float %229, %5
  %231 = fadd float %230, %105
  %232 = add i32 3, %219
  %233 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %232
  %234 = load <4 x float> addrspace(8)* %233
  %235 = extractelement <4 x float> %234, i32 2
  %236 = fmul float %235, %5
  %237 = fadd float %236, %111
  %238 = add i32 3, %219
  %239 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %238
  %240 = load <4 x float> addrspace(8)* %239
  %241 = extractelement <4 x float> %240, i32 3
  %242 = fmul float %241, %5
  %243 = fadd float %242, %117
  %244 = bitcast float %temp36.1 to i32
  %245 = mul i32 %244, 4
  %246 = bitcast i32 %245 to float
  %247 = bitcast float %246 to i32
  %248 = add i32 4, %247
  %249 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %248
  %250 = load <4 x float> addrspace(8)* %249
  %251 = extractelement <4 x float> %250, i32 0
  %252 = fmul float %251, %5
  %253 = fadd float %252, %127
  %254 = add i32 4, %247
  %255 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %254
  %256 = load <4 x float> addrspace(8)* %255
  %257 = extractelement <4 x float> %256, i32 1
  %258 = fmul float %257, %5
  %259 = fadd float %258, %133
  %260 = add i32 4, %247
  %261 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %260
  %262 = load <4 x float> addrspace(8)* %261
  %263 = extractelement <4 x float> %262, i32 2
  %264 = fmul float %263, %5
  %265 = fadd float %264, %139
  %266 = add i32 4, %247
  %267 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %266
  %268 = load <4 x float> addrspace(8)* %267
  %269 = extractelement <4 x float> %268, i32 3
  %270 = fmul float %269, %5
  %271 = fadd float %270, %145
  %272 = fptosi float %2 to i32
  %273 = bitcast i32 %272 to float
  %274 = bitcast float %273 to i32
  %275 = icmp slt i32 %274, 0
  %276 = sext i1 %275 to i32
  %277 = bitcast i32 %276 to float
  %278 = bitcast float %277 to i32
  %279 = icmp ne i32 %278, 0
  br i1 %279, label %ENDIF129, label %ELSE131

ELSE131:                                          ; preds = %ENDIF123
  %280 = bitcast float %273 to i32
  %281 = icmp slt i32 11, %280
  %282 = sext i1 %281 to i32
  %283 = bitcast i32 %282 to float
  %284 = bitcast float %283 to i32
  %285 = icmp ne i32 %284, 0
  %.142 = select i1 %285, float 0,000000e+00, float %273
  br label %ENDIF129

ENDIF129:                                         ; preds = %ENDIF123, %ELSE131
  %temp36.2 = phi float [ %.142, %ELSE131 ], [ 0,000000e+00, %ENDIF123 ]
  %286 = bitcast float %temp36.2 to i32
  %287 = mul i32 %286, 4
  %288 = bitcast i32 %287 to float
  %289 = bitcast float %288 to i32
  %290 = add i32 1, %289
  %291 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %290
  %292 = load <4 x float> addrspace(8)* %291
  %293 = extractelement <4 x float> %292, i32 0
  %294 = fmul float %293, %6
  %295 = fadd float %294, %169
  %296 = add i32 1, %289
  %297 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %296
  %298 = load <4 x float> addrspace(8)* %297
  %299 = extractelement <4 x float> %298, i32 1
  %300 = fmul float %299, %6
  %301 = fadd float %300, %175
  %302 = add i32 1, %289
  %303 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %302
  %304 = load <4 x float> addrspace(8)* %303
  %305 = extractelement <4 x float> %304, i32 2
  %306 = fmul float %305, %6
  %307 = fadd float %306, %181
  %308 = add i32 1, %289
  %309 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %308
  %310 = load <4 x float> addrspace(8)* %309
  %311 = extractelement <4 x float> %310, i32 3
  %312 = fmul float %311, %6
  %313 = fadd float %312, %187
  %314 = bitcast float %temp36.2 to i32
  %315 = mul i32 %314, 4
  %316 = bitcast i32 %315 to float
  %317 = bitcast float %316 to i32
  %318 = add i32 2, %317
  %319 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %318
  %320 = load <4 x float> addrspace(8)* %319
  %321 = extractelement <4 x float> %320, i32 0
  %322 = fmul float %321, %6
  %323 = fadd float %322, %197
  %324 = add i32 2, %317
  %325 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %324
  %326 = load <4 x float> addrspace(8)* %325
  %327 = extractelement <4 x float> %326, i32 1
  %328 = fmul float %327, %6
  %329 = fadd float %328, %203
  %330 = add i32 2, %317
  %331 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %330
  %332 = load <4 x float> addrspace(8)* %331
  %333 = extractelement <4 x float> %332, i32 2
  %334 = fmul float %333, %6
  %335 = fadd float %334, %209
  %336 = add i32 2, %317
  %337 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %336
  %338 = load <4 x float> addrspace(8)* %337
  %339 = extractelement <4 x float> %338, i32 3
  %340 = fmul float %339, %6
  %341 = fadd float %340, %215
  %342 = bitcast float %temp36.2 to i32
  %343 = mul i32 %342, 4
  %344 = bitcast i32 %343 to float
  %345 = bitcast float %344 to i32
  %346 = add i32 3, %345
  %347 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %346
  %348 = load <4 x float> addrspace(8)* %347
  %349 = extractelement <4 x float> %348, i32 0
  %350 = fmul float %349, %6
  %351 = fadd float %350, %225
  %352 = add i32 3, %345
  %353 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %352
  %354 = load <4 x float> addrspace(8)* %353
  %355 = extractelement <4 x float> %354, i32 1
  %356 = fmul float %355, %6
  %357 = fadd float %356, %231
  %358 = add i32 3, %345
  %359 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %358
  %360 = load <4 x float> addrspace(8)* %359
  %361 = extractelement <4 x float> %360, i32 2
  %362 = fmul float %361, %6
  %363 = fadd float %362, %237
  %364 = add i32 3, %345
  %365 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %364
  %366 = load <4 x float> addrspace(8)* %365
  %367 = extractelement <4 x float> %366, i32 3
  %368 = fmul float %367, %6
  %369 = fadd float %368, %243
  %370 = bitcast float %temp36.2 to i32
  %371 = mul i32 %370, 4
  %372 = bitcast i32 %371 to float
  %373 = bitcast float %372 to i32
  %374 = add i32 4, %373
  %375 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %374
  %376 = load <4 x float> addrspace(8)* %375
  %377 = extractelement <4 x float> %376, i32 0
  %378 = fmul float %377, %6
  %379 = fadd float %378, %253
  %380 = add i32 4, %373
  %381 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %380
  %382 = load <4 x float> addrspace(8)* %381
  %383 = extractelement <4 x float> %382, i32 1
  %384 = fmul float %383, %6
  %385 = fadd float %384, %259
  %386 = add i32 4, %373
  %387 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %386
  %388 = load <4 x float> addrspace(8)* %387
  %389 = extractelement <4 x float> %388, i32 2
  %390 = fmul float %389, %6
  %391 = fadd float %390, %265
  %392 = add i32 4, %373
  %393 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %392
  %394 = load <4 x float> addrspace(8)* %393
  %395 = extractelement <4 x float> %394, i32 3
  %396 = fmul float %395, %6
  %397 = fadd float %396, %271
  %398 = fptosi float %3 to i32
  %399 = bitcast i32 %398 to float
  %400 = bitcast float %399 to i32
  %401 = icmp slt i32 %400, 0
  %402 = sext i1 %401 to i32
  %403 = bitcast i32 %402 to float
  %404 = bitcast float %403 to i32
  %405 = icmp ne i32 %404, 0
  br i1 %405, label %ENDIF135, label %ELSE137

ELSE137:                                          ; preds = %ENDIF129
  %406 = bitcast float %399 to i32
  %407 = icmp slt i32 11, %406
  %408 = sext i1 %407 to i32
  %409 = bitcast i32 %408 to float
  %410 = bitcast float %409 to i32
  %411 = icmp ne i32 %410, 0
  %.143 = select i1 %411, float 0,000000e+00, float %399
  br label %ENDIF135

ENDIF135:                                         ; preds = %ENDIF129, %ELSE137
  %temp36.3 = phi float [ %.143, %ELSE137 ], [ 0,000000e+00, %ENDIF129 ]
  %412 = bitcast float %temp36.3 to i32
  %413 = mul i32 %412, 4
  %414 = bitcast i32 %413 to float
  %415 = bitcast float %414 to i32
  %416 = add i32 1, %415
  %417 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %416
  %418 = load <4 x float> addrspace(8)* %417
  %419 = extractelement <4 x float> %418, i32 0
  %420 = fmul float %419, %7
  %421 = fadd float %420, %295
  %422 = add i32 1, %415
  %423 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %422
  %424 = load <4 x float> addrspace(8)* %423
  %425 = extractelement <4 x float> %424, i32 1
  %426 = fmul float %425, %7
  %427 = fadd float %426, %301
  %428 = add i32 1, %415
  %429 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %428
  %430 = load <4 x float> addrspace(8)* %429
  %431 = extractelement <4 x float> %430, i32 2
  %432 = fmul float %431, %7
  %433 = fadd float %432, %307
  %434 = add i32 1, %415
  %435 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %434
  %436 = load <4 x float> addrspace(8)* %435
  %437 = extractelement <4 x float> %436, i32 3
  %438 = fmul float %437, %7
  %439 = fadd float %438, %313
  %440 = bitcast float %temp36.3 to i32
  %441 = mul i32 %440, 4
  %442 = bitcast i32 %441 to float
  %443 = bitcast float %442 to i32
  %444 = add i32 2, %443
  %445 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %444
  %446 = load <4 x float> addrspace(8)* %445
  %447 = extractelement <4 x float> %446, i32 0
  %448 = fmul float %447, %7
  %449 = fadd float %448, %323
  %450 = add i32 2, %443
  %451 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %450
  %452 = load <4 x float> addrspace(8)* %451
  %453 = extractelement <4 x float> %452, i32 1
  %454 = fmul float %453, %7
  %455 = fadd float %454, %329
  %456 = add i32 2, %443
  %457 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %456
  %458 = load <4 x float> addrspace(8)* %457
  %459 = extractelement <4 x float> %458, i32 2
  %460 = fmul float %459, %7
  %461 = fadd float %460, %335
  %462 = add i32 2, %443
  %463 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %462
  %464 = load <4 x float> addrspace(8)* %463
  %465 = extractelement <4 x float> %464, i32 3
  %466 = fmul float %465, %7
  %467 = fadd float %466, %341
  %468 = bitcast float %temp36.3 to i32
  %469 = mul i32 %468, 4
  %470 = bitcast i32 %469 to float
  %471 = bitcast float %470 to i32
  %472 = add i32 3, %471
  %473 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %472
  %474 = load <4 x float> addrspace(8)* %473
  %475 = extractelement <4 x float> %474, i32 0
  %476 = fmul float %475, %7
  %477 = fadd float %476, %351
  %478 = add i32 3, %471
  %479 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %478
  %480 = load <4 x float> addrspace(8)* %479
  %481 = extractelement <4 x float> %480, i32 1
  %482 = fmul float %481, %7
  %483 = fadd float %482, %357
  %484 = add i32 3, %471
  %485 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %484
  %486 = load <4 x float> addrspace(8)* %485
  %487 = extractelement <4 x float> %486, i32 2
  %488 = fmul float %487, %7
  %489 = fadd float %488, %363
  %490 = add i32 3, %471
  %491 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %490
  %492 = load <4 x float> addrspace(8)* %491
  %493 = extractelement <4 x float> %492, i32 3
  %494 = fmul float %493, %7
  %495 = fadd float %494, %369
  %496 = bitcast float %temp36.3 to i32
  %497 = mul i32 %496, 4
  %498 = bitcast i32 %497 to float
  %499 = bitcast float %498 to i32
  %500 = add i32 4, %499
  %501 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %500
  %502 = load <4 x float> addrspace(8)* %501
  %503 = extractelement <4 x float> %502, i32 0
  %504 = fmul float %503, %7
  %505 = fadd float %504, %379
  %506 = add i32 4, %499
  %507 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %506
  %508 = load <4 x float> addrspace(8)* %507
  %509 = extractelement <4 x float> %508, i32 1
  %510 = fmul float %509, %7
  %511 = fadd float %510, %385
  %512 = add i32 4, %499
  %513 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %512
  %514 = load <4 x float> addrspace(8)* %513
  %515 = extractelement <4 x float> %514, i32 2
  %516 = fmul float %515, %7
  %517 = fadd float %516, %391
  %518 = add i32 4, %499
  %519 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %518
  %520 = load <4 x float> addrspace(8)* %519
  %521 = extractelement <4 x float> %520, i32 3
  %522 = fmul float %521, %7
  %523 = fadd float %522, %397
  %524 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %525 = extractelement <4 x float> %524, i32 0
  %526 = fmul float %525, %477
  %527 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %528 = extractelement <4 x float> %527, i32 1
  %529 = fmul float %528, %477
  %530 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %531 = extractelement <4 x float> %530, i32 2
  %532 = fmul float %531, %477
  %533 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %534 = extractelement <4 x float> %533, i32 3
  %535 = fmul float %534, %477
  %536 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %537 = extractelement <4 x float> %536, i32 0
  %538 = fmul float %537, %483
  %539 = fadd float %538, %526
  %540 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %541 = extractelement <4 x float> %540, i32 1
  %542 = fmul float %541, %483
  %543 = fadd float %542, %529
  %544 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %545 = extractelement <4 x float> %544, i32 2
  %546 = fmul float %545, %483
  %547 = fadd float %546, %532
  %548 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %549 = extractelement <4 x float> %548, i32 3
  %550 = fmul float %549, %483
  %551 = fadd float %550, %535
  %552 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %553 = extractelement <4 x float> %552, i32 0
  %554 = fmul float %553, %489
  %555 = fadd float %554, %539
  %556 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %557 = extractelement <4 x float> %556, i32 1
  %558 = fmul float %557, %489
  %559 = fadd float %558, %543
  %560 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %561 = extractelement <4 x float> %560, i32 2
  %562 = fmul float %561, %489
  %563 = fadd float %562, %547
  %564 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %565 = extractelement <4 x float> %564, i32 3
  %566 = fmul float %565, %489
  %567 = fadd float %566, %551
  %568 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %569 = extractelement <4 x float> %568, i32 0
  %570 = fmul float %569, %495
  %571 = fadd float %570, %555
  %572 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %573 = extractelement <4 x float> %572, i32 1
  %574 = fmul float %573, %495
  %575 = fadd float %574, %559
  %576 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %577 = extractelement <4 x float> %576, i32 2
  %578 = fmul float %577, %495
  %579 = fadd float %578, %563
  %580 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %581 = extractelement <4 x float> %580, i32 3
  %582 = fmul float %581, %495
  %583 = fadd float %582, %567
  %584 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %585 = extractelement <4 x float> %584, i32 0
  %586 = fmul float %585, %449
  %587 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %588 = extractelement <4 x float> %587, i32 1
  %589 = fmul float %588, %449
  %590 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %591 = extractelement <4 x float> %590, i32 2
  %592 = fmul float %591, %449
  %593 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %594 = extractelement <4 x float> %593, i32 3
  %595 = fmul float %594, %449
  %596 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %597 = extractelement <4 x float> %596, i32 0
  %598 = fmul float %597, %455
  %599 = fadd float %598, %586
  %600 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %601 = extractelement <4 x float> %600, i32 1
  %602 = fmul float %601, %455
  %603 = fadd float %602, %589
  %604 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %605 = extractelement <4 x float> %604, i32 2
  %606 = fmul float %605, %455
  %607 = fadd float %606, %592
  %608 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %609 = extractelement <4 x float> %608, i32 3
  %610 = fmul float %609, %455
  %611 = fadd float %610, %595
  %612 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %613 = extractelement <4 x float> %612, i32 0
  %614 = fmul float %613, %461
  %615 = fadd float %614, %599
  %616 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %617 = extractelement <4 x float> %616, i32 1
  %618 = fmul float %617, %461
  %619 = fadd float %618, %603
  %620 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %621 = extractelement <4 x float> %620, i32 2
  %622 = fmul float %621, %461
  %623 = fadd float %622, %607
  %624 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %625 = extractelement <4 x float> %624, i32 3
  %626 = fmul float %625, %461
  %627 = fadd float %626, %611
  %628 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %629 = extractelement <4 x float> %628, i32 0
  %630 = fmul float %629, %467
  %631 = fadd float %630, %615
  %632 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %633 = extractelement <4 x float> %632, i32 1
  %634 = fmul float %633, %467
  %635 = fadd float %634, %619
  %636 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %637 = extractelement <4 x float> %636, i32 2
  %638 = fmul float %637, %467
  %639 = fadd float %638, %623
  %640 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %641 = extractelement <4 x float> %640, i32 3
  %642 = fmul float %641, %467
  %643 = fadd float %642, %627
  %644 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %645 = extractelement <4 x float> %644, i32 0
  %646 = fmul float %645, %421
  %647 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %648 = extractelement <4 x float> %647, i32 1
  %649 = fmul float %648, %421
  %650 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %651 = extractelement <4 x float> %650, i32 2
  %652 = fmul float %651, %421
  %653 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %654 = extractelement <4 x float> %653, i32 3
  %655 = fmul float %654, %421
  %656 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %657 = extractelement <4 x float> %656, i32 0
  %658 = fmul float %657, %427
  %659 = fadd float %658, %646
  %660 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %661 = extractelement <4 x float> %660, i32 1
  %662 = fmul float %661, %427
  %663 = fadd float %662, %649
  %664 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %665 = extractelement <4 x float> %664, i32 2
  %666 = fmul float %665, %427
  %667 = fadd float %666, %652
  %668 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %669 = extractelement <4 x float> %668, i32 3
  %670 = fmul float %669, %427
  %671 = fadd float %670, %655
  %672 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %673 = extractelement <4 x float> %672, i32 0
  %674 = fmul float %673, %433
  %675 = fadd float %674, %659
  %676 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %677 = extractelement <4 x float> %676, i32 1
  %678 = fmul float %677, %433
  %679 = fadd float %678, %663
  %680 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %681 = extractelement <4 x float> %680, i32 2
  %682 = fmul float %681, %433
  %683 = fadd float %682, %667
  %684 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %685 = extractelement <4 x float> %684, i32 3
  %686 = fmul float %685, %433
  %687 = fadd float %686, %671
  %688 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %689 = extractelement <4 x float> %688, i32 0
  %690 = fmul float %689, %439
  %691 = fadd float %690, %675
  %692 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %693 = extractelement <4 x float> %692, i32 1
  %694 = fmul float %693, %439
  %695 = fadd float %694, %679
  %696 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %697 = extractelement <4 x float> %696, i32 2
  %698 = fmul float %697, %439
  %699 = fadd float %698, %683
  %700 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %701 = extractelement <4 x float> %700, i32 3
  %702 = fmul float %701, %439
  %703 = fadd float %702, %687
  %704 = fmul float %691, %16
  %705 = fmul float %695, %16
  %706 = fmul float %699, %16
  %707 = fmul float %703, %16
  %708 = fmul float %631, %17
  %709 = fadd float %708, %704
  %710 = fmul float %635, %17
  %711 = fadd float %710, %705
  %712 = fmul float %639, %17
  %713 = fadd float %712, %706
  %714 = fmul float %643, %17
  %715 = fadd float %714, %707
  %716 = fmul float %571, %18
  %717 = fadd float %716, %709
  %718 = fmul float %575, %18
  %719 = fadd float %718, %711
  %720 = fmul float %579, %18
  %721 = fadd float %720, %713
  %722 = fmul float %583, %18
  %723 = fadd float %722, %715
  %724 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %725 = extractelement <4 x float> %724, i32 0
  %726 = fmul float %725, %505
  %727 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %728 = extractelement <4 x float> %727, i32 1
  %729 = fmul float %728, %505
  %730 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %731 = extractelement <4 x float> %730, i32 2
  %732 = fmul float %731, %505
  %733 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %734 = extractelement <4 x float> %733, i32 3
  %735 = fmul float %734, %505
  %736 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %737 = extractelement <4 x float> %736, i32 0
  %738 = fmul float %737, %511
  %739 = fadd float %738, %726
  %740 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %741 = extractelement <4 x float> %740, i32 1
  %742 = fmul float %741, %511
  %743 = fadd float %742, %729
  %744 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %745 = extractelement <4 x float> %744, i32 2
  %746 = fmul float %745, %511
  %747 = fadd float %746, %732
  %748 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %749 = extractelement <4 x float> %748, i32 3
  %750 = fmul float %749, %511
  %751 = fadd float %750, %735
  %752 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %753 = extractelement <4 x float> %752, i32 0
  %754 = fmul float %753, %517
  %755 = fadd float %754, %739
  %756 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %757 = extractelement <4 x float> %756, i32 1
  %758 = fmul float %757, %517
  %759 = fadd float %758, %743
  %760 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %761 = extractelement <4 x float> %760, i32 2
  %762 = fmul float %761, %517
  %763 = fadd float %762, %747
  %764 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %765 = extractelement <4 x float> %764, i32 3
  %766 = fmul float %765, %517
  %767 = fadd float %766, %751
  %768 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %769 = extractelement <4 x float> %768, i32 0
  %770 = fmul float %769, %523
  %771 = fadd float %770, %755
  %772 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %773 = extractelement <4 x float> %772, i32 1
  %774 = fmul float %773, %523
  %775 = fadd float %774, %759
  %776 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %777 = extractelement <4 x float> %776, i32 2
  %778 = fmul float %777, %523
  %779 = fadd float %778, %763
  %780 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %781 = extractelement <4 x float> %780, i32 3
  %782 = fmul float %781, %523
  %783 = fadd float %782, %767
  %784 = fadd float %717, %771
  %785 = fadd float %719, %775
  %786 = fadd float %721, %779
  %787 = fadd float %723, %783
  %788 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %789 = extractelement <4 x float> %788, i32 0
  %790 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %791 = extractelement <4 x float> %790, i32 0
  %792 = fmul float %789, %791
  %793 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %794 = extractelement <4 x float> %793, i32 1
  %795 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %796 = extractelement <4 x float> %795, i32 0
  %797 = fmul float %794, %796
  %798 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %799 = extractelement <4 x float> %798, i32 2
  %800 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %801 = extractelement <4 x float> %800, i32 0
  %802 = fmul float %799, %801
  %803 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %804 = extractelement <4 x float> %803, i32 3
  %805 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %806 = extractelement <4 x float> %805, i32 0
  %807 = fmul float %804, %806
  %808 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %809 = extractelement <4 x float> %808, i32 0
  %810 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %811 = extractelement <4 x float> %810, i32 1
  %812 = fmul float %809, %811
  %813 = fadd float %812, %792
  %814 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %815 = extractelement <4 x float> %814, i32 1
  %816 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %817 = extractelement <4 x float> %816, i32 1
  %818 = fmul float %815, %817
  %819 = fadd float %818, %797
  %820 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %821 = extractelement <4 x float> %820, i32 2
  %822 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %823 = extractelement <4 x float> %822, i32 1
  %824 = fmul float %821, %823
  %825 = fadd float %824, %802
  %826 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %827 = extractelement <4 x float> %826, i32 3
  %828 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %829 = extractelement <4 x float> %828, i32 1
  %830 = fmul float %827, %829
  %831 = fadd float %830, %807
  %832 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %833 = extractelement <4 x float> %832, i32 0
  %834 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %835 = extractelement <4 x float> %834, i32 2
  %836 = fmul float %833, %835
  %837 = fadd float %836, %813
  %838 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %839 = extractelement <4 x float> %838, i32 1
  %840 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %841 = extractelement <4 x float> %840, i32 2
  %842 = fmul float %839, %841
  %843 = fadd float %842, %819
  %844 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %845 = extractelement <4 x float> %844, i32 2
  %846 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %847 = extractelement <4 x float> %846, i32 2
  %848 = fmul float %845, %847
  %849 = fadd float %848, %825
  %850 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %851 = extractelement <4 x float> %850, i32 3
  %852 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %853 = extractelement <4 x float> %852, i32 2
  %854 = fmul float %851, %853
  %855 = fadd float %854, %831
  %856 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %857 = extractelement <4 x float> %856, i32 0
  %858 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %859 = extractelement <4 x float> %858, i32 3
  %860 = fmul float %857, %859
  %861 = fadd float %860, %837
  %862 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %863 = extractelement <4 x float> %862, i32 1
  %864 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %865 = extractelement <4 x float> %864, i32 3
  %866 = fmul float %863, %865
  %867 = fadd float %866, %843
  %868 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %869 = extractelement <4 x float> %868, i32 2
  %870 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %871 = extractelement <4 x float> %870, i32 3
  %872 = fmul float %869, %871
  %873 = fadd float %872, %849
  %874 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %875 = extractelement <4 x float> %874, i32 3
  %876 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 60)
  %877 = extractelement <4 x float> %876, i32 3
  %878 = fmul float %875, %877
  %879 = fadd float %878, %855
  %880 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %881 = extractelement <4 x float> %880, i32 0
  %882 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %883 = extractelement <4 x float> %882, i32 0
  %884 = fmul float %881, %883
  %885 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %886 = extractelement <4 x float> %885, i32 1
  %887 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %888 = extractelement <4 x float> %887, i32 0
  %889 = fmul float %886, %888
  %890 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %891 = extractelement <4 x float> %890, i32 2
  %892 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %893 = extractelement <4 x float> %892, i32 0
  %894 = fmul float %891, %893
  %895 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %896 = extractelement <4 x float> %895, i32 3
  %897 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %898 = extractelement <4 x float> %897, i32 0
  %899 = fmul float %896, %898
  %900 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %901 = extractelement <4 x float> %900, i32 0
  %902 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %903 = extractelement <4 x float> %902, i32 1
  %904 = fmul float %901, %903
  %905 = fadd float %904, %884
  %906 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %907 = extractelement <4 x float> %906, i32 1
  %908 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %909 = extractelement <4 x float> %908, i32 1
  %910 = fmul float %907, %909
  %911 = fadd float %910, %889
  %912 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %913 = extractelement <4 x float> %912, i32 2
  %914 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %915 = extractelement <4 x float> %914, i32 1
  %916 = fmul float %913, %915
  %917 = fadd float %916, %894
  %918 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %919 = extractelement <4 x float> %918, i32 3
  %920 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %921 = extractelement <4 x float> %920, i32 1
  %922 = fmul float %919, %921
  %923 = fadd float %922, %899
  %924 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %925 = extractelement <4 x float> %924, i32 0
  %926 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %927 = extractelement <4 x float> %926, i32 2
  %928 = fmul float %925, %927
  %929 = fadd float %928, %905
  %930 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %931 = extractelement <4 x float> %930, i32 1
  %932 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %933 = extractelement <4 x float> %932, i32 2
  %934 = fmul float %931, %933
  %935 = fadd float %934, %911
  %936 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %937 = extractelement <4 x float> %936, i32 2
  %938 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %939 = extractelement <4 x float> %938, i32 2
  %940 = fmul float %937, %939
  %941 = fadd float %940, %917
  %942 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %943 = extractelement <4 x float> %942, i32 3
  %944 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %945 = extractelement <4 x float> %944, i32 2
  %946 = fmul float %943, %945
  %947 = fadd float %946, %923
  %948 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %949 = extractelement <4 x float> %948, i32 0
  %950 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %951 = extractelement <4 x float> %950, i32 3
  %952 = fmul float %949, %951
  %953 = fadd float %952, %929
  %954 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %955 = extractelement <4 x float> %954, i32 1
  %956 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %957 = extractelement <4 x float> %956, i32 3
  %958 = fmul float %955, %957
  %959 = fadd float %958, %935
  %960 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %961 = extractelement <4 x float> %960, i32 2
  %962 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %963 = extractelement <4 x float> %962, i32 3
  %964 = fmul float %961, %963
  %965 = fadd float %964, %941
  %966 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %967 = extractelement <4 x float> %966, i32 3
  %968 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 59)
  %969 = extractelement <4 x float> %968, i32 3
  %970 = fmul float %967, %969
  %971 = fadd float %970, %947
  %972 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %973 = extractelement <4 x float> %972, i32 0
  %974 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %975 = extractelement <4 x float> %974, i32 0
  %976 = fmul float %973, %975
  %977 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %978 = extractelement <4 x float> %977, i32 1
  %979 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %980 = extractelement <4 x float> %979, i32 0
  %981 = fmul float %978, %980
  %982 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %983 = extractelement <4 x float> %982, i32 2
  %984 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %985 = extractelement <4 x float> %984, i32 0
  %986 = fmul float %983, %985
  %987 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %988 = extractelement <4 x float> %987, i32 3
  %989 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %990 = extractelement <4 x float> %989, i32 0
  %991 = fmul float %988, %990
  %992 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %993 = extractelement <4 x float> %992, i32 0
  %994 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %995 = extractelement <4 x float> %994, i32 1
  %996 = fmul float %993, %995
  %997 = fadd float %996, %976
  %998 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %999 = extractelement <4 x float> %998, i32 1
  %1000 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %1001 = extractelement <4 x float> %1000, i32 1
  %1002 = fmul float %999, %1001
  %1003 = fadd float %1002, %981
  %1004 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %1005 = extractelement <4 x float> %1004, i32 2
  %1006 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %1007 = extractelement <4 x float> %1006, i32 1
  %1008 = fmul float %1005, %1007
  %1009 = fadd float %1008, %986
  %1010 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %1011 = extractelement <4 x float> %1010, i32 3
  %1012 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %1013 = extractelement <4 x float> %1012, i32 1
  %1014 = fmul float %1011, %1013
  %1015 = fadd float %1014, %991
  %1016 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %1017 = extractelement <4 x float> %1016, i32 0
  %1018 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %1019 = extractelement <4 x float> %1018, i32 2
  %1020 = fmul float %1017, %1019
  %1021 = fadd float %1020, %997
  %1022 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %1023 = extractelement <4 x float> %1022, i32 1
  %1024 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %1025 = extractelement <4 x float> %1024, i32 2
  %1026 = fmul float %1023, %1025
  %1027 = fadd float %1026, %1003
  %1028 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %1029 = extractelement <4 x float> %1028, i32 2
  %1030 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %1031 = extractelement <4 x float> %1030, i32 2
  %1032 = fmul float %1029, %1031
  %1033 = fadd float %1032, %1009
  %1034 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %1035 = extractelement <4 x float> %1034, i32 3
  %1036 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %1037 = extractelement <4 x float> %1036, i32 2
  %1038 = fmul float %1035, %1037
  %1039 = fadd float %1038, %1015
  %1040 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %1041 = extractelement <4 x float> %1040, i32 0
  %1042 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %1043 = extractelement <4 x float> %1042, i32 3
  %1044 = fmul float %1041, %1043
  %1045 = fadd float %1044, %1021
  %1046 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %1047 = extractelement <4 x float> %1046, i32 1
  %1048 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %1049 = extractelement <4 x float> %1048, i32 3
  %1050 = fmul float %1047, %1049
  %1051 = fadd float %1050, %1027
  %1052 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %1053 = extractelement <4 x float> %1052, i32 2
  %1054 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %1055 = extractelement <4 x float> %1054, i32 3
  %1056 = fmul float %1053, %1055
  %1057 = fadd float %1056, %1033
  %1058 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %1059 = extractelement <4 x float> %1058, i32 3
  %1060 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 58)
  %1061 = extractelement <4 x float> %1060, i32 3
  %1062 = fmul float %1059, %1061
  %1063 = fadd float %1062, %1039
  %1064 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %1065 = extractelement <4 x float> %1064, i32 0
  %1066 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1067 = extractelement <4 x float> %1066, i32 0
  %1068 = fmul float %1065, %1067
  %1069 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %1070 = extractelement <4 x float> %1069, i32 1
  %1071 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1072 = extractelement <4 x float> %1071, i32 0
  %1073 = fmul float %1070, %1072
  %1074 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %1075 = extractelement <4 x float> %1074, i32 2
  %1076 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1077 = extractelement <4 x float> %1076, i32 0
  %1078 = fmul float %1075, %1077
  %1079 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 53)
  %1080 = extractelement <4 x float> %1079, i32 3
  %1081 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1082 = extractelement <4 x float> %1081, i32 0
  %1083 = fmul float %1080, %1082
  %1084 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %1085 = extractelement <4 x float> %1084, i32 0
  %1086 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1087 = extractelement <4 x float> %1086, i32 1
  %1088 = fmul float %1085, %1087
  %1089 = fadd float %1088, %1068
  %1090 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %1091 = extractelement <4 x float> %1090, i32 1
  %1092 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1093 = extractelement <4 x float> %1092, i32 1
  %1094 = fmul float %1091, %1093
  %1095 = fadd float %1094, %1073
  %1096 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %1097 = extractelement <4 x float> %1096, i32 2
  %1098 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1099 = extractelement <4 x float> %1098, i32 1
  %1100 = fmul float %1097, %1099
  %1101 = fadd float %1100, %1078
  %1102 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 54)
  %1103 = extractelement <4 x float> %1102, i32 3
  %1104 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1105 = extractelement <4 x float> %1104, i32 1
  %1106 = fmul float %1103, %1105
  %1107 = fadd float %1106, %1083
  %1108 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %1109 = extractelement <4 x float> %1108, i32 0
  %1110 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1111 = extractelement <4 x float> %1110, i32 2
  %1112 = fmul float %1109, %1111
  %1113 = fadd float %1112, %1089
  %1114 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %1115 = extractelement <4 x float> %1114, i32 1
  %1116 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1117 = extractelement <4 x float> %1116, i32 2
  %1118 = fmul float %1115, %1117
  %1119 = fadd float %1118, %1095
  %1120 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %1121 = extractelement <4 x float> %1120, i32 2
  %1122 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1123 = extractelement <4 x float> %1122, i32 2
  %1124 = fmul float %1121, %1123
  %1125 = fadd float %1124, %1101
  %1126 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 55)
  %1127 = extractelement <4 x float> %1126, i32 3
  %1128 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1129 = extractelement <4 x float> %1128, i32 2
  %1130 = fmul float %1127, %1129
  %1131 = fadd float %1130, %1107
  %1132 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %1133 = extractelement <4 x float> %1132, i32 0
  %1134 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1135 = extractelement <4 x float> %1134, i32 3
  %1136 = fmul float %1133, %1135
  %1137 = fadd float %1136, %1113
  %1138 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %1139 = extractelement <4 x float> %1138, i32 1
  %1140 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1141 = extractelement <4 x float> %1140, i32 3
  %1142 = fmul float %1139, %1141
  %1143 = fadd float %1142, %1119
  %1144 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %1145 = extractelement <4 x float> %1144, i32 2
  %1146 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1147 = extractelement <4 x float> %1146, i32 3
  %1148 = fmul float %1145, %1147
  %1149 = fadd float %1148, %1125
  %1150 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 56)
  %1151 = extractelement <4 x float> %1150, i32 3
  %1152 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 57)
  %1153 = extractelement <4 x float> %1152, i32 3
  %1154 = fmul float %1151, %1153
  %1155 = fadd float %1154, %1131
  %1156 = fmul float %1137, %784
  %1157 = fmul float %1143, %784
  %1158 = fmul float %1149, %784
  %1159 = fmul float %1155, %784
  %1160 = fmul float %1045, %785
  %1161 = fadd float %1160, %1156
  %1162 = fmul float %1051, %785
  %1163 = fadd float %1162, %1157
  %1164 = fmul float %1057, %785
  %1165 = fadd float %1164, %1158
  %1166 = fmul float %1063, %785
  %1167 = fadd float %1166, %1159
  %1168 = fmul float %953, %786
  %1169 = fadd float %1168, %1161
  %1170 = fmul float %959, %786
  %1171 = fadd float %1170, %1163
  %1172 = fmul float %965, %786
  %1173 = fadd float %1172, %1165
  %1174 = fmul float %971, %786
  %1175 = fadd float %1174, %1167
  %1176 = fmul float %861, %787
  %1177 = fadd float %1176, %1169
  %1178 = fmul float %867, %787
  %1179 = fadd float %1178, %1171
  %1180 = fmul float %873, %787
  %1181 = fadd float %1180, %1173
  %1182 = fmul float %879, %787
  %1183 = fadd float %1182, %1175
  %1184 = load <4 x float> addrspace(8)* null
  %1185 = extractelement <4 x float> %1184, i32 0
  %1186 = load <4 x float> addrspace(8)* null
  %1187 = extractelement <4 x float> %1186, i32 1
  %1188 = load <4 x float> addrspace(8)* null
  %1189 = extractelement <4 x float> %1188, i32 2
  %1190 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %1191 = extractelement <4 x float> %1190, i32 0
  %1192 = fmul float %1191, %477
  %1193 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %1194 = extractelement <4 x float> %1193, i32 1
  %1195 = fmul float %1194, %477
  %1196 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %1197 = extractelement <4 x float> %1196, i32 2
  %1198 = fmul float %1197, %477
  %1199 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %1200 = extractelement <4 x float> %1199, i32 0
  %1201 = fmul float %1200, %483
  %1202 = fadd float %1201, %1192
  %1203 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %1204 = extractelement <4 x float> %1203, i32 1
  %1205 = fmul float %1204, %483
  %1206 = fadd float %1205, %1195
  %1207 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %1208 = extractelement <4 x float> %1207, i32 2
  %1209 = fmul float %1208, %483
  %1210 = fadd float %1209, %1198
  %1211 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %1212 = extractelement <4 x float> %1211, i32 0
  %1213 = fmul float %1212, %489
  %1214 = fadd float %1213, %1202
  %1215 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %1216 = extractelement <4 x float> %1215, i32 1
  %1217 = fmul float %1216, %489
  %1218 = fadd float %1217, %1206
  %1219 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %1220 = extractelement <4 x float> %1219, i32 2
  %1221 = fmul float %1220, %489
  %1222 = fadd float %1221, %1210
  %1223 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %1224 = extractelement <4 x float> %1223, i32 0
  %1225 = fmul float %1224, %495
  %1226 = fadd float %1225, %1214
  %1227 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %1228 = extractelement <4 x float> %1227, i32 1
  %1229 = fmul float %1228, %495
  %1230 = fadd float %1229, %1218
  %1231 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %1232 = extractelement <4 x float> %1231, i32 2
  %1233 = fmul float %1232, %495
  %1234 = fadd float %1233, %1222
  %1235 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %1236 = extractelement <4 x float> %1235, i32 0
  %1237 = fmul float %1236, %449
  %1238 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %1239 = extractelement <4 x float> %1238, i32 1
  %1240 = fmul float %1239, %449
  %1241 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %1242 = extractelement <4 x float> %1241, i32 2
  %1243 = fmul float %1242, %449
  %1244 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %1245 = extractelement <4 x float> %1244, i32 0
  %1246 = fmul float %1245, %455
  %1247 = fadd float %1246, %1237
  %1248 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %1249 = extractelement <4 x float> %1248, i32 1
  %1250 = fmul float %1249, %455
  %1251 = fadd float %1250, %1240
  %1252 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %1253 = extractelement <4 x float> %1252, i32 2
  %1254 = fmul float %1253, %455
  %1255 = fadd float %1254, %1243
  %1256 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %1257 = extractelement <4 x float> %1256, i32 0
  %1258 = fmul float %1257, %461
  %1259 = fadd float %1258, %1247
  %1260 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %1261 = extractelement <4 x float> %1260, i32 1
  %1262 = fmul float %1261, %461
  %1263 = fadd float %1262, %1251
  %1264 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %1265 = extractelement <4 x float> %1264, i32 2
  %1266 = fmul float %1265, %461
  %1267 = fadd float %1266, %1255
  %1268 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %1269 = extractelement <4 x float> %1268, i32 0
  %1270 = fmul float %1269, %467
  %1271 = fadd float %1270, %1259
  %1272 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %1273 = extractelement <4 x float> %1272, i32 1
  %1274 = fmul float %1273, %467
  %1275 = fadd float %1274, %1263
  %1276 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %1277 = extractelement <4 x float> %1276, i32 2
  %1278 = fmul float %1277, %467
  %1279 = fadd float %1278, %1267
  %1280 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %1281 = extractelement <4 x float> %1280, i32 0
  %1282 = fmul float %1281, %421
  %1283 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %1284 = extractelement <4 x float> %1283, i32 1
  %1285 = fmul float %1284, %421
  %1286 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 49)
  %1287 = extractelement <4 x float> %1286, i32 2
  %1288 = fmul float %1287, %421
  %1289 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %1290 = extractelement <4 x float> %1289, i32 0
  %1291 = fmul float %1290, %427
  %1292 = fadd float %1291, %1282
  %1293 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %1294 = extractelement <4 x float> %1293, i32 1
  %1295 = fmul float %1294, %427
  %1296 = fadd float %1295, %1285
  %1297 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 50)
  %1298 = extractelement <4 x float> %1297, i32 2
  %1299 = fmul float %1298, %427
  %1300 = fadd float %1299, %1288
  %1301 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %1302 = extractelement <4 x float> %1301, i32 0
  %1303 = fmul float %1302, %433
  %1304 = fadd float %1303, %1292
  %1305 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %1306 = extractelement <4 x float> %1305, i32 1
  %1307 = fmul float %1306, %433
  %1308 = fadd float %1307, %1296
  %1309 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 51)
  %1310 = extractelement <4 x float> %1309, i32 2
  %1311 = fmul float %1310, %433
  %1312 = fadd float %1311, %1300
  %1313 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %1314 = extractelement <4 x float> %1313, i32 0
  %1315 = fmul float %1314, %439
  %1316 = fadd float %1315, %1304
  %1317 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %1318 = extractelement <4 x float> %1317, i32 1
  %1319 = fmul float %1318, %439
  %1320 = fadd float %1319, %1308
  %1321 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 52)
  %1322 = extractelement <4 x float> %1321, i32 2
  %1323 = fmul float %1322, %439
  %1324 = fadd float %1323, %1312
  %1325 = fmul float %1316, %12
  %1326 = fmul float %1320, %12
  %1327 = fmul float %1324, %12
  %1328 = fmul float %1271, %13
  %1329 = fadd float %1328, %1325
  %1330 = fmul float %1275, %13
  %1331 = fadd float %1330, %1326
  %1332 = fmul float %1279, %13
  %1333 = fadd float %1332, %1327
  %1334 = fmul float %1226, %14
  %1335 = fadd float %1334, %1329
  %1336 = fmul float %1230, %14
  %1337 = fadd float %1336, %1331
  %1338 = fmul float %1234, %14
  %1339 = fadd float %1338, %1333
  %1340 = insertelement <4 x float> undef, float %1177, i32 0
  %1341 = insertelement <4 x float> %1340, float %1179, i32 1
  %1342 = insertelement <4 x float> %1341, float %1181, i32 2
  %1343 = insertelement <4 x float> %1342, float %1183, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %1343, i32 60, i32 1)
  %1344 = insertelement <4 x float> undef, float %8, i32 0
  %1345 = insertelement <4 x float> %1344, float %9, i32 1
  %1346 = insertelement <4 x float> %1345, float %1185, i32 2
  %1347 = insertelement <4 x float> %1346, float %1187, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %1347, i32 0, i32 2)
  %1348 = insertelement <4 x float> undef, float %1189, i32 0
  %1349 = insertelement <4 x float> %1348, float %1335, i32 1
  %1350 = insertelement <4 x float> %1349, float %1337, i32 2
  %1351 = insertelement <4 x float> %1350, float %1339, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %1351, i32 1, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 754 dw -- 20 gprs -- 1 nstack -------------
shader 52 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
PROPERTY FS_COLOR0_WRITES_ALL_CBUFS 1
DCL IN[0], GENERIC[19], PERSPECTIVE
DCL IN[1], GENERIC[20], PERSPECTIVE
DCL OUT[0], COLOR
DCL SAMP[0]
DCL CONST[0..1]
DCL TEMP[0..4], LOCAL
IMM[0] FLT32 {    0,7500,     0,2500,     0,0000,     2,0000}
  0: MOV TEMP[0].z, IN[1].xxxx
  1: MOV TEMP[0].xy, IN[0].zwzz
  2: MOV TEMP[1].xy, IN[0].xyyy
  3: TEX TEMP[1], TEMP[1], SAMP[0], 2D
  4: MOV TEMP[2].xyz, CONST[1]
  5: DP3 TEMP[3].x, IN[1].yzww, IN[1].yzww
  6: RSQ TEMP[3].x, TEMP[3].xxxx
  7: MUL TEMP[3].xyz, IN[1].yzww, TEMP[3].xxxx
  8: DP3 TEMP[4].x, TEMP[0].xyzz, TEMP[0].xyzz
  9: RSQ TEMP[4].x, TEMP[4].xxxx
 10: MUL TEMP[0].xyz, TEMP[0].xyzz, TEMP[4].xxxx
 11: DP3 TEMP[0].x, TEMP[3].xyzz, TEMP[0].xyzz
 12: MAD TEMP[0].x, TEMP[0].xxxx, IMM[0].xxxx, IMM[0].yyyy
 13: SLT TEMP[3].x, IMM[0].zzzz, TEMP[0].xxxx
 14: F2I TEMP[3].x, -TEMP[3]
 15: UIF TEMP[3].xxxx :0
 16:   MUL TEMP[0], CONST[0], TEMP[0].xxxx
 17:   MAD TEMP[2].xyz, TEMP[0], IMM[0].wwww, CONST[1]
 18: ENDIF
 19: MUL TEMP[0].xyz, TEMP[1].xyzz, TEMP[2].xyzz
 20: MOV TEMP[0].w, TEMP[1].wwww
 21: MOV OUT[0], TEMP[0]
 22: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = call float @llvm.R600.load.input(i32 4)
  %5 = call float @llvm.R600.load.input(i32 5)
  %6 = call float @llvm.R600.load.input(i32 6)
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> undef, float %0, i32 0
  %9 = insertelement <4 x float> %8, float %1, i32 1
  %10 = insertelement <4 x float> %9, float 0,000000e+00, i32 2
  %11 = insertelement <4 x float> %10, float 0,000000e+00, i32 3
  %12 = extractelement <4 x float> %11, i32 0
  %13 = extractelement <4 x float> %11, i32 1
  %14 = insertelement <4 x float> undef, float %12, i32 0
  %15 = insertelement <4 x float> %14, float %13, i32 1
  %16 = insertelement <4 x float> %15, float undef, i32 2
  %17 = insertelement <4 x float> %16, float undef, i32 3
  %18 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %17, i32 16, i32 0, i32 2)
  %19 = extractelement <4 x float> %18, i32 0
  %20 = extractelement <4 x float> %18, i32 1
  %21 = extractelement <4 x float> %18, i32 2
  %22 = extractelement <4 x float> %18, i32 3
  %23 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %24 = extractelement <4 x float> %23, i32 0
  %25 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %26 = extractelement <4 x float> %25, i32 1
  %27 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %28 = extractelement <4 x float> %27, i32 2
  %29 = insertelement <4 x float> undef, float %5, i32 0
  %30 = insertelement <4 x float> %29, float %6, i32 1
  %31 = insertelement <4 x float> %30, float %7, i32 2
  %32 = insertelement <4 x float> %31, float 0,000000e+00, i32 3
  %33 = insertelement <4 x float> undef, float %5, i32 0
  %34 = insertelement <4 x float> %33, float %6, i32 1
  %35 = insertelement <4 x float> %34, float %7, i32 2
  %36 = insertelement <4 x float> %35, float 0,000000e+00, i32 3
  %37 = call float @llvm.AMDGPU.dp4(<4 x float> %32, <4 x float> %36)
  %38 = call float @fabs(float %37)
  %39 = call float @llvm.AMDGPU.rsq(float %38)
  %40 = fmul float %5, %39
  %41 = fmul float %6, %39
  %42 = fmul float %7, %39
  %43 = insertelement <4 x float> undef, float %2, i32 0
  %44 = insertelement <4 x float> %43, float %3, i32 1
  %45 = insertelement <4 x float> %44, float %4, i32 2
  %46 = insertelement <4 x float> %45, float 0,000000e+00, i32 3
  %47 = insertelement <4 x float> undef, float %2, i32 0
  %48 = insertelement <4 x float> %47, float %3, i32 1
  %49 = insertelement <4 x float> %48, float %4, i32 2
  %50 = insertelement <4 x float> %49, float 0,000000e+00, i32 3
  %51 = call float @llvm.AMDGPU.dp4(<4 x float> %46, <4 x float> %50)
  %52 = call float @fabs(float %51)
  %53 = call float @llvm.AMDGPU.rsq(float %52)
  %54 = fmul float %2, %53
  %55 = fmul float %3, %53
  %56 = fmul float %4, %53
  %57 = insertelement <4 x float> undef, float %40, i32 0
  %58 = insertelement <4 x float> %57, float %41, i32 1
  %59 = insertelement <4 x float> %58, float %42, i32 2
  %60 = insertelement <4 x float> %59, float 0,000000e+00, i32 3
  %61 = insertelement <4 x float> undef, float %54, i32 0
  %62 = insertelement <4 x float> %61, float %55, i32 1
  %63 = insertelement <4 x float> %62, float %56, i32 2
  %64 = insertelement <4 x float> %63, float 0,000000e+00, i32 3
  %65 = call float @llvm.AMDGPU.dp4(<4 x float> %60, <4 x float> %64)
  %66 = fmul float %65, 0x3FE8000000000000
  %67 = fadd float %66, 0x3FD0000000000000
  %68 = fcmp ult float 0,000000e+00, %67
  %69 = select i1 %68, float 0x3FF0000000000000, float 0,000000e+00
  %70 = fsub float -0,000000e+00, %69
  %71 = fptosi float %70 to i32
  %72 = bitcast i32 %71 to float
  %73 = bitcast float %72 to i32
  %74 = icmp ne i32 %73, 0
  br i1 %74, label %IF, label %ENDIF

IF:                                               ; preds = %main_body
  %75 = load <4 x float> addrspace(8)* null
  %76 = extractelement <4 x float> %75, i32 0
  %77 = fmul float %76, %67
  %78 = load <4 x float> addrspace(8)* null
  %79 = extractelement <4 x float> %78, i32 1
  %80 = fmul float %79, %67
  %81 = load <4 x float> addrspace(8)* null
  %82 = extractelement <4 x float> %81, i32 2
  %83 = fmul float %82, %67
  %84 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %85 = extractelement <4 x float> %84, i32 0
  %86 = fmul float %77, 0x4000000000000000
  %87 = fadd float %86, %85
  %88 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %89 = extractelement <4 x float> %88, i32 1
  %90 = fmul float %80, 0x4000000000000000
  %91 = fadd float %90, %89
  %92 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %93 = extractelement <4 x float> %92, i32 2
  %94 = fmul float %83, 0x4000000000000000
  %95 = fadd float %94, %93
  br label %ENDIF

ENDIF:                                            ; preds = %main_body, %IF
  %temp8.0 = phi float [ %87, %IF ], [ %24, %main_body ]
  %temp9.0 = phi float [ %91, %IF ], [ %26, %main_body ]
  %temp10.0 = phi float [ %95, %IF ], [ %28, %main_body ]
  %96 = fmul float %19, %temp8.0
  %97 = fmul float %20, %temp9.0
  %98 = fmul float %21, %temp10.0
  %99 = insertelement <4 x float> undef, float %96, i32 0
  %100 = insertelement <4 x float> %99, float %97, i32 1
  %101 = insertelement <4 x float> %100, float %98, i32 2
  %102 = insertelement <4 x float> %101, float %22, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %102, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

; Function Attrs: readnone
declare <4 x float> @llvm.AMDGPU.tex(<4 x float>, i32, i32, i32) #1

; Function Attrs: readnone
declare float @llvm.AMDGPU.dp4(<4 x float>, <4 x float>) #1

; Function Attrs: readonly
declare float @fabs(float) #2

; Function Attrs: readnone
declare float @llvm.AMDGPU.rsq(float) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
attributes #2 = { readonly }
--------------------------------------------------------------
bytecode 120 dw -- 7 gprs -- 1 nstack -------------
shader 53 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL IN[2]
DCL IN[3]
DCL IN[4]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[19]
DCL OUT[2], GENERIC[20]
DCL CONST[0..24]
DCL TEMP[0..3], ARRAY(1), LOCAL
DCL TEMP[4..7], ARRAY(2), LOCAL
DCL TEMP[8..10], LOCAL
DCL TEMP[11..14], ARRAY(3), LOCAL
DCL TEMP[15..18], ARRAY(4), LOCAL
DCL TEMP[19..22], ARRAY(5), LOCAL
DCL TEMP[23..26], ARRAY(6), LOCAL
DCL TEMP[27..29], LOCAL
DCL ADDR[0]
IMM[0] FLT32 {    0,0000,     0,0000,     0,0000,     0,0000}
IMM[1] INT32 {0, 2, 4, 0}
  0: MOV TEMP[0], IMM[0].xxxx
  1: MOV TEMP[1], IMM[0].xxxx
  2: MOV TEMP[2], IMM[0].xxxx
  3: MOV TEMP[3], IMM[0].xxxx
  4: MOV TEMP[4], TEMP[0]
  5: MOV TEMP[5], TEMP[1]
  6: MOV TEMP[6], TEMP[2]
  7: MOV TEMP[7], TEMP[3]
  8: F2I TEMP[8].x, IN[0].xxxx
  9: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
 10: UIF TEMP[9].xxxx :0
 11:   MOV TEMP[9].x, IMM[1].xxxx
 12: ELSE :0
 13:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
 14:   UIF TEMP[10].xxxx :0
 15:     MOV TEMP[10].x, IMM[1].yyyy
 16:   ELSE :0
 17:     MOV TEMP[10].x, TEMP[8].xxxx
 18:   ENDIF
 19:   MOV TEMP[9].x, TEMP[10].xxxx
 20: ENDIF
 21: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 22: UARL ADDR[0].x, TEMP[8].xxxx
 23: UARL ADDR[0].x, TEMP[8].xxxx
 24: MAD TEMP[11], CONST[ADDR[0].x+1], IN[1].xxxx, TEMP[4]
 25: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 26: UARL ADDR[0].x, TEMP[8].xxxx
 27: UARL ADDR[0].x, TEMP[8].xxxx
 28: MAD TEMP[12], CONST[ADDR[0].x+2], IN[1].xxxx, TEMP[5]
 29: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 30: UARL ADDR[0].x, TEMP[8].xxxx
 31: UARL ADDR[0].x, TEMP[8].xxxx
 32: MAD TEMP[13], CONST[ADDR[0].x+3], IN[1].xxxx, TEMP[6]
 33: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 34: UARL ADDR[0].x, TEMP[8].xxxx
 35: UARL ADDR[0].x, TEMP[8].xxxx
 36: MAD TEMP[14], CONST[ADDR[0].x+4], IN[1].xxxx, TEMP[7]
 37: MOV TEMP[4], TEMP[11]
 38: MOV TEMP[5], TEMP[12]
 39: MOV TEMP[6], TEMP[13]
 40: MOV TEMP[7], TEMP[14]
 41: F2I TEMP[8].x, IN[0].yyyy
 42: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
 43: UIF TEMP[9].xxxx :0
 44:   MOV TEMP[9].x, IMM[1].xxxx
 45: ELSE :0
 46:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
 47:   UIF TEMP[10].xxxx :0
 48:     MOV TEMP[10].x, IMM[1].yyyy
 49:   ELSE :0
 50:     MOV TEMP[10].x, TEMP[8].xxxx
 51:   ENDIF
 52:   MOV TEMP[9].x, TEMP[10].xxxx
 53: ENDIF
 54: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 55: UARL ADDR[0].x, TEMP[8].xxxx
 56: UARL ADDR[0].x, TEMP[8].xxxx
 57: MAD TEMP[15], CONST[ADDR[0].x+1], IN[1].yyyy, TEMP[11]
 58: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 59: UARL ADDR[0].x, TEMP[8].xxxx
 60: UARL ADDR[0].x, TEMP[8].xxxx
 61: MAD TEMP[16], CONST[ADDR[0].x+2], IN[1].yyyy, TEMP[12]
 62: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 63: UARL ADDR[0].x, TEMP[8].xxxx
 64: UARL ADDR[0].x, TEMP[8].xxxx
 65: MAD TEMP[17], CONST[ADDR[0].x+3], IN[1].yyyy, TEMP[13]
 66: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 67: UARL ADDR[0].x, TEMP[8].xxxx
 68: UARL ADDR[0].x, TEMP[8].xxxx
 69: MAD TEMP[18], CONST[ADDR[0].x+4], IN[1].yyyy, TEMP[14]
 70: MOV TEMP[4], TEMP[15]
 71: MOV TEMP[5], TEMP[16]
 72: MOV TEMP[6], TEMP[17]
 73: MOV TEMP[7], TEMP[18]
 74: F2I TEMP[8].x, IN[0].zzzz
 75: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
 76: UIF TEMP[9].xxxx :0
 77:   MOV TEMP[9].x, IMM[1].xxxx
 78: ELSE :0
 79:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
 80:   UIF TEMP[10].xxxx :0
 81:     MOV TEMP[10].x, IMM[1].yyyy
 82:   ELSE :0
 83:     MOV TEMP[10].x, TEMP[8].xxxx
 84:   ENDIF
 85:   MOV TEMP[9].x, TEMP[10].xxxx
 86: ENDIF
 87: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 88: UARL ADDR[0].x, TEMP[8].xxxx
 89: UARL ADDR[0].x, TEMP[8].xxxx
 90: MAD TEMP[19], CONST[ADDR[0].x+1], IN[1].zzzz, TEMP[15]
 91: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 92: UARL ADDR[0].x, TEMP[8].xxxx
 93: UARL ADDR[0].x, TEMP[8].xxxx
 94: MAD TEMP[20], CONST[ADDR[0].x+2], IN[1].zzzz, TEMP[16]
 95: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
 96: UARL ADDR[0].x, TEMP[8].xxxx
 97: UARL ADDR[0].x, TEMP[8].xxxx
 98: MAD TEMP[21], CONST[ADDR[0].x+3], IN[1].zzzz, TEMP[17]
 99: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
100: UARL ADDR[0].x, TEMP[8].xxxx
101: UARL ADDR[0].x, TEMP[8].xxxx
102: MAD TEMP[22], CONST[ADDR[0].x+4], IN[1].zzzz, TEMP[18]
103: MOV TEMP[4], TEMP[19]
104: MOV TEMP[5], TEMP[20]
105: MOV TEMP[6], TEMP[21]
106: MOV TEMP[7], TEMP[22]
107: F2I TEMP[8].x, IN[0].wwww
108: ISLT TEMP[9].x, TEMP[8].xxxx, IMM[1].xxxx
109: UIF TEMP[9].xxxx :0
110:   MOV TEMP[9].x, IMM[1].xxxx
111: ELSE :0
112:   ISLT TEMP[10].x, IMM[1].yyyy, TEMP[8].xxxx
113:   UIF TEMP[10].xxxx :0
114:     MOV TEMP[10].x, IMM[1].yyyy
115:   ELSE :0
116:     MOV TEMP[10].x, TEMP[8].xxxx
117:   ENDIF
118:   MOV TEMP[9].x, TEMP[10].xxxx
119: ENDIF
120: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
121: UARL ADDR[0].x, TEMP[8].xxxx
122: UARL ADDR[0].x, TEMP[8].xxxx
123: MAD TEMP[23], CONST[ADDR[0].x+1], IN[1].wwww, TEMP[19]
124: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
125: UARL ADDR[0].x, TEMP[8].xxxx
126: UARL ADDR[0].x, TEMP[8].xxxx
127: MAD TEMP[24], CONST[ADDR[0].x+2], IN[1].wwww, TEMP[20]
128: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
129: UARL ADDR[0].x, TEMP[8].xxxx
130: UARL ADDR[0].x, TEMP[8].xxxx
131: MAD TEMP[25], CONST[ADDR[0].x+3], IN[1].wwww, TEMP[21]
132: UMUL TEMP[8].x, TEMP[9].xxxx, IMM[1].zzzz
133: UARL ADDR[0].x, TEMP[8].xxxx
134: UARL ADDR[0].x, TEMP[8].xxxx
135: MAD TEMP[26], CONST[ADDR[0].x+4], IN[1].wwww, TEMP[22]
136: MOV TEMP[4], TEMP[23]
137: MOV TEMP[5], TEMP[24]
138: MOV TEMP[6], TEMP[25]
139: MOV TEMP[7], TEMP[26]
140: MUL TEMP[8], CONST[13], TEMP[25].xxxx
141: MAD TEMP[8], CONST[14], TEMP[25].yyyy, TEMP[8]
142: MAD TEMP[8], CONST[15], TEMP[25].zzzz, TEMP[8]
143: MAD TEMP[8], CONST[16], TEMP[25].wwww, TEMP[8]
144: MUL TEMP[9], CONST[13], TEMP[24].xxxx
145: MAD TEMP[9], CONST[14], TEMP[24].yyyy, TEMP[9]
146: MAD TEMP[9], CONST[15], TEMP[24].zzzz, TEMP[9]
147: MAD TEMP[9], CONST[16], TEMP[24].wwww, TEMP[9]
148: MUL TEMP[10], CONST[13], TEMP[23].xxxx
149: MAD TEMP[10], CONST[14], TEMP[23].yyyy, TEMP[10]
150: MAD TEMP[10], CONST[15], TEMP[23].zzzz, TEMP[10]
151: MAD TEMP[10], CONST[16], TEMP[23].wwww, TEMP[10]
152: MUL TEMP[10], TEMP[10], IN[4].xxxx
153: MAD TEMP[9], TEMP[9], IN[4].yyyy, TEMP[10]
154: MAD TEMP[8], TEMP[8], IN[4].zzzz, TEMP[9]
155: MUL TEMP[9], CONST[13], TEMP[26].xxxx
156: MAD TEMP[9], CONST[14], TEMP[26].yyyy, TEMP[9]
157: MAD TEMP[9], CONST[15], TEMP[26].zzzz, TEMP[9]
158: MAD TEMP[9], CONST[16], TEMP[26].wwww, TEMP[9]
159: ADD TEMP[8], TEMP[8], TEMP[9]
160: MUL TEMP[9], CONST[17], CONST[24].xxxx
161: MAD TEMP[9], CONST[18], CONST[24].yyyy, TEMP[9]
162: MAD TEMP[9], CONST[19], CONST[24].zzzz, TEMP[9]
163: MAD TEMP[9], CONST[20], CONST[24].wwww, TEMP[9]
164: MUL TEMP[10], CONST[17], CONST[23].xxxx
165: MAD TEMP[10], CONST[18], CONST[23].yyyy, TEMP[10]
166: MAD TEMP[10], CONST[19], CONST[23].zzzz, TEMP[10]
167: MAD TEMP[10], CONST[20], CONST[23].wwww, TEMP[10]
168: MUL TEMP[27], CONST[17], CONST[22].xxxx
169: MAD TEMP[27], CONST[18], CONST[22].yyyy, TEMP[27]
170: MAD TEMP[27], CONST[19], CONST[22].zzzz, TEMP[27]
171: MAD TEMP[27], CONST[20], CONST[22].wwww, TEMP[27]
172: MUL TEMP[28], CONST[17], CONST[21].xxxx
173: MAD TEMP[28], CONST[18], CONST[21].yyyy, TEMP[28]
174: MAD TEMP[28], CONST[19], CONST[21].zzzz, TEMP[28]
175: MAD TEMP[28], CONST[20], CONST[21].wwww, TEMP[28]
176: MUL TEMP[28], TEMP[28], TEMP[8].xxxx
177: MAD TEMP[27], TEMP[27], TEMP[8].yyyy, TEMP[28]
178: MAD TEMP[10], TEMP[10], TEMP[8].zzzz, TEMP[27]
179: MAD TEMP[8], TEMP[9], TEMP[8].wwww, TEMP[10]
180: MOV TEMP[9].xy, IN[2].xyxx
181: MOV TEMP[9].zw, CONST[0].yyxy
182: MOV TEMP[10].x, CONST[0].zzzz
183: MUL TEMP[27], CONST[13], TEMP[25].xxxx
184: MAD TEMP[27], CONST[14], TEMP[25].yyyy, TEMP[27]
185: MAD TEMP[27], CONST[15], TEMP[25].zzzz, TEMP[27]
186: MAD TEMP[27], CONST[16], TEMP[25].wwww, TEMP[27]
187: MUL TEMP[28], CONST[13], TEMP[24].xxxx
188: MAD TEMP[28], CONST[14], TEMP[24].yyyy, TEMP[28]
189: MAD TEMP[28], CONST[15], TEMP[24].zzzz, TEMP[28]
190: MAD TEMP[28], CONST[16], TEMP[24].wwww, TEMP[28]
191: MUL TEMP[29], CONST[13], TEMP[23].xxxx
192: MAD TEMP[29], CONST[14], TEMP[23].yyyy, TEMP[29]
193: MAD TEMP[29], CONST[15], TEMP[23].zzzz, TEMP[29]
194: MAD TEMP[29], CONST[16], TEMP[23].wwww, TEMP[29]
195: MUL TEMP[29], TEMP[29], IN[3].xxxx
196: MAD TEMP[28], TEMP[28], IN[3].yyyy, TEMP[29]
197: MAD TEMP[27].xyz, TEMP[27], IN[3].zzzz, TEMP[28]
198: MOV TEMP[10].yzw, TEMP[27].yxyz
199: MOV OUT[1], TEMP[9]
200: MOV OUT[2], TEMP[10]
201: MOV OUT[0], TEMP[8]
202: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = call float @llvm.R600.load.input(i32 12)
  %9 = call float @llvm.R600.load.input(i32 13)
  %10 = call float @llvm.R600.load.input(i32 14)
  %11 = call float @llvm.R600.load.input(i32 15)
  %12 = call float @llvm.R600.load.input(i32 16)
  %13 = call float @llvm.R600.load.input(i32 17)
  %14 = call float @llvm.R600.load.input(i32 18)
  %15 = call float @llvm.R600.load.input(i32 19)
  %16 = call float @llvm.R600.load.input(i32 20)
  %17 = call float @llvm.R600.load.input(i32 21)
  %18 = call float @llvm.R600.load.input(i32 22)
  %19 = call float @llvm.R600.load.input(i32 23)
  %20 = fptosi float %0 to i32
  %21 = bitcast i32 %20 to float
  %22 = bitcast float %21 to i32
  %23 = icmp slt i32 %22, 0
  %24 = sext i1 %23 to i32
  %25 = bitcast i32 %24 to float
  %26 = bitcast float %25 to i32
  %27 = icmp ne i32 %26, 0
  br i1 %27, label %ENDIF, label %ELSE

ELSE:                                             ; preds = %main_body
  %28 = bitcast float %21 to i32
  %29 = icmp slt i32 2, %28
  %30 = sext i1 %29 to i32
  %31 = bitcast i32 %30 to float
  %32 = bitcast float %31 to i32
  %33 = icmp ne i32 %32, 0
  %. = select i1 %33, float 0,000000e+00, float %21
  br label %ENDIF

ENDIF:                                            ; preds = %main_body, %ELSE
  %temp36.0 = phi float [ %., %ELSE ], [ 0,000000e+00, %main_body ]
  %34 = bitcast float %temp36.0 to i32
  %35 = mul i32 %34, 4
  %36 = bitcast i32 %35 to float
  %37 = bitcast float %36 to i32
  %38 = add i32 1, %37
  %39 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %38
  %40 = load <4 x float> addrspace(8)* %39
  %41 = extractelement <4 x float> %40, i32 0
  %42 = fmul float %41, %4
  %43 = fadd float %42, 0,000000e+00
  %44 = add i32 1, %37
  %45 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %44
  %46 = load <4 x float> addrspace(8)* %45
  %47 = extractelement <4 x float> %46, i32 1
  %48 = fmul float %47, %4
  %49 = fadd float %48, 0,000000e+00
  %50 = add i32 1, %37
  %51 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %50
  %52 = load <4 x float> addrspace(8)* %51
  %53 = extractelement <4 x float> %52, i32 2
  %54 = fmul float %53, %4
  %55 = fadd float %54, 0,000000e+00
  %56 = add i32 1, %37
  %57 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %56
  %58 = load <4 x float> addrspace(8)* %57
  %59 = extractelement <4 x float> %58, i32 3
  %60 = fmul float %59, %4
  %61 = fadd float %60, 0,000000e+00
  %62 = bitcast float %temp36.0 to i32
  %63 = mul i32 %62, 4
  %64 = bitcast i32 %63 to float
  %65 = bitcast float %64 to i32
  %66 = add i32 2, %65
  %67 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %66
  %68 = load <4 x float> addrspace(8)* %67
  %69 = extractelement <4 x float> %68, i32 0
  %70 = fmul float %69, %4
  %71 = fadd float %70, 0,000000e+00
  %72 = add i32 2, %65
  %73 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %72
  %74 = load <4 x float> addrspace(8)* %73
  %75 = extractelement <4 x float> %74, i32 1
  %76 = fmul float %75, %4
  %77 = fadd float %76, 0,000000e+00
  %78 = add i32 2, %65
  %79 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %78
  %80 = load <4 x float> addrspace(8)* %79
  %81 = extractelement <4 x float> %80, i32 2
  %82 = fmul float %81, %4
  %83 = fadd float %82, 0,000000e+00
  %84 = add i32 2, %65
  %85 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %84
  %86 = load <4 x float> addrspace(8)* %85
  %87 = extractelement <4 x float> %86, i32 3
  %88 = fmul float %87, %4
  %89 = fadd float %88, 0,000000e+00
  %90 = bitcast float %temp36.0 to i32
  %91 = mul i32 %90, 4
  %92 = bitcast i32 %91 to float
  %93 = bitcast float %92 to i32
  %94 = add i32 3, %93
  %95 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %94
  %96 = load <4 x float> addrspace(8)* %95
  %97 = extractelement <4 x float> %96, i32 0
  %98 = fmul float %97, %4
  %99 = fadd float %98, 0,000000e+00
  %100 = add i32 3, %93
  %101 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %100
  %102 = load <4 x float> addrspace(8)* %101
  %103 = extractelement <4 x float> %102, i32 1
  %104 = fmul float %103, %4
  %105 = fadd float %104, 0,000000e+00
  %106 = add i32 3, %93
  %107 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %106
  %108 = load <4 x float> addrspace(8)* %107
  %109 = extractelement <4 x float> %108, i32 2
  %110 = fmul float %109, %4
  %111 = fadd float %110, 0,000000e+00
  %112 = add i32 3, %93
  %113 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %112
  %114 = load <4 x float> addrspace(8)* %113
  %115 = extractelement <4 x float> %114, i32 3
  %116 = fmul float %115, %4
  %117 = fadd float %116, 0,000000e+00
  %118 = bitcast float %temp36.0 to i32
  %119 = mul i32 %118, 4
  %120 = bitcast i32 %119 to float
  %121 = bitcast float %120 to i32
  %122 = add i32 4, %121
  %123 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %122
  %124 = load <4 x float> addrspace(8)* %123
  %125 = extractelement <4 x float> %124, i32 0
  %126 = fmul float %125, %4
  %127 = fadd float %126, 0,000000e+00
  %128 = add i32 4, %121
  %129 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %128
  %130 = load <4 x float> addrspace(8)* %129
  %131 = extractelement <4 x float> %130, i32 1
  %132 = fmul float %131, %4
  %133 = fadd float %132, 0,000000e+00
  %134 = add i32 4, %121
  %135 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %134
  %136 = load <4 x float> addrspace(8)* %135
  %137 = extractelement <4 x float> %136, i32 2
  %138 = fmul float %137, %4
  %139 = fadd float %138, 0,000000e+00
  %140 = add i32 4, %121
  %141 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %140
  %142 = load <4 x float> addrspace(8)* %141
  %143 = extractelement <4 x float> %142, i32 3
  %144 = fmul float %143, %4
  %145 = fadd float %144, 0,000000e+00
  %146 = fptosi float %1 to i32
  %147 = bitcast i32 %146 to float
  %148 = bitcast float %147 to i32
  %149 = icmp slt i32 %148, 0
  %150 = sext i1 %149 to i32
  %151 = bitcast i32 %150 to float
  %152 = bitcast float %151 to i32
  %153 = icmp ne i32 %152, 0
  br i1 %153, label %ENDIF123, label %ELSE125

ELSE125:                                          ; preds = %ENDIF
  %154 = bitcast float %147 to i32
  %155 = icmp slt i32 2, %154
  %156 = sext i1 %155 to i32
  %157 = bitcast i32 %156 to float
  %158 = bitcast float %157 to i32
  %159 = icmp ne i32 %158, 0
  %.141 = select i1 %159, float 0,000000e+00, float %147
  br label %ENDIF123

ENDIF123:                                         ; preds = %ENDIF, %ELSE125
  %temp36.1 = phi float [ %.141, %ELSE125 ], [ 0,000000e+00, %ENDIF ]
  %160 = bitcast float %temp36.1 to i32
  %161 = mul i32 %160, 4
  %162 = bitcast i32 %161 to float
  %163 = bitcast float %162 to i32
  %164 = add i32 1, %163
  %165 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %164
  %166 = load <4 x float> addrspace(8)* %165
  %167 = extractelement <4 x float> %166, i32 0
  %168 = fmul float %167, %5
  %169 = fadd float %168, %43
  %170 = add i32 1, %163
  %171 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %170
  %172 = load <4 x float> addrspace(8)* %171
  %173 = extractelement <4 x float> %172, i32 1
  %174 = fmul float %173, %5
  %175 = fadd float %174, %49
  %176 = add i32 1, %163
  %177 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %176
  %178 = load <4 x float> addrspace(8)* %177
  %179 = extractelement <4 x float> %178, i32 2
  %180 = fmul float %179, %5
  %181 = fadd float %180, %55
  %182 = add i32 1, %163
  %183 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %182
  %184 = load <4 x float> addrspace(8)* %183
  %185 = extractelement <4 x float> %184, i32 3
  %186 = fmul float %185, %5
  %187 = fadd float %186, %61
  %188 = bitcast float %temp36.1 to i32
  %189 = mul i32 %188, 4
  %190 = bitcast i32 %189 to float
  %191 = bitcast float %190 to i32
  %192 = add i32 2, %191
  %193 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %192
  %194 = load <4 x float> addrspace(8)* %193
  %195 = extractelement <4 x float> %194, i32 0
  %196 = fmul float %195, %5
  %197 = fadd float %196, %71
  %198 = add i32 2, %191
  %199 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %198
  %200 = load <4 x float> addrspace(8)* %199
  %201 = extractelement <4 x float> %200, i32 1
  %202 = fmul float %201, %5
  %203 = fadd float %202, %77
  %204 = add i32 2, %191
  %205 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %204
  %206 = load <4 x float> addrspace(8)* %205
  %207 = extractelement <4 x float> %206, i32 2
  %208 = fmul float %207, %5
  %209 = fadd float %208, %83
  %210 = add i32 2, %191
  %211 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %210
  %212 = load <4 x float> addrspace(8)* %211
  %213 = extractelement <4 x float> %212, i32 3
  %214 = fmul float %213, %5
  %215 = fadd float %214, %89
  %216 = bitcast float %temp36.1 to i32
  %217 = mul i32 %216, 4
  %218 = bitcast i32 %217 to float
  %219 = bitcast float %218 to i32
  %220 = add i32 3, %219
  %221 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %220
  %222 = load <4 x float> addrspace(8)* %221
  %223 = extractelement <4 x float> %222, i32 0
  %224 = fmul float %223, %5
  %225 = fadd float %224, %99
  %226 = add i32 3, %219
  %227 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %226
  %228 = load <4 x float> addrspace(8)* %227
  %229 = extractelement <4 x float> %228, i32 1
  %230 = fmul float %229, %5
  %231 = fadd float %230, %105
  %232 = add i32 3, %219
  %233 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %232
  %234 = load <4 x float> addrspace(8)* %233
  %235 = extractelement <4 x float> %234, i32 2
  %236 = fmul float %235, %5
  %237 = fadd float %236, %111
  %238 = add i32 3, %219
  %239 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %238
  %240 = load <4 x float> addrspace(8)* %239
  %241 = extractelement <4 x float> %240, i32 3
  %242 = fmul float %241, %5
  %243 = fadd float %242, %117
  %244 = bitcast float %temp36.1 to i32
  %245 = mul i32 %244, 4
  %246 = bitcast i32 %245 to float
  %247 = bitcast float %246 to i32
  %248 = add i32 4, %247
  %249 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %248
  %250 = load <4 x float> addrspace(8)* %249
  %251 = extractelement <4 x float> %250, i32 0
  %252 = fmul float %251, %5
  %253 = fadd float %252, %127
  %254 = add i32 4, %247
  %255 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %254
  %256 = load <4 x float> addrspace(8)* %255
  %257 = extractelement <4 x float> %256, i32 1
  %258 = fmul float %257, %5
  %259 = fadd float %258, %133
  %260 = add i32 4, %247
  %261 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %260
  %262 = load <4 x float> addrspace(8)* %261
  %263 = extractelement <4 x float> %262, i32 2
  %264 = fmul float %263, %5
  %265 = fadd float %264, %139
  %266 = add i32 4, %247
  %267 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %266
  %268 = load <4 x float> addrspace(8)* %267
  %269 = extractelement <4 x float> %268, i32 3
  %270 = fmul float %269, %5
  %271 = fadd float %270, %145
  %272 = fptosi float %2 to i32
  %273 = bitcast i32 %272 to float
  %274 = bitcast float %273 to i32
  %275 = icmp slt i32 %274, 0
  %276 = sext i1 %275 to i32
  %277 = bitcast i32 %276 to float
  %278 = bitcast float %277 to i32
  %279 = icmp ne i32 %278, 0
  br i1 %279, label %ENDIF129, label %ELSE131

ELSE131:                                          ; preds = %ENDIF123
  %280 = bitcast float %273 to i32
  %281 = icmp slt i32 2, %280
  %282 = sext i1 %281 to i32
  %283 = bitcast i32 %282 to float
  %284 = bitcast float %283 to i32
  %285 = icmp ne i32 %284, 0
  %.142 = select i1 %285, float 0,000000e+00, float %273
  br label %ENDIF129

ENDIF129:                                         ; preds = %ENDIF123, %ELSE131
  %temp36.2 = phi float [ %.142, %ELSE131 ], [ 0,000000e+00, %ENDIF123 ]
  %286 = bitcast float %temp36.2 to i32
  %287 = mul i32 %286, 4
  %288 = bitcast i32 %287 to float
  %289 = bitcast float %288 to i32
  %290 = add i32 1, %289
  %291 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %290
  %292 = load <4 x float> addrspace(8)* %291
  %293 = extractelement <4 x float> %292, i32 0
  %294 = fmul float %293, %6
  %295 = fadd float %294, %169
  %296 = add i32 1, %289
  %297 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %296
  %298 = load <4 x float> addrspace(8)* %297
  %299 = extractelement <4 x float> %298, i32 1
  %300 = fmul float %299, %6
  %301 = fadd float %300, %175
  %302 = add i32 1, %289
  %303 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %302
  %304 = load <4 x float> addrspace(8)* %303
  %305 = extractelement <4 x float> %304, i32 2
  %306 = fmul float %305, %6
  %307 = fadd float %306, %181
  %308 = add i32 1, %289
  %309 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %308
  %310 = load <4 x float> addrspace(8)* %309
  %311 = extractelement <4 x float> %310, i32 3
  %312 = fmul float %311, %6
  %313 = fadd float %312, %187
  %314 = bitcast float %temp36.2 to i32
  %315 = mul i32 %314, 4
  %316 = bitcast i32 %315 to float
  %317 = bitcast float %316 to i32
  %318 = add i32 2, %317
  %319 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %318
  %320 = load <4 x float> addrspace(8)* %319
  %321 = extractelement <4 x float> %320, i32 0
  %322 = fmul float %321, %6
  %323 = fadd float %322, %197
  %324 = add i32 2, %317
  %325 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %324
  %326 = load <4 x float> addrspace(8)* %325
  %327 = extractelement <4 x float> %326, i32 1
  %328 = fmul float %327, %6
  %329 = fadd float %328, %203
  %330 = add i32 2, %317
  %331 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %330
  %332 = load <4 x float> addrspace(8)* %331
  %333 = extractelement <4 x float> %332, i32 2
  %334 = fmul float %333, %6
  %335 = fadd float %334, %209
  %336 = add i32 2, %317
  %337 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %336
  %338 = load <4 x float> addrspace(8)* %337
  %339 = extractelement <4 x float> %338, i32 3
  %340 = fmul float %339, %6
  %341 = fadd float %340, %215
  %342 = bitcast float %temp36.2 to i32
  %343 = mul i32 %342, 4
  %344 = bitcast i32 %343 to float
  %345 = bitcast float %344 to i32
  %346 = add i32 3, %345
  %347 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %346
  %348 = load <4 x float> addrspace(8)* %347
  %349 = extractelement <4 x float> %348, i32 0
  %350 = fmul float %349, %6
  %351 = fadd float %350, %225
  %352 = add i32 3, %345
  %353 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %352
  %354 = load <4 x float> addrspace(8)* %353
  %355 = extractelement <4 x float> %354, i32 1
  %356 = fmul float %355, %6
  %357 = fadd float %356, %231
  %358 = add i32 3, %345
  %359 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %358
  %360 = load <4 x float> addrspace(8)* %359
  %361 = extractelement <4 x float> %360, i32 2
  %362 = fmul float %361, %6
  %363 = fadd float %362, %237
  %364 = add i32 3, %345
  %365 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %364
  %366 = load <4 x float> addrspace(8)* %365
  %367 = extractelement <4 x float> %366, i32 3
  %368 = fmul float %367, %6
  %369 = fadd float %368, %243
  %370 = bitcast float %temp36.2 to i32
  %371 = mul i32 %370, 4
  %372 = bitcast i32 %371 to float
  %373 = bitcast float %372 to i32
  %374 = add i32 4, %373
  %375 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %374
  %376 = load <4 x float> addrspace(8)* %375
  %377 = extractelement <4 x float> %376, i32 0
  %378 = fmul float %377, %6
  %379 = fadd float %378, %253
  %380 = add i32 4, %373
  %381 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %380
  %382 = load <4 x float> addrspace(8)* %381
  %383 = extractelement <4 x float> %382, i32 1
  %384 = fmul float %383, %6
  %385 = fadd float %384, %259
  %386 = add i32 4, %373
  %387 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %386
  %388 = load <4 x float> addrspace(8)* %387
  %389 = extractelement <4 x float> %388, i32 2
  %390 = fmul float %389, %6
  %391 = fadd float %390, %265
  %392 = add i32 4, %373
  %393 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %392
  %394 = load <4 x float> addrspace(8)* %393
  %395 = extractelement <4 x float> %394, i32 3
  %396 = fmul float %395, %6
  %397 = fadd float %396, %271
  %398 = fptosi float %3 to i32
  %399 = bitcast i32 %398 to float
  %400 = bitcast float %399 to i32
  %401 = icmp slt i32 %400, 0
  %402 = sext i1 %401 to i32
  %403 = bitcast i32 %402 to float
  %404 = bitcast float %403 to i32
  %405 = icmp ne i32 %404, 0
  br i1 %405, label %ENDIF135, label %ELSE137

ELSE137:                                          ; preds = %ENDIF129
  %406 = bitcast float %399 to i32
  %407 = icmp slt i32 2, %406
  %408 = sext i1 %407 to i32
  %409 = bitcast i32 %408 to float
  %410 = bitcast float %409 to i32
  %411 = icmp ne i32 %410, 0
  %.143 = select i1 %411, float 0,000000e+00, float %399
  br label %ENDIF135

ENDIF135:                                         ; preds = %ENDIF129, %ELSE137
  %temp36.3 = phi float [ %.143, %ELSE137 ], [ 0,000000e+00, %ENDIF129 ]
  %412 = bitcast float %temp36.3 to i32
  %413 = mul i32 %412, 4
  %414 = bitcast i32 %413 to float
  %415 = bitcast float %414 to i32
  %416 = add i32 1, %415
  %417 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %416
  %418 = load <4 x float> addrspace(8)* %417
  %419 = extractelement <4 x float> %418, i32 0
  %420 = fmul float %419, %7
  %421 = fadd float %420, %295
  %422 = add i32 1, %415
  %423 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %422
  %424 = load <4 x float> addrspace(8)* %423
  %425 = extractelement <4 x float> %424, i32 1
  %426 = fmul float %425, %7
  %427 = fadd float %426, %301
  %428 = add i32 1, %415
  %429 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %428
  %430 = load <4 x float> addrspace(8)* %429
  %431 = extractelement <4 x float> %430, i32 2
  %432 = fmul float %431, %7
  %433 = fadd float %432, %307
  %434 = add i32 1, %415
  %435 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %434
  %436 = load <4 x float> addrspace(8)* %435
  %437 = extractelement <4 x float> %436, i32 3
  %438 = fmul float %437, %7
  %439 = fadd float %438, %313
  %440 = bitcast float %temp36.3 to i32
  %441 = mul i32 %440, 4
  %442 = bitcast i32 %441 to float
  %443 = bitcast float %442 to i32
  %444 = add i32 2, %443
  %445 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %444
  %446 = load <4 x float> addrspace(8)* %445
  %447 = extractelement <4 x float> %446, i32 0
  %448 = fmul float %447, %7
  %449 = fadd float %448, %323
  %450 = add i32 2, %443
  %451 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %450
  %452 = load <4 x float> addrspace(8)* %451
  %453 = extractelement <4 x float> %452, i32 1
  %454 = fmul float %453, %7
  %455 = fadd float %454, %329
  %456 = add i32 2, %443
  %457 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %456
  %458 = load <4 x float> addrspace(8)* %457
  %459 = extractelement <4 x float> %458, i32 2
  %460 = fmul float %459, %7
  %461 = fadd float %460, %335
  %462 = add i32 2, %443
  %463 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %462
  %464 = load <4 x float> addrspace(8)* %463
  %465 = extractelement <4 x float> %464, i32 3
  %466 = fmul float %465, %7
  %467 = fadd float %466, %341
  %468 = bitcast float %temp36.3 to i32
  %469 = mul i32 %468, 4
  %470 = bitcast i32 %469 to float
  %471 = bitcast float %470 to i32
  %472 = add i32 3, %471
  %473 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %472
  %474 = load <4 x float> addrspace(8)* %473
  %475 = extractelement <4 x float> %474, i32 0
  %476 = fmul float %475, %7
  %477 = fadd float %476, %351
  %478 = add i32 3, %471
  %479 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %478
  %480 = load <4 x float> addrspace(8)* %479
  %481 = extractelement <4 x float> %480, i32 1
  %482 = fmul float %481, %7
  %483 = fadd float %482, %357
  %484 = add i32 3, %471
  %485 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %484
  %486 = load <4 x float> addrspace(8)* %485
  %487 = extractelement <4 x float> %486, i32 2
  %488 = fmul float %487, %7
  %489 = fadd float %488, %363
  %490 = add i32 3, %471
  %491 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %490
  %492 = load <4 x float> addrspace(8)* %491
  %493 = extractelement <4 x float> %492, i32 3
  %494 = fmul float %493, %7
  %495 = fadd float %494, %369
  %496 = bitcast float %temp36.3 to i32
  %497 = mul i32 %496, 4
  %498 = bitcast i32 %497 to float
  %499 = bitcast float %498 to i32
  %500 = add i32 4, %499
  %501 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %500
  %502 = load <4 x float> addrspace(8)* %501
  %503 = extractelement <4 x float> %502, i32 0
  %504 = fmul float %503, %7
  %505 = fadd float %504, %379
  %506 = add i32 4, %499
  %507 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %506
  %508 = load <4 x float> addrspace(8)* %507
  %509 = extractelement <4 x float> %508, i32 1
  %510 = fmul float %509, %7
  %511 = fadd float %510, %385
  %512 = add i32 4, %499
  %513 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %512
  %514 = load <4 x float> addrspace(8)* %513
  %515 = extractelement <4 x float> %514, i32 2
  %516 = fmul float %515, %7
  %517 = fadd float %516, %391
  %518 = add i32 4, %499
  %519 = getelementptr [1024 x <4 x float>] addrspace(8)* null, i64 0, i32 %518
  %520 = load <4 x float> addrspace(8)* %519
  %521 = extractelement <4 x float> %520, i32 3
  %522 = fmul float %521, %7
  %523 = fadd float %522, %397
  %524 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %525 = extractelement <4 x float> %524, i32 0
  %526 = fmul float %525, %477
  %527 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %528 = extractelement <4 x float> %527, i32 1
  %529 = fmul float %528, %477
  %530 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %531 = extractelement <4 x float> %530, i32 2
  %532 = fmul float %531, %477
  %533 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %534 = extractelement <4 x float> %533, i32 3
  %535 = fmul float %534, %477
  %536 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %537 = extractelement <4 x float> %536, i32 0
  %538 = fmul float %537, %483
  %539 = fadd float %538, %526
  %540 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %541 = extractelement <4 x float> %540, i32 1
  %542 = fmul float %541, %483
  %543 = fadd float %542, %529
  %544 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %545 = extractelement <4 x float> %544, i32 2
  %546 = fmul float %545, %483
  %547 = fadd float %546, %532
  %548 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %549 = extractelement <4 x float> %548, i32 3
  %550 = fmul float %549, %483
  %551 = fadd float %550, %535
  %552 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %553 = extractelement <4 x float> %552, i32 0
  %554 = fmul float %553, %489
  %555 = fadd float %554, %539
  %556 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %557 = extractelement <4 x float> %556, i32 1
  %558 = fmul float %557, %489
  %559 = fadd float %558, %543
  %560 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %561 = extractelement <4 x float> %560, i32 2
  %562 = fmul float %561, %489
  %563 = fadd float %562, %547
  %564 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %565 = extractelement <4 x float> %564, i32 3
  %566 = fmul float %565, %489
  %567 = fadd float %566, %551
  %568 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %569 = extractelement <4 x float> %568, i32 0
  %570 = fmul float %569, %495
  %571 = fadd float %570, %555
  %572 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %573 = extractelement <4 x float> %572, i32 1
  %574 = fmul float %573, %495
  %575 = fadd float %574, %559
  %576 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %577 = extractelement <4 x float> %576, i32 2
  %578 = fmul float %577, %495
  %579 = fadd float %578, %563
  %580 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %581 = extractelement <4 x float> %580, i32 3
  %582 = fmul float %581, %495
  %583 = fadd float %582, %567
  %584 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %585 = extractelement <4 x float> %584, i32 0
  %586 = fmul float %585, %449
  %587 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %588 = extractelement <4 x float> %587, i32 1
  %589 = fmul float %588, %449
  %590 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %591 = extractelement <4 x float> %590, i32 2
  %592 = fmul float %591, %449
  %593 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %594 = extractelement <4 x float> %593, i32 3
  %595 = fmul float %594, %449
  %596 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %597 = extractelement <4 x float> %596, i32 0
  %598 = fmul float %597, %455
  %599 = fadd float %598, %586
  %600 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %601 = extractelement <4 x float> %600, i32 1
  %602 = fmul float %601, %455
  %603 = fadd float %602, %589
  %604 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %605 = extractelement <4 x float> %604, i32 2
  %606 = fmul float %605, %455
  %607 = fadd float %606, %592
  %608 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %609 = extractelement <4 x float> %608, i32 3
  %610 = fmul float %609, %455
  %611 = fadd float %610, %595
  %612 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %613 = extractelement <4 x float> %612, i32 0
  %614 = fmul float %613, %461
  %615 = fadd float %614, %599
  %616 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %617 = extractelement <4 x float> %616, i32 1
  %618 = fmul float %617, %461
  %619 = fadd float %618, %603
  %620 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %621 = extractelement <4 x float> %620, i32 2
  %622 = fmul float %621, %461
  %623 = fadd float %622, %607
  %624 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %625 = extractelement <4 x float> %624, i32 3
  %626 = fmul float %625, %461
  %627 = fadd float %626, %611
  %628 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %629 = extractelement <4 x float> %628, i32 0
  %630 = fmul float %629, %467
  %631 = fadd float %630, %615
  %632 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %633 = extractelement <4 x float> %632, i32 1
  %634 = fmul float %633, %467
  %635 = fadd float %634, %619
  %636 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %637 = extractelement <4 x float> %636, i32 2
  %638 = fmul float %637, %467
  %639 = fadd float %638, %623
  %640 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %641 = extractelement <4 x float> %640, i32 3
  %642 = fmul float %641, %467
  %643 = fadd float %642, %627
  %644 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %645 = extractelement <4 x float> %644, i32 0
  %646 = fmul float %645, %421
  %647 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %648 = extractelement <4 x float> %647, i32 1
  %649 = fmul float %648, %421
  %650 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %651 = extractelement <4 x float> %650, i32 2
  %652 = fmul float %651, %421
  %653 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %654 = extractelement <4 x float> %653, i32 3
  %655 = fmul float %654, %421
  %656 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %657 = extractelement <4 x float> %656, i32 0
  %658 = fmul float %657, %427
  %659 = fadd float %658, %646
  %660 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %661 = extractelement <4 x float> %660, i32 1
  %662 = fmul float %661, %427
  %663 = fadd float %662, %649
  %664 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %665 = extractelement <4 x float> %664, i32 2
  %666 = fmul float %665, %427
  %667 = fadd float %666, %652
  %668 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %669 = extractelement <4 x float> %668, i32 3
  %670 = fmul float %669, %427
  %671 = fadd float %670, %655
  %672 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %673 = extractelement <4 x float> %672, i32 0
  %674 = fmul float %673, %433
  %675 = fadd float %674, %659
  %676 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %677 = extractelement <4 x float> %676, i32 1
  %678 = fmul float %677, %433
  %679 = fadd float %678, %663
  %680 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %681 = extractelement <4 x float> %680, i32 2
  %682 = fmul float %681, %433
  %683 = fadd float %682, %667
  %684 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %685 = extractelement <4 x float> %684, i32 3
  %686 = fmul float %685, %433
  %687 = fadd float %686, %671
  %688 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %689 = extractelement <4 x float> %688, i32 0
  %690 = fmul float %689, %439
  %691 = fadd float %690, %675
  %692 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %693 = extractelement <4 x float> %692, i32 1
  %694 = fmul float %693, %439
  %695 = fadd float %694, %679
  %696 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %697 = extractelement <4 x float> %696, i32 2
  %698 = fmul float %697, %439
  %699 = fadd float %698, %683
  %700 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %701 = extractelement <4 x float> %700, i32 3
  %702 = fmul float %701, %439
  %703 = fadd float %702, %687
  %704 = fmul float %691, %16
  %705 = fmul float %695, %16
  %706 = fmul float %699, %16
  %707 = fmul float %703, %16
  %708 = fmul float %631, %17
  %709 = fadd float %708, %704
  %710 = fmul float %635, %17
  %711 = fadd float %710, %705
  %712 = fmul float %639, %17
  %713 = fadd float %712, %706
  %714 = fmul float %643, %17
  %715 = fadd float %714, %707
  %716 = fmul float %571, %18
  %717 = fadd float %716, %709
  %718 = fmul float %575, %18
  %719 = fadd float %718, %711
  %720 = fmul float %579, %18
  %721 = fadd float %720, %713
  %722 = fmul float %583, %18
  %723 = fadd float %722, %715
  %724 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %725 = extractelement <4 x float> %724, i32 0
  %726 = fmul float %725, %505
  %727 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %728 = extractelement <4 x float> %727, i32 1
  %729 = fmul float %728, %505
  %730 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %731 = extractelement <4 x float> %730, i32 2
  %732 = fmul float %731, %505
  %733 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %734 = extractelement <4 x float> %733, i32 3
  %735 = fmul float %734, %505
  %736 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %737 = extractelement <4 x float> %736, i32 0
  %738 = fmul float %737, %511
  %739 = fadd float %738, %726
  %740 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %741 = extractelement <4 x float> %740, i32 1
  %742 = fmul float %741, %511
  %743 = fadd float %742, %729
  %744 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %745 = extractelement <4 x float> %744, i32 2
  %746 = fmul float %745, %511
  %747 = fadd float %746, %732
  %748 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %749 = extractelement <4 x float> %748, i32 3
  %750 = fmul float %749, %511
  %751 = fadd float %750, %735
  %752 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %753 = extractelement <4 x float> %752, i32 0
  %754 = fmul float %753, %517
  %755 = fadd float %754, %739
  %756 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %757 = extractelement <4 x float> %756, i32 1
  %758 = fmul float %757, %517
  %759 = fadd float %758, %743
  %760 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %761 = extractelement <4 x float> %760, i32 2
  %762 = fmul float %761, %517
  %763 = fadd float %762, %747
  %764 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %765 = extractelement <4 x float> %764, i32 3
  %766 = fmul float %765, %517
  %767 = fadd float %766, %751
  %768 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %769 = extractelement <4 x float> %768, i32 0
  %770 = fmul float %769, %523
  %771 = fadd float %770, %755
  %772 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %773 = extractelement <4 x float> %772, i32 1
  %774 = fmul float %773, %523
  %775 = fadd float %774, %759
  %776 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %777 = extractelement <4 x float> %776, i32 2
  %778 = fmul float %777, %523
  %779 = fadd float %778, %763
  %780 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %781 = extractelement <4 x float> %780, i32 3
  %782 = fmul float %781, %523
  %783 = fadd float %782, %767
  %784 = fadd float %717, %771
  %785 = fadd float %719, %775
  %786 = fadd float %721, %779
  %787 = fadd float %723, %783
  %788 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %789 = extractelement <4 x float> %788, i32 0
  %790 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %791 = extractelement <4 x float> %790, i32 0
  %792 = fmul float %789, %791
  %793 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %794 = extractelement <4 x float> %793, i32 1
  %795 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %796 = extractelement <4 x float> %795, i32 0
  %797 = fmul float %794, %796
  %798 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %799 = extractelement <4 x float> %798, i32 2
  %800 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %801 = extractelement <4 x float> %800, i32 0
  %802 = fmul float %799, %801
  %803 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %804 = extractelement <4 x float> %803, i32 3
  %805 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %806 = extractelement <4 x float> %805, i32 0
  %807 = fmul float %804, %806
  %808 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %809 = extractelement <4 x float> %808, i32 0
  %810 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %811 = extractelement <4 x float> %810, i32 1
  %812 = fmul float %809, %811
  %813 = fadd float %812, %792
  %814 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %815 = extractelement <4 x float> %814, i32 1
  %816 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %817 = extractelement <4 x float> %816, i32 1
  %818 = fmul float %815, %817
  %819 = fadd float %818, %797
  %820 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %821 = extractelement <4 x float> %820, i32 2
  %822 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %823 = extractelement <4 x float> %822, i32 1
  %824 = fmul float %821, %823
  %825 = fadd float %824, %802
  %826 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %827 = extractelement <4 x float> %826, i32 3
  %828 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %829 = extractelement <4 x float> %828, i32 1
  %830 = fmul float %827, %829
  %831 = fadd float %830, %807
  %832 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %833 = extractelement <4 x float> %832, i32 0
  %834 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %835 = extractelement <4 x float> %834, i32 2
  %836 = fmul float %833, %835
  %837 = fadd float %836, %813
  %838 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %839 = extractelement <4 x float> %838, i32 1
  %840 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %841 = extractelement <4 x float> %840, i32 2
  %842 = fmul float %839, %841
  %843 = fadd float %842, %819
  %844 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %845 = extractelement <4 x float> %844, i32 2
  %846 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %847 = extractelement <4 x float> %846, i32 2
  %848 = fmul float %845, %847
  %849 = fadd float %848, %825
  %850 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %851 = extractelement <4 x float> %850, i32 3
  %852 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %853 = extractelement <4 x float> %852, i32 2
  %854 = fmul float %851, %853
  %855 = fadd float %854, %831
  %856 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %857 = extractelement <4 x float> %856, i32 0
  %858 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %859 = extractelement <4 x float> %858, i32 3
  %860 = fmul float %857, %859
  %861 = fadd float %860, %837
  %862 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %863 = extractelement <4 x float> %862, i32 1
  %864 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %865 = extractelement <4 x float> %864, i32 3
  %866 = fmul float %863, %865
  %867 = fadd float %866, %843
  %868 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %869 = extractelement <4 x float> %868, i32 2
  %870 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %871 = extractelement <4 x float> %870, i32 3
  %872 = fmul float %869, %871
  %873 = fadd float %872, %849
  %874 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %875 = extractelement <4 x float> %874, i32 3
  %876 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 24)
  %877 = extractelement <4 x float> %876, i32 3
  %878 = fmul float %875, %877
  %879 = fadd float %878, %855
  %880 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %881 = extractelement <4 x float> %880, i32 0
  %882 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %883 = extractelement <4 x float> %882, i32 0
  %884 = fmul float %881, %883
  %885 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %886 = extractelement <4 x float> %885, i32 1
  %887 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %888 = extractelement <4 x float> %887, i32 0
  %889 = fmul float %886, %888
  %890 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %891 = extractelement <4 x float> %890, i32 2
  %892 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %893 = extractelement <4 x float> %892, i32 0
  %894 = fmul float %891, %893
  %895 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %896 = extractelement <4 x float> %895, i32 3
  %897 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %898 = extractelement <4 x float> %897, i32 0
  %899 = fmul float %896, %898
  %900 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %901 = extractelement <4 x float> %900, i32 0
  %902 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %903 = extractelement <4 x float> %902, i32 1
  %904 = fmul float %901, %903
  %905 = fadd float %904, %884
  %906 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %907 = extractelement <4 x float> %906, i32 1
  %908 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %909 = extractelement <4 x float> %908, i32 1
  %910 = fmul float %907, %909
  %911 = fadd float %910, %889
  %912 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %913 = extractelement <4 x float> %912, i32 2
  %914 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %915 = extractelement <4 x float> %914, i32 1
  %916 = fmul float %913, %915
  %917 = fadd float %916, %894
  %918 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %919 = extractelement <4 x float> %918, i32 3
  %920 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %921 = extractelement <4 x float> %920, i32 1
  %922 = fmul float %919, %921
  %923 = fadd float %922, %899
  %924 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %925 = extractelement <4 x float> %924, i32 0
  %926 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %927 = extractelement <4 x float> %926, i32 2
  %928 = fmul float %925, %927
  %929 = fadd float %928, %905
  %930 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %931 = extractelement <4 x float> %930, i32 1
  %932 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %933 = extractelement <4 x float> %932, i32 2
  %934 = fmul float %931, %933
  %935 = fadd float %934, %911
  %936 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %937 = extractelement <4 x float> %936, i32 2
  %938 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %939 = extractelement <4 x float> %938, i32 2
  %940 = fmul float %937, %939
  %941 = fadd float %940, %917
  %942 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %943 = extractelement <4 x float> %942, i32 3
  %944 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %945 = extractelement <4 x float> %944, i32 2
  %946 = fmul float %943, %945
  %947 = fadd float %946, %923
  %948 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %949 = extractelement <4 x float> %948, i32 0
  %950 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %951 = extractelement <4 x float> %950, i32 3
  %952 = fmul float %949, %951
  %953 = fadd float %952, %929
  %954 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %955 = extractelement <4 x float> %954, i32 1
  %956 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %957 = extractelement <4 x float> %956, i32 3
  %958 = fmul float %955, %957
  %959 = fadd float %958, %935
  %960 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %961 = extractelement <4 x float> %960, i32 2
  %962 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %963 = extractelement <4 x float> %962, i32 3
  %964 = fmul float %961, %963
  %965 = fadd float %964, %941
  %966 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %967 = extractelement <4 x float> %966, i32 3
  %968 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 23)
  %969 = extractelement <4 x float> %968, i32 3
  %970 = fmul float %967, %969
  %971 = fadd float %970, %947
  %972 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %973 = extractelement <4 x float> %972, i32 0
  %974 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %975 = extractelement <4 x float> %974, i32 0
  %976 = fmul float %973, %975
  %977 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %978 = extractelement <4 x float> %977, i32 1
  %979 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %980 = extractelement <4 x float> %979, i32 0
  %981 = fmul float %978, %980
  %982 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %983 = extractelement <4 x float> %982, i32 2
  %984 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %985 = extractelement <4 x float> %984, i32 0
  %986 = fmul float %983, %985
  %987 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %988 = extractelement <4 x float> %987, i32 3
  %989 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %990 = extractelement <4 x float> %989, i32 0
  %991 = fmul float %988, %990
  %992 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %993 = extractelement <4 x float> %992, i32 0
  %994 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %995 = extractelement <4 x float> %994, i32 1
  %996 = fmul float %993, %995
  %997 = fadd float %996, %976
  %998 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %999 = extractelement <4 x float> %998, i32 1
  %1000 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %1001 = extractelement <4 x float> %1000, i32 1
  %1002 = fmul float %999, %1001
  %1003 = fadd float %1002, %981
  %1004 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %1005 = extractelement <4 x float> %1004, i32 2
  %1006 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %1007 = extractelement <4 x float> %1006, i32 1
  %1008 = fmul float %1005, %1007
  %1009 = fadd float %1008, %986
  %1010 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %1011 = extractelement <4 x float> %1010, i32 3
  %1012 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %1013 = extractelement <4 x float> %1012, i32 1
  %1014 = fmul float %1011, %1013
  %1015 = fadd float %1014, %991
  %1016 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %1017 = extractelement <4 x float> %1016, i32 0
  %1018 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %1019 = extractelement <4 x float> %1018, i32 2
  %1020 = fmul float %1017, %1019
  %1021 = fadd float %1020, %997
  %1022 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %1023 = extractelement <4 x float> %1022, i32 1
  %1024 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %1025 = extractelement <4 x float> %1024, i32 2
  %1026 = fmul float %1023, %1025
  %1027 = fadd float %1026, %1003
  %1028 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %1029 = extractelement <4 x float> %1028, i32 2
  %1030 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %1031 = extractelement <4 x float> %1030, i32 2
  %1032 = fmul float %1029, %1031
  %1033 = fadd float %1032, %1009
  %1034 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %1035 = extractelement <4 x float> %1034, i32 3
  %1036 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %1037 = extractelement <4 x float> %1036, i32 2
  %1038 = fmul float %1035, %1037
  %1039 = fadd float %1038, %1015
  %1040 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %1041 = extractelement <4 x float> %1040, i32 0
  %1042 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %1043 = extractelement <4 x float> %1042, i32 3
  %1044 = fmul float %1041, %1043
  %1045 = fadd float %1044, %1021
  %1046 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %1047 = extractelement <4 x float> %1046, i32 1
  %1048 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %1049 = extractelement <4 x float> %1048, i32 3
  %1050 = fmul float %1047, %1049
  %1051 = fadd float %1050, %1027
  %1052 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %1053 = extractelement <4 x float> %1052, i32 2
  %1054 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %1055 = extractelement <4 x float> %1054, i32 3
  %1056 = fmul float %1053, %1055
  %1057 = fadd float %1056, %1033
  %1058 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %1059 = extractelement <4 x float> %1058, i32 3
  %1060 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 22)
  %1061 = extractelement <4 x float> %1060, i32 3
  %1062 = fmul float %1059, %1061
  %1063 = fadd float %1062, %1039
  %1064 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %1065 = extractelement <4 x float> %1064, i32 0
  %1066 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1067 = extractelement <4 x float> %1066, i32 0
  %1068 = fmul float %1065, %1067
  %1069 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %1070 = extractelement <4 x float> %1069, i32 1
  %1071 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1072 = extractelement <4 x float> %1071, i32 0
  %1073 = fmul float %1070, %1072
  %1074 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %1075 = extractelement <4 x float> %1074, i32 2
  %1076 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1077 = extractelement <4 x float> %1076, i32 0
  %1078 = fmul float %1075, %1077
  %1079 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 17)
  %1080 = extractelement <4 x float> %1079, i32 3
  %1081 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1082 = extractelement <4 x float> %1081, i32 0
  %1083 = fmul float %1080, %1082
  %1084 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %1085 = extractelement <4 x float> %1084, i32 0
  %1086 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1087 = extractelement <4 x float> %1086, i32 1
  %1088 = fmul float %1085, %1087
  %1089 = fadd float %1088, %1068
  %1090 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %1091 = extractelement <4 x float> %1090, i32 1
  %1092 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1093 = extractelement <4 x float> %1092, i32 1
  %1094 = fmul float %1091, %1093
  %1095 = fadd float %1094, %1073
  %1096 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %1097 = extractelement <4 x float> %1096, i32 2
  %1098 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1099 = extractelement <4 x float> %1098, i32 1
  %1100 = fmul float %1097, %1099
  %1101 = fadd float %1100, %1078
  %1102 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 18)
  %1103 = extractelement <4 x float> %1102, i32 3
  %1104 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1105 = extractelement <4 x float> %1104, i32 1
  %1106 = fmul float %1103, %1105
  %1107 = fadd float %1106, %1083
  %1108 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %1109 = extractelement <4 x float> %1108, i32 0
  %1110 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1111 = extractelement <4 x float> %1110, i32 2
  %1112 = fmul float %1109, %1111
  %1113 = fadd float %1112, %1089
  %1114 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %1115 = extractelement <4 x float> %1114, i32 1
  %1116 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1117 = extractelement <4 x float> %1116, i32 2
  %1118 = fmul float %1115, %1117
  %1119 = fadd float %1118, %1095
  %1120 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %1121 = extractelement <4 x float> %1120, i32 2
  %1122 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1123 = extractelement <4 x float> %1122, i32 2
  %1124 = fmul float %1121, %1123
  %1125 = fadd float %1124, %1101
  %1126 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 19)
  %1127 = extractelement <4 x float> %1126, i32 3
  %1128 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1129 = extractelement <4 x float> %1128, i32 2
  %1130 = fmul float %1127, %1129
  %1131 = fadd float %1130, %1107
  %1132 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %1133 = extractelement <4 x float> %1132, i32 0
  %1134 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1135 = extractelement <4 x float> %1134, i32 3
  %1136 = fmul float %1133, %1135
  %1137 = fadd float %1136, %1113
  %1138 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %1139 = extractelement <4 x float> %1138, i32 1
  %1140 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1141 = extractelement <4 x float> %1140, i32 3
  %1142 = fmul float %1139, %1141
  %1143 = fadd float %1142, %1119
  %1144 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %1145 = extractelement <4 x float> %1144, i32 2
  %1146 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1147 = extractelement <4 x float> %1146, i32 3
  %1148 = fmul float %1145, %1147
  %1149 = fadd float %1148, %1125
  %1150 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 20)
  %1151 = extractelement <4 x float> %1150, i32 3
  %1152 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 21)
  %1153 = extractelement <4 x float> %1152, i32 3
  %1154 = fmul float %1151, %1153
  %1155 = fadd float %1154, %1131
  %1156 = fmul float %1137, %784
  %1157 = fmul float %1143, %784
  %1158 = fmul float %1149, %784
  %1159 = fmul float %1155, %784
  %1160 = fmul float %1045, %785
  %1161 = fadd float %1160, %1156
  %1162 = fmul float %1051, %785
  %1163 = fadd float %1162, %1157
  %1164 = fmul float %1057, %785
  %1165 = fadd float %1164, %1158
  %1166 = fmul float %1063, %785
  %1167 = fadd float %1166, %1159
  %1168 = fmul float %953, %786
  %1169 = fadd float %1168, %1161
  %1170 = fmul float %959, %786
  %1171 = fadd float %1170, %1163
  %1172 = fmul float %965, %786
  %1173 = fadd float %1172, %1165
  %1174 = fmul float %971, %786
  %1175 = fadd float %1174, %1167
  %1176 = fmul float %861, %787
  %1177 = fadd float %1176, %1169
  %1178 = fmul float %867, %787
  %1179 = fadd float %1178, %1171
  %1180 = fmul float %873, %787
  %1181 = fadd float %1180, %1173
  %1182 = fmul float %879, %787
  %1183 = fadd float %1182, %1175
  %1184 = load <4 x float> addrspace(8)* null
  %1185 = extractelement <4 x float> %1184, i32 0
  %1186 = load <4 x float> addrspace(8)* null
  %1187 = extractelement <4 x float> %1186, i32 1
  %1188 = load <4 x float> addrspace(8)* null
  %1189 = extractelement <4 x float> %1188, i32 2
  %1190 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %1191 = extractelement <4 x float> %1190, i32 0
  %1192 = fmul float %1191, %477
  %1193 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %1194 = extractelement <4 x float> %1193, i32 1
  %1195 = fmul float %1194, %477
  %1196 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %1197 = extractelement <4 x float> %1196, i32 2
  %1198 = fmul float %1197, %477
  %1199 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %1200 = extractelement <4 x float> %1199, i32 0
  %1201 = fmul float %1200, %483
  %1202 = fadd float %1201, %1192
  %1203 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %1204 = extractelement <4 x float> %1203, i32 1
  %1205 = fmul float %1204, %483
  %1206 = fadd float %1205, %1195
  %1207 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %1208 = extractelement <4 x float> %1207, i32 2
  %1209 = fmul float %1208, %483
  %1210 = fadd float %1209, %1198
  %1211 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %1212 = extractelement <4 x float> %1211, i32 0
  %1213 = fmul float %1212, %489
  %1214 = fadd float %1213, %1202
  %1215 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %1216 = extractelement <4 x float> %1215, i32 1
  %1217 = fmul float %1216, %489
  %1218 = fadd float %1217, %1206
  %1219 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %1220 = extractelement <4 x float> %1219, i32 2
  %1221 = fmul float %1220, %489
  %1222 = fadd float %1221, %1210
  %1223 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %1224 = extractelement <4 x float> %1223, i32 0
  %1225 = fmul float %1224, %495
  %1226 = fadd float %1225, %1214
  %1227 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %1228 = extractelement <4 x float> %1227, i32 1
  %1229 = fmul float %1228, %495
  %1230 = fadd float %1229, %1218
  %1231 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %1232 = extractelement <4 x float> %1231, i32 2
  %1233 = fmul float %1232, %495
  %1234 = fadd float %1233, %1222
  %1235 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %1236 = extractelement <4 x float> %1235, i32 0
  %1237 = fmul float %1236, %449
  %1238 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %1239 = extractelement <4 x float> %1238, i32 1
  %1240 = fmul float %1239, %449
  %1241 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %1242 = extractelement <4 x float> %1241, i32 2
  %1243 = fmul float %1242, %449
  %1244 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %1245 = extractelement <4 x float> %1244, i32 0
  %1246 = fmul float %1245, %455
  %1247 = fadd float %1246, %1237
  %1248 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %1249 = extractelement <4 x float> %1248, i32 1
  %1250 = fmul float %1249, %455
  %1251 = fadd float %1250, %1240
  %1252 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %1253 = extractelement <4 x float> %1252, i32 2
  %1254 = fmul float %1253, %455
  %1255 = fadd float %1254, %1243
  %1256 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %1257 = extractelement <4 x float> %1256, i32 0
  %1258 = fmul float %1257, %461
  %1259 = fadd float %1258, %1247
  %1260 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %1261 = extractelement <4 x float> %1260, i32 1
  %1262 = fmul float %1261, %461
  %1263 = fadd float %1262, %1251
  %1264 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %1265 = extractelement <4 x float> %1264, i32 2
  %1266 = fmul float %1265, %461
  %1267 = fadd float %1266, %1255
  %1268 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %1269 = extractelement <4 x float> %1268, i32 0
  %1270 = fmul float %1269, %467
  %1271 = fadd float %1270, %1259
  %1272 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %1273 = extractelement <4 x float> %1272, i32 1
  %1274 = fmul float %1273, %467
  %1275 = fadd float %1274, %1263
  %1276 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %1277 = extractelement <4 x float> %1276, i32 2
  %1278 = fmul float %1277, %467
  %1279 = fadd float %1278, %1267
  %1280 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %1281 = extractelement <4 x float> %1280, i32 0
  %1282 = fmul float %1281, %421
  %1283 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %1284 = extractelement <4 x float> %1283, i32 1
  %1285 = fmul float %1284, %421
  %1286 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %1287 = extractelement <4 x float> %1286, i32 2
  %1288 = fmul float %1287, %421
  %1289 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %1290 = extractelement <4 x float> %1289, i32 0
  %1291 = fmul float %1290, %427
  %1292 = fadd float %1291, %1282
  %1293 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %1294 = extractelement <4 x float> %1293, i32 1
  %1295 = fmul float %1294, %427
  %1296 = fadd float %1295, %1285
  %1297 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %1298 = extractelement <4 x float> %1297, i32 2
  %1299 = fmul float %1298, %427
  %1300 = fadd float %1299, %1288
  %1301 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %1302 = extractelement <4 x float> %1301, i32 0
  %1303 = fmul float %1302, %433
  %1304 = fadd float %1303, %1292
  %1305 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %1306 = extractelement <4 x float> %1305, i32 1
  %1307 = fmul float %1306, %433
  %1308 = fadd float %1307, %1296
  %1309 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %1310 = extractelement <4 x float> %1309, i32 2
  %1311 = fmul float %1310, %433
  %1312 = fadd float %1311, %1300
  %1313 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %1314 = extractelement <4 x float> %1313, i32 0
  %1315 = fmul float %1314, %439
  %1316 = fadd float %1315, %1304
  %1317 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %1318 = extractelement <4 x float> %1317, i32 1
  %1319 = fmul float %1318, %439
  %1320 = fadd float %1319, %1308
  %1321 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %1322 = extractelement <4 x float> %1321, i32 2
  %1323 = fmul float %1322, %439
  %1324 = fadd float %1323, %1312
  %1325 = fmul float %1316, %12
  %1326 = fmul float %1320, %12
  %1327 = fmul float %1324, %12
  %1328 = fmul float %1271, %13
  %1329 = fadd float %1328, %1325
  %1330 = fmul float %1275, %13
  %1331 = fadd float %1330, %1326
  %1332 = fmul float %1279, %13
  %1333 = fadd float %1332, %1327
  %1334 = fmul float %1226, %14
  %1335 = fadd float %1334, %1329
  %1336 = fmul float %1230, %14
  %1337 = fadd float %1336, %1331
  %1338 = fmul float %1234, %14
  %1339 = fadd float %1338, %1333
  %1340 = insertelement <4 x float> undef, float %1177, i32 0
  %1341 = insertelement <4 x float> %1340, float %1179, i32 1
  %1342 = insertelement <4 x float> %1341, float %1181, i32 2
  %1343 = insertelement <4 x float> %1342, float %1183, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %1343, i32 60, i32 1)
  %1344 = insertelement <4 x float> undef, float %8, i32 0
  %1345 = insertelement <4 x float> %1344, float %9, i32 1
  %1346 = insertelement <4 x float> %1345, float %1185, i32 2
  %1347 = insertelement <4 x float> %1346, float %1187, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %1347, i32 0, i32 2)
  %1348 = insertelement <4 x float> undef, float %1189, i32 0
  %1349 = insertelement <4 x float> %1348, float %1335, i32 1
  %1350 = insertelement <4 x float> %1349, float %1337, i32 2
  %1351 = insertelement <4 x float> %1350, float %1339, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %1351, i32 1, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 754 dw -- 20 gprs -- 1 nstack -------------
shader 54 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
PROPERTY FS_COLOR0_WRITES_ALL_CBUFS 1
DCL IN[0], GENERIC[19], PERSPECTIVE
DCL IN[1], GENERIC[20], PERSPECTIVE
DCL IN[2], GENERIC[21], PERSPECTIVE
DCL OUT[0], COLOR
DCL SAMP[0]
DCL SAMP[1]
DCL SAMP[2]
DCL SAMP[3]
DCL CONST[0..16]
DCL TEMP[0..10], LOCAL
IMM[0] FLT32 {    0,0190,     0,0210,    -0,0170,     0,0160}
IMM[1] FLT32 {    0,0600,     0,0300,     0,0500,    -0,0400}
IMM[2] FLT32 {    1,0000,     0,0012,     0,0010,     0,7500}
IMM[3] FLT32 {    0,0060,     0,2500,     0,0080,     0,4444}
IMM[4] FLT32 {    0,0010,     0,0011,    -0,4800,     0,9500}
IMM[5] UINT32 {0, 4294967295, 0, 0}
IMM[6] FLT32 {    0,5000,     0,0000,   400,0000,     0,9990}
IMM[7] FLT32 {    0,0000,     0,0000,     0,0039,     1,0000}
IMM[8] FLT32 {   40,0000,     0,8000,     0,9000,     1,0000}
IMM[9] FLT32 {    2,0000,     0,6000,     0,0000,     0,0000}
  0: MOV TEMP[0].z, IN[2].xxxx
  1: MOV TEMP[0].xy, IN[1].zwzz
  2: ADD TEMP[1].x, IN[0].zzzz, -CONST[13].xxxx
  3: RCP TEMP[2].x, CONST[12].xxxx
  4: MUL_SAT TEMP[1].x, TEMP[1].xxxx, TEMP[2].xxxx
  5: MUL TEMP[2].x, CONST[11].xxxx, CONST[10].xxxx
  6: MUL TEMP[3].x, IMM[0].xxxx, TEMP[2].xxxx
  7: MUL TEMP[4].x, IMM[0].yyyy, TEMP[2].xxxx
  8: MOV TEMP[3].y, TEMP[4].xxxx
  9: MUL TEMP[4].x, IMM[0].zzzz, TEMP[2].xxxx
 10: MUL TEMP[5].x, IMM[0].wwww, TEMP[2].xxxx
 11: MOV TEMP[4].y, TEMP[5].xxxx
 12: MUL TEMP[5].x, IMM[1].xxxx, TEMP[2].xxxx
 13: MUL TEMP[6].x, IMM[1].yyyy, TEMP[2].xxxx
 14: MOV TEMP[5].y, TEMP[6].xxxx
 15: MUL TEMP[6].x, IMM[1].zzzz, TEMP[2].xxxx
 16: MUL TEMP[2].x, IMM[1].wwww, TEMP[2].xxxx
 17: MOV TEMP[6].y, TEMP[2].xxxx
 18: MOV TEMP[2].z, IMM[2].xxxx
 19: MOV TEMP[2].x, CONST[3].xxxx
 20: MOV TEMP[2].y, CONST[3].xxxx
 21: MAD TEMP[3].xy, IN[1].xyyy, IMM[2].yzzz, TEMP[3].xyyy
 22: MOV TEMP[3].xy, TEMP[3].xyyy
 23: TEX TEMP[3], TEMP[3], SAMP[3], 2D
 24: MAD TEMP[6].xy, IN[1].xyyy, IMM[3].xxxx, TEMP[6].xyyy
 25: MOV TEMP[6].xy, TEMP[6].xyyy
 26: TEX TEMP[6], TEMP[6], SAMP[3], 2D
 27: MAD TEMP[5].xy, IN[1].xyyy, IMM[3].zzzz, TEMP[5].xyyy
 28: MOV TEMP[5].xy, TEMP[5].xyyy
 29: TEX TEMP[5], TEMP[5], SAMP[3], 2D
 30: MUL TEMP[5], TEMP[5], IMM[3].yyyy
 31: MAD TEMP[5], TEMP[6], IMM[3].yyyy, TEMP[5]
 32: MAD TEMP[3], TEMP[3], IMM[2].wwww, TEMP[5]
 33: MAD TEMP[4].xy, IN[1].xyyy, IMM[4].xyyy, TEMP[4].xyyy
 34: MOV TEMP[4].xy, TEMP[4].xyyy
 35: TEX TEMP[4], TEMP[4], SAMP[3], 2D
 36: ADD TEMP[3], TEMP[3], TEMP[4]
 37: MAD TEMP[3].xyz, TEMP[3], IMM[3].wwww, IMM[4].zzzz
 38: MUL TEMP[2].xyz, TEMP[3].xyzz, TEMP[2].xyzz
 39: DP3 TEMP[3].x, TEMP[2].xyzz, TEMP[2].xyzz
 40: RSQ TEMP[3].x, TEMP[3].xxxx
 41: MUL TEMP[2].xyz, TEMP[2].xyzz, TEMP[3].xxxx
 42: DP3 TEMP[3].x, TEMP[0].xyzz, TEMP[0].xyzz
 43: RSQ TEMP[3].x, TEMP[3].xxxx
 44: MUL TEMP[0].xyz, TEMP[0].xyzz, TEMP[3].xxxx
 45: MOV TEMP[3].z, IMM[2].xxxx
 46: MOV TEMP[3].x, CONST[2].xxxx
 47: MOV TEMP[3].y, CONST[2].xxxx
 48: MUL TEMP[3].xyz, TEMP[2].xyzz, TEMP[3].xyzz
 49: DP3 TEMP[4].x, TEMP[3].xyzz, TEMP[3].xyzz
 50: RSQ TEMP[4].x, TEMP[4].xxxx
 51: MUL TEMP[3].xyz, TEMP[3].xyzz, TEMP[4].xxxx
 52: DP3 TEMP[3].x, TEMP[3].xyzz, TEMP[0].xyzz
 53: MOV TEMP[4].x, TEMP[3].xxxx
 54: USEQ TEMP[5].x, CONST[15].xxxx, IMM[5].xxxx
 55: UIF TEMP[5].xxxx :0
 56:   MOV TEMP[4].x, -TEMP[3].xxxx
 57: ENDIF
 58: ADD TEMP[3].x, IMM[2].xxxx, -TEMP[1].xxxx
 59: MUL TEMP[3].x, TEMP[4].xxxx, TEMP[3].xxxx
 60: ADD TEMP[3].x, IMM[2].xxxx, -TEMP[3].xxxx
 61: POW TEMP[3].x, TEMP[3].xxxx, CONST[8].xxxx
 62: MOV_SAT TEMP[3].x, TEMP[3].xxxx
 63: MAD TEMP[3].x, TEMP[3].xxxx, IMM[4].wwww, IMM[1].zzzz
 64: RCP TEMP[4].x, IN[0].wwww
 65: MAD TEMP[4].xy, IN[0].xyyy, TEMP[4].xxxx, IMM[2].xxxx
 66: MUL TEMP[4].xy, TEMP[4].xyyy, IMM[6].xxxx
 67: MOV TEMP[5].x, TEMP[4].xxxx
 68: RCP TEMP[6].x, CONST[0].yyyy
 69: ADD TEMP[4].x, TEMP[4].yyyy, -TEMP[6].xxxx
 70: MOV TEMP[5].y, TEMP[4].xxxx
 71: MOV TEMP[4].xy, TEMP[5].xyyy
 72: TEX TEMP[4], TEMP[4], SAMP[0], 2D
 73: DP4 TEMP[4].x, TEMP[4], IMM[7]
 74: MOV TEMP[6].x, TEMP[4].xxxx
 75: SLT TEMP[4].x, IMM[6].xxxx, TEMP[4].xxxx
 76: F2I TEMP[4].x, -TEMP[4]
 77: UIF TEMP[4].xxxx :0
 78:   MOV TEMP[6].x, IMM[6].yyyy
 79: ENDIF
 80: MUL TEMP[4].xy, TEMP[2].xyyy, CONST[9].xxxx
 81: MUL_SAT TEMP[6].x, TEMP[6].xxxx, IMM[6].zzzz
 82: MAD TEMP[4].xy, TEMP[4].xyyy, TEMP[6].xxxx, TEMP[5].xyyy
 83: MIN TEMP[4].xy, TEMP[4].xyyy, IMM[6].wwww
 84: MAX TEMP[4].xy, TEMP[4].xyyy, IMM[2].zzzz
 85: MOV TEMP[6].xy, TEMP[4].xyyy
 86: TEX TEMP[6], TEMP[6], SAMP[0], 2D
 87: DP4 TEMP[6].x, TEMP[6], IMM[7]
 88: MUL TEMP[6].x, TEMP[6].xxxx, IMM[8].xxxx
 89: MIN TEMP[6].x, TEMP[6].xxxx, IMM[2].xxxx
 90: MAX TEMP[6].x, TEMP[6].xxxx, IMM[8].yyyy
 91: MAD TEMP[7].xy, TEMP[2].xyyy, CONST[9].xxxx, TEMP[5].xyyy
 92: MIN TEMP[7].xy, TEMP[7].xyyy, IMM[6].wwww
 93: MAX TEMP[7].xy, TEMP[7].xyyy, IMM[2].zzzz
 94: MOV TEMP[5].xy, TEMP[7].xyxx
 95: USEQ TEMP[8].x, CONST[15].xxxx, IMM[5].yyyy
 96: UIF TEMP[8].xxxx :0
 97:   ADD TEMP[5].x, IMM[2].xxxx, -TEMP[7].xxxx
 98: ENDIF
 99: MOV TEMP[7].w, IMM[2].xxxx
100: MOV TEMP[7].xyz, CONST[16].xyzx
101: MOV TEMP[5].xy, TEMP[5].xyyy
102: TEX TEMP[5], TEMP[5], SAMP[2], 2D
103: MOV TEMP[8], TEMP[5]
104: USEQ TEMP[9].x, CONST[15].xxxx, IMM[5].xxxx
105: UIF TEMP[9].xxxx :0
106:   MUL TEMP[5], TEMP[5], IMM[8].yzww
107:   MOV TEMP[8], TEMP[5]
108:   LRP TEMP[5], TEMP[3].xxxx, TEMP[7], TEMP[5]
109:   LRP TEMP[5], TEMP[1].xxxx, TEMP[7], TEMP[5]
110: ELSE :0
111:   MOV TEMP[9].xyz, -CONST[7].xyzx
112:   DP3 TEMP[10].x, TEMP[2].xyzz, TEMP[9].xyzz
113:   MUL TEMP[2].xyz, TEMP[10].xxxx, TEMP[2].xyzz
114:   MUL TEMP[2].xyz, IMM[9].xxxx, TEMP[2].xyzz
115:   ADD TEMP[2].xyz, TEMP[9].xyzz, -TEMP[2].xyzz
116:   DP3 TEMP[9].x, TEMP[2].xyzz, TEMP[2].xyzz
117:   RSQ TEMP[9].x, TEMP[9].xxxx
118:   MUL TEMP[2].xyz, TEMP[2].xyzz, TEMP[9].xxxx
119:   DP3 TEMP[0].x, TEMP[0].xyzz, TEMP[2].xyzz
120:   MAX TEMP[0].x, IMM[6].yyyy, TEMP[0].xxxx
121:   POW TEMP[0].x, TEMP[0].xxxx, CONST[5].xxxx
122:   MUL TEMP[0].x, TEMP[0].xxxx, CONST[4].xxxx
123:   MUL TEMP[0].xyz, TEMP[0].xxxx, CONST[6].xyzz
124:   MOV TEMP[2].xy, TEMP[4].xyyy
125:   TEX TEMP[2], TEMP[2], SAMP[1], 2D
126:   MUL TEMP[2], TEMP[2], IMM[9].yyyy
127:   LRP TEMP[2], TEMP[6].xxxx, TEMP[7], TEMP[2]
128:   LRP TEMP[2], TEMP[3].xxxx, TEMP[8], TEMP[2]
129:   UIF CONST[1].xxxx :0
130:     MOV TEMP[3].w, IMM[2].xxxx
131:     MOV TEMP[3].xyz, TEMP[0].xyzx
132:     MOV TEMP[4].w, IMM[2].xxxx
133:     MOV TEMP[4].xyz, CONST[14].xyzx
134:     LRP TEMP[6], TEMP[1].xxxx, TEMP[8], TEMP[2]
135:     ADD TEMP[3], TEMP[3], TEMP[6]
136:     ADD TEMP[6].x, IMM[2].xxxx, -TEMP[1].xxxx
137:     MUL TEMP[3], TEMP[3], TEMP[6].xxxx
138:     MAD TEMP[5], TEMP[4], TEMP[1].xxxx, TEMP[3]
139:   ELSE :0
140:     MOV TEMP[3].w, IMM[2].xxxx
141:     MOV TEMP[3].xyz, TEMP[0].xyzx
142:     LRP TEMP[0], TEMP[1].xxxx, TEMP[8], TEMP[2]
143:     ADD TEMP[5], TEMP[3], TEMP[0]
144:   ENDIF
145: ENDIF
146: MOV OUT[0], TEMP[5]
147: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = call float @llvm.R600.load.input(i32 4)
  %5 = call float @llvm.R600.load.input(i32 5)
  %6 = call float @llvm.R600.load.input(i32 6)
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = call float @llvm.R600.load.input(i32 8)
  %9 = call float @llvm.R600.load.input(i32 9)
  %10 = call float @llvm.R600.load.input(i32 10)
  %11 = call float @llvm.R600.load.input(i32 11)
  %12 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %13 = extractelement <4 x float> %12, i32 0
  %14 = fsub float -0,000000e+00, %13
  %15 = fadd float %2, %14
  %16 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %17 = extractelement <4 x float> %16, i32 0
  %18 = fdiv float 0x3FF0000000000000, %17
  %19 = fmul float %15, %18
  %20 = call float @llvm.AMDIL.clamp.(float %19, float 0,000000e+00, float 0x3FF0000000000000)
  %21 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %22 = extractelement <4 x float> %21, i32 0
  %23 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %24 = extractelement <4 x float> %23, i32 0
  %25 = fmul float %22, %24
  %26 = fmul float 0x3F9374BC60000000, %25
  %27 = fmul float 0x3F95810620000000, %25
  %28 = fmul float 0xBF916872C0000000, %25
  %29 = fmul float 0x3F90624DE0000000, %25
  %30 = fmul float 0x3FAEB851E0000000, %25
  %31 = fmul float 0x3F9EB851E0000000, %25
  %32 = fmul float 0x3FA99999A0000000, %25
  %33 = fmul float 0xBFA47AE140000000, %25
  %34 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %35 = extractelement <4 x float> %34, i32 0
  %36 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %37 = extractelement <4 x float> %36, i32 0
  %38 = fmul float %4, 0x3F53A92A40000000
  %39 = fadd float %38, %26
  %40 = fmul float %5, 0x3F50624DE0000000
  %41 = fadd float %40, %27
  %42 = insertelement <4 x float> undef, float %39, i32 0
  %43 = insertelement <4 x float> %42, float %41, i32 1
  %44 = insertelement <4 x float> %43, float 0,000000e+00, i32 2
  %45 = insertelement <4 x float> %44, float 0,000000e+00, i32 3
  %46 = extractelement <4 x float> %45, i32 0
  %47 = extractelement <4 x float> %45, i32 1
  %48 = insertelement <4 x float> undef, float %46, i32 0
  %49 = insertelement <4 x float> %48, float %47, i32 1
  %50 = insertelement <4 x float> %49, float undef, i32 2
  %51 = insertelement <4 x float> %50, float undef, i32 3
  %52 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %51, i32 19, i32 3, i32 2)
  %53 = extractelement <4 x float> %52, i32 0
  %54 = extractelement <4 x float> %52, i32 1
  %55 = extractelement <4 x float> %52, i32 2
  %56 = fmul float %4, 0x3F789374C0000000
  %57 = fadd float %56, %32
  %58 = fmul float %5, 0x3F789374C0000000
  %59 = fadd float %58, %33
  %60 = insertelement <4 x float> undef, float %57, i32 0
  %61 = insertelement <4 x float> %60, float %59, i32 1
  %62 = insertelement <4 x float> %61, float 0,000000e+00, i32 2
  %63 = insertelement <4 x float> %62, float 0,000000e+00, i32 3
  %64 = extractelement <4 x float> %63, i32 0
  %65 = extractelement <4 x float> %63, i32 1
  %66 = insertelement <4 x float> undef, float %64, i32 0
  %67 = insertelement <4 x float> %66, float %65, i32 1
  %68 = insertelement <4 x float> %67, float undef, i32 2
  %69 = insertelement <4 x float> %68, float undef, i32 3
  %70 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %69, i32 19, i32 3, i32 2)
  %71 = extractelement <4 x float> %70, i32 0
  %72 = extractelement <4 x float> %70, i32 1
  %73 = extractelement <4 x float> %70, i32 2
  %74 = extractelement <4 x float> %70, i32 3
  %75 = fmul float %4, 0x3F80624DE0000000
  %76 = fadd float %75, %30
  %77 = fmul float %5, 0x3F80624DE0000000
  %78 = fadd float %77, %31
  %79 = insertelement <4 x float> undef, float %76, i32 0
  %80 = insertelement <4 x float> %79, float %78, i32 1
  %81 = insertelement <4 x float> %80, float 0,000000e+00, i32 2
  %82 = insertelement <4 x float> %81, float 0,000000e+00, i32 3
  %83 = extractelement <4 x float> %82, i32 0
  %84 = extractelement <4 x float> %82, i32 1
  %85 = insertelement <4 x float> undef, float %83, i32 0
  %86 = insertelement <4 x float> %85, float %84, i32 1
  %87 = insertelement <4 x float> %86, float undef, i32 2
  %88 = insertelement <4 x float> %87, float undef, i32 3
  %89 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %88, i32 19, i32 3, i32 2)
  %90 = extractelement <4 x float> %89, i32 0
  %91 = extractelement <4 x float> %89, i32 1
  %92 = extractelement <4 x float> %89, i32 2
  %93 = extractelement <4 x float> %89, i32 3
  %94 = fmul float %90, 0x3FD0000000000000
  %95 = fmul float %91, 0x3FD0000000000000
  %96 = fmul float %92, 0x3FD0000000000000
  %97 = fmul float %93, 0x3FD0000000000000
  %98 = fmul float %71, 0x3FD0000000000000
  %99 = fadd float %98, %94
  %100 = fmul float %72, 0x3FD0000000000000
  %101 = fadd float %100, %95
  %102 = fmul float %73, 0x3FD0000000000000
  %103 = fadd float %102, %96
  %104 = fmul float %74, 0x3FD0000000000000
  %105 = fadd float %104, %97
  %106 = fmul float %53, 0x3FE8000000000000
  %107 = fadd float %106, %99
  %108 = fmul float %54, 0x3FE8000000000000
  %109 = fadd float %108, %101
  %110 = fmul float %55, 0x3FE8000000000000
  %111 = fadd float %110, %103
  %112 = fmul float %4, 0x3F50624DE0000000
  %113 = fadd float %112, %28
  %114 = fmul float %5, 0x3F5205BC00000000
  %115 = fadd float %114, %29
  %116 = insertelement <4 x float> undef, float %113, i32 0
  %117 = insertelement <4 x float> %116, float %115, i32 1
  %118 = insertelement <4 x float> %117, float 0,000000e+00, i32 2
  %119 = insertelement <4 x float> %118, float 0,000000e+00, i32 3
  %120 = extractelement <4 x float> %119, i32 0
  %121 = extractelement <4 x float> %119, i32 1
  %122 = insertelement <4 x float> undef, float %120, i32 0
  %123 = insertelement <4 x float> %122, float %121, i32 1
  %124 = insertelement <4 x float> %123, float undef, i32 2
  %125 = insertelement <4 x float> %124, float undef, i32 3
  %126 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %125, i32 19, i32 3, i32 2)
  %127 = extractelement <4 x float> %126, i32 0
  %128 = extractelement <4 x float> %126, i32 1
  %129 = extractelement <4 x float> %126, i32 2
  %130 = extractelement <4 x float> %126, i32 3
  %131 = fadd float %107, %127
  %132 = fadd float %109, %128
  %133 = fadd float %111, %129
  %134 = fmul float %131, 0x3FDC71C720000000
  %135 = fadd float %134, 0xBFDEB851E0000000
  %136 = fmul float %132, 0x3FDC71C720000000
  %137 = fadd float %136, 0xBFDEB851E0000000
  %138 = fmul float %133, 0x3FDC71C720000000
  %139 = fadd float %138, 0xBFDEB851E0000000
  %140 = fmul float %135, %35
  %141 = fmul float %137, %37
  %142 = fmul float %139, 0x3FF0000000000000
  %143 = insertelement <4 x float> undef, float %140, i32 0
  %144 = insertelement <4 x float> %143, float %141, i32 1
  %145 = insertelement <4 x float> %144, float %142, i32 2
  %146 = insertelement <4 x float> %145, float 0,000000e+00, i32 3
  %147 = insertelement <4 x float> undef, float %140, i32 0
  %148 = insertelement <4 x float> %147, float %141, i32 1
  %149 = insertelement <4 x float> %148, float %142, i32 2
  %150 = insertelement <4 x float> %149, float 0,000000e+00, i32 3
  %151 = call float @llvm.AMDGPU.dp4(<4 x float> %146, <4 x float> %150)
  %152 = call float @fabs(float %151)
  %153 = call float @llvm.AMDGPU.rsq(float %152)
  %154 = fmul float %140, %153
  %155 = fmul float %141, %153
  %156 = fmul float %142, %153
  %157 = insertelement <4 x float> undef, float %6, i32 0
  %158 = insertelement <4 x float> %157, float %7, i32 1
  %159 = insertelement <4 x float> %158, float %8, i32 2
  %160 = insertelement <4 x float> %159, float 0,000000e+00, i32 3
  %161 = insertelement <4 x float> undef, float %6, i32 0
  %162 = insertelement <4 x float> %161, float %7, i32 1
  %163 = insertelement <4 x float> %162, float %8, i32 2
  %164 = insertelement <4 x float> %163, float 0,000000e+00, i32 3
  %165 = call float @llvm.AMDGPU.dp4(<4 x float> %160, <4 x float> %164)
  %166 = call float @fabs(float %165)
  %167 = call float @llvm.AMDGPU.rsq(float %166)
  %168 = fmul float %6, %167
  %169 = fmul float %7, %167
  %170 = fmul float %8, %167
  %171 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %172 = extractelement <4 x float> %171, i32 0
  %173 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %174 = extractelement <4 x float> %173, i32 0
  %175 = fmul float %154, %172
  %176 = fmul float %155, %174
  %177 = fmul float %156, 0x3FF0000000000000
  %178 = insertelement <4 x float> undef, float %175, i32 0
  %179 = insertelement <4 x float> %178, float %176, i32 1
  %180 = insertelement <4 x float> %179, float %177, i32 2
  %181 = insertelement <4 x float> %180, float 0,000000e+00, i32 3
  %182 = insertelement <4 x float> undef, float %175, i32 0
  %183 = insertelement <4 x float> %182, float %176, i32 1
  %184 = insertelement <4 x float> %183, float %177, i32 2
  %185 = insertelement <4 x float> %184, float 0,000000e+00, i32 3
  %186 = call float @llvm.AMDGPU.dp4(<4 x float> %181, <4 x float> %185)
  %187 = call float @fabs(float %186)
  %188 = call float @llvm.AMDGPU.rsq(float %187)
  %189 = fmul float %175, %188
  %190 = fmul float %176, %188
  %191 = fmul float %177, %188
  %192 = insertelement <4 x float> undef, float %189, i32 0
  %193 = insertelement <4 x float> %192, float %190, i32 1
  %194 = insertelement <4 x float> %193, float %191, i32 2
  %195 = insertelement <4 x float> %194, float 0,000000e+00, i32 3
  %196 = insertelement <4 x float> undef, float %168, i32 0
  %197 = insertelement <4 x float> %196, float %169, i32 1
  %198 = insertelement <4 x float> %197, float %170, i32 2
  %199 = insertelement <4 x float> %198, float 0,000000e+00, i32 3
  %200 = call float @llvm.AMDGPU.dp4(<4 x float> %195, <4 x float> %199)
  %201 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %202 = extractelement <4 x float> %201, i32 0
  %203 = bitcast float %202 to i32
  %204 = icmp eq i32 %203, 0
  %205 = sext i1 %204 to i32
  %206 = bitcast i32 %205 to float
  %207 = bitcast float %206 to i32
  %208 = icmp ne i32 %207, 0
  br i1 %208, label %IF, label %ENDIF

IF:                                               ; preds = %main_body
  %209 = fsub float -0,000000e+00, %200
  br label %ENDIF

ENDIF:                                            ; preds = %main_body, %IF
  %temp16.0 = phi float [ %209, %IF ], [ %200, %main_body ]
  %210 = fsub float -0,000000e+00, %20
  %211 = fadd float 0x3FF0000000000000, %210
  %212 = fmul float %temp16.0, %211
  %213 = fsub float -0,000000e+00, %212
  %214 = fadd float 0x3FF0000000000000, %213
  %215 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %216 = extractelement <4 x float> %215, i32 0
  %217 = call float @llvm.pow.f32(float %214, float %216)
  %218 = call float @llvm.AMDIL.clamp.(float %217, float 0,000000e+00, float 0x3FF0000000000000)
  %219 = fmul float %218, 0x3FEE666660000000
  %220 = fadd float %219, 0x3FA99999A0000000
  %221 = fdiv float 0x3FF0000000000000, %3
  %222 = fmul float %0, %221
  %223 = fadd float %222, 0x3FF0000000000000
  %224 = fmul float %1, %221
  %225 = fadd float %224, 0x3FF0000000000000
  %226 = fmul float %223, 0x3FE0000000000000
  %227 = fmul float %225, 0x3FE0000000000000
  %228 = load <4 x float> addrspace(8)* null
  %229 = extractelement <4 x float> %228, i32 1
  %230 = fdiv float 0x3FF0000000000000, %229
  %231 = fsub float -0,000000e+00, %230
  %232 = fadd float %227, %231
  %233 = insertelement <4 x float> undef, float %226, i32 0
  %234 = insertelement <4 x float> %233, float %232, i32 1
  %235 = insertelement <4 x float> %234, float %129, i32 2
  %236 = insertelement <4 x float> %235, float %130, i32 3
  %237 = extractelement <4 x float> %236, i32 0
  %238 = extractelement <4 x float> %236, i32 1
  %239 = insertelement <4 x float> undef, float %237, i32 0
  %240 = insertelement <4 x float> %239, float %238, i32 1
  %241 = insertelement <4 x float> %240, float undef, i32 2
  %242 = insertelement <4 x float> %241, float undef, i32 3
  %243 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %242, i32 16, i32 0, i32 2)
  %244 = extractelement <4 x float> %243, i32 0
  %245 = extractelement <4 x float> %243, i32 1
  %246 = extractelement <4 x float> %243, i32 2
  %247 = extractelement <4 x float> %243, i32 3
  %248 = insertelement <4 x float> undef, float %244, i32 0
  %249 = insertelement <4 x float> %248, float %245, i32 1
  %250 = insertelement <4 x float> %249, float %246, i32 2
  %251 = insertelement <4 x float> %250, float %247, i32 3
  %252 = call float @llvm.AMDGPU.dp4(<4 x float> %251, <4 x float> <float 0x3E70000000000000, float 0x3EF0000000000000, float 0x3F70000000000000, float 0x3FF0000000000000>)
  %253 = fcmp ult float 0x3FE0000000000000, %252
  %254 = select i1 %253, float 0x3FF0000000000000, float 0,000000e+00
  %255 = fsub float -0,000000e+00, %254
  %256 = fptosi float %255 to i32
  %257 = bitcast i32 %256 to float
  %258 = bitcast float %257 to i32
  %259 = icmp ne i32 %258, 0
  %. = select i1 %259, float 0,000000e+00, float %252
  %260 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %261 = extractelement <4 x float> %260, i32 0
  %262 = fmul float %154, %261
  %263 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %264 = extractelement <4 x float> %263, i32 0
  %265 = fmul float %155, %264
  %266 = fmul float %., 0x4079000000000000
  %267 = call float @llvm.AMDIL.clamp.(float %266, float 0,000000e+00, float 0x3FF0000000000000)
  %268 = fmul float %262, %267
  %269 = fadd float %268, %226
  %270 = fmul float %265, %267
  %271 = fadd float %270, %232
  %272 = fcmp uge float %269, 0x3FEFF7CEE0000000
  %273 = select i1 %272, float 0x3FEFF7CEE0000000, float %269
  %274 = fcmp uge float %271, 0x3FEFF7CEE0000000
  %275 = select i1 %274, float 0x3FEFF7CEE0000000, float %271
  %276 = fcmp uge float %273, 0x3F50624DE0000000
  %277 = select i1 %276, float %273, float 0x3F50624DE0000000
  %278 = fcmp uge float %275, 0x3F50624DE0000000
  %279 = select i1 %278, float %275, float 0x3F50624DE0000000
  %280 = insertelement <4 x float> undef, float %277, i32 0
  %281 = insertelement <4 x float> %280, float %279, i32 1
  %282 = insertelement <4 x float> %281, float %73, i32 2
  %283 = insertelement <4 x float> %282, float %74, i32 3
  %284 = extractelement <4 x float> %283, i32 0
  %285 = extractelement <4 x float> %283, i32 1
  %286 = insertelement <4 x float> undef, float %284, i32 0
  %287 = insertelement <4 x float> %286, float %285, i32 1
  %288 = insertelement <4 x float> %287, float undef, i32 2
  %289 = insertelement <4 x float> %288, float undef, i32 3
  %290 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %289, i32 16, i32 0, i32 2)
  %291 = extractelement <4 x float> %290, i32 0
  %292 = extractelement <4 x float> %290, i32 1
  %293 = extractelement <4 x float> %290, i32 2
  %294 = extractelement <4 x float> %290, i32 3
  %295 = insertelement <4 x float> undef, float %291, i32 0
  %296 = insertelement <4 x float> %295, float %292, i32 1
  %297 = insertelement <4 x float> %296, float %293, i32 2
  %298 = insertelement <4 x float> %297, float %294, i32 3
  %299 = call float @llvm.AMDGPU.dp4(<4 x float> %298, <4 x float> <float 0x3E70000000000000, float 0x3EF0000000000000, float 0x3F70000000000000, float 0x3FF0000000000000>)
  %300 = fmul float %299, 0x4044000000000000
  %301 = fcmp uge float %300, 0x3FF0000000000000
  %302 = select i1 %301, float 0x3FF0000000000000, float %300
  %303 = fcmp uge float %302, 0x3FE99999A0000000
  %304 = select i1 %303, float %302, float 0x3FE99999A0000000
  %305 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %306 = extractelement <4 x float> %305, i32 0
  %307 = fmul float %154, %306
  %308 = fadd float %307, %226
  %309 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %310 = extractelement <4 x float> %309, i32 0
  %311 = fmul float %155, %310
  %312 = fadd float %311, %232
  %313 = fcmp uge float %308, 0x3FEFF7CEE0000000
  %314 = select i1 %313, float 0x3FEFF7CEE0000000, float %308
  %315 = fcmp uge float %312, 0x3FEFF7CEE0000000
  %316 = select i1 %315, float 0x3FEFF7CEE0000000, float %312
  %317 = fcmp uge float %314, 0x3F50624DE0000000
  %318 = select i1 %317, float %314, float 0x3F50624DE0000000
  %319 = fcmp uge float %316, 0x3F50624DE0000000
  %320 = select i1 %319, float %316, float 0x3F50624DE0000000
  %321 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %322 = extractelement <4 x float> %321, i32 0
  %323 = bitcast float %322 to i32
  %324 = icmp eq i32 %323, -1
  %325 = sext i1 %324 to i32
  %326 = bitcast i32 %325 to float
  %327 = bitcast float %326 to i32
  %328 = icmp ne i32 %327, 0
  br i1 %328, label %IF48, label %ENDIF47

IF48:                                             ; preds = %ENDIF
  %329 = fsub float -0,000000e+00, %318
  %330 = fadd float 0x3FF0000000000000, %329
  br label %ENDIF47

ENDIF47:                                          ; preds = %ENDIF, %IF48
  %temp20.0 = phi float [ %330, %IF48 ], [ %318, %ENDIF ]
  %331 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %332 = extractelement <4 x float> %331, i32 0
  %333 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %334 = extractelement <4 x float> %333, i32 1
  %335 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 16)
  %336 = extractelement <4 x float> %335, i32 2
  %337 = insertelement <4 x float> undef, float %temp20.0, i32 0
  %338 = insertelement <4 x float> %337, float %320, i32 1
  %339 = insertelement <4 x float> %338, float %103, i32 2
  %340 = insertelement <4 x float> %339, float %105, i32 3
  %341 = extractelement <4 x float> %340, i32 0
  %342 = extractelement <4 x float> %340, i32 1
  %343 = insertelement <4 x float> undef, float %341, i32 0
  %344 = insertelement <4 x float> %343, float %342, i32 1
  %345 = insertelement <4 x float> %344, float undef, i32 2
  %346 = insertelement <4 x float> %345, float undef, i32 3
  %347 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %346, i32 18, i32 2, i32 2)
  %348 = extractelement <4 x float> %347, i32 0
  %349 = extractelement <4 x float> %347, i32 1
  %350 = extractelement <4 x float> %347, i32 2
  %351 = extractelement <4 x float> %347, i32 3
  %352 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 15)
  %353 = extractelement <4 x float> %352, i32 0
  %354 = bitcast float %353 to i32
  %355 = icmp eq i32 %354, 0
  %356 = sext i1 %355 to i32
  %357 = bitcast i32 %356 to float
  %358 = bitcast float %357 to i32
  %359 = icmp ne i32 %358, 0
  br i1 %359, label %IF51, label %ELSE52

IF51:                                             ; preds = %ENDIF47
  %360 = fmul float %348, 0x3FE99999A0000000
  %361 = fmul float %349, 0x3FECCCCCC0000000
  %362 = fmul float %350, 0x3FF0000000000000
  %363 = fmul float %351, 0x3FF0000000000000
  %364 = call float @llvm.AMDGPU.lrp(float %220, float %332, float %360)
  %365 = call float @llvm.AMDGPU.lrp(float %220, float %334, float %361)
  %366 = call float @llvm.AMDGPU.lrp(float %220, float %336, float %362)
  %367 = call float @llvm.AMDGPU.lrp(float %220, float 0x3FF0000000000000, float %363)
  %368 = call float @llvm.AMDGPU.lrp(float %20, float %332, float %364)
  %369 = call float @llvm.AMDGPU.lrp(float %20, float %334, float %365)
  %370 = call float @llvm.AMDGPU.lrp(float %20, float %336, float %366)
  %371 = call float @llvm.AMDGPU.lrp(float %20, float 0x3FF0000000000000, float %367)
  br label %ENDIF50

ELSE52:                                           ; preds = %ENDIF47
  %372 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %373 = extractelement <4 x float> %372, i32 0
  %374 = fsub float -0,000000e+00, %373
  %375 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %376 = extractelement <4 x float> %375, i32 1
  %377 = fsub float -0,000000e+00, %376
  %378 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %379 = extractelement <4 x float> %378, i32 2
  %380 = fsub float -0,000000e+00, %379
  %381 = insertelement <4 x float> undef, float %154, i32 0
  %382 = insertelement <4 x float> %381, float %155, i32 1
  %383 = insertelement <4 x float> %382, float %156, i32 2
  %384 = insertelement <4 x float> %383, float 0,000000e+00, i32 3
  %385 = insertelement <4 x float> undef, float %374, i32 0
  %386 = insertelement <4 x float> %385, float %377, i32 1
  %387 = insertelement <4 x float> %386, float %380, i32 2
  %388 = insertelement <4 x float> %387, float 0,000000e+00, i32 3
  %389 = call float @llvm.AMDGPU.dp4(<4 x float> %384, <4 x float> %388)
  %390 = fmul float %389, %154
  %391 = fmul float %389, %155
  %392 = fmul float %389, %156
  %393 = fmul float 0x4000000000000000, %390
  %394 = fmul float 0x4000000000000000, %391
  %395 = fmul float 0x4000000000000000, %392
  %396 = fsub float -0,000000e+00, %393
  %397 = fadd float %374, %396
  %398 = fsub float -0,000000e+00, %394
  %399 = fadd float %377, %398
  %400 = fsub float -0,000000e+00, %395
  %401 = fadd float %380, %400
  %402 = insertelement <4 x float> undef, float %397, i32 0
  %403 = insertelement <4 x float> %402, float %399, i32 1
  %404 = insertelement <4 x float> %403, float %401, i32 2
  %405 = insertelement <4 x float> %404, float 0,000000e+00, i32 3
  %406 = insertelement <4 x float> undef, float %397, i32 0
  %407 = insertelement <4 x float> %406, float %399, i32 1
  %408 = insertelement <4 x float> %407, float %401, i32 2
  %409 = insertelement <4 x float> %408, float 0,000000e+00, i32 3
  %410 = call float @llvm.AMDGPU.dp4(<4 x float> %405, <4 x float> %409)
  %411 = call float @fabs(float %410)
  %412 = call float @llvm.AMDGPU.rsq(float %411)
  %413 = fmul float %397, %412
  %414 = fmul float %399, %412
  %415 = fmul float %401, %412
  %416 = insertelement <4 x float> undef, float %168, i32 0
  %417 = insertelement <4 x float> %416, float %169, i32 1
  %418 = insertelement <4 x float> %417, float %170, i32 2
  %419 = insertelement <4 x float> %418, float 0,000000e+00, i32 3
  %420 = insertelement <4 x float> undef, float %413, i32 0
  %421 = insertelement <4 x float> %420, float %414, i32 1
  %422 = insertelement <4 x float> %421, float %415, i32 2
  %423 = insertelement <4 x float> %422, float 0,000000e+00, i32 3
  %424 = call float @llvm.AMDGPU.dp4(<4 x float> %419, <4 x float> %423)
  %425 = fcmp uge float 0,000000e+00, %424
  %426 = select i1 %425, float 0,000000e+00, float %424
  %427 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %428 = extractelement <4 x float> %427, i32 0
  %429 = call float @llvm.pow.f32(float %426, float %428)
  %430 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %431 = extractelement <4 x float> %430, i32 0
  %432 = fmul float %429, %431
  %433 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %434 = extractelement <4 x float> %433, i32 0
  %435 = fmul float %432, %434
  %436 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %437 = extractelement <4 x float> %436, i32 1
  %438 = fmul float %432, %437
  %439 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %440 = extractelement <4 x float> %439, i32 2
  %441 = fmul float %432, %440
  %442 = insertelement <4 x float> undef, float %277, i32 0
  %443 = insertelement <4 x float> %442, float %279, i32 1
  %444 = insertelement <4 x float> %443, float %415, i32 2
  %445 = insertelement <4 x float> %444, float 0,000000e+00, i32 3
  %446 = extractelement <4 x float> %445, i32 0
  %447 = extractelement <4 x float> %445, i32 1
  %448 = insertelement <4 x float> undef, float %446, i32 0
  %449 = insertelement <4 x float> %448, float %447, i32 1
  %450 = insertelement <4 x float> %449, float undef, i32 2
  %451 = insertelement <4 x float> %450, float undef, i32 3
  %452 = call <4 x float> @llvm.AMDGPU.tex(<4 x float> %451, i32 17, i32 1, i32 2)
  %453 = extractelement <4 x float> %452, i32 0
  %454 = extractelement <4 x float> %452, i32 1
  %455 = extractelement <4 x float> %452, i32 2
  %456 = extractelement <4 x float> %452, i32 3
  %457 = fmul float %453, 0x3FE3333340000000
  %458 = fmul float %454, 0x3FE3333340000000
  %459 = fmul float %455, 0x3FE3333340000000
  %460 = fmul float %456, 0x3FE3333340000000
  %461 = call float @llvm.AMDGPU.lrp(float %304, float %332, float %457)
  %462 = call float @llvm.AMDGPU.lrp(float %304, float %334, float %458)
  %463 = call float @llvm.AMDGPU.lrp(float %304, float %336, float %459)
  %464 = call float @llvm.AMDGPU.lrp(float %304, float 0x3FF0000000000000, float %460)
  %465 = call float @llvm.AMDGPU.lrp(float %220, float %348, float %461)
  %466 = call float @llvm.AMDGPU.lrp(float %220, float %349, float %462)
  %467 = call float @llvm.AMDGPU.lrp(float %220, float %350, float %463)
  %468 = call float @llvm.AMDGPU.lrp(float %220, float %351, float %464)
  %469 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %470 = extractelement <4 x float> %469, i32 0
  %471 = bitcast float %470 to i32
  %472 = icmp ne i32 %471, 0
  br i1 %472, label %IF54, label %ELSE55

ENDIF50:                                          ; preds = %IF54, %ELSE55, %IF51
  %temp20.1 = phi float [ %368, %IF51 ], [ %498, %IF54 ], [ %509, %ELSE55 ]
  %temp21.0 = phi float [ %369, %IF51 ], [ %500, %IF54 ], [ %510, %ELSE55 ]
  %temp22.0 = phi float [ %370, %IF51 ], [ %502, %IF54 ], [ %511, %ELSE55 ]
  %temp23.0 = phi float [ %371, %IF51 ], [ %504, %IF54 ], [ %512, %ELSE55 ]
  %473 = insertelement <4 x float> undef, float %temp20.1, i32 0
  %474 = insertelement <4 x float> %473, float %temp21.0, i32 1
  %475 = insertelement <4 x float> %474, float %temp22.0, i32 2
  %476 = insertelement <4 x float> %475, float %temp23.0, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %476, i32 0, i32 0)
  ret void

IF54:                                             ; preds = %ELSE52
  %477 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %478 = extractelement <4 x float> %477, i32 0
  %479 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %480 = extractelement <4 x float> %479, i32 1
  %481 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %482 = extractelement <4 x float> %481, i32 2
  %483 = call float @llvm.AMDGPU.lrp(float %20, float %348, float %465)
  %484 = call float @llvm.AMDGPU.lrp(float %20, float %349, float %466)
  %485 = call float @llvm.AMDGPU.lrp(float %20, float %350, float %467)
  %486 = call float @llvm.AMDGPU.lrp(float %20, float %351, float %468)
  %487 = fadd float %435, %483
  %488 = fadd float %438, %484
  %489 = fadd float %441, %485
  %490 = fadd float 0x3FF0000000000000, %486
  %491 = fsub float -0,000000e+00, %20
  %492 = fadd float 0x3FF0000000000000, %491
  %493 = fmul float %487, %492
  %494 = fmul float %488, %492
  %495 = fmul float %489, %492
  %496 = fmul float %490, %492
  %497 = fmul float %478, %20
  %498 = fadd float %497, %493
  %499 = fmul float %480, %20
  %500 = fadd float %499, %494
  %501 = fmul float %482, %20
  %502 = fadd float %501, %495
  %503 = fmul float 0x3FF0000000000000, %20
  %504 = fadd float %503, %496
  br label %ENDIF50

ELSE55:                                           ; preds = %ELSE52
  %505 = call float @llvm.AMDGPU.lrp(float %20, float %348, float %465)
  %506 = call float @llvm.AMDGPU.lrp(float %20, float %349, float %466)
  %507 = call float @llvm.AMDGPU.lrp(float %20, float %350, float %467)
  %508 = call float @llvm.AMDGPU.lrp(float %20, float %351, float %468)
  %509 = fadd float %435, %505
  %510 = fadd float %438, %506
  %511 = fadd float %441, %507
  %512 = fadd float 0x3FF0000000000000, %508
  br label %ENDIF50
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

; Function Attrs: readnone
declare float @llvm.AMDIL.clamp.(float, float, float) #1

; Function Attrs: readnone
declare <4 x float> @llvm.AMDGPU.tex(<4 x float>, i32, i32, i32) #1

; Function Attrs: readnone
declare float @llvm.AMDGPU.dp4(<4 x float>, <4 x float>) #1

; Function Attrs: readonly
declare float @fabs(float) #2

; Function Attrs: readnone
declare float @llvm.AMDGPU.rsq(float) #1

; Function Attrs: nounwind readonly
declare float @llvm.pow.f32(float, float) #3

; Function Attrs: readnone
declare float @llvm.AMDGPU.lrp(float, float, float) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
attributes #2 = { readonly }
attributes #3 = { nounwind readonly }
--------------------------------------------------------------
bytecode 624 dw -- 10 gprs -- 1 nstack -------------
shader 55 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
VERT
DCL IN[0]
DCL IN[1]
DCL OUT[0], POSITION
DCL OUT[1], GENERIC[19]
DCL OUT[2], GENERIC[20]
DCL OUT[3], GENERIC[21]
DCL CONST[0..14]
DCL TEMP[0..9], LOCAL
  0: MUL TEMP[0], CONST[2], IN[1].xxxx
  1: MAD TEMP[0], CONST[3], IN[1].yyyy, TEMP[0]
  2: MAD TEMP[0], CONST[4], IN[1].zzzz, TEMP[0]
  3: ADD TEMP[0].xyz, TEMP[0], CONST[5]
  4: MOV TEMP[1].z, -IN[0].zzzz
  5: MUL TEMP[2].xyz, CONST[2].xyzz, IN[0].xxxx
  6: MAD TEMP[2].xyz, CONST[3].xyzz, IN[0].yyyy, TEMP[2].xyzz
  7: MAD TEMP[1].xyz, CONST[4].xyzz, TEMP[1].zzzz, TEMP[2].xyzz
  8: DP3 TEMP[2].x, TEMP[1].xyzz, TEMP[1].xyzz
  9: RSQ TEMP[2].x, TEMP[2].xxxx
 10: MUL TEMP[1].xyz, TEMP[1].xyzz, TEMP[2].xxxx
 11: MUL TEMP[2].xyz, CONST[2].xyzz, CONST[14].xxxx
 12: MAD TEMP[2].xyz, CONST[3].xyzz, CONST[14].yyyy, TEMP[2].xyzz
 13: MAD TEMP[2].xyz, CONST[4].xyzz, CONST[14].zzzz, TEMP[2].xyzz
 14: DP3 TEMP[3].x, TEMP[2].xyzz, TEMP[2].xyzz
 15: RSQ TEMP[3].x, TEMP[3].xxxx
 16: MUL TEMP[2].xyz, TEMP[2].xyzz, TEMP[3].xxxx
 17: ADD TEMP[3].xyz, TEMP[0].xyzz, -CONST[1].xyzz
 18: DP3 TEMP[4].x, TEMP[3].xyzz, TEMP[2].xyzz
 19: MUL TEMP[5].xyz, TEMP[1].zxyy, TEMP[2].yzxx
 20: MAD TEMP[2].xyz, TEMP[1].yzxx, TEMP[2].zxyy, -TEMP[5].xyzz
 21: MUL TEMP[2].xyz, TEMP[2].xyzz, CONST[14].wwww
 22: DP3 TEMP[2].x, TEMP[3].xyzz, TEMP[2].xyzz
 23: MOV TEMP[4].y, TEMP[2].xxxx
 24: DP3 TEMP[1].x, TEMP[3].xyzz, TEMP[1].xyzz
 25: MUL TEMP[2], CONST[6], CONST[10].xxxx
 26: MAD TEMP[2], CONST[7], CONST[10].yyyy, TEMP[2]
 27: MAD TEMP[2], CONST[8], CONST[10].zzzz, TEMP[2]
 28: MAD TEMP[2], CONST[9], CONST[10].wwww, TEMP[2]
 29: MUL TEMP[3], CONST[6], CONST[11].xxxx
 30: MAD TEMP[3], CONST[7], CONST[11].yyyy, TEMP[3]
 31: MAD TEMP[3], CONST[8], CONST[11].zzzz, TEMP[3]
 32: MAD TEMP[3], CONST[9], CONST[11].wwww, TEMP[3]
 33: MUL TEMP[5], CONST[6], CONST[12].xxxx
 34: MAD TEMP[5], CONST[7], CONST[12].yyyy, TEMP[5]
 35: MAD TEMP[5], CONST[8], CONST[12].zzzz, TEMP[5]
 36: MAD TEMP[5], CONST[9], CONST[12].wwww, TEMP[5]
 37: MUL TEMP[6], CONST[6], CONST[13].xxxx
 38: MAD TEMP[6], CONST[7], CONST[13].yyyy, TEMP[6]
 39: MAD TEMP[6], CONST[8], CONST[13].zzzz, TEMP[6]
 40: MAD TEMP[6], CONST[9], CONST[13].wwww, TEMP[6]
 41: MUL TEMP[7], TEMP[2], CONST[4].xxxx
 42: MAD TEMP[7], TEMP[3], CONST[4].yyyy, TEMP[7]
 43: MAD TEMP[7], TEMP[5], CONST[4].zzzz, TEMP[7]
 44: MAD TEMP[7], TEMP[6], CONST[4].wwww, TEMP[7]
 45: MUL TEMP[8], TEMP[2], CONST[3].xxxx
 46: MAD TEMP[8], TEMP[3], CONST[3].yyyy, TEMP[8]
 47: MAD TEMP[8], TEMP[5], CONST[3].zzzz, TEMP[8]
 48: MAD TEMP[8], TEMP[6], CONST[3].wwww, TEMP[8]
 49: MUL TEMP[9], TEMP[2], CONST[2].xxxx
 50: MAD TEMP[9], TEMP[3], CONST[2].yyyy, TEMP[9]
 51: MAD TEMP[9], TEMP[5], CONST[2].zzzz, TEMP[9]
 52: MAD TEMP[9], TEMP[6], CONST[2].wwww, TEMP[9]
 53: MUL TEMP[9], TEMP[9], IN[1].xxxx
 54: MAD TEMP[8], TEMP[8], IN[1].yyyy, TEMP[9]
 55: MAD TEMP[7], TEMP[7], IN[1].zzzz, TEMP[8]
 56: MUL TEMP[2], TEMP[2], CONST[5].xxxx
 57: MAD TEMP[2], TEMP[3], CONST[5].yyyy, TEMP[2]
 58: MAD TEMP[2], TEMP[5], CONST[5].zzzz, TEMP[2]
 59: MAD TEMP[2], TEMP[6], CONST[5].wwww, TEMP[2]
 60: ADD TEMP[2], TEMP[7], TEMP[2]
 61: MOV TEMP[3].zw, TEMP[4].yyxy
 62: MOV TEMP[1].x, TEMP[1].xxxx
 63: MUL TEMP[3].xy, TEMP[0].xzzz, CONST[0].xxxx
 64: MOV OUT[3], TEMP[1]
 65: MOV OUT[1], TEMP[2]
 66: MOV OUT[2], TEMP[3]
 67: MOV OUT[0], TEMP[2]
 68: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 4)
  %1 = call float @llvm.R600.load.input(i32 5)
  %2 = call float @llvm.R600.load.input(i32 6)
  %3 = call float @llvm.R600.load.input(i32 7)
  %4 = call float @llvm.R600.load.input(i32 8)
  %5 = call float @llvm.R600.load.input(i32 9)
  %6 = call float @llvm.R600.load.input(i32 10)
  %7 = call float @llvm.R600.load.input(i32 11)
  %8 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %9 = extractelement <4 x float> %8, i32 0
  %10 = fmul float %9, %4
  %11 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %12 = extractelement <4 x float> %11, i32 1
  %13 = fmul float %12, %4
  %14 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %15 = extractelement <4 x float> %14, i32 2
  %16 = fmul float %15, %4
  %17 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %18 = extractelement <4 x float> %17, i32 0
  %19 = fmul float %18, %5
  %20 = fadd float %19, %10
  %21 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %22 = extractelement <4 x float> %21, i32 1
  %23 = fmul float %22, %5
  %24 = fadd float %23, %13
  %25 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %26 = extractelement <4 x float> %25, i32 2
  %27 = fmul float %26, %5
  %28 = fadd float %27, %16
  %29 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %30 = extractelement <4 x float> %29, i32 0
  %31 = fmul float %30, %6
  %32 = fadd float %31, %20
  %33 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %34 = extractelement <4 x float> %33, i32 1
  %35 = fmul float %34, %6
  %36 = fadd float %35, %24
  %37 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %38 = extractelement <4 x float> %37, i32 2
  %39 = fmul float %38, %6
  %40 = fadd float %39, %28
  %41 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %42 = extractelement <4 x float> %41, i32 0
  %43 = fadd float %32, %42
  %44 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %45 = extractelement <4 x float> %44, i32 1
  %46 = fadd float %36, %45
  %47 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %48 = extractelement <4 x float> %47, i32 2
  %49 = fadd float %40, %48
  %50 = fsub float -0,000000e+00, %2
  %51 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %52 = extractelement <4 x float> %51, i32 0
  %53 = fmul float %52, %0
  %54 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %55 = extractelement <4 x float> %54, i32 1
  %56 = fmul float %55, %0
  %57 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %58 = extractelement <4 x float> %57, i32 2
  %59 = fmul float %58, %0
  %60 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %61 = extractelement <4 x float> %60, i32 0
  %62 = fmul float %61, %1
  %63 = fadd float %62, %53
  %64 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %65 = extractelement <4 x float> %64, i32 1
  %66 = fmul float %65, %1
  %67 = fadd float %66, %56
  %68 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %69 = extractelement <4 x float> %68, i32 2
  %70 = fmul float %69, %1
  %71 = fadd float %70, %59
  %72 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %73 = extractelement <4 x float> %72, i32 0
  %74 = fmul float %73, %50
  %75 = fadd float %74, %63
  %76 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %77 = extractelement <4 x float> %76, i32 1
  %78 = fmul float %77, %50
  %79 = fadd float %78, %67
  %80 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %81 = extractelement <4 x float> %80, i32 2
  %82 = fmul float %81, %50
  %83 = fadd float %82, %71
  %84 = insertelement <4 x float> undef, float %75, i32 0
  %85 = insertelement <4 x float> %84, float %79, i32 1
  %86 = insertelement <4 x float> %85, float %83, i32 2
  %87 = insertelement <4 x float> %86, float 0,000000e+00, i32 3
  %88 = insertelement <4 x float> undef, float %75, i32 0
  %89 = insertelement <4 x float> %88, float %79, i32 1
  %90 = insertelement <4 x float> %89, float %83, i32 2
  %91 = insertelement <4 x float> %90, float 0,000000e+00, i32 3
  %92 = call float @llvm.AMDGPU.dp4(<4 x float> %87, <4 x float> %91)
  %93 = call float @fabs(float %92)
  %94 = call float @llvm.AMDGPU.rsq(float %93)
  %95 = fmul float %75, %94
  %96 = fmul float %79, %94
  %97 = fmul float %83, %94
  %98 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %99 = extractelement <4 x float> %98, i32 0
  %100 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %101 = extractelement <4 x float> %100, i32 0
  %102 = fmul float %99, %101
  %103 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %104 = extractelement <4 x float> %103, i32 1
  %105 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %106 = extractelement <4 x float> %105, i32 0
  %107 = fmul float %104, %106
  %108 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %109 = extractelement <4 x float> %108, i32 2
  %110 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %111 = extractelement <4 x float> %110, i32 0
  %112 = fmul float %109, %111
  %113 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %114 = extractelement <4 x float> %113, i32 0
  %115 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %116 = extractelement <4 x float> %115, i32 1
  %117 = fmul float %114, %116
  %118 = fadd float %117, %102
  %119 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %120 = extractelement <4 x float> %119, i32 1
  %121 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %122 = extractelement <4 x float> %121, i32 1
  %123 = fmul float %120, %122
  %124 = fadd float %123, %107
  %125 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %126 = extractelement <4 x float> %125, i32 2
  %127 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %128 = extractelement <4 x float> %127, i32 1
  %129 = fmul float %126, %128
  %130 = fadd float %129, %112
  %131 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %132 = extractelement <4 x float> %131, i32 0
  %133 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %134 = extractelement <4 x float> %133, i32 2
  %135 = fmul float %132, %134
  %136 = fadd float %135, %118
  %137 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %138 = extractelement <4 x float> %137, i32 1
  %139 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %140 = extractelement <4 x float> %139, i32 2
  %141 = fmul float %138, %140
  %142 = fadd float %141, %124
  %143 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %144 = extractelement <4 x float> %143, i32 2
  %145 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %146 = extractelement <4 x float> %145, i32 2
  %147 = fmul float %144, %146
  %148 = fadd float %147, %130
  %149 = insertelement <4 x float> undef, float %136, i32 0
  %150 = insertelement <4 x float> %149, float %142, i32 1
  %151 = insertelement <4 x float> %150, float %148, i32 2
  %152 = insertelement <4 x float> %151, float 0,000000e+00, i32 3
  %153 = insertelement <4 x float> undef, float %136, i32 0
  %154 = insertelement <4 x float> %153, float %142, i32 1
  %155 = insertelement <4 x float> %154, float %148, i32 2
  %156 = insertelement <4 x float> %155, float 0,000000e+00, i32 3
  %157 = call float @llvm.AMDGPU.dp4(<4 x float> %152, <4 x float> %156)
  %158 = call float @fabs(float %157)
  %159 = call float @llvm.AMDGPU.rsq(float %158)
  %160 = fmul float %136, %159
  %161 = fmul float %142, %159
  %162 = fmul float %148, %159
  %163 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %164 = extractelement <4 x float> %163, i32 0
  %165 = fsub float -0,000000e+00, %164
  %166 = fadd float %43, %165
  %167 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %168 = extractelement <4 x float> %167, i32 1
  %169 = fsub float -0,000000e+00, %168
  %170 = fadd float %46, %169
  %171 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 1)
  %172 = extractelement <4 x float> %171, i32 2
  %173 = fsub float -0,000000e+00, %172
  %174 = fadd float %49, %173
  %175 = insertelement <4 x float> undef, float %166, i32 0
  %176 = insertelement <4 x float> %175, float %170, i32 1
  %177 = insertelement <4 x float> %176, float %174, i32 2
  %178 = insertelement <4 x float> %177, float 0,000000e+00, i32 3
  %179 = insertelement <4 x float> undef, float %160, i32 0
  %180 = insertelement <4 x float> %179, float %161, i32 1
  %181 = insertelement <4 x float> %180, float %162, i32 2
  %182 = insertelement <4 x float> %181, float 0,000000e+00, i32 3
  %183 = call float @llvm.AMDGPU.dp4(<4 x float> %178, <4 x float> %182)
  %184 = fmul float %97, %161
  %185 = fmul float %95, %162
  %186 = fmul float %96, %160
  %187 = fsub float -0,000000e+00, %184
  %188 = fmul float %96, %162
  %189 = fadd float %188, %187
  %190 = fsub float -0,000000e+00, %185
  %191 = fmul float %97, %160
  %192 = fadd float %191, %190
  %193 = fsub float -0,000000e+00, %186
  %194 = fmul float %95, %161
  %195 = fadd float %194, %193
  %196 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %197 = extractelement <4 x float> %196, i32 3
  %198 = fmul float %189, %197
  %199 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %200 = extractelement <4 x float> %199, i32 3
  %201 = fmul float %192, %200
  %202 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 14)
  %203 = extractelement <4 x float> %202, i32 3
  %204 = fmul float %195, %203
  %205 = insertelement <4 x float> undef, float %166, i32 0
  %206 = insertelement <4 x float> %205, float %170, i32 1
  %207 = insertelement <4 x float> %206, float %174, i32 2
  %208 = insertelement <4 x float> %207, float 0,000000e+00, i32 3
  %209 = insertelement <4 x float> undef, float %198, i32 0
  %210 = insertelement <4 x float> %209, float %201, i32 1
  %211 = insertelement <4 x float> %210, float %204, i32 2
  %212 = insertelement <4 x float> %211, float 0,000000e+00, i32 3
  %213 = call float @llvm.AMDGPU.dp4(<4 x float> %208, <4 x float> %212)
  %214 = insertelement <4 x float> undef, float %166, i32 0
  %215 = insertelement <4 x float> %214, float %170, i32 1
  %216 = insertelement <4 x float> %215, float %174, i32 2
  %217 = insertelement <4 x float> %216, float 0,000000e+00, i32 3
  %218 = insertelement <4 x float> undef, float %95, i32 0
  %219 = insertelement <4 x float> %218, float %96, i32 1
  %220 = insertelement <4 x float> %219, float %97, i32 2
  %221 = insertelement <4 x float> %220, float 0,000000e+00, i32 3
  %222 = call float @llvm.AMDGPU.dp4(<4 x float> %217, <4 x float> %221)
  %223 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %224 = extractelement <4 x float> %223, i32 0
  %225 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %226 = extractelement <4 x float> %225, i32 0
  %227 = fmul float %224, %226
  %228 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %229 = extractelement <4 x float> %228, i32 1
  %230 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %231 = extractelement <4 x float> %230, i32 0
  %232 = fmul float %229, %231
  %233 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %234 = extractelement <4 x float> %233, i32 2
  %235 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %236 = extractelement <4 x float> %235, i32 0
  %237 = fmul float %234, %236
  %238 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %239 = extractelement <4 x float> %238, i32 3
  %240 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %241 = extractelement <4 x float> %240, i32 0
  %242 = fmul float %239, %241
  %243 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %244 = extractelement <4 x float> %243, i32 0
  %245 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %246 = extractelement <4 x float> %245, i32 1
  %247 = fmul float %244, %246
  %248 = fadd float %247, %227
  %249 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %250 = extractelement <4 x float> %249, i32 1
  %251 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %252 = extractelement <4 x float> %251, i32 1
  %253 = fmul float %250, %252
  %254 = fadd float %253, %232
  %255 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %256 = extractelement <4 x float> %255, i32 2
  %257 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %258 = extractelement <4 x float> %257, i32 1
  %259 = fmul float %256, %258
  %260 = fadd float %259, %237
  %261 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %262 = extractelement <4 x float> %261, i32 3
  %263 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %264 = extractelement <4 x float> %263, i32 1
  %265 = fmul float %262, %264
  %266 = fadd float %265, %242
  %267 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %268 = extractelement <4 x float> %267, i32 0
  %269 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %270 = extractelement <4 x float> %269, i32 2
  %271 = fmul float %268, %270
  %272 = fadd float %271, %248
  %273 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %274 = extractelement <4 x float> %273, i32 1
  %275 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %276 = extractelement <4 x float> %275, i32 2
  %277 = fmul float %274, %276
  %278 = fadd float %277, %254
  %279 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %280 = extractelement <4 x float> %279, i32 2
  %281 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %282 = extractelement <4 x float> %281, i32 2
  %283 = fmul float %280, %282
  %284 = fadd float %283, %260
  %285 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %286 = extractelement <4 x float> %285, i32 3
  %287 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %288 = extractelement <4 x float> %287, i32 2
  %289 = fmul float %286, %288
  %290 = fadd float %289, %266
  %291 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %292 = extractelement <4 x float> %291, i32 0
  %293 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %294 = extractelement <4 x float> %293, i32 3
  %295 = fmul float %292, %294
  %296 = fadd float %295, %272
  %297 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %298 = extractelement <4 x float> %297, i32 1
  %299 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %300 = extractelement <4 x float> %299, i32 3
  %301 = fmul float %298, %300
  %302 = fadd float %301, %278
  %303 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %304 = extractelement <4 x float> %303, i32 2
  %305 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %306 = extractelement <4 x float> %305, i32 3
  %307 = fmul float %304, %306
  %308 = fadd float %307, %284
  %309 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %310 = extractelement <4 x float> %309, i32 3
  %311 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 10)
  %312 = extractelement <4 x float> %311, i32 3
  %313 = fmul float %310, %312
  %314 = fadd float %313, %290
  %315 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %316 = extractelement <4 x float> %315, i32 0
  %317 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %318 = extractelement <4 x float> %317, i32 0
  %319 = fmul float %316, %318
  %320 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %321 = extractelement <4 x float> %320, i32 1
  %322 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %323 = extractelement <4 x float> %322, i32 0
  %324 = fmul float %321, %323
  %325 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %326 = extractelement <4 x float> %325, i32 2
  %327 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %328 = extractelement <4 x float> %327, i32 0
  %329 = fmul float %326, %328
  %330 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %331 = extractelement <4 x float> %330, i32 3
  %332 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %333 = extractelement <4 x float> %332, i32 0
  %334 = fmul float %331, %333
  %335 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %336 = extractelement <4 x float> %335, i32 0
  %337 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %338 = extractelement <4 x float> %337, i32 1
  %339 = fmul float %336, %338
  %340 = fadd float %339, %319
  %341 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %342 = extractelement <4 x float> %341, i32 1
  %343 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %344 = extractelement <4 x float> %343, i32 1
  %345 = fmul float %342, %344
  %346 = fadd float %345, %324
  %347 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %348 = extractelement <4 x float> %347, i32 2
  %349 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %350 = extractelement <4 x float> %349, i32 1
  %351 = fmul float %348, %350
  %352 = fadd float %351, %329
  %353 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %354 = extractelement <4 x float> %353, i32 3
  %355 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %356 = extractelement <4 x float> %355, i32 1
  %357 = fmul float %354, %356
  %358 = fadd float %357, %334
  %359 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %360 = extractelement <4 x float> %359, i32 0
  %361 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %362 = extractelement <4 x float> %361, i32 2
  %363 = fmul float %360, %362
  %364 = fadd float %363, %340
  %365 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %366 = extractelement <4 x float> %365, i32 1
  %367 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %368 = extractelement <4 x float> %367, i32 2
  %369 = fmul float %366, %368
  %370 = fadd float %369, %346
  %371 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %372 = extractelement <4 x float> %371, i32 2
  %373 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %374 = extractelement <4 x float> %373, i32 2
  %375 = fmul float %372, %374
  %376 = fadd float %375, %352
  %377 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %378 = extractelement <4 x float> %377, i32 3
  %379 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %380 = extractelement <4 x float> %379, i32 2
  %381 = fmul float %378, %380
  %382 = fadd float %381, %358
  %383 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %384 = extractelement <4 x float> %383, i32 0
  %385 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %386 = extractelement <4 x float> %385, i32 3
  %387 = fmul float %384, %386
  %388 = fadd float %387, %364
  %389 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %390 = extractelement <4 x float> %389, i32 1
  %391 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %392 = extractelement <4 x float> %391, i32 3
  %393 = fmul float %390, %392
  %394 = fadd float %393, %370
  %395 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %396 = extractelement <4 x float> %395, i32 2
  %397 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %398 = extractelement <4 x float> %397, i32 3
  %399 = fmul float %396, %398
  %400 = fadd float %399, %376
  %401 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %402 = extractelement <4 x float> %401, i32 3
  %403 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 11)
  %404 = extractelement <4 x float> %403, i32 3
  %405 = fmul float %402, %404
  %406 = fadd float %405, %382
  %407 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %408 = extractelement <4 x float> %407, i32 0
  %409 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %410 = extractelement <4 x float> %409, i32 0
  %411 = fmul float %408, %410
  %412 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %413 = extractelement <4 x float> %412, i32 1
  %414 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %415 = extractelement <4 x float> %414, i32 0
  %416 = fmul float %413, %415
  %417 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %418 = extractelement <4 x float> %417, i32 2
  %419 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %420 = extractelement <4 x float> %419, i32 0
  %421 = fmul float %418, %420
  %422 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %423 = extractelement <4 x float> %422, i32 3
  %424 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %425 = extractelement <4 x float> %424, i32 0
  %426 = fmul float %423, %425
  %427 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %428 = extractelement <4 x float> %427, i32 0
  %429 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %430 = extractelement <4 x float> %429, i32 1
  %431 = fmul float %428, %430
  %432 = fadd float %431, %411
  %433 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %434 = extractelement <4 x float> %433, i32 1
  %435 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %436 = extractelement <4 x float> %435, i32 1
  %437 = fmul float %434, %436
  %438 = fadd float %437, %416
  %439 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %440 = extractelement <4 x float> %439, i32 2
  %441 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %442 = extractelement <4 x float> %441, i32 1
  %443 = fmul float %440, %442
  %444 = fadd float %443, %421
  %445 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %446 = extractelement <4 x float> %445, i32 3
  %447 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %448 = extractelement <4 x float> %447, i32 1
  %449 = fmul float %446, %448
  %450 = fadd float %449, %426
  %451 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %452 = extractelement <4 x float> %451, i32 0
  %453 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %454 = extractelement <4 x float> %453, i32 2
  %455 = fmul float %452, %454
  %456 = fadd float %455, %432
  %457 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %458 = extractelement <4 x float> %457, i32 1
  %459 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %460 = extractelement <4 x float> %459, i32 2
  %461 = fmul float %458, %460
  %462 = fadd float %461, %438
  %463 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %464 = extractelement <4 x float> %463, i32 2
  %465 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %466 = extractelement <4 x float> %465, i32 2
  %467 = fmul float %464, %466
  %468 = fadd float %467, %444
  %469 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %470 = extractelement <4 x float> %469, i32 3
  %471 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %472 = extractelement <4 x float> %471, i32 2
  %473 = fmul float %470, %472
  %474 = fadd float %473, %450
  %475 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %476 = extractelement <4 x float> %475, i32 0
  %477 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %478 = extractelement <4 x float> %477, i32 3
  %479 = fmul float %476, %478
  %480 = fadd float %479, %456
  %481 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %482 = extractelement <4 x float> %481, i32 1
  %483 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %484 = extractelement <4 x float> %483, i32 3
  %485 = fmul float %482, %484
  %486 = fadd float %485, %462
  %487 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %488 = extractelement <4 x float> %487, i32 2
  %489 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %490 = extractelement <4 x float> %489, i32 3
  %491 = fmul float %488, %490
  %492 = fadd float %491, %468
  %493 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %494 = extractelement <4 x float> %493, i32 3
  %495 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 12)
  %496 = extractelement <4 x float> %495, i32 3
  %497 = fmul float %494, %496
  %498 = fadd float %497, %474
  %499 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %500 = extractelement <4 x float> %499, i32 0
  %501 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %502 = extractelement <4 x float> %501, i32 0
  %503 = fmul float %500, %502
  %504 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %505 = extractelement <4 x float> %504, i32 1
  %506 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %507 = extractelement <4 x float> %506, i32 0
  %508 = fmul float %505, %507
  %509 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %510 = extractelement <4 x float> %509, i32 2
  %511 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %512 = extractelement <4 x float> %511, i32 0
  %513 = fmul float %510, %512
  %514 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 6)
  %515 = extractelement <4 x float> %514, i32 3
  %516 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %517 = extractelement <4 x float> %516, i32 0
  %518 = fmul float %515, %517
  %519 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %520 = extractelement <4 x float> %519, i32 0
  %521 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %522 = extractelement <4 x float> %521, i32 1
  %523 = fmul float %520, %522
  %524 = fadd float %523, %503
  %525 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %526 = extractelement <4 x float> %525, i32 1
  %527 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %528 = extractelement <4 x float> %527, i32 1
  %529 = fmul float %526, %528
  %530 = fadd float %529, %508
  %531 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %532 = extractelement <4 x float> %531, i32 2
  %533 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %534 = extractelement <4 x float> %533, i32 1
  %535 = fmul float %532, %534
  %536 = fadd float %535, %513
  %537 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 7)
  %538 = extractelement <4 x float> %537, i32 3
  %539 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %540 = extractelement <4 x float> %539, i32 1
  %541 = fmul float %538, %540
  %542 = fadd float %541, %518
  %543 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %544 = extractelement <4 x float> %543, i32 0
  %545 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %546 = extractelement <4 x float> %545, i32 2
  %547 = fmul float %544, %546
  %548 = fadd float %547, %524
  %549 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %550 = extractelement <4 x float> %549, i32 1
  %551 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %552 = extractelement <4 x float> %551, i32 2
  %553 = fmul float %550, %552
  %554 = fadd float %553, %530
  %555 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %556 = extractelement <4 x float> %555, i32 2
  %557 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %558 = extractelement <4 x float> %557, i32 2
  %559 = fmul float %556, %558
  %560 = fadd float %559, %536
  %561 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 8)
  %562 = extractelement <4 x float> %561, i32 3
  %563 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %564 = extractelement <4 x float> %563, i32 2
  %565 = fmul float %562, %564
  %566 = fadd float %565, %542
  %567 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %568 = extractelement <4 x float> %567, i32 0
  %569 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %570 = extractelement <4 x float> %569, i32 3
  %571 = fmul float %568, %570
  %572 = fadd float %571, %548
  %573 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %574 = extractelement <4 x float> %573, i32 1
  %575 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %576 = extractelement <4 x float> %575, i32 3
  %577 = fmul float %574, %576
  %578 = fadd float %577, %554
  %579 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %580 = extractelement <4 x float> %579, i32 2
  %581 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %582 = extractelement <4 x float> %581, i32 3
  %583 = fmul float %580, %582
  %584 = fadd float %583, %560
  %585 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 9)
  %586 = extractelement <4 x float> %585, i32 3
  %587 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 13)
  %588 = extractelement <4 x float> %587, i32 3
  %589 = fmul float %586, %588
  %590 = fadd float %589, %566
  %591 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %592 = extractelement <4 x float> %591, i32 0
  %593 = fmul float %296, %592
  %594 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %595 = extractelement <4 x float> %594, i32 0
  %596 = fmul float %302, %595
  %597 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %598 = extractelement <4 x float> %597, i32 0
  %599 = fmul float %308, %598
  %600 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %601 = extractelement <4 x float> %600, i32 0
  %602 = fmul float %314, %601
  %603 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %604 = extractelement <4 x float> %603, i32 1
  %605 = fmul float %388, %604
  %606 = fadd float %605, %593
  %607 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %608 = extractelement <4 x float> %607, i32 1
  %609 = fmul float %394, %608
  %610 = fadd float %609, %596
  %611 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %612 = extractelement <4 x float> %611, i32 1
  %613 = fmul float %400, %612
  %614 = fadd float %613, %599
  %615 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %616 = extractelement <4 x float> %615, i32 1
  %617 = fmul float %406, %616
  %618 = fadd float %617, %602
  %619 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %620 = extractelement <4 x float> %619, i32 2
  %621 = fmul float %480, %620
  %622 = fadd float %621, %606
  %623 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %624 = extractelement <4 x float> %623, i32 2
  %625 = fmul float %486, %624
  %626 = fadd float %625, %610
  %627 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %628 = extractelement <4 x float> %627, i32 2
  %629 = fmul float %492, %628
  %630 = fadd float %629, %614
  %631 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %632 = extractelement <4 x float> %631, i32 2
  %633 = fmul float %498, %632
  %634 = fadd float %633, %618
  %635 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %636 = extractelement <4 x float> %635, i32 3
  %637 = fmul float %572, %636
  %638 = fadd float %637, %622
  %639 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %640 = extractelement <4 x float> %639, i32 3
  %641 = fmul float %578, %640
  %642 = fadd float %641, %626
  %643 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %644 = extractelement <4 x float> %643, i32 3
  %645 = fmul float %584, %644
  %646 = fadd float %645, %630
  %647 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 4)
  %648 = extractelement <4 x float> %647, i32 3
  %649 = fmul float %590, %648
  %650 = fadd float %649, %634
  %651 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %652 = extractelement <4 x float> %651, i32 0
  %653 = fmul float %296, %652
  %654 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %655 = extractelement <4 x float> %654, i32 0
  %656 = fmul float %302, %655
  %657 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %658 = extractelement <4 x float> %657, i32 0
  %659 = fmul float %308, %658
  %660 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %661 = extractelement <4 x float> %660, i32 0
  %662 = fmul float %314, %661
  %663 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %664 = extractelement <4 x float> %663, i32 1
  %665 = fmul float %388, %664
  %666 = fadd float %665, %653
  %667 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %668 = extractelement <4 x float> %667, i32 1
  %669 = fmul float %394, %668
  %670 = fadd float %669, %656
  %671 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %672 = extractelement <4 x float> %671, i32 1
  %673 = fmul float %400, %672
  %674 = fadd float %673, %659
  %675 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %676 = extractelement <4 x float> %675, i32 1
  %677 = fmul float %406, %676
  %678 = fadd float %677, %662
  %679 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %680 = extractelement <4 x float> %679, i32 2
  %681 = fmul float %480, %680
  %682 = fadd float %681, %666
  %683 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %684 = extractelement <4 x float> %683, i32 2
  %685 = fmul float %486, %684
  %686 = fadd float %685, %670
  %687 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %688 = extractelement <4 x float> %687, i32 2
  %689 = fmul float %492, %688
  %690 = fadd float %689, %674
  %691 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %692 = extractelement <4 x float> %691, i32 2
  %693 = fmul float %498, %692
  %694 = fadd float %693, %678
  %695 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %696 = extractelement <4 x float> %695, i32 3
  %697 = fmul float %572, %696
  %698 = fadd float %697, %682
  %699 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %700 = extractelement <4 x float> %699, i32 3
  %701 = fmul float %578, %700
  %702 = fadd float %701, %686
  %703 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %704 = extractelement <4 x float> %703, i32 3
  %705 = fmul float %584, %704
  %706 = fadd float %705, %690
  %707 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 3)
  %708 = extractelement <4 x float> %707, i32 3
  %709 = fmul float %590, %708
  %710 = fadd float %709, %694
  %711 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %712 = extractelement <4 x float> %711, i32 0
  %713 = fmul float %296, %712
  %714 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %715 = extractelement <4 x float> %714, i32 0
  %716 = fmul float %302, %715
  %717 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %718 = extractelement <4 x float> %717, i32 0
  %719 = fmul float %308, %718
  %720 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %721 = extractelement <4 x float> %720, i32 0
  %722 = fmul float %314, %721
  %723 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %724 = extractelement <4 x float> %723, i32 1
  %725 = fmul float %388, %724
  %726 = fadd float %725, %713
  %727 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %728 = extractelement <4 x float> %727, i32 1
  %729 = fmul float %394, %728
  %730 = fadd float %729, %716
  %731 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %732 = extractelement <4 x float> %731, i32 1
  %733 = fmul float %400, %732
  %734 = fadd float %733, %719
  %735 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %736 = extractelement <4 x float> %735, i32 1
  %737 = fmul float %406, %736
  %738 = fadd float %737, %722
  %739 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %740 = extractelement <4 x float> %739, i32 2
  %741 = fmul float %480, %740
  %742 = fadd float %741, %726
  %743 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %744 = extractelement <4 x float> %743, i32 2
  %745 = fmul float %486, %744
  %746 = fadd float %745, %730
  %747 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %748 = extractelement <4 x float> %747, i32 2
  %749 = fmul float %492, %748
  %750 = fadd float %749, %734
  %751 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %752 = extractelement <4 x float> %751, i32 2
  %753 = fmul float %498, %752
  %754 = fadd float %753, %738
  %755 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %756 = extractelement <4 x float> %755, i32 3
  %757 = fmul float %572, %756
  %758 = fadd float %757, %742
  %759 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %760 = extractelement <4 x float> %759, i32 3
  %761 = fmul float %578, %760
  %762 = fadd float %761, %746
  %763 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %764 = extractelement <4 x float> %763, i32 3
  %765 = fmul float %584, %764
  %766 = fadd float %765, %750
  %767 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 2)
  %768 = extractelement <4 x float> %767, i32 3
  %769 = fmul float %590, %768
  %770 = fadd float %769, %754
  %771 = fmul float %758, %4
  %772 = fmul float %762, %4
  %773 = fmul float %766, %4
  %774 = fmul float %770, %4
  %775 = fmul float %698, %5
  %776 = fadd float %775, %771
  %777 = fmul float %702, %5
  %778 = fadd float %777, %772
  %779 = fmul float %706, %5
  %780 = fadd float %779, %773
  %781 = fmul float %710, %5
  %782 = fadd float %781, %774
  %783 = fmul float %638, %6
  %784 = fadd float %783, %776
  %785 = fmul float %642, %6
  %786 = fadd float %785, %778
  %787 = fmul float %646, %6
  %788 = fadd float %787, %780
  %789 = fmul float %650, %6
  %790 = fadd float %789, %782
  %791 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %792 = extractelement <4 x float> %791, i32 0
  %793 = fmul float %296, %792
  %794 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %795 = extractelement <4 x float> %794, i32 0
  %796 = fmul float %302, %795
  %797 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %798 = extractelement <4 x float> %797, i32 0
  %799 = fmul float %308, %798
  %800 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %801 = extractelement <4 x float> %800, i32 0
  %802 = fmul float %314, %801
  %803 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %804 = extractelement <4 x float> %803, i32 1
  %805 = fmul float %388, %804
  %806 = fadd float %805, %793
  %807 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %808 = extractelement <4 x float> %807, i32 1
  %809 = fmul float %394, %808
  %810 = fadd float %809, %796
  %811 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %812 = extractelement <4 x float> %811, i32 1
  %813 = fmul float %400, %812
  %814 = fadd float %813, %799
  %815 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %816 = extractelement <4 x float> %815, i32 1
  %817 = fmul float %406, %816
  %818 = fadd float %817, %802
  %819 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %820 = extractelement <4 x float> %819, i32 2
  %821 = fmul float %480, %820
  %822 = fadd float %821, %806
  %823 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %824 = extractelement <4 x float> %823, i32 2
  %825 = fmul float %486, %824
  %826 = fadd float %825, %810
  %827 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %828 = extractelement <4 x float> %827, i32 2
  %829 = fmul float %492, %828
  %830 = fadd float %829, %814
  %831 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %832 = extractelement <4 x float> %831, i32 2
  %833 = fmul float %498, %832
  %834 = fadd float %833, %818
  %835 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %836 = extractelement <4 x float> %835, i32 3
  %837 = fmul float %572, %836
  %838 = fadd float %837, %822
  %839 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %840 = extractelement <4 x float> %839, i32 3
  %841 = fmul float %578, %840
  %842 = fadd float %841, %826
  %843 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %844 = extractelement <4 x float> %843, i32 3
  %845 = fmul float %584, %844
  %846 = fadd float %845, %830
  %847 = load <4 x float> addrspace(8)* getelementptr ([1024 x <4 x float>] addrspace(8)* null, i64 0, i32 5)
  %848 = extractelement <4 x float> %847, i32 3
  %849 = fmul float %590, %848
  %850 = fadd float %849, %834
  %851 = fadd float %784, %838
  %852 = fadd float %786, %842
  %853 = fadd float %788, %846
  %854 = fadd float %790, %850
  %855 = load <4 x float> addrspace(8)* null
  %856 = extractelement <4 x float> %855, i32 0
  %857 = fmul float %43, %856
  %858 = load <4 x float> addrspace(8)* null
  %859 = extractelement <4 x float> %858, i32 0
  %860 = fmul float %49, %859
  %861 = insertelement <4 x float> undef, float %851, i32 0
  %862 = insertelement <4 x float> %861, float %852, i32 1
  %863 = insertelement <4 x float> %862, float %853, i32 2
  %864 = insertelement <4 x float> %863, float %854, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %864, i32 60, i32 1)
  %865 = insertelement <4 x float> undef, float %851, i32 0
  %866 = insertelement <4 x float> %865, float %852, i32 1
  %867 = insertelement <4 x float> %866, float %853, i32 2
  %868 = insertelement <4 x float> %867, float %854, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %868, i32 0, i32 2)
  %869 = insertelement <4 x float> undef, float %857, i32 0
  %870 = insertelement <4 x float> %869, float %860, i32 1
  %871 = insertelement <4 x float> %870, float %183, i32 2
  %872 = insertelement <4 x float> %871, float %213, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %872, i32 1, i32 2)
  %873 = insertelement <4 x float> undef, float %222, i32 0
  %874 = insertelement <4 x float> %873, float %96, i32 1
  %875 = insertelement <4 x float> %874, float %97, i32 2
  %876 = insertelement <4 x float> %875, float 0,000000e+00, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %876, i32 2, i32 2)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

; Function Attrs: readnone
declare float @llvm.AMDGPU.dp4(<4 x float>, <4 x float>) #1

; Function Attrs: readonly
declare float @fabs(float) #2

; Function Attrs: readnone
declare float @llvm.AMDGPU.rsq(float) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="1" }
attributes #1 = { readnone }
attributes #2 = { readonly }
--------------------------------------------------------------
bytecode 476 dw -- 14 gprs -- 1 nstack -------------
shader 56 -- 6
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
Vertex elements state:
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 0, src_format = PIPE_FORMAT_R32G32B32_FLOAT, }
   {src_offset = 0, instance_divisor = 0, vertex_buffer_index = 1, src_format = PIPE_FORMAT_R32G32B32_FLOAT, }
bytecode 12 dw -- 3 gprs -- 0 nstack -------------
shader 57 -- 6
0000 00000002 81000400  VTX 2 @4 
 0004 7C00A000 8C151001 00080000   VFETCH         R1.xyz1, R0.x,  RID:160 VERTEX MFC:31 UCF:0 FMT(DTA:48 NUM:0 COMP:0 MODE:1)
 0008 7C00A100 8C151002 00080000   VFETCH         R2.xyz1, R0.x,  RID:161 VERTEX MFC:31 UCF:0 FMT(DTA:48 NUM:0 COMP:0 MODE:1)
0002 00000000 8A000000  RET @0 
--------------------------------------
______________________________________________________________
--------------------------------------------------------------
FRAG
DCL IN[0], GENERIC[0], LINEAR
DCL OUT[0], COLOR
  0: MOV OUT[0], IN[0]
  1: END
; ModuleID = 'tgsi'

define void @main() #0 {
main_body:
  %0 = call float @llvm.R600.load.input(i32 0)
  %1 = call float @llvm.R600.load.input(i32 1)
  %2 = call float @llvm.R600.load.input(i32 2)
  %3 = call float @llvm.R600.load.input(i32 3)
  %4 = insertelement <4 x float> undef, float %0, i32 0
  %5 = insertelement <4 x float> %4, float %1, i32 1
  %6 = insertelement <4 x float> %5, float %2, i32 2
  %7 = insertelement <4 x float> %6, float %3, i32 3
  call void @llvm.R600.store.swizzle(<4 x float> %7, i32 0, i32 0)
  ret void
}

; Function Attrs: readnone
declare float @llvm.R600.load.input(i32) #1

declare void @llvm.R600.store.swizzle(<4 x float>, i32, i32)

attributes #0 = { "ShaderType"="0" }
attributes #1 = { readnone }
--------------------------------------------------------------
bytecode 4 dw -- 1 gprs -- 1 nstack -------------
shader 58 -- 6
--------------------------------------
______________________________________________________________