행렬 형태로 c++컴파일러는 바꾸기 가장 빠른 길은 무엇인가?

'_MM_TRANSPOSE4_PS (r0, r1, r2, r3)' 가 구현됩니까 의해 다르게 다른 컴파일러에도. Mgcc 및 ICC (I 확인하지 않은 클랭) 를 ',', '만 사용하는 반면, 므스티스 우np클프스 오노프스호프스 운프크로프트 오노프스카프트 수프프스'. 실제로 이 두 가지 방식이 이렇게 함께 합칩니다 수 있습니다.

t0 = _mm_unpacklo_ps(r0, r1);
t1 = _mm_unpackhi_ps(r0, r1);
t2 = _mm_unpacklo_ps(r2, r3);
t3 = _mm_unpackhi_ps(r2, r3);

r0 = _mm_shuffle_ps(t0,t2, 0x44);
r1 = _mm_shuffle_ps(t0,t2, 0xEE);
r2 = _mm_shuffle_ps(t1,t3, 0x44);
r3 = _mm_shuffle_ps(t1,t3, 0xEE);

흥미로운 것은 두 관측 셔플 (shuffle) 와 2 개의 블렌드에 (SSE4.1) 이 같은 한 변환할 수 있다.

t0 = _mm_unpacklo_ps(r0, r1);
t1 = _mm_unpackhi_ps(r0, r1);
t2 = _mm_unpacklo_ps(r2, r3);
t3 = _mm_unpackhi_ps(r2, r3);

v  = _mm_shuffle_ps(t0,t2, 0x4E);
r0 = _mm_blend_ps(t0,v, 0xC);
r1 = _mm_blend_ps(t2,v, 0x3);
v  = _mm_shuffle_ps(t1,t3, 0x4E);
r2 = _mm_blend_ps(t1,v, 0xC);
r3 = _mm_blend_ps(t3,v, 0x3);

2 과 4 를 효과적으로 변환되었습니다 4 뒤섞는다 블렌드에 뒤섞는다. 이 2 보다 더 많은 명령을 사용하여, ICC 및 므스티스 mgcc 구현. 포트 압력을 최대한 줄일 수 있다는 이점을 가질 수 있는 상황에 따라. 현재 모든 뒤섞는다 갈 수 있지만 단지 한 특정 포트 및 풀 블렌드에 이동할 수 있는 두 가지 다른 포트+.

같은 것을 뒤섞는다 므스티스 로 변환 및 8 + 8 블렌드에 4 뒤섞는다 사용하여 노력했다고 하지만 작동되지 않았다. 난 아직도 4 풀 사용해야 했습니다.

내가 이 동일한 기법을 사용한 8x8 의 부동 소수점 전치행렬 (http://otl. 끝을 향해 있는 답). https://stackoverflow.com/a/25627536/2542702. 하지만 난 아직도 그 답을 사용해야 했습니다 풀 망드 변환하십시오 8 8 8 블렌드에 뒤섞는다 및 4 에 뒤섞는다.

32 비트 정수 수프프스 like '없다' (제외한 함께 128-비트 뒤섞는다 AVX512) 로 구현된 풀 이벤트여야만 수 있도록 할 수 있는 것 같지는 않다 # 39, 내가 don& 변환하시겠습니까 블렌드에 (효율적을). '와' like '레인' 역할을 효과적으로 AVX512 vshufi32x4 수프프스 128-비트 제외한 4 과 (와) '이 될 수도 있다는 것 때문에 32 비트 정수 대신 유동합니다 동일한 기술을 vshufi32x4' 사례가 들린다. 나이츠 (처리량의) 보다 4 배 이상 속도가 느린 블렌드에 소개 뒤섞는다 함께 있다.

Community

편집된 답변23일 5월 2017 в 12:10

5

0

Reza Baram

17일 3월 2014 в 8:55

조옮김 오버헤드에 없이 (class 완료되지):

class Matrix{
   double *data; //suppose this will point to data
   double _get1(int i, int j){return data[i*M+j];} //used to access normally
   double _get2(int i, int j){return data[j*N+i];} //used when transposed

   public:
   int M, N; //dimensions
   double (*get_p)(int, int); //functor to access elements  
   Matrix(int _M,int _N):M(_M), N(_N){
     //allocate data
     get_p=&Matrix::_get1; // initialised with normal access 
     }

   double get(int i, int j){
     //there should be a way to directly use get_p to call. but i think even this
     //doesnt incur overhead because it is inline and the compiler should be intelligent
     //enough to remove the extra call
     return (this->*get_p)(i,j);
    }
   void transpose(){ //twice transpose gives the original
     if(get_p==&Matrix::get1) get_p=&Matrix::_get2;
     else get_p==&Matrix::_get1; 
     swap(M,N);
     }
}

이렇게 사용할 수 있습니다.

Matrix M(100,200);
double x=M.get(17,45);
M.transpose();
x=M.get(17,45); // = original M(45,17)

당연히 didn& # 39, 메모리 관리, 여기 있는 것이 아니라 다른 주제 있는 수는 없는 노릇.

Reza Baram

편집된 답변17일 3월 2014 в 9:51

1

0

Rachel Gallen

24일 5월 2013 в 2:29

template <class T>
void transpose( std::vector< std::vector<T> > a,
std::vector< std::vector<T> > b,
int width, int height)
{
    for (int i = 0; i < width; i++)
    {
        for (int j = 0; j < height; j++)
        {
            b[j][i] = a[i][j];
        }
    }
}

Jonathan Leffler

편집된 답변24일 5월 2013 в 3:26

1

0

Khaled.K

25일 5월 2013 в 5:28

이에 따라 각 열은 각 행의 고려해보십시오 열과 행으로. 내가 사용하는 대신, i, j j

데모: http://ideone.com/lvsxKZ

#include <iostream> 
using namespace std;

int main ()
{
    char A [3][3] =
    {
        { 'a', 'b', 'c' },
        { 'd', 'e', 'f' },
        { 'g', 'h', 'i' }
    };

    cout << "A = " << endl << endl;

    // print matrix A
    for (int i=0; i<3; i++)
    {
        for (int j=0; j<3; j++) cout << A[i][j];
        cout << endl;
    }

    cout << endl << "A transpose = " << endl << endl;

    // print A transpose
    for (int i=0; i<3; i++)
    {
        for (int j=0; j<3; j++) cout << A[j][i];
        cout << endl;
    }

    return 0;
}

1

0

angel

25일 12월 2013 в 6:50

제 대답은 '의 전치를 수행할 3x3 호환표에

 #include<iostream.h>

#include<math.h>

main()
{
int a[3][3];
int b[3];
cout<<"You must give us an array 3x3 and then we will give you Transposed it "<<endl;
for(int i=0;i<3;i++)
{
    for(int j=0;j<3;j++)
{
cout<<"Enter a["<<i<<"]["<<j<<"]: ";

cin>>a[i][j];

}

}
cout<<"Matrix you entered is :"<<endl;

 for (int e = 0 ; e < 3 ; e++ )

{
    for ( int f = 0 ; f < 3 ; f++ )

        cout << a[e][f] << "\t";

    cout << endl;

    }

 cout<<"\nTransposed of matrix you entered is :"<<endl;
 for (int c = 0 ; c < 3 ; c++ )
{
    for ( int d = 0 ; d < 3 ; d++ )
        cout << a[d][c] << "\t";

    cout << endl;
    }

return 0;
}

-6

0

질문 추가

카테고리

모두

기술

문화/레크리에이션

생활/예술

과학

직업

비즈니스

사용자

すべて

새로운

인기

1

2

3

4

5

질문이 있으신가요? 사이트에 추가하고 즉시 답변을 받으세요.

ko.kzen.dev

익명 사용자 · Accepted Answer · 2013-05-24T20:33:02+00:00

이것은 좋은 질문입니다. 이유는 여러 가지가 있습니다 행렬의 전치행렬 그녀의심장을 실제로 메모리에 있는 게 아니라, 예를 들어 행렬 곱셈 및 가우스 스왑이란 위치좌표 유명하다.

Let me 리스트 기능 중 하나는 내가 먼저 사용할 바꾸기 ( 편집: 제발 내 답을 찾았다고 훨씬 더 빨리 끝을 볼 수 있는 솔루션 )

void transpose(float *src, float *dst, const int N, const int M) {
    #pragma omp parallel for
    for(int n = 0; n<N*M; n++) {
        int i = n/N;
        int j = n%N;
        dst[n] = src[M*j + i];
    }
}

왜 지금 let& # 39 의 지켜보리니 바꾸기 할 수 있다. 행렬 곱셈 고려해보십시오 C = *. 그것은 우리가 할 수 없다.

for(int i=0; i<N; i++) {
    for(int j=0; j<K; j++) {
        float tmp = 0;
        for(int l=0; l<M; l++) {
            tmp += A[M*i+l]*B[K*l+j];
        }
        C[K*i + j] = tmp;
    }
}

그러나 이쪽요 캐시 실패를 많이 할 것 같습니다. B 의 첫 번째 훨씬 빠른 해결책은 시행하십시오 전치행렬

transpose(B);
for(int i=0; i<N; i++) {
    for(int j=0; j<K; j++) {
        float tmp = 0;
        for(int l=0; l<M; l++) {
            tmp += A[M*i+l]*B[K*j+l];
        }
        C[K*i + j] = tmp;
    }
}
transpose(B);

행렬 곱셈 () 는 O (n ^ 2) 는 O (n ^ 3) 과 바꾸기 때문에 바꾸기 등의 계산을 해야 할 시간이 거의 영향을 미치지 (큰 'n'). 행렬 곱셈 루프 (loop) 에 비해 훨씬 더 효과적인 바둑판식 배열을 취하고 있지만, s # 39 바꾸기 that& 훨씬 더 복잡하다.

I wish I knew 더 빨리 할 수 있는 바꾸기 ( 편집: I found the end of my answer 빠른 솔루션, 참조). Haswell/avx2 나왔을 때 몇 주 만에 한 확하려 기능을 갖게 됩니다. 내가 don& 도움이 될 수 있는 다운로드되었는지 t # 39, 이 경우, 하지만 난 열 및 이미지 모으는 먹어서나 아웃하려면 행일. 어쩌면 발쿰치로 바꾸기 필요 없습니다.

What you do 는 가로로 그리곤요 얼룩입니다 세로일 얼룩입니다 대한 가우스 유명하다. 그러나 당신이 할 일은 캐시에는 세로일 얼룩 문제가 있다.

Smear image horizontally
transpose output 
Smear output horizontally
transpose output

인텔이 설명하는 논문을 슬라이드에서는 http://software.intel.com/en-us/articles/iir-gaussian-blur-filter-implementation-using-intel-advanced-vector-extensions

마지막으로, 내가 해야 할 일이 실제로 행렬 곱셈 (또한 가우스 유명하다) 에 너비가 취할 수밖에 없는 시행하십시오 정확히요 바꾸기 바꾸기 특정 벡터입니다 크기 (예를 들어, 4 개 또는 8 개의 SSE 의 / AVX). 다음은 내가 사용하는 함수

void reorder_matrix(const float* A, float* B, const int N, const int M, const int vec_size) {
    #pragma omp parallel for
    for(int n=0; n<M*N; n++) {
        int k = vec_size*(n/N/vec_size);
        int i = (n/vec_size)%N;
        int j = n%vec_size;
        B[n] = A[M*i + k + j];
    }
}

EDIT:*

찾기 위해 여러 가지 기능을 가장 빠른 전치행렬 대규모 호환표 찾았다. 결국 사용할 수 있는 가장 빠른 결과를 얻을 수 있습니다,, = 16&lt /code&gt block_size code&gt &lt 루프 차단 ( 편집: I found a 차단 솔루션 및 반복 사용하는 SSE 빠른 - 아래 참조). 이 코드는 작동됨 너스마 호환표에 경우 (즉, 호환표에 필요가 없으며 광장 ().

inline void transpose_scalar_block(float *A, float *B, const int lda, const int ldb, const int block_size) {
    #pragma omp parallel for
    for(int i=0; i<block_size; i++) {
        for(int j=0; j<block_size; j++) {
            B[j*ldb + i] = A[i*lda +j];
        }
    }
}

inline void transpose_block(float *A, float *B, const int n, const int m, const int lda, const int ldb, const int block_size) {
    #pragma omp parallel for
    for(int i=0; i<n; i+=block_size) {
        for(int j=0; j<m; j+=block_size) {
            transpose_scalar_block(&A[i*lda +j], &B[j*ldb + i], lda, ldb, block_size);
        }
    }
}

값은 code&gt lda&lt /code&gt <;;; 및 &lt code&gt ldb&lt /code>;;; 오른길로 너비입니다 호환표에. 이러한 할 여러 개의 블록 크기. Com/go/downloads_kr 값과 3000x1001 호환표에 나는한다 이 같은 일이 할당할지 메모리 (예:

#define ROUND_UP(x, s) (((x)+((s)-1)) & -(s))
const int n = 3000;
const int m = 1001;
int lda = ROUND_UP(m, 16);
int ldb = ROUND_UP(n, 16);

float *A = (float*)_mm_malloc(sizeof(float)*lda*ldb, 64);
float *B = (float*)_mm_malloc(sizeof(float)*lda*ldb, 64);

이 경우 3000x1001 &lt 되돌려줍니다 code>; ldb = 3008&lt /code>; 및 &lt code>; 우다 = 1008년 &lt /code>;

Edit:*

내가 분석한 결과 이용하여 솔루션을 훨씬 더 빨리 SSE 내장.

inline void transpose4x4_SSE(float *A, float *B, const int lda, const int ldb) {
    __m128 row1 = _mm_load_ps(&A[0*lda]);
    __m128 row2 = _mm_load_ps(&A[1*lda]);
    __m128 row3 = _mm_load_ps(&A[2*lda]);
    __m128 row4 = _mm_load_ps(&A[3*lda]);
     _MM_TRANSPOSE4_PS(row1, row2, row3, row4);
     _mm_store_ps(&B[0*ldb], row1);
     _mm_store_ps(&B[1*ldb], row2);
     _mm_store_ps(&B[2*ldb], row3);
     _mm_store_ps(&B[3*ldb], row4);
}

inline void transpose_block_SSE4x4(float *A, float *B, const int n, const int m, const int lda, const int ldb ,const int block_size) {
    #pragma omp parallel for
    for(int i=0; i<n; i+=block_size) {
        for(int j=0; j<m; j+=block_size) {
            int max_i2 = i+block_size < n ? i + block_size : n;
            int max_j2 = j+block_size < m ? j + block_size : m;
            for(int i2=i; i2<max_i2; i2+=4) {
                for(int j2=j; j2<max_j2; j2+=4) {
                    transpose4x4_SSE(&A[i2*lda +j2], &B[j2*ldb + i2], lda, ldb);
                }
            }
        }
    }
}

행렬 형태로 c++컴파일러는 바꾸기 가장 빠른 길은 무엇인가?

include &lt bits/stdc++.h>;

39, & # 39 \n& &lt cout<;;;

include &lt mkl.h>;

39, & # 39 R& const 챨 row_major =;;

39, & # 39 T& const 챨 바꾸기 =;;

include &lt armadillo>;