기본 콘텐츠로 건너뛰기

[mysql] explain 활용 쿼리 최적화 하기 - Using temporary, Using filesort 제거

mysql에서는 explain이라는 키워드를 활용하여 질의문에 대한 정보를 얻을수 있다.

우선 테스트를 할 테이블부터 생성

1
2
3
4
5
CREATE TABLE Users(
    id INT PRIMARY KEY AUTO_INCREMENT,
    email VARCHAR(255NOT NULL,
    password VARCHAR(255NOT NULL
);
cs

1
2
3
4
5
6
7
8
9
CREATE TABLE UserInfos(
    id INT PRIMARY KEY AUTO_INCREMENT,
    name VARCHAR(255NOT NULL,
    age INT NOT NULL DEFAULT 0
    gender INT NOT NULL DEFAULT 0, #여:1, 남:2
    UserId INT NOT NULL,
    FOREIGN KEY(UserId) REFERENCES Users(id) On DELETE CASCADE
);
cs

2개의 테이블을 생성을 하였다.
UserInfos는 userId를 통해 users의 id를 참조를 하고있다.
(2개의 테이블간 관계 성립)


























1
SELECT *FROM UserInfos INNER JOIN Users ON Users.id = UserInfos.UserId;
cs











INNER JOIN을 통해 두개의 테이블을 엮어서 조회를 할 수 있다.(JOIN문을 쓸때에는 INNER JOIN을 쓰는것이 가장 효과적이다.)






SELECT앞에 EXPLAIN을 붙여주면 해당 쿼리가 실행됬을 때의 정보를 보여준다.
여기서 가장 유심히 지켜볼 부분은 EXTRA부분이다.

이제 조금바꿔서 조회를해보자.
위 테이블에서 gender컬럼을 통해 성별을 기준으로 몇명이 있는지 조회를 해보자.
가장 기본적인 방법은 GROUP BY를 사용을 하게되는 것이다.

1
2
3
4
5
6
7
8
SELECT 
    *, COUNT(*
FROM 
    Users 
INNER JOIN 
    UserInfos ON Users.id = UserInfos.UserId 
GROUP BY 
    UserInfos.gender;
cs






GROUP BY를 통해 해당 컬럼이 같은것끼리 그룹을 지었다 또한 그것의 갯수를 출력을 해주었다.
자 그럼 해당 쿼리문의 정보를 봐보자.





extra 부분에 using temporary, using filesort가 추가가 되었다.
extra에서 가장 피해야할 것이 바로 저 두가지이다.

using temporary : 가상 테이블 생성
using filesort : 정렬

우선 group by는 기본적으로 정렬을 해서 조회를 한다.
order by null을 주면 정렬을 하지않고 처리를 한다.






ORDER BY를 통해 Using filesort를 없앴다.
이제 temporary를 없애보자.

요건 꽤나 삽질을 했던 부분이다.

여기서 인덱스라는 개념이 등장을 한다.

우선 인덱스에 대한 개념은 나중에 설명을 하도록 하겠다. group by에 사용되고 있는 gende라는 컬럼을 index로 추가를 하자.

1
ALTER TABLE UserInfos ADD INDEX gender(gender);
cs


1
SHOW INDEX FROM test.UserInfos;
cs

SHOW 명령어를 통해 해당 테이블에서 어떤 컬럼이 인덱스로 잡혀있는지 확인이 가능하다.

1
2
3
4
5
6
7
8
9
10
11
SELECT *, COUNT(*)
FROM 
    UserInfos
WHERE 
    EXISTS (
            SELECT 
                id 
            FROM
                Users
    )
GROUP BY UserInfos.gender;
cs

위 처럼 쿼리를 좀 많이 바꾸었다. 서브쿼리를 활용을 하였다.






temporary를 없앴다 대신에
두번째 id가 2로 바뀌면서 select_type이 서브쿼리로 바뀌었다. 또한 extra가 using index로 바뀌었다.

inner를 활용했을 때에는 gender에 대한 결과를 임시로 저장을 할 테이블이 필요로 했다. 하지만 두번째 방법은 쿼리를 두번으로 날림으로써 임시 테이블 생성을 없앴것이다. 
WHERE문을 보면 select id FROM Users 쿼리를 날리고 있다. 
UserInfos의 데이터의 양과 상관없이 Users의 row의 갯수만큼만 결과가 나타날것이다.(위 방법은 1:1 모델에서만 적용해야 알맞을것이다.)














Users의 row 한줄을 delete를 이용해 없앴다.

이제 다시 위 쿼리를 통해 결과를 봐보자 위에서는 count의 합이 5가 나왔다.








이번엔 count의 총합이4가 나왔다.

아 이건 전에 어떤분이 물어봤던건데 GROUP BY를 하면서 해당 그룹에 포함된 데이터를 나열하는 방법에 대해 물어본적이 있었다.

이건 mysql에서 제공하는 GROUP_CONCAT를 이용을 하면 된다.
현재는 성별이 몇명인지 출력을 하는 쿼리문을 작성을 하고 있었다.


해당 성별이 누가 있는지 조회 하는 쿼리를 봐보자.

1
2
3
4
5
6
7
8
9
10
SELECT 
    *
    COUNT(*) AS count, 
    GROUP_CONCAT(UserInfos.name) AS names  
FROM 
    UserInfos  
WHERE  
    EXISTS 
        (SELECT id FROM Users)
GROUP BY UserInfos.gender;
cs







GROUP_CONCAT이 기본적인 구분 인자는 ,이다 

1
GROUP_CONCAT(UserInfos.name SEPARATOR '-')
cs

SEPARATOR를 통해 구분자를 바꾸어 줄 수 있다.

흠...
 사실 위 방법이 정말 최적화인지는 잘 모르겠다.
사실 서브쿼리를 날리는 것도 결국은 디비 성능에 부하를 일으키는 부분이긴 하니깐 가상 테이블 생성이냐 쿼리를 더 날리냐의 차이라... 아직은 정확이 어느것이 정답인지는 잘 모르겠다.

하지만 같은 출력결과를 다양한 방법으로 출력을 할 수 있다는 것을 명심하자.
(아 참고로 윈도에서 워크벤치라는 툴을 주로 쓰고 결과 창을 커멘드창이랑 툴을 섞으면서 써서 아마 검은 화면으로 되있는것도 있고 툴처럼 된게 있을것이다 ㅋㅋㅋㅋㅋ)









댓글

이 블로그의 인기 게시물

[kali linux] sqlmap - post요청 injection 시도

아래 내용은 직접 테스트 서버를 구축하여 테스트 함을 알립니다.  실 서버에 사용하여 얻는 불이익에는 책임을 지지 않음을 알립니다. sqlmap을 이용하여 get요청이 아닌 post요청에 대해서 injection공격을 시도하자. 뚀한 다양한 플래그를 이용하여 DB 취약점 테스트를 진행을 해보려고 한다. 서버  OS : windows 7 64bit Web server : X Server engine : node.js Framework : expresss Use modules : mysql Address : 172.30.1.30 Open port : 6000번 공격자 OS : kali linux 64bit use tools : sqlmap Address : 172.30.1.57 우선 서버측 부터  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 var  express  =  require( 'express' ); var  app  =  express(); var  mysql  =  require( 'mysql' ); var  ccc  =  mysql.createConnection({     host: '127.0.0.1' ,     user: 'root' ,     pos...

[git] git log 확인하기

git log를 통해서 커밋 이력과 해당 커밋에서 어떤 작업이 있었는지에 대해 조회를 할 수 있다. 우선 git에서의 주요 명령어부터 알아보겠다. $ git push [branch name] $ git pull [branch name] 여기서 branch name은 로컬일 경우 해당 브런치 이름만 적으면 되지만 깃허브 원격 저장소로 연결을 원할 경우는 해당 브런치 이름 앞에 꼭 origin을 붙이도록 한다. $ git brnch [branch name] $ git checkout [branch name] branch일경우 해당 브런치를 생성을 한다. 여기서 현재의 브런치를 기준으로 브런치를 따는것이다. checkout은 브런치를 바꾸는 것이다.(HEAD~[숫자]를 이용하면 해당 커밋으로 움직일수 있다.. 아니면 해당 커밋 번호를 통해 직접 옮기는것도 가능하다.) -> 해당 커밋으로 옮기는 것일뿐 실질적으로 바뀌는 것은 없다. 해당 커밋으로 완전히 되돌리려면 reset이라는 명령어를 써야한다. 처음 checkout을 쓰면 매우 신기하게 느껴진다. 막 폴더가 생겼다가 지워졌다가 ㅋㅋㅋㅋㅋ  master 브런치에서는 ht.html파일이 존재하지만 a브런치에서는 존재하지않는다. checkout 으로 변경을 하면 D 로 명시를 해준다.  $ git log 해당 브런치의 커밋 내역을 보여준다. a 브런치의 커밋 내역들이다. (머지 테스트를 하느라 커밋 내용이 거의 비슷하다 ㅋㅋ) master 브런치의 커밋 내역들이다. 커밋 번호, 사용자, 날짜, 내용순으로 등장을 한다. 이건 단순히 지금까지의 내역을 훑어보기 좋다. 좀더 세밀한 내용을 봐보자. $ git log --stat --stat을 붙이면 기존의 로그에서 간략하게...

[git] pull을 하여 최신코드를 내려받자

보면 먼가 로고가 다르게 뜨는것을 확인을 할 수가있다. C:\Users\mung\Desktop\etc\study\python-gene>git checkout remotes/origin/master Note: checking out 'remotes/origin/master'. You are in 'detached HEAD' state. You can look around, make experimental changes and commit them, and you can discard any commits you make in this state without impacting any branches by performing another checkout. If you want to create a new branch to retain commits you create, you may do so (now or later) by using -b with the checkout command again. Example:   git checkout -b HEAD is now at 29e282a... fetch test C:\Users\mung\Desktop\etc\study\python-gene>git branch * (HEAD detached at origin/master)   master   test1   test2 깃이 잘 쓰면 참 좋은놈인데 어지간히 쓰기가 까다롭다. 처음에 깃을 푸시 성공하는데만 한달정도 걸렸던걸로 기억이 난다.. ㅋㅋㅋ 여담으로  깃 프로필을 가면 아래사진 처럼 보인다. 기여도에 따라서 초록색으로 작은 박스가 채워지는데 저걸 잔디라고 표현을 한다고 합니다 ㅎ 저 사진은 제 깃 기여도 사진입니당 ㅋㅋㅋㅋ 다시 본론으로 돌아와서 ㅋㅋ pull을 하면...