it(85)
-
Streamlit을 활용한 아이리스 데이터 시각화와 머신러닝 분석 ( 상관관계 분석 포함 )
Streamlit은 파이썬으로 데이터 과학 및 머신러닝 모델을 웹 애플리케이션으로 변환하기 위한 간단하고 빠른 방법을 제공합니다. 이 블로그 글에서는 Streamlit의 기능과 장점에 대해 알아보고, 관련 샘플 코드를 제공하겠습니다. 1. Streamlit 소개 Streamlit은 파이썬으로 작성된 간단한 코드로 데이터 시각화 및 웹 애플리케이션을 빠르게 만들 수 있는 오픈 소스 라이브러리입니다. 주요 특징은 다음과 같습니다. 간단한 문법: Streamlit은 사용자 친화적인 문법을 제공하여 개발자가 빠르게 웹 애플리케이션을 구축할 수 있습니다. 자동 재로딩: 코드를 수정할 때마다 자동으로 애플리케이션이 다시로드되어 빠른 개발을 돕습니다. 다양한 컴포넌트: 텍스트, 그래프, 위젯 등 다양한 컴포넌트를 제..
2024.03.04 -
데이터 샘플링 VS GROUP BY 조회 성능 비교
우리 회사의 경우, 데이터를 보여주는 방식은 크게 아래 2가지 방식이다. 모든 데이터를 그냥 화면에 보여준다. 모든 데이터를 특정기준으로 GROUP BY 해서 평균을 보여준다. 모든 데이터를 뿌리는 경우 데이터의 양이 적으면 성능에 큰 문제가 발생하지 않지만, 데이터의 양이 늘어나게 되면 화면이 무거워져 사용자의 편의성이 떨어진다. 모든 데이터를 특정기준으로 GROUP BY 해서 평균 [1. 모든 데이터를 뿌리는 경우]의 성능에 문제가 발생하면, 거의 모든 튜닝이 “GROUP BY 해서 뿌려주는 데이터를 줄이자” 방식으로 진입한다. 하지만, 이 경우, 바람직한 방식이 아니다. 이유는 데이터를 스캔하는 범위는 여전히 똑같고, 거기에 연산 작업이 추가되기 때문에 데이터를 조회하는 성능이 저하된다. “GROU..
2024.02.15 -
snowflake 성능 및 비용 테스트 결과 ( aws athena 와 비교 )
오늘은 snowflake와 aws athena 성능과 비용을 비교해보겠다. snowflake는 클라우드를 기반의 데이터 저장 및 분석 서비스를 제공한다. 기업들은 클라우드를 통해 데이터를 저장하고 분석할 수 있다. 주요 기능으로는 기업 고객에게 맞는 스토리지와 컴퓨팅을 분리하여 제공하는 것이 있다. 이는 필요에 따라 컴퓨팅 파워를 즉시 확장할 수 있는 기능이며, 데이터 공유, 데이터 복제 기능을 제공한다. [ 데이터 소개 ] 데이터 : 베트남 공장 데이터 12월 1달 데이터 총 건수 : 233,870 건 1. 실험 쿼리 SELECT A.SPC_1, A.SPC_2, A.SPC_3, A.SPC_4, A.SPC_5, A.SPC_6, A.SPC_7, A.SPC_8, A.SPC_9, A.SPC_0 FROM vtn..
2024.02.06 -
snowflake 사용 요금 보는 방법 ( feat.SQL )
snowflake 에서 비용을 확인하는 방법은 어려가지가 있다. 그 중 자주쓰는 클라우드 서비스 비용 계산 쿼리를 공유하겠다. 해당 쿼리는 sql 별로 비용을 계산하는 문법으로 스토리지 사이즈가 고정적인 사이트에서는 유용하다. 0. 비용이 발생되는 기준 Snowflake의 총 비용은 데이터 전송, 저장, 컴퓨팅 리소스 사용에 따라 결정됩니다. 이 비용은 크게 세 가지 컴퓨팅 리소스 사용 유형으로 나뉩니다: 가상 웨어하우스 컴퓨팅: 사용자가 관리하는 컴퓨팅 리소스로, 데이터 로딩, 쿼리 실행, DML 작업 등을 수행할 때 크레딧을 사용합니다. 웨어하우스가 활성화되는 순간부터 청구되며, 최소 청구 시간은 60초입니다. 서버리스 컴퓨팅: Snowflake가 관리하는 컴퓨팅 리소스로, 검색 최적화나 Snowpi..
2024.01.26 -
SnowFlake 와 AWS Connetcion ( feat. SQL )
SnowFlake And AWS Connetcion 하는 방법을 알아보겠다. 해당 기능은 snowflake의 worksheets에서 작업을 하겠다. 1. Snow Flake 화면에서 worksheets를 클릭 2. worksheets에서 + 버튼을 클릭 후, SQL 를 선택한다. 3. 데이터베이스를 생성한다. create database TEST 그럼 왼쪽 데이터베이스 리스트에 [TEST] 가 생긴 걸 볼 수 있다. 4. 파일 포멧을 만든다. CREATE OR REPLACE FILE FORMAT PARQUT_SNAPPY TYPE = parquet COMPRESSION = SNAPPY; 파일 포멧을 파일을 읽을 때, 사용하는 포맷을 사용하면 된다. 나는 Parquet.snappy 파일 기준으로 생성했다. ..
2024.01.26 -
주식 예측 AI 개발 노트
Q. 주식의 예측이 가능할까 ? A. 이런 해답을 구하기 위해, 과거부터 AI로 주식을 예측하려는 시도는 무수히 많았다. 찾아보면 무수한 논문들도 많고, 재미있고 창의적인 방법론도 많다. 근데, 그 논문의 저자 혹은 방법론을 만든자가 부자가 되었다는 소리는 막상 들어본적이 없다. 부자가 되었다면, 막상 짐승의 감각을 가지고 있는 사람일 것이다. Q. 그럼 왜 우리는 주식 시장에서 수익을 낼 수 없을까? A. 주식시장의 주가의 방향을 데이터적으로 살펴보면, 대충 계산해보면 65%의 하락과 35%의 상승의 비율을 가지고 있다. 확율적으로 그냥 잃을 확률이 더 높은 시장이다. 하지만, 코스피는 계속 우상향 중이다. 이는 해당 통계의 모순이 있다는 의미이다. 잃을 확률이 높은 시장에서 자산의 규모는 커지는 모순..
2023.11.17