전체 글(133)
-
GitHub을 활용한 협업과 코드 관리 ( 초보자를 위한 가이드 )
0. GitHub 소개 GitHub는 분산 버전 관리 시스템인 Git을 기반으로 한 코드 호스팅 플랫폼으로, 개발자들이 소스 코드를 효과적으로 관리하고 협업하는 데 사용됩니다. 이것은 개발 프로젝트의 생명 주기를 관리하고, 다수의 개발자가 함께 작업하고, 개발 과정을 추적하고 문서화하는 데에 필수적인 도구입니다. 1. 기본 개념 1-1. Repository(저장소) GitHub에서 프로젝트는 저장소라는 곳에 저장됩니다. 이 저장소에는 프로젝트의 모든 파일과 폴더, 그리고 해당 프로젝트의 버전 기록이 포함됩니다. 개발자들은 이 저장소를 통해 프로젝트를 공유하고 관리합니다. 1-2. Branch(브랜치) 각 저장소는 하나 이상의 브랜치를 가질 수 있습니다. 브랜치는 독립적으로 개발을 진행할 수 있는 코드의 ..
2024.03.06 -
Streamlit을 활용한 아이리스 데이터 시각화와 머신러닝 분석 ( 상관관계 분석 포함 )
Streamlit은 파이썬으로 데이터 과학 및 머신러닝 모델을 웹 애플리케이션으로 변환하기 위한 간단하고 빠른 방법을 제공합니다. 이 블로그 글에서는 Streamlit의 기능과 장점에 대해 알아보고, 관련 샘플 코드를 제공하겠습니다. 1. Streamlit 소개 Streamlit은 파이썬으로 작성된 간단한 코드로 데이터 시각화 및 웹 애플리케이션을 빠르게 만들 수 있는 오픈 소스 라이브러리입니다. 주요 특징은 다음과 같습니다. 간단한 문법: Streamlit은 사용자 친화적인 문법을 제공하여 개발자가 빠르게 웹 애플리케이션을 구축할 수 있습니다. 자동 재로딩: 코드를 수정할 때마다 자동으로 애플리케이션이 다시로드되어 빠른 개발을 돕습니다. 다양한 컴포넌트: 텍스트, 그래프, 위젯 등 다양한 컴포넌트를 제..
2024.03.04 -
데이터 샘플링 VS GROUP BY 조회 성능 비교
우리 회사의 경우, 데이터를 보여주는 방식은 크게 아래 2가지 방식이다. 모든 데이터를 그냥 화면에 보여준다. 모든 데이터를 특정기준으로 GROUP BY 해서 평균을 보여준다. 모든 데이터를 뿌리는 경우 데이터의 양이 적으면 성능에 큰 문제가 발생하지 않지만, 데이터의 양이 늘어나게 되면 화면이 무거워져 사용자의 편의성이 떨어진다. 모든 데이터를 특정기준으로 GROUP BY 해서 평균 [1. 모든 데이터를 뿌리는 경우]의 성능에 문제가 발생하면, 거의 모든 튜닝이 “GROUP BY 해서 뿌려주는 데이터를 줄이자” 방식으로 진입한다. 하지만, 이 경우, 바람직한 방식이 아니다. 이유는 데이터를 스캔하는 범위는 여전히 똑같고, 거기에 연산 작업이 추가되기 때문에 데이터를 조회하는 성능이 저하된다. “GROU..
2024.02.15 -
모바일 기후동행카드 현금영수증(연말정산) 등록 방법 ( feat. 홈택스 )
기후동행카드란 1회 요금 충전으로 30일간 대중교통를 무제한 이용할 수 있는 대중교통 통합 정기권이다. 비용은 따릉이 미포함 62000원 따릉이 포함 65000원에 사용할 수 있다. 나 같은 경우, 따릉이 미포함으로 62000원 짜리 카드를 사용하고 있다. 하지만 모바일 기후동행카드는 현금영수증을 등록하지 않으면, 연말정산때 현금영수증 환급 대상으로 잡히지 않는다. 이를 위해서 홈택스에 해당 카드를 등록해 주어야 한다. 오늘은 모바일 기후동행카드 현금영수증 등록 방법에 대해 알아보겠다. 1. 홈택스에 방문한다. https://www.hometax.go.kr/ 국세청 홈택스 www.hometax.go.kr 2. 전자(세금) 계산서 현금영수증. 신용카드 메뉴 선택 3. 현금영수증(근로자.소비자) 메뉴 클릭 ..
2024.02.13 -
snowflake 성능 및 비용 테스트 결과 ( aws athena 와 비교 )
오늘은 snowflake와 aws athena 성능과 비용을 비교해보겠다. snowflake는 클라우드를 기반의 데이터 저장 및 분석 서비스를 제공한다. 기업들은 클라우드를 통해 데이터를 저장하고 분석할 수 있다. 주요 기능으로는 기업 고객에게 맞는 스토리지와 컴퓨팅을 분리하여 제공하는 것이 있다. 이는 필요에 따라 컴퓨팅 파워를 즉시 확장할 수 있는 기능이며, 데이터 공유, 데이터 복제 기능을 제공한다. [ 데이터 소개 ] 데이터 : 베트남 공장 데이터 12월 1달 데이터 총 건수 : 233,870 건 1. 실험 쿼리 SELECT A.SPC_1, A.SPC_2, A.SPC_3, A.SPC_4, A.SPC_5, A.SPC_6, A.SPC_7, A.SPC_8, A.SPC_9, A.SPC_0 FROM vtn..
2024.02.06 -
snowflake 사용 요금 보는 방법 ( feat.SQL )
snowflake 에서 비용을 확인하는 방법은 어려가지가 있다. 그 중 자주쓰는 클라우드 서비스 비용 계산 쿼리를 공유하겠다. 해당 쿼리는 sql 별로 비용을 계산하는 문법으로 스토리지 사이즈가 고정적인 사이트에서는 유용하다. 0. 비용이 발생되는 기준 Snowflake의 총 비용은 데이터 전송, 저장, 컴퓨팅 리소스 사용에 따라 결정됩니다. 이 비용은 크게 세 가지 컴퓨팅 리소스 사용 유형으로 나뉩니다: 가상 웨어하우스 컴퓨팅: 사용자가 관리하는 컴퓨팅 리소스로, 데이터 로딩, 쿼리 실행, DML 작업 등을 수행할 때 크레딧을 사용합니다. 웨어하우스가 활성화되는 순간부터 청구되며, 최소 청구 시간은 60초입니다. 서버리스 컴퓨팅: Snowflake가 관리하는 컴퓨팅 리소스로, 검색 최적화나 Snowpi..
2024.01.26