용어 Relation: table을 의미 Tuple: row를 의미 Attribute: column을 의미 Schema: Relation명(Attribute명1, Attribute명2, ...) 으로 나타내는데, 보통은 Schema diagram을 일컫는 듯하다 Key: Tuple에 유니크한 정체성을 부여하는 Attribute (말이 좀 어려운데 예를 들어 STUDENT Relation에서 SSN(학번) Attribute가 Key이다) Domain: Attribute가 가질 수 있는 값들(을 의미하는 듯) 특징 - Relational Database는 table 형태로 데이터를 저장한다. - Relation은 Tuple들의 집합이므로 중복된 행(Tuple)이 없어야 한다. Relational Constr..
AWS 콘솔 페이지로 들어간다. (https://ap-northeast-2.console.aws.amazon.com/ec2/v2/home?region=ap-northeast-2#Instances:) 회원가입은 마쳤다고 가정한다. 1. 인스턴스 생성하기 우측 상단을 보면 '서울' 지역이 선택되어 있다. 자신이 사용할 지역으로 설정하면 된다. '인스턴스 시작' 버튼을 누른다. 머신 이미지를 선택하면 되는데 나는 Ubuntu Server 20.04 LTS를 선택했다. 생성할 인스턴스의 유형을 선택한다. 보통 CPU 수와 메모리에 따라서 원하는 사양을 고르면 된다. 인스턴스 별 세부사항은 https://aws.amazon.com/ko/ec2/instance-types/ 여기서 확인한다. 범용, 컴퓨팅 최적화, ..
S3 버킷 관련 명령어 참조 링크 https://docs.aws.amazon.com/ko_kr/cli/latest/userguide/cli-services-s3-commands.html AWS CLI에서 상위 수준(s3) 명령 사용 - AWS Command Line Interface PowerShell을 사용하는 경우 셸은 CRLF의 인코딩을 변경하거나, 파이프 입력이나 출력 또는 리디렉션된 출력에 CRLF를 추가할 수 있습니다. docs.aws.amazon.com 1. S3 버킷 생성하기 CLI: $ aws s3 mb 버킷명 입력 GUI: https://docs.aws.amazon.com/ko_kr/AmazonS3/latest/userguide/create-bucket-overview.html 를 따라..
AWS 콘솔 창에서 $ ssh-keygen -t rsa -b 4096 -C "GitHub이메일주소" 을 입력한다. 개인정보상 부분부분 가렸지만, public key가 '/home/사용자명/.ssh/id_rsa.pub' 에 저장되었다는 문구가 뜬다. $ cat /home/사용자명/.ssh/id_rsa.pub 를 입력하면 ssh-rsa 로 시작하는 긴 텍스트가 뜰 텐데, 처음부터 끝까지 복사한다. 그리고 GitHub에 들어가서, 우측 프로필 아이콘 - Settings - SSH and GPG keys 탭을 들어가서 New SSH Key 버튼을 누른다. Title에는 key 이름을 대충 지어주고 Key 란에다가 콘솔에서 복사해둔 텍스트를 붙여넣기 하고 Add SSH key 버튼을 누른다. 그리고 나의 경우에는..
Repo 주소 : https://github.com/dedupeio/csvdedupe GitHub - dedupeio/csvdedupe: Command line tool for deduplicating CSV files :id: Command line tool for deduplicating CSV files - GitHub - dedupeio/csvdedupe: Command line tool for deduplicating CSV files github.com 설치 pip install csvdedupe 사용법 > csvdedupe 입력파일명.csv --field_names "컬럼명" --output_file 출력파일명.csv field_names에는 deduplication 확인을 할 컬럼명을 써준..
1. Google Cloud Storage 버킷 생성 https://cloud.google.com/storage/docs/creating-buckets/?hl=ko 위 링크를 따라 스토리지 버킷을 만든다. 2. 동기화 진행 synology NAS 접속. Cloud Sync 패키지를 열고 클라우드 공급자에서 'Google Cloud Storage' 선택. '프로젝트 ID'에 GCP 프로젝트명, 'Bucket 이름'에 1번 과정에서 생성한 버킷 이름을 써주고 다음 버튼 클릭. '로컬 경로'(NAS에서의 경로)만 지정한 후 다음 버튼 클릭. 동기화 완료! 3. GCP에서의 파일을 버킷에 업로드 (역방향도 가능) GCP 내 콘솔창에서 다음 커맨드 입력 -> $ gsutil cp 파일명 gs://버킷명 (GCP ..
GCP Configuration 설정을 다 완료하고, $ gcloud compute ssh 인스턴스명 을 입력하고 잘 되었다면 아래와 같이 출력된다. (개인정보일 것 같아 대충 가렸다ㅎ) 'Your public key has been saved in 파일경로' 에 나온 파일을 확인하면 된다. 확장자는 .pub이다. 이게 public ssh key다. $ cat 파일경로 를 입력해서 출력되는 키를 첨부터 끝까지 복사한다. 그리고 자신의 깃허브 페이지로 들어가서, 맨 오른쪽 위에 있는 아이콘을 누르고 Settings 를 누른다. 왼쪽 탭에서 'SSH and GPG keys' 탭 클릭 - 'New SSH key' 버튼 클릭 Title은 대충 '이름 SSH key' 정도로 써주고, Key에다가 방금 복사했던 k..
1. https://console.cloud.google.com/ 에 가서 탐색 메뉴 - Compute Engine - VM 인스턴스- 인스턴스 만들기를 누른다. 인스턴스 이름을 원하는대로 입력하고, 리전은 나의 경우 가까운 서버를 이용하기 위해 asia-northeast3(서울)을 선택했다. 머신 구성에서는 머신 종류에 따라 가격이 달라지기 때문에 형편에 맞게 고른다. 나의 경우 많은 데이터를 크롤링하는데, 큰 데이터셋을 구축하는 데에 E2보다 N2가 좋다는 글을 보고 N2에서 CPU가 가장 작은 n2-standard-2로 진행해보았다. 인스턴스를 만들면 바로 실행이 되고 실행이 되는 동안에 계속해서 요금이 청구된다. (CPU만 사용하는 경우 인스턴스를 중지해놓으면 요금이 청구되지 않는다고 한다) (+..