일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- PySpark
- pyspark오류
- LLM
- 로컬 pyspark
- 도커오류
- spark explode
- 시각화
- BigQuery
- SparkSQL
- spark #스파크
- Docker error
- tableau
- ifkakao2020
- 언어모델
- 도커exec
- sparkdf
- 데이터 시각화
- 도커
- docker
- 데이터엔지니어링
- Big Query
- DataFrame Spark
- dataframe
- 태블로
- 코테
- 빅쿼리
- 프로그래머스 파이썬
- airflow
- spark df
- 빅쿼리 튜닝
- Today
- Total
목록SOGM'S Data (44)
SOGM'S Data
2025년 뒤늦게 집 아래 카페에서 적어보는 2024년 마지막 회고작년 12.31일에는 개인적인 일이 많아 회고를 뒤늦게 작성하네요.2024년은 정말 빨리 지나갔습니다. 빨리 지나간다고 인지하면서도 빨리 지나갔던...인생은 정말 짧기에 더욱 의미있는 삶을 살고 싶어지는 것 같습니다.본론으로 들어가서 2024년에 대해 월별 키워드 문장과 총평을 적어보겠습니다.1월 : 다짐2월 : 보내줘야하는 것과 쟁취해야하는 것3월 : 준비기억나는 소비로는 맥북 프로가 있네요4월~6월 : 버닝주변에서 결혼식도 많고 둘째 조카도 태어난게 기억에 남네요학기가 시작했기에 여러모로 바쁘면서도 분주한 시기였습니다.7월 : 논문제출논문심사 결과로 졸업이 확정되었습니다. 막판 스퍼트와 좌절과 환희가 공존했던 혼돈의 시기였습니다.8월:..
개인용 LLM 내용 정리 개인적으로 공부하면서 플래그를 찍어볼 내용들 (주로 왜?에 대한 것들) 정리 하는 페이지입니다.토큰화 : 텍스트에 숫자부여. 서브위드 토큰화 : 고빈도 단어는 단어 자체로 토큰화(우리, 가족 등) 가끔 나오는 단어는 작은 단어로 토큰화 하는 방식 임베딩 nn.Embedding 클래스 사용, 임베딩 층 자체도 학습이 된다.트랜스포머에서 토큰 임베딩 대신 Wq, Wk 가중치를 사용하는 이유 토큰 자체가 유사성을 찾기 힘들기 때문에 이또한 학습되어함.ex) 내일 점심에 팀장님이랑 밥 약속이 있어. (내일 점심 팀장)의 관계를 토큰 자체 유사성으로는 알 수 없음 어텐션 스코어를 구할때 분산이 커지면 기울기 소실문제가 있기때문에 임베딩차원의 제곱근으로 나눠준다.# 1. Q와 K의..
def train_dataloader(train_dataset): train_sampler = RandomSampler(train_dataset) model_collate_fn = functools.partial( process_batch, tokenizer=tokenizer, max_len=args.max_seq_length ) train_dataloader = DataLoader(train_dataset, batch_size=args.batch_size, sampler=train_sampler, collate_fn=model_collate_fn) return train_dataloader view raw 논문 리뷰내용은 추가예정 1.논문에서 학습에 구현된 wikiDataset class wikiDat..
2023년의 마지막날 집 아래 카페에서 적어보는 2023년 마지막 회고 식상한 얘기지만 해가 지날수록 시간이 점점 빠르게 가는 것 같습니다. 내가 무엇을 했는지, 하는지 인지하지 않고 살아가다 보면 저 같은 평범한 직장인의 삶은 쉽사리 기억에 남기가 어렵더라고요 그래서 올해의 마지막 날 2023년 나는 어떻게 살았는가에 대해 짧은 글로 가볍게 적어보고자 합니다. 저는 데이터 분석가로 IT회사를 재직 중이며 , 작년부터 현재까지 직장 병행 대학원을 다니고 있습니다. 1월, 2월에는 회사 내 새로운 데이터 업무로 바쁘게 지냈고 3월 ~ 6월은 대학원 학기와 병행하며 정신없이 흘러갔던 거 같습니다 7 ~ 8월은 부모님과 누나네 가족과 함께한 스위스여행이 가장 떠오르네요 9월부터는 회사 조직이동과 본격적인 논문..
배경 데스크탑을 샀다. 이번 데스크탑은 반드시 colab 기본보다 좋은 그래픽카드를 사서 로컬에서 모델을 돌리노라 다짐. colab 벤치마킹이 3060이랑 비슷하다해서 3080을 구매했다. 아나콘다 주피터노트북에서 GPU연산을 위해서 CUDA 설치 시작을 마음 먹고... 서치 시작 온라인에 있는 Tensorflow-gpu 설치 자료들은 대부분 window10을 기반으로 작성되어있다보니 cuda 설치과정에서 애를 먹었다. 1. tensorflow 공식홈페이지에서 GPU 지원버전은 tensorflow_gpu-2.10.0 가 마지막이었다. 공홈 : https://www.tensorflow.org/install/source_windows?hl=ko#tested_build_configurations 2. 따라서 ..