본문 바로가기

CSV6

[pyspark] CSV파일로 데이터프레임 생성 pyspark에서 스파크세션을 이용하여 CSV파일을 읽어서 데이터프레임을 생성하는 예제를 알아보겠습니다. ; 2020. 6. 4.
[R] R을 이용하여 CSV 파일을 읽을 때 첫번째 문자가 깨지는 오류 해결 방법 R을 이용하여 파일을 읽을 때 첫 번째 칼럼의 이름이나 첫번재 데이터의 문자가 깨지는 경우가 있습니다. 이는 UTF-8 형식 문서의 BOM으로 인하여 문자가 깨진것으로 인식하기 때문입니다. 이를 해결하기 위하여 read.csv(fileEncoding="UTF-8-BOM") 처럼 fileEncoding을 BOM형식을 확인하도록 선언하여 주면 됩니다. # UTF-8의 BOM으로 인하여 파일이 깨짐 > mlbstat = read.csv(file = "mlb-player-stats-Batters.csv", header = T) > summary(mlbstat) 癤풮layer Team Pos G AB R H X2B Adeiny Hechavarria: 3 BAL : 28 1B: 76 Min. : 1.00 Min. .. 2019. 9. 16.
[R] 파일 읽기/쓰기 R에서 파일을 읽고 쓰는 방법은 다음과 같습니다. 에러 주의 사항 read.delim() 명령은 txt파일은 마지막 행에 공백이 있어야 합니다. 공백이 없으면 다음과 같은 오류가 발생합니다. > source = read.delim("source.txt", header=FALSE, sep=" ") Warning message: In read.table(file = file, header = header, sep = sep, quote = quote, : 'source.txt'에서 readTableHeader에 의하여 발견된 완성되지 않은 마지막 라인입니다 읽기/쓰기 함수 선택 R에서 문자를 읽고 쓰는 패키지는 다양하게 존재합니다. fread(), fwrite()가 기본라이브러리보다 빠른 속도를 보여주는 것.. 2019. 9. 9.
[hive] 하이브 처리 결과를 gzip으로 압축하는 방법 하이브 처리 결과를 gzip으로 압축하여 출력할 때는 다음과 같이 사용합니다. hive.exec.compress.output: 출력결과의 압축 여부를 설정 mapred.output.compression.codec: 압축 코덱을 설정. core-site.xml의 io.compression.codecs에 설정된 값을 사용 set hive.exec.compress.output=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; -- 조회결과를 gzip으로 압축하여 출력 INSERT OVERWRITE DIRECTORY 'hdfs:///user/tables/' SELECT * FROM table WHERE name =.. 2019. 4. 3.
[hive] Hive의 데이터를 CSV 형태의 파일로 export 하는 방법 하이브의 데이터를 csv 형태로 export 하는 방법은 다음과 같다. 다음과 같이 INSERT DIRECTORY 문을 이용화여 파일로 데이터를 작성하는 방법이다. 데이터 양이 작을 경우에는 LOCAL 문을 추가하여 로컬에 데이터를 저장해도 되고, 데이터 양이 많다면 hdfs 에 데이터를 저장하면 된다. hive -e "INSERT OVERWRITE [LOCAL] DIRECTORY 'hdfs://hdfs_location'ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','STORED AS TEXTFILESELECT * FROM temp;" * cli 환경에서 상요할 때는 \ 를 추가하여 개행이 되도록 설정 칼럼 헤더를 파일에 추가해야 한다면 다음과 같이 처리하는 방법도 있다. .. 2018. 3. 30.
[hive] 하이브의 CSV 서데 사용 방법 하이브는 CSV 형식의 파일을 효과적으로 적재하기 위한 CSV 서데를 제공한다. * Hive 0.14 버전부터 기본 지원 ** CSV 서데를 이용하면 테이블 칼럼의 타입은 String 으로 고정 - sepratorChar: 칼럼간의 구분자 - quoteChar: 칼럼의 값을 지정한 문자로 묶어준다. - escapeChar: 칼럼에 데이터를 입력할 때 파싱하지 않고 무시 CREATE TABLE my_table( a string, b string)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITH SERDEPROPERTIES ( "separatorChar" = ",", "quoteChar" = "'", "escapeChar" = "\\") S.. 2017. 3. 8.