이 예제에서는 레이블 및 특징 벡터의 데이터 집합을 수행합니다. 로지스틱 회귀 알고리즘을 사용하여 피처 벡터에서 레이블을 예측하는 방법을 배웁니다. 직렬화는 개체를 디스크 나 데이터베이스에 유지하거나 스트림을 통해 보낼 수있는 바이트 시퀀스로 변환하는 프로세스입니다. 바이트 시퀀스에서 개체를 만드는 역프로세스를 역직렬화라고 합니다. 보다 실용적인 예로, 서버 및 클라이언트와 같은 영화 응용 프로그램을 사용할 수 있습니다. 클라이언트의 응용 프로그램이 검색할 쿼리를 서버에 보낼 때마다(예: 동영상 목록). 서버는 사용 가능한 Movie 개체 목록을 클라이언트에 다시 전달해야 하며 개체를 직렬화해야 합니다. 예를 들어 reduceByKey()를 사용하면 데이터가 섞이기 전에 동일한 키가 있는 쌍이 이미 결합됩니다. 따라서 네트워크를 통해 더 적은 데이터를 전송해야 합니다.

그런 다음 각 파티션의 모든 값이 줄어들도록 reduce 함수가 다시 호출됩니다. 이 예제에서는 데이터베이스에 저장된 테이블을 읽고 모든 연령대의 인원수를 계산합니다. 마지막으로 계산된 결과를 JSON 형식으로 S3에 저장합니다. 간단한 MySQL 테이블 “사람”이 예제에서 사용되며 이 테이블에는 “이름” 및 “나이”라는 두 개의 열이 있습니다. JDBC, 스파크 비라인 등을 사용하여 파이썬 프로그래밍 내에서 스파크에 액세스하는 다양한 방법이 있습니다. Pyspark는 RDD, 데이터 프레임 등을 만드는 쉬운 방법을 제공합니다. 피스파크는 스칼라만큼 빠르지는 않지만 그 목적을 제공합니다. 비동기 코드는 원격 서비스에 대한 호출을 할 때 비차단 I/O를 허용합니다. 예제와 다르게 명시해 보겠습니다: 첫 번째 코드줄이 데이터베이스를 쿼리하고 다음에 무언가를 콘솔로 인쇄하는 경우 동기 프로그래밍은 무언가를 인쇄하기 전에 쿼리가 완료될 때까지 기다립니다.

프로그램이 (일시적으로) 차단되었습니다. 프로그래밍 언어가 비동기 프로그래밍을 지원하지 않는 경우 병렬로 코드 줄을 실행하기 위해 스레드를 만들어야 합니다. 반면비동기 프로그래밍은 데이터베이스가 쿼리되는 동안 콘솔에 이미 인쇄됩니다. 쿼리는 백그라운드에서 처리됩니다. 참고 : RDD의 작업을 구현하기 위해 RDDName = sc.textFile (“업로드 할 파일의 경로”)을 사용하여 RDD를 만들었습니다. 제가 사용한 파일은 2017년 Fortune 지 선정 500대 기업의 데이터 집합입니다. Spark에는 RDD에서 수행할 수 있는 특정 작업이 있습니다. 작업은 기본적으로 특정 작업을 수행하기 위해 RDD에 적용되는 방법입니다. RDD는 작업과 변환이라는 두 가지 유형의 작업을 지원합니다.

예제를 통해 개별적으로 이해해 봅시다. 이 예제에서는 몇 가지 변환을 사용하여 카운트라고 하는 (String, Int) 쌍의 데이터 집합을 빌드한 다음 파일에 저장합니다. 스파크 독립 실행형 모드에서 이전 예제를 실행하는 방법은 다음과 같습니다 : Pyspark 셸을 시작하려면 다음 명령을 입력하십시오: 파이썬 프로그램을 사용하여 동일한 예제를 실행해 보겠습니다. 따라서 이름 firstapp1.py 있는 Python 파일을 만든 다음 해당 파일에 다음 코드를 입력합니다. 파이스파크가 무엇인지, 파이썬이 스파크, RDD, 그리고 Pyspark 튜토리얼 블로그에서 파이스파크와 함께 하는 머신 러닝을 엿볼 수 있는 이유에 대해 알아보셨으면 합니다. 축하합니다, 당신은 더 이상 PySpark에 초보자가 아닙니다.

 

Comments are closed.

Set your Twitter account name in your settings to use the TwitterBar Section.