OCR

빅데이터 & 분석/Machine Learning

파이썬(Python) - 머신러닝 프로젝트(최종) - 나이브 베이즈 스팸 필터링

파이썬 - 머신러닝 프로젝트 설명OCR 추출 부터 이어지는 머신러닝을 활용한 스팸 이미지 분류의 마지막 포스팅 입니다. 해당 프로젝트는 SMS로 수신되는 다양한 이미지 스팸(SPAM) 광고 문자(이미지)를 분석해서 텍스트를 분석 -> 출력 -> 데이터 정제 -> 기계학습 -> 스팸 종류 및 카테고리를 분류하는 순서로 개발했습니다. 오늘은 마지막 과정인 파이썬의 Pandas, Scikit-learn과 트위터 형태소 분석기(KoNLPy)를 활용해서전처리 된 텍스트를 기계학습(지도학습) 후에 스팸 항목별 분류 정확도를 높이는 예제를 작성하도록 하겠습니다. 관련 프로젝트를 진행하실 예정이거나, 관련 주제를 학습하시는 분들을 위해서 하단에 최종 소스파일을 첨부하였으므로, 실습을 해보시면 조금은 도움이 될 것으로 ..

빅데이터 & 분석/Machine Learning

파이썬(Python) - 머신러닝 프로젝트(4) - mLab 호스팅 활용 MongoDB 연동

파이썬 - 머신러닝 프로젝트 설명OCR 추출 부터 이어지는 머신러닝을 활용한 프로젝트 네 번 째 포스팅 입니다. 제가 진행하는 프로젝트는 SMS로 수신되는 다양한 이미지 스팸(SPAM) 광고 문자(이미지)를 분석해서 텍스트를 분석 -> 출력 후 -> 데이터 정제 -> 기계학습 -> 데이터 확인(스팸 종류 및 여부) 확인 순서로 진행할 예정입니다. 오늘은 지금까지 전처리 된 텍스트 데이터를 데이터베이스에 저장하는 방법을 설명드리겠습니다. 데이터를 저장하는 작업은 중요한 작업입니다. 전처리 된 데이터는 해당 프로젝트 분석 결과를 결정하는 만큼 원천 데이터를 반드시 관련 데이터베이스 저장해야 합니다. 아울러, 지속적으로 데이터가 증가되는 환경 및 후에 데이터 재사용을 고려할 때 응답속도가 높은 데이터베이스 시..

빅데이터 & 분석/Machine Learning

파이썬(Python) - 머신러닝 프로젝트(3) - 문자열 가공 및 TXT 및 CSV 저장

파이썬 - 머신러닝 프로젝트 설명OCR 추출 부터 이어지는 머신러닝을 활용한 프로젝트 세 번 째 포스팅 입니다. 제가 진행하는 프로젝트는 SMS로 수신되는 다양한 이미지 스팸(SPAM) 광고 문자(이미지)를 분석해서 텍스트를 분석 -> 출력 후 -> 데이터 정제 -> 기계학습 -> 데이터 확인(스팸 종류 및 여부) 확인 순서로 진행할 예정입니다. 오늘은 파이썬을 활용해서 기계학습 이전 단계까지의 추출 된 텍스트를 1차 정제 및 가공해서 트레이닝 데이터로 전달하기 위해서 최종적으로 작성하는 프로젝트를 구축할 예정입니다. 5회 정도의 포스팅으로 연재를 이어나갈 예정이며, 하단의 예제를 쉽게 따라하실 수 있게 정리하겠습니다.이전 포스팅을 차근차근 읽어보시면 더욱 도움이 되실걸로 생각이 됩니다. - 관련 포스팅..

빅데이터 & 분석/Machine Learning

파이썬(Python) - 머신러닝 프로젝트(2) - OCR 이미지 문자열 추출(파이썬)

파이썬 Tesseract - 프로젝트 설명OCR 추출 부터 이어지는 머신러닝을 활용한 프로젝트 두번 째 포스팅 입니다.제가 진행하는 프로젝트는 SMS로 수신되는 다양한 이미지 스팸(SPAM) 광고 문자(이미지)를 분석해서 텍스트를 분석 -> 출력 후 -> 데이터 정제 -> 기계학습 -> 데이터 확인(스팸 종류 및 여부) 확인 순서로 진행할 예정입니다. 오늘 정리 예정인 내용은 지난 시간에 이어서 Tesseract 사용 부분을 파이썬 코드로 변환해서 앞으로 연동 예정인 Pandas, Numpy 등에 대비할 예정입니다. 5회 정도의 포스팅으로 연재를 이어나갈 예정이며, 하단의 예제를 쉽게 따라하실 수 있게 정리하겠습니다.이전 포스팅을 차근차근 읽어보시면 더욱 도움이 되실걸로 생각이 됩니다. - 관련 포스팅 ..

빅데이터 & 분석/Machine Learning

파이썬(Python) - 머신러닝 프로젝트(1) - OCR 이미지 문자열 추출(Tesseract)

파이썬 Tesseract - OCR 활용 설명실무에서 머신러닝을 활용한 프로젝트를 진행하게 되었습니다. 우선 이미지에서 한글 및 영문을 텍스트를출력 후 -> 데이터 정제 -> 기계학습 -> 데이터 확인 순으로 평범하게 진행할 예정입니다. 그에 맞게 관련된 내용을 블로그에 정리하려고 합니다. 오늘은 첫 번째 시간으로 오픈소스 OCR 제품인Tesseract를 활용해서 이미지에서 텍스트를 추출하는 내용을 포스팅 합니다. 5회 정도의 포스팅으로 연재를 이어나갈 예정이며, 하단의 예제를 쉽게 따라하실 수 있게 정리하겠습니다. Tessaract - 다운로드 및 설치우선 Tessaract 를 자신의 운영체제에 맞는 버전으로 다운로드 합니다. - Tessaract 다운로드본 설정은 Windows10 (x64)에서 설정..

[좋은사람]
'OCR' 태그의 글 목록