查看原文
其他

34.4K Star 最牛OCR !!! 不要服务器,浏览器识别100+语言文本

开源日记 开源日记
2024-08-22

相关阅读:
23.1K Star这OCR太强!!!支持83种语言识别
8.5K 强强强!!!支持90多种语言的强大OCR

项目简介

Tesseract.js 是一款纯 JavaScript 的 OCR库,它支持超过 100 种语言的文本识别。无论是自动检测文本方向和脚本类型,还是简单直观地获取段落、单词和字符的边界框,Tesseract.js 都能为开发者提供强大的工具。此库不仅可以在浏览器中运行,还能在服务器端使用 Node.js 运行,为多种应用场景提供了灵活的选择。

特点

Tesseract.js 的核心优势在于其广泛的语言支持和自动文本检测功能。它能够自动识别图像中的文本方向和脚本类型,简化了开发流程。此外,Tesseract.js 提供了一个易于使用的接口,让用户能够轻松获取图像中段落、单词以及字符的位置信息。这些特性使得 Tesseract.js 成为一个既强大又便捷的 OCR 解决方案。

开源成就

目前已经取得34.4K Star

主要功能

  • 多语言 OCR:支持超过 100 种语言,用户可以根据需要下载不同的语言包以识别不同语言的文本。
  • 纯前端实现:能够在客户端直接进行 OCR 处理,无需服务器支持,确保数据安全和响应迅速。
  • 自动文本检测:能够自动检测文本的方向和脚本类型,减少人为干预。
  • 简单易用的 API:提供了用户友好的 API 设计,使开发者能够快速上手。

安装指南

  1. 安装:在Node.js项目中,通过npm或yarn安装Tesseract.js:

    npm install tesseract.js
    # 或者
    yarn add tesseract.js
  2. 设置环境:确保你的开发环境支持WebAssembly,这是运行Tesseract.js的前提。

  3. 编写代码:在JavaScript文件中引入Tesseract.js并使用其API进行文本识别:

    const Tesseract = require('tesseract.js');
    Tesseract.recognize(
      'path/to/image.jpg',
      'eng' // 指定语言代码
    ).then(({ data: { text } }) => {
      console.log('Recognized Text:', text);
    });
  4. 浏览器使用:在HTML文件中,你可以通过添加脚本标签并指定CDN链接来使用Tesseract.js:

    <!DOCTYPE html>
    <html lang="en">
    <head>
        <meta charset="UTF-8">
        <meta name="viewport" content="width=device-width, initial-scale=1.0">
        <title>Tesseract.js OCR Demo</title>
        <!-- 引入 Tesseract.js -->
        <script src="https://cdn.jsdelivr.net/npm/tesseract.js@latest/dist/tesseract.min.js"></script>
    </head>
    <body>
        <button id="ocrButton">开始 OCR</button>
        <div id="result"></div>

        <script>
            document.getElementById('ocrButton').addEventListener('click', async () => {
                try {
                    const result = await Tesseract.recognize(
                        'path/to/image.jpg', // 图像文件路径
                        'eng', // 英语的语言代码
                        { logger: m => console.log(m) } // 可选的日志记录
                    );

                    document.getElementById('result').innerText = result.text;
                } catch (error) {
                    console.error('OCR failed:', error);
                }
            });
        
    </script>
    </body>
    </html>

如果你正在寻找一个简单易用、功能强大的 OCR 解决方案,那么 Tesseract.js 绝对值得一试。无论你是初学者还是有经验的开发者,都可以轻松上手。

近期热文:

4.8K Star最强支付 !!! 支付界的瑞士军刀,支持20+渠道
13.9K Star炫酷定制 !!! 打造你的完美桌面状态栏
61K Star超神工具!!!超级启动盘,支持300多种系统
4.4K Star 牛X !!! AI时代的SQL客户端是这样子? 有手就行
107K Star遥遥领先!!!告别Root,超10万人关注的手机投屏利器
继续滑动看下一个
开源日记
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存