音视频 - overfit.cn

离散傅里叶变换（DFT）和快速傅里叶变换（FFT）

离散傅里叶变换（DFT）和快速傅里叶变换（FFT）是信号处理和数字信号处理中的基本工具。它们用于将时间域的信号转换为频率域的表示，帮助分析信号的频谱成分。DFT是将离散时间信号转换为频域表示的工具。通过递归地应用这种分解，可以大幅减少计算量。卷积计算：利用FFT快速计算大规模卷积。滤波器设计：快

overfit同步小助手 2024-11-15 01:01:36 0 收藏

抖音，快手，视频号AI无人直播插件实用教程

抖音无人直播,快手无人直播，淘宝无人直播，视频号无人直播软件

overfit同步小助手 2024-11-14 22:01:45 0 收藏

深入解析Diffusion和AsymmDiT：Mochi 1的高效AI视频生成之路

Mochi 1凭借其创新的AsymmDiT架构，在AI视频生成领域展现了强大潜力。其高效生成流程和优异的时序一致性，使其在处理复杂动态场景时表现突出。对于有志于探索AI视频生成技术的研究者和开发者而言，Mochi 1是一个强大且灵活的解决方案。如果您对Mochi 1或其他AI视频生成技术感兴趣，欢迎

overfit同步小助手 2024-11-13 05:01:36 0 收藏

音频3A一——webrtc源码3A的启用方法和具体流程

在上一篇文章中，音频3A——初步了解音频3A，大致介绍了3A的作用、使用场景以及带来了哪些问题，同时列举了一些各个平台常用的3A开源库，再接下来的文章中，博主打算以webrtc（实在过于经典）来介绍具体的3A算法，所以需要读者对于webrtc拥有一定的了解。由于webrtc过于庞大，3A只是webr

overfit同步小助手 2024-11-12 16:03:02 0 收藏

CodeFormer——卓越的AI照片修复工具，能够轻松消除图片以及视频中的马赛克，还原清晰画质。

（可选）：根据需要恢复的图像的特点，需要调整 CodeFormer 的参数，如控制特征转换模块的权重，在恢复质量和忠实度之间进行权衡。CodeFormer采用多阶段处理的方法，先对图像或视频进行初步的高清修复，然后进一步细化和优化，以达到更好的视觉效果。：特别针对视频和图片中的马赛克区域，CodeF

overfit同步小助手 2024-11-12 13:01:30 0 收藏

视频播放--vue3+西瓜播放器

实现方式非常简单，只需三步：安装、DOM占位、实例化即可完成播放器的使用。

overfit同步小助手 2024-11-10 12:02:32 0 收藏

金字塔流（Pyramid Flow）：用于生成人工智能长视频的新文本-视频开源模型

在 "生成式人工智能 "中的文本生成模型和图像生成模型大行其道之后，现在该是文本-视频模型大显身手的时候了，这个列表中的新模型就是 pyramid-flow-sd3，它是一个开源模型，用于从文本或图像生成长达 10 秒的视频，而且是 24fps 的视频！

overfit同步小助手 2024-11-08 06:01:47 0 收藏

WebRtc音频01 - 设备管理

Audio Device Module (ADM) 用来管理详情可以参考：https://chromium.googlesource.com/external/webrtc/+/master/modules/audio_device/g3doc/audio_device_module.mdwebrt

overfit同步小助手 2024-11-02 22:03:13 0 收藏

Pyramidal Flow使用指南：快手、北大、北邮，开源可免费商用视频生成模型，快速上手教程

本指南详细介绍了 Pyramidal Flow 的安装、配置、使用方法，以及如何利用这一模型将文本描述转化为高质量视频。Pyramidal Flow 由快手科技、北京大学和北京邮电大学联合推出，支持商业使用，具备文本到视频生成、高分辨率输出、自回归视频生成等功能。

overfit同步小助手 2024-11-02 02:04:22 0 收藏

webrtc视频jitterbuffer全网最详细分析

上图横轴为每一帧的时间戳，纵轴为每帧完整时进行处理通过系统接口获取的当前时间now_ms(也可以理解为一帧在接收端接收的时间),其中绿色的点为每帧实际的时间戳对应的实际接收时间now_ms,最下方黑色虚线为结合所有帧的时间戳和now_ms经过卡尔曼滤波之后拟合出来的一个直线，红色点为最后这一帧根据其

overfit同步小助手 2024-10-30 21:03:10 0 收藏

AI视频！OpenAI发布最新模型sCM，开启图像、音频、视频、三维模型AI新时代

我们提出的训练算法仅使用两个采样步骤，在CIFAR-10上取得了2.06的FID分数，在ImageNet 64x64上取得了1.48的FID分数，在ImageNet 512x512上取得了1.88的FID分数，将与现有最佳扩散模型的FID分数差距缩小到10%以内。比如，几只巨大的毛茸茸的猛犸象正踏着

overfit同步小助手 2024-10-29 02:01:38 0 收藏

视频中间件：海康ISUP设备接入并输出标准FLV/RTSP/HLS流

海康ISUP协议与海康Ehome协议一样也是设备端主动向平台和服务注册的一种主动注册协议，适用于互联网（前端网络无固定IP地址）视频联网应用场景，如视频上云联网应用。随着产品的不断迭代升级，海康近2年推出的许多新产品已经取消了Ehome协议，取而代之的是海康ISUP协议，我们作为专业视频中间件平台的

overfit同步小助手 2024-10-26 04:02:30 0 收藏

将PDF文件转换为音频播客、讲座和摘要PDF2Audio；Open WebUI & Ollama的代码执行工具

PDF转音频转换器可以将PDF文件转换为音频播客、讲座和摘要，支持多种自定义选项。PDF to Audio Converter 是一款强大的工具，能够将PDF文档转换为音频格式，例如播客、讲座和摘要等。该工具利用OpenAI的GPT模型进行文本生成和语音合成，同时允许用户对文本进行多次编辑和提供反馈

overfit同步小助手 2024-10-25 21:04:15 0 收藏

【AI语音克隆】GPT-SoVITS V2版，业界最强的AI声音克隆软件、文本转语音工具，新增两种新语种，更强的V2模型

overfit同步小助手 2024-10-25 12:01:33 0 收藏

在国产芯片上实现YOLOv5/v8图像AI识别-【4.2】RK3588获取USB摄像头图像推流RTSP更多内容见视频

在实际生产过程中，有很多时候不光是通过网络获取rtsp视频流，通常会采用在板子上插上USB摄像头获取画面。今天我将向搭建演示该如何通过USB获取画面后推流出RTSP视频流。本课程相关代码以开源在V8的项目中，有开源链接的朋友可以重新拉取一下代码。

overfit同步小助手 2024-10-24 06:01:44 0 收藏

WebRTC音频 02 - Windows平台设备管理

上一节讲了WebRtc如何去管理音频设备的，最终得出结论就是使用了ADM。但是ADM之下，Windows、Linux、mac又各不相同，这一节就分析下Windows平台是如何管理这些音频设备的。也就是分析下AudioDeviceWindowsCore这个类都干了啥！分析之前我们得先看下Core Au

overfit同步小助手 2024-10-23 18:03:06 0 收藏

【AI人脸融合】FaceFusion 3.0一键整合包，支持AI视频/图片人脸融合、数字人视频、表情修复、年龄修改等

F5-AI社区，不仅为0基础小白量身打造了保姆级教程，配以1对1咨询服务，更赠送FaceFusion 3.0免费学习工具，沉浸式体验教学教会你，如何在电脑上使用 FaceFusion进行AI换脸，实现全方位AI工具自由之路。

overfit同步小助手 2024-10-23 01:01:11 0 收藏

RTE大会报名丨重塑语音交互：音频技术和 Voice AI，RTE2024 技术专场第一弹！

实现 human-like 的最后一步是什么？AI 视频爆炸增长，将面临何种挑战？当大模型进化到，又将诞生什么样的新场景和玩法？所有都在探寻规格和性能的最佳平衡，如何构建高可用的云边端协同架构？AI 加持下，也迎来新增长，我们距离无处不在的计算还有多远？，10 月 25、26 日，北京。我们将为你呈

overfit同步小助手 2024-10-21 06:01:43 0 收藏

【PCL】Ubuntu22.04 安装 PCL 库

PCL（Point Cloud Library）是一个开源的大型项目，专注于2D/3D图像和点云处理。PCL为点云数据的处理和分析提供了丰富的功能和算法，这些功能包括但不限于点云滤波、特征提取、表面重建、模型拟合、配准、分割等。下面我们再 Ubuntu 环境下安装 PCL 库。

overfit同步小助手 2024-10-20 11:06:35 0 收藏

8个超好用的音效素材网站，剪辑必备

在创作多媒体内容时，音效素材是赋予作品生动和丰富氛围的关键之一。为了帮助大家找到最适合的音效，我整理了8个备受好评的音效素材网站。这些网站提供了各种类型和风格的音效，无论您是在制作视频、游戏、动画还是其他多媒体项目，都能在这些资源中找到所需的素材。

overfit同步小助手 2024-10-19 22:03:01 0 收藏